Школа Опойцева: Теория вероятностей. Учебное пособие - Опойцев В.И.

Автор: Опойцев В.И.
Теги: теория вероятностей математическая статистика комбинаторный анализ теория графов математика естественные науки математические модели учебное пособие
ISBN: 978-5-9710-5497-9
Год: 2018
Похожие
Теория вероятностей и математическая статистика: Учебное пособие
Сборник задач по теории вероятностей. Учебное пособие
Школа Опойцева: Начала матанализа. Элементы теории вероятностей
Задачник по теории вероятностей
Текст
                    
Школа
Опойцева
Теория
вероятностей
МОСКВА
URSS
ББК 22.171 22.1о 22.1я73
Опойцев Валерий Иванович
Школа Опойцева: Теория вероятностей. Учебное пособие.
М.: ЛЕНАНД, 2018. — 280 с.
Излагается стандартный курс теории вероятностей в авторской аранжировке.
Помимо классических разделов теории вероятностей освещается ряд новых
направлений, в частности, нелинейный закон больших чисел. Изложение сопро-
вождается большим количеством примеров, задач и парадоксов, способствующих
рельефному восприятию материала. Затрагиваются многие прикладные области:
управление запасами, биржевые игры, массовое обслуживание, страховое дело,
стохастическая аппроксимация, обработка статистики, теория информации.
Книга отличается краткостью и прозрачностью изложения. Объяснения да-
ются «человеческим языком» — лаконично и доходчиво, благодаря чему книга
легко читается. Значительное внимание уделяется мотивации результатов. Охват
тематики достаточно широкий, но изложение построено так, что можно ограни-
читься любым желаемым срезом содержания.
Для студентов, преподавателей, инженеров и научных работников.
Графическое оформление Марины Павликовской
Формат 60x90/16. Печ. л. 17,5. Зак. № АО-1990.
Отпечатано в ООО «ЛЕНАНД».
117312, Москва, проспект Шестидесятилетия Октября, 11 А, стр. 11.
ISBN 978-5-9710-5497-9
© ЛЕНАНД, 2018
НАУЧНАЯ И УЧЕБНАЯ ЛИТЕРАТУРА
E-mail: URSS@URSS.ru
Каталог изданий в Интернете:
http://URSS.ru
Тел/фа кс (многоканальный):
URSS	+ 7 (499) 724 25 45
Все права защищены. Никакая часть настоящей книги не может быть воспроизведена или
передана в какой бы то ни было форме и какими бы то ни было средствами, будь то элек-
тронные или механические, включая фотокопирование и запись на магнитный носитель,
а также размещение в Интернет, если на ТО йф письменного разрешения владельца.
Оглавление
Предисловие............................................. 7
Глава 1.	Элементарная теория.......................... 8
1.1.	Основная модель.............................. 8
1.2.	Азы комбинаторики........................... 11
1.3.	Комбинации событий.......................... 14
1.4.	Задачи с подвохом .......................... 17
1.5.	Условная вероятность и независимость........ 19
1.6.	Независимость испытаний..................... 21
1.7.	Формула Байеса и проверка гипотез........... 21
1.8.	Ещё раз об условной вероятности............. 24
1.9.	Примеры и задачи ........................... 25
1.10.	Выбор в условиях неопределённости........... 29
1.11.	Авантюра века............................... 32
1.12.	Стохастические предрассудки................. 34
1.13.	Проклятие моделирования..................... 37
1.14.	Аксиоматика Колмогорова . . ..............   39
Глава 2.	С.в. и континуальные пространства ...........42
2.1.	Случайные величины.......................... 42
2.2.	Континуальные Q............................. 45
2.3.	Плотности и функции распределения........... 47
2.4.	Математическое ожидание..................... 50
2.5.	Независимость случайных величин............. 51
2.6.	Комбинирование случайных величин............ 52
2.7.	Дисперсия, ковариация, корреляция........... 54
2.8.	Неравенства................................. 56
2.9.	Метод наименьших квадратов.................. 60
4
Оглавление
Глава 3.	Основные функции распределения................62
3.1.	Стандартный ассортимент...................... 62
3.2.	Функции случайных величин.................... 67
3.3.	Условные плотности........................... 69
3.4.	Характеристические функции................... 73
3.5.	Производящие функции......................... 76
3.6.	Приложение к ветвящемуся процессу............ 78
3.7.	Нормальный закон распределения............... 80
3.8.	Пуассоновские потоки......................... 83
3.9.	Статистики размещений........................ 86
3.10.	Распределение простых чисел................. 87
3.11.	Задачи и дополнения......................... 89
Глава 4.	Законы больших чисел......................... 93
4.1.	Слабые варианты.............................. 93
4.2.	Усиленный закон больших чисел................ 95
4.3.	Несколько сюрпризов.......................... 98
4.4.	Нелинейный закон больших чисел............... 99
4.5.	Дисперсия и сопряжённая плотность............101
4.6.	Доказательство ключевой леммы................103
4.7.	Оптимизация
в больших размерностях.......................105
4.8.	Несколько замечаний..........................107
Глава 5.	Сходимость...................................109
5.1.	Сходимость п.н. и по вероятности.............109
5.2.	Сходимость с.к. и по распределению...........110
5.3.	Взаимоотношения..............................112
5.4.	Комментарии .................................113
5.5.	Закон «нуля или единицы» ....................115
5.6.	Сходимость рядов.............................116
5.7.	Предельные распределения.....................117
5.8.	Задачи и дополнения..........................118
Глава 6.	Бросание монеты
и случайное блуждание........................122
6.1.	Схема Бернулли...............................122
6.2.	Закон арксинуса..............................124
6.3.	Задача о баллотировке........................126
Оглавление
5
6.4.	Задача о разорении..........................126
6.5.	Различие при блуждании в R1, R2 и R3........128
6.6.	Процессы восстановления.....................130
Глава 7.	Философия случайности.......................132
7.1.	Где корни случайности.......................132
7.2.	Псевдослучайное поведение...................135
7.3.	К обоснованию статистической физики.........136
Глава 8.	Метод Монте-Карло
и вероятностные алгоритмы....................140
8.1.	Идея метода.................................140
8.2.	Ассортимент приложений......................143
8.3.	Случайность против неопределённости ........148
8.4.	Распознавание образов.......................150
8.5.	Стохастическая аппроксимация................153
8.6.	Генераторы «случайных» чисел................154
Глава 9.	Марковские процессы.........................157
9.1.	Марковские модели...........................157
9.2.	Линейная модель.............................159
9.3.	Процессы с непрерывным временем.............162
9.4.	О практических задачах......................165
Глава 10.	Случайные процессы..........................167
10.1.	Случайные функции и их свойства.............167
10.2.	Эргодичность................................170
10.3.	Случайные процессы..........................173
10.4.	Эргодичность и перемешивание ...............174
10.5.	Спектральная плотность......................177
10.6.	Белый шум...................................179
10.7.	Броуновское движение........................180
10.8.	Дифференцирование
и интегрирование.............................182
10.9.	Преобразования
случайных процессов..........................184
10.10.	Уравнение Винера—Хопфа ....................185
10.11.	Фильтр Калмана.............................186
10.12.	Помехи в системах регулирования............188
6
Оглавление
Глава 11.	Теория информации...........................191
11.1.	Энтропия как неопределённость...............191
11.2.	Текстовые модели............................194
11.3.	Простейшие свойства энтропии................196
11.4.	Информация, опыты, каналы связи.............197
11.5.	Частотный взгляд на сообщения...............199
11.6.	Элементы кодирования........................201
11.7.	Проблема нетривиальных кодов................204
11.8.	Помехи в канале связи.......................206
11.9.	Укрупнение состояний........................210
11.10.	Энтропия непрерывных сигналов..............212
11.11.	Передача непрерывных сигналов..............213
Глава 12.	Статистика..................................217
12.1.	Тактика и стратегия измерений...............218
12.2.	Понятия и терминология......................220
12.3.	Оценки матожидания и дисперсии..............222
12.4.	Теория и практика...........................223
12.5.	Вокруг основных задач.......................225
Глава 13.	Задачи и факты .............................231
13.1.	Элементарная теория.........................232
13.2.	Случайные величины..........................239
13.3.	Законы больших чисел........................244
13.4.	На платформе сходимости.....................246
13.5.	В кладовых схемы Бернулли...................249
13.6.	Случайные функции и процессы................250
13.7.	Информация и энтропия.......................253
13.8.	Статистика..................................254
Глава 14.	Справки и дополнения........................256
14.1.	Дельта-функция..............................256
14.2.	Мера Лебега.................................259
14.3.	Измеримые функции...........................263
14.4.	Интеграл Лебега ............................266
Сокращения и обозначения..............................270
Литература............................................272
Предметный указатель..................................274
Предисловие
При копании вглубь путь свободен до бесконечности,
и в эту ловушку
очень легко угодить.
Всякая научная дисциплина имеет две составляющих, идеологиче-
скую и аппаратно-техническую. Идеология — это суть, дух, смысл. Её
так просто не ухватишь. Она всюду, волшебна и неуловима. Учить,
конечно, проще аппаратно-техническую часть, материальную. Но там
всё безжизненно, мертво. Движется, но не плодоносит. Истинных при-
чин не вскроет, хотя наговорит, пыль в глаза пустит — и в кусты.
Короче, учить в первую очередь надо идеологическую основу, без
которой инструменты работают вслепую. Данный учебник при напи-
сании исходил из этого принципа. Что получилось — судить читателю.
Глава 1
Элементарная теория
Искусственные трудности
оттачивают жало
теоретических ухищрений.
Пытаясь освоить теорию вероятностей и читатель, и автор первым делом
хватаются за инструменты. А ключ к успеху — в другом. В понимании духа пред-
мета, общей картины — вот что обеспечивает основу для достижения результата.
Поэтому, не забывая об инструментах, во главу угла мы ставим идеологию, хотя и
стараемся делать это незаметно.
1.1.	Основная модель
Смутное понимание случайности долгое время служило источником
математических построений и большой путаницы. Поэтому ныне тео-
рия вероятностей (ТВ) не определяет, что такое вероятность эле-
ментарного события1. Число от нуля до единицы. Первичное поня-
тие, априори заданное. Вероятности сложных событий — другое дело.
Этим, собственно, и занимается теория.
1гГипа вытаскивания туза из колоды карт.
1.1. Основная модель
9
Отправная точка у теории вероятностей очень проста. Рассмат-
ривается конечное или бесконечное множество2
Q = {(Ji,си2,...
называемое пространством элементарных событий, на кото-
ром задана функция p(wi), принимающая значения из сегмента [0,1]
и удовлетворяющая условию нормировки ^p(wi) = 1. Значения p(wi)
считаются вероятностями элементарных событий щ. Множе-
ства А С Q называют событиями3 и определяют их вероятности
как
Р(А) = £ p(Wi).	(1.1)
Вот и весь фундамент, упрощённо говоря. Примеры укладываются
в общую схему иногда легко, порой — с трудом. Сначала, естественно,
рассмотрим простые задачи.
.• Из колоды карт (52 листа) вытаскивается 7 карт. Какова вероят-
ность, что среди них 3 короля и 2 дамы?
◄ Подтягивание задачи к общей схеме в данном случае совсем просто.
Различные способы выбора 7 карт из 52 естественно считать равновероят-
ными элементарными событиями, т. е. р(ал) = где С„ = 777—
С?52	к'(П — к)\
число сочетаний из п элементов по к элементов.
Число различных выборов, удовлетворяющих условиям задачи, равно
/пгЗ >пг2
С4С4С44. Искомая вероятность есть 4-$ 44. ►
С52
Танцевать можно было от другой печки, полагая элементарным собы-
тием вытаскивание одной карты с вероятностью p(wi) = i, но тогда выбор
7 карт из 52 превратился бы в событие, манипулировать каковыми в духе
(1.1) мы пока избегаем, ориентируясь на простейший трюк. В задачах, где
элементарные события равновероятны, Р(А) всегда вычисляется как число
вариантов, составляющих А, делённое на число всех вариантов:
, . _ число благоприятных вариантов
' 7	число всех вариантов
2Возможны и континуальные варианты Q, см. далее.
3Событие А наступает, если наступает одно из wi еА.
10
Глава 1. Элементарная теория
Полезно держать в голове также частотную интерпретацию веро-
ятности, которая долгое время была первична. Точка зрения была тако-
ва. При проведении серии опытов4 частота наступления события А стре-
мится к Р(А) при увеличении длины серии,
N(A)
—Р(А) при N —> ос,
(1-2)
где N общее число опытов, a N(A) число опытов, в которых наступило
событие А. Так определялась вероятность Р(А). Впоследствии точка зрения
изменилась — однако сходимость (1.2) превратилась в теорему (см. раздел
4.1) и осталась в боекомплекте ТВ.
• Колода карт делится наугад пополам. Какова вероятность, что в каж-
дой половине окажется по два туза?
◄ Число всех вариантов выбора Благоприятных способов С4С48.
Искомая вероятность
• Какова вероятностей при сдаче получить все б карт одной масти?
◄ Выбрать 6 карт из 52 есть Cf2 способов. Благоприятных способов
имеется 4 • Ci3, поскольку выбрать 6 пик из 13 есть С13 вариантов, и так по
всем четырём мастям. Искомая вероятность
• Среди зтилонных вероятностных моделей особое место занимает схе-
ма бросания монеты* порождающая цепочки «герб ~ решетка»: ГРГГ'Р
. . . . — в которой и герб, и решётка появляются с одинаковыми вероятно-
стямир = Какова вероятность того, что при двух последовательных
бросаниях хотя бы один раз выпадет герб?
4В каждом из которых наступает одно из элементарных событий щ € Q.
1.2. Азы комбинаторики
11
◄ При двукратном бросании возможны 4 равновероятных варианта:
ГГ, ГР, РГ, РР.	(1.3)
Принимая (1.3) за элементарные события, видим: благоприятных вариантов — три.
о
Искомая вероятность: ►
• 1 1опудярнь1й вфоягносгный стандарт 1тнЬвые .модели. Box щи>
стейшая схема. В урне находится к белых шаров и m черных. Вероятность
нытатцить белым шар равна р ~	., черный — q~	,
;	.С •* •* >	: '"ft ,’Т’;772- "	;•	;.К Т" ХП,... X’i J-’’
Обратим внимание, если Q — это вытаскивание белого или чёрного ша-
ра, то за этим стоит, вообще говоря, субэлементарный уровень: вытаскива-
ние одного шара с вероятностью т- А р и q — это уже вероятности
двух событий, которые легко считаются. Причём это даёт готовый меха-
низм порождения модели Q с двумя элементарными событиями, имеющими
вероятности p(W1) = и qfa) -
I , Мы етараемся	небел oUium количеством
=. примеров. пос&олъку текст рассчитан на освоение предме-
•>*****$ та быстрым нантском,.
Примеров и задач. само собой,. желательно мно- ,
го. Но не сразу. Цель данного учебника - помочь вой- ш
ти 6КУРС дела и получить общеепредставление^по- 
еле чего можно с удобствами совер^иенстшват^сл в I/
любом избранном шправлетзь
Ошеима/сьный вариант работы с текстом много-
I кратное, досяпатлчно бегме. знакомство с содержанием.
.. Обычно светает двух-трег итера.ций. Пот,ом можно пере-
* ходить к рутинн'ым задачам, но это уже — в другой ком-
пании. Благо в задачниках нет недостатка.
1.2. Азы комбинаторики
Из предыдущего ясно, что кое-что тут имеет смысл вспомнить из
школьной математики. Ибо элементарная, но не обязательно простая,
часть теории вероятностей в значительной мере опирается на простей-
шую комбинаторику.
12
Глава 1. Элементарная теория
Размещения. Число различных вариантов выбора (с учётом порядка) к пред-
метов из п предметов щ, а2,.. .равно
=• п\п- 1). ..(n-k -Pl)
◄ Есть п способов выбрать один предмет из п, т. е. А„ = п. На каждый выбор
первого предмета приходится п — 1 возможностей выбора второго (из оставшихся
п — 1 предметов) — поэтому = n(n — 1). И так далее. ►
Если х выбирается из ai, а2, • • •, flfc, а У —- из bi, 62, • • •, bm, то пара {ж, у} выби-
рается к • m различными способами. Это простой факт, доступный для понимания
каждому. Кому-то, правда, он даётся с лёту, а кому-то — в муках. Но тут стоит
разобраться самостоятельно, ибо костыли
Перестановки. Число всевозможных перестановок п предметов aj?... .ап
равно «эн факториал»
[ к! 1 • 2 • • ♦ п |.
что очевидно из А”.
По соображениям удобства принимается 0! = 1.
Для оценки п! при больших п удобна формула Стирлинга
Сочетания. Если k предметов из щ ,, , аг выбиракэтсзя без учёта порядка
(складываются в мешок), то число различных вариантов (число сочетании из п
по к) равно	______________
ск =	,,!
n kl(n - к)1
◄ Всевозможные размещения получаются перестановками элементов в сочета-
ниях. Поэтому
= С%к!,
что даёт формулу для С„, с учётом того, что А„ = п\/(п — к)\ ►
1.2. Азы комбинаторики
13
Перестановки с повторениями. Пусть имеется п предметов k типов
Щ . . . «1 &2 ♦ •  °(2 • '^к •« ‘ ’ ак л	711 “h’’*4-Tlfc 5 п.
П1	—.	nfc
Число различных перестановок этих предметов равно
7?!
В(п3,п2, - .. ,пк) - " Ч ' Т I
◄ В любой перестановке рассматриваемой совокупности предметов, ничего
внешне не меняя, можно ni элементов а± переставить между собой ni! способами,
пг элементов аг — пг! способами,..., пк элементов ак — пк\ способами. По-
этому П1!п21 ,... п&! перестановок из п! — неотличимы друг от друга, что приводит
к указанной формуле. ►
• В слове «абракадабра» 5 букв «а», 2 — «б», 2 — «р», 1 — «к», 1 — «д». Из
такого набора букв можно сделать
11!
Р(5,2,2,1,1) = —— = 83010
v	7	522
различных буквосочетаний.
Выбор из k типов. Имеется k типов предметов, каждый Тип представлен бес-
конечным количеством экземпляров. Число различных способов выбора г пред-
метов в данном случае

Ситуация из перечисленных самая простая, но иногда почему-то ставит в ту-
пик. Десять (типов) цифр, шестизначных чисел — миллион, 106.
У пражнения5
•	Сколько различных чисел можно получить перестановкой четырёх цифр 1,
3, 5, 7? (4!)
Сколько есть восьмизначных чисел, в записи которых участвуют только цифры
1, 3, 5, 7? (48)
Сколько есть различных чисел, в записи которых участвуют две единицы и
одна семерка? (3)
•	При размещении п шаров по п ячейкам вероятность того, что все ячейки
будут заняты, равна п!/пп.
•	При размещении k шаров (дней рождения) по 365 ячейкам (дням) вероят-
ность того, что все шары попадут в разные ячейки, равна A365/365fc.
5Упражнения далее используются в основном как способ поместить в фокус
внимания некоторые факты без обсуждения деталей.
14
Глава 1. Элементарная теория
1.3. Комбинации событий
Объединением или суммой событий А и В называют событие,
состоящее в наступлении хотя бы одного из событий А, В, и обознача-
емое как A (J В или А 4- В. Первое обозначение прямо указывает, какое
множество в П отвечает сумме событий. Наступление А + В означает
реализацию такого tu € Q, которое принадлежит A |J В.
Пересечением или произведением событий А и В называ-
ют событие, состоящее в совместном наступлении А, В, и обозначае-
мое как А р| В или АВ. Наступление АВ означает реализацию такого
о} € П, которое принадлежит A Q В.
Очевидно,
Р(А + В) = Р(А) + Р(В) - Р(АВ)
(1-4)
поскольку при суммировании сщ по А и В элементарные события из
пересечения АВ считаются два раза, и один раз Р(АВ) приходится
вычесть. Если события не пересекаются, то
Р(А + В) = Р(А) + Р(В).	(1.5)
Формулы типа (1.4) становятся совершенно прозрачны
1.3. Комбинации событий
15
при использовании рисунков комбинирования множеств (рис. 1.6).
Опробовать рецепт можно на проверке равенства
Р(А + В + С) =Р(А) + Р(В) + Р(С)-
-Р(АВ) - Р(АС) - Р(ВС) + Р(АВС),
а также в общем случае п событий Ai,..., Ап:
р(Е до = Е р(^) - Е Р<ЛЛ>) + Е pm-Afc) - • • •. (1.7)
/с	к	i,j	i,j,k
Параллели логических высказываний с операциями над множе-
ствами используются достаточно широко. Событию «не А» отвечает
дополнение А множества А в Q, а разность А \ В, или А — В, интер-
претируется как наступление А, но не В. Наконец, симметрическая
разность
А4В = (ЛиВ)\(АГ|В)
обозначает событие, состоящее в наступлении одного из А, В, но не
двух вместе,
Р(А Д В) = Р(А) + Р(В) - 2Р(АВ).
Пустое множество 0, считается, принадлежит Q и символизирует
невозможное событие с нулевой вероятностью, Р(0) = 0 . С учётом
нормировки P(Q) = 1 , очевидно,
Р(А) + Р(А) = 1 т. е. Р(А) = 1 - Р(А) .	(1.8)
Заметим, хотя событием А считается подмножество Q, с тем
же успехом под А можно понимать его содержательное описание6.
6 Ошибка в вычислениях, справедливость гипотезы, выигрыш матча.
16
Глава 1. Элементарная теория
При этом надо иметь в виду, что за кадром описания могут сто-
ять разные модели, разные пространства Q элементарных событий
Wi. И тогда событию А будут отвечать разные множества в раз-
ных Q. Если модели правильные, результаты будут совпадать. Вот
небольшая иллюстрация.
1.3.1 При размещении к шаров по 365 ячейкам вероятность того,
что все шары попадут в разные ячейки, равна
Если — это попадание шара в i-ю ячейку, то при последовательном
размещений шаров в разные ячейки, число благ онриятных способов равно, оче-
видно, а число всех сцос^обов = 365^, откуда и получается указанный выше
результат. ►
Но тут какой-нибудь очкарик вдруг спрашивает. А почему Ад65, а не
Для нас же, мол, порядок размещения не играет роли, и ответ, дескать, должен
быть 36%. Характерная ошибка из-за путаницы моделей, когда число благопри-
365
ятных способов подсчитывается в рамках одной модели, а число всех способов —
в рамках другой. Если уж ориентироваться на Сд65, то элементарным событием
надо считать выбор семи ячеек (с возможным повторением) из 365. И тогда бла-
гоприятных способов действительно Сз65 =	, всех способов —у- . Итоговый
результат тот же самый.
Задача (1.3.1) приобрела популярность и другом содержательном ишо. »н«-
нии, Какова вероятность, что в группе из к студентов есть совпадающие дни
рождения. Если, как было установлено, Р(Х&) = _, то P(Xfc) = 1 — P(Xfc).
365
Интуитивно неожиданно^ например7* P(Xto) —
Тот же механизм работает и в других внешне непохожих ситуациях. Шесть
охотников стреляют по шести зайцам. Каждый выбирает мишень самостоятельно.
Вероятность, что все зайцы будут убиты, довольно мала,
6!
р= -« ~0,015,
б6
т. е. с вероятностью
0,985 = 1-0,015
хотя бы два охотника выберут одного зайца.
7При вычислениях выручает формула Стирлинга.
1.4. Задачи с подвохом
17
1.4.	Задачи с подвохом
Переход от содержательной постановки задачи к её математической
формализации, как правило, труден в любой дисциплине. В ТВ это
проявляется наиболее ярко. Может быть потому, что здесь чаще стар-
туют издалека.
1.4.1 Парадокс Кардано. При бросании двух шестигранных костей сумма вы-
павших чисел получается равной 9 или 10 в двух вариантах:
сумма 9 О (3,6) (4,5), сумма 10 <=> (4,6) (5,5).
Но вывод о равенстве вероятностей этих событий — ошибочен. Способов полу-
чения сумм 9 и 10 на самом деле больше, и их количество разное:
сумма 9 <=> (3,6) (6,3) (4,5) (5,4), сумма 10 О (4,6) (6,4) (5,5).
Таким образом, из 36 возможных пар чисел 4 пары дают в сумме 9, и только
3 — 10. Вероятности, соответственно, равны 4/36 и 3/36, что подтверждает
эксперимент^.
Данный пример наглядно показывает, что в выборе модели имеется
определённый произвол. Первый вариант — это 36 равновероятных
упорядоченных пар (z,J). Второй вариант П — это неупорядоченные
пары (21 пара), но тогда они не равновероятны — и путь решения
задачи другой8 9.
Путаницу в задаче создаёт независимость суммы от перестанов-
ки слагаемых. При последовательном выбрасывании костей10 — про-
блемы не возникает. Но кости можно выбрасывать одновременно, они
падают вместе, и первая от второй не отличается. Тогда различных
вариантов имеется только 21, их вероятности различны, и это прово-
цирует дополнительные издержки.
8 При достаточно большом количестве бросаний двух костей — частоты, с кото-
рыми в сумме выпадают 9 и 10, стремятся к указанным вероятностям.
9Недаром Секей [16] отмечает, что в такого рода задачах ошибались в том числе
великие (Лейбниц, Даламбер).
10 Первая, потом вторая.
18
Глава 1. Элементарная теория
Чтобы полностью развеять туман, полезно выделить подзадачу, в
которой проблема сконцентрирована в максимально простом виде. Ка-
кова вероятность при бросании двух костей получить в результате
(5,5) и (4,6)?
А4	Д'В
1.4.2 Задача. Имеется три картонки. На одной — с обеих сторон
нарисована буква А, на другой — В. На третьей картонке с одной
стороны А, с другой — В. Одна из картонок выбирается наугад и
кладется на стол. Предположим, на видимой стороне картонки ока-
зывается буква А. Какова вероятность, что на другой стороне —
тоже Л?
◄ «Одна вторая», — ошибочно отвечает интуиция, и причина заблуж-
дения далеко не очевидна. Дело в том, что картонка не только случайно
выбирается, но и случайно укладывается на одну из сторон. Поэтому ло-
гика здесь такая. Всего имеется шесть нарисованных букв, из них — три
буквы А, две на картонке АА и одна -- на АВ. Букву А из АА вытащить в
два раза более вероятно, чем из АВ. Получается, вероятность того, что на
столе лежит картонка АА, равна ?. ►
о
Вот как обыгрывает ту же задачу11, — Пуанкаре [14]:
«Задача о трёх шкатулках. В каждой из трёх одинаковых шкатулок А, В,
С есть по два ящичка, а и /3; каждый ящичек в шкатулке А содержит золотую
монету, в В — серебрянную, а в С один из ящиков содержит золотую монету,
другой — серебряную:
	А	в	С
а	золото	серебро	золото
/3	золото	серебро	серебро
Чему равна вероятность того, что, открыв случайным образом один из шести
ящиков, мы найдем золотую монету? Шесть исходов Аа, Afl, Bet, В/3, Са, С/3
будут равновероятны; из этих шести исходов три: Аа, А/З и С а — благоприятны
для обнаружения золотой монеты. Итак, вероятность равна
Если мы выбираем одну из шкатулок случайно, то вероятность выбрать С
совпадёт с
11 Вернее, ту же идею.
1.5. Условная вероятность и независимость
19
Я открываю наугад одну из шкатулок и нахожу там золотую монету; какова
вероятность того, что вторая монета будет серебряной? Мне попалась либо шка-
тулка С, либо шкатулка А; в первом случае вторая монета будет серебряной, во
втором — золотой. Кажется, что вероятность равна . Но это заключение неверно.
Перед тем как открыть шкатулку, я знал, что найду золотую или серебряную
монету с одинаковой вероятностью, т. е. с вероятностью ; между тем я могу найти
золотую монету в трёх случаях, Аа, А/3, Со, и из этих трёх исходов лишь один Сех.
благоприятствует обнаружению серебряной монеты во втором ящике.
Когда мы в первый раз оценили вероятность как , два рассмотренных исхода
не были равновероятны: исход А соответствовал Аа и А/3 и был вдвое вероятнее,
чем исход С, который соответствовал только С а.»
Мы не собираемся далее наполнять текст подобными вариациями содержа-
тельного исполнения задач, но чем-то подобным необходимо заниматься инди-
видуально, обогащая практику изучения научных дисциплин. Дело в том, что
идеи, схемы, механизмы, - полезно узнавать в разных лицах. И тогда окружа-
ющие Вас частности начинают группироваться в принципы, и восприятие мира
структурируется,
1.5.	Условная вероятность и независимость
Вероятность Р(В| А) наступления В при условии наступления события
А, — называют условной.
Словесная формулировка определения условной вероятностью часто быва-
ет неудачна. Вплоть до: «Р(В|А) — это вероятность наступления В при условии,
что А уже произошло», Но если А уже произошло, это значит, что рвали юна-
лось какое-то элементарное событие ё А. Но тогда случились все события, в
которые входит, и не случились — в которые не входит.
На самом деле Р(В| А) — нечто другое. Это ответ на вопрос; какова вероятность
наступления В, если мы знаем, что произойдёт также А? То есть вероятность
В на поле А (вместо Q), которую легко посчитать. Из всех uii 6 А входят в В
лишь c«Ji, принадлежащие пересечению АВ. Они-то и определяют Р(В|А). И будь А
нормировано, Р(В|А) равнялось бы Р(АВ). Нормировка А корректирует результат
очевидным образом:
р(в|а)=(1-9)
т. е. Р(В|А) — это доля12 АВ в А.
12 Измеренная суммой весов.
20
Глава 1. Элементарная теория
Перезапись (1.9) в форме
Р(АВ) = Р(А)Р(В|А)
(1.10)
называют формулой умножения вероятностей.
События А и В считают независимыми, если условие появления
одного из них не меняет вероятности другого, т. е.
Р(В|Л) = Р(В), Р(А|В) = Р(А)
(111)
При этом формула умножения вероятностей (1.10) переходит в
Р(АВ) = Р(А)Р(В)
(1-12)
что обычно выставляют в качестве эквивалентного определения неза-
висимости А и В.
Понятие независимости играет фундаментальную роль в теории
вероятностей, но (1.12) не вполне отвечает интуитивному пониманию
независимости, что имеет смысл оговорить.
Парадокс Бернштейна*13. Бросают две монеты. Пусть выпадение первой
монеты гербом обозначает событие А, второй — В. Наконец С означает, что только
одна монета выпала гербом. Для симметричных монет все три события попарно
независимы, поскольку
Р(Л) = Р(В) = Р(С) = -, Р(АВ) = Р(АС) = Р(ВС) = i. (1.13)
2	4
С независимостью А и В интуиция согласна, но не с независимостью А и С (или
В и С). Дело в том, что независимость (1.13) имеет как бы «арифметический» ха-
рактер, являясь результатом численного совпадения. Для несимметричных монет
(с вероятностью выпадения герба ^1/2) ситуация нормализуется, свойство (1.12)
для А и В сохраняется, а вот равенства
Р(АС) = Р(А)Р(С) и Р(ВС) = Р(В)Р(С)
нарушаются.
13При первом чтении лучше не обращать внимания, чтобы не отвлекаться. Даже
на Солнце бывают пятна, что уж говорить о независимости. Мелкие изъяны тут
не играют роли.
1.7. Формула Байеса и проверка гипотез
21
Тем не менее, именно «арифметическое» понимание (1.12) опреде-
ляет независимость в ТВ. Но это, как показывает практика, не мешает
эффективному использованию понятия.
1.6. Независимость испытаний
В предыдущем разделе речь шла о независимости со-
бытий. Совсем другая идея независимости, независимо-
сти испытаний, возникает в схеме Бернулли, п. 3.1, где
речь идёт о последовательном бросании монеты, и при этом
постулируется независимость результата любого испытания
от предыстории бросаний.
Идея независимости испытаний — сугубо смысловая. Монета, мол,
не имеет памяти, и каждый раз падает как будто заново14. Но чем
больше говорится в поддержание сего тезиса, тем больше предмет
запутывается. Поэтому здесь целесообразно позволить себе короткое
время пофилософствовать, а потом принять концепцию и больше не
мучиться.
1.7. Формула Байеса и проверка гипотез
Разбиение Я на полную группу15 несовместимых16 событий
14 Разумеется, тезис о независимости испытаний «не привязан» к схеме Бернул-
ли, и с тем же успехом может применяться к любым повторным вероятностным
испытаниям.
153начит Hi + • • • + Нп = Q, т. е. P(Hi) + • • • + P(Hn) = 1.
16 Непересекающихся.
22
Глава 1. Элементарная теория
позволяет любое событие В записать, вследствие (1.5), в виде
В = ВНг + • • • + ВНп,
откуда Р(В) = P(BHi) Ч-----1- Р(ВНп), и в силу (1.10) — получается
формула полной вероятности:
Р(В) = Р(Я1)Р(В|Я1) + .-. + Р(Нп)Р(В|Яп) .	(1.14)
Пусть Р(Я),Р(В) >0. Из
Р(ЯВ) = Р(Я|В)Р(В) = Р(В|Я)Р(Я)
вытекает
Р(н|в) = £<Щт,
что после учёта (1.14) приводит к формуле Байеса
Р(Я,.|В)= J№)m)
£Р(В|Я*)Р(Яь)
(1-15)
сильно скомпрометированной безосновательными попытками её при-
менения.
Неутихающее колоброжение вокруг (1.15) всегда определяла со-
блазнительная интерпретация. Если Hj это гипотезы с априорными ве-
роятностями P(Hj), то при наступлении события В в результате экспе-
римента — формула определяет апостериорные вероятности P(Hj\B).
Звучит красиво, но априорные вероятности, как правило, не известны.
А поскольку с идеей расставаться жалко, P(7Jj) начинают трактовать
как степень уверенности. Типа «Вася — любит Машу с такой-то веро-
ятностью».
1.7. Формула Байеса и проверка гипотез
23
Тем не менее есть обширный круг задач, где изобретение Байеса (1.15) улав-
ливает часть истины. Рассмотрим, для примера, такую ситуацию. Оценка плана
военной операции (предположительно успешного на 80%, по статистике) была
поручена двум вычислительным машинам. Машина Ml, ошибающаяся в 5% слу-
чаев17 , оценила план как провальный. Машина М2, ошибающаяся в 10% случаев,
пришла к противоположному заключению. Какой машине верить?
◄ Итак, есть две гипотезы:
•	Hi — операция провальная, Р(Я1) = 0, 2,
•	Н2 — операция будет успешной, Р(Я2) = 0,8.
Положим, событие В состоит в том, что Ml на вопрос о провале даёт положитель-
ный ответ, М2 — отрицательный.
Чтобы произошло В при гипотезе Hi, надо, чтобы Ml дала верный ответ,
М2 — ошибочный. Откуда
P(B|Hi) = (1 - 0.05)0.1 = 0.095,
аналогично
Р(В|Я2) = (1 - 0.1)0.05 = 0.045.
Далее по формуле (1-15) получается
п/ТТ	0.2 -0.095	_
Р(Н1 В) =---------------------_ 0.35
417	0.2-0.095 + 0.8-0.045
Р(Я2|В) ~0.65.	►
Таким образом, больше стоит верить М2, но пессимистическое решение Ml,
более надёжной машины, неприятным образом повышает априорную вероятность18
провала с 0.2 до 0.35. Если бы машины дали обратные заключения, апостериорная,
вероятность провала операции упала бы до 0.1.
Такого рода пересчёт имеет смысл в типичных обстоятельствах, когда раз-
ные эксперты, методики, способы, рецепты, — дают противоположные заключе-
ния насчёт тех или иных прогнозов, выводов. А Вас интересует, как всё же мнение
посредственных экспертов меняет заключение лучшего оракула. При этом эмоцио-
нальные оценки вероятностей как степеней уверенности вполне можно исключить,
опираясь на статистические данные о работе экспертов.
17По предыдущей статистике.
18Вероятности Р(Я1), Р(Я2) называются априорными, т. е. доопытными;
Р(Я1|В), Р(Я2|В) — апостериорными, т. е. послеопытными, вытекающими из
опыта.
24
Глава 1. Элементарная теория
1.8. Ещё раз об условной вероятности
В одном из медицинских опросов19 ставилась такая задача.
Тост на заболевание 14 даст в 5% случаев ошибочные положительные
заключения. Отрицательные заключения безошибочны. На тысячу
населения приходится один больной А. Тест Джона положительный.
Какова вероятность, что Джон болен?
Большинство врачей и студентов якобы дали ответ20: 95%. Пра-
вильный ответ ~ 2%, и до него средний обыватель ни за что не доду-
мается. Хотя всё просто.
Сначала «на пальцах». Берём 1000 пациентов, один — болен, на
остальных 999 здоровых тест даст 0,05 • 999 ~ 50 положительных за-
ключений (ошибочных). Суммарное количество правильных и ложных
положительных заключений 51. Искомая вероятность р = 1/51 ~ 0,02.
За кадром здесь работает условная вероятность, за чем имеет смысл
проследить.
На рис. (1.16) П символизирует «всё» население, А — множество боль-
ных, В — здоровые, тест на которых даёт сбой21.
р<л|л + в) = р5тв)“^1“°’02 = 2%-
19См. книгу Bennett J. Deborah, Randomness.
20Время от времени возникает сыр-бор из-за вероятностей в процентах. Дескать,
вероятность это не проценты, а число из отрезка [0,1]. В рамках академической ТВ
о процентах действительно говорить не принято. Но 1% это одна сотая, т. е. 0,01, —
поэтому вероятности в процентах вполне допустимы, если особо не умничать.
21 Подумайте над другой (эквивалентной) ситуацией, когда 5% ошибочных за-
ключений могут возникать на любом из Q — А здоровых пациентов. Т. е. ошибки
связаны не с людьми В, а с проведением самого теста. Компьютер барахлит, на-
пример.
1.9. Примеры и задачи
25
При рассмотрении любой задачи полезно обращать внимание не
только на генеральную линию «от условия к ответу», но и на при-
входящие обстоятельства. Когда, скажем, Мастер учит Вас рисовать
лошадь, интерес представляет также, как он держит кисть, как её ма-
кает в краску, и что бубнит себе под нос. В данном случае как раз
задача богата универсальными чертами, и есть над чем подумать.
1.9. Примеры и задачи
1 .9.1 По некой цели стреляют двумя ракетами. Первая поражает цель
(событие Ар) с вероятностью р, вторая (событие Aq) - с вероятно-
стью q. Какова вероятности, что цель будет поражена?
◄ Поскольку Ар, Aq независимы, то
P(ApAq) = P(Ap)P(Aq)=p-q.
Искомая вероятность равна, см. (1.4),
Р(Ар 4- Aq) = Р(Ар) + P(Aq) - P(ApAq) = p + q~pq- ►
Обратим внимание, события Ар, Aq хотелось бы объявить элементарны-
ми, полагая
—— {Ар, Aq, Ар, Aq{.
Хозяин, конечно, как говорится, барин, но такой вариант моделирования не
годится. События Ар, Aq оказались бы непересекающимися, а значит зави-
симыми22. Поэтому элементарные события тут надо определять, не мудр-
ствуя. В каждом два выстрела и возможный исход.
Но главное, что об Элементарных событиях тут можпо пе
( заботиться, работая сразу с событиями А?>, Aq, пользуясь их
«а- свойствами, и оставляя модель Q за кадром. Это очень распро-
******$	и полезный приём, работающий без сбоор в большин-
стве случаев.
22Если В и С не пересекаются, то Р(ВС) = 0, и Р(ВС) = Р(В)Р(С) для них
невозможно.
26
Глава 1. Элементарная теория
1*0.2 Какова вероятности, что взятое наугад число делится на 7?
◄ Возьмём первые 7V чисел натурального ряда. Среди них к штук будут
делиться на 7, если
N = 7к 4- г, г <7.
Вероятность делимости числа, меньшего N, на 7 будет равна
_ (АГ — r)/7 _ 1	г
Р~ N	~ 7	7ЛГ
Устремив N —> ос, получим р -	►
у:ЖЖ:ё-”ЖЖ- ..ЖЖЖЖЖЖЖЖ
1.9.3 (П. Л. Чебышев) Берутся наугад два целых числа- Какова вероят-
ности того, что они взаъшно просты?
◄ Решим предварительно более простую задачу. Какова вероятность, что
два числа из N первых чисел натурального ряда не имеют общего простого
делителя q? Пусть N (для удобства) делится на q. Из — чисел можно вы-
z \ 2
брать два (имеющих общий делитель q) числом способов ( J • А вообще
из N два числа можно выбрать N2 способами. Поэтому число благоприят-
/ \2
ных способов равно N2 — ( — ) . Отсюда
Аналогично, вероятность выбранным числам не иметь общего простого де-
лителя г равна 1 —а не иметь общим делителем ни q, ни г, — равна
г
(1 —т-г) (1 —^ ). Возвращаясь теперь к исходным условиям, в которых
Q / X r /
выбранные числа не должны иметь ни одного простого делителя, приходим
к заключению, что искомая вероятность равна
1.9. Примеры и задачи
27
Остаётся вычислить бесконечное произведение (1.17). Перемножая равен-
ства
по всем простым q, получаем
(1-18)
2
Сумма ряда в правой части (1.18), как известно, равна Поэтому искомая
вероятность в исходной задаче равна р = -%. ►
7Г
1.9.4 В мешке п белых шаров* т чёрных. Извлекаем наугад к шаров.
Какова вероятность, что среди них будет ровно s белых?
м	Л}# .*Z <&С '	М. . X	.Л.	’i
◄ Очевидно, число всех способов извлечения шаров С^+т, благоприят-
ных — CnC^s. Отсюда
f-ik — S
Р' = Т- ►	(119)
^714-7П
Суммируя (1.19) по всем возможным s, имеем
X-vO flk	—1
= 7*— + ~^k— + • • • + 7^— = 1’
s	^п+т '-'n+m	'-/n+m
откуда следует комбинаторное тождество
। z-^l/nrfc—1 ।	। /^fc/rO _ /''ik
।	"Г * ’ • “Г	— ^n+rn.
Проделанный трюк иллюстрирует идею применения вероятностных методов
в комбинаторике.
28
Глава 1. Элементарная теория
1ЖЙ Зада на о выборе невесты в миниатюре служит образцом задан
.. об оптимальных правилах остановки; Сценарий выглядит так. Потенци-
альному жениху приводят последовательно п девушек. В любой момент
он Может остановиться: «вот. мол невеста^, - но возможности вер-
нуться к какому-либо предыдущему варианту нет. Какова оптлсмольная
стратегиявыбора?Думатьможно над эквивалентным вариантом: по-
следовательно просматривая числа
4 i + * - * £п л
в какой-то момент надо остановиться и выбрать как можно большее.
Среди стратегий «просматриваются первые т чисел, после чего выбира-
ется первое же, превосходящее все £1,... ,&п — максимальную вероятность
выбрать наибольшее £к даёт т ближайшее к —.
Простота базовой модели теории вероятностей (пространство элементар-
ных событий Q с заданными на нём вероятностями) нелегко далась истори-
чески, и она нелегко достигается по сей день, ибо многие задачи к кано-
ническому виду сводятся с большим трудом. Это, конечно, не удивительно.
Очень простая схема, но в неё укладывается все разнообразие вероятност-
ных задач. Только «укладывание» требует иногда большой изобретатель-
ности. Поэтому для освоения ТВ необходимо развитие навыков решения
задач. В хаосе разнообразных идей и технических приемов здесь есть наез-
женные пути и характерные модели. Определённый интерес в этом отноше-
нии представляет метод фиктивного погружения.
Рассмотрим парадокс раздела ставки23.
1*9.6 Матч до 6 побед прекращен досрочно при счёте 5:3. В какой про-
Спорции.разделить приз? ’ •
Конечно, это проблема, а не задача, потому что вопрос надо ещё пра-
вильно поставить. Наиболее логичен был Ферма.
◄ Его идея — в гипотетическом продолжении игры тремя фиктивными
партиями (даже если некоторые из них окажутся лишними). При равно-
вероятности всех 8 исходов второй игрок выигрывает матч лишь в одном
случае, — если побеждает во всех трёх партиях, — поэтому справедливая
пропорция 7:1. ►
23Об исторических подробностях см. [16].
1.10. Выбор в условиях неопределённости
29
Погружение задачи в более широкий круг фиктивных ситуаций во мно-
гих случаях даёт выход из положения либо обеспечивает дополнительные
удобства. Вот ещё один пример.
1.9.7 Задача Банаха. В двух коробках имеется по п спичек. На казни
дом шаге наугад выбирается коробка, и из неё удаляется одна спичка.
Найти вероятность рк того, что в момент окончания процесса, т. е.
опустошения одной из коробок, в другой — остаётся к спичек.
◄ Если одна коробка пуста, а в другой — к спичек, это означает, что
спички брались 2п — к раз, причём п раз из (теперь уже) пустой коробки.
Поэтому Pfc = C2n_fc/22n-fc. ►
При необходимости изучать задачу в целом (распределение рь при раз-
ных к) возникает определённое неудобство, связанное с выбором простран-
ства элементарных событий Q. Вариант опустошения одной из коробок в
момент п + j происходит на фоне других вариантов, которые из-за пере-
менной длины имеют разные вероятности. В итоге получается порочный
круг. Для решения задачи надо построить Q, а для построения Q требуется
указать вероятности, которые ищутся. Узел развязывает добавление к на-
стоящим — фиктивных спичек. Тогда в качестве Q можно рассматривать
22п+1
равновероятных вариантов длины 2п + 1. Такой длины всегда хватает
для опустошения одной из коробок.
1.10. Выбор в условиях неопределённости
В прикладном отношении значительный интерес представляют зада-
чи, в которых успех решения достигается за счёт привнесения вероят-
ностных мотивов в исходный сценарий. Выдающиеся примеры поро-
дила теория игр. Вот один из них.
Пусть на рынке ценных бумаг имеется два типа акций, Si и S2,
по 100 долларов каждая, прибыльность которых зависит от трудно
прогнозируемых событий24 А, В. Акция Si даст либо $8, либо $2 при-
были; S2, соответственно, — либо минус $4, либо плюс $14. Компактно
ситуацию запишем в виде таблицы
24Таких как война, кризис, засуха, открытие новых месторождений, приход тол-
кового или бестолкового руководства и т. п.
30
Глава 1. Элементарная теория
51	§2
4- J.
А ->	8	—4
В->	2	14
(1-20)
Столбец отвечает выбору акции; строка — неизвестным заранее
обстоятельствам А или В. Покупать акции S? рискованно (могут ока-
заться убыточными, —4%), а гарантированная прибыльность S± — все-
го 2%, что в России мало кого воодушевляет. И тут ЛПР (лицо прини-
мающее решение) нередко сдаётся, расценивая ситуацию как дурац-
кую, ибо результат определяется неуправляемыми обстоятельствами.
Тем не менее, из ситуации гарантированно «выжимается» 5%
прибыли. Действительно, если акции Si, S2 купить в количестве a?i,
Х2 штук, то минимальная прибыль25 будет равна
либо di =--------(82:1 — 4ге2)%, либо 62 =-------(2д?1 + 14x2)%-
Х± + #2	2С1 4- Х2
Максимум гарантированной прибыли min{di,d2} обеспечивает ра-
венство26 di = d2, достигаемое при Xi : Х2 = 3 : 1. В этом случае
средний выигрыш одной акции равен
d\ = d2 = mm{di,d2} = 5%,
независимо от обстоятельств (А или В). Таким образом покупка по-
тенциально убыточных акций поднимает гарантированную прибыль
с двух до пяти процентов.
Здесь имеет смысл внимательно остановиться, если ни с чем подоб-
ным не приходилось сталкиваться. Потому что ситуация повсеместна,
а подходящего стереотипа мышления нет. Не образовался генетиче-
ски. Не проработались извилины — голова не готова для восприятия.
25 В пересчёте на одну акцию.
26Если, например, d± < ^2, то слабо меняя соотношение xi : з?2, величину d±
можно увеличить, не нарушая условия d± < d2, увеличивая тем самым гарантиро-
ванный минимум.
1.10. Выбор в условиях неопределённости
31
И как туземцы не видели «кораблей Колумба»27, сколько ни всмат-
ривались, так и западный человек проходит мимо теоретико-игровых
обстоятельств, не замечая. Не замечая не только возможных решений,
но и самих вопросов.
Когда в ситуации (1.20) денег хватает на покупку
дашь одной акции, конструкция рассыпается, Но тут вы-
ручает, как думают «тропики», в некотором роде ген и-
алъиая идея подключения исрояпьностно'го механизма. *
Вместо бессмысленного теперь
«#1 : Х2 = 3 : 1»
организуется случайный омьгг с вероятностями	и р2! Находящимися
в том же соотношении
«Р1 : Р2 = 3 : 1»,
и покупается или в зависимости от испытания. Сей грюк до-
жит в основе концепции смеша иных ст^ютсгий, каковые в игровых
обстоятельствах были в своё время настоящим открытием. И хотя
дам не так всё безоблачно, см. следующий раздел, но это всё же был
фундаментальный прорыв в понимании и овладении моделями со-
ревновательного характера.
Ещё один весомый аспект в изучении тех же моделей — их разво-
рот в сторону противоборства, когда обстоятельства (А, В) выбирает
не Рок, а противник, стремящийся уменьшить выигрыш оппонента.
Скажем, Si, S2, А, В — виды вооружений, и речь идёт о военном про-
тивостоянии. Правда, в любом случае надо иметь в виду, что акции
и война не исчерпывают теоретико-игровую природу мироздания. Вы
27См. «Корабли Колумба в системе образования» на сайте «Школа Опойцева»,
oschool.ru, или в youtube.
32
Глава 1. Элементарная теория
решаете, за кого голосовать, с кем дружить, на кого учиться, чему до-
верять, — и каждый раз приходится сталкиваться с неясностями типа
(1.20).
1.11. Авантюра века
Смешанные стратегии так были распиарены, что пора бить в колоко-
ла. Дело в том, что гениальная по сути идея, описанная в предыдущем
разделе, рекламируется как панацея для решения совсем других задач,
в которых она не работает.
Тогда как теоретики утверждают обратное. Как, дескать, надо бы-
ло бы поступить, если бы в задаче (1.20) денег хватало на покупку
лишь одной акции? Предложение «игровиков» состоит в том, чтобы
предварительно «бросить монету». Техника расчёта та же самая. Од-
нако вероятности выбора pi, Р2 дают теперь матожидания прибы-
ли28:
либо d\ = (8pi — 4рг)%, либо d>2 = (2pi + 14р2)%-	(1-21)
Аналогично предыдущему приходим к di = d2, откуда следует Pi : Р2 =
= 3 : 1. В этом случае min{di,d2} — 5%, независимо от обстоятельств.
Но теперь-то это не прибыль, а журавль в небе, фантастика, фикция.
Средняя прибыль в гипотетической ситуации бесконечного повторения
«игры»29. Но если кто-то думает, что увеличение такой «гипотетиче-
ской прибыли» как-то положительно влияет на единичную реализа-
цию, — то никак не влияет. Разве что увеличивает шанс «влипнуть».
1.11.1 Задача. Три карты лежат рубашками вверх, одна из них —
туз. Стратегия — указание порядка открытия карт, цель — мини-
мизация номера шага, вскрывающего туза.
Задача на вид бессмысленна, потому что гарантированный мини-
мум равен 3 шагам в любом случае30. Но если ситуация повторяется
28 А не саму прибыль в результате однократной игры.
29 И повторяйся игра многократно — бросание монеты каждый раз оправдывало
бы себя.
30 Ибо в худшем варианте туз вскрывается последним по счёту.
1.11. Авантюра века
33
многократно, то появляется возможность говорить о лучшем решении
в среднем.
Итак, пусть рубашки карт помечены как А, В, С. Левый столбец
в таблице
порядок:	АВС	САВ
А	1	2
В	2	3
С	3	1
показывает, какая из карт туз — А, В или С. Рассматривается, для
простоты, два варианта порядка открытия карт, АВС и С АВ. На пере-
сечении столбца и строки стоит цифра, показывающая на каком шаге
будет открыт туз. Далее. Вариант АВС выбираем с вероятностью р;
С АВ — с вероятностью 1 — р. Матожидание числа шагов в случае А
равно
1р + 2(1 - р) = 2 - р.
Аналогично,
для В :	2р + 3(1 — р) =3—р,
для С :	Зр + 1 — р = 1 4- 2р.
Поскольку 3 — р мажорирует 2 — р, то максимум гарантированного
минимума находится из условия
2
3-р = 1 + 2р =>	р=-.
о
7
Матожидание гарантированного результата получается равным
Получается, надо не просто смириться с ситуацией и открывать карты
в любом порядке, а фиксировать разные порядки вскрытия, и каждый
раз осуществлять случайный выбор с рассчитанными заранее вероят-
ностями. Но для этого нужен «второй игрок», тасующий варианты А,
В, С случайным, а не истерическим или даже мистическим, образом.
Заметим, наконец, что к одноразовому выбору всё это не имеет ника-
кого отношения.
34
Глава 1. Элементарная теория
1.12. Стохастические предрассудки
С вероятностными форматами надо уметь работать, потому что это
довольно опасный инструмент, легко заводящий пользователей в логи-
ческие тупики. Несмотря на естественный стиль вероятностного мыш-
ления, итоги и выводы очень часто оказываются парадоксальными.
В результате виртуальное пространство пестрит несуразностями.
Принято думать, например, что в лотерею играть неразумно, по-
скольку матожидание выигрыша меньше стоимости билета. В резуль-
тате покупать лотерейные билеты приходится, оглядываясь по сторо-
нам. Но при чём тут матожидание? Подсознательно все понимают,
что конечный денежный выигрыш может иметь бесконечную индиви-
дуальную ценность. Покупка дома, переезд, лечение, образование. Да
мало ли что ещё меняет судьбу, и потому в деньгах не измеряется, хо-
тя нуждается в стартовой сумме. Почему же за 3 копейки не купить
шанс? Взвешивание здесь только вредит. Но авторитет иероглифов
формул и таинственной терминологии создаёт гипнотизирующий ми-
раж.
Ещё одна прореха миропонимания, связанная с матожиданием,
касается страховой деятельности. Клиент страхует собственность на
сумму X. Страховой взнос уХ; вероятность потери собственности — р.
Матожидание суммы потерь равно рХ, — поэтому страховая компания
будет «в плюсе» лишь при условии уХ > рХ, т. е. 7 > р . Но тогда,
дескать, клиент «в минусе», и выходит, что опять население водят за
нос.
Это яркий пример жонглирования теоретическими понятиями без по-
нимания скрытых пружин. Использование «среднего» компанией ло-
гично, поскольку компания имеет дело с массой клиентов, — и картина
для неё определяется действием закона больших чисел. Для индиви-
дуального же клиента картина совершенно иная. Массовость ситуа-
1.12. Стохастические предрассудки
35
ции его не касается. Небеса подбрасывают «его монету» один раз — и
усреднять нечего01.
Поэтому тезис «если страхование выгодно для компании, то оно
невыгодно для клиента» — абсурден. Индивидуальный подход надо
искать с другой стороны, полагаясь на сравнение субъективной и ры-
ночной ценности страхуемой собственности.
Возьмём крайний случай. Пусть речь идёт о страховании частного
владения, субъективная ценность которого с точки зрения собственни-
ка может быть в некотором роде бесконечной. Ибо потеря дома бывает
связана с потерей места жительства, работы, жены, страны. Таким об-
разом «в случае чего» клиент теряет жизненно важные точки опоры.
Поэтому для него целесообразна любая посильная плата уХ за стра-
ховку31 32.
В таком взвешивании и заключена суть — в расхождении персо-
нальной и рыночной стоимости. Бывает, например, недвижимость ни-
чего не даёт кроме головной боли. И продать — не продашь, хоть ка-
раул кричи, и толку — чуть. Страховка неразумна.
В подобного рода моделях и ситуациях необходимо свободно ори-
ентироваться, дабы правильно интерпретировать подоплёку и делать
адекватные выводы. Вот хороший пример, демонстрирующий, что в
матожиданиях легко путаются даже эксперты. Речь о знаменитом «Пе-
тербургском парадоксе». Если герб при неоднократном бросании мо-
неты выпадает в первый раз в n-й попытке, — участнику игры выпла-
чивается 2П рублей. Математическое ожидание выигрыша,
2.| + 4.1 + ... + 2".± + ... = 1 + 1 + ...,
бесконечно. Поэтому, с точки зрения теории вероятностей (как бы),
за участие в игре денег можно заплатить сколько угодно — казино в
любом случае проиграет33.
31 Матожидание не гарантирует отдельных результатов, и выигрыш в среднем
иногда равносилен проигрышу наверняка в отдельной партии.
32Хотя иногда, причём не так редко, потеряв всё, человек приобретает больше.
Но это уже другая тема.
33В русле «Петербургского парадокса» было сломано немало копий при участии
великих математиков, внёсших определённую лепту в дезориентацию друг друга
и публики.
36
Глава 1. Элементарная теория
Вот так респектабельная теория направляет ход мыслей не в то
русло, тогда как реальная задача не стоит выеденного яйца. Кази-
но проигрывает в среднем, но в данном случае это не даёт разумных
оснований судить об одноразовой игре. Средние значения продуктивно
работают в других ситуациях, но не здесь.
Рассмотрим переупрощённую (для наглядности) ситуацию. Моне-
та бросается один раз, и падает плашмя с вероятностью 1 — 2-100.
Выигрыш при этом составляет 1 рубль. На ребро монета становится
с вероятностью 2-100, и тогда выигрыш равен 2300 рублей. Матожи-
дание выигрыша ~ 2200. Но кто заплатит больше рубля за участие?
Событие, имеющее вероятность 2-100, «никогда» не случается, и ка-
кая разница, сколько за него обещано. Матожидание здесь просто не
к месту.
Описанный механизм заблуждения в некотором роде универсален.
В рамках идеологии сходимости (глава 5) это довольно типичная си-
туация, когда Хп сходится по вероятности к нулю, а мато-
жидание Хп стремится к бесконечности.
Так что использование теории вероятностей особо требует приобретения навы-
ков и вдумчивого знакомства с азами. В подтверждение коварства ТВ и матема-
тической статистики — ещё один пример.
Допустим, государство разбито на 2 региона А и В, в каждом из которых
процент высокорентабельных предприятий среди частных выше, чем процент вы-
сокорентабельных — среди государственных предприятий. Можно ли на этом осно-
вании делать вывод, что в целом по государству соотношение такое же? Можно
ставить миллион против одного, что население даст положительный ответ. Пра-
вильный ответ — отрицательный. Пусть, например, в регионе А — 90 частных
предприятий, среди них 10 высокорентабельных, и 10 государственных — одно вы-
сокорентабельное. В регионе В 10 частных предприятий, все высокорентабельные,
и 90 государственных, из них — 89 высокорентабельных.
Поскольку
10	1	10	89
10 + 80 > 1 + 9’	0 + 10 > 1 + 89’
1.13. Проклятие моделирования
37
то действительно, в каждом регионе процент высокорентабельных частных пред-
приятий выше. Если же регионы объединить, то
20	90
20 + 80 < 10 + 90’
т. е. процент высокорентабельных государственных предприятий выше.
Как говорится, приехали.
1.13. Проклятие моделирования
Необходимость в «улучшениях» возникает на практике чаще всего
как смутное ощущение. Разваливается ли армия, экономика, семей-
ный бизнес, — понятно, надо что-то менять, но как? Сначала, во вся-
ком случае, надлежит разобраться в обстановке. Что на что влияет,
каковы цели, чем можно пренебречь и т. п. Короче говоря, нужна
постановка задачи, модель, понимание, И так всегда, независимо от
масштаба проблематики. Подгорает ли мясо на сковородке или осла-
бевает Гольфстрим. Плохо работает терморегулятор в холодильнике
или смещается Земная ось. — Всё упирается в предварительное моде-
лирование.
В оное, собственно, всегда всё упирается. Будь то физика или бо-
таника34. Но что видится в лупе моделирования — никто не знает,
хотя многим кажется, что там — реальность. И штучки типа «сила
есть масса на ускорение» воспринимаются в итоге как сама Вселенная
в «ощупываемой части Мироздания».
34 Или школьные «задачи на составление уравнений», каковые обычно трудно
даются, ибо моделирование — это всегда открытие, прозрение.
38
Глава 1. Элементарная теория
При этом мало кто задумывается об условности понятий и шаблонов. Разуме-
ется, на территории квантовой механики забыться не удаётся, но классическая
механика столь гармонирует с ощущениями, что выдуманная природа исходных
представлений как-то ускользает. Время, пространство, — хотя и рассыпаются при
ближайшем рассмотрении, на обыденном уровне выглядят подлинно. Более того,
«обманы» вымышленного мира физики настолько взаимоувязаны и хорошо подо-
гнаны, что с определённой частью фокусов там хочется иметь дело «как будто оно
так и есть».
Но мы сейчас о другом. О тех задачах, где наработанных стандар-
тов недостаёт. А то и кругозора не хватает. Попробуйте, в частности,
заглянуть к руководству небольшого продуктового магазина. Там про-
дажа скоропортящегося товара сопровождается постоянным стрессом.
Перезаказал — выбросил, недозаказал — упустил прибыль. Вся жизнь,
конечно, такая. Но в продуктовом магазине — особенно. И они, конеч-
но, путём проб и ошибок, рациональное поведение как-то нащупывают.
Но подноготная по большей части остаётся всё же замаскированной,
и подобрать ключи к моделированию ситуации не так просто. Основ-
ная трудность, встающая на пути, заключается в постановке задачи.
Какие факторы учитывать, какие механизмы и качественные явления
вытащить на свет божий, как одно с другим связано. И тут важно —
не перемудрить. Начинать целесообразно с простейших моделей. Вот
один из вариантов.
Допустим, торговое время разбито на периоды, случайная величина
(с.в.) X обозначает спрос на товар внутри периода, х — объём оптово-
го заказа. Непроданный товар в течение «периода» приходит в негод-
ность. Далее, пусть А — розничная цена, р — оптовая. Прибыль, без
учёта привходящих факторов (накладные расходы, транспорт и т. д.),
равна
П(®,х) Н* - м)* - И* - X), если X < X;
[ (А — р)х,	если X > х.
Обозначим F(x) = Р{Х < ж}. Далее F(x) у нас будет называться, см.
(2.3), функцией распределения случайной величины X. Производная
матожидания прибыли Е{П(х,Х)} равна
аЕ{П<*’Х)} = (А - u)F(x) -р + рР(х),
их
1.14. Аксиоматика Колмогорова
39
и приравнивая её нулю, получаем, что максимум прибыли в среднем
достигается при заказе х, обеспечивающем равенство
= г
Л
Для определения оптимального заказа, разумеется, необходимо знать
F(x) в фактическом диапазоне, — для чего требуется наблюдать и на-
капливать данные.
Пример (1.22) может служить, как бы вызывающе это ни звучало,
введением в «Управление запасами». Ибо «примеры более поучитель-
ны чем правила», а представление о теории опирается на идеи, а не на
детали. Сказанное, конечно, перегибает палку, но не так уж сильно.
Как бы там ни было, на готовый каркас легко нанизывать дополни-
тельные детали. Не говоря о том, что игрушечная модель выводит
мысль из состояния замешательства и даёт импульс в продуктивном
направлении.
1.14. Аксиоматика Колмогорова
При обобщении исходной вероятностной модели на континуальные ва-
рианты Q, возникают проблемы. Точкам Q, по крайней мере всем, не-
нулевые вероятности не припишешь. Приходится вводить «плотность
вероятностей», т. е. меру на П. Но тогда, вообще говоря, не все подмно-
жества Q (события) будут измеримы. Придётся ограничиваться рас-
смотрением совокупности А подмножеств Q (событий), куда по необ-
ходимости входят: само Q, любое А принадлежит А вместе с дополне-
нием, — и выполняется
Л,ВсЛ => AjjBcA
(1.23)
40
Глава 1. Элементарная теория
Такая совокупность А множеств называется алгеброй подмножеств Q,
и — (т-алгеброй, в более общем случае, когда в А входят любые суммы
и пересечения счётных совокупностей,
все Ak С. А
ил* с А
к
ppfc С Л.
к
Термин «ст-алгефа» обычно портит настроение новинкам некоторой своей
'ланосчивостто». Однако к понятиям о-алгебры ц меры Лебега (см. главу Ц)
привыкнут^. Это внутренняя кухня ТВ, юридическая чаете, дающая
право. на различные манипуляции Причем алгебры достаточно нпиттп и
ЙЙ дедекиндовых сечения^
лицензирующих вещественные числа.
Вероятности событий при задании меры определяются естествен-
ным образом Р(А) = J* /z(tu)dcv. Матожидание с.в. X вычисляется тем
А
же макаром
Е(Х) = I X(cj)/z(cu)dcj.	(1.24)
Q
Интегралы берутся лебеговы. Чтобы подчеркнуть последнее обстоя-
тельство, вместо (1.24) пишут
Q
Е(Х) = / Х(о?)^(бЬ),
окончательно распугивая неподготовленную аудиторию.
В итоге вероятностным пространством называют непустое мно-
жество Q с «узаконенным» семейством А его подмножеств (событий)
и неотрицательной функцией (мерой) Р, определённой на А и удовле-
творяющей условию P(Q) = 1, а также
оо
= £р(л”)
71=1
для любой последовательности Л1,Л2,--- G А взаимно непересекаю-
щихся множеств Ai. Другими словами, вероятностное пространство
определяет тройка (П,Л, Р).
1.14. Аксиоматика Колмогорова
41
Что касается использования в ТВ интегрирования по Лебегу, то
это не от хорошей жизни. Интегрирование по Риману плохо тем, что
чуть что — перестаёт работать. Не интегрируются пределы функ-
ций, доказательства рассыпаются. Присказка «интегрируя по Лебе-
гу» обычно спасает положение, потому что по Лебегу интегрируется
почти все. Но до самого интегрирования дело чаще всего не доходит.
Принципиальную важность имеет сама возможность интегрирования
по Лебегу. Это сводит концы с концами. Примерно как иррациональ-
ные числа. В приближённых вычислениях они не используются, одна-
ко, заделывая бреши, превращают вещественную прямую в нормаль-
ное игровое поле. Но если о дедекиндовых сечениях при этом можно
даже не упоминать, то в ТВ иногда требуется умение произносить
фразу «интегрируя по Лебегу», не испытывая особого дискомфорта.
По поводу интеграла Лебега, теории меры, измеримых функций
и борелевских аномалий, — см. главу 14.
Глава 2
С.в. и континуальные
пространства
Практика всегда ускользает от теории,
застывшей в неподвижности.
Реальность изменчива, текуча, неуловима.
2.1.	Случайные величины
Кодирование, как известно, позволяет любую информацию перевести
в числовую форму. Теория вероятностей в этом отношении не является
исключением, и любая задача здесь может быть переформулирована
как задача о случайных величинах.
Итак, числовую функцию Х(о>), заданную на Q, называют случай-
ной величиной (с.в.). Примером может служить функция, принимаю-
щая значения 1 или 0 при бросании монеты, Герб — 1, Решётка — 0.
2.1. Случайные величины
43
Среднее значение тх = Е (X),
E(X) = £x(W)P(aO
называют матожиданием1 Х(ш).
Математическое ожидание функции-индикатора хА (о?) множества А,
если и) G А;
если ш $ А,
равно, очевидно, вероятности Р(А), т. е. Е(хА (<*;)) = Р(А).
Матожидание представляет собой весьма важную характери-
стику случайной величины. Очевидно, оператор Е линеен,
Е(оХ 1 Ж) -аЕ(Х) | /ЗЕ (К).
Инструменты ТВ, даже простейшие, обладают странными особен-
ностями, с трудом укладывающимися в голове2. Со странностей имеет
смысл начать, чтобы не терять бдительность.
Интуиция путается в простейших обстоятельствах. Достаточно двух взаимо-
действующих факторов, за которыми необходимо следить, чтобы ввергнуть чело-
века в недоумение.
2.1.1	Допустим, Р| У ч 0} = Р{1 < п} 1/2,	случайные величины X
и Y независимы. Вытекает ли отсюда Р{Х 4- У 0}	1/2 F
◄ Не вытекает. Если X, Y независимо принимают значения {—1,2} с вероят-
ностями 1/2, то Р{Х 4- Y 0} = 1/4, поскольку X 4- Y 0 только в одном случае
X = Y = — 1, в одном — из четырёх возможных. ►
1 Математическим ожиданием.
2Дело, конечно, не в инструментах, а в самой теории вероятностей.
44
Глава 2. С.в. и континуальные пространства
2.1.2.	Парадокс транзитивности. Сравнивая случайные величины X и У, будем
говорить «X больше Y по вероятности», — если
Р{Х > У} > Р{Х У},
т. е. вероятность неравенства X > У больше 1/2.
Допустим теперь, что пространство элементарных событий Q состоит из 6 то-
чек, в которых с.в. X, Y, Z, W с равной вероятностью 1/6 принимают значения
согласно таблице3:
X	6	6	2	2	2	2
У	5	5	5	1	1	1
Z	4	4	4	4	0	0
W	3	3	3	3	3	3
1	2
Очевидно, X = 6 с вероятностью	В этом случае X > У независимо от
о О
9	4
значения У. С вероятностью величина X равна 2. Тогда X > У, если У — 1,
что имеет вероятность . Поэтому, с учётом формул умножения вероятностей
и суммы непересекающихся событий, итоговая вероятность неравенства X > У
равна
1	2 12
3 + 3 ’ 2 “ 3’
Аналогично подсчитывается, что У > Z, Z > W, — с той же вероятностью
Получается цепочка неравенств
2
3’
X > У > Z > W.
Возможность W > X представляется в некотором роде дикой. Тем не менее, W > X
с вероятностью
О
2.1.3.	Парадокс ожидания серии. Какая в случайной «01»-последователь-
ности4 комбинация, 00 или 01, появится раньше? Очевидно, равновероятно, по-
скольку после первого появления нуля на следующем шаге возникнет либо 0, либо
1, — с вероятностью 1/2. Напрашивается вывод, что среднее число шагов (среднее
время ожидания) moo и moi до появления, соответственно, серий 00 либо 01 —
тоже одинаково. Но это не так.
◄ Пусть то обозначает среднее число шагов до появления комбинации 01 при
условии, что первая цифра «01»-последовательности оказалась нулём, a mi —
3 Функция X, например, может быть реализована бросанием шестигранной ко-
сти, грани которой помечены цифрами {662222}.
4 Подразумевается равная вероятность появления нуля и единицы.
2.2. Континуальные fl
45
среднее число шагов до появления комбинации 01 при условии, что первая цифра
«01»-последовательности оказалась единицей. Легко видёть, что
. 11 1 1
mo = 1 + - + —то, 7711 = 1 + 2Ш°	2mi’
_	_	mo + mi
откуда то = 3, mi = 5, moi =-----= 4.
Если же mJ, т* обозначают аналоги то, mi в ситуации, когда речь идёт о
появлении комбинации 00, то
* , 1 1 * *,1*1*
1^0 = 1 + - + -^.!, m1 = l + -m0 + -m1.
„с	тпп + т?
В конечном итоге это дает° moo =-~-= 6. ►
Не так удивительно, но заслуживает упоминания, что из
«U > V по вероятности»,
вообще говоря, не следует5 6 Е {£/} > E{V}.
Так что ТВ, как сильнодействующее средство, не только спаса-
ет от заблуждений, но и создаёт их, см. дополнительно раздел 1.12 о
стохастических предрассудках.
2.2.	Континуальные Q
Пространство элементарных событий Q часто имеет континуальную
природу. Это может быть вещественная прямая или отрезок, Rn либо
его подмножество. При этом, если Q — некая фигура на плоскости, и
А С Q,
5 Дополнительную информацию можно найти в [16].
6Но Vcj : U(w) > V(cj), конечно, влечёт за собой Е {U} > Е {V}.
46
Глава 2. С.в. и континуальные пространства
то вероятность Р(А) полагают равной отношению площади А к пло-
щади Q, т. е. Р(А) = SA/Sn, предполагая тем самым «равновероят-
ность»7 элементарных событий w 6 Q. Модель (2.1) не обязательно
должна соответствовать визуально наблюдаемой ситуации. Это мо-
жет быть параметрическое описание реальности, переведённое в R2.
Вот два рядовых примера.
2.2.1 Стержень АВ ломается в точках Р u Q на три куска. Какова вероят-
ность того, что из них можно сложить треугольник?
-« В- случае х ~ АР, у ~ PQ возможность сложить
треугольник вписывается неравенствам и
I	,	I
- <. х f у < I; г, у < - ,
z	£
которым на рис. справа удовлетворяют внутренние
точки треугольника PPG. Если все точки {х, г/} рав-
новероятны, то искомая вероятность
,, SgEFfS I ,
SaiToi) 4
2.2.2 Во время боя в течение часа в корабль попадает два снаряда. Для заделки
одной пробоины требуется 15 минут. Если пробоина ещё не заделана, а в корабль
попадает второй снаряд, — корабль тонет. Какова вероятность потопить ко-
рабль?
< Если времена попаданий снарядов 11 и ts рав номерно распределены по квад-
рату 5 размера 60 мин к 60 мин. то искомую вероятность даёт отношение пло-
щади многоугольника
{]«!15]QS.
к площади квадрата 8. ►
Задачи подобного рода берут начало от классической задачи Бюффона об игле,
где как раз предполагалась равномерность распределения параметров в некоторой
области Q.
Игла длиной I бросается на плоскость, разграфленную параллельными пря-
мыми, отстоящими друг от друга на расстоянии 21. Какова вероятность того,
что игла пересечёт одну из параллелей? Ответ: р = 2/тг.
7Равновероятность взята в кавычки, поскольку здесь надо говорить о плотно-
стях, см. далее. Что касается идеи равновероятности, то она привлекательна в ТВ,
ибо наименее требовательна к объяснению причин.
2.3. Плотности и функции распределения
47
◄ Если х — расстояние от центра иглы до ближайшей прямой, а (р — угол между
иглой и прямой, то по смыслу задачи 0 х Z, — <р < Поэтому множество
всевозможных х, <р — прямоугольник S с площадью 1тг. Игла пересекает прямую,
7Г/2
если х	I cos 99, что в S высекает фигуру площади f I cos ipdip = 21. Поэтому
-7г/2
2/	2
искомая вероятность р =	. ►
Безмятежное отношение к такой идеологии «равномерного распределения па-
раметров» сохранялось до столкновения с парадоксом Бертрана.
В задаче Бертрана вычисляется вероятность того, что наугад взятая хорда
заданной окружности больше стороны вписанного правильного треугольника.
Бертран рассмотрел три варианта параметров, определяющих положение хор-
ды:
•	расстояние до центра и угол нормали хорды с осью х;
•	угловые координаты точек пересечения хорды с окружностью;
•	декартовы координаты середины хорды.
Во всех трёх случаях вероятности оказались разными:	.
Казус пошёл на пользу. Стало ясно, что внимательнее надо изучать
ситуацию неравномерного распределения точек в Q.
2.3.	Плотности и функции распределения
Допустим, точки в Q распределены с плотностью причём
п
Тогда вероятность события А определяется как
А
а если на Q задана случайная величина Х(о?), в том числе векторная
X(cj) = {Xi(cv),..., Хп(о>)}, то матожидание равно
Е(Х) = /
(2-2)
48
Глава 2. С.в. и континуальные пространства
Заметим, первичное пространство элементарных событий сыграло
свою роль, и при необходимости можно обойтись без него. Во многих
ситуациях это даёт определённые выгоды.
Сила ветра, например, случайная, величина? Видимо, да. Но на неё влияет
столько факторов, что о наличии глубинного Q мы можем только догадывать-
ся. Господь бросает кости по ту сторону, а мы тут наблюдаем результат —
саму случайную величину. И даже в простейшем случае бросания монеты — про-
странство «герб-решетка» лишь агрегированная иллюзия. Реальное Q надо ис-
кать на другом уровне, где об устройстве Вселенной известно немного больше.
Исключить Q из рассмотрения можно, переходя непосредственно
на описание с.в. X с помощью функции распределения:
F(x) = Р(Х < х)
(2-3)
Разумеется, Р(Х < х) = /	но это остаётся за кадром. Та-
ким образом, случайные величины могут характеризоваться непосред-
ственно в терминах функций распределения. Отказ от рассмотре-
ния пространства элементарных событий носит, разумеется, услов-
ный характер. На самом деле одно пространство заменяется другим.
Происходит нечто вроде агрегирования. Пространством П случайной
величины X становится вещественная прямая или её подмножество.
Вне поля зрения остаётся более глубокий уровень, если таковой име-
ется.
Очевидно, ф.р8. F(x) монотонно возрастает (не убывает) и
lim F(x) = 1,
X—>oo
lim F(x) = 0.
Вместо F(x) часто используют плотность распределения р(х), свя-
занную с F(x) условием:
8 Так иногда мы называем функцию распределения.
F(x) = / p(u)du.
(2-4)
2.3. Плотности и функции распределения
49
Из (2.4) следует
х+Дх
F(ic+ Дж) — F(x) = J p(u)du = р(х) Lx + о(Дх),
X
откуда
р(ж) = F'(x)
Понятно, для дифференцируемости F(x) нужны предположения,
но мы на этом не останавливаемся. Более того, далее используются
плотности, содержащие ^-функции [22], что позволяет единообразно
охватить дискретно и непрерывно распределённые случайные величи-
ны.
Аналогом равновероятных элементарных событий служит ситуа-
ция равномерной плотности:
p(z) =
т-1, х € [а, &];
о — a' L J
О, х£[а, Ь].
При этом говорят о равномерном распределении X на [а, Ь].
Если X вектор, то в F(x) = Р(Х < х) под X < х подразумевается совокуп-
ность покомпонентных неравенств. Из
Е(ж1, • •., Хп)
XI хп
= /-p{ul
— оо —оо
., Un)dui... dun
вытекает
P(*^l	®п) —
dnF(xi,..., хп)
дх\ ... дхп
Вместо F(x) и р(х) обычно пишут Fx(x) и рх(х), помечая случайную
величину X и аргумент х. Мы не только будем опускать индекс, но
вместо X будем иногда писать х. Конечно, это не вполне корректно,
X
но не более чем f f(x)dx. Строгие обозначения — не всегда благо. Если
из контекста ясно, о чем речь, обозначение тем лучше — чем проще.
50
Глава 2. С.в. и континуальные пространства
2.4.	Математическое ожидание
В соответствии со сказанным ранее, матожидание с.в. X
То же самое пишут в виде
Заметим, линейность оператора матожидания Е,
Е (аХ + 0Y) = аЕ (X) + (ЗЕ (У),
(2-5)
представляется очевидной. Но это не совсем так. В ситуации (2.2) подразумева-
лось, что случайные величины могут быть разные, но мера д(о>) на Q одна и та
же, — и тогда линейность действительно очевидна. В данном случае X, У могли
«прибыть» на (—оо, оо) из разных Q, к тому же, предысторией уже никто не инте-
ресуется, X имеет свою плотность распределения, У — свою. Точнее говоря, надо
рассматривать даже совместную плотность их распределения p(x,j/). Тогда
Е (аХ + fiY)
= J f @y}p(x'y№dy =
xp(x)dx + fi
2/p(2/)dy = aE(X)+J9E(y),
oo
где, например, p(x) = J p(x,y)dy. В итоге получается (2.5), но теперь несколько
— оо
другим путём.
... Пояснение простого факта может показаться многословным, но
здесВ имеет смысл потратить какое-то время, если речь идёт о
попытке <и’мыслит1> сколегную ТВ. Исходное определение
с.в, создаёт впечатление, что £2 задано, и... время от времени в
рассмотрение включаются разные случайные величины. Реальная
кабине обычно /ipyi’aw. Ки.жДин C-п-	Ка.к бы Со Сно-
ей прямой (—ос, ос),. и П постепенно расширяется с [ -оо,. ос) до
X (—оо. ос) и т. д.
2.5. Независимость случайных величин
51
Аксиоматизация оператора Е,
1.	Х^О -> Е(Х)рО
2.	Е(АХ) = ЛЕ(Х)
3.	Е(Х + У) = Е(Х) + Е(У)
4.	Е(1) = 1
5.	Если монотонно возрастающая последовательность с.в. Хп(ш) сходится к
Х(а;), то limE (Хп) = Е (Хп),
позволяет использовать матожидание как отправную точку — вместо вероятно-
сти. Разумеется при упрощённом взгляде на предмет особой математической раз-
ницы нет, поскольку вероятность возникает тут же как матожидание функции-
индикатора,
Р(А) = Е[хЛ(Х)].
Разница подходов начинает ощущаться на высоких этажах теории вероятностей,
где круг дозволенных неприятностей достаточно широк. Но помимо математиче-
ской — есть разница психологическая. Для кого-то понятие среднего значения мо-
жет быть предпочтительнее понятия вероятности.
Пример. Случайная величина, принимающая значения из ограниченного про-
межутка, всегда имеет матожидание. При распределении на бесконечном проме-
жутке — не обязательно. Пусть с.в. X распределена по закону Коши с плотностью
/ ч	1
PW =	2ч-
тг(1 + аГ)
Тогда
xdx
7г(1 + х2)
Для моментов более высокого порядка ситуация только ухудшается.
2.5.	Независимость случайных величин
Независимость случайных величин Xi,X2 определяется как незави-
симость событий
№ < хх},
{Х2 < х2}
при любых xi,x2, т. е.
Р(Хг < Xi,Х2 < х2) = P(Xi < xi)P(X2 < х2),
52
Глава 2. С.в. и континуальные пространства
что равносильно
F(xi,a:2) = jFi(a:i)F2(a:2)
и, как следствие,
р(Х1,Х2) = Р1(Ж1)Р2(Ж2)
Функции F(a?i,a:2) и p(xi,x2) называются совместными, соответ-
ственно, функциями и плотностями распределения случайных вели-
чин Х\ и %2- Таким образом, если случайные величины независимы,
то их совместная плотность (функция) распределения равна произ-
ведению плотностей (функций). Это правило действует и в общем
случае п случайных величин — и принимается за определение незави-
симости.
Несмотря на некоторые дефекты, присущие понятию независимости
событий, см. раздел (1.5), на практике независимость обычно хорошо
работает, минуя аномалии. Это тем более справедливо в отношении
случайных величин, где накладывается требование независимости не
на два-три события, а на любые комбинации неравенств, что исклю-
чает неприятности.
2.6.	Комбинирование случайных величин
Пусть имеется две независимых случайных величины X, Y с функци-
ями распределения Fy(-). Тогда сумма с.в. Z = X + Y имеет
ф.р.
оо
Fz(z) = I Fx(x — y)d,Fy(y).	(2.6)
—ОО
2.6. Комбинирование случайных величин
53
Для плотностей распределения, само собой, получается аналогич-
ная формула9,
Рх(х - y)py(y)dy.
(2-7)
◄ Свёртку ф.р. (2.6) полезно сначала продумать на примере дискретных с.в.
Пусть X, Y принимают числовые значения, соответственно, в множествах {a?i,..., а?п},
{2/1, • • •, Ут}- В этом случае10
P{X + Y = Z} = 52 P{X = Xi,Y = ад},
Xi+yj
что для независимых с.в., Р{Х = Xi, Y = yj} = Р{Х = Жг}Р{У = yj}, обращается
в
Р{Х + Y = Z} = 52 Р{Х = Xi}P{y = ад} = 52 Р{х = Xi}P{z -Xi},
Xi+yj	г=1
где вероятность P{z — Xi} полагаем равной нулю, если
Z~Xi £ {У1,...,Ут}-	►
Максимум двух независимых с.в., Z = тах(Х, У),
Fz(z) = Р ({х z} г}) = Fx(z)Fy(z).
Минимум двух независимых с.в., Z = min(X, У),
F2(z) = Р ({х z} |J{y г}) =
= гЕ(г)+вд-гг(г)ад =
= 1-едвд
9В случае X, У 0 (2.7) переходит в
Pz(z) = Jрх(х - y)py(y)dy,
о
х > 0.
10 Суммирование идёт по всем i,j.
54
Глава 2. С.в. и континуальные пространства
2.7.	Дисперсия, ковариация, корреляция
Скаляр	________________________
D (X) = Е (X — m^)2
называется дисперсией случайной величины X, а <тх = ^/D (X) — сред-
неквадратическим уклонением X от среднего значения тх, а также
среднеквадратической ошибкой в контексте оценки среднего значения
тх.
В силу линейности оператора Е:
Е (X - тх)2 = Е (X2) - 2Е (Х)тх + т2х = Е (X2) - т2.
Поэтому дисперсия D(X) = Е(Х2) — тп2, где Е(Х2) так называемый второй
момент. Вообще Е(ХП) именуется моментом п-го порядка случайной величины
X, в соответствии с чем матожидание — первый момент.
Случайная величина X — тпх имеет нулевое матожидание, и её называют цен-
трированной, а моменты центрированных величин — центральными. По этой тер-
минологии дисперсия — второй центральный момент.
• Из существования Е(ХП) вытекает существование E(Xfc) при любом
к^п, причём Е (Xfc) < [Е (Xn)]fc/n.
Для двух случайных величин X, Y рассматривают смешанные мо-
менты Е (ХпУт). Важную роль во многих ситуациях играет ковари-
ация,	_________________________________
соу(ХУ) = Е [(X — mx)(Y - ту)] ,	(2.8)
и коэффициент корреляции:
гху —
соу(ХУ)
сгхау
Штожидание произведения Е (UVI случайны* величин3V* удовле-
творяет всем аксиомам скалярного произведения. см. |21|. Это дает есте*
ственныо основания считать центрированные случайные величины о нуле-
вой ковариацией ортогональными. Никакой особой глубины за.этим нет,
возможности[.мыслитьос.в. в ^рмдаахевклидбвых прбстранств,
что иногда |>аjдвигает горизонты.
11Т. е. функций U, V, заданных на Q.
2.7. Дисперсия, ковариация, корреляция
55
Очевидно, cov(XY) = Е (XY) — тпхтпу , и соу(ХУ) = 0, если X и Y незави-
симы. Но ковариация может быть нулевой в случае зависимых X, Y.
Решим, например, такую задачу, считая X, Y — центрированными (для про-
стоты). Найдем приближение Y случайной величиной Z = otX по квадратичному
критерию:
Е (У - Z)1 2 = Е (У - аХ)2 -> min	(2.9)
Для определения минимума по а приравниваем нулю производную (2.9) по а,
получаем
2Е{(У — аХ)Х} = О,
откуда
а = cov(Xy)/D (X),
т. е. при ненулевой ковариации (корреляции) между X и У существует «линей-
ная зависимость» вида У = оХ + Ж с ненулевым коэффициентом а и случайной
величиной W = У — Z некоррелированной с X, cov(XW) = 0.
Практическое вычисление корреляций часто приводило к обнаружению «не-
ожиданных» связей мистического толка. При этом упускалось из вида, что
причинная связь и функциональная — совсем разные вещи. Например, процес-
сы, подверженные влиянию солнечной активности, в результате могут корре-
лировать друг с другом, а их функциональная связь может быть использова-
на для прогноза, но не для объяснения. В результате некритичного отношения к
статистическим данным в медицине, экономике, метеорологии, — часто говорят о
причинно-следственных связях независимых, но коррелированных явлений. Или
наоборот, упускают из виду нелинейные связи из-за нулевой корреляции.
Пример. Случайные величины X и У=Х2 связаны жёсткой функциональной
зависимостью, но при равномерном распределении X в промежутке [—1,1], — их
ковариация равна нулю,
cov(XY) = У	= 0,
-1
поскольку линейная составляющая взаимосвязи отсутствует.
Некоторые учебники от термина «ковариация* вообще отказывают-
ея, заменяя его корреляцией или корреляционным моментом
= соу(ХУ), и называя к^ффициемтом корреляции ту же «нор-
мированную^ величину г % у — KXy/oxav. Это имеет свои минусы. но
разгружает терминологию, и выглядит приемлемо.
1
При одновременном рассмотрении нескольких с.в. Xi,..., Хп говорят о кова-
риационных моментах
Kij = Е {(Xi - mi)(Xj - mj)},	(m< = E (Xi))
которые объединяются в ковариационную матрицу К = [Xij].
56
Глава 2. С.в. и континуальные пространства
Корреляционная матрица R = [r$j] из К получается переходом к элементам
(коэффициентам корреляции)
к- 
rij = / J :»	ка = D (Xi).
Обе матрицы К и R неотрицательно определены, поскольку
Z	\ 2
22 ki^i = Е )	I	°’
ij	ij	J
Аналогично для R.
У пражнения
•	Если случайная величина X принимает значения только из интервала (0,1),
ТО Ох < 771®
•	(<Тх - <г„)2 < ах+у < (<тя + ау)2
•	<7Х * Оу Ох'У
.<72 = 1шпЕ{[Х-а|2} (£,)
•	Если линейное преобразование U = АХ преобразует случайный вектор X,
то ковариационные матрицы и Кх связаны соотношением12
Ки = АКхАТ,
(2-10)
где Ат транспонированная матрица.
Равенство (2Л0) есть правило преобразования квадратич*
пой формы при nepex^v- к другому базису, см, |21]_ Поскольку
I	квадратичная форма всегда приводится ортогональным Преоб-
*разеванием А к диагональной форме, го от исходного вектора
JC всегда можно перейти « случайному вектору U ~ АХ г не-
киррелириванны ми к< шшжентам и.
2.8.	Неравенства
При изучении вероятностных ситуаций и проблем большую роль игра-
ют разнообразные оценки, каковые нередко опираются на виртуозное
манипулирование неравенствами между вероятностными моментами.
12E{L7i^} = E
У aipOjgXpXq z.
p»g	I
2.8. Неравенства
57
При более-менее скромном замахе обходятся несколькими основными
неравенствами.
Неравенство Коши—Буняковского13:
Е(|ХУ|) С \/Е(Х2)Е(У2)	.	(2.11)
◄ Из Е {(А|Х| — |У|)2}	0 следует
А2Е (X2) - 2АЕ (|ХУ|) + Е (У2) О,
а положительность квадратного многочлена (от А) влечёт за собой отрицатель-
ность дискриминанта, что равносильно (2.11). ►
Из (2.11) сразу вытекает, что коэффициент корреляции всегда но модулю
меньше или равен единице.
Если (р(х)	0 — неубывающая при х а функция, то
оо	сю	оо
cpdF(x) У <pdF(x) (p(d) f dF(x) = </?(а)Р(Х > а),
—оо	а	а
откуда
Р(Х > а) < Е. (У*при условии ip(a) 0.	(2.12)
</?(а)
Выбор Ц)(х) = х2, и |Х — тпх\ в качестве случайной величины, даёт
неравенство Чебышева14
PflY w I > nW D (X)
Р(|Х Hlxj fl) л
fl
(2-13)
Из (2.13) следует, что оценка сверху среднеквадратического уклонения влечёт
за собой оценку сверху вероятности уклонения. Это позволяет перепасовывать ана-
лиз из одной плоскости в другую — от моментов к вероятностям. Так сложилось,
13Альтернативные названия: неравенство Шварца либо Коши—Шварца.
14Двумерное неравенство Чебышёва:
1 + 1/1 — т2
Р{{|Х т>х |	х } U<ly _ ту\> £сги}} -----------^2--------
58
Глава 2. С.в. и континуальные пространства
что (2.13) затмило другие возможности. Имеет смысл опираться на общее нера-
венство (2.12), из которого можно извлекать более подходящие следствия для кон-
кретных задач, подбирая функцию </?(%)). Например, неравенство Маркова
Е
Р(Х > а) ------- при условии X О
а
или
Р(|Х| ^e-QeE(ealxl) (£,<-,<* >0).
Неравенство Колмогорова. Пусть последовательность незави-
симых случайных величин Xj имеет нулевые матожидания Е Xj =0
и DXj < оо. Тогда
(2-14)
◄ Пусть Sk обозначает сумму Х± + • • • + Xfcj Aj — событие, состоящее в том,
что
|Sj | е, но |SJ < £ при всех i < j.
Объединение непересекающихся событий Aj есть событие А, означающее
max{|Si| е,г п}.
Условная дисперсия
Е (S2 |А^) = Е [(S„ - Sj + S,-)2|A,] =
= Е [(S„ - Sj)2|Aj] + 2Е [(Sn - Sj'fSj|Aj] + E (S?|Aj) > e2,
поскольку E [(Sn — Sj)2|AJ 0, второе слагаемое E [(Sn — Sj)Sj|Aj] = 0, так как
Sn — Sj и Sj независимы, потому что состоят из разных независимых слагаемых,
a E(S2|Aj) е2 — по определению Aj.
Поэтому
E(S^) = £e(S2|A,)P(A.,) + E(S2|A)P(A)) >е2£р(АД
j=l	3=1
что и есть (2.14). ►
Если бы максимум в (2.14) достигался при к = п, неравенство сводилось бы к
неравенству Чебышёва. Из (2.14), разумеется, следует
P{|Sfc|^e;fc = l,...,n}>l-4ZLD^.
е з=1
2.8. Неравенства
59
(1^) Требование независимости с.в. Xj в (2.14) можно ослабить до
E(XJ|Xi,...,X>-i) = O	(2.15)
при любом у, т. е. заменив независимость предположением о равенстве условных
матожиданий — равенством безусловных. Обоснование несложно. Независимость
Xj при доказательстве неравенства (2.14) использовалась в двух пунктах. При
обосновании
п
Е[(5п-ад|А,] = 0 и E(S„) =
J=1
То и другое остаётся справедливым без предположения независимости Xj, но при
условии (2.15).
Неравенство Йенсена. Пусть ip(x) — вогнутая функция (вы-
пуклая вверх), и матожидание Е(Х) существует. Тогда
Е^(Х) ^^(ЕХ)
(2-16)
◄ Для выпуклой вверх функции у?(х) всегда найдется функция15 ^(х) такая,
что
9?(х)	<р(у) + ^(y)(x - у).
Матожидание этого неравенства при х = X, у = ЕХ даёт (2.16). ►
Неравенство Ляпунова. Пусть
О < £ < 0 < оо и Е|Х|е<оо.
Тогда Е|Х|< < ОО И
(Е|Х|е)С^(Е|Х|9<’
(2-17)
15 В гладком случае i[)(x) =
60
Глава 2. С.в. и континуальные пространства
◄ Применяя к
неравенство Йенсена16 (2.16), имеем
Е|Х|* = Е (|Х|<)в/Ч (Е|Х|«)в/<,
что после возведения в степень £ даёт искомое (2.17). ►
2.9.	Метод наименьших квадратов
Рассмотрим стандартную задачу идентификации. На вход изучаемого
объекта (2.18)
(2-18)
действует случайный вектор X = {А\,... ,ХП}. Скалярный выход Y
не определяется входом X, поскольку на объект действует ещё нена-
блюдаемое возмущение £. Предположим, для простоты, все случайные
величины центрированы. Задача состоит в построении линейной мо-
дели17
г = ^аХ,
i
по критерию минимума среднеквадратической ошибки:
Е(У-^сЛ)2 —> min.
i
◄ Минимум определяет равенство нулю производных по Cj,
^-Е (Y - Л ctXi)2 = 2Е {(У - ciXtyXj} = 0.	(2.19)
г	i
16Функция ив/выпукла в силу £ < 0.
17Модель Z = ^CiXi обычно служит для прогноза У, что, в свою очередь,
i
является основой для принятия управленческих решений.
2.9. Метод наименьших квадратов
61
Оптимальный вектор с, таким образом, является решением системы
Ка»С ——
где Кг ковариационная матрица X, а вектор ковариации Кху имеет координаты
Е{Х,У}. ►
Получается, вектор с должен быть выбран так, чтобы функция
Y — ^CiXi была ортогональна всем Xj в смысле (2.19).
i
Глава 3
Основные функции
распределения
Всякая задача погружена
в трясину расширяющихся контекстов,
по мере изменения каковых
хочется не того, чего хотелось.
3.1.	Стандартный ассортимент
Разнообразие веществ базируется на таблице Менделеева. И другие
области опираются на ограниченные комплекты шаблонов. Вероят-
ностные процессы тоже состоят из типичных ингредиентов. Разговор
к тому, что рассматриваемые ниже плотности и функции распреде-
ления взяты не с потолка для примера, а из ниши, которая питает и
формирует вероятностную кухню.
Равномерное распределение в промежутке [а, Ь] имеет плотность
z ч	1
Р(^) = 7-,
о — а
3.1. Стандартный ассортимент
63
которой соответствует функция распределения
F(sc) = f p(u)du = —-— f du = —-
при x 6 [а, Ь]. Разумеется, F(x) = 0 при х а и F(x) = 1 при х Ь.
Биномиальное распределение. Если при бросании монеты вы-
падению герба сопоставить единицу, решётки — нуль, модель вместо
ГРГГР ... будет генерировать случайные
«01 ^последовательности: 10 110...
При этом можно говорить также о генерации двоичных чисел вида
0,10110....
В общем случае в результате испытания (эксперимента) еди-
ница появляется с вероятностью р € (0,1), нуль - с вероятностью
q — 1 — р. Появление единицы часто именуют успехом. Проведение
соответствующих независимых испытаний называют схемой. или по-
следовательностью испытаний Бернулли.
В силу независимости испытаний вероятность в п испытаниях по-
лучить к единиц в каком-либо определённом порядке (и, соответствен-
но, п — к нулей) — равна pkqn~k. А поскольку к единиц расположить
в п разрядах можно числом способов Ск, то вероятность получить к
единиц независимо от порядка их следования — равна
Ск^к^п—к
пР Q
Набор таких вероятностей {ро,---,рп} называют биномиальным
распределением (в серии испытаний длины п). Можно сказать, что
биномиальное распределение имеет сумма
Sn - Х1 Ч----h Хп,
где все с.в. независимы и принимают два возможных значения 1
или 0 с вероятностями р и q = 1 — р.
Легко проверить:
Е {5П} = пр, D {5п} = пр(1 - р), Е {[Sn - пр]3} = пр(1 - р)(1 - 2р).
64
Глава 3. Основные функции распределения
На базе бросания монеты часто говорят об игре в «орлянку»: герб —
выиграл, решетка — проиграл. При этом удобно считать, что Хь при-
нимают значения не 1 и 0, а 1 и —1. За этой схемой, в свою очередь, под-
разумевают иногда случайное блуждание частицы (или выиг-
рыша).
к
на рк = pq
Геометрическое распределение. В схеме Бернулли вероятность
появления к нулей перед первым появлением единицы, очевидно, рав-
q = 1 — р. Совокупность этих вероятностей (при к =
= 0,1,2,...) называют геометрическим распределением1. Вероятность
первого успеха при fc-м бросании, таким образом, равна Р(Х = к) =
= pqk~r, где с.в. X обозначает номер первого успеха. Среднее число
оо
испытаний до первого успеха Е (X) = ^2 kpqk~r. Простой трюк
к=1
E(X)-gE(X) = f;p9fe-1 = l
к=1
даёт2
Е{Х}=Л
Р
(3-1)
В качестве механизма организации последовательных испытаний Бернулли мо-
гут использоваться урновые модели. В урне находится к белых шаров и т чёрных3.
Вероятность вытащить белый шар равна р = fa т ’ чёрный — q =	• При
последовательном извлечении шаров возможны два варианта: шар, вытащенный
на предыдущем шаге, возвращается в урну или не возвращается.
В основе урновых моделей лежит равновероятный выбор любого из шаров.
Симметрию нарушает раскраска. «Сложные» в данном случае события выбора
белого или чёрного шаров можно взять в качестве элементарных — для схемы
Бернулли. Это даёт готовый механизм обеспечения вероятности р =	•
1 Геометрическое распределение имеет с.в., равная числу испытаний до первого
успеха — число промахов до первого попадания либо «число лягушек, которых
приходится перецеловать, пока не найдёшь своего принца».
2Аналогично вычисляется дисперсия D{X} = -X .
Р
3 Встречаются постановки задачи с бблыпим количеством цветов. По сути ур-
новой является карточная модель с задачами типа: «из колоды вытаскивается п
карт — какова вероятность, что к из них одной масти?».
3.1. Стандартный ассортимент
65
Иногда говорят, что погдду в теории вероятностей определяют три
закона распределения: биномиальный, нормальный и пуассоновский.
Из дальнейшего будет видно, что из этой тройки два последних мож-
но в некотором роде исключить. Нормальное распределение и пуас-
соновское являются аснмптптпческими вариантами - биномтлъ»
него.
Распределение Пуассона, как и биномиальное, является дис-
кретным, и характеризуется вероятностями
/7^
Р(Х = *) = kie~
(к = 0,1,...).
00
Легко убедиться, что а = кР(Х = к), т. е. а есть матожидание с.в. X,
к—о
распределённой по закону Пуассона. Дисперсия X тоже равна а.
_	г. р —_
Закон рк = а полУчается из биномиального, если п —> оо и при этом
вероятность р меняется так, что рп —> а.
Действительно, Скрк(1 — р)п~к при условии р = — записывается в виде
Закон Пуассона получается с учётом
при п —> оо.
Но генеалогическое древо пуассоновского распределения имеет бо-
лее важные ответвления (см. раздел 3.8).
66
Глава 3. Основные функции распределения
Обратим особое внимание на возможность использования
дельта-функций4 для записи плотностей распределения, что сводит
воедино непрерывные и дискретные задачи и позволяет рассматри-
вать задачи со смешанными плотностями
Р(я) =рсрс(х) +pi<5(z - £1) + • • • +ркй(х - Xk).
Плотность распределения пуассоновского закона, в частности, име-
ет вид
°° ак
р(ж) = 52 т[е~а^х - *)•
к=0 К'
Такого сорта выгоды иногда трактуются как чисто технические нюансы, спо-
собствующие обозримости и единообразию результатов. Здесь можно добавить, что
удобства — это, как правило, вопрос жизни и смерти математической дисципли-
ны.
Нормальный закон распределения. Случайные величины, с ко-
торыми приходится иметь дело на практике, чаще всего подчинены
нормальному закону распределения5, имеющему плотности вида
рИ =-----7х=е
vxv 27Г
(х - ТПх^
2<т*
(3-2)
4Справочную информацию о дельта-функции см. в главе 14.
5 Нормальное распределение называют также гауссовским.
(3-3)
3.2. Функции случайных величин
67
Различия определяются матожиданием тпх и дисперсией о^. Примеры
графиков плотностей (3.2) изображены на рис. (3.3).
Причины, по которым нормальный закон широко распространен
в природе анализируются в разделе 3.7. Для краткости записи ино-
гда используют обозначение Л(тпх^о^). Например, N(0,1) обозначает
нормальное распределение с нулевым матожиданием и единичной дис-
персией. Функция распределения N(0,1) имеет вид
(3-4)
Интеграл (3.4) не выражается через элементарные функции. Вместо «стандар-
та» Ф(х) используется также интеграл Ф(т) = ? J* е~а '2dsy связанный с (3.4)
v27T о
очевидным соотношением Ф(а:) + 1/2 = Ф(т).
У пражнения
•	Если X и У распределены геометрически, то и Z = min{X, У} имеет геомет-
рическое распределение.
•	Если X и У распределены нормально либо по Пуассону, то Z = X + У имеет,
соответственно, такое же распределение.
•	Если X и У имеют функции распределения Fx(x) и Fy(y), то с.в. Z =
= тах{Х, У} имеет функцию распределения Fz(z) = Fx(z)Fy(z).
3.2.	Функции случайных величин
Если Y = f(X), где f обычная детерминированная функция, а X
случайная величина с плотностью р(х), то среднее значение Y = f(X),
очевидно, равно
™у
оо
= Е (У) = [ f(x)p(x)dx.
68
Глава 3. Основные функции распределения
Аналогично,
ay = D (у) = / [/(я) “ rny]2p(x)dx.
Если Y = f(X) вектор, подобным образом определяется и ковари-
ационные моменты:
covtYjYj) = / [fi(x) - myi\[fj(x) - myj]p(x)dx.
С определением плотности распределения Y = f(X) возни немного
больше. Из нижеследующего рисунка видно, что6 7
Р{у < /(X) <y + dy}=px (f~\y)) | [/-1 (з/)] '|
dy
♦
откуда функция распределения
F(y) = Р{У < у} = J рДГ1(у))|[Г1(у)]'|^,
7
а плотность'
pv(.y) = px(f Чу))^/ Чу)]'},
(3-5)
где индексы х, у показывают, какие плотности подразумеваются.
6Для простоты ограничиваемся рассмотрением взаимно однозначных /.
7Подразумевается, у = f(x) имеет единственное решение при любом у.
3.3. Условные плотности
69
Если X и Y — векторы, имеющие одинаковую размерность, и
X = f~4Y) = h(X),
то
У1 Уп
F(y) = Р{У <у}= f " ' f р!С (Ml/))det dV’
где
Рх (h(»)) det [dhi/dyj] = Py(y),
а индексы sb, у показывают, какие плотности имеются в виду.
У пражнения
•	Если F(x) непрерывная функция распределения с.в. X, то случайная вели-
чина Y = F(X) равномерно распределена на [0,1].
Пусть Fi u F2 непрерывные функции распределения независимых с.в. Xi и
Х2:
•	Тогда произведение X = XiX2 имеет функцией распределения
О	сю
FCr) = J [1 - F2	dF^if) + у F2	dFifo).
—сю	О
(г.)
•	Тогда X = max{Xi,X2} имеет ф.р.
F(x) = Fi(x)  F2(x). (?^)
•	Тогда X = min{Xi,X2} имеет ф.р^
F(x) = 1 — Fi(a:) • F2(x). (?J
3.3.	Условные плотности
При известной функции распределения
F(u,v) = P{U < и, V <v}
случайного вектора X = {F, V}, имеем
Fu(u) = P{U <и} = P{U < и, V < оо} = F(u, оо).
Аналогично, F^(r) = F(oo, г) .
70
Глава 3. Основные функции распределения
С другой стороны,
откуда
p(u, v)dv
Условные плотности. Если события А и В означают, соответ-
ственно, выполнение неравенств:
х < X < х+ Ах, у <Y < у+ Ау,
то при достаточно малых А х и А у:
Р(АВ) ~ р(х,у) Lx Ду, Р(А) ~ р(х) Lx, Р(В|А) « р(у|ж) Ly.
Подставляя эти равенства в формулу Р(В|А) =
пределу при А х, А у —> 0, получаем
РЖ)
W
и переходя к
(3-6)
что определяет условную плотность вероятности р(?/|ж).
Пониманию (3.6) иногда способствует замена вероятностной ин-
терпретации механической. Суть дела от этого не меняется. Пла-
стинка L единичной массы имеет плотности р(х, у). Тогда
Рх(х) = J p(x,y)dy
L
это плотности распределения массы по х, а р(у |гсо) — относители-
ная плотности распределения массы в сечении х = xq. Точнее гово-
ря, плотности распределения в полосе
xq < х < хо+ Lx
при нормировании массы полосы на единицу и Lx —> 0.
3.3. Условные плотности
71
Из (3.6) вытекает часто используемая формула
р(х, у) = р(у\х)р(х)
(3-7)
Понятно, что в (3.7) х и у можно поменять местами.
Условные матожидания. Через условную плотность определя-
ются любые условные моменты, в том числе, условное матожидание:
Е
оо
(У |я:) = j yp(y\x)dy.
—ОО
Условное матожидание представляет собой решение оптимизаци-
онной задачи
Е [У - ¥>(Х)]2 -> min,	(3.8)
ч>
где минимум ищется по функции р. Решением оказывается
^(а?) =Е(У|ж),
т. е. </?(Х) = Е(У|Х) представляет собой наилучшее среднеквадрати-
ческое приближение зависимости У от X, которое называют регресси-
ей.
◄ Поясним сказанное. Приравнивая нулю вариацию
оо оо
Е [У - <р(Х)]2 = j f [з/ — <р(х)]2р(х, y)dxdy,
— оо —оо
получаем
оо оо
J J [2/ - <p(x)]^<p(x)p(y\x)p(x)dxdy = О,
—оо —оо
откуда, в силу произвольности вариации
оо
= У yp(y\x)dy = Е (У|х). ►
— ОО
72
Глава 3. Основные функции распределения
Плотности через дельта-функций. В случае жёсткой функци-
ональной связи Y = f(X) величина Y принимает единственно возмож-
ное значение у = f(x), если X = х. Поэтому
р(у\х) - <5[у - /(ж)]
что влечёт за собой
р(х, у) = рх(х)6[у - f (х)]
сю
и, в силу ру(у) = J р(у, x)dx, приводит к формуле
—сю
сю
Ру(.У) = / Px(x)S[y ~ f(x)]<L
(3-9)
Интегрирование (3.9) в точках у, которым соответствуют простые
изолированные корни Xj(y) уравнения у — f(x) = 0, даёт8
Л _ Vs Px(xj)
что совпадает с (3.5) в случае одного корня
8Независимо от того, конечно или бесконечно число корней. Если мера множе-
ства точек, где производная ff(x) вырождена, — равна нулю, то это множество
можно просто игнорировать без ущерба для решения задачи.
3.4. Характеристические функции	73
3.4.	Характеристические функции
Соотношение (3.9) работает и в ситуации случайных векторов. Для
суммы случайных величин Z = X + У, в частности,
оо оо
Pz(z) = У j p(x,y)6(z - х - y)dxdy	(3.10)
—оо —оо
Интегрирование (3.10) по у — даёт
оо
Pz(z) = J p{x,z — x}dx	(3.11)
—оо
При независимости X и У (3.11) переходит в
оо
Pz(z) = J Рх(х)ру(z — x)dx	(3-12)
—оо
Формула (3.12) представляет собой свертку плотностей, в связи
с чем в ТВ оказываются эффективны9 характеристические функции
оо
, т. е. <^(А) = f ezXxdF(x), либо
—оо
<^(А) =Е(еах)
p(x)e*Aa:da:,
г2 = —1
—оо < А < оо,
что в несущественных деталях отличается от стандартного преобра-
зования Фурье плотности р(х). При условии абсолютной интегриру-
емости j |</?(A)|cZA < оо, т. е. <р(А) € £i, соответствующая плотность
однозначно восстанавливается «обратным преобразованием Фурье»
р(ж) =
сю
[ ^e-iXxdX.
J
—оо
Этот факт «территориально» принадлежит другим дисциплинам, но его обос-
нование, в том числе, можно найти во многих стандартных курсах теории вероят-
ностей.
9 О причинах см. далее.
74
Глава 3. Основные функции распределения
Если с.в. Xi,..., Хп независимы, то
Е (eiA(x*+-+x-)) = Е (eiAX1) • • • Е (eiAX’
(3.13)
то есть х.ф. <р(Х) суммы Ч---1- Хп равна произведению х.ф. сла-
гаемых:
У’(А) = П^(Л)'
к
Это обстоятельство и определяет заметную роль характеристических
функций в теории вероятностей.
Вот характеристические функции стандартных распределений.
распределение	плотности	х.ф, у?(А)
нормальное	(х — тху2 р(х) =	^>=е	%ах аху2тг	imxX- 1<т2Л2 е
равномерное	Р(я) =	на [а, Ь]	iA(b — а)
Коши	рС2') — / 2 ! тг(х + а )	е~а^
показательное	р(х) = ае~ах, х 0	6 а — гА
показательное-2	р(я) = 5е-|я:|	1 1 + А2
Отметим простейшие свойства х.ф.
• Из |Е(егЛХ)| Е |егЛХ| следует |</?(Л)|	1.
• Если </?(А) — х.ф. случайной величины X, то Y = aX + ft имеет
характеристическую функцию егХ&<р(аХ).
• Разложение в ряд экспоненты </?(А) = Е (егЛХ) приводит к
(3-14)
fc=O
что — в связи с А) = Y^k=o (0)	----означает
(3.15)
но для этого, конечно, требуется существование моментов Е (Хк).
Однако, если моменты Е (Хк) существуют для к < J, то можно
утверждать, что (3.15) справедливо для тех же к < j. (?)
3.4. Характеристические функции
75
Таким образом, при известной х.ф. определение моментов
сводится к простому вычислению производных
• Вместо характеристических функций иногда удобнее рассматри-
вать их логарифмы. Соответственно, вместо моментов (3.15) —
коэффициенты
^XA)	_
называемые семиинвариантами. Семиинварианты суммы неза-
висимых с.в. равны суммам семиинвариантов слагаемых,
Очевидно, у нормального закона все семиинварианты выше вто-
рого порядка равны нулю.
Пример. Пусть независимые с.в. X и Y распределены равномерно, соответ-
ственно, на промежутках [—а, а] и [—6, Ь] (а < Ь). Тогда Z = X + Y имеет плотность
сю оо	а Ь
Pz(z) = J J p(x,y)6(z-x-y)dxdy=-^f f 6(z-x-y)dydx,
где p(x,y) = px(x)py(y).
(3.16)
Интегрирование приводит к функции pz(z), график которой изображен на рис.
(3.16). При а = b получается треугольное распределение.
Если Z = X + Y и слагаемые распределены нормально, то пере-
множение характеристических функций
гтпх А -1 ст2 A2	imy А — 1 сг2 А2
е 2 и е 2
76
Глава 3. Основные функции распределения
даёт характеристическую функцию Z:
ехр |г(тж + ту)Х - |(<т2 + ст2) А2} ,
откуда видно, что сумма нормально распределённых с.в. тоже нор-
мально распределена, причём матожидания и дисперсии просто скла-
дываются.
Перемножение характеристических функций сразу даёт аналогич-
ный результат, если слагаемые в Z = X + Y имеют распределение
Пуассона или Коши. Получение тех же выводов без х.ф. более гро-
моздко.
3.5.	Производящие функции
Есть такая задача о взвешивании монет. В одном из 100 мешков находятся
фальшивые монеты. Настоящая, монета весит 7 грамм, фальшивая — 6. Надо
с помощью одного взвешивания определить мешок с фальшивыми монетами.
◄ Мешки нумеруются, после чего из k-ro мешка извлекаются к монет, и эти
N = 1 + 2 + • • • + 100 монет все вместе взвешиваются. Число недостающих до 7N
грамм будет номером «фальшивого» мешка. ►
Вымышленная задача отражает в миниатюре идею, применимую в
широком диапазоне различных ситуаций.
3.5.1 Определение. Производящей функцией числовой последова-
тельности oq, ai, 02,... называется ряд
оо
a(z) = 52akzk-
fc=0
Как совокупность 1+2-1-1-100 монет несла на себе всю информа-
цию о задаче, потому что из каждого мешка было взято разное число
монет, — так и производящая функция A(z) несет на себе всю инфор-
мацию о последовательности ао, <4,а2,..., потому что умножаются
на z в разных степенях. После такого умножения члены a^zk можно
безопасно складывать вместе — информация не теряется10.
10 Аналогичным образом получаются ряды Фурье.
3.5. Производящие функции
77
Разумеется, эффект от использования производящих функций возникает, если
ряд ак^к удаётся свернуть. Широко известна производящая функция (1 + z)n =
п
= J2 Cnzk> порождающая различные связи между биномиальными коэффициен-
к=0
тами:
z=l £c* = 2n, z = -l => £(-l)fcc£=O.
fc=O	к—О
Если случайная величина X принимает дискретные значения X = к
с вероятностями то
оо
к=0
называют производящей функцией с.в. X. В общем случае целочис-
ленной случайной величины X производящая функция
П(г) = E{zx}.
С характеристической функцией <р(А) её связывает соотношение
^(А) = П(е’А).
д-распределение	д-плотпностпъ	х.ф. (р(Х)	п.ф. П(г)
биномиальное	Pk = Ckpkqn~k'	(piX + ч)п	(pz + q)n
геометрическое	Рк =pqk	у ч 1 — qelX	л.:.: 1 — qz
Пуассоновское	Рк = Ъ\е~а	ea(elA-l)	e-a(l-z)
При упоминании геометрического распределения иногда имеют в виду число
промахов к до первого попадания — и тогда рь = pqk. А иногда — номер х первого
попадания, и тогда рх = pq3^1. В последнем случае
П(г) = E{zx} =
“J	X-qz
Первые моменты определяются исходя из формул
Е {X} = П'(1),	Е {X2} - Е {X} = П"(1).
(3-17)
78
Глава 3. Основные функции распределения
У пражнения
• Для независимых с.в. X и Y
Пх+у(з) = IIx(z)IIy(z)
•	Если
Щг) = £>?=, ?(*) = £> А
fc—О	fc=O
где = Pfc+i + Pk+2 Ч-— вероятности «хвостов» распределения, то
TW -	(£,)
•	Если с.в. X имеет распределение pi,p2, • • •, то в обозначениях предыдущего
пункта:
Е{*} = £*₽* = £«*
k=l	k=l
либо, на языке производящих функций,
Е{Х} = П'(1) = Т(1).	(?J
3.6.	Приложение к ветвящемуся процессу
Посмотрим, как производящие функции работают на примере процесса
Галътона—Ватсона, каковой рассматривает частицу, порождающую
в момент к себе подобные в количестве к штук с вероятностью рь-
Предмет изучения — динамика Хп, где с.в. Хп — количество частиц
в n-й момент времени.
Процессы такого рода широко распространены в различных областях. Дина-
мика численности нейтронов при делении урана, распространение того или иного
гена (наследственного признака), эпидемий и т. п. Первоначальным источником
интереса к модели была проблема вырождения фамилий — обнуления траекто-
рии {Хп}, начиная с некоторого по, если подразумевается, что каждый мужчина
фамильного рода с вероятностью рк имеет к сыновей11.
11 Как всегда речь идёт об определённой идеализации, предполагающей в данном
случае «синхронизацию поколений» и другие нюансы.
3.6. Приложение к ветвящемуся процессу
79
Пусть G(z) обозначает производящую функцию распределения
{ро,Р1, • • •}, Т. е.
ОО
G(z) = ^Pkzk,	(3.18)
k=0
а Пп(г) = Е {гХтг} — производящую функцию Хп.
В случае Xn = к с.в. Xn+i — есть сумма к независимых с.в. с рас-
пределением {рсьРь • • • }, — поэтому
E{zx"+4Xn} = [G(z)]x" ,
что после усреднения по Хп приводит к итерационной процедуре
Пп+1(г) = Пп[ад],	(3.19)
описывающей динамику Хп в терминах производящих функций.
Решением (3.19) в случае Xq = 1 служит Пп(г) = G^n\z), где G^n\z) обозна-
чает n-ю итерацию G(z).
Дифференцируя (3.19) и полагая z = 1, имеем, в силу (3.17),
Е {Х„+1} = l/Е {Х„},	!/ = G'(l) = £ fcpfc.
fc=O
Так что сходимость процесса по матожиданиям определяет значение и. При и 1
процесс сходится, в случае и > 1 — расходится. Из того же рекуррентного соотно-
шения (3.19) легко извлекаются более тонкие результаты о поведении случайной
последовательности Хп.
Интуитивно достаточно очевидно, что Хп может сходиться либо
к нулю, либо к бесконечности, и не может оставаться ненулевой огра-
ниченной с ненулевой вероятностью, — разумеется, это теорема. При-
чём даже при больших v вероятность обнуления Хп строго положи-
тельна.
80
Глава 3. Основные функции распределения
Последовательность
Qn — Р{А& — 0; k ?1} — Пп(0),
очевидно, монотонно растет, и потому имеет предел, qn —> q при п —> оо.
Величина q интерпретируется как вероятность вырождения Хп.
В случае исходного положения Xq = 1
Wi = G<n+1)(0) = G[GW(0)] = G(9n),
откуда ясно, что q является корнем уравнения
А
z = G(z).
(3.20)
Из записи (3.18) легко видёть, что функция G(z) выпукла, и уравнение
(3.20) имеет два корня: один в любом случае равен 1, другой q < 1.
Если v > 1, то q < 1. Если и < 1, то q = 1, т. е. процесс вырождается
почти наверное. Пробелы рассуждения легко восполняются.
3.7.	Нормальный закон распределения
Нормальный закон с плотностью
(т - та)2
р(х) = ---7=е
(3-21)
встречается в самых разных ситуациях. При стрельбе из пушки сна-
ряды идут то влево, то вправо. Распределение, казалось бы, зависит
от многих факторов: ветер, звёзды, пушку маленько перекосило, ру-
ки дрожат у артиллериста. А распределение результатов стрельбы у
разных пушек, стрелков, при любой погоде и географии, — везде оди-
наковое, нормальное, отличаются только матожидания и дисперсии.
Загадка, тайна! И то же самое получается, когда вы начинаете соби-
рать статистические данные по медицине, экономике, скоростям моле-
кул газа, неважно какого. И везде плотность (3.21). Мистика!
3.7. Нормальный закон распределения
81
Так что широкое распространение нормального закона требует объ-
яснения. И таких объяснений имеется несколько. В первую очередь
происхождение (3.21) принято относить на счёт предельных теорем
о суммах независимых случайных величин. Об этом речь будет идти
далее, но есть и другие причины, которые представляются не менее
важными.
Для прояснения ситуации поместим задачу в более широкий контекст.
Вместо случайной величины рассмотрим случайный вектор
X —	, . . . , Хп}
с независимыми координатами xt и плотностью распределения р(ш), не за-
висящей от направления12 х. Этих незамысловатых предположений доста-
точно для гарантии нормального распределения всех Xi. Обоснование совсем
просто. Независимость координат означает
р(х) = pi(®i).. .рп(хп),	(3.22)
а независимость р(х) от направления х — постоянство плотности р(ж), равно
как и её логарифма
In р(х) = In pi (х) + ... + In рп(х)	(3.23)
на сферах ж2 + ... + х2 = const. Другими словами, функции (3.23) и
2 _ 2 ,	.	2
х — Xi -г ... -г хп
имеют одни и те же поверхности уровня, а это возможно лишь, когда их нор-
мали (градиенты) коллинеарны (одинаково или противоположно направле-
ны), т. е.
Vlnp(®) = AV®2,
что даёт п равенств
^^ + 2А^ = 0,
Ж
интегрирование которых приводит к 1пр»(яч) = —А®2 + const, т. е.
/	\	—Аж2
Pi(Xi) = pie
12 Можно иметь в виду стрельбу по плоской мишени с вертикальным отклонением
И горизонтальным — X?.
82
Глава 3. Основные функции распределения
Константы определяются нормировкой и заданием второго момента
XXi dxi = 1
Окончательно
_ П Х1 + • • • + хп
р(ж) = (2тга2) е л/2тгсг2
(3.24)
Под нормальным распределением случайного вектора в общем слу-
чае вместо (3.24) подразумевают плотность (3.22) с нормальными плот-
ностями
Pi(xi) =
т. е.
Рх(я?) = —===== ехр < — — (® — тп^К^х - тх) I,
V (2тг)п det Кх	I 2	J
где Кх — ковариационная матрица, которая в данном случае диаго-
нальна, с элементами сг^. на диагонали.
Если рх(х) плотность случайного вектора х = {а?1,..., хп}, то
рк(у)=|а^4|рх(л’1!,)
представляет собой плотность случайного вектора Y = АХ, где А невы-
рожденная матрица. Линейное преобразование Y = АХ нормально распре-
делённого вектора X приводит к плотности
К-^у-а)
ру(у) = ^е
с коэффициентом 7 определяемым нормировкой плотности, а
К-1 = (А-УК-1^-1.
В соответствии с этим вектор Z считается нормально распределённым, если
его плотность равна
1	К~\х,-гп,,ь)
.	е z
3.8. Пуассоновские потоки
83
где Кх, как уже ясно, ковариационная матрица13.
При данном способе изложения понятно, что многомерный нор-
мальный закон распределения (3.25) при обратном линейном преобра-
зовании снова возвращается к форме с нормально распределёнными
независимыми координатами.
Философски настроенной части населения больше нравится интерпретация нор-
мального закона как распределения максимизирующего энтропию (глава 11). Точ-
нее говоря, Х(тп, а2) есть решение оптимизационной задачи:
оо
Н = J р(х) In p(x)dx —> max
—оо
при ограничениях
оо	оо	оо
J p(x)dx =1, J xp(x)dx = m, J x2p(x)dx = a2 + m2.
—oo	—oo	—oo
Складывая H с ограничениями, умноженными на множители Лагранжа Л, /х, 1/,
и варьируя р(х), получаем нулевую вариацию Лагранжиана:
оо
j {(1 + 1пр(х)) + Аж2 + рх + I/} Ap(x)dx = О,
—оо
откуда, в силу произвольности Др(х), следует
1 + 1пр(х) + Ах2 + рх + I/ = 0	=> р(х) = е-Хх2-Р'х~1'-1.
После согласования значений параметров с ограничениями задачи — получа-
ется плотность, соответствующая N(m, ст2).
3.8.	Пуассоновские потоки
Последовательность событий, происходящих в случайные моменты вре-
мени, называют потоком событий. Это один из мощных пластов ве-
роятностных задач. Телефонные вызовы, аварии, обращения к опера-
тивной памяти, заявки, посетители, — список примеров практически
неисчерпаем.
13 Разумеется, в (3.25) предполагается невырожденность Кх. Знак модуля с опре-
делителя Кх снят, поскольку det Кх > 0 в силу положительной определённости Кх,
см. раздел 2.7.
84
Глава 3. Основные функции распределения
Рассмотрим поток событий, обладающий следующими свойствами:
•	количества событий, поступающие на непересекающихся интервалах време-
ни, независимы как случайные величины;
•	вероятность поступления одного события за малый промежуток At зави-
сит только от длины промежутка и равна A At + o(At), где А > 0, o(At) —
бесконечно малая от At;
•	вероятность поступления более одного события за время At есть o(At).
◄	Разобьем интервал (0,t) на п равных частей Ai,...,An, и пусть Xfc(Afc)
обозначает число поступивших событий на промежутке Д&,
P{Xfc(Afc) = 1} = At(l/n) + o(l/n).
В соответствии со сделанными предположениями производящая функция Пп(г)
последовательности pj = Р{Хд,(А^) = не зависит от А: и равна
Пп(г) = [1 — At(l/n)] 4- At(l/n)z + o(l/n).
Производящая функция суммы Xi(Ai) + • • • + Xn(An) вычисляется как произве-
дение
П(г) = [Пп(z)]n = [1 + At(l/n)(z - 1) + o(l/n)f .
В пределе при п оо получается производящая функция числа событий X(t),
поступивших на интервале (0, t):
n(z) = lim [l + At(l/n)(z-l)]n = eAt<3-1>.
71—>OO
Соответствующее распределение вероятностей
P{X(t)=j} = ^-e-A‘ (j = 0,1,2,...)
J'
называется пуассоновским. Постоянная А определяет среднюю интенсивность
А . EX(t)
поступления событии, А = —►
Проведённое рассуждение имеет пробел. Необходимо, вообще го-
воря, обосновать, что из сходимости производящих функций вытекает
сходимость распределений вероятности. В данном случае это достаточ-
но просто, но в принципе такого сорта вопросы постоянно возникают
в ТВ — см. главу 5.
Рассмотренная задача легко обобщается на случай интенсивности
А, зависящей от времени. Результирующее распределение остаётся пуас-
соновским с учётом небольшой поправки:
t
P{X(t) = j} =	p = I X(r}dr. (3.26)
0
3.8. Пуассоновские потоки
85
Временная интерпретация t, разумеется, необязательна. Речь мо-
жет идти о распределении точек на любой числовой оси. А если вду-
маться, то размерность t тоже не играет роли. Распределение Пуассона
возникает и в случае распределения точек в пространстве при тех
же исходных предположениях, в которых под AZ надо лишь понимать
малые объёмы. В итоге случайное число точек в области Q снова под-
чиняется распределению (3.26), с той разницей, что р определяется
как р = f A(r)dr.
К сожалению, закон Пуассона часто остаётся «вещью в себе», не на-
ходя путей к подсознанию. Положение выправляется размышлением
над задачами. Допустим, случайная величина £, равномерно распре-
делённая на (О, Г), реализуется п раз, что приводит к появлению на
промежутке п точек. Сколько точек попадает в область
QG (0,Т)?
Конечно, это в чистом виде схема Бернулли с вероятностью по-
падания отдельной точки в П равной р = тр, где I длина (мера) П.
Вероятность попадания к точек в П определяется биномиальным рас-
пределением Скрк(1 —р)п~к, и далее проторенным в разделе 3.1 путём
можно переходить к распределению Пуассона.
Для подсознания важна интерпретация этого пути в исходных тер-
минах. Интервал (О, Т) и количество «бросаний» п увеличиваются со-
гласованно. Так, чтобы среднее число точек на единицу длины сохра-
нялось. Вот, собственно, и вся специфика предельного перехода. Зна-
чения Тип увеличиваются в одинаковое число раз, и тогда предельное
распределение числа «попаданий» в Q оказывается пуассоновским.
Экспоненциальное распределение. При пуассоновском распре-
делении вероятность отсутствия событий на (0, t) равна e~xt. Поэтому,
если с.в. f 1 > 0 это время наступления первого события, то P{^i > t} =
= e~Xt, а значит,
Р{Й < t} = 1 - e~xt.	(3.27)
Дифференцирование (3.27) по t даёт плотность экспоненциального за-
кона
p(t) = Ае-Л*, t 0.
86
Глава 3. Основные функции распределения
Из сказанного очевидно, что экспоненциальный закон представляет
собой непрерывный аналог геометрического распределения — време-
ни наступления первого успеха (события, поступления первой заявки,
рекламации и т. п.).
Показательное распределение случайного времени ожидания возникает в ситу-
ации, когда ожидание в течение времени з не влияет на то, сколько еще придётся
ждать, т. е.
Р{т > з -|- t\r > s} = Р{т > t},
что и приводит к Р{т > t} = e~xt, t 0.
3.9.	Статистики размещений
Как путь в большой спорт пролегает через подтягивание на турнике,
так и в теории вероятностей есть простые модели того же назначения.
Одна из них — размещение шаров по ячейкам. Шары, как и ячей-
ки, могут быть неразличимы либо пронумерованы. Шаров г, ячеек
п. Для создания атмосферы важности говорят о размещении элемен-
тарных частиц по энергетическим уровням. Не менее значимо иногда
распределение карт между игроками, людей по месту работы, аварий
по дням недели и т. п.
Если шары и ячейки различимы, то в п ячейках п,... ,гп шаров
г!
могут быть размещены числом способов —j----. Если все такие спо-
собы равновероятны, а их всего пг, то соответствующее распределение
имеет вид
P(ri,...,rn) =	' п
и называется статистикой Максвелла—Больцмана.
Если шары (частицы) неразличимы, то число В(г,п) всевозмож-
ных распределений равно числу целых решений и,..., гп уравнения
ПН------h rn = г. Это самостоятельная комбинаторная задача.
3.10. Распределение простых чисел
87
◄ Воспользуемся, для тренировки, методом производящих функций14. Очевид-
но, функция
П(г) =
= (1-г)-",	|z| < 1,
при разложении в ряд порождает нужные коэффициенты,
г=0
В результате
В(г,п>  1пИ№)  "I"-1-11   > + Г - Ч =	►
При условии равновероятности различных способов возникает рас-
пределение
1 г!(п —1)!
Г,П B(r,n) (n + r —1)!’
называемое статистикой Бозе—Эйнштейна.
При дополнительном запрете «ячейка не может содержать более
одного шара» получается статистика Ферми—Дирака:
Р(г,п) =
г\(п — г)!
п!
п.
г
Все очень просто, но в этом и заключается секрет «подтягивания на турнике».
Рутинная возня с простыми моделями даёт навык обращения с различимыми и
неразличимыми вариантами. А это как раз граница между правильными и непра-
вильными решениями.
3.10.	Распределение простых чисел
Вероятностный стиль рассуждений эффективно работает и на «чужих
территориях», где все детерминированно. Показательна в этом отно-
шении задача о распределении простых чисел.
14Задача совсем просто решается переформулировкой. Выстраиваем шары в ряд,
и делим их на п групп п — 1 запятыми. Число различимых способов: С^+п_1.
88
Глава 3. Основные функции распределения
Количество простых чисел15, не превосходящих ж, — принято обо-
значать через тг(ж). С указанием всех простых чисел легко (идеологи-
чески) справляется решето Эратосфена, рецепт которого очень прост.
Из записи всех натуральных чисел вычеркивается 1 — первое невы-
черкнутое число 2 — простое. Далее зачеркиваются числа, делящиеся
на 2, число 3 — первое невычеркнутое — простое. И так далее.
При этом ясно, что в промежутке [ж, ж+Дж] доля чисел, делящихся
на простое р, равна i, а не делящихся —	. Доля же чисел в
этом промежутке, не делящихся ни на одно простое число, равна
/>(*) =
(3.28)
причём ясно, что говорить имеет смысл о простых р меньших у/х, и о
Дж <С ж, но Дж > ех при некотором малом е > 0.
Самих простых чисел на [ж, ж + Дж] будет
р(ж)Дж ~ 7г(ж + Дж) — 7г(ж),
т. е. р(ж) играет роль плотности, а формула (3.28) получается из «пред-
положения о независимости» событий делимости любого натурального
к на разные простые числа.
Дальнейшее опирается на манипуляции «асимптотического толка», несколько
злоупотребляющие ссылками на здравый смысл.
Для больших р приближенно: 1 — i=e-1/p. Поэтому
1пр(х) =	—,
к?*
где рк обозначает к-е простое число.
В промежутке [х,х + Дж], в силу Дт ж, можно считать рк ~ х, и сумма по
этому промежутку
52 — ~ ~р(ж)Дж,
Рк X
откуда
1пр(ж) = —	~ — [ ^—^-du,
к^	{	u
что после дифференцирования по х приводит к уравнению
pr (х) _	р(х)	dp	_	dx
р(х)	х	р2	х ’
15Не имеющих, по определению, делителей кроме 1 и самого себя.
3.11. Задачи и дополнения
89
решение которого р(х) = 1/(С + 1пт) при больших х переходит в
/ X	1
Р\х) = ----
Ins
Что касается 7г(гс), то
’W=/rL = -r-(1 + -r-+ - + -П-+О(т41-)}-	<з^>
J In it	Inrr [ In ж	In ж \lnrtl®/J
2
Для примера, точное значение тг(4000) = 550. Первые три члена разложения
(3.29) дают приближение тг(4000) ~ 554.
3.11.	Задачи и дополнения
•	Будем считать в данном пункте, что речь идёт о случайных векторах с ну-
левыми матожиданиями. Любой случайный вектор X линейным преобразо-
ванием Y = АХ приводится к вектору Y с некоррелированными координа-
тами16. Действительно, матожидание матричного равенства
YYT = АХХТАТ
даёт Ку = АКХАТ. Неотрицательно определенная ковариационная матрица
Кх всегда может быть приведена17 ортогональным преобразованием А к
диагональному виду Ку.
•	Плотность распределения Коши
р(х)~	. 2?	(3.30)
7г(1 + х*)
имеет с.в. X = С1/С2, где независимые с.в. (д и & распределены нормально
по закону N(0,1). Такая же плотность распределения у tg0 при условии
равномерного распределения 0 на	j .
Распределение Коши имеет дурную славу, поскольку обычно извлекает-
ся на свет, когда надо продемонстрировать существование «плохих» законов,
не имеющих моментов.
•	Если все с.в. Xi,... ,Хп независимы и имеют одинаковое распределение
(3.30), то
_ Xi 4- • • • 4- Хп
*п --
П
распределена по тому же закону. ( f )
16 А в случае нормально распределённого X — к вектору Y с независимыми ко-
ординатами.
17См. [2] - том 3.
90
Глава 3. Основные функции распределения
• Если /(a?i,... ,хп) — совместная плотность вектора X = {Xi,...,Xn}, то
п
сумма 5 = Xfc имеет плотность
оо оо
р(«)= f f f
— оо —оо
S —	. ,Tn j dX2 . ..dxn-
2	/
Проекция радиус-вектора X равномерно распределенного на окружности
радиуса г имеет функцию распределения
- у Г X	1	1	•	-	*
F(x) = —|— arcsin —,	х Е (—г, г),
2 тг г
при естественном условии F(x —г) = 0 и F(x г) = 1.
Соответствующая плотность:
Х*) = F'(x) = - =	=,
ir\/rz — ХЛ
х € (—г,г).
Следствие приведённых формул: при равномерном вращении коленчатого
вала поршни двигателя внутреннего сгорания большую часть времени про-
водят в крайних положениях.
Аналогичное явление наблюдается при игре в «орлянку».
• Случайные величины X, Y независимы и равномерно распределены на
(каждая). Плотность распределения произведения Z = XY равна
Pl» = —21n4|z|,	|z| j. (^)
• У нормально распределённого вектора {X, У} с плотностью
2 .	2
х + у
1------9 2
Р(®>«)=-----2 е
2тга
полярные координаты R, Ф в представлении
Х = КсозФ, У = ЯапФ
распределены: Ф равномерно на [0,2тг], а Я по закону Рэлея
г2
Р(г) = ~2е	.
а
3.11. Задачи и дополнения
91
•	Пусть независимые с.в. Xi,... ,ХП имеют показательные распределения с
параметрами Л1,..., Ап. Тогда
X = min{Xi,..., Хп}
имеет показательное распределение с параметром А = Л1 + • • • + Лп-
•	Задач на определение тех или иных вероятностных распределений имеется
великое множество, и за ними далеко ходить не надо. В любой стандартной
модели «шаг влево или вправо» — и возникают неясности. При бросании мо-
неты (случайном блуждании) — биномиальное распределение, казалось бы,
исчерпывает проблематику. Но это далеко не так. Вопрос о первом успехе —
и появляется геометрическое распределение. Механика смены лидерства (пе-
рехода блуждающей частицы слева направо или наоборот) — и дорога уво-
дит к закону арксинуса. Вопрос о локальных экстремумах либо попадании
траектории выигрыша на некоторую кривую — и опять новые законы рас-
пределения.
Самые простые вопросы порождают иногда очень сложные задачи. Модель
Изинга, например. Если молекулы двух типов «1», «2» располагаются в
шеренгу (одномерная модель), то энергия цепочки равна
2
Н= nijHij,
ij=l
где Hij — энергия взаимодействия соседних молекул, в случае, когда за
молекулой типа «i» следует молекула типа «j».
Равновероятное расположение молекул порождает легко определяемое рас-
пределение Н. ( Но уже двумерная (а тем более — трёхмерная) мо-
дель — не поддаётся исчерпывающему анализу18.
•	Источником для упражнений может служить любая задача, в том числе
классическая — что лучше всего. Вот одна из таких задач.
Имеются две одинаковые колоды, в каждой N карт, нумеруемых в порядке
их случайного расположения. Если событие обозначает совпадение карт
первой и второй колоды, расположенных на k-м месте, то, очевидно,
P{Afc} = —,	~ 1)! = —,
I	NV	X г 31 N[	N,
PlAAAi.} — — — — —	*
и применение формулы (1.7) сразу даёт
N	11	1
п-г(Е>м = 1-- + й-.
к
т. е. вероятность, что совпадёт хотя бы одна карта, равна pi ~ е-1.
18 Задача не решена, несмотря на её значимость для кристаллографии и ферро-
магнетизма.
92
Глава 3. Основные функции распределения
Остаётся задача вычисления полного распределения pi,... ,руу. j Сред-
нее число совпадений, ^Рк = 1? легко определяется окольным рассужде-
к
нием.
Глава 4
Законы больших чисел
Интересные приложения
часто начинают обсуждаться на той стадии,
до которой мало кто добирается.
Порядок из хаоса возникает и в быту, и в Космосе, — путём усреднения.
4.1.	Слабые варианты
Если с.в. Xi имеют одно и то же матожидание /1, то
Sn _Al + • • • + Хп
п	п
имеет то же самое матожидание д, и с ростом п при естественных пред-
положениях «становится все менее случайной величиной». Различные
варианты уточнения этого утверждения называют законом больших
чисел.
4.1.1 Теорема. Пусть некоррелированные случайные величины Xi
имеют одно и то же матожидание р и одну и ту же дисперсию а2.
94
Глава 4. Законы больших чисел
Тогда среднеквадратичное уклонение от матожидания стремит-
ся к нулю. Точнее,
при п —> оо,
(4-1)
О
причём —2= растёт в среднем пропорционально р^/п, имея постоян-
\/п
ную дисперсию а2.
◄ В силу некоррелированности, Е (Xi — p)(Xj — р) = 0 при i 0 j. Поэтому
£(х<-м)12
£№-м)2'
Аналогично рассматривается
В комбинации с теоремой 4.1.1 неравенство Чебышёва (2.13) при-
водит к другому варианту закона больших чисел
4.1.2 Теорема. Пусть некоррелированные случайные величины Xi
имеют одно и то же матожидание р и одну и ту же дисперсию а2.
Тогда при любом е > О
р]		Х± Ч	h хп п	> е	а2 >		2 —> 0 при п оо пе
(4-2)
Закон больших чисел легализует частотную трактовку вероятности (1.2), что
связывает абстрактные модели со статистическими наблюдениями. Ясли в слу-
чайной «01 » последовательности единица '(Xi 1) появляется с вероятностью
с	I
то вероятность уклонения среднего — от матожидания Д более чем на 0,1 не
П>	Z
ок
превосходит —, поскольку в данном случае
4.2. Усиленный закон больших чисел
95
Предположения теорем 4.1.1, 4.1.2 о равенстве матожиданий и дис-
персий у с.в. Xi необязательны. Тот же метод доказательства рабо-
тает и в более общих ситуациях. Например, при некоррелированности
Хъ...,Хпи
где — дисперсия Хг, — при любом е > 0 имеет место
r о f Xi Ч-------+ Хп Mi + ” ’ + Мп
lim Р <-------------------------------
п—>оо	In	П
где Мг — матожидание Xi.
Рассмотренные варианты стабилизации среднего обычно характе-
ризуются как слабый закон больших чисел, каковой, тем не менее, иг-
рает существенную роль в управлении термодинамикой и вообще ста-
тистическими закономерностями.
4.2.	Усиленный закон больших чисел
Слабый закон больших чисел даёт оценки вероятности уклонений сред-
нестатистических сумм от матожидания и гарантирует стремление этих
вероятностей к нулю. Усиленный закон больших чисел гарантирует
дополнительно равенство предела среднестатистической суммы мато-
жиданию — с вероятностью единица, или другими словами почти
наверное. На первых порах знакомства с ТВ разница обычно не чув-
ствуется, но она довольно существенна, что выявляется при рассмот-
рении различных видов вероятностной сходимости — см. главу 5.
Основой для анализа событий, происходящих «почти наверное»,
является следующий простой факт.
4.2.1 Лемма Бореля—Кантелли.
(i)	В любой последовательности событий А^,А2,... — при условии
оо
£ Р(Л) < оо — с вероятностью 1 происходит лишь конечное
fc=i
число событий Ап.
96
Глава 4. Законы больших чисел
(ii)	В любой последовательности А	независимых собы-
оо
тий — при условии J2 Р(Дь) — 00 — с вероятностью 1 про-
к=1
исходит бесконечное число событий Ап.
◄ (i). Наступление бесконечного числа Ai, А2,..  есть событие
А поскольку
Р(Л) < Р I U Ак ) $ 5? р(Ак) о при п -юо,
\к^п 1 к^п
то Р(А) = О, что влечёт за собой Р(А) = 1.
Для доказательства (ii) достаточно проверить условие
Р I А*. I = 1 для любого п,
\ к~^п /
(4-3)
так как объединение множеств меры 1 должно иметь ту же полную меру 1.
ОО	_
В силу P(-^fc) = 00 и независимости Ап, а значит и Ап = &\АП1 для любого
1-Р
и
n^k^N
и
n^k^N
П [1-Р(Дк)]^ехр
Е р(Л*)
->0
при N —> оо, что влечёт за собой (4.3). ►
Приведем теперь один из простейших вариантов усиленного закона
больших чисел.
Пусть некоррелированные случайные величины Xi имеют нулевое
матожидание и конечный четвертый момент. Тогда
= 1.
(4-4)
= 0
4.2. Усиленный закон больших чисел
97
◄ Число ненулевых слагаемых в Е (Xi + • • • + Хп)4, — после раскрытия ско-
бок, — в силу некоррелированности, пропорционально п2. А ограниченность четвер-
тых моментов гарантирует при этом существование константы С такой, что
Е (%! +   • + Хп)4 Сп2.
Поэтому (см. раздел 2.8)
Сп2 С
Р(|Х1 + ... + Хп|>епК—г = —
(сп)	(еп)
оо (J
В силу -----о < 00 лемма 4.2.1 гарантирует конечность числа событий
(еп)
1*1 + • • • 4- Xn| &
п
откуда в конечном итоге следует (4.4). ►
Смысл предположения ограниченности четвёртых моментов достаточно про-
зрачен. Иначе, при том же методе доказательства, не удалось бы установить схо-
димость ряда
£р(|Х1+... + Хп|^еп),
п
и, соответственно, воспользоваться леммой Бореля—Кантелли.
Но сам по себе рассмотренный вариант усиленного закона больших чисел до-
вольно слаб. Более тонкие рассуждения дают те же выводы в менее ограничитель-
ных предположениях.
4.2.2 Теорема1. Пусть независимые величины Хп имеют мато-
о° 0-2
жидания рп и дисперсии а^. При условии J2 “Т < 00 wweem место
п=1 п
Ai Ч-----h Хп /11 Ч-----h рп ~	k ч
------------------------------> 0 (п -> оо)
п	п
с вероятностью единица.
Одно из классических применений усиленного закона больших чисел — доказа-
тельство нормальности почти всех х G [0,1]. Число х G [0,1] называется нормаль-
ным, если при его записи в любой d-ичной системе счисления частота появления
каждой цифры равна 1/d.
1См., например, [13,15].
98
Глава 4. Законы больших чисел
4.3.	Несколько сюрпризов
Несмотря на математическую тривиальность закона больших чисел,
он довольно часто понимался превратно. Оправданием могут служить
многочисленные «аномальные» эффекты в его окрестности. Ограни-
чимся упоминанием самых простых, но достаточно удивительных фак-
тов.
4.3.1 Задача. При п бросаниях монеты серия из гербов длины log2 п
наблюдается с вероятностью, стремящейся к 1 при п оо.
4.3.2 Задача. На фоне обязательного присутствия длинных чи-
стых серий (только гербы или только решётки) средняя длина чи-
стой серии равна 2. Для любой несимметричной монеты, выпадаю-
щей гербом с вероятностью р G (0,1), матожидание длины нечётных
по числу бросаний серий равно
2 +
1 -Р Р ’
а чётных — равно 2 не-
зависимо от р.
4.3.3 Задача. Пусть Sn = Х± + • • • + Хп, где Хк принимают зна-
чения 1,0 с вероятностями рк, 1 — рк (каждый раз бросается дру-
гая монета). При появления разброса вероятностей рк относительно
р _ £1 Рп дисперсия Sn уменьшается.
Усиленный закон больших чисел имеет множество вариаций. Вот
один из достаточно тонких результатов А.Н. Колмогорова, где не тре-
буется существование вторых моментов.
4.3.4 Теорема. Пусть Xi независимые случайные величины с оди-
наковым распределением и матожиданием р. Тогда
Р
= Р
= 1.
Если же матожидание Xi не существует, то2
Р
Х1 + — + Хп
п
= 1.
2 Черта над lim обозначает верхний предел.
4.4. Нелинейный закон больших чисел
99
4.4.	Нелинейный закон больших чисел
На фоне стабилизации среднего возникает соблазн найти условия ста-
билизации при больших п нелинейных функций
У — fnfal) • • • > %п)'
Постановка вопроса могла бы опираться на следующее определение.
Последовательность функций /п(ж) асимптотически постоянна, ес-
ли существует такая числовая последовательность /1П, что3
р{|/п(ж) - Мп| > е} -> 0 при п->оо	(4.5)
для любого наперёд заданного е > 0. Либо, в более жёстком варианте,
можно потребовать D {/п(ж)}	0 при п —> оо.
Классическая теория вероятностей имеет хорошие ответы на вопрос о
справедливости (4.5) в случае = ^Xi. Вот простейшая формулировка
с некоторым отступлением от стандарта.
Пусть Xi — независимые с.в. с одинаковыми матожиданиями fix и дис-
персиями Dx = о2х. Тогда дисперсия линейной функции
у = с(п)’Я? = cixi-i-F спхп
равна
Dy = c(n)Dx = (ci Ч--1- c„)Dx,
и в результате Dy —> 0 при условии ||с(п)|| —> 0 (п —> оо).
При изучении нелинейных зависимостей у = fn(x) под тем же уг-
лом зрения естественно взять за основу аналогичные ограничения на
градиент
0X1 иХп J
Заметим, что для гладких функций условие || V/n(:r) || ^ 7п эквивалентно
в Rn липшицевости fn(x) с константой 7П,
IIV/n(®) - V/„(z)|| 7п||® - 3/Ц-	(4.6)
3Где под Р{-} подразумевается некоторая заданная мера.
100
Глава 4. Законы больших чисел
Если условию (4.6) удовлетворяет негладкая функция, то у неё существует
сколь угодно точная гладкая аппроксимация с модулем градиента 7П.
Рассмотрим теперь для наглядности простейший случай с.в. Xi,
равномерно распределённых на [0,1]. Другими словами, равномерное
распределение на кубе
Сп = [0,1] х • • • х [0,1].
О вероятностной точке зрения, собственно, можно забыть4. Задана по-
следовательность функций fn(x), и мы интересуемся условиями, при
которых уклонение fn(x) от среднего значения стремится к нулю с
ростом п.
Естественный ориентир задаёт линейный случай. Но хватит ли
ограниченности градиента ||Vfn(x)|| для D{/n} < оо в общей ситу-
ации? Ведь разброс значений fn(x) — разность между минимумом и
максимумом — может расти пропорционально диаметру куба Сп, т. е.
у/п.
Если ответ положителен (а он положителен), то можно ли перей-
ти к какой либо другой мере на Сп, не потеряв желаемых выводов?
Конечно, к произвольной мере перейти нельзя, иначе, сосредоточив
её на концах большой диагонали куба, получим D {/п} ~ п. Но доста-
точно ли, скажем, независимости Xi? Какие плотности дают максимум
D {/п}? Как от куба перейти к рассмотрению всего пространства? Вот
примерный круг вопросов, которые здесь возникают.
Откладывая доказательство до следующего раздела, сформулиру-
ем следующий результат.
4.4.1 Теорема. Пусть независимые с.в. Xi распределены на [0,1] с
плотностями Pi(xi), причём все pi(xi) > е > 0, а последовательность
функций . - ,хп) удовлетворяет неравенствам
l|V/„(x)|| 7П, х G Сп.
4В этом, грубо говоря, и заключается идея Колмогорова изучать теорию веро-
ятностей как часть теории меры.
4.5. Дисперсия и сопряжённая плотность
101
Тогда при уп < 7 < оо дисперсия D {fn} ограничена некоторой кон-
стантой, не зависящей от п. Если же уп стремится к нулю с ро-
стом п, то
D{/n} —> 0 при п —> оо,
т. е. последовательности функций fn(x) асимптотически постоянна
на Сц .
Рекламный вариант теоремы мог бы звучать так: все липшицевы
функции большого числа переменных — константы.
4.5.	Дисперсия и сопряжённая плотность
В формулировке дальнейших результатов принимает участие нестан-
дартная для теории вероятностей функция
X	X
р*(х) = /1(00) J p(t)dt — p(x), р(х) = J tp(t)dt, (4.7)
—00	—00
которую назовем сопряжённой плотностью5.
Эффективный способ оценки дисперсии даёт следующее утвержде-
ние.
4.5.1 Лемма. Пусть независимые с.в. Xi распределены независи-
мо с плотностями Pi(xi), каждая из которых имеет сопряжённую
Pi(xi). Тогда для любой непрерывно дифференцируемой функции
f(x±,..., хп) справедливо неравенство
D(f) [^2 (^) Рг*П Pi(xi)dxl    dxn,	(4-8)
i=l	3^
при условии существования фигурирующего в (4-8) интеграла как по-
вторного.
Доказательство приводится в следующем разделе.
5 Сопряженная плотность может быть ненормированна.
102
Глава 4. Законы больших чисел
Требование существования сопряжённой плотности равносильно ограни-
чению на порядок убывания обычных плотностей р(х) на бесконечности, что
может выражаться в терминах существования моментов. Легко убедиться,
что при переходе от р(х) к р* (х) порядок убывания «ухудшается на едини-
цу». Если, например, р(х) = o(|x|-fc), то р*(х) = o(|a;|~fc+1) при |ж| —> оо.
Для р(х) = сопряженная плотность
р‘(*) = ^(1 + И)е411-
Если же область определения р(х) конечна, то сопряженная плотность
существует всегда. Наиболее отчётливо её роль выявляется в ситуациях типа
р(х) = р8(х) + (1 - р)6(х - 1),
где сопряженная плотность равномерна,
р‘(о;) = р(1 -р),
т. е. р* (т) > 0 там, где р(х) = 0. Компенсирующий эффект при этом заклю-
чается в следующем. Если бы, скажем, в неравенстве (4.8) вместо р* стояла
исходная плотность р, то такое неравенство было бы заведомо ошибочно,
поскольку /(х) могла бы расти лишь там, где плотности pi(x) = 0, и справа
был бы 0 при D (/) > 0. Сопряженная же плотность «следит» за поведением
градиента f(x) на тех участках, где исходная плотность обнуляется.
Когда Xi равномерно распределены на [0,1], сопряжённые плотно-
сти р*(ж) = -я(1 ~ х)> и (4-8) переходит в
dx~y... dx^ij
(4-9)
что тем более влечёт за собой
D(f) sj | j[Vf(x')]2dx1...dxn.
cn
(4-Ю)
Константу в неравенстве (4.10), — которое естественно называть
многомерным аналогом неравенства Виртингера — можно уменьшить
до 7Г-2, но в данном контексте это не представляет особого интереса.
4.6. Доказательство ключевой леммы
103
Из (4.10) сразу следует, что при равномерном распределении х на
Сп для fn(x) справедлив практически тот же результат, что и в ли-
нейном случае:
D{/n}->0, если max ||V/n(®)|| —> 0 при п —> оо.
X
Преимущества неравенства (4.9) выявляются на такой функции,
как
fn(x) = max \xi|,	x € Cn.
i
Здесь ||V/n(®)|| = 1 почти везде, но (4.9) гарантирует (после аккурат-
ных вычислений) D {fn} ~
Заметим, наконец, что из леммы 4.5.1 практически сразу вытекает тео-
рема 4.4.1. Действительно, (4.8) в предположениях теоремы даёт оценку
D{/n} < v max[V/(sc)]2,
где
у = sup f : х Е [0,1], г = 1,..., п \ < оо,
lP*(z)	J
что, собственно, и обеспечивает требуемые выводы.
4.6.	Доказательство ключевой леммы
Докажем сначала (4.8) в одномерном случае. Очевидно,
оо	оо оо
D {/} = f [f(x) - mf]2dP(x) = 1 f У [/(я) - f(y)]2dP(x)dP(y) =
- 7 /[р'Н
—оо у
dP(x)dP(y),
где dP(x) = p(x)dx.
Учитывая6
f f'(t)dt	Ц(х-у) j\f'(t)]2dt,
-У	J	у
(4.И)
6Неравенство (4.11) получается, если в неравенстве Коши—Буняковского
~ х	I 2 х	х
J u(t)v(t)dt J u2(t)dt J v2(t)dt
-у	J У	У
ПОЛОЖИТЬ u(t) = v(t) = 1.
104
Глава 4. Законы больших чисел
получаем
ОО ОО	X
D {/} f	[f\t)]2dtdP(x')dP(y).	(4.12)
—оо у	у
Интегрирование в (4.12) идёт по области, задаваемой неравенствами
—оо < у t X < оо.
Изменим порядок интегрирования на следующий. По х — от t до оо, по у — от — оо
до t, по t — от — оо до оо. В результате имеем
оо	оо t	оо
D{/K /uw/ f (x-y)dP(x)dP(y)dt = У [/'(t)]2p*(t)dt,
—oo	t —oo	—oo
поскольку, как легко убедиться,
оо t
У У (х - y)dP(x)dP(y) =
t —оо
а изменение порядка в условиях леммы законно. Таким образом, (4.8) в одномерном
случае установлено.
Далее действуем по индукции. Пусть (4.8) справедливо в размерности п — 1.
Введем обозначения
mn_i(xn) = У /(2c)dFi(^i)...dPn_i(5Cn-i),
Rn-1
Dn-1(з?п) — J [/(®) - ГОп-1(яп)]2<1Р1(Ж1) . . . dPn-i^Xn-i).
Очевидно,
D{/} = J [/(ж) -mn-i(xn) +mn-i(xn) - my]2dPi(xi) ...dPn(xn) =
Rn
Dn-i(xn)dPn(xn) + j [mn-i(zn) - mf]2dPn(xn),
R1
а из доказанного уже одномерного неравенства (4.8) следует
mf]2dPn(xn) У	p*(xn)dxn.
R1
J [mn-i(xn) —
R1
Наконец
[dmn—i (jEn) 1
dxn J
- 2
d Г
-— / f(x)dPi(xi) ...с?Рп_1(жп_1)	<
СьЖтг J
R71-1
J \dx~J	• • -dxn-i.
RTI-1
Проведённые выкладки в совокупности с индуктивным предположением обес-
печивают справедливость (4.8) в размерности п. Лемма доказана.
4.7. Оптимизация в больших размерностях	105
4.7.	Оптимизация
в больших размерностях
Феномен стабилизации функций при больших размерностях существен-
но влияет на понимание и трактовку задач оптимизации. Упрощённо
говоря, суть дела заключается в следующем. Функция ...,
«почти постоянна» — и окрестность максимума, в которой <р(х) ощу-
тимо превышает среднее значение, мала. Поэтому ошибки исходных
данных (измерения/округления) могут сводить на нет усилия, направ-
ленные на точное решение задачи. Кроме того, из-за неточностей моде-
лирования сами постановки оптимизационных задач при больших раз-
мерностях становятся непохожи на реальность. Возникает парадокс:
чем больше учтено факторов, тем хуже модель. Тогда как использо-
вание небольшого числа переменных для описания системы свидетель-
ствует, как правило, о том, что в задаче поймано и выделено главное,
а большое число переменных — об обратном, о попытке вычислять
температуру по движению отдельных молекул.
Поэтому постановки задач большой размерности нередко имеют
условную ценность, и оптимизация там по сути осуществляется не с
целью поиска наилучшего решения, а с тем, чтобы не попасть в че-
ресчур невыгодный режим. В этом смысле теоремы о стабилизации
дают необходимую гарантию, попасть в минимум — так же трудно,
как и в максимум, и почти все выбранные наугад решения примерно
одинаковы по качеству.
Это, конечно, натяжка — для обострения разговора. Но стремление
к понижению размерности моделей почти всегда даёт положительный
эффект, если делается с умом. Скажем, выделение в
.. ,xn) —> max
двух-трёх агрегатов с последующей заменой исходной максимизации —
близкой задачей ^(17, Ю —> max, несмотря на «потерю информации»,
способно приносить дивиденды. Из той же оперы замена детальных
ограничений усреднёнными. Либо даже качественное переосмыслива-
ние исходной постановки под лозунгами агрегирования.
106
Глава 4. Законы больших чисел
Феномен стабилизации может играть определённую роль и в дис-
кретной оптимизации. Там уже сложилась традиция для некоторых
типов задач доказывать, что те или иные эвристические алгоритмы
дают решение «не хуже среднего». Было бы полезно при этом ещё до-
казывать, что почти все допустимые решения определённой категории
задач находятся в районе среднего. Это бы позволило в «непробива-
емых» ситуациях ориентировать эвристику просто на поиск допусти-
мого решения. Вот маленькая иллюстрация7.
Дуга у п-вершинного графа Гп появляется с вероятностью рп \/2--,
V п
её длина Tij — реализация случайной величины, равномерно распределённой на
[0,2г]. Тогда при достаточно больших п почти все графы Гп имеют хотя бы
один гамильтонов контур и длина почти всех гамильтоновых контуров стаби-
лизируется около пт.
Идеология укрупнённых описаний идёт, конечно, от статистиче-
ской физики, гипнотизирующая роль которой тормозит развитие ме-
тодов агрегирования вне термодинамических размерностей. При этом
масса реальных систем, напрашивающихся на укрупнённое описание,
количеством степеней свободы даже не замахивается на миллион, не
говоря о числе Авогадро. За примерами далеко ходить не надо.
Допустим, имеется сложная сеть транспортных перевозок, или вы-
числительная сеть с многочисленными буферными устройствами, или
система почтовой связи с большим количеством маршрутов и сортиро-
вочных узлов, или телефонная связь. Во всех этих случаях детальное
описание функционирования объектов практически невозможно, но
оно, безусловно, влияет на укрупнённые показатели. Сколько требует-
ся, например, автомобилей для удовлетворительной перевозки грузов
по сети? Для точного ответа нужен подробный анализ: распределение
автомобилей по маршрутам, расписание, пропускная способность уз-
лов и т. п. Но часто оказывается, что ответить можно приближённо,
причём этот ответ довольно точен и практически не зависит от де-
тальной информации. Для обоснования такой независимости в каждом
отдельном случае, разумеется, необходимо самостоятельное исследо-
7Перепелица В.А. Асимптотический подход к решению некоторых экстремаль-
ных задач на графах// Проблемы кибернетики, 26 (1973), 291-314.
4.8. Несколько замечаний
107
вание. Хотя всегда есть надежда, что маленькие ручейки сольются в
большую реку.
Можно ли, например, сказать «не глядя», чему равен максимальный поток в
графе, если известна лишь суммарная пропускная способность дут? Точнее, пусть
граф Гп с п вершинами генерируется следующим образом. Дуга, соединяющая
вершины i и j, появляется в Гп с вероятностью
р G [е, 1], е > О,
а её вес aij — реализация случайной величины, распределённой равномерно на
[0,2]. Легко видёть, что среднее значение максимального потока S(Tn) будет асимп-
тотически стремиться к пр, но само по себе это мало что даёт. Аккуратные вычис-
ления показывают, что
S(Tn)/np -^>1, (п —> оо)
и это уже говорит о возможности в данном случае асимптотического агрегирова-
ния, т. е. о возможности игнорирования детальной информации.
4.8.	Несколько замечаний
• Снять в теореме 4.4.1 ограничение Pi(x) > е > О без каких либо компенси-
рующих предположений нельзя. При обнулении плотностей на множествах
ненулевой меры дисперсия fn (ж) может неограниченно возрастать при огра-
ниченном по модулю градиенте. Рассмотрим, например, линейную функцию
<pn(®) = Xi + (\/2 - 1)х2 Ч------Ь (х/п - х/п - 1)жп,
считая её определённой лишь на вершинах куба Сп. Легко проверить, что
на вершинах куба Сп
- ¥>n(y)| sg ||® - 1/||-
(4-13)
Продолжим (рп(х) с вершин куба на весь куб Сп с сохранением условия сжа-
тия (4.13), что всегда возможно [5]. Пусть /п(ж) — соответствующее продол-
жение. Поскольку /п(а?) принимает на вершинах куба Сп те же значения,
что и </?п(аг), то в случае
Pi(.xi) =	+ ^S(xi ~ 1)
дисперсии fn(x) и у>п(а?) совпадают. Но дисперсия линейной функции легко
считается. В результате
D{/n} = D{v?n} = 7[V9?n(®)]2 ~ Inn,
т. е. D {/п} ~> оо при п оо.
108
Глава 4. Законы больших чисел
•	Пусть Xi распределены независимо на [0,1] с произвольными плотностями, и
пусть задана последовательность определённых на Сп липшицевых функций
/п (аз) с константами Липшица 7П • Тогда
D{/n}->0
если 7П = о
Если же ~^= = о^п), то найдется такая последовательность /п(аз), что
D{/n} -> оо.
•	Изучение пограничных ситуаций типа рассмотренной выше опирается на по-
строение примеров последовательностей fn(&) с максимальными D {fn}. До-
вольно неожиданно, что /п(ж), обеспечивающие максимум дисперсии, ока-
зываются симметрическими8. Неожиданно — с позиций распространённой
легенды, которая главным источником статистических закономерностей счи-
тает симметрию. Такой взгляд особенно упрочился после интересной публи-
кации Хинчина9.
8Опойцев В.И. Нелинейный закон больших чисел//АиТ, е4, 1994, 65-75.
9Хинчин А.Я. Симметрические функции на многомерных поверхностях// сб.
памяти А.А. Андронова, М.: Изд. АН СССР, 1955, 541-576.
Глава 5
Сходимость
Если не закусывать удила,
то объяснению в двух словах
поддаётся практически всё.
5.1.	Сходимость п.н. и по вероятности
Различные виды вероятностной сходимости отличаются друг от друга не только
по форме, но и по сути.
•	Последовательность случайных величин Хп сходится к с.в. X
р
по вероятности, Хп —> X, если для любого е > О
Р(|ХП — Х| > е) -» 0 при п —> оо
•	Последовательность случайных величин Хп сходится к с.в. X
/	-4	\	П.Н. чг
почти наверное (синоним: «с вероятностью 1»), Хп -------> X,
если
Р{|Xk — Х| < е, к п} —> 1 при п —> оо
110
Глава 5. Сходимость
Вспоминая, что с.в. Хп есть на самом деле функция Xn(u>), можно сказать
так: Хп п'” > X, если Xn(cu) сходится к Х(ш) в обычном смысле почти для всех ш,
за исключением си-множества нулевой вероятности (меры).
Перечисленные определения обладают общим недостатком — ис-
пользуют предельное значение X, которое не всегда известно. Для
преодоления подобной трудности в анализе изобретено понятие фунда-
ментальной последовательности (последовательности Коши). Ана-
логичный трюк работает и в теории вероятностей.
Последовательность с.в. Хп называется фундаментальной — по
вероятности, в среднем, почти наверное, — если
Р(|ХП — Хт| > е) —> 0, Е(Хп — Хт)2 —> 0, P{|Xfc-Xz| < е;
при т,п оо и е > 0.
5.1.1 Признак сходимости Коши. Для вероятностной сходимо-
сти Хп —> X в любом указанном выше смысле необходима и доста-
точна фундаментальность последовательности Хп в том же смыс-
ле. (?)
5.2.	Сходимость с.к. и по распределению
Есть ещё одна важная разновидность вероятностной сходимости, ко-
торая слабее предыдущих, и потому — шире применимая.
• Последовательность случайных величин Хп сходится к с.в. X
в среднеквадратическом, Хп X, если
Е(ХП —Х)2->0 при п —> оо
Последовательность случайных величин Хп сходится к с.в. X по
распределению, Хп X, если последовательность соответству-
ющих функций распределения Fn(x) слабо сходится к функции рас-
пределения F(x).
Слабая сходимость Fn(x) F(x) означает
оо	оо
J ф(х)дРп(х)	J ф(х)дР(х),
5.2. Сходимость с.к. и по распределению
111
т. е.
Е {</>(%„)}->Е {</.(%)}	(5.1)
для любой непрерывной и ограниченной функции ф(х). Это равносильно поточеч-
ной сходимости Fn(x) —> F(x) в точках непрерывности F(x).
Последнее утверждение является, вообще говоря, теоремой, — справедливой в
силу монотонности и ограниченности функций распределения. Если F(x) непре-
рывна и Fn(x) F(x)j то эта сходимость равномерная, — опять-таки по причине
«монотонности и ограниченности». По той же самой причине множество 9? всех
функций распределения слабо предкомпактно, т. е. из любой последовательности
Fn(x) можно выделить слабо сходящуюся подпоследовательность, но не обязатель-
но к функции из О? (за подробностями можно обратиться к [1]).
Импликация «—>» => «—>» очевидна. Обратное неверно. Например,
пусть речь идёт о бросании симметричной монеты, и при чётном п
с.в. Хп = 1, если выпадает герб, и Хп = 0 в противном случае, а при
нечетном п — Хп = 0, если выпадает герб, и Хп = 1 в противном
случае. Сходимость по распределению есть, по вероятности — нет.
Но если Хп —> 0, то Хп О
5.2.1 Теорема. Сходимость по распределению Хп —> X равно-
сильна равномерной (на любом конечном промежутке) сходимости
<^(А) характеристических функций.
Импликация
Хп А X => у>„(А) -> у>(А)
вытекает из (5.1), если положить ф(х) = егХх.
Обратно, пусть у?п(А) <р(А), — тогда
оо	оо
Е {<£(*„)} = У 0(A)^„(A)dA-4 J <£(A)V(A)dA = E{tf>(X)},
—оо	—оо
где ф(Х) — преобразование Фурье функции ф(Х). ►
Конечно, это лишь набросок доказательства. Углубиться в детали
можно в любом курсе теории вероятностей [1,19]. Теорема 5.2.1 часто
используется, значительно облегчая суммирование случайных вели-
чин.
112
Глава 5. Сходимость
5.3.	Взаимоотношения
Взаимоотношения. Сходимость по вероятности из перечисленных
разновидностей самая слабая. Импликация «^4» => «—>» очевидна,
а неравенство Чебышёва1 обеспечивает «-^4» => «—>».
Обратное в обоих случаях неверно. ◄ Последовательность независимых с.в.
Хп при условии
p{xn = o} = i--, р{хп = п} = А
п	п
2
сходится к нулю по вероятности*, но не сходится ни в среднем, ни почти наверное.
Действительно, ЕХ2 = п 0, а расходимость почти наверное следует из леммы
Бореля—Кантелли, поскольку
ОО	ОО
£p{ixfci> о = £-=«>.►
Стоящие за кадром общие причины достаточно очевидны. Если
сходимость по вероятности означает стремление к нулю меры событий
{|ХП| > е}, то для «п.н.»-сходимости требуется — достаточно быстрое
стремление к нулю этой меры. Понятно, что это разные ситуации.
Для «с.к.»-сходимости само по себе стремление к нулю меры со-
бытий {|ХП| > б} вообще недостаточно, поскольку здесь вступает в
игру другой фактор: значения Хп на «плохих траекториях». Поэто-
му, кстати, «с.к.»-сходимость не следует даже из «п.н.»-сходимости.
Пример:
Р{ХП = 0} = 1 - , Р{ХП = п} = 4-
п	п
Для «п.н.»-сходимости стремление к нулю Р{|ХП| > е} достаточно
быстрое3, но ЕХ% = 1	0.
Наконец, Хп -2^4 о в случае
Р{ХП = 0} = 1 - i
п
Р{Хп = 1} = 1
п
1См. предметный указатель.
2Поскольку Р(|ХП| > е) =---> 0 при малых е.
352°° P{|Xfc| > е} = 5200	< оо, что для обоснования «п.н.»-сходимости поз-
воляет задействовать лемму Бореля—Кантелли.
5.4. Комментарии
113
но Хп не сходится к нулю почти наверное.
Итак,
► => «—>». Других импликаций нет.
Заметим, что для последовательностей случайных векторов модуль
заменяется нормой — без каких бы то ни было иных изменений, как в
определениях, так и в выводах.
У пражнения
•	Если Хп — последовательность независимых случайных величин и
Xn А X, то Р{Х = EX} = 1.
•	Для сходимости Хп П Н > X необходимо и достаточно
lim Р < sup |ХП — Х| > е 1 = О
к->оо [п>к	J
при любом € > 0.
•	Если Хп X, то существует подпоследовательность ХПк П‘Н‘> X.
•	Если Хп X и ХП1 X ограничены, то Хп С'К~> X.
•	Пусть монотонная последовательность неотрицательных случайных вели-
чин,
0 Xi Х2 ,
имеет равномерно ограниченные матожидания Е{ХП} < тп < оо. Тогда
Х„-2^>Х и Е{Х„} —>Е{Х} < оо.
5.4.	Комментарии
Различные виды вероятностной сходимости задают игровое поле для
многочисленных постановок задач, большинство которых не имеют
никакого прикладного значения, но это и не требуется. Задачи спо-
собствуют всестороннему изучению предмета. Тренировка, расшире-
ние кругозора, познание внутренних механизмов, постановка новых
вопросов, — вот, собственно, их главная роль.
Беда в том, как показывает опыт, что разновидности вероятностной
сходимости часто остаются «вещью в себе», устроенной по формально
понятным правилам, но при отсутствии удобных мысленных образов.
114
Глава 5. Сходимость
Путеводной нити в результате — нет, и задачи приходится решать «на-
ощупь». В такого рода ситуациях, чтобы уменьшить ощущение хаоса,
полезно отталкиваться от примеров.
Вот вопрос, который значительную часть населения ставит в тупик. Существу-
ет ли последовательность событий Ai, Аг, - • • такая, что Р{А^} —> 1 при п —* оо,
но
{°° 1
р| Ад. > = 0 при любом п?
к=п )
Положительный ответ даёт последовательность одинаково ориентированных
дуг Ад. длины fc/(fc+1) на единичной окружности Q, у которых начало следующей
(по номеру) дуги совмещается с концом предыдущей.
Другая проблема. Случайная величина Хп, определяемая соотно-
шениями
Р{ХП = 0} = 1 - Р{ХП = п2} =
п	п
сходится к нулю по вероятности, Хп 0, но Е {Хп} оо.
Так часто бывает в некоторых типах игр, в том числе — биржевых.
Ожидаемый выигрыш, как говорится, «выше крыши», на деле — почти
гарантированный проигрыш.
Сходимость матожиданий. Последняя «неприятность» подчер-
кивает принципиальную роль утверждений, в которых к вероятност-
ной сходимости можно добавить сходимость матожиданий. Вот не-
сколько полезных и достаточно простых (для обоснования) утвержде-
ний.
•	Пусть Хп п'н‘у х и все |Xn| < Y, где с.в. Y имеет конеч-
ное матожидание. Тогда X тоже имеет конечное матожидание и
Е{ХП}^Е{Х}.
•	Пусть Хп с’к'> X и все |ХП| < оо. Тогда Е {|Х|} < оо и Е {Хп} ->
->Е{Х}.
Последовательность Хп называется равномерно интегрируемой, если
sup I |x|dFn (х) —> 0 при М оо,
п J
|х|>М
где Fn(x) функция распределения Хп.
5.5. Закон «нуля или единицы»
115
Условие равномерной интегрируемости часто выполняется, и это ликвидирует
массу возможных неприятностей. В условиях равномерной интегрируемости Хп:
(О supnE{|Xn|} < оо. (?)
(	ii) Из Хп X следует существование Е{Х} и Е{ХП} —> Е{Х}. (?)
Без равномерной интегрируемости ситуация менее благоприятна. Пусть, на-
пример, X имеет распределение Коши, а
X,
о,
если |Х|	п\
если |Х| > п.
Тогда Хп —> X, все матожидания Е{ХП} существуют, но Е{Х} = оо.
X
Если же Хп =----F Z, где Е {Z} < оо, — получается другая «неприятность»:
п
Xn^Z,
E{Z} < оо,
но ни одно Е {Хп} не существует.
5.5.	Закон «нуля или единицы»
Лемма Бореля—Кантелли служит простейшей иллюстрацией действия
механизма, исключающего из рассмотрения все вероятности за ис-
ключением крайних. Обзор существенно расширяет колмогоровский
закон [8] «нуля или единицы», утверждающий следующее.
5.5.1 Теорема. Если Xi, . — независимые случайные величи-
ны, а событие А определяется поведением только бесконечно далеко-
го хвоста последовательности Хг,... и не зависит от значений
Xi,...,Хп при любом конечном п, — то
либо Р{А} = 0, либо Р{у1} = 1.	(5.2)
События, зависящие только от «хвоста», называют остаточными.
оо
Таковы, например, события: сходимости ряда ^к либо самой по-
следовательности Хь; ограниченности верхнего предела lim Хк < оо
к—>оо
И Т. П.
116
Глава 5. Сходимость
◄ Идея доказательства проста4. Остаточное событие А — это некоторое множе-
ство А бесконечных траекторий fbfo, • • • > которое может быть аппроксимировано
множеством Ае конечных траекторий ££,...,£'т. «Аппроксимировано» — в смысле
Р{АДАе} < е при задании подходящего т(е).
В силу остаточности, А не зависит от Ае, т. е.
Р{АГ|А£} = Р{Д}Р{Ае},	(5.3)
а поскольку
|Р{А} - Р{Ае}| Р{АДАе} < £ и |Р{Лр)Ле}-Р{А}| $ Р{АДАе} < е,
то (5.3) при е —> 0 переходит в
Р{А} = [Р{А}]2,
что возможно лишь в случае (5.2). ►
5.6.	Сходимость рядов
оо
В классическом анализе сходимость ряда J2 ак определяется как сходимость вари-
ть
анты Ап =	а&, равно как сходимость некоторой последовательности Ап равно-
1
оо
сильна сходимости ряда J2(^fc — Аь-1)- Несмотря на эквивалентность языков —
каждый имеет свои преимущества и недостатки. При изучении случайных после-
довательностей и рядов возникает аналогичная картина.
5.6.1 Теорема. Если Хг, Х2,... — независимые случайные величины
оо
с нулевыми матожиданиями, то для сходимости ряда почти
наверное достаточно сходимости числового ряда:
оо
£D{Xfe}<oo.	(5.4)
А если все Х^ ограниченны, Р{|Х^| < М} = 1, то условие (5.4) и
необходимо.
◄ Из неравенства Колмогорова следует
Р (sup |Sn - Sfc| > el = lim P | max |Sm - Sfc| > el V" Dx™ 0
ln>fc	J 71400	J
при к —> оо, что в итоге обеспечивает достаточность. С необходимостью возни
несколько больше [15,19]. ►
4Но уточнение деталей, особенно с учётом приготовлений, обычно смазывает
картину.
5.7. Предельные распределения
117
Разумеется, если Хк в теореме 5.6.1 имеют ненулевые матожидания
тпхк, то все остаётся в силе при дополнительном предположении о
сходимости ряда ^тпхк- (Я-)
Специфика случайных рядов (в отличие от последовательностей
общего вида) проявляется в следующем полезном факте.
5.6.2 Теорема. Если	— независимые случайные величи-
оо
ны, то для ряда понятия сходимости почти наверное, по ве-
роятности и по распределению — эквивалентны.
оо оо	оо
Если P{|Xfc| > £fc} < <5fc, И ряды	сходятся, то сходится п.н.
(г-)
5.7.	Предельные распределения
При делении на п сумма
Sn = Xi + • • • 4- Хп
сходится в том или ином смысле к матожиданию р = Е {%&}. Специ-
альная «нормировка»
а _ Sn - пр
. /—
уп
позволяет стабилизировать среднеквадратическое уклонение Sn, и под
этим «микроскопом» детально изучать поведение Sn.
5.7.1 Теорема. Пусть Х2,... — независимые случайные величи-
ны, имеющие одинаковое распределение со средним р = 0 и дисперсией
о2. Тогда с.в. Sn/y/n сходится по распределению к с.в. S, имеющей
нормальное распределение с нулевым матожиданием и дисперсией а2.
◄ Пусть </?(Л) — характеристическая функция Хк. В силу (3.13)
Разложение х.ф. в ряд (3.14) даёт
гт2 А2
V(A) = 1 - °— + о(Л2),
118
Глава 5. Сходимость
откуда при п оо
т. е. характеристическая функция с.в. Sn/y/n сходится к х.ф. нормального за-
кона Х(0,<т2), и по теореме 5.2.1 сама с.в. Sn/y/n сходится по распределению к
нормальному закону. ►
Результаты типа теоремы 5.7.1 называют центральными предель-
ными теоремами. В приведённом варианте безболезненно можно от-
казаться от предположения об одинаковости распределения величин
Х^. Дальнейшие обобщения связаны с некоторыми нюансами.
Пусть
п
mfc = E{Xfc}, cr2k = D{Xk}, В2 = ^а2к
к=1
Тогда слабую сходимость
обеспечивает условие Ляпунова: для некоторого 6 > О
1 _ПЛ
-^2+S У7 Е lXfc ~ mkl2+S -» 0 при п->оо,
fe=l
а также более свободное условие Линдеберга: для любого т
-^2	[ (х ~ mk)2dFk(x) -> 0 при п оо,
Вп J
\х-7Пк\^тВп
где Fk(x) — функция распределения Хк.
Дополнительные результаты см. в [6].
5.8. Задачи и дополнения
•	Если с.в. X распределена по Пуассону с параметром а, то случайная ве-
личина (X — а)/у/а имеет в пределе (при а —> оо) стандартное нормальное
распределение.
•	Пусть в задаче о случайном блуждании Рк обозначает вероятность попада-
ния частицы в начало координат из положения х = к. Если частица движет-
ся вправо с вероятностью р, то
Р1 = рРъ + 1 - р.
5.8. Задачи и дополнения
119
При этом, как легко сообразить, Рг = Р±- Поэтому Pi = рРр + 1— р. Решение
квадратного уравнения даёт два корня: 1 и (1 — р)/р. В случае р = 1/2 оба
корня равны 1, т. е. Pi = 1, откуда вытекает Рк = 1 при любом к, что
означает бесконечное число возвратов частицы в нуль (или любую другую
точку).
В общем случае Рк — 1, если р 1/2, и Рк = (1 — p)fc/pfc, если р > 1/2.
Это можно интерпретировать как решение задачи о разорении, Рк — веро-
ятность проигрыша игроком в сумме к партий при игре против казино с
неограниченным ресурсом.
Если же речь идёт об игре двух игроков А и В, первый из которых выигры-
вает отдельные партии с вероятностью р > 1/2 и располагает капиталом для
проигрыша т партий, а второй п — партий, то А разоряется5 с вероятностью
= 1 — [(1 — p)/p]m р \
1 - [(1 - p)/p]m+n'
Вероятность разорения второго: рв = 1 — Ра-
При р —> 1/2
РА тп/(т + п).
•	Пусть не равные тождественно нулю с.в. Х1,%2> • • • имеют нулевые мато-
жидания, независимы и одинаково распределены. Тогда суммы Sn = Xi +
-|-----1- Xn обладают свойством
P{limsupSn = +oo} = P{ lim inf Sn = —oo} = 1, (P
n->oo	n->oo
которое при неодинаковой распределенности Хк может нарушаться.
•	"Устойчивые законы. Изучение сумм независимых с.в. привело к поста-
новке следующего типа вопросов. Если взвешенные суммы слабо сходятся,
то что можно сказать о предельном распределении F(x)? Одно из направ-
лений возможного ответа — устойчивость F(x).
Распределение F(x) называется устойчивым, если независимые с.в. X, У,
распределённые по этому закону, — при сложении, после предварительной
подходящей «перенормировки», дают величину, распределённую по тому же
закону. Иными словами, найдутся константы, при которых
Z = v(aX + ЬУ -р)
имеет распределение F(x).
Точнее и проще говоря, распределение F(x) устойчиво, если при любых ад.
и Ьк > 0 существуют такие а и b > 0, что
5Первым проигрывает т партий.
120
Глава 5. Сходимость
где звездочка обозначает свертку.
Следующий результат принадлежит Леви: Если Xi,%2, • - • — независимые
одинаково распределённые с.в., и при подходящих а^ и bk > 0 суммы
Xi + • • • + Xfc — Qfe
bk
слабо сходятся к невырожденному распределению F(x), то F(x) — устой-
чиво.
•	Безгранично делимые законы. Распределение F(x) называют безгранич-
но делимым, если при любом целом к существует такая функция распреде-
ления Fk(x), что к-кратная свертка Fk(x) даёт F(x),
F(x) = Ffc(x)*...*Ffe(x),
т. е. корень из характеристической функции F(x) любой fc-й степени — ока-
зывается тоже характеристической функцией некоторого закона.
Например, х.ф. у>(А) = е~а1 Л1 распределения Коши после извлечения корня
даёт х.ф. того же распределения Коши с параметром а/к. Поэтому распре-
деление Коши безгранично делимо. То же самое имеет место в отношении
нормального, пуассоновского, показательного и ряда других законов.
В общем случае х.ф. безгранично делимого закона обязана быть представи-
мой в каноническом виде Леви - Хинчина:
V?(A) = exp !
+ д2 (eiXx _
х2 \	14-х2
— 1^ dp(x) + гА£ ,
при некотором вещественном $ и неубывающей ограниченной функции д(х).
При соблюдении аккуратности терминологии можно сказать следующее. Без-
гранично делимые законы представляют собой в точности совокупность воз-
можных предельных распределений при суммировании независимых с.в.
Тематика устойчивых и безгранично делимых законов становится интерес-
ной, когда на теории вероятностей свет начинает сходиться клином. До этого
момента обычно есть масса других точек концентрации внимания.
• Центральная предельная теорема «заслоняет свет», и многие часто думают,
что «суммы всегда сходятся к нормальному закону». Разумеется, это не так.
Вот простой пример.
Пусть п единичных масс равномерно распределены на [—п, п]. На единичную
массу в начале координат действует гравитационная сила
t _ sien(xfc)
In ~
В силу равномерного распределения Xfc,
5.8. Задачи и дополнения
121
В итоге
Е{ехр[гА/п]} ехр с|Л|1/2) при п —> оо.
Соответствующее предельное распределение в элементарных функциях не
выражается.
• Мартингалы. При изучении сходимости особую роль играют последова-
тельности случайных величин Хп, удовлетворяющие условию
E{Xn+i|Xi,...,Xn} = Xn
и называемые мартингалами.
В случае
E{Xn+i|Xi,...,Xn}^Xn
последовательность Хп называют полумартингалом. Полумартингалы для
процедур типа стохастической аппроксимации могут служить как раз ана-
логами функций Ляпунова (см. предыдущий раздел).
Теория мартингалов довольно обширна [12]. Ее эффективность определяется
простым фактом:
Теорема. Мартингал Хп с равномерно ограниченными моментами
Е{Х2} сходится почти наверное.
Глава 6
Бросание монеты
и случайное блуждание
Пока толстый сохнет,
худой сдохнет.
Бросание монеты, именуемое схемой Бернулли, в некотором роде
исчерпывает теорию вероятностей. Конечно, проще так не думать,
но смотрите сами. Кувыркающаяся монета приводит к биномиальному
распределению (раздел 3.1), которое — в асимптотических вариантах
даёт нормальное распределение и пуассоновское, а уж те накрывают
львиную долю ТВ. Короче говоря, «монета» оказывается тем этало-
ном, который в разных обстоятельствах порождает большое стохасти-
ческое разнообразие. Кроме того, это простейший механизм, удобный
для обучения при не очень сложных декорациях.
6.1.	Схема Бернулли
Схемой Бернулли называют, как мы уже не раз отмечали, бросание
монеты, которая падает гербом с вероятностью р Е (0,1), и решёткой —
с вероятностью q = 1 — р. Если выпадению герба сопоставляется еди-
6.1. Схема Бернулли
123
ница (что обычно именуют успехом), решётки — нуль, модель вместо
ГРГГР ... генерирует случайные
«01 ^последовательности: 1 0 1 1 0 ...,
или случайные числа вида 0,10110....
Напомним. В силу независимости испытаний вероятность в п ис-
пытаниях получить к единиц в каком-либо определённом порядке (и,
соответственно, п — к нулей) — равна pkqn~k. А поскольку к единиц
расположить в п разрядах можно числом способов Ск, то вероятность
получить к единиц независимо от порядка их следования — равна
(6-1)
Набор таких вероятностей {ро, • • • ,Рп} называют биномиальным
распределением (в серии испытаний длины п). Можно сказать, что
биномиальное распределение имеет сумма
Sn —	+ • • • + ^п,
(6-2)
где с.в. Хк независимы и принимают значения 1 или 0 с вероятностями
р и q = 1 — р. При этом Е {Sn} = пр, D {Sn} = пр(1 — р).
При бросании монеты часто говорят об игре в «орлянку»: герб —
выиграл, решётка — проиграл. При этом удобно считать, что Хк
принимают значения не 1 и 0, al и —1. За этой схемой, в свою
очередь, подразумевают иногда случайное блуждание частицы (или
выигрыша).
Что касается поведения суммы 6.2, то после знакомства с законами
больших чисел многим кажется, что тут всё ясно. Среднее, дисперсия
и даже предельная функция распределения, — известны. Чего ещё?
Но в поведении с.в. Sn скрываются такие фигуры высшего пилотажа,
что трудно поверить.
124
Глава 6. Бросание монеты и случайное блуждание
6.2.	Закон арксинуса
Игры, связанные с бросанием монеты, кажутся наивными, но в них иг-
рают все экономические субъекты. От крупных банков до физических
лиц. Поэтому сопутствующая тематика важна не столько даже для
максимизации прибыли, сколько для понимания окружающей среды
и собственной роли в будничном коловращении. Суть дела чаще всего
проста, но некоторые явления имеют источником не вполне очевидные
математические пружины. Первое впечатление о тривиальности пове-
дения случайных «01»-последовательностей не совсем верно. Среднее,
конечно, — нуль, дисперсия — одна четвертая1. Но даже «нормальная»
асимптотика, позволяющая легко оценивать доверительные интерва-
лы и другие нюансы, оставляет кое-что вне поля зрения.
Вопрос заключается в том, как ведут себя индивидуальные траек-
тории
sn = Xi + • • • + хп, хк е {о, 1}.	(6.3)
Дипломатичный ответ «когда как» не отражает всю правду. Некото-
рые естественные ожидания рушатся под давлением закона арксину-
са, показывающего, что при игре в «орлянку» нет, например, никакой
тенденции к выравниванию периодов лидерства.
6.2.1 Теорема. Допустим, в (6.3) Xk € {1, —1}, вместо Xk Е {0,1},
монета симметрична, т. е. р = q = ^, и пусть р(2п, 2k) обозначает
вероятность того, что в интервале времени (0,2п) сумма Sj прини-
мает неотрицательное значение (выигрыш 0) при 2k значениях j.
Тогда
р(2п, 2k) = 2~2nCk2kC^k2k .	(6.4)
Несложное, но несколько перегруженное деталями доказательство см. у Фелле-
ра [17]. В основе доказательства лежит механизм, который в наиболее прозрачном
виде действует в классической задаче о баллотировке, см. следующий раздел.
Чтобы рассмотреть суть за фасадом формулы (6.4), надо перейти к
асимптотике, что одновременно полезно с вычислительной точки зре-
ния. Кроме того, интерес представляет доля времени, когда выигрыш
гТам, где не оговорено противное, бросаемая монета подразумевается симмет-
ричной, т. е. р = q = .
6.2. Закон арксинуса
125
неотрицателен, т. е. вероятность
P{kn < хп} = У^ р(2п, 2k),
k=l
где 2kn равно числу значений j е (0,2п), при которых сумма Sj неот-
рицательна.
После некоторой технической эквилибристики получается, что в
асимптотике при п —> оо
Р{кп < хп} — arcsin у/х.
Это и есть закон арксинуса. Вот пара «цитат» из Феллера [17], ком-
пенсирующих сухость формулы.
При 20 бросаниях симметричной монеты в «орлянке» один из игроков с веро-
ятностью 0,35 никогда не будет впереди, и с вероятностью 0,54 — будет впереди не
более одного раза.
Т;г
Интуиция подсказывает, что доля времени —, когда суммы 5, неотрицатель-
1	п
ны, должна быть близка к —. Но это как раз наименее вероятно. Наибольшую
вероятность имеют крайние значения — = 0 и — = 1.
п	п
Выглядит абсурдно, но тем не менее вероятность того, что при 10 000 бросаний
монеты один из игроков находится в выигрыше более чем 9930 раз, а другой —
менее чем 70, больше 10%.
Если говорить простым языком, то причина разобранного явле-
ния заключается в том, что суммы Sj обнуляются все реже и реже.
Подсознательно думается, что число ничьих (обнулений Sj) пропор-
ционально длине игры п. На самом деле их число пропорционально
у/п. Если построить график (fc, Sfc), то это будет колебание со все уве-
личивающейся длиной волны и растущей амплитудой2.
2 Значения к удобно считать дискретными моментами времени, а поведение
представлять как график в плоскости, на котором точки (к, Sк) соединены прямо-
линейными отрезками.
126
Глава 6. Бросание монеты и случайное блуждание
6.3.	Задача о баллотировке
Простая на вид задача о баллотировке сопровождается обычно до-
вольно длинными доказательствами. Ниже приводится очень короткое
обоснование. Но сначала о самой формулировке задачи.
6.3.1 На выборах кандидат А собрал а голосов, кандидат В — b го-
лосов, причём а > Ь. Вероятность, что в течение всего времени А
был впереди В равна &
Эту задачу обычно сопровождают различные трактовки, выводя-
щие на довольно широкий спектр приложений.
◄ Рассмотрим произвольное размещение а символов А и b символов В
на окружности. Для данного размещения определим число начальных по-
зиций, при отсчёте от которых по часовой стрелке символы А всё время
лидируют при суммировании. Для поиска этих позиций исключим последо-
вательно все соседние пары АВ, проходя для этого окружность по часовой
стрелке, возможно, несколько раз. В результате останется а — b символов
А, при отсчёте от которых символы А суммарно всё время лидируют. Та-
ким образом, независимо от выбора исходной последовательности, из а + b
позиций на окружности имеется ровно а — b позиций, при отсчёте от кото-
рых символы А постоянно лидируют при суммировании. Соответствующая
вероятность (бессменного лидирования Л) получается равной ~ , т. е.
кандидат А стабильно лидирует с вероятностью ~	►
6.4.	Задача о разорении
6.4.1 Допустим, при игре в «орлянку» ставка каждой партии рав-
на 1 юаню, начальный капитал игрока N юаней. Игра прекращается
в случае разорения (обнуления капитала) либо по достижению капи-
талом игрока величины А. Какова вероятность разорения p(N) ?
◄ Пусть событие R обозначает разорение игрока, V+ — выигрыш в пер-
вой партии, V- — проигрыш. Тогда
p(N) = P{R} = P{B|V+}P{V+} + Р {R\V_}P {V_},
6.4. Задача о разорении
127
и в силу
P{V+} = P{V-} = A P{fl|V+} =p(N + l), P{R\V-}=p(N-l),
получается
т. е.
pW = i[p(AT + l)+p(AT-l)],
p(N + 1) = 2p(N) - p(N - 1).
Решая последнее рекуррентное уравнение при очевидных краевых условиях
р(0) = 1, р(А) = 0, приходим к3
N
p(N) = 1 - -
«/i
У пражнения
• При игре в ту же игру, но с вероятностью выигрыша в каждой партии
равной v < 1/2 возникает рекуррентное уравнение
p(7V) — vp(N + 1) + (1 — v)p(N — 1),
решением которого служит
P(N) =
€Л-1 ’
1 — 1/
I/
(?-)
(6-5)
е =
• Анализ показывает, что вероятность разорения зависит также от став-
ки в отдельной партии. Опираясь на эту зависимость, можно получить отве-
ты на некоторые неочевидные вопросы. Выгоднее ставить по одному юаню
или по десять? Сразу всё или «по чуть-чуть»?
Например, при игре в рулетку р = 18/38 ~ 0,47 плюс единичная ставка
в каждой отдельной партии, — в соответствии с (6.5) удваивает капитал
N = 20 с вероятностью
1—р(20) =
1 - (2O/18)20
1 - (2O/18)40
3При этом вероятность достижения капиталом игрока суммы А равна
N
l-p(N) = -.
128
Глава 6. Бросание монеты и случайное блуждание
Вероятность же удвоения капитала при одноразовой ставке N = 20 в четыре
раза больше, р — 0,47.
•	Из предыдущего примера напрашивается вроде бы философский вы-
вод: «чем меньше партий играешь в проигрышную игру4, тем лучше». Уди-
вительно, но даже это не всегда так.
Допустим, игрок выигрывает (проигрывает) серию из 2п > 0 партий в
рулегку, если его суммарный выигрыш больше (^) нуля. При наличии права
выбора числа 2п (заранее) — вероятность выигрыша серии максимизирует
2п = 24, а не 2п — 2, как подсказывает внутренний голос.
•	Если двое, А и В с начальными капиталами а и Ь, играют в «орлян-
ку», то средняя продолжительность игры5 до разорения одного из игроков —
равна ab. Таким образом, если капитал первого — доллар, а второ-
го — миллион, то ожидаемая продолжительность игры — миллион партий
(хотя А, казалось бы, может очень быстро проиграть). Но здесь уместно
вспомнить о ситуациях, когда Хп 0, но Е {Хп} —> оо.
6.5. Различие при блуждании bR1, R2 иК3
Итак, пусть Xi, Х2,... — независимые с.в., принимающие два значе-
ния 1 и —1, с вероятностями
Р{Хк = 1}=р, Р{Хк =—1} = 1 — р.
Поведение суммы Sn = Xi + • • • + Хп интерпретируем как случайное
блуждание, имея в виду движение частицы по целочисленным точкам
действительной прямой. Если Хк принимает в к-й момент времени
значение 1 (—1) — частица сдвигается на единицу вправо (влево).
Возврат частицы в начало координат равносилен, очевидно, собы-
тию {Sn = 0}, каковые возможны только в чётные моменты п = 2к.
Интуитивно ясно, что в случае Р = А типичные траектории бесконечно
А
много раз проходят через нуль, а в случае р 7^ 1 уходят в бесконеч-
ность. Аккуратная формулировка звучит так.
4В данном случае игра проигрышна, поскольку р = 0,47 <0,5.
5 В случае единичной ставки при каждом отдельном бросании.
6.5. Различие при блуждании в R1, R2 и R3
129
6.5.1 Теорема.
[ °’
P{Sn = 0 б.ч.р.} = <
если р 7^
если Р = 2>
где б.ч.р. означает «бесконечное число раз».
◄ Легко видёть (опираясь на формулу Стирлинга), что
P{S2fc = О б.ч.р.} = C*fcp”(l - р)" ~ [4р(1~р)1
О°
Поэтому J2P{i$2fc = 0} < оо, и Р{|9П = 0 б.ч.р.} = 0 в случае р следует из
леммы Бореля—Кантелли.
1	00
Что касается ситуации р = то здесь J2P{u>2fc = 0} = оо, но лемма Бореля—
Кантелли не работает, поскольку события {«5П =0} не независимы, а колмогоров-
ский закон «нуля или единицы» не применим, потому что событие {Sn = 0 б.ч.р.}
не является остаточным. Но доказательство может быть завершено с помощью до-
полнительных ухищрений [19].
Например, {S2k = 0 б.ч.р.} включает в себя остаточные события
л	fr—&п	г	1 л	fv—I	I \
А = < пт—— = оо, пт—— = —оо > и = < пт —= > и
t vn	yn J	( I Vn I
к которым применим закон «нуля или единицы». Альтернатива Р{А^} = 0 исклю-
чена в силу теоремы 4.1.1. А поскольку А^ —> А при I/ —> оо, то и Р{А} = 1 и, как
следствие, P{S2fc = 0 б.ч.р.} = 1, поскольку
А С {S2k = 0 б.ч.р.}. ►
Многомерное блуждание. Рассмотрим блуждание частицы по дву-
мерной целочисленной решётке. Движения влево/вправо и в верх/вниз
независимы и происходят с вероятностью i. Вероятность возвращения
в нуль через 2п шагов равна, очевидно,
P{S2n = 0} =
Поэтому
£p{52fc = 0} = оо.
к
130
Глава 6. Бросание монеты и случайное блуждание
Далее с теми же ухищрениями, что и выше, вероятность бесконечного
числа возвращений в начало координат получается равной 1, что не-
сколько неожиданно, поскольку обнуление координат теперь должно
происходить одновременно.
При трёхмерном блуждании
P{S2n = 0}= с?п
—3/2
и тогда
£P{S2fc = 0}<oo,
что принципиально меняет картину асимптотического поведения. Ве-
роятность возврата становится дробной, а число возвращений на ти-
пичных траекториях конечным.
Качественное отличие поведения случайных траекторий в раз-
мерностях 2 и 3 часто служит поводом для удивления и некоторого
философствования. Циник бы, конечно, не преминул заметить, что
с тем же успехом можно удивляться сходимости ряда ^п 2 и рас-
ходимости 52 п-1. Возражать по сути было бы трудно, хотя удив-
ление — очень ценная вещь6. Но проще, и продуктивнее, удивляться
существованию этого мира, добиваясь понимания по частностям.
6.6. Процессы восстановления
Процессом восстановления называют параметрически заданную слу-
чайную величину
r)(t) = max{fc : Sk С t},
где Sk =	a случайные величины Xj независимы и положи-
тельны.
Терминология проистекает из малопривлекательной, но удобной модели: Xi —
время исправной работы системы (прибора). После выхода системы из строя она
QJIee Толстой жаловался: «Писать стало трудно — кончается энергия заблуж-
дения».
6.6. Процессы восстановления
131
так или иначе восстанавливается (заменяется), время бесперебойной работы вос-
становленной системы — и так далее.
В таком сценарии — время к-го восстановления, a T](t) — число восстанов-
лений до момента времени t.
Иногда под процессом восстановления подразумевают саму после-
довательность Sk, и тогда ясно, что можно говорить о своеобразном
случайном блуждании «с переменным шагом все время вправо». Сня-
тие ограничений соблазнительно, но оно ликвидирует всякую специ-
фику, и задача растворяется в общем изучении сумм независимых с.в.
Тематика «восстановления» упоминается здесь с единственной це-
лью. Это ёмкая и достаточно развитая область ТВ. Поэтому в случае
возникновения определённого типа потребностей — полезно знать, что
такая область есть, и знать ключевые слова, по которым можно най-
ти зацепки. Само же «общевероятностное» образование вполне может
обойтись без решения рутинных задач «восстановления», чтобы осво-
бодить голову для восприятия запредельного мира. В общем курсе ТВ
возможны, конечно, и другие акценты, если — не через край.
Глава 7
Философия
случайности
Диалектика толкает к истине
дорогой лжи.
7.1.	Где корни случайности
Каждый с ходу легко соглашается, что бросание монеты имеет вероят-
ностный характер. Но если вдуматься, то тут не так всё просто. Броса-
ние монеты — хотя и сложная, но поддающаяся расчёту механическая
задача. По крайней мере, можно сконструировать высокоточный ав-
томат, который всегда будет бросать монету гербом вверх. Почему же
человек, действуя спонтанно, бросает «как надо»? Становится ясно,
что источник случайности находится не в монете, а в человеке. Но где
у того источник случайности? Вопросы ведут всё дальше, и причин-
но следственные цепочки петляют по таким закоулкам Вселенной, что
всё получается исхожено, а корни не обнаруживаются.
7.1. Где корни случайности
133
Публике, тем не менее, кажется, что уж теория вероятностей до-
капывается до сердцевины. Однако ТВ, как и мы с Вами, вынуждена
фундаментальный вопрос выносить за скобки. Колмогоров поступил
в духе Эйнштейна1. Мы не знаем, что такое случайность, положим
элементарные события и их вероятности даны свыше — и посмотрим,
как можно развивать теорию дальше. Эта позиция стала поворотным
пунктом в развитии теории вероятностей, консолидировав математи-
ческое сообщество.
Но тема не закрыта, и поиск продолжается. За рамками ТВ, разу-
меется. Главное направление разведки: возникновение хаоса, случай-
ного поведения, — из детерминированного. То есть изучение условий,
при которых траектории динамической системы2
х = F(x)	(7.1)
начинают беспорядочно метаться по фазовому пространству3.
Долгое время почему-то казалось, что проблема упирается в дока-
зательство эргодичности, каковой называют равенство для траекто-
рии среднего по времени среднему по фазовому пространству. Посте-
пенно стало ясно, что эргодичность ни при чём, а всё дело в переме-
шивании.
Пусть Ut обозначает оператор сдвига по траекториям (7.1), а По —
некоторая область фазового пространства. Если при t —> оо мера мно-
жества точек области Qt = СТг(По), попадающих в любую наперёд за-
данную область Q, стремится стать пропорциональной мере области
П, то система называется перемешивающейся, либо говорят, что си-
стема обладает свойством перемешивания4. Визуально перемешива-
ние выглядит как «беспорядочно равномерное» растекание областей
1 Который сказал: мы не знаем почему, но пусть скорость света будет макси-
мальной скоростью во Вселенной, и посмотрим, что из этого следует.
2Или	для систем с дискретным временем.
3Точнее, по пересечению поверхностей интегралов движения.
4Некоторые уточнения см. в [22].
134
Глава 7. Философия случайности
фазового пространства:
(7-2)
Перемешивание, как правило, связано со сверхчувствительностью
к начальным данным, выражаемой неустойчивостью, характеризуе-
мой экспоненциальным5 разбеганием траекторий:
||^(Ж) - Z7t(^)|| > А‘||х - у||,	(7.3)
при близких ж, 2/, малых t > 0 и некотором Л > 1.
Для систем с дискретным временем,
xk+i —	(7.4)
аналогом (7.3) является
IlfCaO-JW^Ah-j/ll, А > 1.
для достаточно близких ж, у. Во всех случаях имеются в виду системы,
совершающие финитное движение.
При А 1 говорят об «очень хорошем перемешивании», но годится
и простое Л > 1. Перемешиванием обладает элементарный процесс
хк+1 — {Ая^},
А> 1,
(7-5)
где фигурные скобки обозначают дробную часть числа. При доста-
точно больших А числа хь оказываются равномерно распределёнными
5 Или сверх-экспоненциальным.
7.2. Псевдослучайное поведение
135
(почти) на отрезке [0,1]. А из равномерно распределённых Хк уже мож-
но получить у к, распределённые по капризу заказчика, см. раздел 3.2.
В частности,
1,	если Хк к,
У к =	1
О,	если Хк >
будут порождать случайную «01 ^последовательность, воспроизводя-
щую бросание симметричной монеты6 7.
7.2.	Псевдослучайное поведение
Как бы хорошо траектория ни металась по фазовому пространству,
она детерминированна и лишь имитирует случайное поведение. То есть
является псевдослучайной, независимо от качества подражания истин-
но случайному процессу. Конечно, если имитация идеальна, псевдо-
случайное неотличимо от случайного, и нет даже смысла говорить о
них по отдельности. Но идеальное нам только снится. Перемешивание
мало что говорит о свойствах индивидуальных траекторий.
Скажем, при Л = 100 и xq, имеющем в десятичной записи конеч-
ное число знаков после запятой, х^ определяемые процедурой (7.5),
через некоторое время попадают в нуль и там остаются. Более то-
го, декларация о равномерном распределении траекторий (7.5) на [0,1]
означает лишь, что Хк корреляционно независимы, и имеют «матожи-
7
дание» и «дисперсию» , соответствующие равномерному распределе-
нию. Серьёзные тесты на случайную генеалогию Хк не проходит, см.
6Или несимметричной, если положить
У к =
1,
0,
если
если
хк Р»
> р.
7То есть среднее и среднеквадратическое уклонение.
136
Глава 7. Философия случайности
далее. Наконец, никакая детерминированно порождённая последова-
тельность Хк не может пройти все тесты на подлинно случайное
происхождение,
Истинно случайная последовательность имеет бесконечную сложность, т. е.
никакой коне* 1ной программой нс определяется. 1 "ак что любая детермшiирован-
няя &&, задаваемая ю яне* ш ый ал гори wt jm. на ;	дак му совей бу мажке ломает
себе зубы.
Особенно драматично это сказывается на статистической физике.
Долгие годы солидная научная дисциплина остаётся без обоснования,
и перспектив не видно. Ибо подоплёка стохастическая, а движение
молекул строго предопределено:
rrikXk + Fk(x) = 0, k —	(7.6)
что в рамках гамильтонова формализма [22] записывается как
(Ь) *-£ -	• '.....* <”)
\	/	с'Рг	^Чг
Основное противоречие тут связано с обратимостью времени. Нью-
тоновское описание (7.6) «не ощущает» замену t на — t, тогда как мак-
роскопическое поведение необратимо. Например, в сообщающихся со-
судах с газом давление выравнивается. Но если скорости молекул в
какой-то момент обратить на противоположные, то, двигаясь по тем
же траекториям (7.6) в обратном направлении, система вернётся в ис-
ходное положение, что термодинамически абсурдно. Вторая неприят-
ность — парадокс возврата, состоящий в противоречии макроскопиче-
ской реальности с теоремой Пуанкаре о возвращении траектории со
временем в сколь угодно малую окрестность начального положения.
7.3.	К обоснованию статистической физики
Итак, перемешивание не спасает статистическую физику от парадок-
сов обратимости и возврата, если мировоззрение привязано к дви-
7.3. К обоснованию статистической физики
137
жению точек, а не областей8. Но если за основу микроописания при-
нять движение областей, что, конечно, выглядит странно, непривычно
и противоестественно9, — то всё «входит в берега», и термодинамика
согласуется с механикой, получая статистическое обоснование10. На
таком подходе настаивал Крылов [10], системно увязывая детали, но
дилижанс статистической физики и ныне там. Потому что, решая, с
чем мы имеем дело — с траекториями точек или областей, — электо-
рат предпочитает иметь дело с движением точек. Однако реальность
от ожидаемого точечного описания отличается шокирующе.
Движение частиц на далеких звёздах посредством гравитации, от которой не-
ж«можно ззэкранироваться, кардиня л инымобразом меняет поведение молекул в
любой «изолированной системе». Малое возмущение в направлении движения
молекулы возрастает по экспоненциальному закону
где А —длина свободного пробега, tq — радиус молекулы, г — время свободного
пробега- После нескольких столкновений становится больше 4тг,т, через до-
лю секунды направление движения молекулы становится принципиально непред-
сказуемым. В частности, Норелъ подсчитал, что перемещение массы 1 г на 1 см
на какой-нибудь звезде, удалённой от Земли на несколько световых лёт, Произве-
дет у Земли изменение гравитационного ПОЛЯ порядка 10~1П0, что в свою очередь
не позволит предсказать направление движения молекул на времена свыше 10^
сек.
На этом фоне поиску корней статистических закономерностей вне
изучаемых систем было посвящено довольно много работ, но крити-
ки, в том числе Крылов [10], не оставили от них камня на камне. По
единодушному мнению судей, несмотря на громадные различия в по-
ведении изолированных систем и — реальных (возмущённых), корни
статистического поведения определяет динамика самой системы. При
8 А традиция именно такова.
9Для консервативного подсознания.
10В первую очередь здесь надо отметить, что обратимые уравнения Ньютона
«необратимы» в том смысле, что простые области переводят в сложные, рис. (7.2),
а взятые наугад сложные — в ещё более сложные.
138
Глава 7. Философия случайности
этом некоторые исследователи занимают странную позицию, грани-
чащую с ожиданием чуда. Дескать, заложив в компьютер описание
(7.7) трёхмерного бильярда11, и точно вычисляя траекторию, мы бу-
дем наблюдать термодинамические эффекты, стремление к равномер-
ному заполнению шарами (молекулами) сосуда и проч. Причём уве-
ренность в сказанном настолько велика, что у приверженцев нет и
тени сомнения в отсутствие реальных вычислений.
Но парадоксы-mo обратимости и возврата остаются. Поэтому чи-
сто гамильтоновой «внутренней» механики (7.7) не хватает. Долж-
ны быть какие-то дополнительные причины другого уровня. Соблаз-
нительно предположить, что внешние возмущения (гравитационные
флуктуации во Вселенной) позволяют системе реализовать скрытые
термодинамические свойства. Однако простой декларацией тут не от-
делаешься. Необходимо увязать концы с концами. Что на базе анали-
тической механики и концепции Крылова о движении областей не так
сложно сделать12. Идея тут, если в двух словах, заключена в следую-
щем.
Если решения уравнений (7.7),
Qi = Qi(p°, g°, t),	Pi= Pi(p°, 9°, t),	(7.8)
принять за формулы перехода от переменных {р, д} к переменным (начальным
данным) {р°,д°}, то такое каноническое преобразование переводит систему (7.7) в
9° = 0, Р° = 0 (г = 1,...,п),
а возмущённую систему
д(Н + Н) , д(Н + Н)
Qi — п > Рг — п
dpi	dqi
в систему
9г дрГ Рг dqOi'
Таким образом, в новых переменных {р°,д0} невозмущённая система «стоит
на месте», а возмущённая — определяется решением уравнений Гамильтона, в ко-
торых фигурирует только гамильтониан возмущения Н. Другими словами, воз-
мущение гамильтоновой системы всегда можно представлять как возмущение
начальных данных. Подобная точка зрения проливает свет на метание траектории
11 Так иногда называют сосуд с газом.
12См. Опойцев В.И. Макроописание систем размешивающегося типа. // «Совре-
менные проблемы управления» М.: Наука, 1974.
7.3. К обоснованию статистической физики
139
по размешивающейся области системы с перемешиванием. Из приведённого ре-
зультата следует, что такое метание можно представлять себе как скольжение по
траекториям ансамбля невозмущённого движения. Сам же характер скольжения
определяется внешними по отношению к модели факторами, каковые могут нахо-
диться внутри или вовне системы, в другом пространстве и в других категориях
причин.
Если гамильтониан внешнего воздействия Н является случайной функцией,
то (7.9) определяет некоторую начальную область Qo с плотностью распределения
точек р(-). В результате перемешивания в изолированной системе индивидуаль-
ные траектории (7.8) будут обнаруживать правильное статистическое поведение,
причём независимо от вида13 р(-) (при естественных ограничениях). В итоге по-
лучается неважно, случайно или псевдослучайно (детерминировано) движение на-
чальной точки {p°,Q0}. Главное, чтобы внешнее воздействие было независимо от
эволюции изучаемой системы.
13Грубо говоря, это следствие того, что каждая малая область, на которой плот-
ность р(-) — const, равномерно размешивается по Q.
Глава 8
Метод Монте-Карло
и вероятностные
алгоритмы
Понимание дороже
отдельно решённой задачи.
О привнесении случайности в практику вычислений трудно рас-
сказывать, не попадая в положение хозяйки, решающей дилемму: «на-
крыть стол для гостей так, чтобы ещё раз пришли, или так — чтобы
больше не приходили».
8.1.	Идея метода
Границы методов Монте-Карло сильно размыты, но основная масса
эффективных инструментов концентрируются вокруг простой идеи.
Для вычисления искомых величин 0 изобретаются вероятностные мо-
дели, в которых значения О оказываются матожиданиями случайных
8.1. Идея метода
141
величин X,
Е(Х) =0,
после чего 0 вычисляется как1
0 ~ -(#1 Ч------\-xn),
п
(8-1)
где #i,...,	— независимые реализации с.в. X.
На вид идея невзрачная, но работает феноменально. Трудно даже
поверить. Скажем, требуется найти объём n-мерного тела В, описы-
ваемого неравенствами
/1(ж) О, ..., fm(x) 0.
(8.2)
Помещаем тело в куб С (полагаем, для простоты, единичный), и орга-
низуем с.в. X равномерно распределённую в этом кубе. Далее N раз
бросаем точки-реализации X в С. Доля точек попавших в В, будет
равна2 искомому объёму В.
Чудо здесь в том, что трудоёмкость вычислений почти не зависит от
размерности п. Тогда как сложность приближённого интегриро-
вания растёт экспоненциально по п. Конечно, и в нише Монте-Карло
количество препятствий, которые приходится преодолевать, при боль-
ших п возрастает3, но это обычно рост копеечный на фоне экспонен-
циального.
гС тем же успехом вместо Е(Х) = 0 работает модель Е(Х) = у?(0), если
уравнение <р(0) = тпх легко решается относительно 0. Такова, например, модель
Бюффона, см. раздел (2.2).
2 Разумеется, приблизительно.
3Каждый раз приходится проверять тп неравенств fj(x) 0.
142
Глава 8. Метод Монте-Карло и вероятностные алгоритмы
Уточним сказанное. Допустим, у нас есть датчик случайных чисел,
генерирующий с.в. £, равномерно распределённую на отрезке [0,1].
Комплекты реализаций £

представляют собой точки равномерно распределённые в единичном
кубе. Определим теперь функцию

1,
0,
если £ Е В,
если
(8-3)
и объём В будем оценивать величиной
Sn _ Aid----hXn
~N ~~ N
где Хк — реализации с.в. (8.3), которая принимает значение 1 с веро-
ятностью р = V и — значение 0 с вероятностью 1 — V. Дисперсия X в
этом случае равна о2 = V(1 — V) и достигает максимума а2 = при
V = 1. Теорема 4.1.2 даёт вероятность ошибки
Л
( Х1 ч---+ Xn _ у 1	1
( N	£)	47Ve2 ’
(8.4)
стремящейся к нулю при N —> оо.
Таким образом, точность вычисления здесь зависит от числа ис-
пытаний 7V, причём оценка (8.4) получается вероятностной, которая
убывает обратно пропорционально N. Что касается тяжести вычис-
лений, то о ней даже неловко говорить на фоне экспоненциального
роста объёма операций по размерности п у обычных алгоритмов при-
ближённого интегрирования. В данном случае сложность вычислений
зависит от сложности проверки неравенств (8.2), каковая обычно не
стоит упоминания.
Аналогичная картина возникает при вычислении методами Монте-
Карло кратных интегралов
Q = I /(№<%„
В
8.2. Ассортимент приложений
143
Вместо с.в. (8.3) надо лишь взять
/ /(£)> если 6 В,	.
- f 0, если В,	(8-5)
Кратные интегралы в результате оказывается вычислять так же легко,
как простые.
8.2.	Ассортимент приложений
Подбрасывание монетки иногда эффективнее
детерминированного упрямства.
Случайность, как средство достижения цели, часто идёт в паре со
следующим трюком усиления вероятности. Если вычисление — осно-
ванное на использовании случайных параметров — даёт в задаче рас-
познавания верный ответ с вероятностью р > 0, то его повторение
N раз при неизменности ответа — приводит к ошибке с вероятно-
стью (1 — p)N, каковая при больших N может быть сделана сколь
угодно малой.
В эту схему укладываются многие задачи на проверку равенств, тож-
деств. Скажем, экономия4 на проверке матричного умножения5 АВ =
= С достигается простым фокусом. Генерируется случайный вектор
х = {0,1,0,1,1,..., 0},
4Числа арифметических операций.
5 Сложность детерминированного алгоритма здесь О(п3), О-большое от п3. В
данном контексте подразумевается «имеет порядок роста п3».
144
Глава 8. Метод Монте-Карло и вероятностные алгоритмы
равновероятно совпадающий с одной их вершин единичного куба, и
проверяется равенство А(Вх) = Сх, где вместо трудоёмкого пере-
множения матриц фигурирует лишь операция умножения матрицы
на вектор6. В случае АВ С при многократном повторении провер-
ки АВх = Сх с большой вероятностью рано или поздно получится
АВх ф Сх, и задача решена. Если же АВ = С, то АВх = Сх нужной
гарантии не даёт, но тут работает как раз трюк усиления вероятно-
сти7. Семь раз АВхк = Схк, — и АВ = С можно гарантировать с
вероятностью ошибки менее одного процента.
Конечно, АВ = С смотрится утилитарно невзрачно. Но вот другая
практически важная задача, которую компьютеры постоянно реша-
ют при поиске. Задача проверки совпадения или несовпадения строк,
двоичных чисел а и Ь. Вместо расточительного побитового сравнения
обычно используют экономное сравнение по модулю8 простого числа
т,
a = b (mod т).
Несколько проверок со случайно выбранными т правильно решают
задачу со сколь угодно малой вероятностью ошибки (при должном
увеличении числа проверок).
6Вычисление А(Вх) сводится к последовательному у = Вх, Ау.
7 Сложность вероятностного алгоритма здесь О(п2).
8Если числа а и Ь при делении на т дают одинаковые остатки, то говорят, что
а и b сравнимы по модулю т, и пишут а = b (mod т).
8.2. Ассортимент приложений
145
Упомянутые выше примеры указывают на вместительную нишу за-
дач, в которых стохастические инструменты бесхитростным образом
дают эффект. Незамысловатость рецептов тут на руку, ибо даёт на-
дежду на широту применения. Но есть и хитроумные примеры, в ко-
торых решаются уникальные задачи. Им трудно подражать, но они
вдохновляют. Вот иллюстрация.
Проблема выяснения простоты числа N долгое время считалась
переборной задачей9. Малая теорема Ферма для любого простого N
гарантирует равенство
aN 1 = l(modTV),
а < N.
(8.6)
Нарушение (8.6) означает, что N — составное. Но для некоторых
составных чисел10 условие (8.6) тоже выполняется, и поэтому малая
теорема Ферма — довольно уязвимая лакмусовая бумажка для разли-
чения простых и составных чисел. Однако возможна замена (8.6) не-
ким близким условием, нарушение которого хотя бы для одного а < N
гарантирует, что N — составное. Причём для любого составного N
3
подходящих чисел а < N существует не менее -(N — 1).
При случайном выборе а < N, таким образом, составное N не клас-
сифицируется как составное с вероятностью не большей 1/4, а после к
проверок — с вероятностью не большей 1/4\ После 100 проверок ве-
роятность ошибочной классификации числа N имеет порядок 1О-60.
9Теперь найден полиномиальный алгоритм, см. [2, тт. 10, 14], но это не исклю-
чает целесообразности применения вероятностных инструментов.
10 Для так называемых чисел Кармайкла.
146
Глава 8. Метод Монте-Карло и вероятностные алгоритмы
Заметим, наконец, что описанная в Предыдущем разделе идея вы-
числения объёмов и взятия интегралов за счёт привнесения в задачу
случайности — применима без всяких фокусов усиления вероятности
в гораздо более широком диапазоне ситуаций. Любая комбинаторная
задача распознавания [2, т. 10], например, в определённых условиях
может быть решена последовательным случайным генерированием ва-
риантов и их проверкой. Для этого надо лишь, чтобы множество X
всех вариантов распадалось на две соизмеримых части (с ответами
ДА и НЕТ). Беспросветная ситуация возникает, когда искомый ответ
один (или их несколько) на фоне «каких-нибудь» 1О50 всех вариан-
тов11. Такие NP-задачи [2, т. 10] часто получают специальным подбо-
ром условий. Тогда как практические задачи, классифицируемые как
NР- сложные, нередко гораздо более податливы для различных эври-
стических экономных алгоритмов. Задача РЮКЗАК [2, т. 10], вообще
говоря, NP-сложна, но на практике часто эффективно решается жад-
ным алгоритмом12 [2, т. 10], которому иногда удаётся переплюнуть
даже динамическое программирование.
Задача РЮКЗАК выглядит так. Имеется п предметов, щ гг^импсть i-
го предмета. — его объём. Надо выбрать группу предметов с максимальной
суммарной стоимостью при ограниченном суммарном объёме, т. е. решить задачу
^2	* птах,
i	*
гдет^ может принимать значение 1 или 0, т. е. «брать /не брать».
Эффективные способы точного решения задачи отсутствуют. Естественный, но
не оптимальный, алгоритм решения состоит в том, чтобы упорядочить предметы
11И тогда случайного попадания в цель можно ждать до еврейской пасхи.
12 Жадный алгоритм легко высмеивать, подсовывая ему специально подобран-
ные задачи, но в рутинных ситуациях он обычно выигрывает. Сия размытая кон-
цепция содержит философский ингредиент.
8.2. Ассортимент приложений
147
по удельной стоимости Ci = Vi/wi, а потом в порядке убывания по Ci складывать
их в трюм корабля, пока соблюдается ограничение по объёму. Легко видёть, что
такой алгоритм будет при к —> оо асимптотически оптимален, если все Wk/W —> 0.
Сказанное в равной мере относится к комбинаторным задачам оп-
тимизации. Множество X всех вариантов делится неравенствами
(с, х) а на две части, и после случайного генерирования вариан-
тов с проверкой, действительно ли существуют «обе части», — значе-
ние а увеличивается тем или иным образом, подбираясь к максимуму
критерия (с, ж) —> max.
Такой рецепт на первый взгляд легко решает все N P-задачи, но тут
есть фундаментальная преграда. Задать X и генерировать варианты
из X не всегда просто. Скажем, в задаче линейного программирования,
см. [2, т. 10],
(с, ж) —> шах,	Ах < Ь, ж О
допустимый многогранник задаётся фасетно, относительно неболь-
шим числом граней (неравенств). А множество X его вершин опреде-
ляется косвенно, трудоёмким вычислением каждой вершины. И пере-
ход от фасетного описания X к вершинному — сам по себе оказывается
труднорешемой задачей.
Ещё одна принципиальная особенность NP-задач заключена в оцен-
ке их сложности по наихудшему варианту входных данных. Соответ-
ственно, конструируемые алгоритмы ориентируются на работу в наи-
худших условиях, что заводит ситуацию в тупик. При этом для многих
148 Глава 8. Метод Монте-Карло и вероятностные алгоритмы
исходных данных такие задачи бывают легко разрешимы, что послу-
жило в последнее время основанием для перехода от нацеленности на
худший случай к анализу сложности в среднем. Вероятностная оцен-
ка сложности задачи благоприятно влияет на идеологию и практику
разработки алгоритмов13. Ярким примером практически эффектив-
ного алгоритма является симплекс-метод решения задач линейного
программирования, который, не являясь полиномиальным, удивитель-
но хорошо решает практические задачи.
8.3.	Случайность против неопределённости
8.3.1 Пусть в городе имеется п районов, Li — число жителей i-го
района, Wj — число работающих в j-м районе, Xij — число живущих
i-м районе и работающих в j-м.
Очевидно,
(L-э) У? = Li, ^^xij — Wj- (8-7)
3	i
Вычислить пассажиропотоки х^.
Для определения п2 неизвестных в системе (8.7) имеется всего 2п
уравнений. Ситуация неопределённая. Тем не менее соображения о
«случайном» характере расселения жителей позволяют решить задачу
практически однозначно.
◄ Для фиксированных значений число способов расселения равно
где N =	= 52 Wj • С учётом формулы Стирлинга In k\ ~ k In fc,
In S(X) ~ N In N — Xij In Xij.
i,j
Поэтому максимум S(X) достигается на той же матрице
X* = lx*j],
13Для ряда TVP-полных задач удалось в результате построить полиномиальные
в среднем алгоритмы.
8.3. Случайность против неопределённости
149
что и максимум функции
Н = — У^	In Xij.
г J
В ГО Же ВреМЧ ЖТЮ, ЧТО СХ ЛИ набору {^<} <rTW4™4 Макгимилннш ЧИС^Ю
если в некоторой ^-окрестности решения й*Д сосредоточены почти вег вЬзмрж*
ные споедбм расселения, то это	ЯЯве^кхятнбстьМ 'близкой;^
к 1 (и стремящейся к I при К кД Именно тикони. рассматриваемая Ситуация.
Задача
Xij In Xij	max, *&ij —	Xij —	
i,J	j	г
методом множителей Лагранжа [20] приводит к = е-1-Л<~м^, откуда ясно,
что все Xij представимы в виде произведений Xij = UiVj. Подстановка в ограниче-
ния даёт систему уравнений
У^ UjVj = Li, UjVj = Wj,
j	i
решая которую, окончательно имеем
что можно интерпретировать как наличие у районов «потенциалов притяжения»
Li Wj
и произведение которых дает пассажиропотоки х^. ►
Пониманию свойств решения x*j мог бы способствовать какой-ни-
будь вероятностный сценарий. Вот один из возможных вариантов. Каж-
дого жителя охарактеризуем распределением вероятностей Pij по п
состояниям (г, J) (жить в г-м районе, работать — в j-м). Если на при-
целе держится задача «разбросать» N жителей по этим п2 состояниям
так, чтобы в среднем (по матожиданию) было соответствие с макро-
ограничениями (8.7), то pij должны удовлетворять системе
Li	Wj
3	г
А если добавить максимум неопределённости14:
— ^2/Pij Inpij -> max,
г,J
14To есть максимум энтропии, см. главу 11.
150
Глава 8. Метод Монте-Карло и вероятностные алгоритмы
то по виду — получается та же задача, и те же окончательные фор-
мулы:
4- = М-
Но теперь Xij = Со> где случайные величины равны 1 с вероят-
ностью pij, и 0 — с вероятностью 1 — pij. Большое число слагаемых
гарантирует, в силу закона больших чисел, концентрацию почти всех
вариантов в районе матожидания x*j = Np*j с убыванием флуктуа-
ций пропорционально -^=. Другими словами, в малой е-окрестности
максимума S(X*) оказываются сосредоточены почти все возможные
способы расселения, что и требовалось для оправдания подхода.
8.4.	Распознавание образов
В задачах распознавания образов объекты так или иначе измеряются,
и характеризуются наборами параметров
? • • • >	j
каковые группируются в классы (образы), которым в Rn соответству-
ют некоторые множества точек. Допустим, есть всего два класса объ-
ектов15 и, соответственно, два множества РцРг € точек, которые
для простоты будем считать конечными. Предположим пока, что суще-
ствует плоскость, разделяющая Pi и Рг. Это означает существование
такого вектора с, что сх > 0, если х G Pi, и сх < 0, если х 6 Рг. На
рис. (8.8) дан пример в R2, точки Pi изображёны звёздочками, Рг —
кружочками.
15 Скажем, рисунки людей и бегемотов, либо всевозможные написания букв А и
В, либо отражённые радиолокационные сигналы от своих самолетов и от самолетов
противника.
8.4. Распознавание образов
151
(8-8)
В процессе обучения линейной распознающей машине предъявля-
ется бесконечная обучающая последовательность векторов
то с*4"1 = ск + хк
в которой любой объект из Р± или Р2 встречается бесконечное число
раз. Машина в качестве с принимает сначала произвольный вектор с°,
и потом меняет его следующим образом. Если с помощью ск точка хк
распознается правильно, то с*5-*-1 = ск. Если же хк е Pi, но скхк О,
. Наконец, с*5-*"1 = ск — хк , если хк Е Р2, но
скхк 0. Вопрос заключается в том, научится ли машина за конечное
число шагов безошибочно распознавать образы.
Краткий эквивалент сказанного выглядит проще. Существование разделяющей
плоскости равносильно наличию такого вектора с, что
сх > 0 для любого х Е Р = Pi р|(—Рг)-
Процедура подстройки ск:
fc-ki Г cfc,	если скхк >0;	k _	z_
сл-1-1 _ J ’	’ все х* е Р.	(8.9)
X Ск + хк, если скхк^0.	v 7
Показы хк в (8.9) в случае неправильной классификации только прибавляются к
cfc, поскольку теперь, в силу хк G Р, либо хк G Pi, либо — хк Е Pz-
◄ Покажем сходимость (8.9) за конечное число шагов. Пусть хк обозначает
сокращённую обучающую последовательность, из которой выброшены правильно
распознаваемые «показы». Тогда
cfc+1 = х1 Ч------Ь хк,	(8.10)
если для простоты положить с° = О. Умножая (8.10) на с, получаем
cfc+x • с = х1 • с + • • • -|- хк • с к0,
152
Глава 8. Метод Монте-Карло и вероятностные алгоритмы
где £ > 0 — минимальное значение х • с при условии х G Р. Отсюда, опираясь на
неравенство Коши - Буняковского, приходим к оценке
цг+ч s jljE	(вл,)
С другой стороны, возводя с^1 = с?' + в квадрат, имеем
H+1ii2 = Hii2 + iHii2 + 2c>.^,
что, в силу с7 • х3 0, даёт ||cJ_*"1||2 — Це71|2	||a?J||2. Суммируя эти неравенства
по j, приходим к
к
ikfe+1 и2 < 52 и®3 и2 fcr2 =* iicfc+1 и г А	<8 * * *-12)
j
где Г — максимум ||a?J || для х3 Е Р. Сопоставление неравенств (8.12) и (8.11)
показывает, что к не может расти неограниченно. ►
Алгоритм (8.9) описывает работу так называемого линейного пер-
септрона, решающего задачу, когда существует разделяющая плос-
кость. Но классы Pi и Р2 могут быть неразделимы, как на нижесле-
дующем рисунке.
(8.13)
В таких ситуациях сама постановка задачи видоизменяется. Настаёт
черёд вспомнить, что образы хк появляются, как правило, с разной ве-
роятностью16. Другими словами, в каждом классе Pj есть плотность
распределения образов Pj{x). И тогда, поскольку задача идеально не
решается (классы строго не разделяются), ориентироваться целесооб-
разно на минимизацию вероятности ошибки распознавания:
р1(х)0(—сх) + р2(х')0(сх)
dx —> min,
с
(8-14)
16Например, если класс Pj — это рукописные варианты написания буквы А, то
вычурные разновидности встречаются реже, стандартные — чаще.
8.5. Стохастическая аппроксимация
153
где pi, р2 —плотности распределения объектов первого и второго клас-
са, а в — функция Хевисайда, равная 1 при положительном аргументе
и 0 — при отрицательном.
Алгоритм решения (8.14) в чём-то перекликается с механизмом
персептрона. Образы хк первого класса прибавляются к cfe, второго —
вычитаются, но теперь каждый раз, независимо от того, правильно или
неправильно образ классифицируется. Плюс к тому, производится по-
степенное демпфирование шагов17.
8.5.	Стохастическая аппроксимация
На практике широко распространена оптимизация вида
Е®{<Э(с,ж)} -> min,	(8.15)
С
где усреднение идёт по ж, а минимизация — по с.
Такого сорта проблемы возникают в ситуациях, когда по случайно-
му сигналу х надо делать те или иные выводы у = Q(c, ж), настраивая
модель Q(c, ж) (вектором с) оптимально в среднем.
Например, в задаче идентификации: щи — случайные вход и вы-
ход объекта, требуется построить модель у = Q(c, и) оптимальную по
критерию минимума среднеквадратической ошибки
Е„,„{[« - Q(c,u)]2} -> min.
С
Ту же абстрактную форму имеет задача распознавания. В более
общем варианте (по сравнению с предыдущим разделом) модель у =
= Q(c, х) предсказывает, к какому классу принадлежит объект х. Ска-
жем, «у = 1», если — к первому, и «у = —1», если — ко второму.
Естественный критерий в данном случае — минимум ошибки распо-
знавания,
У {р1(ж)0{-<Э(с, ж)} 4- р2(ж)0{О(с, ж)}} dx -> mm, (8.16)
17Вместо ±®fc прибавляется/вычитается ±7fcicfc. Подробнее см. в следующем
разделе.
154
Глава 8. Метод Монте-Карло и вероятностные алгоритмы
где pi,р2 —плотности распределения объектов в Pi, Рг, а 0 — функция
Хевисайда. К подобному классу относятся также задачи фильтрации,
прогноза, минимизации рисков, потерь и т. п.
В естественных предположениях оптимальный в смысле (8.16) век-
тор с удовлетворяет уравнению
Eo.{VQ(c,»)} = О
(8-17)
которое в пределе решается процедурой стохастической аппроксима-
ции1^
ck+1 = ck + ^kVQ(ck,xk)
(8.18)
Сходимость (8.18) — по вероятности или почти наверное — к ре-
шению (8.17) обеспечивается существованием аналога «функции Ля-
пунова» V(c, ж), которая убывает на траекториях (8.18) в среднем. В
качестве V обычно годится Q. Именно поэтому в (8.17) выбран гради-
ент Q.
Осталось заметить, что коэффициенты ук > 0, регулирующие ве-
личину шагов в (8.17), обязаны удовлетворять условиям
2^7* = оо,	<ОО.
(8.19)
Первое из условий (8.19) не даёт процедуре (8.18) остановиться раньше
времени, а второе — предотвращает уход в бесконечность на малове-
роятных траекториях.
8.6.	Генераторы «случайных» чисел
8	.6.1 Теорема Вейля. Последовательность Хк равномерно распре-
делена в (0,1) в том и только том случае, когда для любой интегри-
18	Процедуры стохастической аппроксимации типа (8.18) принято называть
также процедурами Роббинса—Монро.
8.6. Генераторы «случайных» чисел
155
руемой по Риману функции f выполняется тождество:
1 п	г
lim - /(zfc) = / f(x)dx
n->oo п	J
k=l	q
8.6.2 Теорема Кронекера. Последовательность
Хк = {огА:}, к = 1,2,...
(8.20)
где а иррационально, а фигурные скобки обозначают дробную часть
числа, всюду плотна на [0,1], т. е. на любом, сколь угодно малом,
интервале (a,b) С [0,1] найдутся точки Xk € (а,Ь).
Теорема Кронекера 8.6.2 обычно формулируется иначе:
8.6.3 Для произвольного иррационального a Е R и любых
х <у всегда можно указать целые тип такие, что19
х < та — п<у.
(8-21)
◄ Считаем |гг — у\ < 1 — в противном случае хну можно сблизить,
ужесточив требование (8.21), — и (х, у) С (0,1) — иначе для близких х, у
(имеющих одинаковые целые части) условию (8.21) можно удовлетворить,
меняя п. Разобьем далее (0,1) на достаточно большое число равных по длине
интервалов A i..., A n так, чтобы какой-то интервал A j попал целиком в
промежуток (х,у). Среди {та — п} при всевозможных тип найдутся
77210 — 721 И 77220 — П2 (Т721 / ТПг),
попадающие в один и тот же интервал Afc. Поэтому20
7 = (mi — тг)о — (?21 — пг) EAi => jy ЕА3;С (х,у).	►
19Иными словами, множество та — п (m, п Е Z) плотно на вещественной прямой
при любом иррациональном а.
20 Равенство (mi — 7712)0 — (ni — пг) = 0 невозможно в силу иррациональности а
и т^п.
156
Глава 8. Метод Монте-Карло и вероятностные алгоритмы
Обращение к иррациональным числам помогает решать целочис-
ленные задачи. Здесь удобный случай для демонстрации.
8.6.4 Всегда существует квадрат целого числа, десятичная запись
которого начинается с любой наперёд заданной последовательности
цифр А ....	.
◄ Декларация 8.6.4 означает, что найдутся такие целые к яр, что
А • IO77 < к2 < (А + 1) • 10р.
После логарифмирования неравенство переходит в
lg4 < 21gfc-р < lg(A+ 1).
Полагая к = 2m, р = 2q, получаем
IgA < 2mlg2 - 2q < lg(A + 1).
Далее остаётся сослаться на теорему Кронекера. ►
Вернёмся, однако, к нашим баранам. Алгоритмическое генериро-
вание «случайных» чисел базируется на детерминированных вычис-
лительных процессах типа
= /(Л, ®fc),	(8.22)
каковые обсуждались в главе 7. Простейшая процедура (7.5),
=
вида (8.22), — порождает при А 1 последовательности х^ очень
хорошо имитирующие последовательные реализации равномерно рас-
пределённой на [0,1] случайной величины X. Определёнными черта-
ми случайного поведения обладает и последовательность (8.20), о чём
можно судить по теореме Кронекера. Однако даже в указанных про-
стейших случаях аккуратные доказательства «вероятностных» свойств
последовательностей Хк требуют серьёзных усилий. Но это самостоя-
тельная, достаточно популярная тематика, о которой вскользь лучше
не писать.
Глава 9
Марковские процессы
Стоит информации, хранящейся
«на разных полках»,
прийти в соприкосновение,
как многое проясняется.
Хорошая теория, как хороший подарок, не обязана иметь очевидной утилитар-
ной ценности. Такова доктрина марковских процессов.
9.1.	Марковские модели
Процессом Маркова называют последовательность случайных вели-
чин (векторов) Xi,... ,ХП,..., в которой «будущее» Xt>n определя-
ется только величиной Хп и не зависит от предыстории) Х±, Хп_±.
При этом подразумевается зависимость распределений с.в. Xn+i от
Хп, и речь идёт о динамике условных плотностей p(Xn_|_i|Xn). Отно-
сительно конкретных траекторий a?i,..., хп,... можно говорить, что
*В океане детерминированных систем широко распространены динамические
процессы аналогичного вида хп+1 = /(хп), в которых будущее развитие процесса
(при t > п) зависит только от хп-
158
Глава 9. Марковские процессы
Xk+i есть реализация случайной величины Х&+1, имеющей распреде-
ление p(Xk+i\Xk = х^)- Экстерьер механизма записывают при этом в
виде
Хп+1 = f(Xn)
(9-1)
или как = f(Xn,n) — в нестационарном случае.
Понятно, что (9.1) — модель, угол зрения, под которым видны неко-
торые задачи. Причём в прокрустово ложе марковских моделей укла-
дываются весьма многочисленные задачи, на которые можно смотреть
и по-другому. И не всегда ясно — как лучше.
Простейший пример цепи Маркова2
где Sn = У1Ч---\-Yn,aYn — n-й член случайной «нуль-один» последовательности
в схеме Бернулли. Очевидно,
$п+1 — Ч" Yfi,
т. е. St>n зависит лишь от St=n и не зависит от предыстории St<n-
Широкий класс марковских процессов дают процедуры адаптивной подстрой-
ки параметров вида
Cfc+1 = ^fc(cfc,Cfc),	(9.2)
где — измеряемый шумящий, а — настраиваемый параметр3.
Указанные примеры порождают двойственное чувство. С одной
стороны — облегчение, поскольку выясняется, что речь идёт о зна-
комых вещах. С другой — неясно, зачем городить огород, когда со
случайным блужданием и так можно разобраться.
2 Марковский процесс с дискретным временем и счётным пространством состо-
яний называют марковской цепью.
3Например,	в задаче обучения распознаванию образов может быть
обучающей последовательностью, а с^ вектором решающего правила (дискрими-
нантной функции).
9.2. Линейная модель
159
Это принципиальный момент. Общие схемы всегда связаны с «го-
ловной болью». Скажем, механическую задачу часто проще решить, не
переводя её в гамильтонову форму. Стандарты порождают дополни-
тельные проблемы, вынуждая тратить силы на канонизацию. В то же
время, абстрактные модели приводят разнообразные объекты в сопри-
косновение, взаимно обогащая их. Сведения о случайном блуждании
становятся полезны совсем для других содержательных задач, если те
укладываются в те же рамки марковской конструкции. И постепен-
но — развитие общей теории проливает свет на разнообразие частных
случаев. Стоит убедиться, что задача «укладывается», как начинает
работать весь арсенал уже готовых методов.
9.2.	Линейная модель
Популярна следующая линейная модель, которая в мифологическом
одеянии выглядит так. Состояния пронумерованы. Система (частица),
находясь в fc-й момент времени в J-м состоянии в (к + 1)-й момент по-
падает в г-е состояние с вероятностью Pi3, и тогда при распределении
частицы по состояниям с вероятностями pj в следующий момент по-
лучается распределение
или в векторном виде pk+1 = Fpk, где Р = [Р^] называют матрицей
переходных вероятностей Р^.
Модель (9.2) помещается в рамки данной схемы, если пространство переменных
Ск разбить на клетки (состояния) и на базе (9.2) вычислить переходные вероятно-
сти.
Помимо описанной интерпретации (частица, «пребывающая» в j-м состоянии
с вероятностью р^) речь может идти о множестве большого числа частиц. Дина-
мика каждой — определяется той же матрицей переходных вероятностей F, а р*
обозначает долю частиц, находящихся в j-м состоянии в к-й момент.
Данную модель (в которой матрица Р не зависит от к) называют
еще однородной цепью Маркова.
160
Глава 9. Марковские процессы
Понятно, что
рк+т _ рШрк
„ к
т. е. динамика распределений р определяется итерациями матрицы
Р. При этом, очевидно, Рп~^т = р^рт^ что называют уравнением
Колмогорова— Чепмена.
Стационарные распределения р* оказываются собственными век-
торами матрицы Р,
р* = Рр*,
а сходимость рк -> р* — одним из центральных вопросов.
В теории марковских процессов большое внимание уделяется классификации
состояний. Состояние Xi называют достижимым из xj-, если Р£. > 0 при некото-
ром к > 0, т. е. существует ненулевая вероятность через некоторое время из j-ro
состояния попасть в г-е. Состояния, достижимые друг из друга, называют сооб-
щающимися. Если х достижимо из ?/, но не наоборот, то состояние у называют
несущественным. Множество всех существенных состояний разбивается на непе-
ресекающиеся классы сообщающихся состояний. Если такой класс всего один, —
система называется неразложимой. Состояние xi называют возвратным, если ве-
роятность возвращения в Xi равна 1. Наконец, Xi считается периодическим, если
наибольший общий делитель (период состояния) чисел к, для которых Р£ >0, —
равен d > 1.
Положительная матрица Р 0 с единичными столбцовыми сум-
мами, 52 Pij — 1? называется стохастической.
i
Легко видёть, чтобы итерационная процедура (9.3) на каждом сле-
дующем шаге порождала нормированное распределение, 52p^+1 = 1,
i
необходимо как раз 52 Pij — 1 Д™ всех j.
i
Если иметь в виду системы с конечным числом состояний, то стохастические
матрицы изучаются в линейной алгебре, и там, кстати, многие результаты в подхо-
дящем контексте воспринимаются достаточно легко и просто. Затевать сыр-бор в
9.2. Линейная модель
161
рамках ТВ вряд ли имеет смысл, проще отослать к [21]. Здесь ограничимся пере-
числением стержневых результатов с привязкой к вероятностной интерпретации.
•	Собственный вектор р* 0, отвечающий собственному значению А = 1 у
стохастической матрицы существует всегда, т. е. всегда существует стационарное
распределение р* = Рр*.
•	Если матрица Р строго положительна (все Pij > 0) или же Рк > 0 при не-
котором fc, то все стационарные вероятности р* > 0, причём итерации рк сходятся
к р* > 0, а итерации Рк —> Роо, где у Роо все столбцы одинаковы и равны р*.
Процесс в этом случае эргодический.
•	Условие «Рк > 0 при некотором к» необходимо и достаточно для примитив-
ности стохастической матрицы, т. е. для того, чтобы спектр Р, за исключением
ведущего собственного значения А = 1, лежал строго внутри единичного круга.
Примитивность Р означает отсутствие периодических состояний. В случае им-
примитивной4 матрицы Р предел рк может не существовать. Но предел имеют
средневзвешенные суммы,
«ь	1 N
jp lim — Vpfc = Poo.
*''*1	N-too N
fc=l
Неразложимость. Матрица P называется разложимой (неразложимой), ес-
ли одинаковой перестановкой строк и столбцов она приводится (не приводится) к
виду
[Ри Р121
L 0 P22J ’
где Рц и Р22 квадратные матрицы.
Иными словами, Р неразложима, если не существует такого подмножества ин-
дексов J, что Pik = 0 для всех i Е J, к J.
Система уравнений Рх = х с разложимой матрицей, по сути, имеет вид
Р11Х1 +Р12Х2 = Х1,
Р22Х2 = х2.
т. е.
Наличие автономной подсистемы Р22Х2 = Х2, которую можно решать незави-
симо, — характеристическое свойство разложимой матрицы.
4 Не примитивной.
162
Глава 9. Марковские процессы
Неразложимость Р равносильна либо неравенству (I 4- Р)п-1 > 0, либо суще-
ствованию для любой пары индексов г, j такого fc, что Р^ > 0, где Р^ обозначает
(ij)-fi элемент матрицы Рк. Но отсюда не вытекает существование к, при котором
Рк > 0. Если же главная диагональ неразложимой матрицы Р строго положитель-
на, то Рп~1 > 0.
9.2.1 Если матрица Р неразложима, то Х(Р) = 1 является ведущим собствен-
ным значением Р алгебраической кратности 1, которому отвечает строго по-
ложительный собственный вектор. Других положительных собственных зна-
чений и векторов у Р нет5.
9.3. Процессы с непрерывным временем
Марковские процессы с дискретным временем имеют свой круг при-
ложений, но гораздо более типичны системы, в которых переход из
состояния в состояние происходит в случайные моменты времени (по-
ступления заявки, поломки прибора).
Ситуация во многом аналогична предыдущей. Система, находясь
в нулевой момент времени в J-м состоянии в момент At попадает в
г-е состояние с вероятностью FZJ(At), и тогда при начальном распре-
делении системы по состояниям с вероятностями pj(O) в следующий
момент получается распределение
7^	Р<(Д*) = 22ръ(Д4)Р,(О),	(9.4)
3
или в векторном виде p(At) = P(At)p(0), а уравнение Колмогорова-
Чепмена переходит в6
Pij(t + s) = 52 PikЮркз(8)>
k
что является элементарным следствием формулы полной вероятности.
Выбор фиксированного шага t = пД сразу возвращает ситуацию в прежнее
русло (с дискретным временем).
5 Но Р может иметь другие собственные значения на единичной окружности —
со всеми вытекающими отсюда «неприятностями».
6 Речь идёт о стационарном случае, в котором вероятности не меняются при
изменении точки отсчета.
9.3. Процессы с непрерывным временем
163
Переходы системы из состояния в состояние удобно мыслить про-
исходящими под воздействием потоков событий (отказов, заявок, вос-
становлений, запросов, регистраций). Пусть, например, Xij обозначает
интенсивность пуассоновского потока, под воздействием которого си-
стема переходит из J-ro состояния в г-е с вероятностью At+o(At) за
время At. При этом часто модель сопровождается графом состояний,
рис. (9.5), на котором ориентированные дуги между узлами событий
отвечают возможным переходам.
Вероятность pi(t + At) складывается из двух частей: 52 Pk(t)^ik&t — вероят-
k^i
ности того, что за время At система придёт в г-е состояние из других состояний, и
вероятности pi(t) < 1 — 52 A^^At > — того, что система не уйдет из г-го состояния,
( k^i J
т. е.
Pi(t + At) = ^2pfc(t)AifcAt + pi(t) < 1 - AfciAt > + o(At) (9.6)
k^i	kj^i J
Если положить
=	^kii
k^i
to (9.6) — после переноса pi (t) влево, деления на At и предельного перехода At —> 0 —
приводит к уравнениям Колмогорова
Pi(i) =^2*ikPk(t), i =
к
Уравнения Колмогорова в первую очередь используются для опре-
деления стационарных решений, для чего приравниваются нулю праг-
вые части. Посмотрим, как это делается на примере популярной мо-
дели процесса рождения и гибели. Соответствующий граф состояний
164
Глава 9. Марковские процессы
вытянут в цепочку, рис. (9.7). Потоки рождений, переводящие систему
из г-го состояния в (г + 1)-е, имеют интенсивности Аг,г-ы, а процессы
гибели, связанные с переходами i + 1 => г, — интенсивности
В массовом обслуживании рождению сопоставляется обычно приход
заявки (клиента) в систему, гибели — уход обслуженного клиента из
системы. В случае радиоактивного распада речь может идти о ней-
тронах. Генетические модели терминологических пояснений даже не
требуют.
(9-7)
Несложные выкладки показывают, что стационарное решение опреде-
ляется вероятностями:
* * * А12А01	j 1	/п оЧ
Рк = \----------V—Г—Ро,	k = 1,..., п,	(9.8)
Afc,fc-i • • • Л21А10
_ A	Aqi	An-i>n - • • А12А01 \
\	А10	Ап,п-1 • • • А21А10/
Обычно в теории массового обслуживания клиенты в систему по-
ступают с интенсивностью А, т. е. все А^^+1 = А, но приём заявок
прекращается при переполнении системы, Afc^+i = 0 при к а. Об-
служенные клиенты покидают систему с интенсивностью /1, т. е. все
Afc,fc-i = ц.
а.
Тогда (9.8) при условии нормировки ^2рь = 1 даёт
о
(i-p)pfc
1 - pa+1 ’
Рк =
к < а.
Системы массового обслуживания (СМО), вообще говоря,
заслуживают отдельного разговора, ибо представляют собой обшир-
ную область, но мы в данном контексте ограничимся лишь одним важ-
ным замечанием. В целом теория СМО развивается по аналогии со ста-
тистической физикой. В фокусе внимания находятся макропараметры
9.4. О практических задачах
165
типа средней длины очереди или среднего времени обслуживания, —
зависящие от архитектуры системы и микроскопической организации
её работы, касающейся, в основном, выбора дисциплины обслуживав
ния заявок.
Ориентация на статистические методы здесь естественна и эффек-
тивна. Несколько странно лишь отсутствие «термодинамического про-
тивовеса», который в физических приложениях играет полезную роль,
смещая фокус внимания в иную плоскость. Поэтому было бы разумно
ожидать развития «термодинамики СМО», что изменило бы акценты
и расширило охват задач. Большой процент приложений из преды-
дущего раздела, например, вполне бы мог быть отнесен к СМО, —
разумеется, при направлении мысли в другое русло.
Тормозом на этом пути, безусловно, является большое разнообра-
зие описаний СМО на микроуровне. В физике — легче. Уравнения
Гамильтона или Шредингера — в некотором роде исчерпывают вари-
анты микроповедения изучаемых систем. А в массовом обслуживании
каждый новый диссертант придумывает свою дисциплину обслужи-
вания, не считая мелких «винтиков», — и все приходится начинать
сначала. Понятно, что в такой ситуации до «термодинамики» руки не
доходят. За редкими исключениями.
9.4. О практических задачах
Иллюстрации теории марковских цепей простейшими примерами ти-
па бросания монеты укрепляют мнение большинства о бесполезности
предлагаемых моделей. Сложными примерами, с другой стороны, ма-
ло кто интересуется. В результате марковские процессы попадают в
нишу обширных, но скучных теорий. С этим, однако, ничего не надо
делать, потому что такова реальность. Закономерная скука возника-
ет из-за приведения всех задач к одной схеме. Возможностей для за-
блуждений почти не остаётся, а рутина деталей, когда «в принципе»
все ясно, — не воодушевляет.
Парадоксальный момент при этом заключается в том, что пробле-
матика ТВ наполовину укладывается в теорию марковских процессов.
166
Глава 9. Марковские процессы
Разумеется, способ изложения случайного блуждания — дело вкуса и
доброй воли, но ряд областей типа массового обслуживания без идео-
логии марковости много теряют.
Плюс к этому, есть масса совсем простых задач — абсолютно гро-
бовых до тех пор, пока не приходит мысль использовать схему pk+1 =
= Ppk. Представим, например, что игра в «орлянку» происходит на
четырех монетах, каждая из которых выпадает гербом со своей ве-
роятностью pk, а какая монета бросается следующей — определяется
какой-нибудь схемой, типа изображенной на рис. (9.5), в зависимости
от выигрыша или проигрыша в текущей партии. Решение сопутствую-
щих вероятностных вопросов здесь практически невозможно без опо-
ры на pk+1 = Ppk.
Конечно, такая задача представляется надуманной. Но, скажем, в
генетике есть масса проблем, которые почти без усилий ложатся в го-
товые марковские схемы. Например, динамика популяций по группам
крови. Здесь в принципе все настолько прозрачно, что грубые моде-
ли даже не требуют особых пояснений, ложась в рамки pk+1 = Ppk.
Беда заключается в другом. Для серьезных продвижений не хватает
«смычки». Математик не идёт дальше иллюстраций, не будучи готов
посвятить часть своей жизни копанию в биологических тонкостях. А
биолог ограничивается карикуртными моделями, потому что не хва-
тает математической квалификации.
Глава 10
Случайные процессы
Шёл себе в баню.
По дороге засмотрелся, познакомился, женился.
Так в баню и не попал.
10.1.	Случайные функции и их свойства
10.1.1 Случайной функцией (с.ф.) называется
функция X(t)f которая при любом значении аргумен-
таЧ является случайной величиной.
С учётом определения случайной величины дефиниция 10.1.1 мо-
жет быть переписана в эквивалентной форме:
10.1.2 Случайной функцией называют функцию двух переменных1 2 X(t,u>),
где uj точка вероятностного пространства Q, на котором задана та или иная
1 Далее предполагается, что t — время, но, в принципе, t может быть содержа-
тельно и другим параметром, в том числе многомерным.
2Что не мешает вместо X(t,cj) писать X(t), опуская подразумеваемую зависи-
мость от ш.
168
Глава 10. Случайные процессы
вероятностная мера. Зависимость от случая реализуется при этом каждый
раз наступлением исхода ujq 6 Q, при котором фактическое течение процесса
описывается траекторией Х(£,а>о), которую называют также реализацией
процесса или выборочной функцией.
Очень важно тут не заморачиваться с каким-либо замысловатым
пространством Q элементарных событий. При рассмотрении случай-
ных величин, в том числе векторных, за элементарные события
и: естественно принимать сами значения X, см. раздел 2.3.
Т. е. П — это множество числовых значений Х(Г), каковые при же-
лании можно обозначать как ио или малой буквой х, или как-нибудь
ещё.
Примером с.ф. может служить количество радиоактивных частиц
X(t), регистрируемых счётчиком Гейгера за время [0, £]. Массу приме-
ров дают пуассоновские процессы, возникающие в моделях массового
обслуживания (образования очередей). Там часто главное внимание
уделяется моментам времени t, когда изменяется длина очереди X(t),
а не самим значениям X(f).
Функцию X(t,w) = acos(27ri4 + <£), где си = {а, и, </?}, можно рассматривать как
с.ф. Такая модель, конечно, узка — все реализации (траектории) гармонические.
Но вот
где точку вероятностного пространства и 6 Q определяют последовательности
{a*;, bfc}, включает в рассмотрение все интегрируемые на [—I, I] функции, — и оста-
ётся задать вероятностную меру на Q.
Плотность р(х,Г) случайной функции X(t) определяет распределе-
ние значений X(t) в момент t. Разумеется, более полной характеристи-
кой процесса является двумерная плотность р(а?1,Ш2,й,^2), определя-
ющая распределение значений
в разные моменты времени. Понятно, что ещё более полную характе-
ристику дают m-мерные плотности.
10.1. Случайные функции и их свойства
169
Для случайных функций естественным образом определяются ма-
тожидание
оо
mx(t) = Е{Х(£)} = У xp(x,t)dx
—оо
и корреляционная функция3
Rxx(t,s) = Е {[%(£) - mx(£)][X(s) -	($)]},
которая при t = s превращается в дисперсию
Dx(t) = Rxx{t,t) — E{[X(t) - m^f)]2}.
Если характеристики случайного процесса X(t) не меняются при
сдвиге по оси времени, то такой процесс называется стационарным.
Уточнять сказанное можно различным образом. Требуя, например,
независимость от сдвига по оси времени n-мерной плотности распре-
деления
р(з71, . . • , Tn, ti, . . . , tn).
В этом случае с.ф. называют стационарной в узком смысле.
Менее жёсткий вариант: независимость от сдвига по оси времени
условного матожидания и корреляционной функции. В этом случае
с.ф. X(t) называют стационарной в широком смысле.
В том и другом случае, как легко видёть, матожидание
Е {%(£)} = тх — const,
а корреляция Rxx(t.> s) зависит только от разности t — я, т. е.
Rxx(ty = Rxx(t — s) = Rxxiy).
Соответственно,
Dx(t) = Rxx(t — t) = Яхх(О).
3См. раздел 2.7 по поводу терминологии «ковариация <=> корреляция».
170
Глава 10. Случайные процессы
Какого рода стационарность подразумевается обычно ясно из контекста, — и
это позволяет обходиться без оговорок.
Для случайного сигнала sc(t), который переключается между двумя значени-
ями А и -А в случайные моменты при среднем числе переключений в единицу
времени jz, — корреляционной функцией является Rx(r) = А2 е~^т\.
^г. ч	/ птгг ,	.
Л (£) = } I an cos —---1- bn sm ——
\	I	I
П=1 х
где случайные величины an, Ьп не коррелированы и
Е {ап} = Е {6П} = 0, D {an} = D {Ьп} = а2,
определяется равенством
Яхх(s,t) = ^2 cos —^-j —  ((t-)
n=l
• Пусть X(t) имеет нулевое среднее, принимает значения ±1, число перемен
знака подчиняется закону Пуассона с постоянной Л. Тогда
RXI(s,t) = е-2А(‘-).
10.2.	Эргодичность
Под эргодичностью X (2) обычно понимают равенство среднего значе-
ния X по ансамблю (по фазовым переменным) и — среднего по време-
ни. Для стационарного процесса это означает
(Ю.2)
10.2. Эргодичность
171
здесь to — произвольный момент времени, а
тпх =
о
где р(х) — мера на Q.
Следовательно, в данном случае для определения среднего (X) =
= Е (X) достаточно проследить за одной лишь траекторией4, органи-
зуя статистический замер.
Таким образом, в варианте (10.2) речь идёт о среднеквадратиче-
ской сходимости
to+T1
1 У X(t)dt тх
to
при Т —> оо.
Понятно, что такого сорта сходимость представляет собой непрерыв-
ный аналог закона больших чисел.
Об эргодичности можно говорить по отношению к любой функ-
ции Y(f) = <р\Х(t)] либо y(ti,..., tn) = ^[X(ti),... ,X(tn)]. В частно-
сти, — по отношению к корреляционной функции, отталкиваясь от
с.ф.
Y(t, s) = [X (t) - тх\ [X(s) - тх\.
Эргодическое свойство позволяет экспериментально определять ма-
тожидание любой стационарной функции Y(f) = </?[X(t)] не по мно-
жеству реализаций, а по данным одной реализации на достаточно
большом промежутке времени Т:
to~t~T
j Y(t)dt.
to
4 Вообще говоря, следить надо за типичной траекторией. На нетипичных, — мно-
жество которых имеет меру нуль, возможны сюрпризы.
172
Глава 10. Случайные процессы
Разумеется, эргодичность «даром не даётся». Требуются те или иные предполо-
жения. В простейших постановках задачи результат достигается довольно просто.
Например,
t0+T t0+T
J J RXx(t — s)dtds.
to to
Поэтому эргодичность стационарной функции по отношению к матожиданию обес-
печивает условие
to+T1 to+T1
1Ит> f f Rxx(t — s)dtds = 0,	(10.3)
to tQ
которое несложными преобразованиями (см. ниже) сводится к
Т
(U) д ? / 0 ~ RixMdT=°-	<10-4)
о
◄ Переход от (10.3) к (10.4) осуществляется заменой т = t — s,
to+T to-^-T
J J Rxx(t — s)dtds =
to to
£
Обозначая далее т/(£) = J RXx(r)dr и интегрируя по частям, получаем
о
t0+T
/ = {пОо +Т - s) - 7](to - s)}s|*°+T + У {-Rxx(to + т - s) - ЯхДй) - s)}sds.
to
Окончательно,
т
I = 2 J (Т — r)Rxx(r)dr. ►
О
• Эргодичность с.ф. по отношению к корреляционной функции обеспечивается
условием
т
7 / 0 “	- r)]d<7 = 0
о
при любом г, а эргодичность по отношению к дисперсии — условием
тТоо f / 0 “ f= °’ (Р^)
О
10.3. Случайные процессы
173
10.3.	Случайные процессы
Случайные функции могут задаваться директивно, формульно, как в
случае (10.1), но чаще всего — с помощью случайных процессов, слу-
жащих механизмами порождения с.ф. — марковские процессы, сто-
хастические дифференциальные уравнения5.
Не вдаваясь в подробности, ограничимся двумя примерами. Рас-
смотрим сначала итерационный процесс на интервале (0,1)
Xk+i = {Axfc}, А > 1,
(10.5)
где фигурные скобки обозначают дробную часть числа6. Это частный
случай итерационного процесса
— Uxk
(10.6)
в области Q, которую оператор U отображает в себя. В данном (10.5)
случае Q = (0,1), а действие U на точки х € Q определяется как
Ux = {Ах} (или Uw = {Au;}, из е Q, если кому угодно.).
Относительно конкретных траекторий Xi,..., х&,... можно гово-
рить, что Xk — это реализации случайных величин принимающих
значения в Q, в данном случае в (0,1), имеющих распределение р(Х&),
и порождаемых процессом
хк+1 = ихк
(Ю.7)
с оператором Ux = {Ах}. На (10.7) можно смотреть как на ансамбль
траекторий (10.6), xi(xq), ..., х&(хо),..., индексируемых параметром
xq g
Другой пример базируется на рассмотрении траекторий динамиче-
ской системы в непрерывном времени
х = F(x)
(10.8)
5Аналогично тому, как обычные траектории x(t) возникают в результате реше-
ния дифф-уравнений.
6При достаточно больших Л числа порождаемые (10.5), оказываются равно-
мерно распределёнными на (0,1), но мы пока о другом.
174
Глава 10. Случайные процессы
Стандартной иллюстрацией здесь может служить любая гамильтонова
система
(10.9)
В том и другом случае можно говорить об операторе сдвига Ut по
траекториям (10.8) или (10.9), определяющем движение
x(t) = UtxQ либо {g(t),p(t)} = ?Л{д(0),р(0)}.
Далее по схеме раскрутки (10.5) приходим к процессу
Xt = UtXQ,	(10.10)
порождающему случайную функцию Xt.
Мотором обоих процессов (10.5), (10.10) служит оператор U (или
семейство операторов Ut), действующий (действующие) в фазовом про-
странстве П. Роль этих операторов сводится к преобразованию Q, ме-
няющему плотность распределения точек в Q. Тем самым на каждом
шаге (10.7) либо с течением непрерывного времени в случае (10.10) —-
меняются плотности распределения с.ф. Хк, Xt, принимающих значе-
ния в Q. И это довольно общая картина, часто возникающая на прак-
тике. При этом особое место занимают ситуации, в которых операторы
U, Ut, как говорят, сохраняют меру (см. следующий раздел). Типич-
ный случай — гамильтоновы системы, в которых операторы сдвига Ut,
по теореме Лиубилля, сохраняют фазовый объём7.
10.4.	Эргодичность и перемешивание
Инструменты должны соответствовать решаемым задачам. Поэтому,
что касается критериев эргодичности, танцевать надо не от корреляци-
онных функций8 в сюжетах типа (10.4), а от преобразующих фазовое
пространство операторов U : Q —> Q, если таковые заданы и порожда-
ют случайные функции.
7Для любой области Qq С Q объём Qq равен объёму Ut&o.
8 Которые, как правило, неизвестны.
10.4. Эргодичность и перемешивание
175
10.4.1 Определение. Множество А С Q' назовём инвариантным
относительно преобразования U : Q Q, если и~гА = А. В случае
обратимого U это эквивалентно требованию UА = А.
10.4.2 Определение. В случае P^U^A) = Р(А) для любого9 А С Я
оператор U называют сохраняющим меру преобразованием. При об-
ратимости U это равносильно Р(1М) = Р(А).
В сюжетах, развивающихся под действием сохраняющих меру пре-
образований U, эргодичность приобретает новые краски, но по сути
остаётся тем же свойством типа (10.2). Дабы не замусорить игровое
поле вариациями определений, ограничимся далее процессами (10.7) в
дискретном времени.
Эргодичность процесса (10.7) заключается в «правильном» за-
полнении О траекториями
Ux. U2x....}.	(10.11)
т. е. траектории почти всех точек х воспроизводят Q, попадая в любое
наперёд заданное множество Ас Я с асимптотически «правильной»
частотой Р(А):
где #д(г) = Р(з), если z € Л, и 0А(г) 0 в противном случае,
При этом ключевая особенность (10.12) эргодического процесса вы-
текает из отсутствия у него нетривиальных инвариантных множеств —
имеющих ненулевую меру, не равную мере всего Q. Это может служить
удобным критерием эргодичности или даже — определением (после
перестановки мебели).
9 Мы здесь сильно грешим против истины, хотя и специально, чтобы не выво-
дить изложение на другую территорию. На самом деле не «для любого А С П»,
а для любого А С Q из ст-алгебры, на которой задаётся мера (вероятность Р).
Потому что некоторые А С Q могут быть неизмеримы. Сюда, к тому же, надо
добавить требование измеримости U. Короче говоря, если действовать аккурат-
но, то всё делать надо в рамках колмогоровской аксиоматики, см. раздел 1.14. Но
если смотреть оптимально прищурившись, то ст-прибамбасы можно не замечать,
приберегая силы для следующего витка изучения ТВ.
176
Глава 10. Случайные процессы
До изучения сохраняющих меру преобразований U общего вида полезно
поиграться с примерами и частными случаями, дабы ощутить, с чем мы
имеем дело. Вот несколько задач для размышления.
•	П конечное множество u V - взаимно однозначное отоб-
ражение, то все траектории (1М1) ииклнчны1^. т. е. для Любой точки
rr € Q существует -такое к} что Ukx = х, а при некотором п отображе-
ние У” тождественно. Л|
•	Пусть О конечное множество мощности У и V - взаимно
позначное отображение. Тогда Q предел твллет собой совокупность Ор-
бит1 •,
{,. , U~ * X, U~~[ х. х, Uxr I,
Каждая орбита инвариантна относительно У , а любое инвариантное
относительно У множество предстпв.^ет собой некоторую совокуп-
ность орбит. Наконец, если в 0> нет инвариантных множеств строго
млнтних N по мощности, то в SI существует, всего одна орбита, кото-
рая исчерпывает все О. , )
•	Уусть О единичная окружность, a U ев поворот на уголг
не равный ни при каком целом п. Тогда процесс (10 7) ^тгодичет
(?-)
Существенно более полезным свойством по сравнению с эргодич-
ностью является перемешивание. Сохраняющее меру преобразование
U : Q —> Q называется перемешивающим, если
lim P(Q0 П U~ne) = P(Q0)P(e)	(10.13)
n—>oo	' '
справедливо для любой пары множеств12 Qo> © С О. В случае обрати-
мого U условие (10.13) эквивалентно
lim P(Q0 A UnQ) = P(fio)P(0),	(Ю.14)
n—>OQ	1 1
10	И наоборот, если — цикличны, то U взаимно однозначно.
11	Траекторий (10.6), приходящих по времени из —оо и уходящих в +оо.
12	Опять-таки игнорируя ст-прибамбасы.
10.5. Спектральная плотность
177
что означает такое размазывание любой области 8 С Q в результате
преобразования Un, см. рис. (10.16) что
р(с/пе | п0) p(t/ne)
(10.15)
при 71 —> ОО.
Если U имеет инвариантное множество 0, то, положив в (10.13)
По = 0, имеем Р(0 Q 0) = Р(0)Р(0), откуда следует, что Р(0) равно
0 или 1, т. е. у преобразования U не существует нетривиальных ин-
вариантных множеств — имеющих ненулевую меру, не равную мере
всего П. Это означает, что перемешивание влечет за собой эрго-
дичность.
10.5. Спектральная плотность
Преобразование Фурье корреляционной функции стационарного про-
цесса13,
называют спектральной плотностью сигнала X(t).
Предположим, что X(t) является стационарной с.ф., эргодичной
по отношению к своей корреляционной функции. Тогда
Я(А)= lim Е{ЯТ(А)}
(10.17)
13 Нижний индекс хх далее опущен.
178
Глава 10. Случайные процессы
где
Т/2
RTW = ^~ [ RT(r)e-iXTdr,
Z7T J
-Т/2
Т/2
Ят(т) = J [X(s) - mx][X(s + т) - mx]ds.
-Т/2
Предельное соотношение (10.17) справедливо в силу предполагаемой эргодич-
ности:
lim Е{[Ят(т) - Л(т)]2} = 0.
Перезапись RT (Л) в виде
Т/2 ( Т/2	'j
Ят(А) = -1- [If [X(s)-TnI][X(t)-mI]eiAsdsle-<A‘dt =
2тгТ J I J
-Т/2 \-Т/2	J
Т/2	Т/2
= — [ [X(s) - mx]eiXads [ [X(t) - mx]e~iXtdt
2тгТ J	J
—T/2	—T/2
указывает на справедливость следующего принципиального соотношения:
2тг
Я(А)= Um —Е{|АТ(А)|2}	,	(10.18)
1 -400 _£
где Ду (А) — преобразование Фурье сигнала Ат(^) = Xr(t) — совпадающего с
ч	Г Т Т1
X(t) — mx на промежутке t Е----, — и равного нулю вне этого промежутка.
Важная роль соотношения (10.18) заключается в фиксации взаимо-
связи спектра корреляционной функции со спектром самого сигнала
X(t).
Простейшие свойства спектральной плотности. Из чётности
оо
Rxx(r) вытекает J Rxx(t) sin Ardr = 0. Поэтому
—оо
Rxx(X) —
оо
cos Ardr.
Вещественность и положительность Rxx (А) вытекают из (10.18).
10.6. Белый шум
179
Широкое распространение в теории распространения волн находит
очевидное в данном контексте энергетическое соотношение:
DXX —	— Rxxffl') — I Rxx(A}dA
—оо
увязывающее среднюю мощность случайного сигнала с его спектраль-
ной плотностью.
Пример. Корреляционная функция Rxx(r) =	имеет спектральную
плотность
10.6.	Белый шум
Стационарный случайный сигнал X (t) с постоянной спектральной плот-
ностью
RxxW = G
во всем диапазоне частот от нуля до бесконечности, — называют белым
шумом.
Обратное преобразование Фурье приводит в этом случае к дельта-
образной корреляционной функции
Rxx(t) = G / eiXTdX = 2ttG<5(t).
—ОО
Таким образом, корреляционная функция белого шума Rxx(r) = 0 при любом
т О, т. е. значения сигнала в различные моменты времени X(t) и Х(£+т) — всегда
некоррелированы. Разумеется, это идеализация. О внутренней противоречивости
понятия белого шума свидётельствует также бесконечность дисперсии:
= 2G I dX = оо.

Но противоречия здесь, вообще говоря, не страшнее несоизмеримости диаго-
нали квадрата со стороной. Необходимо, конечно, принятие мер, связанных с пре-
одолением достаточно серьезных препятствий, — однако бросать все и заниматься
сообща проблемой обоснования вовсе необязательно.
180
Глава 10. Случайные процессы
Это извечная проблема. Не только в математике, но и в жизни. Как ид-
ти своим путём, чтобы не отвлекаться, и нисколько все же поглядывать по
сторонам, чтобы не потерять гибкость и поддерживать гармонию? В мате-
матике, правда, черно-белые оттенки этой дилеммы гораздо острее и проще.
В любой точке пути — развилка. Обосновывать или идти дальше? Соответ-
ственно, две группы исследователей со своими симпатиями и антипатиями.
Они обычно друг над другом подтрунивают, не желая согласиться, что нужно
и то и другое, — хотя у каждого есть резон бежать за своим зайцем.
10.7.	Броуновское движение
Случайная функция X (t) называется процессом с независимыми при-
ращениями, если для любых to < t\ < • • • < tn случайные величины
X(ti) — X(to),... X(tn) — X(tn-i) независимы.
Процесс считается однородным, если распределение
X(t)-X(s)
определяется только разностью t — s.
Однородный процесс X(t) с независимыми приращениями назы-
вают броуновским движением, или винеровским процессом, если все
X(tk) — X(tk-i) распределены нормально14 со средним 0 и дисперсией
\tk —
Описание Эйнштейном броуновского движения опиралось на естественные фи-
зические соображения. Если X(t) — координата броуновской частицы в момент
времени t, то смещение X(t) — Х(0) (для определенности Х(0) = 0) представляет
собой сумму большого числа «мелких» независимых слагаемых
X(t) = £[X(tfc) - X(tfc-1)],
k
и центральная предельная теорема дает основания рассчитывать на нормальное
распределение X(t).
Плотность распределения частиц р(х, t) при этом подчиняется уравнению
р(х, t + т) = У р(х - у, t)v(r, y)dy,
(10.19)
где v(r, у) обозначает долю частиц, переместившихся из х в х + у за время т.
14Предполагается также Х(0, си) = 0 почти для всех си.
10.7. Броуновское движение
181
Разложение (10.19),
оо
р(х, t) 4- rpt(x, t) + о(т) = J t) - урх(х, t) + ±y2Pxx(z, t) + ... } v(r, y)dy,
— oo
в предположении симметрии v(r, у) по у и пропорциональности дисперсии времени
оо
J y2v(r, y)dy = 2Dr
— оо
приводит к уравнению диффузии:
др_ п^Р_
dt ~ дх2
(10.20)
решением которого при условии р(х, 0) = 6(х — у) является
p(x,t) = —e-(*-sO2/4Dt.
’ 4nDt
Винеровский процесс занимает в теории случайных функций цен-
тральное место по целому ряду причин. В первую очередь потому, что
в предположениях
Х(0) = 0, Е {X(t)} = 0, D {X(t) - X(s)} = t - s
это единственный непрерывный с вероятностью 1 процесс с независи-
мыми приращениями.
Кроме того, винеровский процесс есть марковский процесс с пере-
ходной плотностью, удовлетворяющей уравнению диффузии (10.20).
Ещё винеровский процесс эквивалентно определяется как гауссовский
процесс с нулевым матожиданием и корреляционной функцией
R(t, s) = a2 min(t, з).
• Если rt обозначает время в промежутке [0, t], проводимое броуновской части-
цей на положительной полуоси, то, как обнаружил П. Леви,
Р{л < xt} = — arcsin \/ж, (VL3
что называют распределением арксинуса. См. также раздел 6.2.
182
Глава 10. Случайные процессы
10.8.	Дифференцирование
и интегрирование
Из-за недифференцируемости винеровского процесса обычный аппа-
рат математического анализа в теории случайных функций служит
лишь ориентиром. Соответствующие инструменты для изучения сто-
хастических дифференциальных уравнений строятся на базе понятия
стохастического интеграла [13]. На понятийном уровне, однако, из-
ложение вполне можно вести с помощью классических понятий инте-
грала и производной, убавляя замах дифференцирования случайной
функции X(t),
И*) =*'(*),
до дифференцирования моментов. Например,
rx(t + А) - X(t)\ E{X(t + A)}-E{X(t)}
I------A------J =----------A---------
в комбинации с предельным переходом при Д -» О даёт
fdX(O) _ dE {%(<)}
\ dt ) dt 1
что сводит «туманное» Е
dE {%(*)}
dt
( dX(t) 1
[ dt J
к понятному в пределах классики
Формула для вычисления корреляционной функции производной
У (i) = %'(*),
(10.21)
получается предельным переходом почти так же просто.
В случае стационарного процесса из (10.21) сразу следует
10.8. Дифференцирование и интегрирование
183
Легко видеть, что спектральная плотность производной сигнала
Y(t) = X'(f) равна
Ryy(Xj — Л? Rxx(X)
В случае интегрирования
т
Y(t) = У g(s,t)X(s)ds,
О
где функцию g(s,t) называют ядром интегрального оператора15, ха-
рактеристики Y(£) определяются по формулам:
т
Е{У(*)} = f g(s,t)E{X(s)}ds,
о
Ryy(t,s) = У У g(a,t)g(r,s)Rxx(a,r)ds.
о о
У пражнения
•	Пусть У(4) = a(t)X(t) +	Тогда
/ij/yCsjt) = a(t)a(s)RXx(s, t) + a(t)/3(s)	_|_
os
+ (?)
•	Если случайный сигнал X(t) имеет корреляционную функцию
Rxx(s,t) =
то корреляционная функция интеграла Y(t) = fg X(s)ds равна
^yy(si t) = 2 min{s, t} + e~s + e-f -F	— 1.
15B том числе — функцией Грина, см. [22].
184
Глава 10. Случайные процессы
10.9.	Преобразования
случайных процессов
При прохождении случайного стационарного сигнала f(t) через ли-
нейную систему, f —> W -> х,
w(r)f(t — r^dr.
(10.22)
что в изображениях преобразования Лапласа равносильно х(р) =
= ИДр)/(р), в частности,
х(ы) = W(iw)f(w),
f(w) —> РК(гси) х(ш).
Вероятностные характеристики при этом меняются следующим обра-
зом
t	t
тх = J w(t)E [f(t — r)]dr = rrif  f w(r)dr,
о	о
t t+s
Rx(t, s) = У / w(£)w(t)7?/(s + £ - r)d£dr.
о о
(10.23)
Для системы устойчивой в смысле
оо
У |w(s)|Js < оо,	(10.24)
о
корреляционная функция (10.23) имеет предел16 (корреляционную функ-
цию установившейся реакции),
lim Rx(t, s) = Rx(s)	(10.25)
t—>oo
имеющий спектральную плотность17
A,(w) = I W(w)\2Rf(u).
16Существование предела (10.25) следует из легко устанавливаемой ограничен-
ности Rx(t,s) при условии (10.24).
17При работе с устойчивыми системами (когда борьба с расходящимися интегра-
лами не подталкивает к использованию преобразования Лапласа вместо — Фурье)
в качестве передаточной используется функция W(iui).
10.10. Уравнение Винера—Хопфа
185
При этом надо обратить внимание на соотношение (10.18), указыва-
ющее на асимптотическое совпадение спектра корреляционной функ-
ции со спектром самого сигнала18.
10.10.	Уравнение Винера—Хопфа
Обратимся к задаче фильтрации, которая часто возникает в недрах
теории управления. Пусть на входе системы полезный сигнал u(t) сум-
мируется с помехой £(t), выход
t
a;(t) = У w(r)/(t - r)dr, f(t) = u(t) + <(t),
0
определяется импульсной переходной функцией w(t), каковую и надо
найти из условия минимума среднеквадратической ошибки
Ее2(£) = Е \x(t) — n(t)]2 —> min
На первом этапе всё просто,
2
Ее2(£) = Е Щ
0
оо
= Eu2(t) - 2 f
о
оо оо
- г)] dr+
0	0
оо	оо оо
= Du — 2 J w(r)Rfu(r)dT + у* У w(r)w(g)Rf(r - £)d£dr.
О	0 0
Варьируя теперь w(-) и приравнивая вариацию нулю, приходим к
уравнению Винера—Хопфа
оо
(10.26)
о
18В случае стационарной и эргодичной с. ф.
186
Глава 10. Случайные процессы
которому должна удовлетворять импульсная переходная функция w(r),
обеспечивающая минимум ошибки фильтрации Ее2(£). Решение урав-
нения (10.26) сталкивается с некоторыми принципиальными трудно-
стями. Головная боль тут возникает в связи с некорректностью урав-
нений вида (10.26). Однако проблема так или иначе решается, что само
по себе очень интересно, но не всем «туда» надо, даже мало кому. На
первой ступени — на которую рассчитан данный текст — достаточ-
но знать, что есть такое уравнение Винера—Хопфа, касающееся задач
фильтрации, — и если жизнь заведёт в этот лабиринт, то имеется под-
ходящая литература.
В том же ключе решается задача прогноза по минимуму средне-
квадратической ошибки
Е \x(t) — u(t+ < —> min,	Д> 0.
10.11.	Фильтр Калмана
На первой ступени изучения с.ф. полезно знать также о существова-
нии фильтра Калмана [3], заточенного на борьбу с помехами в линей-
ных системах регулирования типа
( z = Az + Ви + С,
| х = Cz -|- £,
где £ и £ — помехи, т. е. случайные возмущения.
При первом знакомстве важно ещё понимать, каковы акценты. Прин-
ципиально ли надо опираться на Винера и Калмана или можно поло-
житься на простые соображения? Если левая (серая) полуволна на
графике (10.27) описывает спектральную плотность полезного сигна-
ла, а правая — помехи,
10.11. Фильтр Калмана
187
то амплитудная характеристика «хорошего» фильтра должна прибли-
жаться к «идеалу», изображенному внизу (10.27) жирной линией. Уси-
ление на участке ab равно единице (частоты пропускаются без искаже-
ния), справа от с усиление — ноль (помехе заслон), ну а на Ъс ампли-
тудная характеристика фильтра как-то плавно спадает от единицы до
нуля. Именно на Ьс формальная оптимизация может дать выигрыш —
и то вряд ли, потому что заложенные в теорию предположения, особен-
но калмановские, никогда не выполняются. Поэтому стоит ли городить
огород?
Но если «не городить», то исследованию будет грош цена с точки
зрения Заказчика. Посему во избежание рисков финансирования при-
меняются теоретические изыски. Фильтр Калмана, например, — где
от формул рябит в глазах, и ни один заказчик не разберётся что к че-
му. А если «что не так», то никто не мешает опереться в заключение на
бесхитростные методы, не афишируя подробности. И циники считают,
что оно в большинстве случаев так и делается19, т. е. декорации Кал-
мана действительно широко применяются в парадных отчётах, дабы
уберечь заказчиков от переживаний насчёт потраченных денег.
Но диалектика здесь такова, что другая сторона дела даже более
существенна. Винер и Калман осуществили великий прорыв к пони-
19 В отчётах об укладке дорожного полотна техническая сторона дела тоже ведь
красиво излагается с упором на дороговизну внутренних слоёв.
188
Глава 10. Случайные процессы
манию природы задач фильтрации20, что само по себе первостепенно.
Конечно, многие процессы в условиях понимания или его отсутствия —
протекают одинаково. Но разница колоссальна и сказывается при из-
менении обстоятельств. Именно поэтому знающий КАК — исполняет,
знающий ПОЧЕМУ — руководит. Бесполезные на вид теоретические
декорации дают, как правило, точки опоры, направляя исследование
и освещая окрестности. Поэтому нет ничего полезнее фильтра Кал-
мана21, который напрямую, может быть, и не применяется.
10.12.	Помехи в системах регулирования
На внешнее возмущение £, действующее на систему,
можно смотреть по-разному. Оно всегда в той или иной мере случайно,
но если измеряется и отрабатывается с целью компенсации влияния £
на выход системы, то его стохастическая природа малосущественна.
Скажем, нагрузка на городскую электросеть случайна, но её агреги-
рованные колебания учитываются в работе турбогенераторов. А вот
реакцию нагрузки на поведение отдельных потребителей, бессмыслен-
но измерять и учитывать — дороже обойдется.
Но это не означает, что на «дребезжание» С надо махнуть рукой.
Мерцание нагрузки, как случайный процесс, имеет свои усреднённые
характеристики, влияющие на ошибку выхода e(t). Зависимость £(£)
e(t) определяется передаточной функцией объекта W, и её жела-
тельно так подобрать, чтобы «размах» e(t) свести к минимуму. Эта-
лоном подобного рода служит задача фильтрации (у которой много
20Популистская картинка (10.27) многое скрывает. От необходимости аппрокси-
мировать нижний график (10.27) линейным фильтром (каким образом?) до задач
управления, куда фильтрация бывает интегрирована весьма причудливым обра-
зом.
21 Подробности в одном из последующих томов.
10.12. Помехи в системах регулирования	189
лиц), где полезный сигнал u(t) суммируется на входе с помехой £(£), и
сумму u(t) + надо так обработать,
= W [«(<) + <(t>],
чтобы в некотором смысле минимизировать ошибку
e(t) = x(t) — u(t).
В идеальном варианте, x(t) = u(t), спектры полезного сигнала и
помехи не пересекаются, и тогда оператор W (фильтр) должен просто
отсекать спектр £, пропуская спектр и. Но даже в этом крайнем случае
идея выглядит расплывчатым пожеланием до тех пор пока не ясно, что
такое случайная функция, как определить её спектр, как он зависит
от реализации, и зависит ли, и т. п. С этих вопросов и приходится
начинать, что выше было проделано в эскизном варианте.
Понимание метаморфоз, которые происходят со случайными сиг-
налами при интегрировании и дифференцировании, играет важную
роль в изучении систем регулирования типа
X + /3(t)X^^(t)X = Y(t),
где параметры флуктуируют случайным образом.
В теории автоматического регулирования, например, рассматрива-
ется модель
Lx = Му,
в которой L и М — дифференциальные операторы, у —вход системы,
х — выход.
Преобразование Лапласа Lx = Му даёт22
£(р)£(р) = М(р)у(р),
Цр) и М(р) — обычные характеристические полиномы.
22Например, Lx = х + 7\х + Tqx => L(p) = р2 + Tip + Tq.
190
Глава 10. Случайные процессы
В результате
х(р) = w(p)y(p),
где
Ж(р) =
М(р)
Ир)
называют передаточной функцией системы.
При работе с устойчивыми системами, когда борьба с расходящимися интегра-
лами не подталкивает к использованию преобразования Лапласа вместо — Фу-
рье, в качестве передаточной используется функция Ж(гЛ), которая по Фурье-
преобразованию входного сигнала y(iX) позволяет указать Фурье-преобразование
выходного сигнала x(iX) = W(iX)y(iX).
В отличие от детерминированных систем, преобразование Фурье
выходного сигнала, равно как и сам сигнал, — для понимания ситуации
ничего особенно не дают. Здесь важны не беспорядочные флуктуации,
а вероятностные характеристики сигнала, определяемые преобразова-
нием спектра:
RxxW = W(iX)W(-iX)Ryy(X\
т. е.
Дгх(А) = |ТУ(гА)|2Д/!/(А)	.	(10.28)
Другими словами, при прохождении случайных сигналов через ли-
нейные системы основную роль играет не сама передаточная функция
W(гА), а её модуль |ИДгА)|.
В результате простого вычисления (10.28) по спектру входного слу-
чайного сигнала определяется спектр выходного сигнала. Для веро-
ятностного анализа это практически вся информация, которая тре-
буется.
Глава 11
Теория информации
Чем информации меньше —
тем её больше.
На вероятностном фундаменте покоится много полезных конструкций. Одна из
них — теория информации, соединяющая иллюзию с реальностью. Дух с материей,
воображение с плотью. Слово — с его материализацией.
11.1.	Энтропия как неопределённость
Центральный фокус теории информации прост до гениальности. Сна-
чала вводится мера неопределённости ситуации, а потом количество
информации (сообщения, эксперимента) определяется как разность не-
определённостей ДО и ПОСЛЕ (прихода сообщения, проведения экс-
перимента). Таким образом проблема сводится к измерению неопре-
делённости. На этом пути выясняется, что аналогичная задача реша-
лась «до того» в статистической физике, где была извлечена на свет
энтропия.
Энтропия, как мера неопределённости, штука с одной стороны про-
стая, но как слабое звено абстрактного мышления, она до чёртиков ми-
стифицирует род людской, раздувая паруса философских фантазий.
192
Глава 11. Теория информации
При этом надо признать, что налёт загадочности у энтропии име-
ет основания. Термодинамическая сущность, не данная в ощущениях
(в отличие от температуры и давления), каково! Что касается сугубо
информационного аспекта энтропии, то здесь, помимо неосведомлен-
ности о дробях и логарифмах, большую роль играет впечатление, что
«Н = —	обеспечивает вход в виртуальный мир, подтвер-
ждая его реальность. Однако — обо всем по порядку.
Рассмотрим эталонную ситуацию. Неопределённость (энтропия) Н при бро-
сании тп-гранной кости характеризуется наличием т возможностей. Интуитивно
хотелось бы, чтобы при бросании двух костей1 неопределённость была вдвое боль-
ше, т. е.
Я(тп2) = 2Я(т)
либо Н(тпп) = Я(тп) + Я(п), если кости имеют разное число граней.
Ясно, что такие предположения ведут к
Н(тп) = К Inm
что можно интерпретировать как Н(р,... ,р) = К\пт при т равновероятных ис-
ходах, р = 1/т.
Следующий вопрос, как определить H(pi,... ,рп) в случае не равновероятных
исходов. Будем отталкиваться пока от следующей модели. Имеется несколько тщ-
гранных костей. Число всевозможных граней равно 22 mii поэтому Н = К In (22 mi)-
С другой стороны, выбор может быть осуществлен в два приема. Сначала вы-
бирается кость — ясно, что вероятности выбора числа граней при этом равны
Pi = mi/^mjj — затем грань. Неопределённость первого шага — Н(р±,... ,рп),
второго — средневзвешенная энтропия2 K^piinnii. Если потребовать аддитив-
ность, т. е.
Kin	= Я(Р1, . . . ,Рп) + К ^2/Pi Inmi,
ТО (с учётом Pi =	- => Inm^ = In Pi + in 22 771J )
Я(Р1,...,Рп) = К {in	- y^Pilnmi j =
( J
1При котором число возможностей равно т2.
2Потому что выбор на втором шаге зависит от реализации — первого. См. далее
«Комментарий».
11.1. Энтропия как неопределённость
193
что при непрерывной зависимости Н от аргументов будет справедливо и для ир-
рациональных pi.
От выбора константы К зависит лишь единица измерения энтропии. В случае
H(pi, ...,рп) =	log3Pi
(И.1)
а в случае равных вероятностей, все pi = —,
Н(тп) = log2 тп .	(11.2)
Единица измерения энтропии в этом случае называется битом. Таким образом,
бит соответствует неопределённости выбора из двух равновероятных возможностей
(то ли нуль, то ли единица), log2 2 = 1. Двойка в основании логарифмов часто
опускается.
Приведённый вывод (11.1) в рафинированном виде воспроизводит
рассуждения Шеннона [18], наиболее просто выражающие суть дела.
Но при первом знакомстве все же чувствуется определённая натяж-
ка, избавиться от которой можно расширив базу исходных примеров и
ситуаций. Возможен также вариант, когда (11.1) принимается за опре-
деление энтропии и постулируются определённые свойства Н, — но
далее всё равно надо смотреть на примерах, как это работает.
Само по себе соотношение (11.1) мало что даёт, поскольку при
столкновении с действительностью возникает масса вопросов, не по-
павших в кадр. Положение облегчает следующая формальная схема,
которая, если вдуматься, ничего принципиально нового не добавляет
к бросанию костей, но всё-таки расширяет обзор.
Пусть {#i,..., хп} и {?/i,..., уп} — возможные состояния двух си-
стем (случайных векторов) X и Y. Состояния {X, У} представляют
собой комбинации пар Xi и yi. Энтропия {X, У} по определению равна
Я(Х,У) = -£>01пРу,
где Pij =p(xi,yj) = Р{Х = Xi,Y = yj}.
3В рамках (11.1) действует соглашение
О • log 0 = 0
194
Глава 11. Теория информации
Если системы X и Y независимы, то Pij = PiPj, и
H(X,Y) = Я(Х) + Я(У),
(11.3)
что элементарно проверяется.
Если же системы зависимы, то4 p(xi,yj) — р(х^р(уу\х^у и
Я(Х, У) = Я(Х) + Я(У |Х),
(11.4)
где
Я(У|Х) = ^р(т£)Я(УкО
называют полной условной энтропией, а
Я(У|х») = - ^р(УэЫк>£2р(у.)\Х1), -
3
условной энтропией У при условии X — х^
В обоих случаях, (11.3) и (11.4), говорят об аддитивности энтро-
пии. При независимости подсистем Я(У|Х) = Я(У), и (11.4) перехо-
дит в (11.3).
11.2.	Текстовые модели
Приступая к изучению теории информации, имеет смысл не торопить-
ся переходить к аппаратным премудростям, а потоптаться на исходных
понятиях, дабы прочувствовать инструмент.
«Костяная» модель из предыдущего раздела увлекает не в самое
широкое русло, хотя танцует по сути в рамках общей схемы ТВ, оттал-
киваясь от пространства элементарных событий П и т. п. Рассмотрим,
тем не менее, другую содержательную модель. Пусть последовательно
генерируются символы из алфавита
— {di,..., tzm}.
(П-5)
4Имеется в виду p(xi) = Р(Х = p(yj\xi) = Р(У = yj\X = Xi).
11.2. Текстовые модели
195
Если речь идёт о выборе одного символа, то Q = {ai,..., am}. В слу-
чае текстов, пространство элементарных событий Q — это уже всевоз-
можные тексты, скажем, длины N. Энтропия в том и другом случае
определяется механизмом (11.2). Для текстов надо только тп в (11.2)
заменить на mN, получая
H(mN) = log2 mN = TVlog2 m.
Но это всё работает лишь в ситуациях равновероятных возможно-
стей. Определим теперь энтропию
Н(Р1,... ,Рт)
в случае, когда источник генерирует символы (11.5) с разными веро-
ятностями pi,... ,рт.
• При достаточно большой длине N текста количество символов г-го вида
в сообщении с любой наперёд желаемой точностью равно5 Npi. Количество
М различных текстов из символов
О1 ... 6Ц G«2 ••• <12 ... dm ... d?n
Np! Np2	Npm
равно числу перестановок с повторениями. Поэтому6
JV!
1Og2М = 1О& №)!№)!•••№„.)! * N N - Е=
= - у? Npt log2 Npt +	Npt log2 N = -N У2 Pi l°g2 Pi 
i	i	i
Это и есть энтропия сообщения длины N. После деления на N получаем
энтропию, приходящуюся на один символ7,
Н(Р1, . . .,рп) = -^Pi log2Pi. (11.6)
т. е. опять формула (11.1).
5 Что вытекает из закона больших чисел.
6 С учётом формулы Стирлинга и условия = 1.
_____________________________________г
7 В (11.1) действует соглашение 0 • log 0 = 0 . При т равновероятных исходах,
р = 1/т, получается
Н(р,... ,р) = Н(т) = logm.
196
Глава 11. Теория информации
Если ожидается сообщение длины N с частотностью символов pi,..., р-т,
то ситуация характеризуется неопределённостью NH. Приход безошибочно-
го сообщения ликвидирует эту неопределённость, и в этом смысле пришед-
шая информация равна NH.
• Взглянув на ситуацию (11.1) под другим углом, приходим к следующе-
му. При независимой генерации символов (11.5) с вероятностями pi,... ,Pm
и количестве символов г-го вида в сообщении порядка Npi — вероятность
любого отдельного сообщения равна
р = Р1Р1
т. е.
logp = N^pi logpt =>
_	()-NH
р = 2
Иными словами, вероятности всех достаточно длинных сообщений равны
р = 2~NH , а поскольку эти сообщения ещё и независимы, то их количество
М = -, т. е. М = 2NH . Таким образом, энтропия по правилу М = 2NH
Р
определяет количество текстов, в которых буквы встречаются с «пра-
вильной» частотой.
11.3. Простейшие свойства энтропии
• Энтропия всегда неотрицательна и достигает максимума в
случае равновероятных возможностей.
Следующая лемма представляет собой удобный вспомогательный
инструмент.
11.3.1 Лемма. Пусть ^,рь = ^2qk = 1, т- е. Рк и Цк — два распре-
деления, причём все > 0. Тогда8
.	(11.8)
8Понятно, что в (11.8) натуральные логарифмы In можно заменить логарифма-
ми по любому другому основанию.
11.4. Информация, опыты, каналы связи
197
◄ Введём в рассмотрение случайную величину X, принимающую значения —
Рк
с вероятностями. Очевидно, EX = SPfc— — 1- Применяя к с.ф. 1пХ неравен-
Рк
ство Йенсена (2.16), получаем (11.8). ►
11.3.2 Теорема. Условная энтропия всегда меньше или равна без-
условной,
H(Y\X) < Я(У),
причём при добавлении условий энтропия не увеличивается.
◄ Лемма 11.3.1 гарантирует
^2p(yj\xi)\np(yj\xi) > ^pty^Xijlnpty.j).
3	3
Матожидание этого неравенства по X даёт
^P(xi,yj)lnp(yj\xi) $2р(%)1пр(%),
1,3	3
что означает H(Y|X) H(Y) (знак минус перед суммами переворачивает нера-
венство).
Аналогично устанавливается справедливость оговорки об убывании энтропии
при добавлении условий. ►
11.4. Информация, опыты, каналы связи
Если Н(А) — энтропия исхода некоторого опыта А, а опыт В содер-
жит какие-то сведения относительно А, то после проведения В неопре-
делённость А уменьшается до условной энтропии Н(А\В). Разность
1(А,В) = Н(А) - Н(А\В)
по определению, есть количество информации, содержащееся в В от-
носительно А. Равенство
1(А,В) = 1(В,А)
вытекает из симметрии предполагаемого свойства (11.4).
198
Глава 11. Теория информации
Энтропия источника. На «микроуровне» это выглядит так. Если
источник информации потенциально может передать г-й символ (ал-
фавита) с вероятностью р^ то величину информации при поступлении
этого символа естественно принять за — log2Pi- Матожидание инфор-
мации, либо её среднее значение (на один символ) при длительной
работе источника, будет равно
I = -
т. е. — энтропии источника.
Здесь имеет смысл продумать старую схему в новых терминах. Если источник
сообщает один из п равновероятных символов, то ... I = К In п, и далее — по уже
готовой колее.
В итоге становится ясно, что информация и энтропия — это две стороны од-
ного явления. Сколько поступает информации — настолько убывает энтропия (не-
определённость). Чем больше энтропия источника9, тем больше информации при
получении его сигналов. Источник, способный генерировать единственный сигнал,
никакой информации не производит. Источник, передающий только два сигнала
«нуль/один», имеет единичную интенсивность (один бит на сигнал). Но при боль-
шой частоте способен производить много бит в единицу времени.
Пропускная способность канала. Канал связи в схеме
] =Ф I приемник
| источник | =Ф | канал связи
так или иначе, ограничивает скорость передачи информации. В про-
стейшем и широко распространённом случае, когда символов (сигна-
лов) всего два и их длительности одинаковы, пропускная способность
С измеряется числом символов, способных пройти по каналу в едини-
цу времени.
В общем случае С — это максимальная информация, которая мо-
жет быть передана по каналу за одну секунду. Если, например, алфа-
вит состоит из п букв и канал способен пропускать N букв в секунду
(в точности или в среднем), то С = 2Vlog2 п.
9Об энтропии источника естественно говорить до поступления информации,
после — логичнее говорить о производстве информации.
11.5. Частотный взгляд на сообщения
199
Природа ограничений может быть различная. Скорость света, полоса пропус-
кания частот, тактовая частота генератора10. Все это находится за рамками теории
информации, но иногда понимание среды, в которой решаются задачи, играет важ-
ную роль.
11.5. Частотный взгляд на сообщения
Пусть источник генерирует г-й символ с вероятностью рг, и символы в
сообщении длины N независимы. При достаточно большом N количе-
ство символов г-го вида в сообщении с большой точностью равно Npi.
Это даёт вероятность сообщения
Р=Р1Р1---Р^
т. е.
logp = N^pi log2pi =>
(П-9)
Иными словами, вероятности всех достаточно длинных сообщений
равны р = 2~nh, а поскольку эти сообщения ещё и независимы, то их
„ 1
количество К = -, т. е.
Р
(11.10)
Таким образом, энтропия по правилу (11.10) определяет, например,
количество текстов, в которых буквы встречаются с «правильной»
частотой. Если в определении энтропии вместо двоичных использу-
ются натуральные логарифмы, то (11.10) заменяется на К = eNH.
Если все pi одинаковы, то Н = logn, и (11.10) приводит к максимально воз-
можному числу сообщений: К = nN.
Разумеется, количество текстов, в которых соблюдается заданная частотность
букв, определяется формулой (11.10) с точностью до очевидных «е-поправок». При
чисто вероятностной (не частотной) трактовке требуются уточнения несколько
10 Упоминание в данном контексте генератора показывает, что ограничения ис-
точника могут быть «списаны» на ограничения канала связи.
200
Глава 11. Теория информации
иного рода. С какими бы вероятностями pi источник ни генерировал символы —
принципиально возможны все nN сообщений Q длины 7V, но их вероятности p(Q)
различны.
Тогда при любом е > 0
lim	₽(<?) = °’
N—>оо	4-—'
|p(Q)-2-^|>e
т. е. сумма вероятностей всех сообщений, вероятности которых отличаются
от 2~NH более чем на е, — стремится к нулю (сколи угодно мала при большом
N).
Соответственно, вероятности сообщений
p(Q) е (2~NH - e,2-NH +е)
в сумме стремятся к 1. Поэтому при больших N можно считать, что «наблюдае-
мых» сообщений (последовательностей, текстов) имеется ровно 2NH. Остальными
можно пренебречь — их суммарная вероятность близка к нулю.
Описанная схема служит первым приближением к действительно-
сти, которым нередко и ограничиваются. Но более сложные методы
вычисления энтропии заслуживают упоминания. Не столько по при-
чине их практической значимости, сколько по теоретическим сообра-
жениям. Очевидно, например, что осмысленные тексты далеки от при-
нятых выше предположений. Буквы в словах далеко не независимы —
после гласной чаще следует согласная, а шестая буква шестибуквен-
ного слова определяется по пяти предыдущим едва ли не однозначно.
Принципы определения энтропии в такого рода ситуациях идейно прозрачны.
Допустим, имеет место «взаимодействие» соседних символов: j-й символ после г-
го — может появиться с вероятностью pij. Энтропия следующего состояния в ре-
зультате зависит от г и равна Hi = — 52Pij k>g2 Pij- Если при этом Pi обозначают
з
вероятности г-х состояний, то Н = 52 Pi Hi.
11.6. Элементы кодирования
201
11.6. Элементы кодирования
Допустим, источник генерирует буквы из некоторого алфавита, и его
энтропия равна Н (бит на символ), а канал связи пропускает С (бит
-х \	С
в секунду). Утверждать, что по каналу в среднем проходит -j сим-
волов в секунду, конечно, нельзя — потому что результат зависит от
тт Г^1	и
качества кодирования. Но скорость — асимптотически достижима
Н
при оптимальном кодировании.
С
Н
Если появление п символов равновероятно, то в секунду, очевидно,
может проходить максимальное количество информации
Лпах — Clogn. (Lo)
При использовании алфавита из двух символов {0,1}, соответственно,
/тах = С log 2 = С бит/сек.
Коэффициент избыточности сообщения определяется как
(Лпах -0/Лпах>
где I количество информации в сообщении, а /тах — максимально
возможное количество информации той же длины.
Если символы не равновероятны, то на один символ в среднем при-
ходится количество информации — J^Pilogpi < logn, и в результате
I < 4пах- Подобное явление характерно для обычного текста — буквы
(символы) появляются с различными частотами.
В то же время системы передачи информации, как правило, ис-
пользуют специальные символы, независимо от того, какого сорта ин-
формация передаётся (аудио, видео, текстовая). Общепринятый стан-
дарт в цифровой технике «01»-последовательности.
Идея кодирования хорошо известна. Буквам, командам, операциям, — сопо-
ставляются различные последовательности вида 01... 101. Иначе говоря, все опи-
сывается в двоичном коде — «01»-алфавите. В общем случае кодирование представ-
ляет собой запись исходной информации в любом другом алфавите по избранным
правилам соответствия между группами символов.
11 Кодирование способно обеспечить скорость С/Н — е при любом е > 0.
202
Глава 11. Теория информации
Для конкретности, будем говорить о двоичном кодировании. Широко распро-
странены: восьмибитовый12 код EBCDIC13 и семибитовый — ASCII14. Для русско-
го текста семибитовой кодировки недостаточно — значительная часть двоичных
комбинаций занята под латинские буквы и другие «надобности». Это было причи-
ной появления восьмибитовой кодировки КОИ-8, а потом Windows-кода 1251.
Общепринято 8 бит (двоичных единиц) информации принимать за новую еди-
ницу измерения количества информации — один байт. Более крупная единица
измерения — килобайт (1 Кбайт = 210 байт = 1024 байта)15.
Оптимальное кодирование. Одно и то же сообщение можно за-
кодировать различным образом. Поэтому возникает вопрос о наиболее
выгодном способе кодирования.
Естественное соображение: часто встречающимся символам и сло-
вам исходного сообщения ставить в соответствие короткие «01 ^ком-
бинации, редко встречающимся — длинные. Если удастся так зако-
дировать сообщение, что символы 0 и 1 будут встречаться одинаково
часто, — это будет оптимальным кодом.
Посмотрим, как это работает при кодировании русского алфавита. Среднеста-
тистическая частота появления букв в текстах различна, — колеблется от ~
для буквы «ф» до ~ — для буквы «о».
Оптимальную «игру» на длине кодовых комбинаций реализует код Шеннона—
Фано. Буквы алфавита упорядочиваются по убыванию частоты (вероятности) pi
12 Буквы и команды кодируются восьмизначным двоичным числом — последова-
тельностью из 8 символов 0 или 1.
13 Аббревиатура от Extended Binary Coded Decimal Interchange Code.
14American Standards Committee for Information Interchange.
15 Стандартная шутка: начинающий программист думает, что в килобайте 1000
байт, опытный — что в километре 1024 метров.
11.6. Элементы кодирования
203
появления в тексте, после чего разбиваются на две группы. К первой группе отно-
сят первые к букв — так, чтобы
к	п	1
X,Pi « Y,Pi « 2>
1=1	i=k
после чего первой группе символов ставится в соответствие 0, второй — 1, и это
определяет первый разряд кодового числа. Далее каждая группа снова делится
на две приблизительно равновероятные подгруппы; первой подгруппе ставится в
соответствие 0, второй — 1 и т.д. Группы с малым количеством букв быстро исчер-
пываются — и эти буквы в результате получают короткие коды. Легко убедиться,
что в итоге кодовая запись достаточно длинного сообщения будет содержать при-
близительно одинаковое количество нулей и единиц, т. е. при любой частотности
исходных символов частоты нулей и единиц двоичных кодов оказываются ~ равны
друг другу.
(Обратим.	что и&ыжМаи* ведётся в шгн'мним «с. 1М1ЧИ&
cmw cte e и других рсверашюе». Ju сЫтади можно обратиться к
uuitM источникам? но гораздо важнее следовать иерархическим прин-
ципам изучения предмета, когда, скажем^ идея предельного перехода
не только перестав требе шш расшифровал но даж? упоминания,
13 этом случае внимание не отвлекается на второстепенные подроб*
• нрети и концентрируется на главном.	'•/
Информационная сторона оптимального кодирования очень про-
ста, даже в самом общем виде. Вернёмся к формуле (11.10). Равноверо-
ятные сообщения в количестве К = 2NH могут быть пронумерованы в
двоичной записи, для чего потребуется минимальное число разрядов16
log2 К = NH. Это и будет оптимальным двоичным кодом.
Минимум разрядов (символов в «01»-алфавите, электрических им-
пульсов), необходимых для указания и передачи сообщения, означает
наиболее эффективное использование канала связи (передачу макси-
мума информации в единицу времени).
16 В m-ичной записи потребуется logm К = NH разрядов.
204
Глава 11. Теория информации
В рамках вероятностной модели возможны все nN сообщений дли-
ны N (а не только К = 2NH), но при больших N можно считать (см.
предыдущий раздел), что «наблюдаемых» сообщений имеется как бы
ровно 2NH . Остальными можно пренебречь — их суммарная вероят-
ность близка к нулю. Поэтому маловероятные сообщения можно ко-
дировать достаточно длинными «01»-последовательностями. Из-за их
маловероятности это в среднем почти не будет сказываться на скоро-
сти передачи информации.
речь идет о минимуме числа разрядов в оптимальном коде,
подразумевается, конечно, что алфавит задан. В алфавите из
она символов манено и&ним символом запасать янфое из миллиона
сообщении Во тогда надо иметь систему связи. способную? генериро-
вать и передавать миллион разных символов.
"У пражнения
•	При энтропии источника Н (бит на букву) и независимой генерации букв —
оптимальное кодирование в среднем приводит к Н двоичным знакам на бук-
Например, при бесхитростной нумерации букв русского алфавита в двоич-
ной записи потребовалось бы 5 разрядов (25 = 32). С учётом частотности
букв Н = — Pi 1°ё2 Pi ~ 4, 4. Поэтому в среднем достаточно 4,4 знака на
букву, что обеспечивает код Шеннона - Фано.
•	В оптимальном кодировании чаще всего идёт речь о перекодировании од-
них «(Непоследовательностей в другие. Пусть энтропия источника «01»-
сообщений равна Н (бит на символ). Тогда длина п таких сообщений может
быть уменьшена (за счёт кодирования) до пН.
11.7.	Проблема нетривиальных кодов
Из предыдущего раздела следует, что при оптимальном кодировании
необходимо отталкиваться от кодирования длинных сообщений. Не
букв и даже не слов, а достаточно больших кусков текста. Тогда есть
возможность достичь теоретического предела. Но технически удобнее,
разумеется, посимвольное кодирование без дополнительных хлопот.
11.7. Проблема нетривиальных кодов
205
Поначалу кажется, что посимвольным кодированием можно обой-
тись, когда источник генерирует буквы независимо друг от друга. Это
неверно.
Рассмотрим, например, источник, генерирующий две буквы, А — с вероятно-
стью р, и Б — с вероятностью 1 — р. Если р очень мал6, то любое посимвольное
кодирование далеко от оптимального. Асимптотически оптимален RLE-код17, суть
которого состоит в сообщении длин серий18 повторяющейся буквы Б.
Элементарные примеры типа RLE-кода создают иллюзию, что про-
блема кодирования тривиальна. На самом деле высокоэффективные
коды являются часто результатом крупных достижений, с которыми
все имеют дело, работая на компьютере, и не подозревая о наукоемко-
сти различных архиваторов (ZIP, ARJ и др.). Элементом многих ар-
хивирирующих программ является знаменитый алгоритм Лемпеля-
Зива, осуществляющий многоступенчатое кодирование. Идея вчер-
не выглядит примерно так. Сообщение просматривается с помощью
скользящего словаря, если в тексте появляется последовательность из
двух ранее уже встречавшихся символов, то ей приписывается свой
код, затем текст «прочесывается» на предмет повторяющихся комби-
наций из большего количества символов, и так — до исчерпания текста.
Конечно, доведение идеи «до ума» сопряжено с преодолением массы сложно-
стей, но здесь не место вдаваться в подробности, поскольку это территория другой
научной дисциплины. Однако декорации при взгляде через призму теории инфор-
мации играют вдохновляющую роль.
Очень интересны, например, методы MPEG (Moving Pictures Experts Group),
которые при кодировании используют прогноз динамики изображений (переда-
ются только меняющиеся пиксели). В результате достигается сжатие в несколько
десятков раз.
Для сжатия данных неподвижных изображений широко используются мето-
ды JPEG (Joint Photographic Expert Group), исключающие малосущественную ин-
формацию (не различимые для глаза оттенки) за счёт виртуозного использования
преобразования Фурье.
Чтобы оценить возможные трудности оптимального кодирования,
имеет смысл обратиться к простой на вид задаче о взвешивании монет
17Аббревиатура от Run Length Encoding. Метод широко используется при пере-
даче растровых изображений.
18Мы не вникаем в технические подробности кодирования, связанные, например,
с синхронизацией, необходимой для отделения кодов одних символов от других.
206
Глава 11. Теория информации
(см. последний раздел главы), которая, по сути, есть задача оптималь-
ного кодирования19. Запутанность её решения даёт повод задуматься
о трудоемкости кодирования, которая является существенным фак-
тором, но остаётся за рамками информационного аспекта.
Оптимальный код — это совсем не то, к чему надо стремиться во
что бы то ни стало20. Это лишь границы возможного, знание которых
даёт понимание ситуации.
11.8.	Помехи в канале связи
В шумящем канале связи,
	4И	------------------
вход X | канол связи | => выход Y = f(X, £)
выходной сигнал Y = f(X, £) зависит от входа X и шума £.
Если шум искажает в среднем 1% символов, то о любом принятом символе
нельзя сказать наверняка правилен он или нет. Максимум возможного — при не-
зависимой генерации букв — утверждать их правильность с вероятностью 0,99.
Но если речь идёт о передаче осмысленного текста, то сообщение при 1% ошибок
можно восстановить (по словарю) с высокой степенью надежности. Понятно, что
это возможно благодаря избыточности языка.
В общем случае проблема заключается в том, чтобы подобную избыточность
использовать наиболее эффективно. Вернее даже — не использовать, а изобрести.
Другими словами, бороться с шумом специальным кодированием. Разумеется,
вероятность ошибки можно понизить за счёт многократного повторения каждого
символа, но это слишком неэкономно.
Для поиска рациональных путей необходимо понять сначала при-
сущие задаче ограничения. Какова полезная информация, проходящая
по шумящему каналу? Легко видёть, что это разность
I = Н(Х) — H(X\Y)
19Сводящаяся к указанию номера фальшивой монеты в троичной записи.
20То же самое можно сказать о любых оптимизационных решениях.
11.8. Помехи в канале связи
207
между уровнями неопределённости источника до и после приема сиг-
нала Y. В нешумящем канале Я(Х|Y) = 0, т. е. принятый сигнал од-
нозначно определяет переданный. В общем случае условная энтропия
H(X\Y) служит показателем того, насколько шумит канал.
При вероятности ошибки 0,01 в случае равновероятной передачи источником
двоичных символов
1	1	99	99
H(X\Y) =------log---------log ~ 0,08 бит на символ.
V 1 '	100 Ь 100	100	100
Поэтому при передаче по каналу 100 символов в секунду скорость передачи ин-
формации равна 100 — 8 = 92 бита в секунду21. Ошибочно принимается лишь один
бит из ста, но «потери» равны 8 битам из-за того, что неясно, какой символ принят
неверно.
•	Чему равна условная энтропия H(X\Y) при том же уровне 0,01 ошибок, если
источник генерирует 0 и 1 с вероятностями р и 1 — р?
•	В каких ситуациях H(X\Y) = Н(Х)?
Пропускная способность канала с шумом, по определению Шен-
нона, это максимальная скорость прохождения информации
С = шах[Н(Х) - Я(Х|У)]
(бит в секунду),
где максимум берется по всем возможным источникам информации, а
энтропия Н измеряется в битах в секунду.
На первый взгляд, это сильно отличается от канала без шума, где под С обычно
мыслится максимально возможное число проходящих импульсов. Но это не совсем
так. Во-первых, система передачи может быть не двоичной. Во-вторых, сама пере-
дача символов по каналу бывает малоэффективна — символов много, информации
мало. Поэтому аккуратное определение пропускной способности канала без шума
в точности совпадает с данным выше определением, при условии Н(Х|У) = 0.
21 При р = 1/2, очевидно, H(X\Y) = Н(Х), и скорость передачи информации
нулевая, поскольку выходной сигнал не позволяет судить о входном.
208
Глава 11. Теория информации
При этом ясно, что в ситуации Н > С передача информации без потерь не-
возможна22. В этом случае, кстати, на задачу можно смотреть как на передачу
информации по специфически шумящему каналу.
В примере с искажением 1% двоичных символов, если канал фи-
зически способен пропускать 100 бит/сек, — его пропускная способ-
ность равна 92 бит/сек. Информационные потери 8 бит приходятся на
H(X\Y), т. е. на шум.
Теоремы Шеннона. Допустим, что помимо основного — есть до-
полнительный корректирующий канал.
11.8.1 Если корректирующий канал имеет пропускную способность
не меньше H(X\Y), то при надлежащей кодировке возможен прак-
тически безошибочный приём сообщений23 (с точностью до сколь
угодно малой доли ошибок).
◄ На философском уровне утверждение самоочевидно. На приёмном конце
недостаёт H(X\Y) бит/сек информации — её и надо передать по дополнительному
каналу.
Если спуститься с небес на землю, то рассуждать можно так. Любому принятому
сообщению достаточно большой длительности в t сек — отвечает24 К =
возможных равновероятных сообщений источника. Чтобы указать среди них пра-
вильное, нужна информация tH(X\Y) бит, т. е. H(X\Y) бит/сек. ►
Конечно, доказательство отдаёт метафизикой, но такова приро-
да утверждения. Это теорема существования: хорошо закодировать
можно, но как — это уже другой вопрос, не представляющий боль-
шого интереса (как показывает жизнь)25.
22Источник генерирует больше информации Н (бит в секунду), чем пропускает
канал.
23Информация Н(Х) — Н(Х|У) проходит по основному каналу.
24См. (11.10).
25 Оптимально кодировать обычно в голову не приходит, потому что достижение
оптимума слишком трудоемко. Не говоря о том, что ещё и декодировать прихо-
дится.
11.8. Помехи в ка нале связи
209
11.8.2 Теорема. Пусть Н бит/сек — энтропия источника, а С
пропускная способность канала с шумом. Если Н С, то при над-
лежащем кодировании возможен практически безошибочный прием
сообщений (с точностью до сколь угодно малой доли ошибок).
◄ Теорема 11.8.2 обычно позиционируется как в высшей степени интуитивно
неожиданный результат. Однако неожиданность здесь проистекает из забывчиво-
сти интуиции, которая не помнит определения С в случае шумящего канала. На
самом деле теорема 11.8.2 не что иное как переформулировка утверждения 11.8.1
при естественном допущении, что корректирующий канал с основным — могут
быть объединены в один.
Вот что происходит в примере с искажением 1% двоичных символов. Если
канал физически способен пропускать 100 бит/сек, — его пропускная способность
равна 92 бит/сек (см. выше). Тогда при Н С, т. е. при Н 92 бит/сек остаётся
8 бит/сек, которых как раз хватает для коррекции. ►
Теорема 11.8.2 обычно дополняется утверждением, что в случае
Н > С по любому е > 0 можно указать способ кодирования, при
котором информационные потери будут не больше чем Н — С + е
бит/сек. В данном контексте — это легкое упражнение.
Коды Хэмминга. Жизнь обычно протекает вдали от фундамен-
тальных ограничений типа абсолютного температурного нуля. Таковы
же ограничения, устанавливаемые теоремами 11.8.1, 11.8.2. Реальное
кодирование больше ориентируется на удобство и простоту. Широкое
распространение получили несколько стандартных схем типа кодиро-
вания по Хэммингу.
Расстояние по Хэммингу h(A,B) между двоичными последова-
тельностями одинаковой длины определяется как число разрядов, в
которых А и В не совпадают. Например, Д(001,100) = 2.
210
Глава 11. Теория информации
Если двоичные последовательности длины п интерпретировать как
вершины куба n-мерного пространства, то h(A, В) представляет собой
минимальное число ребер по которым можно перейти из Л в В.
В случае, когда все расстояния между возможными сообщениями
Л (Л, В) 2, — любая одиночная ошибка (в двоичном разряде) будет
обнаружена, а в случае Д(А, В) > 3 — не только обнаружена, но и
исправлена26.
Идеологическая ясность не устраняет практическую задачу такого
кодирования полезных сигналов, чтобы они были разнесены на за-
данное расстояние. «Зазор» /г(А, В) = 2 легко обеспечивается введе-
нием дополнительного двоичного разряда, в который записывается 0
(или 1), в зависимости от чётности (или нечётности) числа единиц в
кодируемой двоичной последовательности. Большие «зазоры» обеспе-
чиваются иными ухищрениями, но это уже другая история.
11.9.	Укрупнение состояний
Имея дело с тем или иным понятием, полезно располагать удобной
для интуиции моделью. Что касается энтропии, то от содержательной
интерпретации состояний системы всегда можно отвлечься и говорить
только о номерах этих состояний, подразумевая случайную величину
X, которая принимает некоторые значения, например, X = к с веро-
ятностями рк-
Если состояния равновероятны, то Н = log2 п представляет собой
количество двоичных разрядов, необходимых для записи всех чисел
от 1 до п, а Н = 1g п — количество десятичных разрядов, необходимых
для той же цели.
Если состояния не равновероятны, то
н = - log2pfe < log2п
равно среднему количеству двоичных разрядов, необходимых для за-
писи чисел от 1 до п, но — возможно — при их перенумерации (опти-
мальном кодировании).
26 Для исправления ошибочной последовательности С = 0100... 10 надо найти
ближайшую к С разрешенную последовательность А = 0101... 10, которая, в силу
одиночное™ ошибки, находится на расстоянии h(A, С) = 1.
11.10. Энтропия непрерывных сигналов
211
Число состояний может быть даже бесконечно, равно как и число разрядов
оо
необходимых для их записи. Но при условии 22 Pfc — 1 среднее число разрядов
fc=i
будет равно как раз Н.
Так или иначе, но для энтропии важны только вероятности состоя-
ний. Если с.в. X принимает значения 1 и 10 с вероятностями р и 1 — р,
а с.в. Y с теми же вероятностями равна либо 1, либо 1 + 10“99, — то
Н(Х) = H(Y).
Другими словами, энтропия не ощущает неопределённости значе-
ний случайной величины. В то же время ясно, что «близкие» состо-
яния системы иногда можно считать одинаковыми, объединяя их в
одно состояние. Укрупнение возможно и по другим причинам. При
этом энтропия — 52 Рк 1°§2 Рк переходит в
Я = - log2PG, PG = 22 Рк’
keG
причём энтропия укрупнённой (агрегированной) системы всегда мень-
ше или равна исходной. J В случае разукрупнения системы энтро-
пия, наоборот, увеличивается.
11.10.	Энтропия непрерывных сигналов
Энтропия случайной величины X, распределённой с плотностью р(х\
определяется как
Н = — / р(х) log p(x)dx
(11-11)
212
Глава 11. Теория информации
Если X — случайный вектор, энтропия вычисляется по той же фор-
муле с той лишь разницей, что интегрирование ведётся по всему про-
странству.
Аналогия с дискретным случаем легко просматривается, но пре-
дельный переход к (11.11) невозможен, — по крайней мере, в обще-
принятом смысле.
Естественная аппроксимация (11.11) при разбиении оси х на про-
межутки Axk записывается в виде суммы
оо
Нд = - ^2 p(xk)Axklogp(xk),	(11-12)
к=—оо
где Хк — некоторым образом выбранные точки на промежутках Ахк-
Функция р(х) заменяется в результате ступенчатой аппроксимацией,
а рк = р(хк)^хк становится приближённой вероятностью попадания
с.в. X на промежуток При этом (11.12) можно переписать в виде
оо	оо
Яд = - 52 Pfc!°gPfc+ 52 Рк^хк. (11.13)
к=—оо	к=—оо
Фиксация Ах к = £ превращает второе слагаемое (11.13) в констан-
ту с(е). А поскольку не так важно, каков нулевой уровень неопре-
делённости, то (11.11) с розницей в константу приближенно равно
энтропии — ^Рк logpfc. Поэтому, если договориться, что энтропия из-
меряется с точностью, скажем, до третьего знака, то формулой (11.11)
можно пользоваться как хорошим приближением (11.12).
Безболезненному оправданию предельного перехода мешает расхо-
димость с(е) —> оо при € —> 0. Но из сказанного ясно, что большой
беды в этом нет. Определение (11.11) вполне мотивированно, хотя и не
совсем стандартным способом.
Свойства энтропии непрерывных распределений в основном аналогичны свой-
ствам энтропии дискретных распределений. В частности, имеет место аддитив-
ность вида (11.3) и (11.4) при естественной записи условной энтропии с помощью
условной плотности, а также аналоги неравенств из раздела 11.3. Максимум эн-
тропии на ограниченной области достигается при равномерной плотности. ( f )
11.11. Передача непрерывных сигналов
213
Максимум (11.11) при ограничениях
оо	оо
J p(x)dx =1,	j x2p(x)dx = a2
—со	—oo
обеспечивает нормальный закон распределения27
’ft
При этом Н{Х) = log х/2тгесг.
Если случайные векторы X, Y функционально связаны линейным невырож-
денным преобразованием Y = АХ, то
H(Y) = Н(Х) + log det А,	)
что легко проверяется, но заслуживает внимания, ибо здесь выявляются тонкости
перехода к энтропии непрерывных распределений, о которых говорилось в начале
раздела.
Наличие невырожденной функциональной связи Y = АХ в случае дискрет-
ного распределения к изменению энтропии не ведёт, поскольку число состояний
и их вероятности не меняются. В непрерывном случае аппроксимация (11.11) с
помощью разбиения пространства на ячейки («промежутки» AiCfc) претерпевает
изменения при линейном преобразовании переменных. Объёмы ячеек, а значит и
соответствующие вероятности — меняются. Детерминант А даёт как раз коэффи-
циент искажения объёма.
11.11.	Передача непрерывных сигналов
Шеннон, создавший теорию информации [18], начинает изучение не-
прерывных сигналов с теоремы отсчётов28, которая сразу переводит
задачу в ситуацию дискретного времени.
Речь идёт о следующем. Информационная ёмкость непрерывного сигнала x(t)
упирается в барьер точности. Важный ориентир в переплетении обстоятельств за-
даёт неизбежная29 ограниченность спектра x(t). В представлении Фурье30
x(t) = У	О х(р)= J xftje2™^
— оо	—оо
27См. раздел 3.7.
28 У нас её принято называть теоремой Котельникова.
29Из-за конечности полосы пропускания частот любого канала связи.
30 Обычно в преобразовании Фурье вместо у используется круговая частота
ш = 2тг1/, и тогда в первом интеграле появляется множитель
214
Глава 11. Теория информации
в условиях ограниченности спектра: х(и) 0 только при |i/| < Ж, — сигнал x(t)
представим в виде
W
x(t) = J x{v)e~^ivtdv.	(11.14)
-w
Но x(i/), как функция заданная на конечном промежутке [—W,W], может быть
разложена в ряд Фурье с периодом 2W:
оо	гП7Г1/
апе W ,	(11.15)
п=—оо
где, с учётом (11.14),
_Ш7ГР	. z х
ап =----- I х(и)е W du =-------х (----- ) .	(11.16)
2W J V 7	2W \2W J	V 7
-w
Теперь подстановка (11.16) => (11.15) => (11.14) приводит к
x(t) = ——
V 7 2W
ME(n-2Wt)
du,
что после несложных преобразований может быть переписано в виде
sin7r(2Wl — п)
7r(2Wt — п)
(1Ы7)
Формула (11.17) показывает, что любой сигнал x(t) с ограничен-
ным спектром определяется значениями x(t) в дискретном ряде точек,
расположенных с интервалом времени At = 1/2РУ, который Шеннон
называет интервалом Найквиста. Факт может показаться удивитель-
ным, поскольку речь идёт не о приближённом, а о точном воспроизве-
дении сигнала по дискретным замерам. Но это удивление философско-
го характера. На практике, понятно, вопрос точного воспроизведения
никогда не стоит. В условиях ошибок измерения и других погрешно-
стей говорить имеет смысл только об аппроксимациях rr(t), например,
кусочно-линейных, определяемых точно так же значениями сигнала в
дискретном ряде точек. Особая роль соотношения (11.17) заключается
в указании связи необходимого интервала замеров с шириной спектра
сигнала.
11.11. Передача непрерывных сигналов
215
В принципе, можно было бы ориентироваться на какую-нибудь аппроксимацию
x(t) типа полиномов Бернштейна,
Pn(t) =

равномерно аппроксимирующих x(t) с любой наперёд заданной точностью:
|x(t) — Fn(t)| < е. И тогда бы речь шла о передаче конечного числа коэффици-
ентов Pn(t), а теория — развивалась на прежней идеологической базе дискретных
сообщений. Конечно, в поле зрения оказался бы включенным фактор точности, но
в определённых условиях это было бы даже хорошо.
Вернёмся, однако, к точке зрения Шеннона. Если функция x(t)
ограничена временным промежутком Г, а замеры отстоят друг от дру-
га на 1/2TV, то в промежутке Т всего будет 2TW отсчетов31, которые
всегда можно мыслить как координаты точки в пространстве 2TW из-
мерений, причём из (11.17) легко следует
т, . 2TW z ч
/x2^dt = 2W 52 х2 (2^) ’	<11Л8)
о	п—0
что в электросвязи, например, естественно интерпретируется как энер-
гетическое соотношение.
Квадрат евклидова расстояния а:2	оказывается равным 2WE, где
Е — энергия, выделяемая на единичном сопротивлении при прохождении тока x(t)
на промежутке Т. Поскольку Е = ТР, где Р = Dx — средняя мощность сигнала,
то в силу (11.18) все сигналы с мощностью меньшей Р будут расположены в шаре
радиуса г = V2TWP либо г = V2WP, если рассматривать промежуток Т = 1 сек.
С точки зрения помехоустойчивости точки (сигналы) в этом шаре надо рас-
пределять равномерно, чтобы при заданном их количестве они были расположены
как можно дальше друг от друга. Например, при аддитивной помехе:
Y(t) = X(t) + IV(t),
где X(t) — передаваемый сигнал, Y(t) — принимаемый, N(t) — белый шум мощ-
ности D^. В силу независимости X(t) и N(t), мощность (дисперсия) сигнала на
выходе равна
Dy = £>х + Dn.
31 Это очевидно даже без теоремы Котельникова. Найквист, например, рассуж-
дал так. Разложение x(t) в ряд Фурье на промежутке Т содержит TW синусов и
(TW + 1) косинусов — вплоть до частоты W. Для определения (2TW + 1) соответ-
ствующих коэффициентов достаточно ~ 2TW замеров.
216
Глава 11. Теория информации
Объём «шумящего шарика», в силу г = •JQTWDn , пропорционален
(v/ZTIVOjv)2^,
а объём шара выходных сигналов мощности Dy, —
~ (V'27W(PX+OJV))2TW'.
Деление показывает, что маленьких шариков в большом помещается приблизи-
тельно:
/ /---------\ 2TW
~ / / Рх + Dn \
\ у Dn J
т. е. в шар помещается приблизительно такое количество точек (сигналов) раз-
несённых на расстояние, не покрываемое шумом. Для записи этого количества
требуется порядка
TWlog2 ^1 +	разрядов,
что определяет число бит/сек, которое можно передать по такому каналу за время
Т. При Т = 1 сек получается пропускная способность канала:
(11.19)
зависящая от полосы пропускания W и отношения сигнал/шум , Px/Pn-
Несколько «лихой» вывод формулы Шеннона (11.19) имеет два оправдания.
Во-первых, он в чистом виде отражает идею. Во-вторых, на точности соотношения
(11.19) не имеет смысла особо настаивать, поскольку, строго говоря, здесь необ-
ходима масса оговорок. Но сам характер зависимости может служить путеводной
нитью.
Глава 12
Статистика
как g условиях понимания,
Многие процессы,
так и его отсутствия —
протекают одинаково.
Статистика — это теория вероятностей, вывернутая наизнанку. Теория
оперирует вероятностями, практика — статистическими данными, т. е. ис-
ходами опытов, будь то бросание костей, количество аварий, смертей, вы-
здоровлений, денег в казне и т. п.
Из ста миллионов человек опросили тысячу — 333 избирателя за де-
мократию. Какой результат голосования можно прогнозировать, и с какой
надежностью? Если выводы малоубедительны, сколько человек надо (было
бы) опросить, чтобы прогноз был точным? Или — как контролировать ка-
чество продукции, проверяя небольшую часть изделий? Это естественный
для статистики круг вопросов.
За кадром таких задач маячит анализ результатов опыта и определение
по ним вероятностных характеристик случайных величин. Всё это, безуслов-
но, заслуживает выделения в самостоятельный раздел. А если при этом со-
блюдать меру, статистика превращается в симпатичную и полезную ветвь
теории вероятностей. Далее рассматривается идеологическая база статисти-
ки в варианте близком к тезисному.
218
Глава 12. Статистика
12.1. Тактика и стратегия измерений
О задачах статистики какое-то представление все имеют, ибо оные
широко обсуждаются, правда, в выхолощенном виде. А приступая к
изучению новой дисциплины, хочется взглянуть на какие-нибудь её
нетривиальные закрома, дабы вспенить в себе интерес и пробудить
энтузиазм. Но те закрома покрыты бронёй рутины, и пока до них
доберёшься — желание пропадает. Поэтому мы будем несколько на-
рушать общепринятый порядок изложения, связанный с постепенным
восхождением по ступенькам.
Итак, в основе статистики лежат различные способы измерения
(оценки) вероятности тех или иных событий, матожидания, диспер-
сии, корреляции и других характеристик с.в. и с.ф. Но статистиче-
ские измерения необходимо проводить с умом. Это даёт обычно поло-
жительный эффект.
12.1,1 Требуется оценить длины nub двух стержней двумя. изме-
рениями. Измерение любой длины производится с ошибкой е, име-
ющей нулевое матожидание и дисперсию а2. Как разумной органи-
зацией измерения добиться наилучшей точности?
◄ Укладывая стержни подходящим образом, измеряем сумму и разность
длин. Получаем
D — а 4~ b 4- , Е — а — & 4- £2,
где каждая ошибка Ej имеет дисперсию а2 и нулевое матожидание. Оценкой
а служит
+ Е) = а + i(ei + е2),
ошибка i(ei 4- £2) в среднем нулевая, её дисперсия1
4(а	2а ’
1 Аналогичный результат получается для оценки Ь.
12.1. Тактика и стратегия измерений
219
Таким образом, точность возрастает в два раза по сравнению с бесхитрост-
ным измерением стержней по отдельности. ►
Вот другая типичная ситуация.
12.1.2 [11,171 Во время второй мировой войны всех призывников в
армию США подвергали медицинскому обследованию. Реакция Вас-
сермана позволяет обнаруживать в крови больных сифилисом опре-
делённые антитела. Р. Дорфманом была предложена простая ме-
тодика, на основе которой необходимое для выявления всех больных
число проверок удалось уменьшить в 5 раз!
Методика Дорфмана, Смешиваются пробы крови к человек
и анализируется полученная смесь. Если антител нет, то этой од-
ной проверки достаточно для к человек. В противном случае кровь
каждого человека, из этой группы нужно исследовать отдельно, и
для к человек всего потребуется k -h 1 раз провести анализ. Как
найти оптимальное значение к?
◄ Если число п обследуемых делится нацело на к (для простоты), то
на первом этапе проверяются групп. Пусть Xj — количество проверок,
потребовавшихся в j-й группе. Тогда
% _ ( 1, с вероятностью (1 — р)к (в группе все здоровы);
3	[ к 4-1, если 1 — (1 — р)к (в группе есть больные),
где р — процент населения больных сифилисом, т. е. вероятность положи-
тельной реакции Вассермана для случайно выбранного призывника.
Матожидание числа проверок для группы
ЕХ, = 1 • (1 -р)к + (fc + 1) • [1 - (1 -p)fc] = fc+ 1 - fc(l-p)k.
Общее число проверок в среднем:
EXi + • • • + EX„/k =	= п[1 + | - (1 -p)fc]. (12.1)
Далее остаётся минимизировать (12.1) по к при известном р, см. [11], что
уже непосредственно к ТВ не относится2. ►
2Для решения задач по ТВ помимо умения вычислять требуется ещё обеспе-
чение себе пропитания, противостояние безответным вопросам о смысле жизни и
т. п. Не будем же мы обо всём этом писать.
220
Глава 12. Статистика
12.2.	Понятия и терминология
Источником данных в статистике служит многократная реализация
случайной величины X. При этом набор независимых случайных ве-
личин
каждая из которых распределена так же, как X, — называют случайной
выборкой объёма п (иногда выборкой считают реализацию Xi,..., Хп).
Любую функцию 0n = 0n(Xi,..., Хп) именуют статистической ха-
рактеристикой (с.х.), или статистикой. Определению, как отмеча-
лось выше, подлежат вероятности тех или иных событий, матожида-
ния, дисперсии, корреляции и другие характеристики с.в. Например,
оценку матожидания тх можно получить по реализации случайной
величины On = (Xi Ч---|-Хп)/п, которая является одной из возмож-
ных с.х. для определения т%.
Конечно, статистика, сталкиваясь с действительностью, каждый раз вводит ги-
потезу о вероятностной природе наблюдаемых процессов. Бросается ли монета или
берется, скажем, 100 знаков в двоичном разложении числа тг, — теория полагает,
что это есть 100-кратная реализация с.в. X, принимающей значения ноль/один.
Или, скажем, доля леворуких людей равна р. ТВ подменяет реальность совсем
другой моделью, считая для каждого человека вероятность быть леворуким рав-
ной р. Эргодичность тут служит основанием адэкватности модели.
Первое впечатление, что с.х. тривиальны до скуки, отчасти спра-
ведливо, — но они далеко не всегда сводятся к примитивному усред-
нению, как в случае тх (см. далее). Конечно, статистической харак-
теристикой можно объявить любую функцию 0n(Xi,..., Хп), однако,
вопрос в том, насколько она удовлетворительна. Если, например, речь
идёт об оценке неизвестного параметра 0, характеризующего с.в. X,
р
то оценка 0 на основе Оп называется состоятельной^ если 0П —> 0
при п —> оо. Из закона больших чисел вытекает состоятельность сред-
неарифметической оценки матожидания.
В оценках есть также другой существенный аспект. Оценка в на
основе Оп называется смещенной/несмещенной, если матожидание
Е {Оп} ПРИ любом п равно/не равно в.
Состоятельная оценка не обязана быть несмещённой. (? )
12.2. Понятия и терминология
221
Доверительные интервалы. Промежуток, которому принадле-
жит оцениваемый параметр О с вероятностью > 5, называют довери-
тельным интервалом, д — коэффициентом доверия, а 1 — 6 — уровнем
значимости.
О справедливости условия
р{|0 - еп| < 5} 6,
означающего в € (0П — е, Оп + е) с вероятностью 6, можно судить с
помощью неравенства Чебышёва, но это даст, конечно, только грубую
оценку. Соответствующий рецепт очевиден. Если в матожидание X, а
0П его несмещённая оценка, то
1>{|^ - е„| < е} 1 -
Практический способ действий на этой основе заключается в следу-
ющем. Задаётся коэффициент доверия <5 = 1—	откуда е =
=	^(i-<5)/D(en), что определяет доверительный интервал
(0П —е, 0п + е).
В некотором роде здесь заложено противоречие, поскольку на практике обычно
имеется реализация выборки и более — ничего. Цоэтому в получаемых неравен-
ствах «неизвестное» оценивается через «неизвестное». Дисперсию D (0П) прихо-
дится определять по той же самой выборке. Однако противоречие снимается, если
оценки состоятельны. Тогда D (0П) определяется с небольшой ошибкой Д, и
е = V(l-<5)/D(©„) + О(Д),
т. е. влиянием ошибки при определении дисперсии можно пренебречь.
Если речь идёт о достаточно длинных выборках, то можно опирать-
ся на предельные теоремы о нормальности распределения ошибок при
усреднении, что даёт более точные оценки. Пусть, например, оцени-
вается вероятность р некоторого события А по выборке Х±,... ,Хп,
222
Глава 12. Статистика
где Xk принимает значения ноль/один в /с-м опыте, Xk = 1 отвечает
«успеху», т. е. наступлению А. Если для оценки используется среднее
Рп — PG. Ч-----h *n)/n,
то, очевидно,
Е {Рп} = Р, В {Рп} = Р( 1 - р)/п.
При больших п, в силу предельных теорем,
Р{|р - Pnl < E\/Pn(l -Рп)/п} = 2Ф(е),
(12-2)
откуда получается необходимая связь между крайними точками дове-
рительного интервала и уровнем значимости.
Понятно, что строгое решение (12.2) занимает много места, и при-
ходится кстати, если для диссертации не хватает материала. На самом
деле доверительный интервал приближённо равен (рп — ео\рп + ест),
где a = у/Ь {рп}.
Но всё это хорошо работает, когда выборка достаточно велика (прак-
тически, п ~ 102). При малых п приходится «танцевать» от биноми-
ального распределения.
12.3.	Оценки матожидания и дисперсии
В случае существования у с.в. X первых двух моментов выборочное среднее
~ __ Xi + • • • + Хп
-Х-П -	1
п
в силу Е {Xn} = тпх, является несмещённой оценкой. Плюс к тому,
V{Xn} = Dx/n,
что обеспечивает Хп X, и тем более, Хп —> X.
Возникает впечатление, что оценка дисперсии
. _ (X, - Х„)2 + • • • + (Х„ - Хп)2	,
Un —	к
П
12.4. Теория и практика
223
обладает теми же свойствами, но это не так. Очевидно, после раскрытия в (12.3)
получается
_ Х2 + ... + Х2_пх2
Un —	)
71
откуда
— г а -I 1	~ Вх П — 1 _
Е {_Z9n} — —nDx —---—-------DXl
71	71	71
что свидетельствует о смещённости оценки (12.3). Несмещённая оценка:
(IX ь, _ №-^ + - + (Х.-Х^
п — 1
Аккуратный подсчёт показывает:
D {£>„} =	+ 2^4 ~ 2^) +	(12.5)
П	7lZ	71Л
откуда ясно, что при существовании центрального четвёртого момента /14 обе оцен-
л р	р
ки (12.3) и (12.4) состоятельны: Dn —> DXy равно как и D'n —> Dx.
Вопрос о том, какая из оценок (12.3), (12.4) лучше, — однозначного ответа не
имеет. Несмещённая оценка точна по матожиданию, но хуже по дисперсии ошибки.
Случайные векторы. В задачах со случайными векторами выборки рассмат-
риваются покоординатно. Новое обстоятельство заключается в появлении смешан-
ных моментов. Но рецептурно все остаётся по-прежнему.
Например, оценка ковариации
1 п
кху = - V(Xfe - Xn)(Yk - У„)
случайного вектора Z = {X,Y} — в естественных предположениях состоятельна,
но смещена. Несмещённую оценку даёт замена в знаменателе п на п — 1, как и в
случае дисперсии.
12.4. Теория и практика
При необходимости проведения, скажем, опроса населения — чистый
математик оказывается неподготовленным к решению задачи, посколь-
ку на практике существенную роль играют «невероятностные» обсто-
ятельства. Идет ли речь об опросе избирателей, о социологическом
анкетировании или о медицинском обследовании, — из генеральной
совокупности3 необходимо выбрать некоторую долю элементов. Как
3 Генеральной совокупностью называют множество всех рассматриваемых эле-
ментов. Население города, например.
224
Глава 12. Статистика
это сделать? Простейший, казалось бы, вопрос, но на пути его решения
очень много препятствий.
Теоретически ситуация выглядит элементарно. Берётся полный список лю-
дей, — и из него равновероятно выбирается какая-то часть населения. Конечно,
сама организация случайного выбора — непростая штука, но основные трудности —
в другом. Даже общий список с адресами и телефонами может быть проблемой.
Список надо достать, завести в память компьютера миллион адресов, обработать.
Проблемы на этом не заканчиваются. После получения в результате случайного от-
бора списка фамилий приходится «бегать» за каждым респондентом и добиваться
от него согласия ответить на вопросы. География случайного выбора оказывается
крайне неудачной. В результате — повышенные временные и материальные затра-
ты, проблема неответивших и т. п.
Поэтому на практике предпочтение в большинстве случаев отдаётся
более изобретательным технологиям. Можно упомянуть, например,
стратифицированную выборку с предварительным разбиением гене-
ральной совокупности на группы (страты) по какому-либо признаку
и последующим случайным отбором внутри групп. Определённый ин-
терес представляют гнездовые технологии, в которых случайно выби-
рается несколько групп с поголовным опросом внутри каждой. Но все
это, дрейфуя в сторону эвристики, выходит за рамки статистики как
математической науки.
Разумеется, практическая статистика сильно себя скомпрометиро-
вала в экономике и социологии. Но даже в этих «скользких» областях
она остаётся единственным средством решения определённого круга
задач. В то же время, на фоне иногда анекдотических реалий мате-
матические изыскания «о-малых» выглядят схоластическими. Нель-
зя, однако, забывать, что есть задачи, где статистика играет совсем
другую роль. Оценка физических констант и параметров (на основе
12.5. Вокруг основных задач
225
многократных измерений), статистическая оптимизация моделей тех-
нологических процессов и кое-что ещё, где измерения объективны и
есть понимание изучаемых процессов.
При этом извлечение максимума возможного во многих ситуаци-
ях оказывается принципиально. Ошибка статистической оценки доли
поглощаемых нейтронов приводит к атомному взрыву, а плохая обра-
ботка химических анализов поверхностных проб почвы влечёт за собой
холостое бурение километровых скважин.
12.5. Вокруг основных задач
Большие отклонения. В случайных выборках {Xi,... ,ХП}, где Xj неза-
висимые, одинаково распределённые случайные величины, — определённый
интерес представляют большие отклонения, т. е. величины
Yn = max{Xi,... ,Xn}, Zn = min{Xi,... ,Xn},
Функция распределения, например, Yn легко определяется,
n	n
Р{УП a;} = P р|{Х< «С x] = ЦР{Х< x} = Fn(x),
i=l	i—1
где Fn(x) — общая для всех Xi функция распределения. Понятно, что рас-
пределение Yn определяет поведение «правого хвоста» выборки.
Скажем, при условии
lim [1 — F(x)]xa = b, a,b> О,
X—>oo
«нормированная» с.в. = Y^/(bn)1/<a при n —> oo сходится по распределе-
нию к с.в. Q,

О,
х > 0;
х С 0.
(£-)
Статистика успехов в схеме Бернулли. При изучении суммы Sk =
= Xi Ч----F Xfc, где «успех» Хп = 1 достигается с вероятностью р, соответ-
ственно Хп = 0 — с вероятностью 1 — р, — удобно рассматривать нормиро-
ванную сумму
Sk = ^=^,	а2=р(1-р).
стук
226
Глава 12. Статистика
Теорема Муавра - Лапласа гарантирует сходимость Sk к нормальному
распределению N(0,1), что означает
lim Р{а Sk 0} = Ф(£) - Ф(а).	(12.6)
71—>ОО
На практике, естественно, возникает вопрос о соотношении к и границ
доверительного интервала, при котором из (12.6) можно убрать lim , не
к—>оо
слишком нарушая равенство.
Критерием здесь может служить величина х3/о\/к < е. При больших х
и &, но малых е,
—х2/2
Р{я:	« 1 — Ф(а:) «	^=-,
x\/2tv
что подтверждается несложными выкладками [17].
При малом объёме выборки приходится пользоваться для оценки Sk точ-
ным биномиальным распределением, но тогда возникают неудобства счёта,
снова ведущие к огрублённым оценкам.
Закон повторного логарифма. Идеологически другая задача возни-
кает при попытке оценить поведение возможных траекторий Sk в целом.
Несмотря на нулевое матожидание и единичную дисперсию с.в. Sk (при
любом &), — в любой типичной реализации последовательности
будут встречаться сколь угодно большие значения. Из этого расплывчатого
соображения можно извлечь точную закономерность: верхний предел
с вероятностью единица.
Это так называемый закон повторного логарифма Хинчина.
Если вернуться непосредственно к сумме Sk, то (12.7) означает, что при
достаточно больших к типичные траектории не выходят за пределы
Sk С кр + а\/2к Inin А:.
От «хи-квадрат» до Стьюдента. Статистике присуща некоторая за-
цикленность на определённых законах распределения. Одним из таковых
является хи-квадрат распределение, с плотностью р(х) = 0 при х < 0 и
= 2п/2Г(п/2)а;П/2~1е~Д/2 при а:>0’
12.5. Вокруг основных задач
227
где Г — гамма-функция4, а целочисленный параметр п называют числом
степеней свободы.
Так распределен квадрат вектора х — {^1, • • • > -^п},
х2 = х12 + --- + х^,
с нормальными координатами Xfc, имеющими нулевые матожидания и еди-
ничные дисперсии.
При п = 2 х2 -распределение совпадает с показательным.
Ещё один «предмет обожания» — распределение Стьюдента
(^-распределение) имеет случайная величина
t = JnXlyfi?,
где п число степеней свободы, с.в. X имеет нормальное распределение N(0,1),
2
а х распределена по закону «хи-квадрат».
Распределение t,
P{t<x}=	hl + s^ny^^ds,
у27гГ(п/2) J
—оо
не очень подходит для запоминания. Но по таблицам — при необходимости —
считается, а при больших п мало отличается от Х(0,1), и слабо сходится к
N(0,1) при п -> оо.
На практике распределение Стьюдента широко применяется5 в следу-
ющей стандартной схеме. Для независимых Xi,...,Хп, распределённых по
закону N(m, ст2), лучшие несмещённые оценки т и а2 дают статистики
*	Х1+-+Х„ Л (Х1-Хп)2 + --- + (Хп-Хп)2
п	п — 1
При этом	подчиняется закону N(0,1), с.в. &—= х2 ~
&	сг
закону «хи-квадрат», а отношение
(Х„-т)/<7 =	_ т)/^
^/bn/a2
4Г(р) = J x''-1e~xdx.
О
5По крайней мерю, так говорят.
228
Глава 12. Статистика
оказывается распределённым по Стьюдентпу, что позволяет точнее6 оцени-
вать доверительные интервалы по заданному уровню значимости [15]. Неко-
торые тонкости, оставшиеся за кадром, требуют громоздких выкладок при
незначительном «идеологическом эффекте».
Метод максимального правдоподобия Фишера. Пусть имеются
случайные величины Xi,... , Хп, которые независимы и одинаково распре-
делены с плотностью ре(х). Необходимо изобрести наилучшую оценку
еп = еп(х1,...,хп)
параметра 0. Идея «метода» заключается в максимизации совместной плот-
ности
п
р0(Т1,...,Жп) =
к—1
распределения случайных величин Х±,..., Хп при полученных реализациях
Ж1,...,хп. Функция @п = @п(я?1,...,хп), обеспечивающая такой максимум,
называется оценкой максимального правдоподобия.
Идея вполне изящная, и в простых ситуациях7 хорошо работает. Но кру-
гом «мины», о которых легко догадаться, поскольку распределения и уста-
новки оптимизации могут быть другими. Естественно, например, миними-
зировать дисперсию Е{(ОП — 0)2}, что в общем случае будет приводить к
иным решениям. Обнаруживается, правда, интересный факт — неравенство
Рао - Крамера:
Е{(е„-0)2} 1//п(0),	(12.8)
где
1п(0) = Е 1пре(Х1,...,
— количество информации по Фишеру 8.
Достаточные статистики — другая идея Фишера. В случае, например,
нормального распределения ре (х) со средним О вся информация о О содер-
жится в оценке On = (Xi + • • • + Хп)/п, что вытекает из независимости
распределения
{Xi-en,...,xn-en}.
6По сравнению с грубыми оценками, базирующимися на неравенстве Чебышева.
7Типа оценки вероятности в схеме Бернулли либо параметра распределения
Пуассона.
8При обращении (12.8) в равенство оценку называют эффективной.
12.5. Вокруг основных задач
229
Это означает, что после подсчёта среднего арифметического выборки — сама
выборка перестаёт быть нужной, из неё уже ничего дополнительно не вы-
жмешь. При этом ясно, что при наличии обратимой функциональной связи
Тп = 99(©п) статистика Тп остаётся достаточной, поскольку 0П можно вос-
становить. Это замечание подчеркивает тот факт, что в «достаточности»
определяющую роль играет присутствие в оценке всей информации. Как
конкретно оценивать — другой вопрос.
В общем случае набор функций
5i(Xi,...,Xn),...,Sfe(Xi,...,Xn)
считается достаточной статистикой относительно 0, если совместное распре-
деление Xi,..., Хп при фиксированных Si,..., Sk не зависит от 0. Опреде-
лять, конечно, легко — пользоваться трудно.
Парадокс Фишера. Для двумерного нормального распределения с не-
зависимыми координатами, имеющими единичные дисперсии и неизвестные
матожидания 01,02, — обычное среднее {01,0г} двумерной выборки явля-
ется достаточной статистикой для пары {01,0г}-
Вектор {01,02} можно описывать в полярных координатах (г, 0), оцени-
вая 0 по тангенсу tg(02/0i), а г по величине + 0|.
В силу взаимной однозначности декартовых и полярных координат оба
варианта статистики достаточны. Но распределение ^/^1+^2 и3-33- сфе-
рической симметрии относительно точки {01,0г} не зависит от 0. Отсюда
(вроде бы) следует, что информация об г ничего не добавляет к информа-
ции о 0. В то же время ясно, что Е{(0 — 0)2|г} зависит от г (тем сильнее,
чем меньше г), и это легко подтверждается вычислением.
Главная причина видимого противоречия заключена в определении до-
статочности. Информация не потеряна, но отсюда вовсе не следует, что
0 = arctg(02/©i) — хорошая оценка. Почему бы, например, оценивая 0,
не танцевать от синуса отношения 02 /	+ @2 ?
О статистических заблуждениях. Не слишком утрируя действитель-
ность, допустим, что медики провели эксперимент по оценке влияния сред-
ства «чирике» на заболевание «чикс». Контрольной группе давали плацебо.
Гипотетические данные по Калуге и Рязани приведены в таблицах.
230
Глава 12. Статистика
Калуга	чирике	плацебо
помогло	10	1
безрезультатно	80	9
10 1
10 + 80 > 1 + 9’
Рязань	чирике	плацебо
помогло	10	89
безрезультатно	0	1
10	89
0+10 > 1 + 89’
Объединение результатов рождает химеру. В Калуге и Рязани чирике
эффективнее плацебо, в целом — наоборот.
Калуга+Рязань	чирике	плацебо
помогло	20	90
безрезультатно	80	10
20	90
20 + 80 < 10 + 90’
На абстрактном уровне речь идёт о следующем. Из
6
£i + pi Ai + Bi ’
& > Аъ
£2 + ^2 А2 + В2
иногда делается поспешный вывод о справедливости неравенства
£1 + £2	_______^41 + А2________
£1 + vi + £2 + Ai + Bi + А2 + В2 ’
к чему нет никаких предпосылок.
Самое неприятное, что такого рода статистика — в облике экономических
показателей и рейтингов — сваливается на нас со страниц вполне респекта-
бельных газет.
Глава 13
Задачи и факты
Путь к себе — есть путь отказа,
Колдовство.
Ох, и спрятано, зараза,
Естество.
В главе собраны задачи, как правило, с решениями, и факты эталонного зна-
чения, разбросанные по тексту, а также по другим источникам. На длинные ре-
шения — даются ссылки, короткие решения повторяются, особенно те, которые
демонстрируют рецепты действий и стереотипы мышления.
О задачах тренировочного характера необходимо сказать следующее. Их роль
в учебном процессе, разумеется, первостепенна. Но они бывают двух типов, на
что важно обратить внимание. Более распространены рутинные задачи, каковых
решить требуется миллион с хвостиком, что скучно и потому малоэффективно.
Другое дело — образцовые, эталонные, показательные задачи, каковые — штуч-
ный товар. И хотя одолевать их трудно, а действовать надо по-другому, варьируя,
углубляясь, отходя в сторону и обозревая с высоты птичьего полёта, — одна такая
задача равносильна букету рядовых упражнений, причём в её тени располагаются
часто целые сектора изучаемого предмета. И к слову сказать, такие задачи обычно
не настолько сложны, чтобы распугивать аудиторию.
232
Глава 13. Задачи и факты
13.1.	Элементарная теория
13.1 Л Какова вероятность того, что при двух последовательных бросаниях
симметричной монеты хотя бы один раз выпадет герб?
◄ При двукратном бросании возможны 4 равновероятных варианта:
ГГ, ГР, РГ, РР.
о
Искомая вероятность: ►
13.1.2 Из колоды карт (52 листа) вытаскивается. 7 карт. Какова вероят-
ность, что среди них 3 короля и 2 дамы ?
◄ Число благоприятных вариантов равно С4С4С44. Искомая вероятность:
С3/пг2/пг2
__4С|°44 k
^52
13.1*3 В урне т белых и п чёрных шаров (т > 1). Извлекаются два шара.
Найти вероятность того, что оба шара будут белыми.
◄ Число благоприятных вариантов равно (7^, всех вариантов — Ст+п- ИСКО-
СА
мая вероятность:	►
^7П+П
13.1.4 В урне п белых шаров, т ~~ черных. Извлекаем наугад к шаров. Какова
вероятность, что среди них будет ровно з белых?
◄ Очевидно, число всех способов извлечения шаров С^т, благоприятных —
<7£C£ts. Отсюда
13.1 >5 В урне п пронумерованных шаров от 1 до п. Шары извлекаются один
за другим с возвращением (в урну), Сколько извлечений в среднем потребуется,
чтобы каждый представитель комплекта 1,2,... , п был извлечён хотя бы один
раз?
13.1. Элементарная теория
233
◄ После извлечения первого шара и его возвращения — вероятность извлечь во
второй раз новый номер равна п ~ Поэтому извлечение нового номера потребует
в среднем —испытаний, см. (3.1). Третий номер потребует в среднем —
П X	п ~
испытаний и т. д. Таким образом, среднее число испытаний для извлечения всех
номеров 1,2,..., п равно* 1
п Г—|------— + ••• + — + 1^ . ►	(13.1)
\n п — 1	2	/
13.1.6 Колода карт делится наугад пополам. Каково вероятность, что в
каждой половине окажется по два туза?
◄ Число всех вариантов выбора Cg® • Благоприятных способов	Искомая
вероятность
13.1.7 Какова вероятности при сдаче получить все 6 карт одной масти?
◄ Выбрать 6 карт из 52 есть Cf2 способов. Благоприятных способов имеется
4 • Cf3, поскольку выбрать 6 пик из 13 есть Cf3 вариантов, и так по всем четырём
мастям. Искомая вероятность
13.1.8 При размещении п шаров по и ячейкам вероятность того, что все
ячейки будут заняты, равна nl/n^.
13.1.9 При размещении k шаров (дней рождения) по 365 ячейкам (дням) ве-
роятность того, что все шары попадут в разные ячейки, равна Лзцб/365^,
гДля вычисления (13.1) при больших п, и даже не очень больших, удобна фор-
мула Эйлера
. 11	1	,
1	~ Inn + 7 + £п,
о	72»
где еп -> 0, 7 ~ 0,58 — постоянная Эйлера.
234
Глава 13. Задачи и факты
13.1.10 Из 5 буке 2	«б», 2	«р?, l * «к», 1	«д», ^наугад складыва-
ется слоев, Какова вероятность, что получится ^абракадабра»?
◄ Из такого набора букв можно сделать
11!
Р(5,2,2,1,1) = —— = 83010
5!2!2!
различных буквосочетаний. Искомая вероятность gggiO ’
13-1.11 Рероятн.остъ, что в записи случайно ыыбранного восьмизначного чис-
дЯ
ла участвуют только цифры 1, 3, 5f 7, равна “g?
13.1.12 Равновероятно-выбираются k чисел
Ф1Л * * ‘
из N первых по счету. Какова вероятность, что max хj = A F
◄ Вероятность попадания Xj в диапазон С X равна ^,ав диапазон (X—1) —
равна -	. Поэтому при fc-кратном выборе
max®,-
k э
(13.2)
13.1.13 По равновероятной выборке к чисел из N первых по счёту — оценить
неизветит)г. N.
◄ Если с.в. X = maxzj, то вероятность Р{Х} определяется формулой (13.2),
з
откуда при достаточно больших N
Е / VI ~	D / VI ~
{ ' fc + Г { ' (к + l)2(fc + 2)
fc + 1
Поэтому N оценивается величиной ------X. Детали уточняются в рамках идеоло-
ге
гии сходимости (глава 5). ►
13.1. Элементарная теория
235
13.1.14 Парадокс Кардано, При бросании двух шестигранных костей сумма
выпавших насел получается равной 9 или 10 в двух вариантах:
сумма 9 <=> (3,6) (4, 5), сумма 10	(4, 6) (5,5),
Но вывод о равенстве вероятностей этих событий - ошибочен. Способов ро~
лучения сумм 9 и 10 на самом деле больше., и их количество разное:
сумма 9 <=> (3.6) (6,3) (4,5) (5,4). сумма 10 О (4,6) (6,4) (5.5).
t
Таким образом, из 36 возможных пар чисел 4 пары дают « сумме 9, й только
3 — 10. Вероятности, соответственно, равны 4/39 и 3/36
13.1.15 Какое из событий более вероятно: (г) выпадение хотя бы одной
шестёрки при подбрасывании 6 костей, (ii) хотя бы двух шестёрок при под-
брасывании 12 костей, (Щ) хотя, бы трёх шестёрок при подбрасывании 18 ко-
стей2 ?
◄ Вероятность выпадения к шестёрок при п бросаниях равна Рк-.п =
( С\к (ъ\П~к
= Ск ( g ) ( ^ )	’ см‘ п* биномиальное распределение. Поэтому при 6п бро-
саниях вероятность выпадения не менее п шестёрок — равна
6п / 1 \ к /к\6п—к	п—1	/1\к /к\вп—к
— Е<*(	|) =>-£<&) ) 
к—п	к—О
Не зацикливаясь на вычислениях, укажем pi:6 — 0,67, р2:12 — 0,62, рзлв — 0,6. ►
13.1.16 Имеется три картонки. На одной — с обеих сторон нарисована буква
4, на другой — В. На третьей картонке с одной стороны А, с другой - В. Одна
из картонок выбирается наугад и кладется на стол Предполож'им, на видимой
стороне картонки оказывается буква 4. Какова вероятность, что на другой
стороне тоже 4?
◄ «Одна вторая», — ошибочно отвечает интуиция, и причина заблуждения
далеко не очевидна. Дело в том, что картонка не только случайно выбирается, но
и случайно укладывается на одну из сторон. Поэтому логика здесь такая. Всего
имеется шесть нарисованных букв, из них — три буквы А, две на картонке АА и
одна — на АВ. Букву А из АА вытащить в два раза более вероятно, чем из АВ.
Получается, вероятность того, что на столе лежит картонка АА, равна . ►
2 Этой задачей Сэму эль Пепайс пытался отвлечь великого Ньютона от Косми-
ческих проблем.
236
Глава 13. Задачи и факты
J Вероятность Р(В|А) наступления события В при условии наступления
события А, — называют условной,
откуда
Р(АВ) = Р(А)Р(В|А),
что именуют формулой умножения вероятностей.
/ Разбиение Q на полную группу несовместимых (непересекающихся) со-
бытий Ai,..., Ап позволяет любое событие В записать в виде
В — BAi Ч~ • • • ВАп,
откуда Р(В) = P(BAi) Ч----|-Р(ВАп), что приводит к формуле полной вероят-
ности:
Р(В) = P(B|Ai)P(Ai) + • • • + Р(В|Ап)Р(Ап)
Формула Байеса,
Р(А.\В)= р(в|^)р(Л)
( jl } EfcP(B|Afc)P(Afe)’
интерпретируется как правило определения апостериорных вероятностей
P(Aj|B) по априорным Р(Ак).
13.1.17 Оценка плана военной операции (предположительно успешного на
80%, по статистике) была поручена двум вычислительным Машинам. Мишина
Ml, ошибающаяся в 5% случаев^, оценила план как провальный. Машина М2,
ошибающаяся в 10% случаев, пришла к противоположному заключению. Какой
машине верить'/ см. раздел Т.7.*
13.1.18 По некой цели стреляют двумя ракетами. Первая поражает цель
(событие Ар) свероятностью р. вторая (событие Aq) - с вероятностью q.
Какова вероятность, что цель будет поражена?
◄ Поскольку Ар, Aq независимы, то P(ApAg) = Р(Ар)Р(Ад) = р • q. Искомая
вероятность равна,
Р(Ар + Aq) = Р(Ар) + P(Aq) - P(ApAq) = р + q - р • q. ►
1'3.1.19 Какова вероятность, что взятое ’наугад число делится на 7?
13.1. Элементарная теория
237
◄ Возьмём первые N чисел натурального ряда. Среди них к штук будут де-
литься на 7, если N = 7к + г, г <7. Вероятность делимости числа, меньшего 2V,
на 7 будет равна
_ (N - r)/7 _ 1	г
Р~ N	~ 7	7N
Устремив N —> оо, получим р = у. ►
13.1.20 (П. Л. Чебышев) Берутся наугад два целых числа. Какова вероят-
ность того, что они взаимно просты?
 ’..£•*	' З? '*	'	* j:.W	’•'	•. '&¥.>:>?:А:... „ А	~	. ч Л V	•.	,	~	С:>vS-Л..«хА ж, •. ч
◄ Решение в разделе 1.9. ►
13.1 .21 Задача о выборе невесты. Потенциальному жениху приводят по-
следовательно п девушек. В любой момент он может остановиться: «вот моя
невеста», — но возможности вернуться к какому-либо предыдущему варианту
нет. Какова оптимальная стратегия выбора ? Думать можно над эквивалент-
ным вариантом.: последовательно просматривая. числа	в какой-то
момент надо остановиться и выбрать как можно большее.
◄ Среди стратегий «просматриваются первые т чисел, после чего выбирается
первое же, превосходящее все £i,..., £т — максимальную вероятность выбрать
наибольшее £к даёт т ближайшее к —. ►
13.1.22 Задача Банаха. В двух коробках имеется по п спичек. На каждом
шаге наугад выбирается коробка, и из нее удаляется одна спичка. Найти веро-
ятность рк того, что в момент оконча-ния. процесса, т. е. опустошения одной
из коробок, в другой ™ остается к спичек.
◄ Если одна коробка пуста, а в другой — к спичек, это означает, что спич-
ки брались 2п — к раз, причём п раз из (теперь уже) пустой коробки. Поэтому
рк = с^_к/2^-е>.
238
Глава 13. Задачи и факты
13.1.23 На рынке ценных бумаг имеется два mana акций, Si и $2, по 100
долларов каждая, прибыльности которых зависит от трудно проёнозируёмьсх
событий А и ЙА кция Si dnepi либо $8 либо $2 прибыли; iA? соответствен^
но, - либо минус $4 г мбо плюс бЦ. Компактно ситуации лапите^ « «udr
таблицы
4 - *	8
В	2
4
8Й
:141
Столбец отвечает выбору акции; строка -- неизвестным заранее обстоятель-
ствам Л или П. Покупать акции рискованно (могут оказаться убыточ-
'"§'[ ;-4\бсегд:^^^Мд6к^1о яЦ:-из
ситуации гарантированно ^выжать» 5% прибылиf
◄ Если акции Si, S2 купить в количестве xi, Х2 штук, то минимальная при-
быль5 будет равна
либо di =--------(8x1 — 4x2)%, либо d>2 =--------(2xi + 14x2)%.
xi + х2	Х1 + Х2
Максимум гарантированной прибыли min{di, cfa} обеспечивает равенство6 di =
= d2, достигаемое при xi : Х2 = 3 : 1. В этом случае средний выигрыш одной акции
равен
di = &2 = min{di,d2} = 5%,
независимо от обстоятельств (А или В). Таким образом покупка потенциально
убыточных акций поднимает гарантированную прибыль с двух до пяти процен-
тов. ►
Когда в описанной ситуации денег хватает

на покупку лишь одной акции, конструкция рассыпается. Но тут выручает, вроде
бы, идея подключения вероятностного механизма. Вместо бессмысленного теперь
«xi : Х2 = 3 : 1» организуется случайный опыт с вероятностями р\ и рг, находящи-
мися в том же соотношении «pi : Р2 = 3 : 1», и покупается Si или S2 в зависимости
от испытания. Сей трюк лежит в основе концепции смешанных стратегий, како-
вые в игровых обстоятельствах были в своё время настоящим открытием. Но тут
не всё так безоблачно, как многим кажется, см. раздел 1.11.
5 В пересчёте на одну акцию.
6 Если, например, di < d2, то слабо меняя соотношение xi : Х2, величину di
можно увеличить, не нарушая условия di < d2, увеличивая тем самым гарантиро-
ванный минимум.
13.2. Случайные величины
239
13.2.	Случайные величины
13.2.1 Допустим, Р{Х Р{¥ < 0}	1/2,	случайные
X tx ¥ независимы, Вытекает ли	P{X 4 V 4 0)	1/2 F
◄ He вытекает. Если X, Y независимо принимают значения {—1,2} с вероят-
ностями 1/2, то Р{Х + Y 0} = 1/4, поскольку X + Y 0 только в одном случае
X = Y = — 1, в одном — из четырёх возможных. ►
13-2-2 Парадные траНви^пиегн^сти, Сравнив^ы ^унрй^ы е веяпчи'ны Х цИ
будем говорить «X больше Y по вероятности». - если
Р{Х > ¥} > Р{Х < ¥};
т. е. вероятность неравенства X > ¥ больше 1/2.
Допустим теперь, что пространство элементарных событий 0 состоит из.
б точек, в которых с.в. X, У , Z, W с равной вероятностью 1/6: принимают
значения. согласно таблице7.
1	9
◄ Очевидно, X = 6 с вероятностью В этом случае X > Y независимо от
о О
2	4
значения Y. С вероятностью величина X равна 2. Тогда X > ¥, если ¥ = 1,
1 Я
что имеет вероятность . Поэтому, с учётом формул умножения вероятностей
и суммы непересекающихся событий, итоговая вероятность неравенства X > Y
равна
1	2 12
3 + 3 2 “ з'
Аналогично подсчитывается, что Y > Z, Z > W, — с той же вероятностью
Получается цепочка неравенств
2
3‘
X > Y > Z > W.
Возможность W > X представляется в некотором роде дикой. Тем не менее, W > X
с вероятностью ►
О
240
Глава 13. Задачи и факты
13-2.3 Парадокс ожидания серии. Какая в случайной «01 »-послсдователь-
ншчпи комбинация, 00 или 01, появится раньше? Очевидно. равновероятно, по-
скольку после первого появления нуля на следующем шаге возникнет либо 0,
либо 1, — с вероятностью 1/2. Напрашивается вывод, чпш среднее число ша-
гов (среднее время ожидания) rngg итм до появления, соответственно, серий
00 либо 01 - тоже одинаково. Но это не так. < см. п. 2.1.3. ►
ii! ii fiiii® ii • 1 Ifiiti il il!ieii®ii' •• I
13«2Л Стержень AB ломается в т.очках Р и Q на
три куска. Какова вероятность того, что -из них
можно сложить треугольник ?
◄ В случае х = АР, у = PQ возможность сложить треугольник описывается
неравенствами
I	,	I
-<х + у<1; х,у<~,
которым на рис. справа удовлетворяют внутренние точки треугольника EFG. Если
все точки {ж, у} равновероятны, то искомая вероятность
р _ Saefg _ 1
StztCD 4
13.2.5 Во время боя. в течение часа в корабль попадает два снаряда. Для за-
делки одной пробоины требуется 15 минут. Если пробоина ещё не заделана,
а в корабль попадает второй снаряд, — корабль тонет. Какова вероятность
потопить корабль?
◄ Если времена попаданий снарядов ti и t% равномерно распределены по квад-
рату S размера 60 мин х 60 мин, то искомую вероятность даёт отношение площади
многоугольника
{|«1 -<2| < 15} Qs
к площади квадрата S. ►
13.2.6 Задача Вюффона. Игла длиной I бросается на плоскость, разграф-
ленную параллельными прямыми, отстоящими друг от друга на расстоянии
21. Какова вероятность того, что игла пересечёт одну из параллелей?
13.2. Случайные величины
241
◄ Если х — расстояние от центра иглы до ближайшей прямой, а ср — угол между
иглой и прямой, то по смыслу задачи 0 а? Z, —	• Поэтому множество
всевозможных х, ср — прямоугольник S с площадью !тг. Игла пересекает прямую,
тг/2
если х I cos (р, что в S высекает фигуру площади f I cos ipdip = 21. Поэтому
— 7г/2
9Z 9
искомая вероятность р =	= —. ►
17Г 7Г
13.2.7 Случайная величина, принимающая значения из ограниченного проме-
жутка, всегда имеет матожидание. При распределении на бесконечном проме-
жуткв - не. обязательно. Пусть с.в. X распределена по закону Коши с плот-
ностью
р<Л Й 7"	•
7Г( I f ЯГ)
Тогда
/ Биномиальное распределение
имеет сумма
Sn = Xi + • • • 4- Хп,
где все с.в. Хк независимы и принимают два возможных значения 1 или 0 с
вероятностямир uq = 1— р. Сумма принимает значение Sn = к с вероятностью
Рк-
Легко проверяется:
Е {Sn} = пр, D {Sn} = пр(1 - р), Е {[Sn - пр]3} = пр(1 - р)(1 - 2р).
/ Вероятность появления к нулей перед первым появлением единицы рав-
на рк = pqk- Совокупность этих вероятностей (при к = 0,1,2,...) называют
геометрическим распределением. Геометрическое распределение имеет с.в.,
равная числу испытаний до первого успеха.
242
Глава 13. Задачи и факты
ХЗ.2.8 Пустъ uwwnw независимых случайных величины X V с функци-
ями распределения Fl£( ) н плотн^столми Г?Д), Teeda сумма с.«, Я' = Ж 4 У
имеет ф.р.
aa
£*(«)» у
- ле>
ДИл плотностей распределения полопается аналогичная формула
л»
ГЧ<>) '= j M-v y)pv(y}dy.
-~'СЫ
◄ Свёртку ф.р. Fz(z) полезно сначала продумать на примере дискретных
с.в. Пусть X,Y принимают числовые значения, соответственно, в множествах
{xi,... ,zn}, {3/1, • • • ,2/тп}- В этом случае
Р{Х + Y = Z} = £>{* = Xi, Y = ад},
что для независимых с.в., Р{Х = Xi, Y = yj} = Р{Х = Жг}Р{У = т/у}, обращается
в
п
Р{Х + Y = Z} = 22Р{Х = ш.}Р{У = yj} = 22Р{Х = iJPfz - ач},
ij	г=1
где вероятность P{z — ж»} полагаем равной нулю, если
Z-Xi$ {2/1, --- , Утп}- ►
13.2.9 Максимум двух независимых c.e.? Y ^шах(А\ У)т
р ({* с	3>) --	(?.)
13*2.10 Минимум двух независимых с* в*, Я шш( X, Y V
FAz) -Т Р ( {т ч r| |J{yЛ г Q -
“ Fx(^)4 Fviz) -	-
13.2. Случайные величины
243
13.2.11 Пусть с.в. X, Y центрированны (для простоты). Найдём при-
ближение V случайной величиной Z оХ по квадратичному критерию:
Е(У - Z)2 — Е(У - оХ)2 —> min. Приравнивая нулю производную Е(У * аЛ)2
по а. получаем 2Е {(У - <хА')Х' } == 0. откуда а == соу(ХУ )/D(X)j тп. е. при
ненулевой ковариации (корреляции) между X и Y существует «линейная .за-
висимость» вида \ — аХ f РУ с ненулевым Коэффициентом п v. .случайной
величиной W - Y -Z некоррелированной с X, cov( X И7) ~ 0.
13.2.12 Случайные величины X и У=Х2 связаны жёсткой функциональной
зависимостью, но при равномерном распределение X в промежутке [и 1 ? 1], -
их ковариация равна нулю*
,. .. к	f г2 - ту'} .
cov(A Y) j .........dx = О,
поскольку линейная составляю^цая взаимосвязи отсутствует.
</ Распределение Пуассона, как и биномиальное, является дискретным,
и характеризуется вероятностями
ак
P(X = k) = —e-
Ki
(к = 0,1,...).
ОО
Вычисление показывает, что а = кР(Х = к), т. е. параметр а есть
к=о
матожидание с.в. X, распределённой по закону Пуассона. Дисперсия X тоже
равна а.
/ Нормальный закон распределения, обозначаемый обычно как 1^(тх, <т2 )
имеет плотность
(х-ТПх)2
р(х)=-----==е
аху2к
однозначно определяемую матожиданием тх и дисперсией а2.
Функция распределения N(0,1) имеет вид
244
Глава 13. Задачи и факты
13.3.	Законы больших чисел
13-3.1 Пусть некоррелированные случайные величины имеют одно и то
оюе матожидание р и одну и ту же. дисперсию сг2. Тогда среднеквадратичное
Q
уклонение от матожидания стремится к нулю. Точнее,
D 2 --- \ — —- -> () при П -+ ОО,
L п J п
сг
причём растёт в среднем пропорционально Ц \/п, имея постоянную диспер-
у/П
сию <т 2.
В данной теме это простейший результат. И тут в первую очередь надо обра-
тить внимание на доказательство, которое банально вскрывает элементарный ме-
ханизм, лежащий в основе. ◄ В силу некоррелированности, Е (Xi — p)(Xj — р) = О
при г 7^ j. Поэтому
2
’£(Х4-Д)'
£(х.-м)2
.2
D
Е
= Е
п
п2
п
а
Аналогично рассматривается —£=.
у/п
Несложные вариации утверждения 13.3.1 см. в разделе 4.1. На них тоже стоит
обратить внимание, поскольку они раздвигают границы.
13.3.2 Лемма Бореля— Кантелли^ см. раздел 4.2-
(!) В любой последовательности событий А^Аъ,...	— при условии
оо
P(Afe) < оо — с вероятностью 1 происходит лишь конечное
к-Л
число событий Ап,
(И) В любой последовательности Аз/Аг,... независимых событий — при
<х>
условии Р(А^) по “ е вероятностью 1 происходит бесконечное
число событий Лп.
13.3.3 Пусть некоррелированные случайные величины Х^ имеют нулевое ма~
тооюидание и •конечный, 4-й момент. Тогда (см. раздел 4'^)
Р hm ---------------- ~ 0 1	1.
уп-хсю	п	J
13.3. Законы больших чисел
245
13.3.4 Задача. При п бросаниях монеты серия из гербов длины hg2n ноблю-
даётся с ыщоятностъю, стремящейся к 1 при п .-4 ас. (	1
13.3.5 Задача. Па, фоне обязательного присутствия длинных чистых серий
(только гербы или только решётки) средняя длина чистой серии равна 2. Для
любой несимметричной монеты, выпадающей гер бом с вероятностью р 6 {0. 1),
матожидание длины нечётных по числу бросаний серий равно д —♦ я
четных - равно % незав?и'имо <т>- р
13.3.6 Задача. Пусти Sfl ~ Xi Д •, • 4- ХПд где Л\. принимают значения 1.0
с вероятностямиpk> 1 рк (каждый раз бросается другая монета)* При поле-
Ленил разброса вероятностей р& относительно р -	дисперсия 8п
уменьшается.
13.3.7 Теорема	Пусть Хг ш-зависимые случайные величины с одина-
ковым распределен и ем и матожиданием. у. Тогда
о ( r Xj 4- • ’ f Х^
р [ |1т . .........
= д ) - 1.
Н
Пели зюе матажзидание Xi не существует» им б
...
п •?’•’
Р [ Пт
13.3.8 Теорема 4ДЛ. Пусть незав^^сНмме с.в. Хч распределены на [0Л] с
плотностями pi(xi)} причём все pt(xi) > ё > 07 а последоввтелйность функций
ДДх’х,---хл) удовлетворяет нерменствам
||Mra<ifn(a:)|| <	х f. Сп ~ [О, J| х • • - х [0. 1|.
Тогда при уп < 7 < ос дисперсия D {jT } ограничена некоторой константой} не
зависящей от п. Нели ясе Он стремится к нулю с ростом пг то
Т) {fn j 0 при п -~з ос,
т е. гтслсдооателъностъ функций /Дх) мсл/мптотически иосгпоянна
СГ1 [О, I] х > х [0J]..
246
Глава 13. Задачи и факты
13.4.	На платформе сходимости
13.4>1	Xn (W»W*
p
к c.e. X no вероятности. X7i —> X, если для любого е > О
Р;(|ХП - X] > d >U при р; и по
13-4.2 Определение. По^едователъность случайных величин Х-п (лодитсм
& с.в. X почти наверное (синоним; «с вероятностью 1»ф, Хп Х\
Ый
P{]Xfc — Ж <М\ & -> «} -4’I при тг-*ов
13.4.3 Определение. 11оследооателыюстъ случайных величин Х« сходится
к с.в. X в среднеквадратическом. Х^ -—Ц X. если
Е (Хп - XJ" 0 при п X
13*4«4 Определение. Цослсдователунос.тъ глучоин^ых неличиц X п сходится к
с.в. X по распределению, Хп — > X, вс^ш по^едоват^ъностъ соотестству-
Юи^^ функций распределения	слабо видится к функции распределен'им
13.4.5 Теорема 5.2.1. Са^ЮимосЛнъ Ub распределению Хп X раиносилъ-
на равномерной (на любом конечном npoMedtc^mUe) ахадцМошщ	* ^(А)
характерцевпических функций.
13.4.6 Имплика-^ея «	v—U очевидна. Обратное неверна Например,
пусть при чётном 7i бросания монеты Хп если выпадает герб, и Хп 0 ®
противном случае, а при нечётном n	X п = 0, сели выпадает гербг и Xv ~ I
в npomutf^oM случае. Оаодимоот^ па распределенгао есть, по вероятности *
нет. Но- еа^и < О. то X,. О. (? )
13.4. На платформе сходимости
247
1Ц.4.7 Импликация	очевидна, а неравенство Чебышева обеС
печивает	Обратное в обоих случаях неверно, см. раздел 5,3,
сходимости, см. раздел 5.3.
4(С.к.л-сходимость не следует из <т.н.»~
13.4.9	♦ Если Хп — гкмледавапилъностъ независимых случайных величин
	и Х„ Д X, то Р{Л = ЕЛ } = I. )
•	Для сходимости Хп -•'—••> X необходимо и достаточно
W > 0 ; liui Р (ьир |Хн - XI > 4	(? )
fe >ос	I	\*/
•	Если Хп	V, то существует подноследовательноСтГьъ
х„ л. (?,)
•	Если Хп X и Xn, X ограничены, то Xn X. \ f . 1
13.4.10 Существует ли гюследователъностъ событий Ай Az*.. .. такаяг чню
Р{ '7- 1 При п 4> 0Oj 710
{°° 1
Р| 4Л [	(’ пРи людом а'
............................ ..........	>	ч .	4 :	’ *Ч ’ • > ; :	\’
◄ Положительный ответ даёт последовательность одинаково ориентированных
дуг Ак длины k/(k +1) на единичной окружности Q, у которых начало следующей
(по номеру) дуги совмещается с концом предыдущей. ►
248
Глава 13. Задачи и факты
1X4.11 Случайная величина Хп, определяемая соотношениями
1	1
P( V. и} ~ I ...-.	р.:Х. ,г?	-.
Vn О »« R { Vn | * <«: fl
Тйж часто бывает в некоторых типах игр. Ожидаемый выигрыш гвыше кры-
щи^рна деле	пруи&рмш.
1X4.12 Пу<дпъХп Y и вш j.X„| < Fj: яде wX Y имеет КетвчР&ё мт
тожидание Тогда X тоже имеет Коноше ыашожидаиие и Е{ХТ) НИ»
(?-)
1Х4ЛЗ ЗОКОН «H'yjiMWедиНПЦЫ» 5^.1. Пели Xi v2 kw^nt.ww'
случайные величины. а событие А определяется поведением только бесконеч-
но далекого хвоста?поеледовате.>1ьности Xt. Х2___ & не зависит от значений
Ж.15 - > ► > Хп при .дшбпм чн^ам н,, то
либо Р{Л)- == О, либо Р|Д} - L
/ Центральная предельная теорема. Слабую сходимость
lim Р
п—>оо
( Sn — Е Sn
I y/ns;
< X
е a2!2ds = Ф(ж)
обеспечивает условие Ляпунова: для некоторого 6 > О
•^7+5 Е lXfe ~ mfe|2+lS ~» ° ПР“ П->ОО,
B" k=l
а также более свободное условие Линдеберга: для любого т
[ (х - mk)2dFk(x) О при п -> оо,
1х-тк1^тВп
где Fk(x) — функция распределения Хк-
9События, зависящие только от «хвоста», называют остаточными. Таковы, на-
оо
пример, события: сходимости ряда либо самой последовательности Хк;
ограниченности верхнего предела lim Хк < оо и т. п.
к—>оо
13.5. В кладовых схемы Бернулли	249
13.5.	В кладовых схемы Бернулли
13.5 Л Жполгшшел!. Схемой Вернулли называют бросание монехаы, котоуи^
падает герб^ с аероятноетню у < (CL |)Л « решёткой ь ^ер^яшнветпъю
q — 1	/Л- ,&-ш выпадению герба сопоставляется единица. решетки нуль,
мо.делъ вместо ИЧ Ч ТР ,., генерирует случайные
1 р 1 1 6 ...
В соответсте июшем контекст с важную роль играют суммы
S4l + К j 4 - • + Х«4| гшведение которых служит источникам многоч™^жнныа
зада ч
13,5.2 Задача о баллотировке. На выборах кандидат А собрал а голосов,
кандидат В ~ b голосов, причём а > Ь. Вероятность, что в течение всего
времени А был впереди В равна ^“j“> (*? )
◄ Заслуживает внимания короткое решение из раздела 6.3. ►
13.5*3 Задача о разорении^ и. 6.4- Допустим, при игре в ъюрлянкуь став-
ка каждой партии равна I юаню, началънъ/й Kanumaji игрока iV юаней. Игра
<	<c^^e 'papppeHiiA (рбнуЛёния. к^	либо./па;
капиталом игрока ветчины, А. Вероятность разорения р{ N) I —	. (?Л» )
13.5.4 Вели двое. .4 и В г начальными капит,алами а и Ь, играют в ^орлянку^,
то средняя прдд^Жит.елъноср^ игры елр^аё гднмичхшй мавки при крждоД
отде^тном броспни и^ до разорения одного аз игроков - равна ab. I f t
◄ Таким образом, если капитал первого — доллар, а второго — миллион, то
ожидаемая продолжительность игры — миллион партий (хотя А, казалось бы, мо-
Р
жет очень быстро проиграть). Здесь уместно вспомнить о ситуациях, когда Хп —> О,
но Е{ХП} —> оо. ►
250
Глава 13. Задачи и факты
13.5.5 При одномерном блуждании частица каждую секунду сдвигается на
единицу влево или вправо с одинаковой вероятностью р — В исходную по-
зицию она будет возвращаться бесконечное число раз с вероятностью р I
И ото более-менее понятно. При двумерном блуждании (помимо описанного
сдвига влево или вправо частица ещё сдвигается аналогична ««Сргг или вниз).
И опять в исходную позицию она будет возвращаться бесконечное число раз с
вероятностью р 1. что уже неожиданно, поскольку возврат по разным на-
правлениям теперь должен происходить одновременно. Д нот. при. трёхмерном,
блуждании происходит качественный скачок, бесконечного числа возвратов
уже не будет. С тематикой имеет смысл ознакомиться по разделу 6.5.
13.6.	Случайные функции и процессы
/ Случайной функцией называют функцию двух переменных X(t,u>), где о» точ-
ка вероятностного пространства Q, на котором задана та или иная вероятностная
мера. Зависимость от случая реализуется при этом каждый раз наступлением исхо-
да а>о Е Q, при котором фактическое течение процесса описывается траекторией
X(t), которую называют также реализацией процесса или выборочной функцией.
J Плотность р(х, t) случайной функции X(t) определяет распределение зна-
чений X(t) в момент t.
Для с.ф. естественным образом определяются: матожидание
сю
mx(t) = Е {%(£)} = J xp(x,t)dx
—оо
и корреляционная функция
Rxx(t, s) = E{[X(t) — тж(«)][Х(в) — mx(s)]},
которая при t = s превращается в дисперсию
Dx(t) = Rxx(t,t) = E{[X(t) — mx(t)]2}.
/ Случайный процесс X(t) стационарен, если его характеристики не меня-
ются при сдвиге по оси времени. При этом матожидание и дисперсия не зависят
от времени, а корреляция Rxx(t, s) зависит только от разности t — s.
J С.ф. X(t) называют эргодичной (по отношению к матожиданию) при ра-
венстве среднего значения X по ансамблю и — среднего по времени. Для стацио-
нарного процесса это означает
lim Е
Т—>оо
to+T*
*0
13.6. Случайные функции и процессы
251
где to — произвольный момент времени, а тх = Е {X(t)}.
Об эргодичности можно говорить по отношению к любой функции Y =
= <^[X(ti),..., X(tn)]. В частности, — по отношению к корреляционной функции,
отталкиваясь от Y(t, s) = [X(t) — mj][X(s) — тх].
Эргодическое свойство позволяет экспериментально определять матожидание
любой стационарной функции Y(t) = <p[X(t)] не по множеству реализаций, а по
данным одной реализации на достаточно большом промежутке времени Т. Эр-
годичность стационарной функции по отношению к матожиданию обеспечивает
условие
т
о
/ Преобразование Фурье -R(cu) корреляционной функции стационарного про-
цесса,
Я(о>) = J R(r)e~iw'rdT	R(r) = J R(v)eiujTdu,
— оо	—оо
называют спектральной плотностью сигнала X(t).
Взаимосвязь спектра корреляционной функции со спектром самого сигнала
X(t) дает соотношение
Я(Ш)=т1пПо^Е{|Ат(а;)|2},
где At(cj) — преобразование Фурье сигнала Ay(t) = Xy(t) — mx, совпадающего с
[Т Т~\
— —, — и равного нулю вне этого промежутка.
Широкое распространение имеет энергетическое соотношение
оо
Dxx = сгх = Rxx(0) — Rxx(w)dw,
— ОО
увязывающее среднюю мощность случайного сигнала с его спектральной плотно-
стью.
/ Стационарный случайный сигнал X (t) с постоянной спектральной плотно-
стью
Rxx(w) = G
во всем диапазоне частот от нуля до бесконечности, — называют белым шумом.
Обратное преобразование Фурье приводит в этом случае к дельтаобразной корре-
ляционной функции
Rxx(r) = G Г° eiu}Tdw = 2kG6(t).
J—co
252
Глава 13. Задачи и факты
/ Дифференцирование случайной функции перестановочно с операцией ма-
тематического ожидания. Формула для вычисления корреляционной функции про-
изводной y(t) = X'(t),
легко получается предельным переходом.
Спектральная плотность производной сигнала Y(t) = Xf(t) равна
Ryy (^) —	Rxx(^')
Понимание метаморфоз, которые происходят со случайными сигналами
при их интегрировании и дифференцировании, играет важную роль в изучении
динамических систем, описываемых дифференциальными уравнениями.
В отличие от детерминированных систем, преобразование Фурье выходного
сигнала, рАвно как и сам сигнал, — для понимания ситуации ничего особенно не
дают. Здесь важны не беспорядочные флуктуации, а вероятностные характеристи-
ки сигнала, определяемые преобразованием спектра:
где W — пере даточная функция линейной системы.
13.6* 1	f) конечное Мно-. ясёстео u I f - езашшо однозначное Отоброже 
нус, тпп все траектории {а?, f/’Ar, . } цикличны10 11, т. е. для любой точки
х £ Q существует такое kf что Ukx — х, а при некотором п отображение
Un — тожде<гтвенно. (г )
13*6Л?	П Конечное. МНожеСгоуо МЩцностЦ N ц Г — н:щчщни одно-
значнее отображение, Тогда Г? представляет собой совокупность орбит*1,.
</-1Л	V4. - - }•
Маждая орбита инвариантна относительно V, g лтбое инвариантное отно-
сита>1ъно U множество представ^гяет собой некоторую совокупности орбит,
Наконец, в Q нет инвариантнъьх множеств строго менътих N по мощ*
ностщ дпд су^ виеео одна дрбйтщ ндп^рс^. йенврпибает. бсв Q?
(?)
10 И наоборот, если — цикличны, то U взаимно однозначно.
11 Траекторий (10.6), приходящих по времени из —оо и уходящих в +оо.
13.7. Информация и энтропия
253
13.6.3	ц |Г ее	на угол, НО рйв
нмй ±й t р = 1,2., , . 7Ша процесс (10-7) эргодичет (? Л
13.7.	Информация и энтропия
13.7.1 При наличии функциональной
полную информацию о Z. Возможна ли, что А и Y по отдельности не дают
никакой информации о Z?	'
◄ Вопреки естественному ожиданию — возможно.
Пусть X, У, Z представляют собой n-разрядные числа в 10-тичной системе. То-
гда число (функция) Z, определяемое поразрядным сложением по модулю 10,
Zk = Xk + Yfc(modlO)
обладает нужными свойствами.
Например,
X = 123, У = 948 => Z = 061.
Понятно, что задание X никак не уменьшает число возможных вариантов Z. ►
13.7.2 Сколько вопросов. при ответах ^да ~ нет» необходимо для определения
ла^аданноги Числа группы ц чисел*
◄ Если все числа равновероятны, то деление группы п чисел на две равные под-
группы с последующим выделением одной из подгрупп даёт информацию log 2 = 1,
уменьшая исходную неопределённость log п до log п — log 2. После к аналогичных
шагов неопределённость уменьшится до log п — к log 2 и станет 0 при условии
к log п/ log 2 = log2 n.
Вот, собственно, и вся премудрость. Некоторые детали приходится уточнить,
если п не является степенью двойки. Тогда группы чисел не делятся ровно пополам,
и это уменьшает информацию некоторых шагов. Но легко проверить, что итог не
меняется — из-за того, что к log2 п выбирается целое. Задача становится совсем
прозрачной при увеличении с самого начала п до ближайшего числа вида 2т. ►
За кадром описанной схемы могут стоять разные интерпретации. Напри-
мер, о числе разрядов для записи номера любого из п чисел в двоичной системе
(либо самих чисел, если это числа от 1 до п). Двоичная запись чисел в последнем
случае будет оптимальным кодированием
254
Глава 13. Задачи и факты
13.7.3 Среди п монет есть одно фальшивая, более лёгкая. Найти минималь-
ное число взвешиваний на чашечных весах (позволяющих сравнивать два ве-
са). необходимое для определения фальшивой монеты в самом неблагоприятном
случае.
◄ Любая из монет может равновероятно оказаться фальшивой, поэтому не-
определённость равна log2n. Пусть пока п = Зт. Разобьем монеты на три рав-
ные кучки, и любые две из них сравним по весу. Взвешивание (опыт Bi) может
иметь три очевидных исхода. Любой — позволяет исключить две группы монет.
Неопределённость H(Bi) = log2 3. Энтропия (информация) к последовательных
взвешиваний равна к log2 3. Для исчерпания исходной неопределённости log2 п не-
обходимо к log2 3 log2 п, откуда к log3 п. Легко убедиться, что ответ остаётся
верным и в том случае, когда п не является степенью тройки . ►
В р разрядах r-ичной системы можно записать гр чисел. При этом каждая
цифра может потребоваться в р экземплярах (например, три семёрки в 777). Всего
заготовленных цифр — надо иметь N = р • г. С помощью этих заготовок можно
«записать» rN/r чисел. Функция rN/r достигает максимума при г = е = 2,7. Среди
целых чисел максимум обеспечивает г = 3. Поэтому иногда говорят, что троичная
система счисления — самая экономичная. Двоичная — ей несколько уступает.
13.8.	Статистика
... ..- л	’ - ' - ; - -  
13.8.1 Требуется оценить длины а и b двух стержней двумя измерениями.
Измерение любой длины, производится С ошибкой е} имеющей нулевое матожи-
даиие и дисперсию гг- Как разумной организацией измерения добиться наилуч-
шей точности?
◄ Решение см. в разделе 12.1, п. 12.1.1. ►
12 Если в предыдущей задаче неизвестно, легче или тяжелее фальшивая моне-
та, то исходная неопределённость возрастает до log2 2п. Но естественный ответ
k log3 2п уже не верен. Правильный ответ
к log3(2n + 3),
из-за дополнительных потерь при делении на три группы (в силу невозможности
деления на три равные группы). Аккуратное решение связано с некоторой головной
болью.
13.8. Статистика
255
13.8.2 Во время второй мировой войны всех призывников в армию
США подвергали медицинскому обследованию. Реакция Вассермана позво-
ляет обнаруживать в крови больных сифилисом определённы?. антитела.
Р Дорфманом была предложена простая методика^ на основе которой необ-
ходимое для выявления всех больных число проверок удалось уменьшить в 5
раз!
Методика* Смешиваются пробы Крови к человек и анола ? ируется полу-
ченная смесь. Вели антител нет, то этой одной проверки достаточно для к
человек. В противном случае кровь каждого человека из этой группы нужно
исследовать. отдельно, и для к человек всего потребуется к 4- 1 раз провести
анализ.
◄ Решение см. в разделе 12.1, п. 12.1.2. ►
/ Набор независимых случайных величин Х±,... ,Хп, каждая из которых
распределена так же, как изучаемая с.в. X, — называют случайной выборкой объ-
ема п, а любую функцию 0n = On(Xi,... , Хп) — статистической характери-
стикой (с.х.), или статистикой. Определению обычно подлежат вероятности тех
или иных событий, матожидания, дисперсии, корреляции и другие характеристики
с.в. на базе с.х.
/ При оценке неизвестного параметра 0, характеризующего с.в. X, оценка
Р
0 на основе Оп называется — состоятельной, если Gn —> 0 при п —> оо, и —
смещенной/несмещенной, если матожидание Е{ОП} при любом п равно/не равно
0.
J Промежуток, которому принадлежит оцениваемый параметр 0 с вероятно-
стью <5, называют доверительным интервалом, 5 — коэффициентом доверия, а
1 — 6 — уровнем значимости.
/ В случае существования у с.в. X первых двух моментов выборочное среднее
_Xi + -.. + Xn
лп —-------------------------------------?
п
в силу Е {Хп} = тх, является несмещённой оценкой. Плюс к тому,
П{Хп} = £>х/п,
что обеспечивает Хп с к > X, и тем более, Xn —ь X.
Однако несмещённой оценкой дисперсии является
Л, _ (Х1 - Хп)2 + • • • + (хп - Хп)2
п	п —1
где в знаменателе стоит п — 1 вместо интуитивно ожидаемого п.
Глава 14
Справки и дополнения
Наука полезна, но не так, как об этом пишут и думают.
И было бы хорошо,
чтобы какой-то процент населения
не был загипнотизирован сомнительными причитаниями.
14.1. Дельта-функция
Дельта-функции 6(t) то и дело появляется там и сям в сопровождении абсурдных
комментариев. Феномен принадлежит теории обобщённых функций [2, т. 5], и за
пределами этой территории 6(t) производит иногда странное впечатление. Дабы
«по дороге в баню не отсылать читателя в Сочи», — напомним основные моменты
здесь.
14.1. Дельта-функция
257
Изначально <5(t) определялась как предел единичных импульсов* 1 напри-
мер, прямоугольной формы, — при стремлении к нулю ширины импульса, е —> 0.
Трудность заключалась в противоестественности обстоятельств. В пределе получа-
лась функция, равная бесконечности в нуле и нулю — в остальных точках. Однако
ситуации, в которых возникала потребность в чем-то подобном, всегда сводились к
вариантам, когда <5(t) стояла под интегралом. То есть 6(t) нужна была не как функ-
ция, а как нечто, обеспечивающее при интегрировании определенный эффект. Но
тогда и обыкновенный предел не нужен был. Хватало сходимости интеграла
оо
J 6£(t)<p(t)dt —> у>(0) при е —> 0,
— оо
что позволяло определить 6(t) как особый предел S£(t) —> <5(t) в смысле
оо	оо
J	—t. J 6(t)(p(t)dt.
— оо	—оо
Иначе говоря, под 5(t) достаточно было понимать «нечто», действующее на функ-
ции по правилу:
оо
{5,ip} = J 6(t)ip(t)dt —	(14.1)
—оо
Но (14.1) — это функционал. Надо лишь подходящим образом подобрать простран-
ство вспомогательных функций ip.
Соотношение (14.1) служит прообразом общего определения. Обобщённые функ-
ции f описываются как функционалы
оо
f	vею,	(14.2)
—оо
оо
1 Характеризуемых условием f 6£(t)dt = 1.
— оо
258
Глава 14. Справки и дополнения
на множестве D финитных функций2, непрерывно дифференцируемых любое чис-
ло раз. Последовательность {/п} полагается сходящейся к обобщённой функции f,
если
(f,p)
для любой функции р 6 О.
14.1.1 Определение. Всякий линейный непрерывный функционал (f,p) на D
называется обобщённой функцией3.
Дифференцирование определяется правилом переброски производной, {/', р) =
оо
(/'.¥’)= J f =
—ОО
оо	оо
= J <p(t)df(t)= v(t)/(t)| -J f(t)y\t)dt =
— oo	°°	—oo
каковое в ситуации (14.2) возникает само по себе в результате интегрирования по
частям с учётом финитности функций р.
На 6(t) общая часть теории проецируется следующим образом. Дельта-функция
декларируется как функционал, действующий в D по правилу {6, р) = <^(0). Про-
изводная S'(t) действует в результате как
(<5' ,¥>) = - (<5, /) = -</ (0).
Следствием правила переброски производной является соотношение4
◄ Действительно, для любой функции р £ В
оо	оо	оо
J 6'(x)p(x)dx = — J 6(x)p'(x)dx = — Jp'(x)dx = y?(0),
—oo	—oo	0
т. e. производная д'(x) действует на p так же, как 5(х). ►
2 Непрерывная функция p(t) называется финитной, если область, в которой
p(t) 0, — ограничена. Замыкание области, где p(t) 0, именуется носителем
pit) и обозначается как supp<£>. Разные функции из D могут быть отличны от
нуля на разных областях (у каждой свой носитель).
3Не каждый функционал на D может быть представлен в виде (14.2). Если это
возможно, — обобщённую функцию f(t) называют регулярной.
4Где 0(t) — функция Хевисайда, т. е. единичный скачок: 0(t > 0) = 1 и
0(t < 0) = 0.
14.2. Мера Лебега
259
Замена переменной при интегрировании указывает на справедливость соотно-
шений
оо	оо
— d)(p(t)dt = <p(a), I 6(at)<p(t)dt = i<p(0),
— oo
а также
W)l- E
№)=o I' (‘*)l
В частности,
oo
Преобразование Лапласа f(p) = J e~pt f(t)dt обобщённых функций было бы
о
естественно рассматривать как значение функционала f на функциях e~pt. Но
e~pt D, однако D можно безболезненно переопределить, например, как совокуп-
ность бесконечно дифференцируемых функций, для которых tkip^(t) —> 0 при
t —> оо и любых целых к,1	0. В этом случае обычные свойства преобразования
Лапласа остаются без изменения. В частности,
= e-₽‘|t=0 = 1,
т. е.
5(р) = 1.
Обычным образом определяются изображения производных
№(р) = {&п\е~р1}=рп,
запаздывания, 6(t — т) = е~рт, и т. п.
14.2.	Мера Лебега
Парадоксы измерения экзотических множеств (см. [4]), сходимость рядов Фурье к
неинтегрируемым по Риману функциям (иногда всюду разрывным), — все это на
определённом этапе развития математики создавало ощущение блуждания впоть-
мах.
Несмотря на титанические усилия поиск выхода из положения долгое время не
давал результатов. Все время было «горячо», но решение ускользало. Положение
спас Лебег, построивший общую теорию меры и решивший проблему в известном
смысле окончательно. Все, конструктивно задаваемые множества, стали измери-
мыми5.
Достаточно ясное и простое изложение теории меры имеется в [9]. Сами техни-
ческие подробности при изучении предмета играют второстепенную роль. Главный
5 Для подтверждения факта существования неизмеримых множеств требуется
уже аксиома выбора.
260
Глава 14. Справки и дополнения
интерес представляет идеологическая сторона дела, на чем, собственно, и сконцен-
трирован дальнейший текст.
Вот итоговый каркас основной конструкции на примере «плоских» множеств.
За исходный пункт берётся определение площади прямоугольника6 т(Р) = ab, где
а и b — стороны Р. Площадь фигуры S (пусть пока на [0,1] х [0,1]), представи-
мой в виде конечной совокупности непересекающихся прямоугольников {Рп},
полагается равной
7п(£) = 52тп(Р„),	(14.3)
п
что называют аддитивностью меры m(S). Из аддитивности в данном случае вы-
текает счётная аддитивность, или а-аддитивность, — т. е. справедливость (14.3)
в случае бесконечного числа слагаемых.
Далее для ограниченных множеств определяется внешняя мера
/z*(A) = inf т(Рп),	(14.4)
п
где инфимум берется по всевозможным покрытиям множества А конечными или
счетными системами прямоугольников.
Наконец, множество А называется измеримым по Лебегу, если по любому е > 0
можно указать такую конечную совокупность Ае непересекающихся прямоуголь-
ников, что
р*(А А Ае) < е.
Меру Лебега р(А) измеримого множества А полагают равной7 р*(А).
В общем случае работает аналогичная схема, с той лишь разницей,
что вместо прямоугольников берется та или иная система простей-
ших множеств, мера которых задаётся директивно, после чего проде-
лываются похожие манипуляции. В отличие от рассмотренной ситу-
ации сг-аддитивность может «не вытекать», и тогда её приходится
постулировать.
Вот, собственно, и вся теория, если не вдаваться. При ближайшем рассмот-
рении появляются дополнительные детали, и картина несколько меняется. Сово-
купность непересекающихся прямоугольников У, представляет собой полукольцо
множеств, на котором задана мера т(Р), Р G У. В общем случае это и есть от-
правная точка: полукольцо У (не обязательно прямоугольников) с заданной на нем
6Независимо от того, входит ли в прямоугольник граница, целиком или частями.
Возможность отсутствия ребер важна для согласования с другими определениями.
Например, когда идёт речь о граничащих, но непересекающихся прямоугольниках.
7 Упомянутая в определении внешней меры ограниченность множеств приводит
к р(А) < оо, но простым техническим приемом (разбиения множества на клет-
ки) это ограничение обходится, охватывая множества бесконечной меры типа всей
плоскости.
14.2. Мера Лебега
261
аддитивной мерой, сг-адцитивность которой либо постулируется, либо устанавлива-
ется8 . Затем мера тп с полукольца У продолжается на минимальное кольцо9 IR(У)
по правилу (14.3). Корректность продолжения меры легко проверяется.
Определение «полукольца» в данном контексте, вообще говоря, не требуется,
но его упоминание облегчает чтение другой литературы. Формальная сторона дела
такова. Полукольцом множеств называется семейство Ф С 2х, замкнутое относи-
тельно пересечения и обладающее свойством: если А, В € Ф, то в Ф существуют
непересекающиеся Pi,... ,Рп такие, что
А\В = PtU-UPn.
Если речь идёт о множествах определённого типа (скажем, прямоугольниках),
то проверяется, что объединение, пересечение, разность и симметрическая разность
множеств, имеющих разложение S = Pi U • • • U РП1 — имеют разложение того же
типа, а мера, вычисляемая по формуле (14.3), не зависит от способа разложения
S. Это, собственно, и является обоснованием «продолжения меры на кольцо» по
правилу (14.3).
Следующий этап: определение внешней меры (14.4), измеримых множеств и,
собственно, меры Лебега, — с техническими проблемами не связан10. В теоремном
обеспечении нуждается заключительный этап, состоящий в выяснении того, что
же в итоге получилось. Насколько велик запас измеримых множеств и каковы
свойства меры р?
14.2.1 Теорема Лебега. Совокупность измеримых множеств замкнута от-
носительно операций счётного объединения и счетного пересечения, а мера р
ст-аддитивна11.
Доказательство сводится к некоторому количеству достаточно простых шагов
[9]. Разумеется, впечатление легкости возникает задним числом.
Поскольку любое открытое множество на [0,1] х [0,1] представймо в виде счёт-
ного объединения замкнутых прямоугольников	то на [0,1] X [0,1] измери-
8 При этом в конечномерных пространствах ключевую роль играет возможность
выбора конечных подпокрытий ограниченных множеств.
9Содержащее рассматриваемое полукольцо.
10 Надо лишь оговорить в общем определении измеримого множества, что А£ —
это элемент минимального кольца, а не совокупность непересекающихся прямо-
угольников, как в плоском случае.
оо
11Т. е. /z(Q) = 52/z(Qn), если множества Qn попарно не пересекаются и Q = |JQn-
П	71
262
Глава 14. Справки и дополнения
мы любые открытые и замкнутые множества, а также их счётные объединения и
пересечения, и не только они12 13.
Аксиоматика теории меры охватывает весьма широкий класс ситуаций. Вот
стандартная модель из теории вероятностей иной содержательной природы. На
счётном множестве
Q = {cji, ... ,cun, •  - }
оо
задана «мера точек» pn = m(o>n), удовлетворяющая условию нормировки ^2 Рп =
П=1
= 1. Измеримы оказываются любые подмножества А С Q, а мера
дИ) = 52 Р"
с^пЕА
получается ст-аддитивной.
О «сложности» проблемы измеримости множеств можно судить косвенно — по
числу неудачных решений и рейтингу участников (Борель, Жордан). Решение ведь
напрашивалось, но не приводило к успеху. При этом вся сложность приходилась
на определения, т. е. на первичные понятия. Новичку поверить в это трудно, но
именно так развивается почти любой математический сюжет — нетривиальность
создания понятий характерна для любой области. Речь, ясное дело, идёт об удач-
ных понятиях. При неудачных — кое-что доказывается, но не то, чего хочется. И
надо так «пошевелить» определения (никто не знает как), чтобы область «ожила».
В данном случае удачное «шевеление» явно ощутимо. Схема Лебега идейно
очень похожа на схему Жордана, опиравшуюся на «древнегреческую» аппрокси-
мацию измеряемого множества S изнутри и снаружи: Р С S С Q, где Р и Q —
семейства непересекающихся прямоугольников, Р укладывается в S, a Q — накры-
вает S. При совпадении супремума тп(Р) и инфимума m(Q) множество S объяв-
л ял ось измеримым °.
12Когда речь идёт об измерении подмножеств квадрата X = [0,1] х [0,1], мера
р(Х) конечна, а X принадлежит минимальному кольцу IR(CP). Если X — вся плос-
кость, то она может быть поделена на квадратные клетки, разрезающие любую
фигуру на части, мера которых определяется по отдельности, а потом всё сум-
мируется. Понятно, что мера фигуры может получиться бесконечной, не говоря о
р(Х) = оо.
13 Известны различные схемы введения меры Лебега, в том числе — основан-
ные на идее зажимания искомой величины с двух сторон, но не так как у Жор-
дана. Внутренняя мера Лебега р* определяется как внешняя мера дополнения:
р*(А) = р*(Х\А). Измеримость А обеспечивает р* = р*.
14.2. Мера Лебега
263
Очень близко, казалось бы, — но измеряется меньше, чем у Лебега. У Лебега
чуть по-другому, однако определения начинают работать, в результате измеряется
не кое-что, а «все».
У причины много лиц. Разумеется, талант, безусловно, удача. Но есть и мате-
матический ракурс.
Если на совокупности У непересекающихся прямоугольников определить функ-
цию
p(P,Q) = т(Р A Q),	(14.5)
то это полуметрика14, становящаяся метрикой после отождествления тех Р и Q,
для которых т(Р A Q) = 0. В результате У, вернее, множество его эквивалентных
классов15 16, по метрике (14.5) становится метрическим пространством. Дальнейшее
сводится к пополнению этого пространства, что и приводит к «полному простран-
ству измеримых множеств».
При описанной точке зрения талант для получения результата уже не тре-
буется. Задача помещается в колею выполнения рутинных операций. В этом и
состоит прикладная значимость функционального анализа. Даётся координат-
ная сетка мышления, превращающая хаотичное блуждание в целенаправленную
деятельность.
На пополнение ? измеримыми функциями полезно взглянуть ещё с другой
точки зрения. Пополнение рациональных чисел иррациональными — не для всех
убедительно. Из-за привычности не в полной мере чувствуется необходимость и
фундаментальная роль. «Измеримости» в большей степени присущ аромат новиз-
ны, и восприятию идеи не мешает будничность.
О борелевской измеримости. Борёлевские множества как элементы ми-
нимальной сг-алгебры, содержащей любые сегменты [a, b] С К, часто упоминаются
скороговоркой. В результате иногда создаётся впечатление, что на прямой — это и
есть измеримые по Лебегу множества. Это неправильно. Всякое борелевское мно-
жество измеримо по Лебегу, но не всякое измеримое по Лебегу — борелевское1^.
14«Полуметрика» из-за возможности т(Р A Q) = 0 при неравных Р и Q —
различные системы прямоугольников могут покрывать одну и ту же фигуру.
15Т.е. фактор-множество по отношению эквивалентности т(Р А<2) = 0.
16Точное положение дел: всякое измеримое по Лебегу множество — есть бо-
релевское плюс множество меры нуль.
264
Глава 14. Справки и дополнения
14.3.	Измеримые функции
Функцию f : X —> Y называют измеримой, если в X измерим прообраз /-1(А)
любого измеримого в Y множества А.
В случае f : X —> IR работает то же определение, но на прямой избирается
(Ьэ)
система борелевских множеств
а не система множеств измеримых по Ле-
бегу. При этом «для очистки совести» функцию f называют борелевской, либо
измеримой по Борелю, либо В-функцией, a f : X —> Y, для контраста, называют
р-измеримой. Однако обременительная атрибутика постепенно сходит на нет, и
вещественные функции начинают называть просто измеримыми, что вносит опре-
делённую путаницу.
Непрерывные функции являются, безусловно, В-функциями, но не обязаны
быть измеримыми по Лебегу. Поэтому при их именовании просто измеримыми —
появляются «странности». Непрерывная функция от измеримой — всегда изме-
рима, а измеримая от непрерывной — необязательно. В то же время где-нибудь
рядом располагается теорема, утверждающая измеримость композиции измеримых
функций. Аудитория вянет.
Функция f : X —> R измерима (на самом деле В-измерима), если при любом
а € R измеримы лебеговские множества
Ха(Г) = {ж : ffa) < “}•
Это обычно принимают за определение измеримости вещественных функций.
Естественно, возникает вопрос, почему бы не выбросить борелевскую конструк-
цию за борт, заменив лебеговской и ликвидировав двойственность толкования. По-
тому что лебеговскую измеримость легко декларировать, но трудно проверять.
Достаточно вспомнить о непрерывных функциях.
В то же время борелевских множеств и функций вполне хватает для многих
приложений. При этом борелевские функции переводят измеримые по Лебегу мно-
жества в измеримые — по Лебегу17, что, собственно, и требуется для интегриро-
вания по Лебегу, см. далее.
Функции, значения которых отличаются на множестве нулевой меры считают-
ся эквивалентными. В пространствах измеримых функций в качестве элементов
обычно подразумеваются классы эквивалентных функций. Конкретную функцию
называют представителем своего класса.
Когда говорят о поточечной сходимости измеримых функций, имеется в виду
сходимость почти всюду, fn П В > /, т. е. fn(x) —> f(x) может нарушаться на
множестве нулевой меры.
17Поскольку борелевские множества измеримы.
14.3. Измеримые функции
265
•	Измеримые функции могут сильно отличаться от непрерывных, будучи раз-
рывными в любой точке. С другой стороны, функция f(rr), измеримая на [а, &], от-
личается от непрерывной не очень сильно в следующем смысле (теорема Лузина)'.
по любому е можно указать непрерывную функцию <р(х) такую, что f(x) <р(х)
лишь на множестве меры < е.
•	Определённый «философский» интерес представляет функция Римана /(ж),
равная нулю в иррациональных точках, и f(x) = —, где х = 2 представление х в
виде несократимой дроби. Очевидно, f(x) непрерывна в иррациональных точках
и разрывна — в рациональных.
•	Измеримые функции естественным образом возникают при рассмотрении ря-
оо
дов Фурье, поскольку сумма 52сп</рп(х) не обязана быть непрерывной при непре-
рывных <^п(гс), и может сходиться к весьма экзотическим функциям.
Вот несложные, но принципиальные факты:
•	Композиция (функция от функции) измеримых функций — измеримая функ-
ция18. Борелевская функция от р-измеримой — р-измерима.
•	Сумма, разность, максимум, произведение и частное (если знаменатель
не обращается в нуль) измеримых функций — измеримы19.
Предел поточечно сходящейся последовательности измеримых функ-
ций fn(x) —^f(x) — измерим.
Выделенное рамкой утверждение с практической точки зрения наиболее важ-
оо
но. Например, сходимость 22сп93п(ж), как числового ряда при любом фиксиро-
ванном х, обычно легко устанавливается, но возникает проблема с непрерывной
оо
зависимостью от х. Могли бы возникать проблемы и с измеримостью 22сп^п(ж),
но их нет, — поэтому в пространствах измеримых функций поточечно сходящиеся
функциональные ряды можно суммировать без предосторожностей.
◄	Измеримость предела fn(x) —> f(x) в случае монотонно убывающей после-
довательности /п (ж) очевидна, поскольку множество Ха (/) измеримо как объеди-
нение множеств Xa(Jn)- В общем случае fn(x) —> f(x) можно заменить двумя
монотонными пределами сначала по к, потом по п от
fnk(x) = тах{/п+1(х),..., fn+k(x)}.	►
18 Описания компьютерных программ сейчас никто не читает (иначе время ухо-
дит в песок), а сами программы делаются так, чтобы легко было догадаться. По-
хоже, этот рецепт будет находить все большее применение во всех сферах жизни,
в том числе — в математических текстах.
19Элементарно проверяется измеримость лебеговских множеств.
266
Глава 14. Справки и дополнения
1	4.3.1 Теорема Егорова. Пусть р(Х) < оо u fn n’G’y f, где речь идёт об изме-
римых функциях, действующих из X в К. Тогда существует подмножество Х£
сколь угодно малой меры р(Х£) < е такое, что fn(x) сходится к f(x) равномерно
на Х\Х£.
◄ Положим
j = Tl	'
(оо \
Р) Хк ) —> 0 при п оо и любом фиксированном к. Поэтому по
п=1	/
любым е > 0 и к можно указать такое п(к), что р (Хп(к)) < e/2fe. Требованиям
теоремы удовлетворяет множество Х£ = I) Хк,...
к=1 п{к)
Измеримую функцию f называют существенно ограниченной сверху, если
f(x) а < оо почти всюду. Наименьшее а называется существенной верхней
гранью f(x) и обозначается
ess sup f(x)
Существенная нижняя грань, ess inf f(x), определяется аналогично. Когда речь
идёт просто о существенной ограниченности, имеется в виду
1№)| а < оо.
14.4.	Интеграл Лебега
Определённый интеграл Римана подразумевает вычисление объёма под графиком
f(x). В любом случае это приходится делать на базе того или иного предельного
перехода, отталкиваясь от «уже известных» объёмов. По Риману область инте-
грирования разбивается на малые кубики. Дальнейшее развитие сюжета хорошо
известно. Искомый предел зажимается между нижней и верхней суммами Дарбу,
после чего ребра кубиков устремляются к нулю. В результате по Риману интегри-
руются кусочно-непрерывные функции20, но для многих задач этого мало.
Интеграл, Лебега строится совсем по другой схеме. Разбиение области интегри-
рования на малые объёмы осуществляется по признаку близости значений инте-
грируемой функции. Обыгрывается это, например, так. Сначала рассматриваются
измеримые простые функции f : X —> П£, принимающие не более чем счётное
число значений у±,..., уп,..., и для них интеграл по А С X определяется как
f f(x)dp(x) = У^упр(Ап),	(14.6)
•<	г,
20Если говорить точно, то для интегрируемости по Риману на [а, 6] ограниченной
функции — необходимо и достаточно, чтобы множество её точек разрыва имело
меру нуль. Интегрируемая по Лебегу функция может быть разрывна всюду.
14.4. Интеграл Лебега
267
где Ап = {я : f(x) = уп}, причём множества Ап измеримы в силу измеримости
f(x) (как прообразы точек), а ряд (14.6) предполагается абсолютно сходящимся.
При абсолютной суммируемости ряда (14.6) для любого А С X простую функ-
цию f называют суммируемой на X. Требование абсолютной суммируемости ряда
(14.6) является принципиальным — именно оно оказывается ответственным за то,
что некоторые функции интегрируются по Риману, но не интегрируются по Лебегу,
см. далее.
Затем функцию f(x) определяют как интегрируемую по Лебегу на X, если су-
ществует сходящаяся почти всюду21 к f(x) последовательность суммируемых на X
простых функций fn(х). Предел J f(x)dp числовой последовательности j* fn(x)dp
х	х
в этом случае объявляется интегралом Лебега. Используется также обычное обо-
значение J fn(x)dp, когда мера строится с помощью непересекающихся прямо-
угольников, что на самом деле везде подразумевается, dp = dx, если не оговорено
противное.
В части обоснования (проверки корректности определения) опять «выстрели-
вает» операция пополнения. По крайней мере на задачу можно так смотреть, и тёк
смотреть выгоднее всего, потому что тогда рассуждение перестаёт быть фокусом.
На множестве простых функций вводится полуметрика
р(Лр) = f l№) - S(x)|d/x(i),	(14.7)
X
которая по непрерывности продолжается на все суммируемые (интегрируемые по
Лебегу функции). Возможность продолжения опирается на следующий факт. Если
две последовательности простых функций {/п} и {<7п} фундаментальны и
l/n(l) - Sn(l)| О
почти всюду, то p(fn,9n) —> 0.
(?J
Отсюда fn(x) п в > f(x) влечет за собой существование предела J fn(x)dp, т. е.
х
интеграла Лебега.
Если теперь между эквивалентными функциями не делать различия, то на
множестве классов эквивалентности (проще, конечно, говорить о функциях,
21В некоторых учебниках определение интегрируемости по Лебегу опирается на
последовательности fn(x) «сходящиеся равномерно». Разница возникает из-за вы-
бора, по каким ступенькам ступать, двигаясь к конечному результату.
268
Глава 14. Справки и дополнения
держа оговорку насчёт классов в уме) полуметрика (14-7) становится метри-
кой, и общая картина выглядит следующим образом. Метрическое простран-
ство простых функций (оговорку держим в уме) надо пополнить — элементы
пополненного пространства (с точностью до изометрии это фундаментальные
последовательности простых функций) есть интегрируемые по Лебегу функции.
Остаётся превратить абстрактную ясность в конкретную. Какие функции ин-
тегрируемы по Лебегу? Простые — «да», но это само собой. Предельные функции —
«да» по определению, но что из себя они представляют? Ответ прост и достаточно
всеобъемлющ.
Интегрируемы по Лебегу любые измеримые на X функции.
◄ Докажем, для простоты, менее общий факт: интегрируемость существен-
но ограниченных измеримых функций в ситуации д(Х) < оо. Вместо существен-
но ограниченной — будем рассматривать эквивалентную ограниченную функцию
f(x). Для существования интеграла Лебега достаточно указать сходящуюся почти
всюду к f(x) последовательность простых функций.
С помощью измеримых множеств
_ Г *	„	(*+1)1
Ln	nJ
определим fn(x) = 52 —Xfcn(^), где Xfcn функции-индикаторы множеств Функ-
k п
ции fn(x), очевидно, простые и fn(x) —> f(x) равномерно, а значит и почти всюду22.
Слово «интеграл» гипнотизирует — и свойства интеграла Римана23 автомати-
чески переносятся в новую обстановку. Тем не менее эти свойства требуют обосно-
вания. Аналогия, как всегда, играет двойственную роль (помогает и обманывает).
Речь идёт о простых фактах:
J dp = мИ); У + 0g(x)]dp = а J f(x)dp + J g(x)dp\
A	A	A	A
m f(x) M => mp(A) J f(x)dp
J f(x)dp J\f(x)\dp,
A	A
которые «один к одному» воспроизводят свойства интеграла Римана.
22В данной точке становится ясно, что доказательная часть, связанная с инте-
гралом Лебега, может быть сделана весьма экономной.
23 Который в случае существования совпадает с интегралом Лебега.
14.4. Интеграл Лебега
269
Но есть и принципиальное отличие. Интегралы Лебега
f(x)d(j, и J |J(o:)|d/z
А	А
или оба существуют, или оба не существуют. Источником этого неожиданного2*
свойства является требование абсолютной сходимости ряда (14.6) в определении
интеграла простой функции.
24 «Неожиданного» потому, что интегрируемость по Лебегу может не вытекать
оо
из интегрируемости по Риману. Несобственный интеграл Римана J* cos х dx сушр-
1 х
ствует, а Лебега — нет.
Сокращения
и обозначения
ТВ — теория вероятностей
с.в. — случайная величина
с.ф. — случайная функция
с.х. — статистическая характеристика
с.к. — среднеквадратический(ая,ое)
п.ф. — производящая функция
х.ф. — характеристическая функция
п.н. — почти наверное
ф.р. — функция распределения
пл.р. — плотность распределения
б.ч.	р. — бесконечное число раз
◄ и ► — начало и конец рассуждения, темы, доказательства.
— предлагает проверить или доказать утверждение в качестве упраж
нения, либо довести рассуждение до логической точки.
— предлагает обратить внимание
14.4. Интеграл Лебега
271
Р(А) — вероятность события А
Е (X) = (X) — математическое ожидание случайной величины X
D (X) = Е [X — Е (X)]2 — дисперсия случайной величины X
= Е [X — Е (Х)]г — центральный момент r-го порядка
ах = х/ОД — среднеквадратическая ошибка
М(тпх,<тх) ~ нормальное распределение с матожиданием тх и дисперсией сг2
Q — пространство элементарных событий
А => В — из А следует В
х G X — х принадлежит X
X U У, X ПУ, Х\У — объединение, пересечение и разность множеств X и У
X Л У = (Х\У) U (У\Х) — симметрическая разность множеств X и У
X С У — X подмножество У, в том числе имеется в виду возможность X СУ,
т.е. между X С У и X С У различия не делается
0 — пустое множество
г — мнимая единица, г2 = — 1
z = х + iy — комплексное число, z = r(cos 9? + i sin <p) — его тригонометрическая
запись, х = Re z — действительная часть, у = Im z — мнимая; ~z — z* = x — iy —
комплексно сопряженное число.
(ас, у) либо (ас, у) — скалярное произведение векторов х и у\ в общем случае
комплексных векторов
<35, у) =х±у^ ч--НЯпЗ/п-
Для скалярного произведения используются также эквивалентные обозначения
ас • у и ху
|А| = det А — определитель (детерминант) матрицы А
р(А) — спектральный радиус матрицы А
~ производная /(/)
д— — частная производная функции и по переменной х. Эквивалентное обо-
значение их
Vf(x) — градиент функции f(x)
Литература
[1] Боровков А.А. Теория вероятностей. М.: Наука, 1986.
[2] Босс В. Лекции по математике. М.: URSS, 2004-2018.
Т. 1. Анализ;
Т. 2. Дифференциальные уравнения;
Т. 3. Линейная алгебра;
Т. 4. Вероятность, информация, статистика;
Т. 5. Функциональный анализ;
Т. 6. Алгоритмы, логика, вычислимость. От Диофанта до Тью-
ринга и Гёделя;
Т. 7. Оптимизация;
Т. 8. Теория групп;
Т. 9. ТФКП;
Т. 10. Перебор и эффективные алгоритмы;
Т. 11. Уравнения математической физики;
Т. 12. Контрпримеры и парадоксы;
Т. 13. Топология;
Т. 14. Теория чисел;
Т. 15. Нелинейные операторы и неподвижные точки;
Т. 16. Теория множеств: от Кантора до Коэна.
[3]	Босс В. Лекции по теории управления. Т. 1. Автоматическое ре-
гулирование. Изд. 2-е. М.: Ленанд/URSS, 2017.
[4]	Босс В. Интуиция и математика. Изд. 5-е. М.: Ленанд/URSS, 2017.
Литература	273
[5]	Данцер Л., Грюнбаум Б., Кли В. Теорема Хелли и ее применения.
М.: Мир, 1968.
[6]	Золотарев В.М. Современная теория суммирования независимых
случайных величин. М.: Наука, 1986.
[7]	Кац М. Вероятность и смежные вопросы в физике. М.: Мир, 1965.
[8]	Колмогоров А.Н. Основные понятия теории вероятностей.
Изд. 5-е. М.: Ленанд/URSS, 2018.
[9]	Колмогоров А.Н., Фомин С.В. Элементы теории функций и функ-
ционального анализа. М.: Наука, 1972
[10]	Крылов Н.С. Работы по обоснованию статистической физики. М.,
1950.
[11]	Лагутин М.Б. Наглядная математическая статистика, М.: Бином,
2009.
[12]	Липцер Р.Ш., Ширяев А.Н. Теория мартингалов. М.: Наука, 1986
[13]	Прохоров Ю.В., Розанов Ю.А. Теория вероятностей. СМБ. М.:
Наука, 1973.
[14]	Пуанкаре А. Теория вероятностей. Ижевск: Ижевская респ. типо-
графия, 1999.
[15]	Розанов Ю.А. Теория вероятностей, случайные процессы и мате-
матическая статистика. М.: Наука, 1985.
[16]	Секей Г. Парадоксы в теории вероятностей и математической ста-
тистике. М.: Мир, 1990.
[17]	Феллер В. Введение в теорию вероятностей и ее приложения, тт. I,
II. М.: Мир, 1967.
[18]	Шеннон К. Работы по теории информации и кибернетике. М.: ИЛ,
1963.
[19]	Ширяев А.Н. Вероятность. М.: Наука, 1980.
[20]	Школа Опойцева: Математический анализ. Изд. 2-е. М.: Ле-
нанд/URSS, 2017.
[21]	Школа Опойцева: Аналитическая геометрия и линейная алгебра.
М.: Ленанд/URSS, 2018.
[22]	Школа Опойцева: Обыкновенные дифференциальные уравнения.
М.: Ленанд/URSS, 2018.
Предметный указатель
Аддитивность энтропии 194
асимптотическое постоянство 99
Байт 202
белый шум 179, 251
биномиальное распределение 63,
123, 241
бит 193
блуждание многомерное 129
больше по вероятности 44, 239
бросание монеты 10
броуновское движение 180
Вероятности перехода 159
вероятность разорения 126
Генеральная совокупность 223
геометрическое распределение 64,
241
Дельта-функция 256, 258
дисперсия 54
доверительный интервал 221, 255
Задача Банаха 29
— Бюффона 46
—	идентификации 60, 153
— о баллотировке 126
—	— выборе невесты 28
----разорении 119
—	прогноза 186
—	фильтрации 185
закон «нуля или единицы» 115
— арксинуса 124
—	больших чисел 93
—	повторного логарифма 226
— Рэлея 90
Игра в «орлянку» 64, 123
избыточность сообщения 201
измеримая функция 263
инвариантное множество 175
интеграл Лебега 266
интервал Найквиста 214
информации количество 197
информация по Фишеру 228
Ковариационная матрица 55
ковариация 54
код RLE 205
— двоичный 201
— Хэмминга 209
— Шеннона—Фано 202
Предметный указатель
275
кодирование 201
колмогоровская сложность 136
корреляционная матрица 56
— функция 169, 250
коэффициент корреляции 54
Лебеговское множество 264
лемма Бореля—Кантелли 95
ЛПР 30
Мартингал 121
математическое ожидание 43
матожидание 43
матрица неразложимая 161
—	переходных вероятностей 159
—	разложимая 161
—	стохастическая 160
мера аддитивная 260
—	внешняя 260
—	Лебега 259
метод максимального
правдоподобия 228
—	наименьших квадратов 60
модель Изинга 91
момент n-го порядка 54
Независимость испытаний 21
—	случайных величин 51
независимые события 20
неравенство Йенсена 59
—	Колмогорова 58
—	Коши—Буняковского 57
—	Ляпунова 59
—	Маркова 58
—	Рао - Крамера 228
—	Чебышёва 57
— Чебышёва двумерное 57
несовместимые события 21
нормальное распределение 66
нормальный закон 66, 243
носитель функции 258
Обобщённая функция 258
объ единение событий 14
орбита 176, 252
оценка максимального
правдоподобия 228
— смещенная/несмещенная 220,
255
— состоятельная 220, 255
—	эффективная 228
Парадокс Бернштейна 20
—	Бертрана 47
—	возврата 136
—	Кардано 17, 235
—	ожидания серии 44
—	Петербургский 35
—	раздела ставки 28
—	транзитивности 44
—	Фишера 229
передаточная функция 190
перемешивание 133
перемешивающее преобразование
176
пересечение событий 14
перестановки 12
— с повторениями 13
персептрон 152
плотность распределения 48
----совместная 52
полукольцо 261
последовательность испытаний
Бернулли 63
поток событий 83
правило переброски производной
258
произведение событий 14
276
Предметный указатель
пропускная способность канала
198
пространство элементарных
событий 9
процедура Роббинса—Монро 154
процесс винеровский 180
— восстановления 130
— Гальтона—Ватсона 78
— Маркова 157
— однородный 180
— с независимыми приращениями
180
псевдослучайный 135
Равномерная интегрируемость
114
равномерное распределение 49
размещения 12
распознавание образов 150
распределение арксинуса 181
— безгранично делимое 120
— Коши 51, 89
— показательное 74
— простых чисел 87
— Пуассона 65
— Стьюдента 227
— устойчивое 119
— хи-квадрат 226
— экспоненциальное 85
регрессия 71
Свертка плотностей 73
семиинварианты 75
симметрическая разность 15
система агрегированная 211
— укрупнённая 211
случайная величина 42
— выборка 220, 255
— функция 167
случайное блуждание 128
случайный процесс 173
событие 9
—	остаточное 115
сопряженная плотность 101
состояние возвратное 160
—	достижимое 160
—	несущественное 160
—	периодическое 160
состояния сообщающиеся 160
сохраняющее меру преобразование
175
сочетания 12
спектральная плотность 177, 178,
251
сравнимость по модулю 144
среднее значение 43
среднеквадратическая ошибка 54
среднеквадратическое уклонение
54
статистика Бозе—Эйнштейна 87
—	достаточная 228
—	Максвелла—Больцмана 86
—	Ферми—Дирака 87
статистическая характеристика
220, 255
стационарный процесс 169
стохастическая аппроксимация
153
стратегия смешанная 31
сумма событий 14
существенная верхняя грань 266
—	ограниченность 266
схема Бернулли 63, 122
сходимость в
среднеквадратическом 110,
246
—	по вероятности 109, 246
--распределению ПО, 246
—	почти всюду 264
Предметный указатель
277
----наверное 109, 246
—	с вероятностью 1 109, 246
—	слабая 110
счётная аддитивность 260
Теорема Егорова 265
—	Котельникова 213
—	Кронекера 155
—	Лебега 261
—	Лузина 264
—	отсчётов 213
—	Пуанкаре 136
—	центральная предельная 118
Управление запасами 39
уравнение Винера--Хопфа 185
— Колмогорова—Чепмена 160
урновые модели 11, 64
уровень значимости 221, 255
усиление вероятности 143
условие Линдеберга 118, 248
— Ляпунова 118, 248
условная вероятность 19, 236
— плотность вероятности 70
условное матожидание 71
Фильтр Калмана 186
финитная функция 258
формула Байеса 22, 236
— полной вероятности 22, 236
— Стирлинга 12
—	Эйлера 233
функции эквивалентные 264
функция борелевская 264
—	представитель 264
—	распределения 48
—	Римана 265
—	суммируемая 266
—	Хевисайда 153, 258
функция-индикатор 43
Характеристическая функция 73
Центральный момент 54
центрированная величина 54
цепь Маркова 158
--однородная 159
Частотная интерпретация 10
Элементарное событие 9
энтропия 191, 192, 212
— источника 198
— полная условная 194
— условная 194
эргодичность 133, 170
ст-аддитивность 260
ст-алгебра 40
В-функция 264
Валерий Иванович Опойцев —
доктор физико-математических наук, профессор.
Выделяется умением сложное объяснять просто.
Широко известны его
«Лекции по математике»
(под псевдонимом В. Босс).
Читайте также идущую
нарасхват популярную
книгу В. Босс. «Интуиция
и математика».
Отзывы читателей:
Чтобы усвоить предмет, надо
освободить его от деталей,
обнажить центральные
конструкции. Эту тяжелую
работу автор берет на себя.
Содержание продумано
и хорошо увязано.
Доказательства ужаты
до нескольких строчек.
Виртуозное владение
языком.
Дается то,чего недостает.
Общая картина, мотивация,
взаимосвязи. И самое
главное — легкость
вхождения в любую тему.
Все книги проекта
ШКОЛА ОПОЙЦЕВА
сопровождаются
видеолекциями
Haoschool.ru
и на youtube.com
Издательская группа р
URSSl
117335, Москва,
Нахимовский
проспект, 56
Телефон / факс
(многоканальный)
+7 (499) 724 25 45
Каталог изданий
в Интернете:
http://URSS.ru
E-mail: URSS@URSS.ru
Отзывы о настоящем издании, а также обнаруженные
опечатки присылайте по адресу URSS@URSS.ru.
Ваши замечания и предложения будут учтены
и отражены на web-странице этой книги на сайте
http://URSS.ru