Текст
                    А. А. БОРОВКОВ
ВЕРОЯТНОСТЕЙ
Издание третье,
существенно переработанное
и дополненное
Издательство «Эдиториал УРСС»
Москва
Издательство института математики
Новосибирск


>со>и: Настоящее издание осуществлено при финансовой поддержке Российского фонда фундаментальных исследований {проект № 98—01 — 14170) Боровков Александр Алексеевич ТЕОРИЯ ВЕРОЯТНОСТЕЙ М: Эдиториал УРСС, 1999. — 472 с. ISBN 5-901006-66-6 Книга охватывает широкий круг вопросов, начиная с оснований теории вероятностей и заканчивая основными элементами теории случайных процессов. Сюда входят: достаточно полный аппарат современной теории вероятностей; разного рода предельные законы для сумм независимых случайных величин; теоремы о поведении траекторий, порожденных этими суммами, включая относящиеся сюда так называемые факторизационные тождества; элементы теории восстановления и различные ее приложения; цепи Маркова и эргодические теоремы для них; элементы теории информации; теория мартингалов и стохастически рекурсивных последовательностей; основы теории случайных процессов; теоремы об основных свойствах винеровских и пуассоновских процессов; функциональные предельные теоремы; элементы теории марковских, стационарных и гауссовских процессов и др. Группа подготовки издания: Директор — Доминго Марин Рикой Заместители директора — Наталья Финогенова, Ирина Макеева Компьютерный дизайн — Виктор Романов, Василий Подобед Верстка — Наталия Бекетова Редакционно-корректурные работы — Виталий Волков, Лариса Кирдяшкина Обработка графики — Елена Ефремова Обработка текста — Евгений Макаров, Анна Тюрина, Андрей Стулов Техническое обеспечение — Елена Логвинова, Марина Круцко, Наталья Аринчева Издательство «Эдиториал УРСС». 113208, г. Москва, ул. Чертановская, д. 2/11, ком. прав. Лицензия ЛР №064418 от 14.05.96 г. Подписано к печати 21.04.99 г. Формат 70x100/16. Тираж 1000 экз. Авт. л. 38. Псч. л. 29,5. Зак. №53?. Отпечатано в АООТ «Политех—4». 129110, г. Москва, ул. Б. Переяславская, 46. 9l785901»006665»> ISBN 5-901006-66-6 Эдиториал УРСС, 1999
Содержание Предисловие 7 Введение 10 Глава 1. Дискретное пространство элементарных событий 13 § 1. Вероятностное пространство 13 §2. Классическая схема 15 §3. Схема Бернулли 18 § 4. Вероятность объединения событий. Примеры 20 Глава 2. Произвольное пространство элементарных событий 23 §1. Аксиомы теории вероятностей. Вероятностное пространство 23 § 2. Свойства вероятности 29 § 3. Условная вероятность. Независимость событий и испытаний 30 § 4. Формула полной вероятности и формула Байеса 32 Глава 3. Случайные величины и функции распределения 37 § 1. Определения и примеры 37 § 2. Свойства функций распределения и примеры 39 § 3. Многомерные случайные величины 47 § 4. Независимость случайных величин и классов событий 50 § 5*. О бесконечных последовательностях случайных величин 57 §6. Интегралы 57 Глава 4. Числовые характеристики случайных величин 64 § 1. Математическое ожидание 64 § 2. Условные функции распределения и условные математические ожидания . . 68 § 3. Математические ожидания функций независимых случайных величин .... 72 §4. Математическое ожидание случайных величин, не зависящих от будущего . 72 §5. Дисперсия 76 § 6. Коэффициент корреляции и другие числовые характеристики 78 §7. Неравенства 80 § 8. Обобщение понятия условного математического ожидания 82 § 9. Условные распределения 89 Глава 5. Последовательность независимых испытаний с двумя исходами 96 § 1. Законы больших чисел 96 § 2. Локальная предельная теорема 97 §3. Теорема Муавра—Лапласа и ее уточнения 102 §4. Теорема Пуассона и ее уточнения 104 §5. Неравенства для вероятностей больших уклонений в схеме Бернулли .... 111 Глава 6. О сходимости случайных величин и распределений 114 § 1. Сходимость случайных величин 114 §2. Сходимость распределений 121 §3. Условия слабой сходимости 126
4 Содержание Глава 7. Характеристические функции 130 §1. Определение и свойства характеристических функций 130 §2. Формула обращения 135 §3. Теорема непрерывности (сходимости) 137 § 4*. Другой подход к доказательству теорем сходимости к известному распределению 138 §5. Применение характеристических функций в теореме Пуассона 141 § 6. Характеристические функции многомерных распределений. Многомерное нормальное распределение 143 §7. Другие применения х. ф. Свойства гамма-распределения 146 §8. Производящие функции. Применение к изучению ветвящегося процесса. Задача о вырождении .... 151 Глава 8. Последовательности независимых случайных величин. Предельные теоремы . 155 § 1. Закон больших чисел 155 § 2. Центральная предельная теорема для одинаково распределенных случайных величин 156 §3. Закон больших чисел для произвольных независимых случайных величин . 157 § 4. Центральная предельная теорема для сумм произвольных независимых случайных величин 164 §5. Другой подход к доказательству предельных теорем. Оценки погрешности . 171 §6. Локальная предельная теорема 174 § 7. Закон больших чисел и центральная предельная теорема в многомерном случае 177 §8*. Вероятности больших уклонений 179 §9*. Сходимость к другим устойчивым законам 187 Глава 9. Элементы теории восстановления 195 §1. Процессы восстановления, функции восстановления 195 §2. Основная теорема восстановления в решетчатом случае 199 § 3. Эксцесс и дефект случайного блуждания. Предельное распределение в решетчатом случае 204 § 4. Теорема восстановления и предельное распределение эксцесса и дефекта в нерешетчатом случае 206 § 5. Закон больших чисел и центральная предельная теорема для процесса восстановления 210 Глава 10. Последовательности независимых случайных величин. Свойства траектории (0,5i,52,...) в целом 213 § 1. Законы нуля и единицы. Верхние и нижние функции 213 §2. Сходимость рядов независимых случайных величин 217 §3. Усиленный закон больших чисел 219 § 4. Усиленный закон больших чисел для произвольных независимых слагаемых 223 Глава 11. Факторизационные тождества 225 § 1. Факторизационные тождества и их первые следствия 225 §2. Факторизационные тождества". Свойства траектории (0,5i,52,...) 230 §3. Распределение 5 = max(0,£) = max 5* 233 Jb^O §4. Системы обслуживания 234 § 5. Факторизационные тождества для распределений, связанных с показательной функцией 235 §6. Симметричные непрерывно распределенные случайные величины 237 § 7. Тождество Поллачека—Спитцера 238 §8*. Явные формулы для дискретных блужданий, непрерывных сверху 240
Содержание 5 Глава 12. Последовательности зависимых испытаний. Цепи Маркова 245 § 1. Счетные цепи Маркова. Определения и примеры. Классификация состояний 245 §2. Необходимые и достаточные условия возвратности состояний. Теорема об однотипности состояний неразложимой цепи, структура цепи в периодическом случае 249 § 3. Теоремы о случайных блужданиях по решетке 252 § 4. Эргодические теоремы 257 §5*. Поведение переходных вероятностей для разложимых цепей 264 §6. Цепи Маркова с произвольным множеством состояний. Эргодичность цепей, имеющих положительный атом 265 §7*. Эргодичность харрисовых цепей Маркова 272 Глава 13. Информация и энтропия 284 §1. Определения, свойства информации и энтропии 284 § 2. Энтропия конечной цепи Маркова. Теорема об асимптотическом поведении информации длинного сообщения, ее приложения 288 Глава 14. Мартингалы 292 §1. Определения, простейшие свойства, примеры 292 § 2. О сохранении свойства быть мартингалом при замене времени на случайное. Тождество Вальда 296 §3. Неравенства 308 §4. Теоремы сходимости 312 §5. Ограниченность моментов стохастических последовательностей 316 Глава 15. Стационарные (в узком смысле) последовательности 321 § 1. Основные понятия 321 §2. Свойства эргодичности (метрической транзитивности), перемешивания и слабой зависимости 325 § 3. Эргодическая теорема 328 Глава 16. Стохастически рекурсивные последовательности 332 § 1. Основные понятия 332 § 2. Эргодичность при наличии обновляющих событий. Условия ограниченности 333 §3. Условия эргодичности, связанные с монотонностью / 339 §4. Условия эргодичности для сжимающих в среднем преобразований, удовлетворяющих условию Липшица 340 Глава 17. Случайные процессы с непрерывным временем 347 § 1. Общие определения 347 §2. Условия регулярности процессов 351 Глава 18. Процессы с независимыми приращениями 357 § 1. Общие свойства 357 § 2. Винеровские процессы, свойства траекторий 359 §3. Законы повторного логарифма 360 § 4. Пуассоновские процессы 364 § 5. Описание распределений всего класса процессов с независимыми приращениями 367 Глава 19. Функциональные предельные теоремы 371 §1. Сходимость к винеровскому процессу (принцип инвариантности) 371 § 2. Закон повторного логарифма 378 §3. Сходимость к пуассоновскому процессу 381
6 Содержание Глава 20. Марковские процессы 385 § 1. Определения и общие свойства 385 §2. Марковские процессы со счетным множеством состояний. Примеры .... 388 §3. Ветвящиеся процессы 394 §4. Полумарковские и регенерирующие процессы 397 §5. Диффузионные процессы 404 Глава 21. Процессы с конечными моментами второго порядка, гауссовские процессы 410 §1. Процессы с конечными моментами второго порядка 410 §2. Гауссовские процессы 413 §3. Задача о прогнозе 414 Приложения 417 Приложение 1. Теорема о продолжении вероятностной меры 419 Приложение 2. Теорема Колмогорова о согласованных распределениях 424 Приложение 3. Интегрирование 426 § 1. Пространство с мерой 426 § 2. Интеграл по вероятностной мере 427 § 3. Дальнейшие свойства интегралов - 430 § 4. Интеграл по произвольной мере 434 §5. Теорема Лебега о разложении и теорема Радона—Никодима 437 § 6. Слабая сходимость и сходимость по вариации распределений в произвольных пространствах 441 Приложение 4. Теоремы Хелли и Арцела—Асколи 447 Приложение 5. Доказательство теоремы Берри—Эссена 449 Приложение 6. Теоремы восстановления 453 Приложение 7. Таблицы 460 Список литературы 465 Предметный указатель 467
Предисловие Настоящая книга написана на основе книги «Теория вероятностей», вышедшей в 1986 году в издательстве «Наука» (г. Москва). Многие разделы подверглись значительной переработке, появились новые главы. Автором руководило при этом стремление к более совершенному и связному изложению, к более простым и наглядным доказательствам. Изданию 1986 года предшествовали еще два издания (1972 и 1976 годов). Первое из них появилось как обработка курсов лекций, которые читались автором на механико-математическом факультете Новосибирского государственного университета. Каждое новое издание учитывало замечания читателей и пополнялось новыми разделами, которые делали изложение более цельным и полным. Предполагается, что читатели в дополнение к традиционному курсу математического анализа знакомы также с элементами теории меры и, в частности, с понятием интеграла по мере на абстрактном пространстве и с его простейшими свойствами. Однако отсутствие этих дополнительных знаний не помешает успешному освоению книги, если только читатель будет готов некоторые утверждения принять не в их максимально общей форме. Есть и другая возможность. Читатель полностью избежит затруднений, если он при чтении соответствующих разделов ознакомится с краткими приложениями, которые помещены в конце книги и в которых получены все необходимые результаты. Первые 10 глав книги посвящены основаниям теории вероятностей (включая основные предельные теоремы для сумм растущего числа случайных величин), и их лучше читать подряд. Дальнейшие главы излагают более специальные разделы теории вероятностей, среди которых можно выделить 2 блока: случайные процессы с дискретным временем (случайные последовательности: главы 12, 14-16) и случайные процессы с непрерывным временем (главы 17-21). В книге есть также главы, которые стоят несколько в стороне от основного русла изложения, намеченного выше. К ним относится глава 11 «Факторизационные тождества», которая не только предлагает ряд очень полезных вероятностных результатов, но и обнаруживает интересные связи задач о случайных блужданиях при наличии границ с граничными задачами теории функций комплексного переменного. Несколько в стороне стоят также главы 13 «Информация и энтропия» и 19 «Функциональные предельные теоремы». Проблемы первой из них тесно связаны с теорией вероятностей, но они появляются в книгах по этой дисциплине крайне редко. Вторая излагает предельные теоремы о сходимости процессов, порожденных последовательными суммами случайных величин, к винеровскому и пуассоновскому процессам; там же устанавливается в качестве следствия закон повторного логарифма. Книга содержит много методологических усовершенствований. Некоторые разделы публикуются в учебной монографической литературе впервые (такие, например, как глава 16 о стохастически рекурсивных последовательностях, играющих важную роль в приложениях).
8 Предисловие Книга может служить основой учебных курсов для студентов, обладающих достаточно хорошей математической подготовкой (скажем, в рамках двух лет математических специальностей университетов), а также для аспирантов. Приведем перечень разделов, которые могут составить (вариантов тут может быть много) содержание семестрового или полуторасеместрового курса теории вероятностей. Вот один из вариантов: главы 1, 2; § 1-4 главы 3; § 1-6 главы 4 (частично); §2, 4 главы 5 (частично); § 1-3 главы 6 (частично); § 1, 2, 4-6 главы 7; § 1, 2, 4 главы 8 (§4 частично); §1,3 главы 10; основные результаты из главы 12. Более полное изложение основ теории вероятностей можно найти в [16, 22, 25], основ теории случайных процессов — в [7, 16]. В процессе работы над изданиями этой книги я получал советы и помощь от многих моих коллег и друзей. Я благодарен Ю. В. Прохорову, В. В. Петрову и Б. А. Рогозину за многие полезные советы, которые помогли улучшить первый вариант книги. Я глубоко признателен А. Н. Колмогорову, чьи замечания и ценные рекомендации, особенно методологического характера, способствовали усовершенствованию второго варианта книги. В связи со вторым и третьим вариантами я вновь обязан В. В. Петрову, сообщившему мне свои замечания, и П. Франкену, с которым я имел много полезных обсуждений при переводе книги на немецкий язык. В заключение я хотел бы поблагодарить В. В. Юринского, А. И. Саханенко, К. А. Боровкова и других моих коллег, также сообщивших мне свои замечания по рукописи. Мне хотелось бы поблагодарить здесь всех, кто тем или иным образом содействовал подготовке и улучшению книги. А. А. Боровков
Вниманию читателя! Значок ■ в тексте означает окончание доказательства. Нумерация формул, лемм, теорем, парафафов в каждой главе самостоятельная. При ссылках на материал из других глав используется двойная нумерация. Например, ссылка (9.11) означает, что имеется в виду формула (11) главы 9; теорема 3.4 означает теорему 4 главы 3; §6.2 означает §2 главы 6. Парафафы, отмеченные звездочкой, при первом чтении книги можно опустить.
Введение 1. Возникновение теории вероятностей относят обычно к XVII веку и связывают с комбинаторными задачами азартных иф. Азартные ифы трудно считать серьезным занятием. Но именно они привели к задачам, которые не укладывались в рамки существовавших тогда математических моделей и стимулировали тем самым введение новых понятий, подходов и идей. Эти новые элементы можно встретить уже у Ферма, Паскаля, Гюйгенса и, в более развитой форме, чуть позже, у Якоба Бернулли, Лапласа, Гаусса и др. Имена перечисленных ученых, безусловно, украшают родословную теории вероятностей, в какой-то мере связанную, как мы видели, с пороками общества. Впрочем, как выяснилось, иногда именно это обстоятельство может сообщать ей в глазах читателей некоторую дополнительную привлекательность. Первым руководством по теории вероятностей был трактат Гюйгенса «О расчетах в азартной ифе», вышедший в 1657 году. Предмет этого трактата тот же, что и в работах Ферма и Паскаля: ифальные кости и карточные ифы (см. задачи в рамках §2 главы 1). Словно предвидя дальнейшее развитие событий, Гюйгенс писал: «Я полагаю, что при внимательном изучении предмета читатель заметит, что имеет дело не только с ифой, но что здесь закладываются основы очень интересной и глубокой теории». Трактат Гюйгенса, известный также тем, что в нем впервые вводится понятие математического ожидания, был включен позднее Якобом Бернулли в знаменитую книгу «Искусства предположений», опубликованную уже после его смерти в 1713 году1). С этой книгой связаны понятие схемы Бернулли (см. §3 главы 1) и доказательство первой предельной теоремы теории вероятностей — закона больших чисел. Доказательство Бернулли хотя и фомоздко (ср. с § 1 главы 5), но математически безупречно. В конце прошлого и начале этого века стали возникать более серьезные проблемы, порожденные нуждами естествознания и приведшие к развитию большого, в значительной мере самостоятельного раздела математики, именуемого сегодня теорией вероятностей. Эта область знаний вплоть до настоящего времени находится в состоянии интенсивного развития. Своей Сфойностью, современной формой и многими своими достижениями теория вероятностей во многом обязана трудам наших замечательных соотечественников П. Л. Чебышева, А. А. Маркова, А. Н. Колмогорова и др. То обстоятельство, что увеличение наших знаний о природе предъявляет все новые фебования к теории вероятностей, на первый взгляд представляется парадоксом. Ведь основной объект теории вероятностей, как читатель, по-видимому, уже знает, есть случайность или неопределенность, как правило, связанная с незнанием. Именно так обстоит дело в классическом примере с подбрасыванием монеты, где фудно учесть все факторы, влияющие на положение монеты после падения. Однако отмеченный парадокс является лишь видимым. На самом деле точных, ' В переводе на русский язык книга была впервые издана в 1913 году. В 1986 году вышло ее новое издание на русском языке. (Бернулли Я. О законе больших чисел. М.: Наука.)
Введение 11 детерминированных количественных законов в природе почти не существует. Скажем, классический пример таких законов — закон о зависимости давления газа от его температуры — есть на самом деле результат вероятностного характера о числе соударений частиц о стенки сосуда и их скоростях. Просто в области обычных температур и давлений случайные отклонения, которые тут имеют место, с большой вероятностью очень малы и не регистрируются нашими приборами. Иначе обстоит дело при изучении более редких потоков частиц, скажем, космического излучения, хотя качественной разницы между этими двумя примерами нет. Можно пойти и в несколько ином направлении и указать на принцип неопределенности, в силу которого для любой пары физических характеристик, связанных этим принципом, фиксация одной из них делает невозможным точное определение другой. Тут уже случайность появляется не как следствие недостаточности наших знаний, а как принципиальное явление и отражение природы вещей. Например, время жизни радиоактивного ядра случайно по существу, и эта случайность не может быть устранена увеличением наших познаний. Таким образом, неопределенность стояла в начале процесса познания, она будет стоять и на всем пути его. Эти замечания носят, конечно, общий характер. Но вопрос о том, когда следует применять методы теории вероятностей и когда нет, по-видимому, всегда будет определяться соотношением между степенью точности, с которой мы хотим изучать данное явление, и сведениями о его природе, которыми мы располагаем. 2. Почти во всех областях человеческой деятельности существуют ситуации, когда те или иные эксперименты или наблюдения могут быть повторены большое число раз в одинаковых условиях. Теорию вероятностей интересуют те эксперименты, результат которых, выраженный каким-либо образом, может меняться от опыта к опыту. События, относящиеся к результату эксперимента, которые при этом могут происходить или не происходить, называют обычно случайными событиями. Мы можем, например, подбрасывать монету. Эксперимент имеет всего два исхода: монета падает либо гербом вверх, либо решеткой. При этом до получения результата эксперимента нельзя сказать, какой именно исход осуществится. Как уже отмечалось, это происходит оттого, что мы практически не в состоянии учесть все факторы, влияющие на положение монеты в момент падения. Примерно то же самое будет происходить, если вы при каждой лотерее будете покупать один билет и будете пытаться предугадать, выиграет он или нет. Или, наблюдая за работой достаточно сложного механизма, будете пытаться заранее определить, выйдет он из строя до назначенного срока или после. В таких ситуациях при рассмотрении результатов отдельных экспериментов бывает очень трудно обнаружить какие-либо закономерности. И, стало быть, здесь мало оснований строить какую-либо теорию. Однако, если обратить внимание на последовательность большого числа такого рода одинаковых экспериментов, то обнаружится интересное явление. Если индивидуальные результаты опытов ведут себя «неправильно», то средние результаты обнаруживают устойчивость. Будем, например, повторять наш эксперимент с подбрасыванием монеты и обозначим через пг число выпадений герба после первых п испытаний. Построим следующий график: на оси абсцисс отложим число проведенных экспериментов, а на оси ординат — отношение пг/п (рис. 1; график построен для последовательности исходов грргрргггрггр, где г — герб, р — решетка). Мы заметим, что ломаная, соединяющая точки (п,пг/п), с ростом п очень быстро прижимается к прямой пг/п =1/2. Чтобы проверить это обстоятельство,
12 Введение Бюффон2) в XVIII веке провел 4040 подбрасываний монеты. Из них герб выпал 2048 раз, так что частота выпадения герба пу/п оказалась равной 0,508. Пирсон провел 24000 бросаний монеты; герб выпал 12012 раз, пу/п = 0,5005. Оказывается, это явление имеет общий характер: частота осуществления какого-либо исхода в последовательности повторяемых в одинаковых условиях экспериментов приближается к некоторому числу р Е [0,1] при росте числа экспериментов. Это объективный закон природы, который лежит в основе теории вероятностей. Естественно было бы принять за вероятность некоторого исхода в эксперименте как раз то число р, к которому приближается частота появления этого исхода. Но такое определение вероятности (его связывают обычно с именем Мизеса) оказывается неудобным. Прежде всего, последовательность частот {пу/п} появления некоторого исхода при проведении одной серии экспериментов будет, как правило, отличаться от последовательности частот появления того же исхода при другой серии экспериментов. Кроме того, на самом деле мы будем иметь не бесконечную последовательность частот, а только конечное число ее элементов. Получить всю последовательность невозможно. По-видимому, вероятность нужно определять иначе, но так, чтобы имело место отмеченное желательное свойство частоты: в каком-то смысле отношение пг/п должно приближаться при увеличении п к вероятности рассматриваемого события. Отсюда можно извлечь, в частности, что вероятностями могут быть только числа р Е [0,1], при этом вероятность достоверного события следует считать равной 1. Мы определим вероятность сначала в несколько упрощенной ситуации — в так называемом дискретном случае. Эти данные заимствованы из [8].
Глава 1 Дискретное пространство элементарных событий § 1. Вероятностное пространство Для математического описания экспериментов со случайными исходами нам потребуется прежде всего понятие пространства элементарных событий (или исходов), соответствующего рассматриваемому эксперименту. Таким пространством будем называть любое множество П взаимоисключающих исходов эксперимента такое, что каждый интересующий нас результат эксперимента может быть однозначно описан с помощью элементов этого множества. В самых простых экспериментах мы обычно имеем дело с конечными пространствами элементарных событий. В рассмотренном выше примере с подбрасыванием монеты П состоит из двух элементов — герба и решетки. В опыте с подбрасыванием шестигранной игральной кости П также конечно и состоит из 6 элементов. Но даже с подбрасыванием монеты (или игральной кости) можно связать такие эксперименты, в которых будет невозможно обойтись конечными пространствами элементарных исходов. Рассмотрим, например, такой эксперимент: монета бросается до тех пор, пока впервые не выпадет герб, после этого эксперимент прекращают. Если р будет означать выпадение решетки, а г — выпадение герба, то «элементарный исход» этого эксперимента можно представить в виде последовательности (рр...рг). Таких последовательностей бесконечно много, и все они различны, так что для однозначного описания всех исходов эксперимента нельзя обойтись никаким конечным пространством. Рассмотрим конечные или счетные пространства элементарных событий П. Это так называемые дискретные пространства. Элементы пространства П мы будем обозначать буквой ш и называть их элементарными событиями (или элементарными исходами). Само понятие пространства элементарных событий математически является неопределяемым — оно исходно, так же как понятие точки в геометрии. Конкретная природа П нас, как правило, интересовать не будет. Событием мы будем называть любое подмножество ACQ, элементов из П (событие А произошло, если произошло какое-либо из элементарных событий ие а). Суммой двух событий А и В называется событие А + В (A U В), состоящее из элементарны^ событий, принадлежащих хотя бы одному из событий А или В. Произведением АВ (А П В) называется событие, состоящее из элементарных событий, принадлежащих одновременно А и В. Разность событий А и В соответствует множеству А -В, состоящему из элементов А, не принадлежащих В.
14 Глава 1. Дискретное вероятностное пространство Q, называется достоверным событием. Пустое множество 0 называется невозможным событием. А = П - А называется дополнительным событием к А. События А и В несовместны, если АВ = 0. Пусть, например, эксперимент состоит в двукратном подбрасывании игральной кости. В качестве пространства элементарных событий здесь можно рассмотреть множество, состоящее из 36 элементов (i,j), где i и j пробегают значения от 1 до 6 и означают количество выпавших очков соответственно при первом и втором бросаниях. События А = {г + j^ 3} и В = {j = 6} несовместны. Произведением событий А и С = {j четно} является событие (1,2). Отметим, что если бы нас интересовали события, относящиеся лишь к первому бросанию, то мы могли бы рассматривать и более бедное пространство элементарных событий, состоящее из 6 элементов г = 1,2,..., 6. Говорят, что заданы вероятности элементарных событий, если на П задана неотрицательная числовая функция Р такая, что ]Г) Р(ш) = * (говорят также, что функция Р задает на П распределение вероятностей). Вероятностью события А называется число р(а) = х)ри. шел Это определение корректно, так как ряд в правой части абсолютно сходится. Отметим здесь, что конкретные числовые значения функции Р нас также интересовать не будут — это лишь вопрос практической ценности той или иной модели. Ясно, например, что в случае симметричной игральной кости для исходов 1,2,...,6 надо положить Р(1) = Р(2) = ... = Р(6) = 1/6; для симметричной же монеты надо выбрать значения Р(г) = Р(р) = 1/2, а не какие-нибудь другие. В эксперименте с подбрасыванием монеты до первого появления герба следует 0 1 °° положить Р(г) = 1/2, 9{рг) = 1/22, Р(ррг) = 1/23,... . Поскольку £ 2~п = 1, то п=1 функция Р, заданная таким образом на исходах вида (р... рг), будет определять распределение вероятностей на С1. Чтобы подсчитать, например, вероятность того, что эксперимент закончится на четном шаге (т.е. вероятность события, составленного из исходов (рг), (рррг),...), надо рассмотреть сумму соответствующих оо 14 1 вероятностей, равную ]>] 2 п==4"з = 3- В упоминавшихся во введении экспериментах, где происходило угадывание, когда выйдет из строя механизм — до назначенного срока (событие А) или после — основанием для количественных оценок вероятности Р(А) обычно могут служить только результаты самих экспериментов. Методы оценок неизвестных вероятностей по результатам наблюдений исследуются математической статистикой, содержание которой мы поясним несколько позже на примере одной из задач этой главы. Отметим далее, что далеко не для всех экспериментов можно построить модели с дискретным пространством элементарных событий. Допустим, например, что измеряется энергия частиц, возможные значения которой заполняют отрезок [О,V], V > 0. Ведь множество точек этого отрезка (т.е. множество элементарных событий) континуально. Или если, например, результатом эксперимента является электрокардиограмма, снятая с больного. Здесь результатом эксперимента является элемент некоторого функционального пространства. В этих случаях требуются более общие схемы.
§2. Классическая схема 15 Из приведенных выше определений, пользуясь абсолютной сходимостью рядов ^2 Р(с*;), нетрудно получить следующие свойства вероятности: шел 1) Р(0)=О, P(ft) = 1. 2) р(а+в)= Y1 рм = 1>н+5>и- Е ри = шелив шел шев иелпв = Р(А) + Р(В)-Р(АВ). 3) Р(А) = \-Р(А). Отсюда следует, в частности, что для непересекающихся (несовместных) событий А и В Р(А + В) = Р(А) + Р(В). Это свойство аддитивности вероятности сохранится и для совокупности из произвольного числа непересекающихся событий А\,А2,--- '• если A{Aj = 0 при г Ф j, то Это следует из равенства p(\jAk)=f^P(Ak) и того, что PI |J Ak J —» 0 при n —* oo. \*=n+l / Для произвольных А и В P(j4 -f В) ^ P(^4)-f Р(Б). Это неравенство справедливо, очевидно, и для суммы произвольного числа событий: р(и^)^Ер(^)- Рассмотрим теперь несколько важных частных случаев. § 2. Классическая схема Пусть П состоит из п элементов и все исходы равновероятны, т.е. P(w) = \/п для любого и G П. В этом случае вероятность любого события А определяется формулой Р(А) = (число элементов А)/п. Это так называемое классическое определение вероятности (используется также термин равномерное дискретное распределение). Пусть задано множество {01,02,... ,ап}, которое мы будем называть генеральной совокупностью. Выборкой объема к из генеральной совокупности называется упорядоченная последовательность (о^,, а^,..., ал.). Эту последовательность можно образовывать следующим образом: первый элемент а,, выберем из всей генеральной совокупности. Следующий элемент a,j2 выберем из генеральной совокупности без элемента а,,; элемент а^ выбираем из генеральной совокупности без элементов а,,
16 Глава 1. Дискретное вероятностное пространство и a,j2 и т.д. Полученные таким образом выборки называются выборками без возвращения. Ясно, что в этом случае должно быть k ^ п. Число таких выборок объема к совпадает с числом размещений из п по к : (п)к = п(п - \)(п - 2) ■ • • (п - к + 1). Действительно, в соответствии с процессом выбора на первом месте может стоять любой из п элементов генеральной совокупности, на втором — любой из (п — 1) элементов и т.д. Более формальное доказательство можно провести индукцией по числу к. Припишем каждой выборке без возвращения вероятность 1/(п)&. Такая выборка будет называться случайной. Это есть, очевидно, классическая схема. Подсчитаем вероятность того, что а,, = а\, a,j2 — a^. Так как остальные к —2 места могут быть заняты любым из оставшихся п - 2 элементов генеральной совокупности, то число выборок без возвращения с элементами а\ и а 2 на первых местах равно (n — 2)fc_2. Стало быть, вероятность указанного события равна (п - 2)fc_2 = 1 (п)к п(п - 1) * Выборку без возвращения наглядно можно представить как последовательный выбор из совокупности п перенумерованных шаров, находящихся в урне. Вытянутые шары в урну не возвращаются. Но выборку можно образовывать и другим способом. Из урны вынимается шар и запоминается. Затем он возвращается в урну и снова производится выбор шара; вытянутый шар опять запоминается и возвращается в урну и т.д. Полученная таким способом выборка называется выборкой с возвращением. Таких выборов делается к, поэтому всего выборок с возвращением будет пк. Если приписать каждой выборке вероятность l/nfc, то опять будет иметь место классическая схема. Подсчитаем, например, вероятность того, что в выборке с возвращением объема к ^п все элементы будут разные. Выборок с неповторяющимися элементами будет столько же, сколько выборок без возвращения, т.е. (п)&. Значит, искомая вероятность равна (n)k/nk. Вернемся теперь к выборке без возвращения из генеральной совокупности {а\, а2,.. •, ап}. Нас будет интересовать число выборок объема к ^п, отличающихся только составом. Число выборок без возвращения объема А:, имеющих одинаковый состав и различающихся только порядком элементов, будет &!. Поэтому число выборок, различающихся составом, будет равно (п)к = (п к\ ~ \к Это — число сочетаний из п по к при 0 ^ к ^ п1). Если исходная выборка случайна, то получим опять классическую вероятностную схему, так как вероятность каждой новой выборки равна к\ 1 (п)к :)" В дальнейшем для значений к < 0 и к > п положим ( J ) = 0.
§ 2. Классическая схема 17 Пусть в урне п шаров, из них п\ черных и п — п\ белых. Производится выборка без возвращения объема А:. Какова вероятность того, что в выборке будет к\ черных шаров? Всего выборок, различающихся составом, как было показано, ( , ). Черных к\ шаров из всех п\ черных шаров можно выбрать ( * I способами. Остальные к - к\ белых шаров из всех п — щ белых шаров можно выбрать ( , _ ,! ] способами. При этом, очевидно, любой набор черных шаров может сочетаться с любым набором белых. Поэтому всех выборок объема к, различающихся составом и содержащих ровно к\ черных шаров, будет ( * 1 I , _ , 1 1. Значит, искомая вероятность равна '«<*•'>-(::)(::::)/(:)■ Набор чисел Р„ь„(0,А:), РПиП(1,к),... ,РПиП(к,к) образует так называемое гипергеометрическое распределение. Из полученной формулы следует, в частности, что при любом 0 < п\ < п к Е(щ\ fn-пЛ _ (п\ =0 Пример 1. В 90-х годах существовала популярная разновидность лотереи, носившая название «спортлото». Участник лотереи из 49 наименований видов спорта (обозначенных просто цифрами) называет шесть. Выигрыш определяется тем, сколько наименований он угадал из шести других наименований, которые в момент розыгрыша лотереи определяются с помощью специального механического устройства, реализующего на глазах у публики случайный выбор. Спрашивается, какова вероятность того, что участник угадает все шесть наименований? Пять наименований и т.д.? Нетрудно видеть, что это есть не что иное как задача о гипергеометрическом распределении, где в генеральной совокупности, состоящей из 49 предметов, владельцем лотерейного билета выделено шесть «белых». Поэтому вероятность того, что из случайно выбранных шести предметов к\ предметов окажутся «белыми» (совпадут с отмеченными владельцем билета), равна Рб,49(^1»^)» гДе объем выборки А: равен 6. Например, вероятность угадать все шесть наименований равна ^6,49(6,6) =(469) «7,2-Ю-8. В связи с гипергеометрическим распределением можно сделать одно замечание о природе задач теории вероятностей и математической статистики. Зная состав генеральной совокупности, мы с помощью гипергеометрического распределения можем выяснить, каким может быть состав выборки. Это типичная прямая задача теории вероятностей. Но в естественных науках обычно приходится решать обратные задачи — по составу выборок определять природу генеральных совокупностей. Такого рода обратные задачи, образно говоря, и составляют содержание математической статистики.
18 Глава 1. Дискретное вероятностное пространство § 3. Схема Бернулли Пусть из генеральной совокупности, состоящей из двух элементов {0,1}, производится выборка с возвращением объема г. Всего выборок будет 2Г. Пусть р — число из интервала [0,1]. На множестве П всех выборок определим неотрицательную функцию Р следующим образом: если в выборке содержится ровно А: единиц, то Р(и>) = рк(\ - р)г~к. Чтобы убедиться, что Р есть вероятность, надо доказать равенство Р(П) = 1. Легко понять, что А: единиц на г местах можно расположить ( ) способами. Значит, выборок, содержащих ровно А: единиц, будет столько же. Теперь уже можно подсчитать вероятность П : r(n) = J2(rk)pk(l-py~k = (p+(l--p)Y = L fc=0 ^ ' Среднее равенство здесь есть формула бинома Ньютона. Заодно мы выяснили, какова вероятность того, что в выборке содержится ровно А: единиц: -(:)' Р(к,г)=(1)рк(1-р) г-к Это так называемое биномиальное распределение. Его можно рассматривать как распределение числа «успехов» в последовательности г испытаний с двумя возможными исходами в каждом испытании: 1 («успех») и 0 («неудача»). Такую последовательность испытаний с вероятностью Р(о>), определенной как рк{\ — р)Т~к , где к — число успехов в и, называют схемой Бернулли. Оказывается, что испытания в схеме Бернулли обладают свойством независимости, которое будет обсуждаться в следующей главе. Нетрудно проверить, что вероятность появления 1 на фиксированном месте в выборке (скажем, на месте с номером $) равна р. Действительно, удалив из выборки элемент с номером s, мы получим выборку из той же совокупности, но объема г — 1. Мы найдем искомую вероятность, если вероятности этих укороченных выборок умножим на р и просуммируем по всем коротким выборкам. Ясно, что получится р. Поэтому число р в схеме Бернулли часто называют вероятностью успеха. Рассуждая таким же образом, обнаружим, что вероятность появления 1 на к фиксированных местах в выборке равна рк. Рассмотрим теперь, как ведут себя вероятности различных исходов Р(А:,г), когда меняется А:. Обратимся к отношению я(к г\ - Р{КТ) - Р r~fc+1 _ _Z_ (l±l _ i K(ICl)" Р(к-\,т)~ \-р к ~\-р\к [ Очевидно, что оно монотонно убывает с ростом А:, причем при к/(г + 1) < р это отношение больше 1, при к/(г + 1) > р — меньше. Это означает, что вероятности Р(к,г) сначала возрастают с ростом А:, а затем при А: > р(г + 1) убывают. Сказанное позволяет оценивать с помощью величин Р(к, г) вероятности к Q(k,r)=J2P(J>r)
§3. Схема Бернулли 19 того, что число успехов в схеме Бернулли не превосходит А:. Именно, при А: < р(г +1) ч R(k.r) , (г+\-к)р Нетрудно понять, что эта оценка будет весьма точной, если числа А; и г велики, а отношение к/(рг) не очень близко к 1. В этом случае сумма 1 1 l+ R(k,r) + R(k,r)R(k- l,r) +'" будет мало отличаться от суммы геометрической прогрессии 1=0 и будет справедливо приближенное равенство Например, при г = 30, р = 0,7, А; = 16 имеем гр = 21, Р(А;,г) « 0,023. Здесь отношение ?.Г_^ равно 15 • 0,7/5,7 « 1,84. Следовательно, правая часть в (1), оценивающая Q(k,r), равна приближенно 0,023- 1,84 «0,042. Истинное значение Q(k,r) при выбранных значениях г, р, к равно 0,040 (с точностью до трех знаков после запятой). Формула (1) будет использована в примере 5.1 (§5.2). Рассмотрим теперь генеральную совокупность, состоящую из п элементов, из них п\ элементов первого вида и щ = п — щ второго вида. Производится выборка без возвращения объема г. Теорема 1. Пусть пищ стремятся к бесконечности так, что щ/п —* р, где р — число из отрезка [0,1]. Тогда для гипергеометрического распределения справедливо соотношение Jnbn(n,r)->P(ri,r). Доказательство. Разделим в формуле для РПиП(г\,г) (см. §2) числитель и знаменатель на пг. Положив ri = г — Т\, щ = п — п\ получим Г\(п — Г)\ П\\ 712! П|'п ' п\ г\\{щ — г\)\ Г2\(п2 — Г2)\ , ILLflLi Л (lLL_2\ ./Ч _nrd\ Г! п \п п) \п п) \п п ) 712 (П2 1\ Г\\Г2\ U. (\ __ 1\ . . . (\ _ LdA 71 \ 71 71/ ••■(?-а^И;><.-,г-р(п,г> ПРИ 71 —> СО. ■ При достаточно больших п в силу доказанного предложения РПиП{г\,г) близко к Р(г\,г). Поэтому схему Бернулли можно представлять себе как выборку без возвращения из очень большой генеральной совокупности с соответствующим составом (доля черных шаров равна р).
20 Глава 1. Дискретное вероятностное пространство Рассмотрим в заключение две задачи. Представим себе п ячеек, в которые случайно размещаются г перенумерованных частиц. Каждая частица может попасть в любую из п ячеек, поэтому всего различных размещений г частиц в п ячейках будет пТ. Размещение частиц в ячейках можно представить как выборку с возвращением объема г из генеральной совокупности, содержащей п элементов. Мы будем предполагать, что имеем дело с классической схемой, когда вероятность каждого исхода равна 1/пг. 1) Чему равна вероятность того, что в fc-ю ячейку попало ровно г\ частиц? Остальные г — г\ частиц, которые не попали в ячейку &, распределены по п — 1 оставшимся ячейкам. Способов разместить эти г — г\ частиц поп-1 ячейкам будет (п — 1)Г~Г|. Из г частиц г — г\ частиц, не попавших в ячейку к, можно выбирать ( _ ) способами. Поэтому искомая вероятность равна \r-ri) ^ ~\г~г{) \п) \ ~п) Эта вероятность совпадает с Р{г\,г) в схеме Бернулли при р = \/п. 2) Подсчитаем теперь вероятность того, что хотя бы одна ячейка окажется пустой. Обозначим это событие символом А. Пусть Ak означает, что А:-я ячейка пуста, тогда А=ЦАк. Чтобы найти вероятность события А, нам потребуется формула для вероятности суммы (объединения) событий. При этом мы не можем воспользоваться аддитивностью вероятности, поскольку в нашем случае события Ak пересекаются. § 4. Вероятность объединения событий. Примеры Вернемся к произвольному дискретному вероятностному пространству. Теорема 2. Пусть А\,А21'..,Ап — события. Тогда (п \ п + J2 P(AiAjAk)-...+(-l)n-lP(Al...An). i<j<k Доказательство. Надо воспользоваться индукцией и свойством вероятности Р(А + В) = Р(А) + Р(В) - Р(АВ), доказанным в § 1. При п = 2 утверждение теоремы верно. Предположим, что оно верно для произвольных (п - 1) событий А\,..., Ап_\. Тогда, обозначив В = (J А{, получим Р ( U лЛ - Р(В + Ап) = Р(В) 4- Р(Ап) - Р(АпВ).
§4. Вероятность объединения событий. Примеры 21 Подставляя сюда известные значения р(в) = рГ()аА и PU„B) = p[yWn)J, получим утверждение теоремы. ■ Обратимся теперь к задаче о ячейках (см. § 3) и найдем вероятность события А, состоящего в том, что хотя бы одна ячейка окажется пустой. Мы представили А п в виде (J Ak, где Aj. означает, что все г частиц не попадают в к-ю ячейку. к=\ Имеем пг \ п) Событие AkAi означает, что все г частиц размещаются вп-2 ячейках с номерами, не равными к и I, поэтому ч (п-2У ( 2\г P(AkAi) = г1- = ( 1 - - , М ^ п. пг \ п J Аналогично PUkAiAtn) = (П "г3) = (1 - - ) , Л,*,т ^ п, пг \ п/ и т. д. Вероятность события А по теореме 2 равна pW-.(.-i)'-(;)('-i)'--B-)HO)0-9' i=i Обсуждение этой задачи будет продолжено в примере 4.5. В качестве примера использования теоремы 2 рассмотрим еще одну задачу, имеющую много разного рода приложений. Это так называемая задача о совпадениях. Имеется п элементов, расположенных в некотором порядке. Случайным образом они переставляются (все п! перестановок равновероятны). Какова вероятность того, что хотя бы один элемент окажется на том же самом месте? Всего перестановок п\. Пусть Ak означает, что fc-й элемент окажется на своем месте. Это событие содержит (п — 1)! исходов, а его вероятность равна 71! Событие Aj~Ai означает, что к-й и 1-й элементы попали на свои места; поэтому Ри^.ЦЭ!,..., рМ1...^.(1^0>!.±. п Событие (J Ak и есть событие, состоящее в том, что хотя бы один элемент попал к=\ на свое место. Таким образом, мы можем воспользоваться только что доказанной формулой
22 Глава 1. Дискретное вероятностное пространство п\(п-\)\ [п\{п-2)\ (п\{п-Ъ)\ к=\ "Iuai-itj^-UJ^ + v/ « / чП-1 1 l l ("О -... +(-1) — = 1 — + —... + -—-— / 1 1 (-1)п\ Выражение в скобках есть первые п + 1 членов разложения в ряд е . Поэтому если п —> со, то -1 Р ( U Ак) -> 1 - е ч*=1
Глава 2 Произвольное пространство элементарных событий § 1. Аксиомы теории вероятностей. Вероятностное пространство До сих пор мы рассматривали такие задачи, в которых множество исходов состояло не более чем из счетного числа элементов. В этом случае вероятность Р(^4) определялась нами с помощью вероятностей Р(о;) элементарных исходов ш. Ею оказалась функция, определенная на всех подмножествах А пространства элементарных событий П и обладающая свойствами: 1. Р(А)^0. 2. Р(П) = 1. 3. Для непересекающихся событий А\,А2,... P(IU;) = EP(^)- Однако, как уже отмечалось, легко можно представить задачу, где множество всех исходов несчетно. Например, случайное бросание точки в отрезок [^1,^2] (скажем, эксперимент с измерением температуры) имеет континуум исходов, так как результатом может быть любая точка отрезка. При этом если в экспериментах, имеющих конечное или счетное множество исходов, любая совокупность исходов представляла событие, то в рассматриваемом примере дело обстоит иначе. Мы встретимся с большими трудностями, если будем считать событием любое подмножество этого отрезка. Здесь в качестве событий нужно выделить специальный класс подмножеств. Пусть пространство элементарных событий П есть произвольное множество, a sf — некоторая система подмножеств множества П. Определение 1. sf называется алгеброй, если: Al. Sles/. А2. Из того, что A Е sf и В Е sf, следует Аи В € sf, An В е sf. A3. Если А € sf, то ~Aesf. Нетрудно видеть, что в условии А2 достаточно требовать выполнения лишь одного из приведенных двух соотношений. Второе будет выполняться автоматически. Алгебру sf иногда называют также кольцом, так как в sf определены две операции (сложения и умножения), не выводящие из sf. Алгебра sf является кольцом с единицей, так как ft E sf и АО, = SIA = А для любого А Е sf.
24 Глава 2. Произвольное вероятностное пространство Определение 2. Класс множеств # называется а-алгеброй (или а-кольцом, или борелевским полем событий), если свойство А2 выполняется для любых последовательностей множеств: А2'. Если {Ап} есть последовательность множеств из £, то 00 00 U ап е S, П Л* е 5- п=1 п=1 Здесь, как и в А2, достаточно, чтобы выполнялось лишь одно из этих двух соотношений. Второе будет следствием равенства П Ап = [jAn. Таким образом, алгебра есть класс множеств, замкнутый относительно конечного числа операций дополнения, объединения и пересечения; а-алгебра есть класс множеств, замкнутый относительно счетного числа этих операций. Если задано множество ft и какая-нибудь алгебра или а-алгебра £ его подмножеств, то говорят, что задано измеримое пространство (П,^). На отрезке [0,1] все множества, составленные из конечного числа отрезков или интервалов, образуют алгебру, но не а-алгебру. Рассмотрим все а-алгебры, содержащие интервалы (по крайней мере одна такая а-алгебра имеется, поскольку совокупность всех подмножеств данного множества образует, очевидно, а-алгебру). Легко видеть, что пересечение всех таких а-алгебр (т.е. совокупность множеств, принадлежащих всем а-алгебрам одновременно) снова образует а-алгебру. Это есть минимальная а-алгебра, содержащая интервалы; ее называют борелевской. Борелевскую а-алгебру, грубо говоря, можно представлять себе как совокупность множеств, полученных из интервалов с помощью счетного числа операций объединения, пересечения и взятия дополнений. Это весьма богатый класс множеств, заведомо достаточный для практических целей. Элементы борелевской а-алгебры называют борелевскими множествами. Наряду с интервалами (а, Ь) борелевскими множествами являются одноточечные множества {а} и множества вида (а, 6], [а, Ь], [а, 6) (а и b могут принимать и бесконечные значения). Это утверждение следует, например, из представлений вида 00 / 1 1\ °° / 1 {а}= П [а--,а+- , (а,Ъ] = f| U,6+- п=\ \ П 7lJ n=1 V П Таким образом, все счетные множества и счетные объединения интервалов или отрезков также являются борелевскими. Если дан какой-нибудь класс 38 множеств из П, то мы можем рассмотреть снова пересечение всех а-алгебр, содержащих %, и получить таким способом наименьшую а-алгебру, содержащую 36. Определение 3. Наименьшая а-алгебра, содержащая 93, называется а-алгеброй, порожденной классом 06, и обозначается через а(ЗВ). В этих терминах борелевская сг-алгебра в n-мерном евклидовом пространстве Ж1 есть а-алгебра, порожденная прямоугольниками или сферами. Если П счетно, то а-алгебра, порожденная элементами и Е ft, очевидно, совпадает с а-алгеброй всех подмножеств ft. В качестве упражнения предлагаем читателю описать алгебру и а-алгебру множеств на П = [0,1], порожденную: а) интервалами (0, 1/3) и (1/3, 1); б) полуинтервалами вида (а, 1], 0 < а < 1; в) отдельными точками. •
§ 1. Аксиомы теории вероятностей 25 Чтобы формализовать какую-либо вероятностную задачу, надо соответствующему эксперименту приписать измеримое пространство (П,^). Символ П означает множество элементарных исходов эксперимента, а алгебра или а-алгебра £ выделяет класс событий. Все остальные подмножества П, не входящие в £, событиями не являются. При этом класс событий £ часто будет удобно определять как а-алгебру, порожденную той или иной алгеброй sf. Выделение той или иной алгебры или а-алгебры событий # обусловлено, с одной стороны, существом рассматриваемой задачи, с другой стороны — природой множества П. Как мы увидим, далеко не всегда можно определить вероятность так, чтобы она имела смысл для любого подмножества П. В главе 1 уже отмечалось, что в теории вероятностей наряду с обычной теоретико-множественной терминологией используется несколько иная терминология, связанная с тем, что множества из П (принадлежащие #) интерпретируются как события. В связи в этим само множество П часто называют достоверным событием. По аксиомам А1 и A3 пустое множество 0 также принадлежит #; его называют невозможным событием. А называется противоположным или дополнительным событием к А. Если А Г) В = 0, то события А и В называются несовместными. Теперь осталось ввести понятие вероятности событий. Рассмотрим пространство П и какую-нибудь выделенную в нем систему множеств s/, образующую алгебру событий. Определение 4. Вероятность на (Q,,sf) есть числовая функция, определенная на множествах из sf и обладающая следующими свойствами: PL P(A)^0 для любого A Est. Р2. Р(П) = 1. РЗ. Если последовательность {Ап} событий такова, что A{Aj — 0 при г ф j, 00 (J An e sf, то п=\ р U4 =Ер(4 (О v"=l ) „=1 Эквивалентным аксиоме РЗ будет требование аддитивности (1) для конечного набора событий Aj и следующая Аксиома непрерывности. РЗ'. Пусть последовательность {Вп} событий такова, что Вп+\ С Вп и f| Вп = В esf, тогда Р(Вп) -> Р(Б) при п -> оо. Доказательство эквивалентности. Пусть выполнено РЗ, и пусть Вп+\ С Вп, f) Вп = В е sf. Тогда последовательность событий В, Ск = ВкВк+\, к = 1,2,..., п=[ оо состоит из попарно несовместных событий и Вп = В + U Ск для любого п. к=п оо Воспользовавшись теперь свойством РЗ, получим, что ряд Р(В\) = Р(В)+ X) P(Cfc) к=\ сходится, а это значит, что при п —> оо 00 Р(В„) = Р(В) + Х)Р(С*)-Р(В). к=п Это и есть свойство РЗ'.
26 Глава 2. Произвольное вероятностное пространство Наоборот, если {Ап} — последовательность несовместных событий, то Р ( U Ак) = Р ( U *к) + Р ( 0 -*») \* = 1 / \fc=l / \*=n + l / pf u A»)} = pfu>i*y \fc=n+l / ) \k=\ / Последнее равенство следует из РЗ'. ■ Определение 5. Тройка (£l,s/,P) называется вероятностным пространством в широком смысле. 00 Если некоторая алгебра $ образует <7-алгебру ($ = сг(#)), то условие |J Ап Е $ п=1 в аксиоме РЗ (для вероятности на (П, £)) будет выполняться автоматически. Определение 6. Тройка (П,^,Р), где $ — а-алгебра, называется просто вероятностным пространством. Вероятность Р на (П, 5) называют иногда также распределением вероятностей на Г2 или просто распределением на П (на (£1,$)). Таким образом, задание вероятностного пространства есть задание счетно- аддитивной неотрицательной меры на измеримом пространстве, такой, что мера П равна единице. В таком виде аксиоматика теории вероятностей была сформулирована А. Н. Колмогоровым. Введенная система аксиом является неполной и непротиворечивой. Построение вероятностного пространства (0,5, Р) является основным этапом в создании математической модели (формализации) того или иного эксперимента. Дискуссии о том, что следует понимать под вероятностью, имеют длинную историю и связаны с желанием увязать определение вероятности с ее «физической» природой. Однако ввиду сложности последней такие попытки всегда наталкивались на существенные трудности не только математического, но и философского характера (см. введение). Наиболее важные этапы этой дискуссии связаны с именами Бореля, Мизеса, Бернштейна, Колмогорова. Появление аксиоматики Колмогорова как бы отделяет математическую сторону вопроса от всего остального. При таком подходе «физическая трактовка» понятия вероятности появляется уже в виде теоремы (усиленный закон больших чисел, см. гл. 5, 7), в силу которой частота появления некоторого события при неограниченном повторении независимых испытаний сближается (в строго определенном смысле) с вероятностью этого события. Рассмотрим теперь примеры наиболее употребимых измеримых и вероятностных пространств. 1. Дискретное измеримое пространство. Так мы будем называть пространство (Г2,$), где Г2 состоит из конечного или счетного числа элементов, а а-алгебра £ обычно составлена из всех подмножеств множества ft. Дискретные вероятностные пространства, построенные на дискретных измеримых пространствах, изучались в главе 1. Там же рассмотрено много конкретных примеров. и имеют место равенства У2 Р(4ь) = Ит 5>(4ь) = Ит Р LU* ) = -*—' п—»оо ^——' п—»оо \i._ 1 / = lim/pf U Ak) - "-+001 \k=\ J k=\ k=\
§1. Аксиомы теории вероятностей 27 2. Измеримое пространство (Е, 03), где R — вещественная прямая (или ее часть), 03 — а-алгебра борелевских множеств. Необходимость рассматривать такие пространства возникает в тех случаях, когда результаты интересующих нас наблюдений могут принимать любые значения из R. Пример 1. Рассмотрим эксперимент, состоящий в «случайном бросании» точки на отрезок [0,1]. Под этим будем понимать следующее. Множеством П элементарных исходов здесь является отрезок [0,1]. В качестве <7-алгебры # возьмем множество подмножеств В, для которых определено понятие длины (меры Лебега) р,(В), например, а-алгебру 03 измеримых по Борелю множеств. Слова «произведено испытание» здесь означают, что выбрана точка ш G П — [0,1] и вероятность события ш G В равна fi(B). Ясно, что для вероятностного пространства ([0, 1],03,/а) все аксиомы выполнены. Мы получили так называемое равномерное распределение на [0,1]. Почему в качестве # мы выбрали в этом примере <т-алгебру борелевских множеств 03? Если бы мы на П = [0,1] рассмотрели а-алгебру, порожденную «отдельными точками» отрезка, то получили бы множества, лебегова мера которых равна либо нулю, либо единице. Другими словами, мы получили бы множества либо очень «плотные», либо очень «худые» (счетные), так что интервалы (а, 6) при b - а < 1 не принадлежат этой а-алгебре. С другой стороны, если рассмотреть на П = [0,1] о"-алгебру всех подмножеств П, то задать вероятностную меру на ней так, чтобы Р([а,Ь]) = Ь — а (т.е. равномерное распределение), оказывается невозможным1). Если обратиться снова к равномерному распределению Р на П = [0,1], то легко понять, что это распределение невозможно задать тем же способом, который мы использовали при определении вероятности на дискретном пространстве элементарных событий (т.е. путем задания вероятностей элементарных исходов и). Так как в этом примере ш есть отдельные точки из [0>1], то, очевидно, Р(ш) = 0 для любого ш. 3. Измеримое пространство (IRn, 03п) возникает в тех случаях, когда наблюдения представляют собой вектор. Здесь IRn — n-мерное евклидово пространство (IRn = R\ х ... х Шп, где R\,..., Мп суть п экземпляров вещественной прямой), 03п — (7-алгебра борелевских множеств в Rn, т.е. алгебра, порожденная множествами В — В\ х ... х Вп, где В{ С Ж, есть борелевские множества на прямой. Вместо Ж1 можно рассматривать также какую-нибудь измеримую часть П G 03п (например, куб, шар), а вместо 03п — сужение 03п на П. Например, можно аналогично предыдущему построить вероятностное пространство для случайного бросания точки в куб П = [0,1]п. Здесь полагаем Р(о> G В) = fi(B), где fi(B) — мера Лебега (объем) множества В. Вместо куба [0,1]п мы могли бы рассматривать и любой другой куб, например, [а, Ь]п, но только в этом случае надо полагать Р(ш е В) = fi(B)/fi(Q) = fi(B)I (b — a)n. Это будет равномерное распределение на кубе. В теории вероятностей возникают и более сложные вероятностные пространства. Как быть, если результатом эксперимента является бесконечная числовая последовательность? В этом случае наиболее подходящим часто оказывается пространство (Е^ОЗ00). 00 4. Измеримое пространство (R°° ,03°°), где R°° = П % > есть пространство всех !)См. [17, с. 80].
28 Глава 2. Произвольное вероятностное пространство последовательностей (х\,Х2,...), а Я3°° есть а-алгебра, порожденная множествами N вида П Bjk, Bjk Е ЯЗд. при любых N, J[>...,Jn, где Я3;- — а-алгебра борелевских к=\ множеств из Rj. 5. Если результатом эксперимента является, скажем, непрерывная функция на отрезке [а, 6] (траектория движения частицы, электрокардиограмма больного и т.д.), то вероятностные пространства, рассмотренные выше, окажутся непригодными. В этом случае в качестве П следовало бы взять пространство С(а, 6) всех непрерывных функций на [а,6] или пространство Wa'b* всех функций на [а,6]. Вопрос о выборе подходящей а-алгебры здесь несколько усложняется, и мы обсудим его позже в главе 17. Вернемся теперь к определению вероятностного пространства. Пусть тройка (£l,sf,P) образует вероятностное пространство в широком смысле (sf есть алгебра). Как мы уже видели, с каждой алгеброй sf связана о"-алгебра $ = o~(stf), порожденная sf. Существенный интерес представляет следующий вопрос: определяет ли вероятностная мера Р на s/ меру на # = а (я/) и однозначно ли это происходит? Другими словами, достаточно ли для построения вероятностного пространства (П, 3\ Р) задать вероятность Р лишь на какой-нибудь алгебре sf, порождающей $ (т. е. построить какое-нибудь вероятностное пространство в широком смысле (Q,j/,Р), где a(stf) — #). Ответ на этот важный вопрос содержится в следующей теореме Каратеодори. Теорема о продолжении меры. Пусть (П, j/, P) — вероятностное пространство в широком смысле. Тогда существует, и притом единственная, вероятностная мера Q, определенная на 5 = o~(s/) такая, что Q(A) = P(A) для всех Aesf. Следствие 1. Каждое вероятностное пространство в широком смысле (П, sf, P) автоматически определяет вероятностное пространство (П,^, Р) с5 = o~(sf). Этим фактом мы будем широко пользоваться в дальнейшем. Из него следует, в частности, что для определения вероятности на измеримом пространстве (R, 03) достаточно задать вероятность интервалов. Доказательство теоремы Каратеодори отнесено в Приложение 1. В заключение этого параграфа сделаем одно замечание общего характера. Математика качественно отличается от таких наук, как физика, химия и др. тем, что она в своих выводах не опирается постоянно на опытные данные, с помощью которых естествоиспытатель пытается получить ответы на свои вопросы, а развивается в рамках исходной конструкции или системы аксиом, которыми человек описал исследуемый объект. Таким образом, математика и, в частности, теория вероятностей, исследует природу окружающих нас явлений методологически иначе — изучаются не сами явления непосредственно, а модели этих явлений, созданные однажды на основе человеческого опыта. Ценность той или иной модели определяется соответствием выводов теории и наших наблюдений и поэтому зависит от выбора аксиом, характеризующих объект. В этом смысле аксиомы PI, P2 и аддитивность вероятности представляются бесспорными и естественными (ср. с замечаниями во введении о желательных свойствах вероятности). Счетная аддитивность вероятности и вместе с ней свойство сг-алгебры А2' являются качествами более тонкими и менее контролируемыми
§2. Свойства вероятности 29 нашей интуицией (так же, впрочем, как и многое другое, связанное с понятием бесконечности). Введение последних двух свойств обусловлено, главным образом, возможностью построения содержательной математической теории. Многочисленные приложения теории вероятностей, развитой из сформулированной в этом параграфе системы аксиом, обнаруживают ее высокую эффективность и целесообразность. § 2. Свойства вероятности 1. Р(0) = 0. Это следует из равенства 0 +П = П и свойств вероятности Р2, РЗ. 2. Р{А) = 1 - Р(А), так как A + ~A = Q, и АП^А = 0. 3. Если АС В,тоР(А) ^Р(В). Это следует из того, что Р(А)+Р(АВ) = Р(В). 4. Р(^4) ^ 1 (см. свойство 3 и Р2). 5. Р(А U В) = Р(А) + Р(В) - Р(АВ), так как AUB = A + (B- AB), Р(В - АВ) = Р(В) - Р(АВ). 6. Р(А U В) ^ Р(А) + Р(В), следует из предыдущего. 7. Р ( U Ак) = £ Р(А*) - £ Р(АкАг) + \fc=l / fc=i k<i + £ Р(А]ЬА1Ага)-...(-1)п-1Р(А1...Ап). fc</<m Эта формула была уже доказана и использована для дискретного П. Здесь читатель может доказать ее точно так же — используя индукцию и свойство 5. / 00 \ 00 8. Р ( lUn) ^ £PU.).TaKKaic \п=\ / п=\ 00 00 П— 1 U Ап = U В»4», где Вп = П - (J 4ь, п=1 п=\ к=\ и события .Ап2?п не пересекаются, то / 00 \ °° °° р ( и ап ) - J2 р(впАп) ^ Y1 р(А-)- 9. Если Ап есть монотонно возрастающая последовательность множеств 00 (Ап С i4n+i) и А = (J j4„, то п=1 Р(А)= lim Р(ЛП). Это другая форма аксиомы непрерывности, эквивалентная РЗ'. Действительно, введя в рассмотрение множества Вп = А — Ап, мы получим 00 Вп+\ С Вп, П Вп = 0. Стало быть, по аксиоме непрерывности при п —> со п=\ Р(А-Ап) = Р(А)-Р(Ап)->0. Утверждение в обратную сторону получается аналогичным образом.
30 Глава 2. Произвольное вероятностное пространство § 3. Условная вероятность. Независимость событий и испытаний Начнем с примеров. Пусть эксперимент состоит в троекратном подбрасывании симметричной монеты. Вероятность того, что герб выпадет ровно один раз, т.е. произойдет одно из элементарных событий (грр), (ргр), (ррг), в классической схеме равна 3/8. Обозначим это событие буквой А. Предположим теперь, что об исходе эксперимента дополнительно известно, что произошло событие В = {число выпавших гербов нечетно}. Какова вероятность события А при этой дополнительной информации? Событие В состоит из четырех элементарных исходов. Событие же А составляется из трех исходов события В. В рамках классической схемы естественно принять новую вероятность события А равной 3/4. Рассмотрим еще один более общий пример. Пусть задана классическая схема с п исходами. Событие А состоит из г исходов, событие В — из т исходов, а событие АВ содержит А: исходов. Вероятность события А при условии, что произошло событие В, по аналогии с предыдущим примером естественно определить следующим образом: Р(А\В) = - = -!—. т т/п Полученное отношение равно Р(АВ)/Р(В), так как Р (АВ) = к/п, Р (В) = т/п. Можно привести теперь общее Определение. Пусть задано вероятностное пространство (ft,^, P), и пусть А и В — произвольные события. Если Р(В) > 0, то условная вероятность события А при условии, что произошло событие В, по определению полагается равной Определение 7. События А и В называются независимыми, если Р(АВ) = Р(А)Р(В). Некоторые свойства независимых событий. 1. Если Р(В) > 0, то независимость А и В эквивалентна равенству Р(А\В) = Р(А). Доказательство очевидно. _ 2. Если А и В независимы, то независимы А и В. Действительно, Р(АВ) = Р(В - АВ) - Р(В) - Р(АВ) = Р(В)(\ - Р(А)) = Р(А)Р(В). 3. Пусть события А и В\ независимы и независимы также события А и В2, при этом В\В2 = 0. Тогда независимы события А и В\ +2?2- Следующие равенства доказывают это свойство: Р(А(В{ + В2)) = Р(АВ{ + АВ2) = Р(АВ{) + Р(АВ2) = = Р(А)(Р(В{) + Р(Я2)) = Р(А)Р(В} + В2). Как мы увидим ниже, требование В\В2 = 0 здесь существенно.
§3. Условная вероятность. Независимость событий 31 Пример 2. Пусть событие А означает выпадение герба в первом из двух бросаний симметричной монеты, а событие В — выпадение решетки во втором бросании. Вероятность каждого из этих событий равна 1/2. Вероятность пересечения АВ будет равна P(AB)=l-=l-l- = P(A)P(B). Таким образом, события А и В независимы. Пример 3. Рассмотрим равномерное распределение на квадрате [0,1] (см. § 1). Пусть событие А состоит в том, что случайно брошенная точка попала в область, расположенную правее абсциссы а, событие В — в том, что точка попала в область, расположенную выше ординаты Ь. На рис. 2 обе области заштрихованы. Событие АВ на рисунке заштриховано в клеточку. Очевидно, Р(АВ) — P(j4)P(£), и, значит, события А и В независимы. Легко проверить также, что если событие В означает попадание брошенной точки в треугольник FCD (см. рис. 2), то события А и В будут уже зависимыми. Определение 8. События Bi,B2,...,Bn независимы в совокупности, если для любых 1 ^i\ <%2 < ... < ir ^ n, г = 2,3,..., п, А 1 < U < и' 0 % ш. F SXNNNXN^vO а }С D 1 Рис. 2. (nBh)=f[p(Bik). Попарной независимости событий недостаточно для независимости п событий в совокупности. Это показывает следующий Пример 4 (Пример Бернштейна). Рассмотрим такой эксперимент. На плоскость бросается тетраэдр, три грани которого покрашены соответственно в красный, синий и зеленый цвета, а на четвертую нанесены все три цвета. Событие К означает, что при бросании тетраэдра на плоскость выпала грань, содержащая красный цвет, событие С — грань, содержащая синий цвет, и событие 3 — грань, содержащая зеленый цвет. Так как каждый из трех цветов содержится на двух гранях, то Р(А) = Р(С) = Р(3) = 1/2. Вероятность пересечения любой пары введенных событий равна 1/4=1/2-1/2, так как любая пара цветов присутствует только на одной грани. Это означает попарную независимость всех трех событий. Но Р(КЗС)=1-фР(К)Р(3)Р(С)=1-. Теперь легко построить пример, когда при В\В2 ф 0 свойство 3 независимых событий не будет иметь места. В качестве примера последовательности событий, независимых в совокупности, можно привести последовательность исходов в схеме Бернулли. Если считать, что каждый исход получен в результате отдельного испытания, то мы обнаружим, что любое событие, относящееся к фиксированному испытанию,
32 Глава 2. Произвольное вероятностное пространство будет независимым от любого события, относящегося к остальным испытаниям. В таких случаях говорят о последовательности независимых испытаний. Чтобы дать общее определение, рассмотрим два произвольных эксперимента G\ и (*2 и обозначим через (flbSbPi) и (^2>3Г2>Р2) соответствующие им вероятностные пространства. Рассмотрим также «составной» эксперимент G с вероятностным пространством (П,^, Р), где Г2 = Vt\ x 0,2 есть прямое произведение пространств 0\ и Г22> а а-алгебра 5 порождена прямым произведением #1 х $2 (т.е. событиями В = В\ х £?2, В\ € 5ь ^2 £ З^)- Определение 9. Мы будем говорить, что испытания G\ и Gi независимы, если для любых В — В\ х^2, В\ Е 5ь #2 € #2 выполняется Р(В) = Pi{Bl)P2(B2) = Р(В! х П2)Р(П1 х В2). Независимость п испытаний Gi,...,Gn определяется аналогично с помощью равенства Р(В) = Р1(В1)...РП(ВП), где В = В\ х ... х Бп, Bk € 3k, ФьЗъР*) — вероятностное пространство, соответствующее эксперименту G*, А: = 1,... ,п. В схеме Бернулли вероятность каждой последовательности исходов, состоящей из г нулей и единиц и содержащей А: единиц, равна рк{\ -р)г~к. Поэтому схему Бернулли можно рассматривать как результат независимых испытаний, в каждом из которых с вероятностью р появляется 1 (успех) и с вероятностью 1 — р появляется О (неуспех). Таким образом, вероятность появления А: успехов в г независимых испытаниях равна ( , \рк(\ - р)Т~к. Верно и в некотором смысле обратное утверждение: любая последовательность независимых одинаковых испытаний с двумя исходами образует схему Бернулли. В главе 3 будет приведен ряд замечаний о связи введенных понятий независимости с общепринятым пониманием причинной зависимости. § 4. Формула полной вероятности и формула Байеса Пусть А — некоторое событие, £i,B2,...,£n — попарно несовместные события, имеющие положительные вероятности и такие, что AC IJ Bj. Тогда имеет место формула полной вероятности: •/_ п P(A) = J2P(Bj)P(A\Bi)- 7=1 П Доказательство. Из приведенных условий следует, что А = (J BjA. Кроме i=i того, события АВ\>АВ2,..., АВп несовместны, поэтому п п Р(А) = J2 P(ABj) = J2 P(Bj)P(A | Bj). 7 = 1 7=1
§ 4. Формула полной вероятности и формула Байеса 33 Пример 5. В экспериментах на встречных электрон-позитронных пучках вероятность того, что за единицу времени произойдет j столкновений, сопровождающихся рождением новых элементарных частиц, равна Pj = —^r-, j=0,l,..., где Л — положительный параметр (это так называемое распределение Пуассона, которое подробно будет рассмотрено в главах 3, 5, 18). При каждом столкновении в результате взаимодействия могут возникнуть различные группы элементарных частиц, при этом вероятность появления каждой группы фиксирована и не зависит от результатов взаимодействия при остальных столкновениях. В качестве одной из таких групп рассмотрим пару \l-мезонов и обозначим через р вероятность их появления при одном столкновении. Чему равна тогда вероятность события Ак, при котором за единицу времени рождается А: пар fi-мезонов? Допустим, что наступило событие Bj, состоящее в том, что за единицу времени происходит j столкновений. При этом условии будем иметь последовательность j независимых испытаний, и вероятность появления А: пар fi -мезонов будет равна рУ~к. Поэтому по формуле полной вероятности (£)»'<■-; 00 °° e~X\i 9' Р(Ак) = ^Р(В,)Р(Ак\В3) = ^ j{ к[и-к)А1-РУ~к = 3~к е'Ул* " (Л(1-р)У = е-х*>(р\)к к\ ^ j\ ~ к\ Таким образом, мы получили снова распределение Пуассона, но с параметром Хр. Приведенное решение задачи было не формализованным. Формальное решение требует прежде всего построения вероятностного пространства. Оно оказывается здесь достаточно сложным. Обозначим через Ctj пространство элементарных событий в схеме Бернулли, соответствующей j испытаниям, и пусть Uj — элемент Пу. Тогда в качестве Г2 можно взять всевозможные пары {0\^)}^_0» где ЦиФРа Указывает число столкновений, Uj означает последовательность длины j «успехов» и «неуспехов» («успех» — появление \i-мезонов). Если Uj содержит А: «успехов», то следует положить р(0>,-)) = р,У0-рГ*. Чтобы получить P{Ak), остается просуммировать эти вероятности по всем Wj, содержащим А: успехов, и по всем j ^ к (принцип формулы полной вероятности здесь используется неявно при расслоении Ак на события (j,^)). Тот факт, что число столкновений частиц описывается распределением Пуассона, нетрудно понять в силу следующих обстоятельств, вызванных существом физического процесса. Пусть событие Bj(t,u) состоит в том, что за интервал времени [t,t + u) произошло j столкновений. Тогда оказывается, что а) пары событий Bj(v,t) и Bk{v + t,u), относящиеся к непересекающимся интервалам времени, независимы при всех v, t, и, j, A:; б) при малых А вероятность столкновения за время А пропорциональна А : Р(В,(<,Д))=АД + 0(Д), и, кроме того, P(Bk(t, Д)) = о(Д), к ^ 2.
34 Глава 2. Произвольное вероятностное пространство Используя снова формулу полной вероятности при гипотезах Bj(v,t), получим для вероятностей pk(t) = P(Bk(v,t)) следующие соотношения: к к Pk(t + Д) = ^2Pj(t)P(Bk(v,t + A)\Bj(v,t)) = £>i(*)P(B*-i(» + t, А)) = j=0 i=0 = о(А) + pk-i(t)(XA + o(A)) + pk(t)(\ - ЛД - o(A)), к ^ 1; p0(t + A)=p0(t)(l-XA-o(A)). Преобразуя последнее уравнение, находим pp(t + А) - pp(t) - = ~Xp0(t) + o(l). Следовательно, существует производная p0(t) = -Xp0(t). Аналогичным образом устанавливаем, что существуют Pk(t) = Xpk-i(t)-Xpk(t), к^\. (1) Заметим теперь, что так как функции pk(t) непрерывны, то следует положить р0(0) = 1, рк(0) = 0 при к^ I. Поэтому p0(t) = e~xt. (\t)k~le~xt Пользуясь индукцией и подставляя в (1) Pk-\(t) = (ьЛТГ"' Устанавливаем (удобно произвести замену рк = e~xtuk, тогда уравнение (1) примет вид и'к = A j^, ), что й х (Xt)ke~xt Pk{t)=v—' к = °>1>-- Это есть распределение Пуассона с параметром А£. Чтобы понять конструкцию вероятностного пространства в этой задаче, следует обратиться к множеству П всех ступенчатых неубывающих функций x(t) ^0, t ^ 0, принимающих значения 0,1,2... . Каждая такая функция может играть роль элементарного события: точки ее скачков будут указывать моменты столкновений, само значение x(t) будет означать число столкновений за интервал времени (0, t). Чтобы избежать здесь громоздких рассуждений, связанных с заданием а-алгебры, можно для наших вычислений считать вероятность Р заданной на алгебре stf (см. §1), порожденной множествами {x(t) = к}, t ^ 0; А: = 0,1,... (ведь все рассматриваемые в этой задаче события являются именно такими множествами). Приведенные выше рассуждения показывают, что следует положить e~xt(Xt)k P(x(v + t) - x(v) = k) = ^—i- (см. также о пуассоновских процессах в главе 18). Приведенными примерами мы хотели не только проиллюстрировать применение формулы полной вероятности, но и показать, что построение вероятностных пространств в реальных задачах далеко не всегда оказывается простым.
§4. Формула полной вероятности и формула Байеса 35 Разумеется, проведение таких построений в каждой задаче вовсе не обязательно, но рекомендуется все же делать это до появления достаточно твердых навыков. Пусть события А и £i,...,£„ удовлетворяют условиям, сформулированным в начале §4. Если Р(А) > 0, то при этих условиях имеет место формула Байеса: . Р(*,Ц)= .Р<*>Р<"Д'> . ZP(Bk)P(A\Bk) *=1 Эта формула есть просто иная форма записи равенства P(BjA) P(Bj\A) Р(А) где в числителе надо воспользоваться определением условной вероятности события А при условии В3;, а в знаменателе — формулой полной вероятности. Пример 6. Некоторое изделие выпускается двумя заводами. При этом объем продукции второго завода в А: раз превосходит объем продукции первого. Доля брака у первого завода Pi, а у второго — Р2. Предположим теперь, что изделия, выпущенные заводами за одинаковый промежуток времени, перемешали и в таком виде пустили в продажу. Какова вероятность того, что вы приобрели изделие со второго завода, если оно оказалось испорченным? Пусть событие В\ означает, что выбранное вами изделие с первого завода, a В2 — со второго. Легко видеть, что p(Bi) = ——, Р(В2) = -^-. Это так называемые априорные вероятности событий В\, В2. Пусть событие А означает, что выбрано бракованное изделие. Нам даны условные вероятности Р(А\В\) = Р\ и Р(А\В2) = Р2. Теперь, воспользовавшись формулой Байеса, можно ответить на поставленный вопрос: Р(В2\А) = */0 + *>^ = kP2 V 2I 7 \/(\+k)Px+k/(l + k)P2 Р\+кР2 Аналогично, Р(В\ \ А) = Р\/{Р\ + кР2). Вероятности Р{В\\А) и P(B2|j4) называют иногда апостериорными вероятностями соответственно событий В\, В2, после того как произошло событие А. Пример 7. Студенту предложили решить числовую задачу. Ответ задачи известен и представляет собой одно из чисел 1,..., А:. Решая задачу, студент может либо найти правильный путь решения задачи, либо ошибиться. Подготовка студента такова, что он находит правильный путь решения задачи с вероятностью р. В этом случае ответ, полученный им, совпадает с данным. С дополнительной вероятностью 1 - р студент ошибается. В этом случае мы будем предполагать, что в качестве ответа может получиться любое из чисел 1,..., к с вероятностью \/к. Известно, что студент получил правильный ответ. Какова при этом условии вероятность того, что он верно решил задачу? Пусть В\ (В2) есть событие, означающее, что студент решил задачу верно (неверно). Тогда по условию априорные вероятности этих событий равны P(l?i) = р,
36 Глава 2. Произвольное вероятностное пространство Р(£?2) = \ — р. Если событие А состоит в том, что студент получил правильны] ответ, то Р(А\В1)=\, Р(А\В2)=1-. По формуле Байеса искомая апостериорная вероятность Р(В\ \А) равна P(B,)P(il|Bl) р 1 P{Bi\A) = P(Bi)P(A\Bi) + P(B2)P(A\B2) p+(l-p)/k \ + {\-p)/kp- Очевидно, что Р{В\ \А) > Р(В\) —р и что P(Bi \A) близка к 1 при больших к.
Глава 3 Случайные величины и функции распределения § 1. Определения и примеры Пусть (П,^, Р) — произвольное вероятностное пространство. Определение 1. Случайной величиной £ называется измеримая функция £ = £(а;), отображающая П в множество действительных чисел Е, т.е. функция, для которой прообраз £~Х(В) — {ш: £(ш) Е В} любого борелевского множества В Е 03 есть множество из а-алгебры #. В таких случаях говорят также, что £ осуществляет измеримое отображение <П,3)*(В,В). Например, при бросании монеты П состоит из двух точек: герба и решетки. Если гербу поставить в соответствие 1, а решетке 0, то, очевидно, получим случайную величину. Случайной величиной будет также число очков на выпавшей грани кости. Расстояние от начала координат до случайно брошенной точки в квадрат [0 ^ ж ^ 1, 0 ^ г/ ^ 1] тоже будет случайной величиной, так как множество {(ж,у): ж + у < t} измеримо. Читатель, наверное, заметил, что в этих примерах придумать неизмеримую функцию от ш, которая отвечала бы какой-нибудь реальной задаче, очень трудно. Такое явление имеет место часто, но не всегда. В главе 17, посвященной случайным процессам, нас будут интересовать множества, которые, вообще говоря, событиями не являются и требуют специальных модификаций для того, чтобы их можно было считать событиями. Как отмечалось выше, из определения случайной величины следует, что для любого множества В из а-алгебры борелевских множеств 03 на прямой С1(В) = {ч>:£(и>)еВ}еЗ. Следовательно, на измеримом пространстве (R, 03) определена вероятность Р^(В) = P(^GB), которая порождает вероятностное пространство (Е, 03, Р^). Определение 2. Вероятность Р((В) называется распределением случайной величины f. Если положить В = (-со,ж), то получим функцию F{(x) = P(f < ж), определенную на всей вещественной оси, которая называется функцией распределения случайной величины f. Ниже мы увидим, что функция распределения случайной величины полностью определяет ее распределение и часто используется для описания последнего. Там, где это не вызовет недоразумений, вместо F^(x) будем писать просто F(x).
38 Глава 3. Случайные величины и функции распределения Так как случайная величина £ есть отображение ft в Е, то Р(|£| < со) = 1. Иногда наряду с такими случайными величинами бывает удобно рассматривать также случайные величины, которые могут принимать значения ±со (они будут осуществлять измеримое отображение ft в Е U {±со}). Если Р(|£| = со) > О, то такие случайные величины £(и) мы будем называть несобственными. Каждый случай, когда такие величины будут появляться, мы будем особо оговаривать. Пример 1. Рассмотрим схему Бернулли с вероятностью успеха р и объемом выборки А: (см. §1.3). Как известно, множество элементарных исходов ft в этом случае есть множество всевозможных последовательностей из нулей и единиц длины А:. За а-алгебру $ возьмем систему всех подмножеств ft. Определим на ft случайную величину следующим образом: каждой последовательности из нулей и единиц поставим в соответствие число единиц в этой последовательности. Вероятность г успехов, как мы уже знаем, есть P(r,k)=(kr)pr(l-p)k-r. Поэтому функция распределения F(x) введенной случайной величины будет определяться следующим образом: г<х Суммирование здесь ведется по всем целым г, меньшим ж. Если х < О, то F(x) = О, если же х > к, то F(x) = 1. Пример 2. Пусть на отрезок [а, 6] вещественной прямой случайным образом бросается точка, т.е. вероятность попадания точки в некоторое множество из [а, 6] полагается пропорциональной лебеговой мере этого множества, ft здесь есть отрезок [а, 6], а-алгебра # есть класс борелевских подмножеств из [а, 6]. Определим случайную величину f так: {(а;) =а;, а;Е [а, 6], т.е. случайная величина равна тому числу из [а,6], в которое попала бросаемая точка. Это измеримая функция. Если х < а, то F(x) = P(f < x) = 0. Пусть х Е [а, Ь]. Тогда {£ < х} означает, что точка попала в интервал [а, х). Вероятность попадания в этот интервал пропорциональна длине этого интервала, значит, F(x) = Р(£ < х) = ?рД о — а Если же х > 6, то понятно, что F(x) = 1. Окончательно находим О, х < а, F(x) = < б-. 1, х > b. а ^ х ^ 6, (1) Эта функция распределения определяет так называемое равномерное распределение на интервале [а, 6]. Если р(В) — мера Лебега на (Е, 03), то, как мы увидим в следующем параграфе, нетрудно установить также, что в этом случае Р^(В) = 1/(6 - a)fi(B П [а,6]).
§ 2. Свойства функций распределения и примеры 39 § 2. Свойства функций распределения и примеры Пусть F(x) есть функция распределения случайной величины f. Тогда имеют место следующие свойства F(x) : F1. Свойство монотонности: если х\ ^ Х2, то F(x\) ^ F(x2). F2. lim F(x) = 0 и lim F(x) = 1. X—* — 00 Ж—»00 F3. Свойство непрерывности слева: \imF(x) = F(xq). х]х0 Доказательство. Так как {£ < х\) С {£ < а^Ь где xi ^ Ж2, то F1 сразу следует из свойства 3 вероятности (см. §2.2). Для доказательства F2 рассмотрим две числовые последовательности {хп} и {уп}, при этом последовательность {хп} убывает так, что хп —+ -со, а последовательность уп возрастает, уп —> со. Введем обозначения Ап = {£ < жп}, Вп — {£ < Уп}- Из того, что {жп} монотонно стремится к —со, следует, что последовательность множеств Ап убывает и С\Ап = 0. В силу аксиомы непрерывности РЗ' (см. § 1 главы 2) Р(Ап) —> 0 при п —> О или, что то же, lim jP(xn) = 0. Отсюда п—*оо и из монотонности F(x) следует, что lim F(x) = 0. ж—►-00 Так как последовательность {уп} монотонно сходится к со, то последовательность множеств Вп возрастает и [J Вп — П, поэтому (см. свойство 9 из §2.2) Р(Вп) —* 1- Отсюда, как и прежде, следует, что lim F(yn) = 1, lim F(x) = 1. ж-+оо Свойство F3 доказывается аналогичным способом. Пусть А = {£ < жоЬ Ап = {£ < хп}, где последовательность {хп} возрастает, хп | xq- Последовательность множеств Ап также возрастает и \jAn — А. Следовательно, Р(>1П) —* Р(^)- Это означает, что \imF(x) = F(x0). х]х0 ■ Нетрудно видеть, что функция F была бы непрерывной справа, если бы мы положили F(x) = P(f ^ х). При принятом определении функция F, вообще говоря, не является непрерывной справа, так как по аксиоме непрерывности F(x + 0) - F(x) = lim^ (f (x + - J - F(x)J = = limp(,^<,+ i)=p(ni{^[x,x+I)})=P(^x). Сказанное означает, что F(x) непрерывна тогда и только тогда, когда Р(£ = х) = О при любом ж. Примеры 1, 2 показывают, что весьма обычны как непрерывные, так и разрывные F(x). Из приведенных соотношений следует также, что Р(х^£^у) = Р<([*, у}) = F(y + 0) - F(x). Теорема 1. Если функция F(x) обладает свойствами Fl, F2 и F3, /wo существует вероятностное пространство (Г2, У, Р) w случайная величина £ на нем такая, что F((x) = F(x).
40 Глава 3. Случайные величины и функции распределения Доказательство. Построим сначала вероятностное пространство (ft,^, P). В качестве Г2 возьмем вещественную прямую Е, а в качестве £ возьмем а- алгебру 03 измеримых по Борелю множеств. Как мы уже знаем (см. §2.1), для построения вероятностного пространства (Е, 03, Р) достаточно задать вероятность Р на алгебре sf, порожденной, скажем, полуинтервалами вида [•,•) (тогда a(sf) = 03). Произвольный элемент А алгебры sf имеет вид конечного объединения непересекающихся полуинтервалов: п А = UKA), а,- < bi »=1 (числа сц и Ьг могут быть бесконечными). Полагаем по определению п P(A) = J2(F(bi)-F(a>))- »=l Совершенно очевидно, что в силу Fl, F2 аксиомы PI, P2 выполнены. Остается проверить счетную аддитивность или непрерывность Р на алгебре sf. 00 Пусть Вп е sf, Вп+\ С Вп, П Вп = В е sf. Надо показать, что Р(Вп) -> Р(В) _ i=1 _ или, что то же, Р(ВпВ) —> 0 (ВпВ Е sf). Для этого достаточно убедиться, что P(BnBCN) —> 0 при любом фиксированном N, где Cn = [-N,N). Действительно, для заданного е > О по свойству F2 выберем N так, что Р(С#) < е. Тогда P(BnBCN)^P(CN)^e, ПпТ Р(ВпВ) ^ Йгп P(Bn~BCN) + е. п—*оо п—куэ Так как е произвольно, то сходимость Р{ВпВС^) —> 0 при п —> оо означает требуемую сходимость Р(ВпВ) —> 0. Из сказанного вытекает, что можно считать множества 2?п ограниченными (2?п С [-ЛГ,ЛГ) при каком-нибудь N < оо). Кроме того, не ограничивая общности, можно считать, что В есть пустое множество. В силу сделанных выше замечаний Вп допускают представление К Вп= U [О"), А;п<оо, i=\ где а", 6" конечны. Заметим далее, что для заданного е > 0 и для любого полуинтервала [а, 6) всегда можно найти вложенный в него полуинтервал [a, b — 6), 6 > 0, такой, что Р([а,Ь-<5)) ^ Р([а, 6)) — е. Это вытекает непосредственно из свойства F3: F(b — 6) —> F(6) при <5 j 0. Следовательно, для заданного е > 0 и множества 2?п существуют 0J1 > 0, i = 1,..., fcn, такие, что Вп = U [О? - tf) С Яп, Р(ВП) > Р(ВП) - £2"п. i=l Присоединим теперь к множеству Вп правые концы полуинтервалов и рассмотрим замкнутое ограниченное множество К„= U[a?,b?-tf]. 1=1
§ 2. Свойства функций распределения и примеры 41 Очевидно, что _. °° ВпСКпСВП1 К= П Кп = 0, Р(Вп-Кп) = Р(ВпКп)^е2~п. Из соотношения К — 0 следует, что Кп = 0 при всех достаточно больших га. Действительно, все множества Кп принадлежат замыканию [С#] = [-N,N], которое является компактом. Множества {А„ = [С#] - Кп}™=1 образуют открытое покрытие [£#], так как |J An = [CN]({jKn) — [С#](П-Кп) — \СЛ- Таким образом, по лемме Гейне—Бореля существует конечное подпокрытие {An}^Lj, щ < оо, такое, по щ что (J An = [CN] или, что то же, П Кп = 0. Поэтому п=\ п=\ Р(ВП0) = Р Д «о (д*-))=р(Чул)) Р ( U ВПокЛ ^ Р ( U BnK^J ^ Х>2"п < е. Итак, для заданного е > О нашлось по (оно зависит от е) такое, что Р(ВПо) < е. Это значит, что Р(Вп) —* 0 при га —> оо. Выполнение аксиомы 3 доказано. Итак, вероятностное пространство построено. Остается в качестве случайной величины f взять тождественное отображение действительных чисел на себя. Тогда Ft(z) = Р(£ <х) = Р(-оо,ж) = F(z). ш При изучении функций распределений на основании доказанного утверждения часто используют удобную модель выборочного вероятностного пространства. Определение 3. Вероятностное пространство (П,^, Р) называется выборочным для случайной величины £(о>), если ft есть подмножество вещественной прямой Е и f(о>) = ш. Вероятность Р в соответствии с определением 1 из § 1 будет называться распределением £. Этот факт будем обозначать символом < €= Р. (2) Очевидно, что построение выборочного вероятностного пространства всегда возможно. Достаточно положить Г2 = R, $ = 03, Р(£?) = Р(£ £ В). Для целочисленных f пространство (П,^) можно выбрать и более «экономным» образом, положив П = {...,-1,0,1,...}. Так как функция распределения F(x) случайной величины £ по теореме 1 однозначно определяет распределение Р этой случайной величины, то наряду с (2) будем писать также f ^ F. Приведем теперь примеры некоторых наиболее распространенных распределений. 1. Вырожденное распределение 1а. Распределение 1а определяется соотношением I /о\ _ / I» если а Е £?, !.<*) = {J; если а £ В.
42 Глава 3. Случайные величины и функции распределения Это распределение, сосредоточенное в точке а : если £ €= 1а, то Р(£ = а) = 1. Функция распределения для 1а имеет вид F(x) = { О при х ^ а, Следующие два распределения были описаны в примерах 1, 2 из § 1. 2. Биномиальное распределение В£. По определению f ^ В£ (п целое, р Е (0,1)), если Р(£ = А:) = ( , 1 рк(\ - р)п~к, 0 ^ А: ^ п. Распределение В^ будем обозначать через Вр. 3. Равномерное распределение \1а,ъ- Если f ^ иа?ь, то P(f Е В) = ^ /[ th ' где /а — мера Лебега. Мы видели, что это распределение имеет функцию распределения (1). Следующее распределение играет особую роль в теории вероятностей, мы будем сталкиваться с ним многократно. 4. Нормальное распределение Фа>(72 (нормальный закон или закон Гаусса). Будем писать f €= Ф0)(Г2, если PU е в) = Фа,Ав) = -4= / е-*"-)2/*2"2) d«. (3) В Распределение Фа,<т2 зависит от двух параметров; а и а > 0. Если а = 0, а = 1, то нормальное распределение называют стандартным. Функция распределения Фо,1 (будем обозначать ее через Ф(ж)), равна X 1 г -«! Ф(х) = Ф0,1((-оо,ж)) = -= е 2 du. Очевидно, что функция распределения для Фа,<г2 равна Ф (£^£), так что параметры а и а имеют смысл параметров «сдвига» и «масштаба» распределения. Тот факт, что формула (3) определяет распределение, следует хотя бы из теоремы 1 и того, что функция Ф(х) (или Ф (~j^)) удовлетворяет свойствам F1-F3, так как Ф(-оо) = 0, Ф(оо) = 1, Ф(х) непрерывна и монотонна. Можно использовать и непосредственно тот факт, что интефал в (3) есть счетно-аддитивная функция множества (см. §6 и Приложение 3). 5. Показательное распределение Га. Соотношение f ^ Га означает, что f неотрицательна и Р(£ Е В) = Гв(В) = а Г е~аи du. БП(0,оо) Функция распределения f ^ Га имеет, очевидно, вид К«<я:^"\0 при х<0. Показательное распределение есть частный случай Г-распределения Гад, которое мы рассмотрим более подробно в § 7.7.
§ 2. Свойства функций распределения и примеры 43 6. Дискретный аналог показательного распределения называют иногда геометрическим. Оно имеет вид P(* = *) = 0-J>)J>\ Р € (0,1), * = 0,1,.-.- 7. Распределение Коши Ка>(7. Как и нормальное распределение, это есть распределение, зависящее от двух параметров а и а > О, которые также являются параметрами сдвига и масштаба. Если f ^ К^, то 1 Г du ™ J \ + ({и-а)/а)2 в Функция распределения К(х) распределения Ko,i равна / ч I Г du К(х) = - ~. W 7Г J 1 + U2 —оо Функция распределения для К^ равна If (^р)- Здесь сохраняются все замечания, сделанные по поводу нормального распределения. Пример 3. Предположим, что в некоторой точке (а,а), а > О, на плоскости находится источник излучения частиц. Следы излучения фиксируются детектором, который совпадает с осью х (осью абсцисс). Направление, в котором движутся излучаемые частицы, случайно и имеет равномерное распределение на окружности. Другими словами, угол rj, составленный этим направлением с осью (—г/, 0), имеет равномерное распределение и_^д на отрезке [—7Г,7г]. Результатами наблюдений являются координаты fb&j--- точек на оси абсцисс, в которых произошло взаимодействие частиц с детектором. Что из себя представляет распределение случайной величины f = £i? Чтобы найти это распределение, рассмотрим частицу, вылетевшую из точки (а,а) при условии, что эта точка достигла детектора (т.е. при условии, что rj Е [—7г/2,7г/2]). Ясно, что условное распределение г) при этом условии (P(rj Е [-7г/2,7г/2] = 1/2)) совпадает с 1^-^/2^/2- Так как (f — a)/a = tgrj, то #77 1 X — Ct\ 1 1 X — Ot P(f < х) = P(a + atg77 <x) = Р - < -arctg I = - + - arctg . \7Г 7Г а / 2 7Г а Поскольку (arctg?/;)' = 1/(1 + и2), то X X Г du f aTCtgx = J ТТй* = J du ж 1 + и2 2' а \ [ du (х — а\ Р £ < х) = - / , = К • 7Г J 1 + и2 \ а J Таким образом, координаты наблюдаемых на оси абсцисс следов излучения из точки (а,а) имеют распределение Коши Ка^. 8. Распределение Пуассона Пд. Мы будем писать f ^ Щ, если f принимает только целые неотрицательные значения с вероятностями дт Р(£ = т) = — е~Л /х > 0, т = 0, 1, 2,... . га!
44 Глава 3. Случайные величины и функции распределения Функция распределения так же, как и в примере 1, будет иметь вид суммы: f££e-" для *>0, Г \Х) — < т<х I 0 для х ^ О. Все распределения, рассмотренные в приведенных выше примерах, можно разбить на два типа. Дискретные распределения. Определение 4. Распределение случайной величины f называется дискретным, если £ может принимать лишь конечное или счетное число значений xi,#2> • • • так> что Иь = Р(£ = а*)>0, Y^Pk = L Очевидно, что дискретное распределение {рк} всегда можно задать на дискретном вероятностном пространстве. Характеризовать такое распределение бывает удобно с помощью таблиц: Значения | х\ х^ Вероятности Р\ V2 К дискретным распределениям относятся распределения 1а, В£, Пд, геометрическое распределение. Производная функций распределения F(x) для этих распределений всюду равна нулю, за исключением точек х\,Х2,... , где F(x) терпит разрыв, причем F(xk + 0)-F(xk)=pk. Абсолютно непрерывные распределения. Определение 5. Распределение Р случайной величины f называется абсолютно непрерывным1), если для любого борелевского множества В Р(В) = Р(ЦеВ) = f f(z)dx, (4) в 00 где f(x) ^0, / f(x)dx= l. 1) Имеется в виду абсолютная непрерывность относительно меры Лебега. Если на (R, 03) задана мера /jl (см. Приложение 3), то распределение Р называется абсолютно непрерывным относительно /л, если для любого В £ 03 Р(В)= [ f(x)p(dz). В В этом смысле дискретные распределения также являются абсолютно непрерывными, но относительно считающей меры т. Действительно, если положить /(ж*) = Рк, т(В) = {числу точек из множества (х 1, жг,...), попавших в В}, то хкев хкев (см. Приложение 3). р (в)=y^, Рк = Y^f(xk)=J f(x)m(dx)
§ 2. Свойства функций распределения и примеры 45 Функция f(x) в равенстве (4) называется плотностью распределения. Из доказательства теоремы 1 (точнее, из теоремы о единственности продолжения меры) нетрудно получить, что приведенное выше определение абсолютной непрерывности эквивалентно представлению х ) du для всех xEi Функции распределения, обладающие таким свойством, также называются абсолютно непрерывными. Функция f(x) определяется приведенными выше равенствами с точностью до значений на множестве меры нуль. Для нее почти всюду (по мере Лебега) имеет место равенство2) f(x) = dF(x)/dx. Абсолютно непрерывными являются распределения \]а,ь, Ф0,^, Ксг^, Га. Плотность нормального закона с параметрами а, а равна <Ра,Ах) = -^ -(*-<*№**) Из приведенных ранее равенств очевидным образом можно получить и плотности распределений иа,ъ, К«,<т, Га. Плотность для Ка>(7 имеет вид, напоминающий вид нормальной плотности, но имеет более «толстые хвосты» (более медленное убывание при |ж| —* со). Итак, распределения могут быть дискретными и абсолютно непрерывными. Возможны, конечно, смеси двух типов распределений. Но существует еще третий тип, не описываемый предьщущими двумя. Это сингулярный тип. Характеризуется он тем, что функция распределения F(x) непрерывна, но точки роста F(x) образуют множество нулевой меры Лебега. (Точка х называется точкой роста F(x), если для любого е > О F(x + e)- F(x - е) > 0.) Таким образом, здесь F(x) непрерывна, dF(x)/dx = 0 почти всюду, a F(oo) — F(-oo) = l. Примером такой функции распределения может служить известная кривая Кантора, все изменение которой сосредоточено на отрезке [0,1] : F(x) = 0 при х ^ 0, F(x) = 1 при х ^ 1. Строится она следующим образом (процесс построения кривой Кантора показан на рис. 3). Отрезок [0,1] разбивается на три равные части [0, 1/3], [1/3, 2/3], [2/3, 1]. На внутреннем сегменте полагаем F(x) = 1/2. Оставшиеся два сегмента снова разбиваются на три равные части каждый, и на внутренних сегментах F(x) полагается равной соответственно 1/4 и 3/4. Каждый из оставшихся сегментов снова делится на три части, \ 1 3/4 1/2 1/4 _ i i 11 I II 1/9 2/91/3 2/3 7/98/9 1 Рис. 3. на внутренних F(x) определяется как 'Утверждение о единственности «почти всюду» функции / следует из теоремы Радона—Никодима (см. Приложение 3).
46 Глава 3. Случайные величины и функции распределения постоянная, равная среднему арифметическому между соседними, уже определенными значениями F(x), и т. д. В точках, не принадлежащих таким внутренним сегментам, F(x) определяется по непрерывности. Нетрудно видеть, что суммарная длина «внутренних» сегментов, на которых F(x) постоянна, равна А I _1 _ 1 ул (2\к _ 1 1 3 + 9 + 27 +" ~ 3^ \3/ ~ 3 1-2/3 ~ *' так что функция F(x) растет на множестве меры нуль, но без скачков. Известна теорема Лебега3) о том, что любая функция распределения F(x) может быть единственным образом представлена в виде суммы трех компонент: дискретной, абсолютно непрерывной и сингулярной. Отсюда следует, что произвольная функция распределения не может иметь более чем счетное число скачков (это видно и непосредственно: мы перечислим все скачки, если перенумеруем сначала все скачки, большие 1/2, затем все скачки, большие 1/3, затем — большие 1/4, и т.д.). Это означает, в частности, что F(x) непрерывна всюду, за исключением, быть может, счетного или конечного множества точек. В заключение приведем ряд свойств функций распределения и плотностей, возникающих при переходе к новым случайным величинам. Пусть F{(x) = P(f < х) и д(х) есть борелевская функция (д(х) называется борелевской, если прообраз д~ (В) = {х: д(х) Е В} борелевского множества В есть снова борелевское множество). Тогда функция распределения случайной величины V = 9(0 равна Fg(0(x) = Р(д(0 <х) = Р(£ е д-1(-оо,х)), Если д(х) — неубывающая функция, для которой определена обратная д~1(х), то Fg{()(x) = Р(( < д~1(х)) = Ъ(д-1(х)). Полагая д = i^, получим отсюда, в частности, что если F^ непрерывна, то случайная величина rj = i^(f) распределена равномерно на [0,1]. Наоборот, пусть г] — равномерно распределенная случайная величина и F — заданная непрерывная функция распределения. Тогда случайная величина £ = F~l(fl) будет иметь функцию распределения F(x). Мы получили, таким образом, важный способ построения случайных величин с наперед заданными распределениями с помощью случайных величин, распределенных равномерно. В другом частном случае, когда д(х) = а + Ьж, 6 > 0, получаем Fgu\(x) = F{ (^). Этим соотношением мы уже в какой-то мере пользовались при рассмотрении распределений Фау и Ка>(7. Если функция д строго возрастает и дифференцируема (в этом случае определена д~ ), а £ имеет плотность /(ж), то существует плотность для #(£), равная Шу) = /(9-](у))(9-\у)У = №^, где х = д~1(у), у = д{х). Аналогичное рассмотрение для убывающих д приводит к общей формуле fa«)(y)=f(x) dx См. §5 в Приложении 3.
§ 3. Многомерные случайные величины 47 При д(х) = а + Ъх, Ь /О, получаем Л+к(у) = щ/ (~) • § 3. Многомерные случайные величины Пусть fi,f2>--->fn — случайные величины, заданные на вероятностном пространстве (П,^, Р). Каждому о> эти случайные величины ставят в соответствие n-мерный вектор £(w) = (£i(u;), &(<«>),.. .,^И). Определение 6. Отображение П —> Rn, задаваемое случайными величинами £ь&>• • • >£п> называется случайным вектором или многомерной случайной величиной. Отображение П —> Rn следует рассматривать как измеримое отображение (0,5) на пространство (Rn,03n), где 03п есть <т-алгебра борелевских множеств в Ж1. Поэтому для любого борелевского множества В определена функция Р{(В) = Р({6В). Определение 7. Функция Р^(В) называется распределением вектора £. Функция называется функцией распределения случайного вектора (£i,..., f n) или функцией совместного распределения случайных величин f i,..., fn. Приведем некоторые свойства функций распределения случайного вектора, которые называются свойствами согласованности. FF1. lim Fil..tu(xu...,xn) = Fil..^_l(xi,...,xn-i). З.-ЮО FF2. lim Fb„b(xi,...,xn) = 0. zn->-oo То, что пределы рассматриваются по последнему аргументу, несущественно; так как всегда можно перенумеровать случайные величины. Доказываются эти свойства так же, как свойство F2 функций распределения одномерной случайной величины. Их можно дополнить еще двумя свойствами, подобными F1 и F2, и тогда каждая функция F(x\,...,xn) с набором таких свойств будет функцией распределения некоторой случайной величины. Как и в одномерном случае, рассматривая случайные векторы f = (f i,... ,f„), мы можем пользоваться простейшей выборочной моделью вероятностного пространства (П,^, Р). Именно, пусть П совпадает с!",а а-алгебра # = 03п составлена из борелевских множеств. Мы закончим построение требуемого вероятностного пространства, если для любого В Е 03п положим Р(В) = Р((В) = P((G5). Остается в качестве случайной величины принять само значение элементарного события, т. е. считать, что £(ш) = ш, где ш есть точка в Rn. Нетрудно видеть, что функция распределения i^,,...,£n однозначно определяет распределение Р^(В). Действительно, i^,,...,£„ определяет вероятность на алгебре sf, порожденной прямоугольниками {а, ^ ж, < 6,, г = 1,...,п}. Например, в двумерном случае P(oi ^6 <Ъиа2^£2<Ъ2) = = P(€i < Ъи а2^Ь< Ь2) ~ Р(& < аи а2 ^ fo < h) = = [*ЫЬЬЬ2) - F(u(2(bua2)] - \Fiuil{aub2) - Fiub{aua2)\.
48 Глава 3. Случайные величины и функции распределения Но 93n = o-(sY), и нам остается воспользоваться теоремой о продолжении меры (см. §2.1). Таким образом, по функции распределения i^, ,...,$„ = F мы всегда можем построить выборочное вероятностное пространство (ЕП,03,Р^) и случайную величину £(ш) — ш на нем, которая будет иметь заданное распределение F^. Так же, как и в одномерном случае, мы отнесем распределение случайного вектора к дискретному типу, если случайный вектор принимает не более чем счетное число значений. Распределение случайного вектора будет абсолютно непрерывного типа, если для любого борелевского множества В СШП Pi(B) = P(teB) = J f(x)dx, где, очевидно, f(x) ^ 0, J f(x)dx = 1. Это определение можно заменить на эквивалентное, потребовав, чтобы Х\ Хп Fli,.M(xi>--->xn) = I ••• J f(ti,.-.,tn)dti...dtn. (5) —оо —оо Действительно, если имеет место (5), то мы определим счетно-аддитивную функцию множеств Q(B) = J f(x)dx (см. свойства интеграла в Приложении 3), в которая на прямоугольниках совпадает с Р^(В). Следовательно, Р((В) = Q(B). Функция f(x) называется плотностью распределения £ или плотностью совместного распределения f ь... ,£„. Для нее почти всюду имеет место равенство дхХ...дхп =/(*!.-.«-)• Если вектор f имеет плотность /(жь... ,ж„), то, очевидно, любой «подвектор» (&!>•••»&,)» Ь^ п> также имеет плотность, равную (пусть для простоты А:, = г, г= 1,...,5) /(жь...,ж5) = / f(xu...1xn)dxs+i ...dxn. Пусть в некоторой области i С 1" заданы непрерывно дифференцируемые функции yi — gi(x\y... ,хп), которые однозначно разрешимы относительно Ж1,...,х„ : ж, = д~Х(у\,... ,2/п), при этом якобиан J = \dxi/dyj\ Ф О в 4. Обозначим через Б образ ^4 в пространстве значений (з/i,... ,з/п)- Пусть, далее, случайный вектор f = (fi,...,£n) имеет плотность Д(ж). Тогда 7/г = <fr(fi,... ,£„) будут случайными величинами с плотностью совместного распределения в точке (Уь--->Уп) е В, равной МУ\,---,Уп) = fz(xu...,xn)\J\\ (6) кроме того, Р(£ е А)= Д(ж1,...,жп)йж! ...Леп = / Д(жь...,жп)|/|Й2/1 ... dyn = = у Д(У1, • • • ,У») ^У1 • • • <tyn = Р(т/ 6 В). (7) Л Б В
§3. Многомерные случайные величины 49 Это есть, очевидно, обобщение на многомерный случай свойства плотности, рассмотренного в конце § 2. Формулы (7) для интегралов хорошо известны в классическом анализе как формулы о замене переменной в интеграле и могут служить доказательством (6). Рассмотрим два важных примера многомерных распределений (мы продолжаем список наиболее употребительных распределений, начатый в §2). 9. Полиномиальное распределение В£. Мы используем здесь тот же символ В£, что и для биномиального распределения, с той лишь разницей, что под р будем г понимать здесь вектор р = (р\,... ,pr), Pj ^ О, X^Pj = *> который можно i=l интерпретировать как набор вероятностей г несовместных событий Aj, \jAj = ^- Для целочисленного случайного вектора v — (i/i,... ,i/r) будем писать v €= B£, если г для k = (k\,...kr), kj ^ 0, ^2 kj = n, справедливо р<'-*>-та'''-*- <8) Справа здесь стоит элемент разложения полинома (р\ -f ... -f pr)n по степеням Pi,.-.,Pr- Это объясняет название распределения. Если р — число, то, очевидно, Вр = В? j_ ч, так что биномиальное распределение есть полиномиальное при г = 2. Числа i/j можно интерпретировать как частоты появлений событий Aj после п независимых испытаний (вероятность появления Aj в каждом испытании равна pj). Действительно, вероятность любой фиксированной последовательности исходов, содержащей соответственно к\,...,кг исходов А\,...,АГ, равна рхх ...Ргг, а число различных таких последовательностей равно п\/к\\...кт\ (из п! перестановок надо оставить те, которые отличаются не только перестановками элементов внутри групп к\...,кг). Получим в результате вероятность (8). Пример 4. Простейшей вероятностной моделью турнира между двумя шахматистами можно считать следующую. В каждой партии независимо от исходов предыдущих партий первый игрок выигрывает с вероятностью р, проигрывает с вероятностью q и делает ничью с вероятностью 1 - р — q. В этом случае вероятность того, что в п партиях первый игрок одержит i побед и потерпит j поражений (i + 3 ^п), будет равна *"''*>» = ;ч«пП\ <\/М -р- «)"~<Ч i\j\(n — г — j)\ Допустим, что турнир продолжается до тех пор, пока один из двух игроков не наберет N выигрышей (ему и присуждается победа). Если обозначить через rj продолжительность турнира (число партий до его окончания), то Р(т) = п) = ^2р(п- UN - l,i)p + Y2p(n- l;i,N- \)q. 10. Многомерное нормальное распределение Фа?(72. Пусть а есть вектор а = (ai,...,ar) и а2 = ||сгу||, i,j = l,...,r, есть симметричная положительно определенная матрица, А = \\а^\\ — матрица, обратная к а — А~ . Мы будем говорить,
50 Глава 3. Случайные величины и функции распределения что вектор £ = (Сь-••»£»■) имеет нормальное распределение £ €= Фа,<т2> если это распределение имеет плотность ^а,аНж) = ——^ехр|--(ж-а)^(ж-а) |. Здесь Г означает операцию транспонирования: Нетрудно проверить, что / <Pa^(x)dx\ ...dxr = 1 (см. также §6.6). § 4. Независимость случайных величин и классов событий 1. Независимость случайных величин. Определение 8. Случайные величины £i,...,£n называются независимыми, если Р(бев1,...,^еБп) = Р(^1ев1)...Р(^еБп) (9) для любых борелевских множеств В\,...,Вп на прямой. Можно ввести понятие последовательности независимых случайных величин. Случайные величины последовательности {£n}£Li > заданные на вероятностном пространстве (П, #, P), независимы, если для любого конечного числа п выполняется (9), так что независимость последовательности случайных величин сводится к независимости любого конечного набора случайных величин из этой последовательности. Как увидим позже, для последовательности независимых случайных величин будут независимыми любые два события, относящиеся к непересекающимся группам случайных величин из этой последовательности. Другое возможное определение независимости случайных величин вытекает из следующего утверждения. Теорема 2. Случайные величины fi,...,fn независимы тогда и только тогда, когда Fb..JtSxU • • • > хп) = Fb (хх)... Ft%(xn). Доказательство этой теоремы отнесено нами в п. 3 этого параграфа. Если распределение £ = (f i,... ,fn) абсолютно непрерывно, то важный критерий независимости £; содержится в теореме 3. Теорема 3. Пусть случайные величины fi,...,fn имеют плотности /i(x),..., fn(x) соответственно. Тогда для независимости &,..., £п необходимо и достаточно, чтобы существовала плотность f(x\,..., хп) вектора £ = (£i,..., £п), равная /(жь...,жп) = f\(x{)...fn(xn). Таким образом, если окажется, что плотность £ равна произведению плотностей £j, то это будет означать независимость £,. Мы предоставляем читателю, пользуясь этой теоремой, убедиться, что компоненты нормального вектора (£i,...,£n) независимы тогда и только тогда, когда a,j = 0, &ij — 0 при i Ф j.
§4. Независимость случайных величин 51 Доказательство теоремы 3. Если функция распределения случайной величины & равна -оо и & независимы, то совместная функция распределения будет определяться формулой **...*. («ь • • •, хп) = F(l (хх)... Fu(xn) = ж, -00 Обратно, предположив, что получим равенство Рассмотрим теперь дискретный случай. Пусть для простоты компоненты f могут принимать лишь целочисленные значения. Тогда для независимости £j необходимо и достаточно, чтобы при всех к\,..., кп P(ti=kh...,Zn = kn) = P(tl = kl)...P(tn = kn). Проверка этого утверждения не вызывает затруднений, и мы оставляем ее читателю. Понятие независимости является весьма важным в теории вероятностей и будет использоваться на протяжении всего курса. Допустим, что мы формализуем какую-нибудь практическую задачу (строим подходящую вероятностную модель, в которой присутствуют различные случайные величины). Как установить, будут ли эти случайные величины (или события) независимыми? В такого рода ситуациях оправдано правило считать независимыми события и случайные величины, не связанные причинно. В связи с этим выявление «вероятностной» независимости в математической модели случайного явления часто связано с глубоким проникновением в его физическую сущность. Рассмотрим некоторые простые примеры. Известно, например, что вероятность новорожденного оказаться мальчиком имеет довольно устойчивое значение Р(А) = 22/43. Если В означает условие, что рождение происходит в день соединения Юпитера с Марсом, то в предположении, что расположение планет не определяет индивидуальных судеб людей, условная вероятность Р(А\В) будет иметь то же самое значение: Р(А\В) = 22/43, т.е. фактический подсчет частоты рождения мальчиков при таких специальных астрологических условиях привел бы именно к частоте 22/43. Хотя такой подсчет в достаточно обширных размерах, возможно, никем не проводился, нет оснований сомневаться в его результатах. Естественно, что связь между «математической» и причинной независимостью не следует абсолютизировать. Например, в силу закона всемирного тяготения несомненно, что полет одного артиллерийского снаряда оказывает некоторое Хп X* J /(*»)dtn = J ... f /,(*,).../„(*„)dtx...dtn. -OO —OO xx xn J ... f fl(tl)...fn(tn)dtl...dtn, -OO —OO .,ж„) =F6(zi)...i^n(a:n).
52 Глава 3. Случайные величины и функции распределения влияние на происходящий одновременно полет другого снаряда. Но очевидно, что на практике с этим влиянием можно не считаться. Сказанное поясняет также, что независимость событий и величин в том конкретном и относительном понимании этого термина, которое каждый раз имеет место, никак не противоречит принципу всеобщей связи всех явлений. Любопытно отметить также, что формальное определение независимости событий или случайных величин значительно шире понятия реальной независимости в смысле принадлежности к причинно не связанным явлениям. Это следует из того, что «математическая» независимость может иметь место и в тех случаях, когда нет никаких оснований предполагать отсутствие причинной связи. Сказанное можно проиллюстрировать с помощью следующего примера. Пусть rj есть равномерно распределенная на [0,1] случайная величина. Тогда в разложении т) в двоичную дробь случайные величины £* будет независимыми (см. пример 10.1), хотя все они связаны по происхождению. Понятно, что это обстоятельство лишь расширяет сферу применения всех утверждений, которые получены нами ниже при выполнении формального условия независимости 4). С понятием независимости случайных величин тесно связано понятие независимости а-алгебр. 2. Независимость классов событий. Пусть (12, У, Р) — вероятностное пространство, a sf\ и s&i — классы событий, содержащиеся в а-алгебре Sr. Определение 9. Классы событий s/\ и stfi называются независимыми, если для любых событий А\ и Аг таких, что А\ Е sf\ и А^ Е sfy, имеет место равенство Р(А1А2) = Р(А1)Р(А2). Следующее определение вводит понятие независимости последовательности событий. Определение 10. Классы событий {srfn}™=\ независимы, если для каждого набора целых чисел щ,..., п& ДМ =ПрЮ при любых АП] Е stfn.. Например, в последовательности независимых испытаний а-подалгебры событий, относящихся к различным испытаниям, будут независимы. Независимость последовательности алгебр событий также сводится к независимости любого конечного набора алгебр из этой последовательности. Ясно, что подалгебры событий независимых алгебр событий также независимы. Теорема 4. а-алгебры 211 и Щ, порожденные соответственно независимыми алгебрами событий s/\ и s$i, независимы. 4) Более подробное обсуждение связи причинной и вероятностной можно найти у А. Н. Колмогорова в книге [13], из которой заимствованы приведенные здесь примеры.
§ 4. Независимость случайных величин 53 Прежде чем доказывать это утверждение, получим полезную для дальнейшего теорему об аппроксимации, в силу которой любое событие А из а-алгебры 21, порожденной некоторой алгеброй stf, можно приближать в известном смысле событиями из sf. Чтобы быть более точными, введем в рассмотрение «расстояние» между событиями d(A,B) = P(ABulB) = Р(АВ) + Р(АВ) = Р(А - В) + Р(Б - А). Оно обладает свойствами d(A,B) = d(A,B), d(A,C)^d(A,B) + d(B,C), d(AB, CD) ^ d(A, C) + d(B, D), K } \P(A)-P(B)\t:d(A,B). Первое из этих соотношений очевидно. Неравенство треугольника вытекает из того, что d(A, С) = Р(АС) + Р(АС) = Р(АСВ) + Р(АСВ) + Р(АСВ) + Р(АСВ) ^ ^ Р(СВ) + Р(АВ) + Р(АВ) + Р(СВ) = d(A,B) + d(B,C). Третье соотношение в (10) получается аналогично путем укрупнения событий под знаком вероятности. Наконец, последнее неравенство в (10) есть следствие того, что _ __ _ Р(А) = Р(ЛВ) + Р(АВ) = Р(В)- Р(ВА) + Р(АВ). Теорема 5 (теорема аппроксимации). Пусть (П,^, Р) — вероятностное пространство, и. 21 есть а-алгебра, порожденная некоторой алгеброй s/ событий из $. Тогда для любого A G 21 существует последовательность Ап G s/, обладающая свойством lim d(A,An) =0. (11) п—>оо В силу последнего неравенства в (10) утверждение теоремы означает, что Р(^4) — lim Р(^4П), и каждое событие A G sf может быть с точностью до множества п—»оо нулевой вероятности представлено как предел последовательности событий из порождающей алгебры sf (см. также Приложение 1). Доказательство^. Событие A G $ назовем аппроксимируемым, если для него существует последовательность Ап G sf, обладающая свойством (11), т. е. d(An, A) —> 0. Так как d(A,A) = 0, то совокупность аппроксимируемых событий 21* содержит sf. Поэтому для доказательства теоремы достаточно убедиться, что 21* есть а-алгебра. Тот факт, что 21* образует алгебру, очевиден, поскольку соотношения A G 21*, В G 21* влекут за собой, что A, AU В, ^4 П 2? G 21*. (Например, если d(A,An) —> 0, d(B,Bn) —► 0, то в силу третьего неравенства в (10) d(AB,AnBn) ^ d(^4,^4n) + <J(B,Bn)->0, ABG2T.) Пусть теперь 00 C=Uft, Cfc G 21*. *=l 5) Эта теорема является также прямым следствием леммы из Приложения 1.
54 Глава 3. Случайные величины и функции распределения п Так как 21* — алгебра, то Dn — (J С* Е 21*; при этом *=1 d(A,,C) = Р(С - £>п) - Р(С) - P(Dn) - 0. Поэтому можно выбрать Лп Е sf так, что d(Z>n,^4n) < \/n и, следовательно, в силу (10) d(C, A„) ^ d(C, А>) + d(£>„, Лп) - 0. Таким образом, С Е 21* и 21* образует а-алгебру. ■ Доказательство теоремы 4 получить теперь нетрудно. Если А\ Е 211 и Л 2 Е 212, то по теореме 5 существуют последовательности Ain E s/\ и ^2n £ ^2 такие, что d(A\,A\n) —> 0 при п —> со, г = 1,2. Обозначив Б = А\А2, Вп = А\пА2п, получим d(B,Bn) ^ d(Ai,Ain) + d(A2,A2n) -> 0 при п —> со, Р(^М2) = lim P(Bn) = lim P(Aln)P(A2n) = Р(^)Р(Л2). п—юо п—юо 3. Связь введенных понятий. Нам понадобится еще следующее определение. Пусть £ — случайная величина (или вектор), определенная на вероятностном пространстве (0,5,Р). Определение 11. Класс 5^ множеств из 5 мы назовем а-алгеброй, порожденной случайной величиной £, если он образован событиями вида А = £~1(В) = {ш: £(ш) Е В}, где В — борелевские множества. То, что g^ образует а-алгебру, очевидно, поскольку каждой операции над множествами А соответствует такая же операция над множествами В = £(А), образующими о"-алгебру. а-алгебру ;%, порожденную случайной величиной £, будем обозначать также символом cr(Q. Рассмотрим, например, вероятностное пространство (Г2,03,Р), где П = R есть вещественная прямая, а 03 — а-алгебра борелевских множеств. Если то 3^, очевидно, будет состоять из четырех множеств: R, 0, {ш < 0}, {ш ^ 0}. Более «тонких» событий так определенная случайная величина £ «выделять» из 03 не может. В то же время очевидно, что £ будет измерима ({£ Е В} Е 031) относительно любой другой более «богатой» а-подалгебры 031 такой, что а(£) С 031 СВ. Если £ = £(и>) = [и>] есть целая часть ш, то g^ будет сг-алгеброй множеств, составленных из событий {fc^o><fc+l}, А: = ..., —1,0,1,... . Если, наконец, £(ш) = <р(ш), где у? непрерывна и монотонна, <р(оо) = со, у?(—оо) = -со, то 5^ будет совпадать с а-алгеброй борелевских множеств 03. Лемма 1. Пусть на (0,5, Р) заданы две случайные величины £ и rj, величина £ является измеримой относительно сг(г]). Тогда £ и 7) функционально связаны, т.е. существует борелевская функция g такая, что £ = g(f]).
§ 4. Независимость случайных величин 55 Доказательство, По условию Обозначим через В^п = {^(и): ш Е А^п} образы множеств А^п на прямой R при отображении 77(0;) и положим дп(х) = к/2п при х Е В^>п. Тогда gn(v) — [2nf]/2n, и поскольку Ak,n £ viv)* TO Bk,n Е^Ви^п есть борелевская функция. Так как дп(х) Т при каждом х, то существует lim дп(я) = д(х), который также является борелевской п—>оо функцией. Остается заметить, что по самому построению £ = lim gn(v) — 9(v)- ■ п—кх> Теперь сформулируем очевидное предложение, связывающее независимость случайных величин и а-алгебр. Случайные величины £\,..., fn независимы тогда и только тогда, когда независимы а-алгебры 0"(f i),..., 0"(f„). Это есть прямое следствие определения независимости случайных величин а-алгебр. Мы можем получить теперь доказательство теоремы 2. Заметим предварительно, что конечные объединения полуинтервалов вида [•, •) (возможно, с бесконечно удаленными концами) образуют алгебру s/, которая порождает борелевскую а- алгебру 03 на прямой: Ъ = a(srf). Доказательство теоремы 2. Так как в одну сторону утверждение теоремы очевидно, то достаточно убедиться, что равенство для совместной функции распределения F(x\,... ,жп) = F^(x\)... F{n(xn) влечет за собой независимость 0"(£i),..., 0"(£п). Положим для простоты п = 2 и обозначим через А и Л соответственно полуинтервалы [х\,х2) и [г/i,г/г)- Тогда будут справедливы равенства Р(*1 € Д,& € А) = Р(& € [хих2)^2 е [уиу2)) = = F(x2,y2) - F{xuy2) - F(x2,y{) + F(xuy{) = = (Fb(x2) - F^Xl))(Fb(y2) - Fb(yx)) = PUi € A}P{fo € A}. Следовательно, если A,, i = l,...,n, и Aj, j = l,...,m, — две системы непересекающихся интервалов, то (П 171ч *\ € U АЬ ^eU АЛ = 53 P(^i € Д|, & € А,-) = = 53р«, € Ai)P((2 е л,) = p({,€U Д<)Р(& е U аЛ. (12) Но класс событий {ал f (u>) 6Л} = £ (А), где Л € <£/, вместе с sf образует алгебру (обозначим ее а(£)) и при этом а(а(£)) = о~(£). Мы доказали в (12), что a(fi) и а(£2) независимы. Следовательно, по теореме 4 будут независимы 0"(£i) = a(a(£\)) и cr(fo) = o-(a(fo)). ■ Сформулируем теперь в виде теоремы следующий факт. Теорема 6. Пусть <р\, (р2 — борелевские функции и £\ и £2 — независимые случайные величины, тогда щ = y>i(£i) и rj2 = <р2{£2) — также независимые случайные величины.
56 Глава 3. Случайные величины и функции распределения Доказательство. Нам надо убедиться, что P(pitei) е вь ^2fo) е в2) = РЫЫ е в,)Р(^2(&) е в2). (13) Но множества {х: (fi(x) £ В,-} = <р~ (В,-) = В,* снова являются борелевскими. Поэтому и требуемая мультипликативность вероятности (13) следует из независимости £;. ■ Пусть {^n}^°=i — последовательность независимых случайных величин. Рассмотрим случайные величины &,&+i,... ,fm, где А: < ш ^ со. Пусть 0"(£fc,... ,fm) (при т = со мы будем писать 0"(&,&+1,...)) означает а-алгебру событий, пороги жденную событиями f) Aiy где Ai £ <r(£i). i=* Определение 12. а"-алгебра сг(&,... ,£т) называется порожденной случайными величинами &,... ,fm. Для дальнейшего нам понадобится следующее предложение. Теорема 7. Для любого к ^ 1 а-алгебра a(£n+k) не зависит от cr(f i,... ,£п)- Доказательство. Чтобы доказать это утверждение, воспользуемся теоремой 4. Для этого мы должны убедиться, что алгебра sf, порожденная множествами вида п В = IJ А{, где Ai £ сг(&), не зависит от £-(£„+*). Пусть 4 £ сг(£„+*), тогда из »=1 независимости а-алгебр 0"(fi),0"(£2)>-• • >0"(fn),0"(fn+fc) следует Р(АВ) = Р(А)Р(Аг)... Р(Ап) = Р(А). Р(В). Аналогично убеждаемся, что U А>) Р(А) 1=1 / п (надо лишь IJ Ai представить в виде объединения непересекающихся множеств i=l из sf). Таким образом, алгебра sf не зависит от а(£п+&). Следовательно, <г(£\,..., fn) и a(^n+fc) независимы. ■ Нетрудно понять, что заключения, аналогичные предыдущим, можно сделать и относительно векторных случайных величин f ь£2,... , определив их независимость с помощью соотношений Р(*1евь...,£певп) = ПР(йев>), где Bj — борелевские множества в пространствах соответствующей размерности. В заключение этого параграфа отметим, что вероятностное пространство (Г2,У,Р) ((Rn,Q3n,P^)), на котором заданы независимые случайные величины f!,...,£„ с данными распределениями F^ компонент £;, всегда можно построить, если эти распределения F^ известны. Это следует непосредственно из §3, так как в нашем случае функция совместного распределения F^(x\}... ,жп) вектора f = (fb- • • >fn) однозначно определяется функциями распределения F$ (x) величины £j п Fi(xi,...,xn) = '[[F(l(xj). Ш/'л) = р(
§5*. О бесконечномерных случайных величинах 57 § 5*. О бесконечных последовательностях случайных величин Бесконечные последовательности случайных величин уже упоминались. Такие последовательности в дальнейшем не раз будут предметом наших рассмотрений. Однако возникает вопрос, всегда ли можно на вероятностном пространстве задать бесконечную последовательность так, чтобы ее координаты обладали наперед заданными свойствами (например, были одинаково распределены и независимы). Как мы видели, конечную последовательность независимых случайных величин задать всегда можно, рассмотрев для «составной» случайной величины (fi,...,fn) выборочное вероятностное пространство R\ х Н&2 х • • • х Ri = ^ и а-алгебру 031 х 032 х ... х 03п = 03, порожденную множествами вида В\ х Bi х ... х Вп С М.п, где В{ — борелевские множества. На алгебре этих множеств и достаточно задать вероятность. Однако в бесконечномерном случае дело обстоит сложнее. Здесь уже недостаточно теоремы 1 (см. §2) и ее обобщения на многомерный случай. 00 Надо суметь задать вероятность на такой алгебре событий из R°° = Y1 Шк, замыкание которой относительно счетного числа операций U и П образовывало бы а-алгебру ОЗ00, порожденную произведениями П Bjk, Bjk € 03^.. Пусть N — некоторое подмножество целых чисел. Обозначим через RN — П К* прямое произведение пространств К* по к е N, 03^ = П ®fc- Мы будем keN keN говорить, что распределения Р^> и Рн» на (RN ,03^) и (RN ,03^ ) согласованы, если меры на пересечении RN =RN П RN (для RN здесь N = N' П N"), которые индуцированы мерами Р^» и Р^г», совпадают. Эти меры на RN называются проекциями соответственно Р^ и Р#» на RN. Ответ на поставленный выше вопрос о существовании бесконечной последовательности случайных величин содержится в следующей теореме Колмогорова (доказательство ее приведено в Приложении 2). Теорема Колмогорова. Задание на конечномерных пространствах RN согласованных распределений Р^ определяет на (Е^ОЗ00) такую единственную вероятностную меру Pqo, что каждая вероятность Р# есть проекция Р ^ на Ж1*. Из этой теоремы следует, в частности, что на соответствующем пространстве всегда можно задать бесконечную последовательность произвольных независимых случайных величин. Ведь прямые произведения мер, заданных на Ri,R2»---> Для различных произведений RN и!^ , очевидно, всегда согласованы. §6. Интегралы 1. Интеграл по мере. Как уже отмечалось, задание вероятностного пространства означает задание конечной счетно-аддитивной меры. Это делает возможным рассмотрение интегралов по введенной мере у<К£И)р(<м (н) по множеству ft для борелевской функции g и для любой случайной величины £ на (П^Р) (напомним, что д(х) называется борелевской, если {ж: д(х) < t} при любом t есть борелевское множество на прямой).
58 Глава 3. Случайные величины и функции распределения Определение, конструкция и основные свойства интеграла по мере предполагаются известными читателю. Если читатель чувствует себя недостаточно подготовленным, то мы рекомендуем ему познакомиться с Приложением 3, где содержатся все необходимые сведения. Но читатель может и не делать этого, если он готов ограничить себя в дальнейшем только рассмотрением дискретных и абсолютно непрерывных распределений, для которых интегралы превращаются в суммы или в обычные римановы интегралы. Для дальнейшего полезно также знание интеграла Стилтьеса; комментарии по этому поводу см. в п. 2. Мы уже знаем, что случайная величина £(ш) индуцирует меру Р^ на прямой, задаваемую равенством Р«([*,У)) = Р(* < С < У)) = F((y) - Ц(х). С помощью этой меры интеграл (14) можно записать в виде f g(t{u))P(du>) = J g(x)Pt(dx). Это равенство есть результат подстановки х = £(и>). Доказать его можно, выписав определения обоих интегралов. Интеграл в правой части может быть записан также в форме 'д(х)Щ(х). (15) / В таком виде он называется интегралом Лебега—Стилтьеса от функции д(х) по распределению F{. 2. Интеграл Стилтьеса. Интеграл (15) часто называется просто интегралом Стилтьеса, как, впрочем, и интеграл Римана—Стилтьеса, который определяется несколько иначе и для более узкого класса функций д(х). Если д(х) — непрерывная функция, то интеграл Лебега—Стилтьеса совпадает с интегралом Римана—Стилтьеса, равным по определению Г N g(x)dF(x)= lim lim JZ g(xk)[F(xk+{) - F(xk)], (16) J ь^оо N^°°t^ a->-oo K~~u где предел в правой части не зависит от разбиения xq,xi,. .. ,Xn полуинтервала [а,Ь) и выбора точек хк G А* = \хъ,хк+\). Разбиение xo,xi,... ,x# (свое для каждого N) обладает тем свойством, что max(xfc+i - хк) —* 0 при N —> со. к Действительно, как мы знаем (см. Приложение 3), интеграл Лебега—Стилтьеса есть ь fg(x)dF(x)= lim lim [gN(x)Pt(dx), (17) b—юо а где дн — любая последовательность простых функций (принимающих конечное число значений), монотонно сходящихся к д(х). Из приведенных определений b видно, что достаточно доказать совпадение интегралов / в конечных пределах. b a Так как интеграл Лебега—Стилтьеса JgdF от непрерывной функции д всегда а существует, то в его определении можно в качестве д^ взять две последовательности
§ 6. Интегралы 59 простых функций g*N и д*^, постоянных на полуинтервалах Ак и равных на них соответственно 9*(хк) = sup д(х) и д**(хк) = inf g(x). хеАк хеАк Обе последовательности в (17), построенные по g*N и д*^, будут, очевидно, монотонно сходиться с разных сторон к одному и тому же пределу, равному б интегралу Лебега—Стилтьеса Jg(x) dF(x). Но для любых хк € А* будет выполняться а и, следовательно, интегральная сумма в (1) будет заключена в границах ъ N ь ( д% dF(x) ^ Y^g(xk)[F(xk+l) - F(xk)] <J [g*N(x) dF(x). Эти неравенства и доказывают, очевидно, требуемое совпадение. Нетрудно проверить, что такое же совпадение (17) и (16) будет и в том случае, если F(x) непрерывна, а д(х) есть функция ограниченной вариации, при этом ъ ь Jg(x) dF(x) = g(x)F(x)\ba - J F(x) dg{x). a a Пользуясь здесь этим обстоятельством, мы можем определение интеграла Римана—Стилтьеса распространить и на случай, когда д(х) есть функция ограниченной вариации, a F(x) — произвольная функция распределения. Действительно, пусть F(x) = Fn(x) -f Fji(x) есть представление F в виде суммы непрерывной и дискретной компонент, и г/1,2/2»• • • есть точки скачков функции F%(x) : Рк = ЫУк + 0)-ЫУк)>0. Тогда следует по определению положить J д(х) dF(x) = Y^Pk9(Vk) + J g(x) dFH(x), где интеграл Римана—Стилтьеса J gdF\\(x) можно понимать уже, как мы отмечали, в смысле определения (16). Как общепринято, будем говорить, что / gdF существует, если / \д\ dF конечен. Из определения интеграла Стилтьеса легко обнаружить, что для ступенчатых F(x) (распределение дискретно) интеграл превращается в сумму /■ д(х) dF(x) = Y,9(xk)(F(xk + 0) - F(xk)) = Х>ЫР(£ = **), к к х где xi,X2,... — точки скачков F(x). Если же F(x) — J p(x)dx абсолютно -00 непрерывна, а р(х) и д(х) интегрируемы по Риману, то интеграл Стилтьеса / д(х) dF(x) = / д(х)р(х) dx превращается в обычный интеграл Римана.
60 Глава 3. Случайные величины и функции распределения Еще раз отметим, что читателю, плохо знакомому с техникой интеграла Стилтьеса и интегрированием по мере, можно продолжить чтение книги, имея в виду лишь эти две интерпретации интеграла. Этого вполне достаточно для понимания существа изложения. К тому же большинство практически важных распределений относится именно к этим типам — дискретному или абсолютно непрерывному. Напомним некоторые другие свойства интеграла Стилтьеса (непосредственно вытекающие из определений (17) или (16)): ь I dF = F(b) - F(a); о с о JgdF = JgdF + JgdF; а а с f(9\ + 92) dF = J gxdF + J g2 dF; I cgdF = с I gdF при с = const; b b JgdF=gF\ba- J' Fdg, если g — функция ограниченной вариации. 3. Интегралы от многомерных случайных величин. Распределение суммы независимых случайных величин. Интегралы по мере (14) сохраняют свой смысл и для многомерных £(ш) = (£\(ш),... ,£п (<*>)) (этого нельзя сказать об интегралах Римана—Стилтьеса (16)). Имеется в виду интеграл y^lH,..-,^H)P(rfo;), (18) п где g есть борелевская функция, отображающая Ж1 в R. Если (En,Q3n,P^) — выборочное вероятностное пространство для £, то интеграл (18) можно записать в виде /■ X — {Х\, . . . , Хп) с К. . Обратимся теперь к случаю, когда компоненты f i,..., fn вектора f независимы, и пусть сначала п = 2. Для множеств В = В\ х В2 = {(хих2): х{ е Ви х2 G В2} С М2, где В\ и В2 принадлежат Ш и измеримы, выполняется равенство Р(£ ев) = Pfo е ви 6 е в2) = pfo e в,)Р(& е в2). (19) В этом случае говорят, что мера Р^^^х\^х2) = P(fi € dx\, & € dx2) в R2, соответствующая (fi,f2)> является прямым произведением мер Pb(dxi) = Р(6 е dx{) и Pi2(dx2) = P(fo E ds2).
§6. Интегралы 61 Как мы уже знаем, равенство (19) однозначно определяет меру в (R ,03 ) по заданным распределениям Cl и ^2 в (К, 03). При этом оказывается, что интеграл / g(x\,x2)PU2(dxudx2) (20) по мере Р^ можно выразить через интегралы по мерам Р^, и Р^2. Именно, справедлива следующая теорема Фубини (доказательство ее см. в Приложении 3 или см. свойство 5А в §4.8). Теорема 8 (теорема о повторном интегрировании). Для борелевской функции д(х,у) ^ 0 и для независимых £\ и £2 J g(xux2)Pilb(dxudx2) = f \f g{xux2)Pb{dx2)\ P6(<*si). (21) Если g{x,y) разнозначна, то для выполнения равенства (21) требуется существование интеграла в левой части (21). Индексы I и 2 в правой части можно менять местами. В Приложении 3 показано, что измеримость д(х,у) влечет измеримость подынтегральных функций в правой части (21). Следствие 1. Пусть д(х\,х2) = д\(х\)д2(х2). Тогда, если выполнено хотя бы одно из трех условий: 1) <71 ^ 0, g2 ^ О, 2) Jg\(x\)g2(x2)Pili2(dxudx2) существует, 3) gj(xj)ptj(dxj)> 3 = !'2' существуют, то J g\(x\)g2(x2)Pbt2(dx\idx2) = I g\(x\)Pt№x\) J gi{x2)^i2{dx2). (22) Чтобы избежать тривиальных затруднений, предполагаем, что P(gj(£j) = 0) Ф 1, 3 = 1,2. Доказательство. При выполнении первых двух условий утверждение следствия немедленно вытекает из теоремы Фубини. Для произвольных д\, Яг положим </j = gf - 9j, gf ^ 0, j = 1,2. Если JgfdP{. < оо (будем использовать здесь эту сокращенную запись интефалов), то j gmdPb dPb = J9t9tdpb dPb ~ - J 9\9i dPb dPb ~ J 9\9i dpi, dpb + J 9\9l dp(, dph = = J 9tdpb JgUpb - J 9tdpb fgtdpb- - J 9\dPb j9idPb + j9idpi, j9idPb = J91 dPb J 9ldPh-
62 Глава 3. Случайные величины и функции распределения Следствие 2. В частном случае, когда д(х\,Х2) = 1в(х\>Х2) есть индикатор ecmt ства В : множества В Е 93 , получаем формулу о последовательном вычислении меры множе Р(«ь&) € в) = f Р((хьЫ е s)P6(^i). Вероятность события {(ж 1,^2) € В} можно записать также в виде Р(& € Вж,) = Р^2(БЖ1), где ВХх = {х2'. (х\1Х2) Е В} есть «сечение» множества В в точке х\. Если В = {(х\,Х2): х\ + Х2 < х}, мы получим Р((*1,Ы € В) = Pfo +fo < x) = Fb+t2(z) = = f Р(*\ +6 < *)P*.(**i) = /*fc(* - *i)<Hb(*i). (23) Мы получили формулу для функции распределения суммы независимых случайных величин, выражающую i^,+£2 через i^, и F&. Интефал в правой части (23) называется сверткой функций распределения F^(x) и F^2(x) и обозначается F^ * F^2(x). Таким же образом можно получить равенство оо Правую часть здесь можно рассматривать также как результат интефирования / dF{{ (t)F{2(x - t) по частям. Если хотя бы одна функция распределения имеет плотность, то и свертка имеет плотность. Это непосредственно следует из формул для свертки. Пусть, например, X Fz2(x)= J f(2(y>)du. Тогда X / ОО Fil+b(x) = j P0(dt) J /6(« -t)du=Jlj P(,(dt)fb(x - t) J At, -00 -00 -00 \-oo / так что плотность f(x) суммы £\ + £2 равна 00 ОО /(*) = / Р<,(Л)/Ь(* - t) = J fi2(x - t)dF(,(t). -00 -00 Пример 5. Пусть fb&i--- независимы и равномерно распределены на [0,1], т. е. f i,f2> • • • имеют одну и ту же функцию распределения с плотностью '<■>-{!; VM <*> Тогда плотность суммы £i + & равна } ГО, **[0,2], Л.-К» = f(x-t)dt=\x, хе [0,1], (25) / (.2-х, хе [1,2].
§6. Интегралы 63 Присутствующий здесь интеграл равен, очевидно, длине пересечения отрезков [0,1] и [х — 1,ж]. Плотность суммы fi + £2 + £з будет уже склеена из трех кусков парабол: Ux+ii+t: 1 +b(x-t)dt = < О, 2 > 1 2 2 > (3-х)2 2 > ^[0,3], же [0,1], же [1,2], же [2,з]. Вычисление этого интервала становится наглядным, если воспользоваться рис. 4, а, где заштрихованные площади соответствуют значениям Д1+^2+^3(ж) при разных х. Вид плотностей для fi, fi -f £2, fi + f2 + f3 представлен на рис. 4, £. Плотность суммы f I -f £2+£з+£4 будет склеена уже из четырех кусков кривых третьего порядка и т.д. Если начало координат перенести в точку п/2, то с точностью до преобразования сжатия внешний вид плотности суммы £\ -f ... -f £„ с ростом п 2 все больше будет напоминать график функции е . Мы увидим дальше, что это обстоятельство не является случайным. 0 * 1 /*<*) /U<*> 1 2 б Рис. 4. /ад*(*> 2х В связи с рассмотренным примером можно заметить, что если есть две независимые случайные величины (и?|, где f имеет функцию распределения F(x), а 7] распределена равномерно на [0,1], то плотность суммы ( + ?/в точке х равна X Д+,(х) - У dF(*)/,(* ~t)= J dF(t) = F(x) - F(x - 1). 1-1
Глава 4 Числовые характеристики случайных величин § 1. Математическое ожидание Определение 1. Математическим ожиданием или средним значением случайной величины £, заданной на вероятностном пространстве (Q, 5, Р), называется число Е£ = у*£ИР(<ч, п если интеграл, стоящий в правой части, существует. В силу сделанных выше замечаний (см. § 3.6) мы можем Е£ определить также как Е£ = fxP((dx) = fxdF(x), (l) где F(x) — функция распределения £. Из определения следует, что Е£ существует, если Е|£| < со. Как нетрудно видеть, Е£ не существует, если, например, 1 - F(x) > \/х при всех достаточно больших х. Мы уже знаем, что если F(x) — ступенчатая функция, то интеграл Стилтьеса в (1) превратится в сумму E* = £>tP (£ = **). к Если F(x) имеет плотность /(ж), то Е£ = / xf(x) dx, так что Е£ есть координата «центра тяжести» распределения F единичной массы на прямой и соответствует естественному пониманию среднего значения этого распределения. Если д(х) — борелевская функция, то ту = д(£) есть снова случайная величина и £9(0 = f g(t(w))P(dv) = Jg(x)dF(x) = JxdFgU)(x). Последнее равенство следует из определения (1). Основные свойства математических ожиданий совпадают со следующими свойствами интеграла. Е1. Если а и Ь постоянные, то Е(а + Ъ£) = а + ЬЕ£.
§1. Математическое ожидание 65 Е2. E(£i + £2) = E£l + Е^2, если существуют какие-нибудь два участвующих в равенстве математических ожидания. ЕЗ. Если а ^ £ ^6, то а ^ Е£ ^6. Всегда Ef ^ Е|£|. Е4. ^сли £ ^ 0 и Е£ = О, то ^ = 0 с вероятностью 1. Е5. Вероятность события А может быть записана в терминах математических ожиданий с помощью равенства PU) = EI(A), где 1(A) есть случайная величина, равная индикатору события А : 1(^4) = 1, если и G А, и 1(A) = О в противном случае. Дальнейшие свойства математических ожиданий см. в Приложении 3. Рассмотрим несколько примеров. Пример 1. Математические ожидания, связанные со схемой Бернулли. Пусть £ €= Вр, т.е. £ принимает два значения: 0 с вероятностью q и 1 с вероятностью р, где р + q = 1. Тогда E£ = 0-P{t = 0) + 1-P{t=\)=p. Рассмотрим теперь последовательность исходов с схеме Бернулли до момента т/ появления первого «успеха». Другими словами, рассмотрим последовательность независимых величин £ь£2, • • • , распределенных как £, до момента времени г) = min{fc ^ 1: £* = 1}. Очевидно, что п является случайной величиной, P(rj = k) = qk-lp, k^l, так что г) — 1 имеет геометрическое распределение. Следовательно, V 1 Ет) = ^как У *=1 (1-9)2 Если обозначить Sn — ]Г} £*, то, очевидно, Е5П = пр. Определим теперь при к=\ некотором целом N ^ 1 случайную величину rj = min{fc ^ 1: Sfc = N} как «время» достижения последовательностью Sn уровня N. Имеем P(r1 = k) = P(Sk_l=N-\)p1 еч=реЧ^"0^-,9*"'г=?]ггту5:*(*-|)-"(*-лг+1>^- k=N V / \ )- k=N Сумма здесь равна производной ЛГ-го порядка в точке z = q от функции 00 ip(z) = ^2 zk = j^j, т.е. равна -j^n-. Итак, Erj = —. Как мы увидим ниже, это равенство может быть получено как очевидное следствие результатов § 4. Пример 2. Если £ G= Фа,а2» то Е£ = J t<pay(t) dt = f *-^=e-('-a>2/2*2 dt = = -4= Л* - «)e-(t-a)2/2a2 dt+^= f e-^2*2 dt = ay/ZJr J ay/ZJr J = -4= f ze~z2/2<T2 dz + a = a. сгу/2тг J
66 Глава 4. Числовые характеристики случайных величин Таким образом, параметр а нормального закона равен его математическому ожиданию. Пример 3. Если £ ^ Пд, то Е£ = Л. Действительно, 00 к °° к-\ 4 ^ fc! P ^ (Jb - 1)! Р *=0 fc=l v ' Пример 4. Если £ ^ Uo,i, то 1 ж йж = —. 2 о Из свойства Е1 следует, что для f ^ иа?ь 6 — а а + 6 Е£ = а+ —— = -—. 2 2 Если f ^ Ko,i, то Ef не существует. Это следует из того, что интеграл / f^ расходится. Рассмотрим теперь пример, близкий по типу к примеру 1 о подсчете Erj, но более сложный, связанный с вычислением среднего значения продолжительности шахматного турнира в реальной ситуации. В примере 3.4 была описана простейшая вероятностная модель шахматного турнира. Первый игрок в каждой партии независимо от исходов предыдущих партий выигрывает с вероятностью р, проигрывает с вероятностью q, р + q < 1, и делает ничью с вероятностью 1 - р — q. Конечно, это весьма грубое первое приближение, поскольку независимость на самом деле, по-видимому, отсутствует. С другой стороны, трудно предположить, что для уравновешенных игроков высокого класса названные вероятности сильно менялись бы от партии к партии или в зависимости от предьщущих результатов. Более сложная модель, учитывающая зависимость р и q от исходов предьщущих партий, будет рассмотрена в примере 12.6. Допустим, что турнир продолжается до тех пор, пока один из двух участников не наберет N выигрышей (ему и присуждается победа). Именно по такой схеме при N — 6 был организован матч на первенство мира по шахматах в 1984 году между А. Карповым и Г. Каспаровым. Что можно сказать в этом случае о математическом ожидании Erj времени rj продолжительности матча? В примере 3.4 было показано, что N-\ N~\ P(rj = n)=pJ2p(n-UN- l,t) + g]Tp(n-l;t,iV- 1), »=0 i=0 где p(n;iyj) = 1?!Л_Л|РУ(1 - p — q)n~%~3• Поэтому при очевидных соглашениях относительно индексов суммирования ^ '* i=0 ' n=0
§ 1. Математическое ожидание 67 Сумма по п подсчитана в примере 1 и равна , \_ .„;;,,.,. Следовательно, N ^(pNqi+piqN)(N + i)\ Е^^ЬЕ P + qfrt i\N\(p+qy+N N Е(Лгг+г')^(1-г)1 + г,(1-г)^' где г = p/(p + q). В интервью газете «Известия» от 3 марта 1985 г. Карпов сообщил, что в среднем в предматчевых турнирах он проигрывал одну партию из двадцати. Такими же показателями, по его словам, характеризуется и Каспаров. Если в этих условиях применительно к нашей простейшей модели положить р = q = 1/20 (строго говоря, такое заключение из приведенных данных сделать нельзя; соотношение р = q = 1/20 скорее можно рассматривать как одну из возможных гипотез), то при N = 6 (г = 1/2) путем непосредственного подсчета получим 15 Г /5 11Y E„ = Y[l + 2l(l + - + -) 93. Таким образом, если верить в адекватность нашей простейшей модели, то ожидаемая продолжительность турнира оказывается очень большой. Некоторым подтверждением правильности сделанных предположений может служить тот факт, что матч между Карповым и Каспаровым был прерван по решению президента шахматной федерации на 48-й партии ввиду того, что этот матч чрезмерно затянулся. Если учитывать результаты проведенного турнира и последующих партий между Карповым и Каспаровым, то оценка (приближенное значение) чисел р и q может отличаться от 1/20. Для рассмотренной модели справедливо также следующее простое неравенство: N/(p + q)<EV< (2N - \)/{р + q). Оно вытекает из соотношения i)n ^ rj ^ V2N-1* гДе Vn ~ число партий до момента, когда суммарное число очков обоих игроков достигнет N. В силу примера 1 ErjN = N/(p -f q). Пример 5. В задаче о ячейках в §§3, 4 в главе 1 рассматривалась вероятность события А, состоящего в том, что хотя бы одна из п ячеек, куда наудачу бросают г частиц, остается пустой. Найдем математическое ожидание числа 5П?Г пустых ячеек после г бросаний. Если Aj- означает событие, состоящее в том, что k-я ячейка пуста, a l(Ak) означает индикатор этого события, то п п / 1\Г 5n,r = J2 К^), Е5П,Г - У) P(Ak) = п 1 - - . Заметим теперь, что Е5П)Г близко к 0, если (1 - 1/п)г мало по сравнению с 1/п, т.е. когда —rln(l - 1/п) - Inn велико. При больших п V п) п \п2 J и требуемое соотношение будет иметь место, если (г — п\пп)/п велико. Ясно, что в нашем случае (ср. со свойством Е4) малость Е5пг будет влечь за собой малость Р(Л) = Р(5п,г >0).
68 Глава 4. Числовые характеристики случайных величин § 2. Условные функции распределения и условные математические ожидания Пусть (£"2,5, Р) — вероятностное пространство, и событие 5 G J обладает свойством Р(В) > 0. Образуем новое вероятностное пространство (^2,5, Р#), где Р# для любого А Е # зададим с помощью равенства РВ(А) = Р(А\В). Легко проверить свойства вероятности PI, P2, РЗ для меры Р#. Пусть f — случайная величина на (П,^, Р). Это есть, очевидно, случайная величина и в пространстве <П,&РВ>. Определение 2. Математическое ожидание £ в пространстве (П,^, Р#) называется условным относительно В математическим ожиданием и обозначается через Е(*|В): а По определению меры Рд (t\B) = Jt(w)PB(dw). Е(£\В) = j Z{u)P(du\B) =рщ{*(ш)Р(<Ь,ПВ) = ^j£(u,)P(dw). п п в Последний интеграл отличается от Е£ тем, что интегрирование в нем ведется лишь по множеству В. Этот интеграл будем обозначать •U;B) = Jt(w)P{du,), В так что Нетрудно заметить, что функция F(x | В) = Р в (£ < х) = Р (i < х | В) является функцией распределения случайной величины £, рассматриваемой на <П,&РВ). Определение 3. Функция F(x \ В) называется условной функцией распределения £ (в условном пространстве (П,^, Р)) при условии В. Значение Е(£ | В) можно записать, очевидно, также в виде / х dF(x \ В). Если сг-алгебра 0"(£)> порожденная случайной величиной £, не зависит от события В, то Рв(А) = Р(А) ДЛЯ любого А Е 0"(£). Следовательно, F(x\B) = F(x), E(f|B) = E£, E(fcB) = P(B)E(£). (2) Пусть {Вп} — последовательность, быть может, конечная, непересекающихся событий такая, что [jBn = ft и Р(Вп) > 0 для любого п. Тогда Е£ = f i{u)P{du) = J2jt(u,)P(du>) = ^E(£;£n) = ^ P(Bn)E(£ |Bn). (3) f* n £« n n Мы получили формулу полной вероятности для математических ожиданий. Эта формула бывает весьма полезной.
§ 2. Условные функции распределения 69 Пример 6. Пусть время службы какого-нибудь механизма есть случайная величина f с функцией распределения F(x). Известно, что механизм проработал время а. Каково распределение оставшегося срока службы? Чему равно его математическое ожидание? Очевидно, в этой задаче нам надо найти Р(£-а^ж|£^а) и Е(£ - а | f ^ а). Предполагается, конечно, что Р(а) = Р(£ ^ а) > 0. В силу выписанных выше формул Р(х + а) Р(а) ' 00 Е(£ - a\Z> a) = -^—JxdF{x + a). О Интересно отметить следующее. Во многих прикладных задачах, особенно когда речь идет о работе сложных механизмов, состоящих из большого числа надежных деталей, распределение f можно считать показательным: P(x) = P(Z^x) = e~tiX, /х>0. (Причина этого явления станет ясной позже, при рассмотрении теоремы Пуассона и пуассоновских процессов. Примерами таких механизмов могут служить электронно-вычислительные устройства.) Но для показательного распределения оказывается, что распределение оставшегося срока службы механизма Ри-а2х\£2а) = !Щр-=е-'№=Р{х) (4) совпадает с распределением срока службы нового прибора. Другими словами, новый прибор и прибор, проработавший непрерывно некоторое время а, с точки зрения длительности дальнейшей безотказной работы эквивалентны. Нетрудно понять, что показательное распределение (вместе со своим дискретным аналогом Р(£ = А:) = qk(\ — q), k = 0,1,...) является единственным, которое обладает отмеченным выше замечательным свойством. Это видно из равенства (4), в силу которого с необходимостью Р(х + а) = Р(х)Р(а). Пример 7. п агрегатов расположены так, что расстояние между г-м и j-м агрегатом равно ajj, 1 ^ г, j ^ п. Каждый агрегат время от времени нуждается в обслуживании (наладке, ремонте и т.п.). Предположим, что обслуживание производится одним рабочим и что каждый очередной вызов на обслуживание с вероятностью pj ( ^Г, рj = 1) возникает у j-го агрегата, Если, например, в данный \=l J момент рабочий закончил обслуживание г-го агрегата, то с вероятностью pj (от г не зависящей) он следующим будет обслуживать агрегат с номером j; при этом он пройдет к нему путь длиной а,^-. Чему равна средняя длина пройденного пути за один переход? Пусть событие В{ означает, что номер агрегата, обслуживание которого предшествовало данному переходу, равен г. Тогда Р(В,-) = pi и вероятность того,
70 Глава 4. Числовые характеристики случайных величин что рабочий от г-го афегата направится к j-му, j = 1,...,гс, равна pj. Длина перехода при этом составит а^-. Поэтому п i=i и по формуле полной вероятности п п E£ = J2 P(S.-)E(* I Bi) = Yl Pipjaij. • =1 «\j=l Полученное выражение позволяет сравнивать различные варианты расположения афегатов с точки зрения минимизации величины Е£ при заданных Офаничениях на а^. Например, если а^ ^ 1 и все афегаты однотипны (pj = 1/п), то при их расположении вдоль одной прямой линии получим a,j = Ij — г|, Et-i±u-«-^E*<-*)-^(i + i)'». так что Е£ при больших п равно приближенно п/3. Таким образом, если в день происходит 5 вызовов, то средняя длина суммарного перехода составит примерно sn/Ъ. Нетрудно показать, что расположение афегатов по окружности будет более выгодным, однако и оно не будет оптимальным. Пример 8. Как уже отмечалось, не для всех случайных величин (распределений) существует математическое ожидание. И соответствующие примеры вовсе не являются патологическими — этим свойством обладает, например, распределение Коши Kaj(7. Мы рассмотрим теперь одну задачу о случайных блужданиях, в которой также появляются случайные величины, не имеющие математических ожиданий. Это задача о так называемой безобидной ифе. В ифе участвуют два ифока. Начальный капитал первого ифока равен z. Каждую партию этот ифок выифывает или проифывает с вероятностью 1/2 независимо от исходов предыдущих партий, при этом его капитал соответственно увеличивается или уменьшается на единицу. Пусть z + Sk — капитал первого ифока после fc-й партии, a rj(z) — число шагов до его разорения при ифе с бесконечно богатым противником, когда z есть целое число, т.е. 7j(z) = min{k: z + Sk = 0}, 7/(0) = 0. Если infSfc > —z (т.е. первый игрок никогда не разорится), мы положим к r)(z) — со. Покажем прежде всего, что rj(z) — собственная случайная величина, т.е. случайная величина, с вероятностью 1 принимающая конечные значения. Это обстоятельство для первого ифока будет означать, что он с вероятностью 1 рано или поздно разорится, с каким бы капиталом z он ни начинал ифать. В качестве П ^ Для подсчета этой суммы достаточно заметить, что п-1 У^ к(к - 1) = ~(п - 2)(п - \)п к=\ (сравните начальные значения и приращения этих функций).
§ 2. Условные функции распределения 71 здесь можно взять «выборочное» пространство, состоящее из всевозможных последовательностей из 1 и -1. Каждая такая последовательность и будет описывать «траекторию» игры. (Например, -1 на k-м месте означает, что первый игрок проиграл k-ю партию.) Мы предоставляем читателю в виде упражнения достроить здесь вероятностное пространство (Q,$,P). Очевидно, что надо сделать так, чтобы вероятность первых п фиксированных исходов игры (первые п координат ш фиксированы) равнялась 2~п. Положим u(z) = P(rj(z) <оо), и(0) = 1 и обозначим через В\ событие, состоящее в том, что первая координата и равна 1 (игрок выиграл), и Bi — что эта координата равна —1 (проиграл). Замечая, что P(r](z) < oo|£i) = u(z + 1) (если первая партия выиграна, то капитал стал равным z + 1), мы по формуле полной вероятности при z ^ 1 получим u(z) = Р(Вх)Р(ф) < оо\В{) + Р(В2)Р(ф) < оо|В2) = l-u(z + 1) + l-u{z - 1). Полагая 6(z) = u(z + 1) — u(z), z ^ 0, мы находим отсюда 6(z) — 6(z — 1) = 0, z 6(z) = 6 = const. Так как u(z -f 1) = ^(0) + Yl 6(k) = u(0) + z6, то ясно, что б не k=\ может быть ничем иным, кроме 0, u(z) = 1 при всех z. Итак, в игре с бесконечно богатым противником игрок разоряется с вероятностью 1. Это объясняет в какой-то мере тот факт, что все азартные игроки (не останавливающиеся «вовремя»; выбор этого «времени» — отдельная задача) рано или поздно кончают разорением. Даже если игра является безобидной. Покажем теперь, что хотя rj(z) — конечная случайная величина, Er)(z) = со. Допустим противное, что v(z) = Erj(z) < со. Аналогично предыдущему замечаем, что E(rj(z)\B\) = 1 +ф + 1) (капитал стал равным z -f 1, и один ход уже сделан). Поэтому по формуле полной вероятности для математических ожиданий при z ^ 1 находим v(z) = i(l + v(z + 1)) + ^(1 + v(z - 1)), v(0) = 0. Из этой формулы видно, что если v(z) < со, то v(k) < со при всех к. Обозначим A(z) = v(z + 1) - v(z). Тогда предыдущее равенство при z ^ 1 можно записать в виде ИЛИ A(z) = A(z - 1) - 2. Из этого равенства находим A(z) = А(0) — 2z. Поэтому z-\ v(z) = Y^ A(k) = ^л(0) ~ Ф - О = ZVH) ~ Ф ~ 0- к=0 Отсюда следует, что Er](z) < 0 для достаточно больших z. Но tj(z) — положительная случайная величина, и поэтому Erj(z) ^ 0. Полученное противоречие показывает, что предположение о конечности математического ожидания tj(z) неверно.
72 Глава 4. Числовые характеристики случайных величин § 3. Математические ожидания функций независимых случайных величин Теорема 1. 1. Пусть £ и rj — независимые случайные величины, д(х,у) — борелевская функция. Тогда, если g ^ 0 или если Eg(£, rj) конечно, то Eg{i,r1)=E[Eg(x,r])\x=i\. (5) 2. Пусть д(х,у) = д\(х)д2(у). Если gi(£) ^ 0, g2(rj) ^ 0 или если Ед{((), Eg2(rj) существуют, то Е5(е,Ч) = Е51(ОЕд2(ч). (6) Для существования Eg(€,rj) необходимо и достаточно существования Ед\(£) и Eg2(rj). (Случаи Р(д\(£) = 0) = 1 или P(g2(v) = 0) = 1 во избежание тривиальных затруднений здесь исключаются.) Доказательство. Первое утверждение теоремы есть переформулировка теоремы Фубини в терминах математических ожиданий. Первая часть второго утверждения следует непосредственно из следствия 3.1 теоремы Фубини. Так как |<7i(f)| ^ 0, \92(v)\ ^ 0 и эти случайные величины независимы, то ЕЫОЫч)1 = Е|Ы0|ЕЫ|/)|. Поскольку E|<7i(f)| Ф 0, E\gi(r\)\ ф 0, то отсюда следует последнее утверждение теоремы. ■ Замечание 1. Формулу (5) можно рассматривать как формулу полной вероятности для вычисления Eg(£,rj). Утверждение (6), не ограничивая общности, можно записать в виде Е^ = Е£Ет/. (7) Чтобы получить отсюда (6), надо в качестве f взять д\(£), а в качестве г\ взять g2(v) ~~ это снова будут независимые случайные величины. Примеры использования теоремы 1 были приведены в § 3.6 и будут встречаться в дальнейшем. Обратное утверждение к (6) или (7) неверно. Существуют зависимые случайные величины f и rj такие, что Eft = Е£Ет/. Пусть, например, ( и £ независимы, Е£ = Е( = 0. Положим rj = ££. Тогда f и rj, очевидно, зависимы (за исключением некоторых тривиальных случаев, таких, например, когда £ = const), но Е^ = Е£2С = Е£2ЕС = 0 = Е£Ет/. § 4. Математическое ожидание случайных величин, не зависящих от будущего Пусть на (0,5, Р) заданы последовательность {£n}£°=i независимых случайных величин и целочисленная случайная величина и ^ 0. Пусть g^n = сг(&,... ,fn) означает сг-алгебру, порожденную п — к + 1 случайными величинами &, • • • >fn- Определение 4. Случайная величина v называется не зависящей от будущего, если событие {у ^ п} не зависит от 3Wi,oo-
§ 4. Случайные величины, не зависящие от будущего 73 Случайная величина v называется марковской или моментом остановки, если {у ^ n} Е $\,п. Другими словами, в этом случае знание значений £г,..., fn позволяет сказать, произошло событие {у ^ п} или нет. На основании предыдущего (см. §5 в главе 3) ясно, что в нашем случае для марковской случайной величины событие {у ^ п} (или {у > п}) и любое событие А из Зп+1,оо независимы. Это значит, что марковская величина для последовательности независимых £* не зависит от будущего. Пример 9. Пусть и — номер первой случайной величины в последовательности {fn}n=l, которая оказалась больше или равной N, т.е. v = inf{k: & ^ N}. Если £п независимы, то, очевидно, и не зависит от будущего, так как событие k=\ Любая случайная величина и, не зависящая от последовательности fb&j--- (не зависят а(и) и $\i00), является, очевидно, не зависящей от будущего случайной величиной. Термин «марковская» станет несколько понятнее после введения понятия марковости в главе 12. Термин «момент остановки» связан с характером большого количества прикладных задач, в которых такие случайные величины появляются. В качестве довольно типичного примера мы можем рассмотреть следующую процедуру. Пусть & — количество брака в к-й партии продукции предприятия. Статистический приемочный контроль качества продукции состоит в следующем. Вся продукция бракуется, если при последовательной проверке партий обнаружится, п что при некотором п значение суммы Sn = ]Г) & превзошло заданный допустимый уровень a-f bn. Номер партии и, при которой это событие произошло, v = min{n: Sn ^ a -f bn} есть момент остановки всей процедуры проверки. Чтобы избежать длительной проверки, моментом остановки (в буквальном смысле) делают также и случайную величину и* = min{n: Sn ^ -А + Вп}, В ^ 6, где А > 0 подбирается настолько большим, чтобы гарантировать с высокой вероятностью достаточный уровень качества всей продукции (предположив, например, что & одинаково распределены). Ясно, что v и и* удовлетворяют определению марковской величины или момента остановки. Мы предлагаем читателю привести пример случайной величины и, зависящей от будущего. Пусть 5„ = f 1 + ... +£v- Это есть сумма случайного числа случайных величин. Теорема 2 (Колмогорова—Прохорова). Пусть целочисленная неотрицательная случайная величина v не зависит от будущего. Тогда если 00 ^Р(|/^Л)Е|&|<оо, (8) к=\ то 00 ES„ = £P(i/>*)E&. (9)
74 Глава 4. Числовые характеристики случайных величин Если & ^ 0, то условие (8) излишне. Доказательство. Имеем ES„ = JT E(S,,;i/ = n) = ^E(5„;i/ = n) = n=l n=l oo n oo = X) !>(&; i/= n) = £)E(&; i/^fc). (10) Законность перемены порядка суммирования здесь мы поясним позже. Так как событие {у ^ к} = {у > к — 1} не зависит от а-алгебры З^оо, то оно не зависит и от сг(&). Следовательно, E(f*;i/ ^ к) — P(i/ ^ fc)Effc, и формула (9) доказана. Перемена порядка суммирования в (10) возможна благодаря абсолютной суммируемости соответствующих рядов, так как ОО 00 00 00 fc=l п=к к=\ к=\ по условию теоремы. Если & ^ 0, то все слагаемые будут неотрицательны и перемена порядка суммирования станет законной в любом случае. ■ Следствие 1 (тождество Вальда). Если случайные величины fi,f2> •• • независимы и одинаково распределены, Е|&| < со, а случайная величина и не зависит от будущего, Ей < со, то ESU = Ef 1E1/. Доказательство сразу получается, если заметить, что 00 00 ОО 00 5>(^fc) = X;EF>=i) = EiF>=i) = E''- k=\ k=\ i=k i=\ m Пример 10. Схема цепной реакции. Пусть мы имеем в качестве исходной одну частицу, которая либо исчезает с вероятностью q, либо превращается в т таких же частиц с вероятностью р — l — q. Каждая частица нового поколения ведет себя таким же образом независимо от судьбы остальных частиц. Чему равно математическое ожидание числа С„ частиц в n-м поколении? Рассмотрим «двойную последовательность» щ }£Li,^=i независимых одинаково распределенных случайных величин, принимающих значения гаиОс вероятностями р и q. Очевидно, что последовательности {^ }£Lp{ffc /Г=2>•** будут независимыми между собой. С помощью этих последовательностей случайные величины Сп (Со = 1) можно представить в виде c. = *i") + ...+&)1. где в равенстве для (п число слагаемых £n_i есть число «частиц-родителей». Так как последовательность {£* } не зависит от £n_i и Е£^ = рт, то в силу тождества Вальда ЕСп = E£{n)ECn-i = pmECn-i = (рт)\
§ 4. Случайные величины, не зависящие от будущего 75 Пример 11. Вернемся к безобидной игре двух игроков, описанной в примере 8, но уже в случае, когда оба капитала z\ > О и z2 > О первого и второго игроков конечны. Введем случайные величины &, изображающие выигрыш первого игрока в k-й партии. Очевидно, & независимы, Г 1 с вероятностью 1/2, \ -1 с вероятностью 1/2. к Число z\ + Sk = z\ + ^2 £j будет означать капитал первого игрока, a z2 - Sk — i=i капитал второго игрока после А: партий. Величина rj — min{fc: z\ + Sk = 0 или Z2 — Sk = 0} есть время до окончания игры, т.е. до разорения одного из игроков. Спрашивается, чему равна вероятность Р, того, что выиграет г-й игрок (г = 1,2)? Ясно, что 77 есть марковский момент, при этом Sv = —z\ с вероятностью Pj и Sjj = zi с вероятностью Pi = 1 — Pi. Поэтому E5^-P1Z2-P22;i. Если Ету < со, то в силу тождества Вальда мы имели бы Plz2-P2zl=Er1E^ =0. Отсюда находим, что Pi = Z{/(z\ + zi). Остается проверить конечность Erj. Пусть для простоты z\ -f z2 — 2z четно. С вероятностью 2~min(Z|'Z2) ^ 2~z игра может закончиться за min(zi,Z2) ^ z партий. Так как в течение игры суммарный капитал обоих игроков не меняется, то Р(т7 > z) ^ 1 - 2-z,...,P(77 > zN) ^ (1 - 2~Z)N. Это, очевидно, влечет за собой конечность 00 k=0 Мы уже отмечали, что не зависящая от {£,} случайная величина и не зависит от будущего. В то же время v не будет моментом остановки в смысле определения 4. Приведем теперь менее простой пример случайной величины v, не зависящей от будущего, но не являющейся моментом остановки. Пример 9А. Рассмотрим две независимые между собой последовательности независимых случайных величин Сь С2»• • • и ^ь V2, • • • '■> (j €= F, rjj €= G. Рассмотрим далее некую систему, состоящую из двух одинаковых приборов. При пуске системы сначала работает первый прибор случайное время (\, после чего он выходит из строя. Его заменяет второй прибор, который работает время ^2 (на интервале времени (Ci,Ci +Сг))- Одновременно в момент выхода из строя первого прибора он поступает в ремонт (восстанавливается), время ремонта длится щ. Если 772 > С2> то в момент Ci + C2 отказа второго прибора оба прибора окажутся неисправными и система дает отказ. Если же 772 ^ С2 ^ то в момент Ci + С2 в строй снова вступает первый прибор и работает время £з, а второй прибор поступает в ремонт, который длится время щ. Если щ > £з, то система отказывает. Если щ ^ £з> то второй прибор продолжит работу, и т.д. Чему равно математическое ожидание времени г безотказной работы системы?
76 Глава 4. Числовые характеристики случайных величин Пусть v = т'т{к ^ 2: щ > (к}. Тогда, очевидно, т = £i + • • • + £„, где Cj независимы и одинаково распределены, {у ^ n} E 0"(О>-• • >Сп;*72>-• • >*7п)- Это означает, что */ не зависит от будущего. В то же время, если rjj Ф const, то {у ^ п} £ о~((\,..., £п) и I/ не является марковским моментом относительно последовательности Сь С2> • • • • В силу тождества Вальда Ет = Ei/E£i. Так как к-\ {и = к} = п {Ч> ^ сл n {r/fc > &>, л ^ 2, i=2 то P(i/ = А:) = g*~2(l - g), fc ^ 2, где q = P(Vk *ZCk) = f dF(t)G(t + 0). Следовательно, 00 00 1 E*. = £fcg*-2(l - g) = 1 + ^fc^'O - <?) = 1 +-L-, 2-g Er-ECi—^. 1-g Тождество Вальда допускает целый ряд обобщений (подробнее об этом см. § 14.2). §5. Дисперсия Введем еще одну числовую характеристику случайных величин. Определение 5. Дисперсией Df случайной величины f называется число D£ = E(£-E02- Это есть мера «разброса» или «рассеивания» распределения. Дисперсия равна моменту инерции распределения единичной массы на прямой. Находим D£ = Е^2 - 2Е£Е£ + (ЕО2 = Е£2 - (Е£)2. (11) Дисперсию можно было бы определить также как minE(f — а) . В самом деле, а в силу этого определения D£ = Е^2 + min(a2 - 2aE£) - Е£2 - (Е£)2, а так как минимум a - 2aE£ достигается при a = E£. Это замечание показывает, что число a = E£ является наилучшей оценкой (приближением) в среднеквадратичном случайной величины f. Величина y/Dj называется стандартным уклонением. Пример 12. £ ^ Фа,а2' В примере 2 было выяснено, что а = Е£. Следовательно, J aV2ir v27r J Последнее равенство получено заменой (х — а)/а = t. Интегрируя по частям, получим V2tt I-oo v2^r J
§5. Дисперсия 77 Пример 13. £ ^ Ни. В примере 3 было вычислено Е£ = fi. Поэтому оо к -и fc=0 Е°° к(к - \)fik ^ kfik -ail 2 к/е +Е"^ге "-м2 = м2 + м-м2 = м. fc=2 ' fc=0 Пример 14. Для £ ^ Uo,i имеем 1 EZ2 = j x2dx=1-, EZ=1-. о В силу (11) D£ = 1/12. Пример 15. Для f €= Вр в силу соотношений £2 = f, Ef2 = Е£ = р получаем 0£ = р-р2=р(\-р). Рассмотрим теперь некоторые свойства дисперсии. Dl. Df ^ О, D£ = О тогда и только тогда, когда Р(£ = с) = 1, где с — постоянная (не зависит от о>). Первое очевидно, так как Df = E(f - Ef)2 ^ 0. Пусть P(f = с) = 1, тогда (Е£) = Е£ = с и, значит, D£ = с2 - с2 = 0. Если D£ = Е(£ - Е£)2 = 0, то (так как (£ - Е£)2 ^ 0) Р(£ - Ef = 0) = 1 или Р(£ = Е£) = 1 (см. свойство Е4). D2. Если а и Ь постоянные, то D{a + bf) = b2UZ. Это свойство следует непосредственно из определения Df. D3. Если случайные величины £ и rj независимы, то E(t + V) = Dt + Dr]. Действительно, D(t + V) = E(( + r,)2-(E( + EV)2 = = Е£2 + 2Е£Е»7 + Е»?2 - (Е£)2 - (Ет?)2 - 2Е£Ет/ = = Е^2 - (ЕО2 + Е*?2 - (Ет,)2 = D£ + Dij. Из этих вычислений видно, что аддитивность дисперсии будет иметь место не только для независимых f и 7/, но и во всех случаях, когда Е£Ч = Е£Ет/. Пример 16. Пусть i/^O — целочисленная величина, не зависящая от последовательности {£j} независимых одинаково распределенных величин, Ev < со, E£j = а. Тогда, как мы знаем, ESU = aEu. Чему равна DS,,?
78 Глава 4. Числовые характеристики случайных величин По формуле полной вероятности DSV = E(S„ - ES,)2 = J2 p(" = k)E(sk ~ tSu)2 = = ^ P(i/ = fc) [E(Sk - ah)2 + (ak - aEvj2] = = ^ P(i/ = k)hDix + a2E(u - Ei/)2 = DftEi/ + a2Di/. Это равенство эквивалентно соотношению E(5„-i/a)2 = Ei/-D{b В такой форме полученное соотношение остается справедливым для любого момента остановки v (см. гл. 14). Пользуясь им, можно в примере 11 найти математическое ожидание времени rj до окончания безобидной игры, когда капиталы игроков z\ и zi конечны. Действительно, в этом случае a = О, ES2 = D^EV = z2P2 + zlPl. Отсюда находим Erj = z\Z2- § 6. Коэффициент корреляции и другие числовые характеристики Две случайные величины f и rj могут быть функционально (детерминированно) зависимы: f = g(rj)\ могут быть зависимы, но не функциональным образом; наконец, могут быть независимыми. Коэффициент корреляции двух величин есть число, с помощью которого пытаются количественно характеризовать степень зависимости двух случайных величин друг от друга. У всех случайных величин, которые встретятся в этом разделе, предполагается существование дисперсии, не равной нулю. Случайная величина f называется нормированной, если Е£ = 0 и D£ = 1. Любую случайную величину f можно линейным преобразованием привести к нормированной, положив £i = (£ — E£)/^/d£. Пусть f и rj — некоторые случайные величины, а f i и щ — соответствующие им нормированные случайные величины. Определение 6. Коэффициентом корреляции между случайными величинами £ и 7] называется число p(^rj) = E£\rj\. Свойства коэффициента корреляции следующие. 1. И*,ч)1<1- Действительно, О ^ D(£i ±гц) = Е(Ь±т)2 = 2±2p(€,i|). Отсюда следует, что \p(£1r])\ ^ 1. ■ 2. Если £ и г} независимы, mo p{£>rj) = 0. Доказательство следует из того, что £\ и г}\ при этом тоже независимы. Обратное утверждение, конечно, не верно. В §3 был приведен пример зависимых случайных величин f и rj таких, что Е£ = 0, Ет] = 0, Е£т] = 0. Для них коэффициент корреляции равен нулю, хотя они и зависимы. Однако, как
§6. Коэффициент корреляции 79 мы увидим в главе 7, для нормально распределенных (£,?/) равенство p(£,rj) = О является необходимым и достаточным для независимости этих величин. Другой пример, когда коррелированность случайных величин влечет их независимость, дает схема Бернулли. Пусть Р(£ = 1) = р, Р(£ = 0) = 1 — р, Р(Ч = 1) = q, Р(ч = 0) = 1 - q. Тогда Е£ = р, Ет? = g, D£ = р(\ - р), Drj = q(l - q), p(£,rj) = \t-p)\v-v) равенство p(£,rj) = 0 означает, что Ef7? = pg Vpg(l-p)(l-g) или, что то же, Р(£ = 1, iy = 1) = Р(£ = l)P(iy = 1), P(f = 1, rj = 0) = Ptt = 1) - Р« = 1, Ч = О =Р-И = P(f = 1)Р(Ч = 0), и т.д. Отсюда легко получить, что в общем случае f и rj независимы, если p(f(€)i9(v)) — ® №Я любых ограниченных измеримых функций / и д. Достаточно взять / = /(_оо,ф 9 = ^(-оо,у)> получить отсюда, что Р(£ < ж, г] < у) = Р(£ < х)х Р(ч < У) и воспользоваться результатами предьщущёй главы. 3. |р(£,ч)1 = 1 тогда и только тогда, когда существуют такие числа оиЬ#0, что Р(г) = а -Ь Ь£) = 1. Доказательство. Пусть Р(ту = а + Ь£) = 1. Обозначим Е£ = а и <\/^£ = /^ тогда р(^) = Е — ^ =slgn6. Предположим теперь, что \р(£,т))\ = 1. Пусть, например, р(£,т)) = 1. Тогда D(Ci-4i) = 2(l-p&4))=0. По свойству дисперсии D1 это может быть только тогда, когда P(£l-4i=c) = l. Если р(£,т)) — — 1, то, рассмотрев D(£i -f 77i)> получим Р(*1+Ч1 =с) = 1. и Если р > 0, то случайные величины f и 77 называются положительно коррелированными; если р < 0, то f и 77 называются отрицательно коррелированными. Пример 17. Рассмотрим передающее устройство. Случайная величина £ означает величину передаваемого сигнала. В результате помех приемник принимает величину г) = а£ -f А (а — коэффициент усиления, А — помехи). Предположим, что случайные величины А и f независимы. Пусть Ef = a, Df = 1, a EA = 0, DA — а . Подсчитаем коэффициент корреляции f и rj: Р(*,Ч) = Е «-а) » у/a2 -f а2 / л/а^ + az Если <г — большое число по сравнению с усилением а, то р близко к нулю и rj практически не зависит от f. Если же а мало по сравнению с а, тогда р близко к единице и по rj бывает легко восстанавливать £\ Рассмотрим некоторые другие числовые характеристики случайных величин. В качестве таковых часто используются моменты более высоких порядков. Определение 7. Моментом порядка к случайной величины £ называется число Е£к. Значение Е(£ - Е£)к называется центральным моментом порядка к, так что дисперсия есть центральный второй момент f.
80 Глава 4. Числовые характеристики случайных величин Если дан случайный вектор (&,•••, fn), то величина Е£['...£„" называется смешанным моментом порядка к\ + ... + кп. Аналогично E(£i - Е£\)к] ...(£„- E£n)fc" называется центральным смешанным моментом того же порядка. Для независимых величин смешанные моменты равны, очевидно, произведению соответствующих обычных моментов. §7. Неравенства Теорема 3 (неравенства Коши—Буняковского). Если f i и & — две произвольные случайные величины, то Это неравенство иногда называют также неравенством Шварца. Доказательство. Требуемое соотношение получается из неравенства 2\аЬ\ ^ a2 -f Ь2, если положить в нем а2 = f2/Ef2, b2 = i\/^-i\ и взять математическое ожидание обеих его частей. ■ Неравенство Коши—Буняковского является частным случаем более общих неравенств. Теорема 4. При г > 1, 1/г + 1/5 = 1 справедливы неравенство Гёльдера E|^2K[EKilr]1/r№n1/s и неравенство Минковского [Ek,+e2|r]1/r^[E|6lr]1/r + [Efe|r]1/r. Доказательство. Так как хТ при г > 1 есть в области х > 0 выпуклая вниз функция, равная единице в точке х = 1 и имеющая там производную г, то г(х - 1) ^ хТ - 1 при всех х > 0. Полагая х = (а/6)1/1* (а > 0, b > 0), получим аЧгЬ1-1/г_ь^±_Ь Г Г или, что то же, a ^rb 's ^ а/г + Ь/s. Если положить здесь а = |fi|r/E|fi|r, & = l&IVEI&l5 и взять математическое ожидание, то мы получим неравенство Гёльдера. Чтобы доказать неравенство Минковского, заметим, что в силу неравенства l£l + h\ ^ l£il + 161 выполняется E|*i + &Г ^ Elfcl |fr + йГ1 + E|fo| |fo + йГ1. Применяя здесь к слагаемым правой части неравенство Гёльдера, получим ЕК, +fel" < {[Е|С,Г]1/Г+ [Е|&Г]1/Г} [Е|*, +fo|<-1>'],/'. Так как (г — 1)5 = г, 1 - 1/5 = 1/г, то отсюда следует неравенство Минковского. ■ Очевидно, что при г = s = 2 неравенство Гёльдера превращается в неравенство Коши—Буняковского. Теорема 5 (неравенство Иенсена). Если Е£ существует и д(х) — выпуклая вниз функция, то д(Е£) ^ Е#(£).
§ 7. Неравенства 81 Доказательство. Если д(х) выпуклая вниз, то для каждого у найдется число д1(у) такое, что 9(х)^д(у) + (х-у)д1(у). Положив здесь х = f, у = Е£ и взяв математическое ожидание обеих частей этого неравенства, получим Часто бывает полезным также Следствие 2. При любых О < v < и [ЕКГ]1ЛЧ[ЕКГ]1/и. (12) Это неравенство показывает, в частности, что если существует момент порядка и, то существует и момент любого порядка v < и. Неравенство (12) получается из неравенства Гёльдера, если положить в нем fi — 1£Г> & = 1» г — u/v> или из неравенства Иенсена при д(х) = \x\u^v и замене f на Г. Теорема 6. Пусть ^Ос вероятностью 1. Тогда для любого е > О Р(^^-. (13) е Доказательство. Неравенство доказывают следующие соотношения: Е£ > Е(£;£ > е) > еЕ(1;£ > е) = еР(£ > е). Если функция д(х) ^ 0 монотонно возрастает, то, очевидно, {£: д(£) ^ д(е)} = {£: f ^ £У и, применяя теорему 6 к случайной величине г) = д(£), получим Следствие 3. Если д(х) |, д(х) ^ 0, то В частности, при д(х) = еХх Р(£^е)^е~ХеЕеХ(, А > 0. Следствие 4 (неравенство Чебышева). Для произвольной случайной величины f, имеющей математическое ожидание, справедливо неравенство Р(К - Е*| > е) ^ Ц. (14) Для доказательства (14) достаточно применить теорему 5 к случайной величине 7] = (£ - Е£)2 ^ 0. ■ Утверждение теоремы 6 также часто называют неравенством Чебышева (или неравенством типа Чебышева), поскольку оно является по технике доказательства несущественным обобщением (14). С помощью неравенства Чебышева мы имеем возможность оценивать вероятности различных уклонений f, зная лишь Е£ и Df. В качестве одного из первых применений этого неравенства можно получить так называемый закон больших чисел в форме Чебышева (в более общей форме закон больших чисел будет получен в главе 8).
82 Глава 4. Числовые характеристики случайных величин Теорема 7. Пусть f i,f2> • • • — независимые одинаково распределенные случайные величины с математическим ожиданием Ef; = а и конечной дисперсией о , Sn = ^2 £j. Тогда для любого е > О ( s„ п - а \ >е ) а2 О Я/7И П —> 00. Обсуждение этого утверждения будет проведено в главах 5, 6, 8. Доказательство теоремы вытекает из неравенства Чебышева, так как „5„ Е— = о, п 5„ па2 а2 D—= ^- = — Приведем пример использования неравенства Чебышева в вычислениях. Пример 18. Предположим, что мы решили измерить диаметр лунного диска, используя фотографии луны, полученные с помощью телескопа. Вследствие атмосферных помех замеры фотографий, сделанных в разное время, дадут разные результаты. Пусть £ — а означает отклонение замера от истинного значения, равного в некотором масштабе а. И пусть Е£ = а, а = y/D£ = 1. Проведем подряд п независимых друг от друга замеров и обозначим Cn = £(f l + • • • + fn)- Тогда, как мы видели, ЕСп = «, D£n = a2/n. Так как дисперсия среднего арифметического всех наблюдений уменьшается с ростом числа наблюдений, то величину а естественно оценивать с помощью £п- Сколько надо сделать наблюдений, чтобы |£п - а\ ^ 0,1 с вероятностью, большей 0,99? То есть чтобы выполнялось Р(|Сп - а| ^ 0,1) > 0,99 или Р(|Сп ~ а1 > 0,1) ^ 0,01. По неравенству Чебышева Р(|С„ - а\ > 0,1) ^ а2/(п • 0,01). Значит, если п выбрать таким, чтобы a /(n-0,01) ^ 0,01, то требуемое неравенство будет выполнено. Отсюда получаем п ^ 10 . Приведенный пример иллюстрирует возможность использования неравенства Чебышева для оценок вероятностей тех или иных уклонений случайных величин. Но этот пример, пожалуй, еще больше иллюстрирует, насколько грубым с точки зрения практических подсчетов является неравенство Чебышева. Если читатель вернется к примеру 18 после знакомства в главе 8 с центральной предельной теоремой, то он может легко подсчитать, что на самом деле для получения заданной погрешности достаточно провести не 10 , а около 670 наблюдений. § 8. Обобщение понятия условного математического ожидания В заключение этой главы введем понятие, которое, наряду с уже введенными, является полезным и важным инструментом в теории вероятностей. Чтобы дать возможность читателю при первом чтении книги этот раздел опустить, мы в дальнейшем будем избегать прямого использования проводимых здесь рассмотрений вплоть до глав 12, 14.
§ 8. Условное математическое ожидание 83 1. Определение условного математического ожидания (у.м.о). В §2 введено понятие у. м.о. относительно произвольного события В, Р(В) > О, которое определяется равенством Е{^в)=Щ^' (15) где Е(£;2?) = f £dP — Е£/в, 1в — 1в{и>) есть случайная величина, равная индика- в тору множества В. Мы уже видели и будем убеждаться не раз в дальнейшем, что это очень полезное понятие. Однако определение (15), с помощью которого это понятие было введено, обладает тем недостатком, что оно теряет смысл в случае Р(В) — 0. Как преодолеть этот недостаток? Тот факт, что условие Р(В) > 0 не должно играть существенной роли, можно проиллюстрировать следующими соображениями. Допустим, что £ и rj независимы, В = {rj = х} и Р(В) > 0. Тогда для любой измеримой функции (р(х,у), согласно (15), ЕМ(,Ч)|Ч = х] = p{v = x) = р(ч = х) = EVfox). (16) Последнее равенство справедливо, так как случайные величины у?(£, х) и I{v=x} как функции соответственно от £ и rj независимы и, следовательно, Еу>(& *)*{*=*> = Еу>(&*)Р0? = х)- Соотношения (16) показывают, что понятие у.м.о. может сохранять свой смысл и в случае, когда вероятность условия равна 0 — ведь само по себе равенство Е[^,1?)|»1 = ж] = Е^,а|) для независимых £ и rj представляется естественным и с предположением P(rj = х) > 0 никак не связано. Пусть St есть а-подалгебра #. Определим теперь понятие у.м.о. случайной величины £ относительно St, которое будем обозначать через E(£|St). Определение дадим сначала для «дискретного» случая, но так, чтобы оно легко обобщалось. Напомним, что дискретным называется случай, когда а-алгебра St образована (порождена) не более чем счетной последовательностью непересекающихся событий j4i,j42,...; \JAj = П, P(Aj) > 0. Этот факт мы записываем в виде St = ct(j4i,j42,...), он означает, что элементами St являются всевозможные объединения множеств А\, Аг,... . Пусть Z/2 есть совокупность всех случайных величин (всех функций £(<*>), определенных на (0,5,Р)), для которых Е£2 < со. В линейном пространстве Li можно ввести скалярное произведение (£,7?) = Е£г) (это делает пространство Lj гильбертовым). Рассмотрим теперь линейное подпространство Н<& всех функций вида £(о>) = YlcklAk(v)> где IaAw) ~ индикаторы множеств Ak. Ясно, что Н^ есть пространство к всех функций, измеримых относительно St, и его можно представлять себе как пространство, натянутое на ортогональный базис {1дк(ш)} в Li* Обратимся к определению у. м.о. Мы знаем, что обычное математическое ожидание а = Е£ для £ Е Li можно определить как единственное значение а, при котором достигается минимум функции (р(а) = Е(£ — а). Рассмотрим теперь задачу
84 Глава 4. Числовые характеристики случайных величин о минимизации функционала (р(а) = Е(£ - а(и)) , ( Е ^2, по всем 21-измеримым функциям а(ш) из Я<д. Определение 8. Пусть ( Е ^2- 21-измеримая случайная величина а(и), для которой достигается min (р(а), называется у.м.о. относительно 21 и обозначается через Е(£|21). аен<% Рис. 5. Таким образом, в отличие от обычных математических ожиданий, у. м. о. E(f 121) есть случайная величина. Рассмотрим ее подробнее. Ясно, что минимум (р(а) достигается, если в качестве а(ш) взять в Li проекцию f элемента f на Я«д, т.е. элемент f G Я«д, Для которого f - f _L Я<д (см. рис. 5). В этом случае для любого a G Н<% <р{а) = Е(£ - f + I- а)2 = Е(£ - Q2 + E(f - a)2, ¥>(<*) ^ <?(£), (р(а) = <р(£), если только а = f п. в. Итак, в 1/2 операция у.м.о. есть обычный ортопроектор на Я«д (f = E(f|2l) есть проекция f на Я<д). Так как для дискретной а-алгебры 21 f как элемент Я«д имеет вид £ = ]Г cfc/^, то условия ортогональности f-f J_ Я<д (или, что то же, Е(^-|)/д4 = 0) однозначно определяют коэффициенты ск : E(tIAk) = ckP(Ak), ck EitlAt) так что Е(*|Я)=Т Р(40 Щ\Ак), Таким образом, случайная величина Е(£|21) постоянна на Ак и равна на этих множествах усреднению £ по Ак. Если f и 21 независимы (т.е. P(f G В\Ак) = P(f G Я)Р(^)), то, очевидно, Е(£;Л*) = EfP(4fc) и f = Ef. Если же 21 = £, то 5 тоже «дискретна», £ постоянна на множествах Ак и, значит, f = f. Отметим теперь следующие основные свойства у.м.о., которые позволят нам освободиться от двух частных предположений (f G Li и дискретность 21), которые мы ввели вначале, чтобы лучше понять смысл у. м.о.: 1) f измерима относительно 21; 2) для любого события A G 21 Первое свойство очевидно. Второе следует из того, что любое событие A G 21 представимо в виде ^4 = U Ад и> стало быть, E(f; л) = Y, Е(£ ^) = £ <fcPU>j = Е Е(£; ^.) = Е(£; ^)-
§ 8. Условное математическое ожидание 85 Это свойство довольно ясно: усреднение по множеству А величины £ дает тот же результат, что усреднение уже усредненной по Ajk величины f. Лемма 1. Свойства 1), 2) однозначно определяют у.м. о. и эквивалентны определению 8. Доказательство. В одну сторону утверждение леммы уже доказано. Пусть теперь выполнены условия 1), 2). Измеримость £ относительно 51 означает, что £ постоянна на множествах Ak. Обозначим значение £ на Ak через с&. Так как Ak Е 51, то из свойства 2 следует, что E(l,Ak) = ckP(Ak) = E(Z;Ak) и, следовательно, при и Е Ак ? E(g;4Q Теперь можно дать общее определение у. м. о. Определение 9. Пусть £ есть случайная величина на вероятностном пространстве (П,^, Р) и 51 С $ есть сг-подалгебра #. Условным математическим ожиданием £ относительно 51 называется случайная величина £, обозначаемая через Е(£|51), которая обладает следующими свойствами: 1) £ измерима относительно 51; 2) для всякого А Е 51 справедливо Е(£,А) = Е(£; ^4). В этом определении случайная величина £ может быть как скалярной, так и векторной. Сразу возникают вопросы: существует ли такая величина £ и единственна ли она? В «дискретном» случае мы видели, что ответ на эти вопросы положителен. В общем случае справедлива Теорема 8. Если Е|£| конечно, то функция £ = Е(£|51) в определении 9 всегда существует и единственна с точностью до значений на множестве вероятности 0. Доказательство. Предположим сначала, что £ скалярна, £ ^ 0. Тогда функция множества Q(A) = JtdP=E(t;A), Ae% А будет мерой на (Г2,51), которая абсолютно непрерывна относительно Р, поскольку Р(А) = О влечет за собой Q(A) = 0. Следовательно, по теореме Радона—Никодима (см. Приложение 3) существует 51-измеримая функция £ = Е(£|51), единственная с точностью до значений на множеству меры нуль, такая, что Q(A) = JUP=E(lA), А В общем случае положим £ = £+-£~, £+ = max(0,£) ^ 0, £~ = max(0, —£) ^ О, £ = £+ - £~, где £* — у.м.о. для £*. Этим доказано существование у.м.о., так как £ будет удовлетворять условиям 1), 2) определения 9. Отсюда же следует и единственность, так как предположение о неединственности £ будет означать
86 Глава 4. Числовые характеристики случайных величин неединственность £ или £ . Доказательство для векторных £ сводится к одномерному случаю, так как свойствами 1), 2) будут обладать координаты £, существование и единственность которых нами доказана. ■ Существо проведенного доказательства достаточно прозрачно: ведь по условию 2) для всякого A Е 51 задано Е(£; А) = J £ dP, т. е. заданы значения интегралов А от £ по всем множествам A Е 51. Ясно, что это должно определять 51-измеримую функцию £ однозначно с точностью до значений на множестве меры нуль. Смысл Е(£ |51) остается прежним — грубо говоря, это есть усреднение £ по «неделимым» элементам 51. ^ Если 51 = #, то, очевидно, £ = £ удовлетворяют свойствам 1), 2) и, стало быть, ЕШ=£- Определение 10. Пусть £ и rj — случайные величины на (0,5, Р), 51 = а(г)) есть а-алгебра, порожденная случайной величиной rj. Тогда Е(£ |51) называется также условным математическим ожиданием величины £ относительно rj. Иногда для упрощения записи мы будем вместо Е(£ \ а(г))) писать E(£\rj). Это не приводит к недоразумениям. Так как E(£\rj) по определению есть a(rj)-измеримая случайная величина, то это означает (см. §5 главы 3), что существует измеримая функция д(х), для которой E(£\rj) = g(rj). По аналогии с дискретным случаем можно истолковывать здесь величину д(х) как результат усреднения £ по множеству {rj = х}. (Напомним, что в дискретном случае д(х) — Е(£ \ rj = х).) Определение 11. Если £ = 1С есть индикатор множества С Е #, то Е(/с|51) будет называться условной вероятностью Р(С|51) события С относительно 51. Если 21 = cr(rj), то мы будем говорить об условной вероятности Р(С 177) события С относительно rj. 2. Свойства у.м. о. 1. У.м.о. обладает свойствами обычных математических ожиданий с той лишь разницей, что они выполняются почти наверное (с вероятностью 1): a) E(a + b£|5t) = a + bE(£|5l); б)Е(й+й120 = Е(£1|а) + Е(&|а); в) Если £i ^ £2 п. н., то Е(£{ | 51) ^ Е(£2 151) п. н. Чтобы доказать, например, свойство а), надо убедиться согласно определению 9, что: 1) а + ЬЕ(£ |51) есть 51-измеримая функция; 2) Е(а + Ь£;А) = Е(а + ЪЕ(£ \%);А) для любого A Е 51. Выполнение 1) очевидно; выполнение 2) вытекает из свойств линейности обычного математического ожидания (или обычного интеграла). Свойство б) доказывается точно так же. Чтобы доказать свойство в), положим для краткости £{ = Е(& |51). Тогда для любого А Е 51 J£X dP = Е(£иА) = E(tuA) ^ E(£2',A) = J£2dP, A A f(h-£\)dP>0.
§ 8. Условное математическое ожидание 87 Отсюда вытекает, что £2 - £i ^ О п. н. 2. Неравенство Чебышева. Если f ^ 0, х > 0, то Р(£ ^ ж |5l) ^ E(f |51)/ж. Это свойство вытекает из в), так как Р(£ ^ ж|51) = Е(/{^ж} |51), где /^ — индикатор события А, и справедливо неравенство 1{^х} ^ £/#• 3. Если 51 и а(£) независимы, то Е(£ |51) = Е£. Так как f = Ef является 51-измеримой функцией, то остается проверить лишь второе условие определения 9: для любого A G 51 E(£ii)=E(fcA). Справедливость этого равенства вытекает из независимости случайных величин 1а и f и соотношений Е(£;^4) = Е(£/д) = EfE/д = Е(£;Л). Отсюда следует, в частности, что если £ и г) независимы, то Е(£\г)) — Е£. Если <7-алгебра 51 тривиальна, то, очевидно, также Е(£|51) = Е£. 4. Ду?л у. л/, о. верны теоремы сходимости, справедливые для обычных математических ожиданий, например Теорема о монотонной сходимости (см. Приложение 3). Если О ^ f„ T f п.н., то Е(&|Я)ТЕ({|Я)п.н. Действительно, из £п+1 ^ fn п.н. следует fn+i ^ £„ п.н., где £„ = E(f„|5l). Поэтому существует 51-измеримая f, такая, что fn T f п. н. В силу обычной теоремы о монотонной сходимости для любого A Е 51 У Тп<*Р - /*<*Р> /*»№ -> /^dP- Так как левые части этих соотношений совпадают, то совпадают и правые. Это и означает, что f = E(f 151). 5. Если rj скалярна и измерима относительно 51, Е|£| < оо, Е|^?у| < со, то Е(1*|Я) = ЧЕ(*|Я). (17) Другими словами, 51-измеримые случайные величины ведут себя относительно операции у. м.о. как постоянные (ср. со свойством 1, а)). Чтобы доказать (17), заметим, что если г) = 1в (индикатор множества В Е 51), то утверждение справедливо, так как при любом A Е 51 J Е{Ы\ЩйР = f IBidP = J idP = J E{i\^dP = f IBE{i\^)dP. A A AB AB A Отсюда и из линейности у. м. о. следует, что утверждение справедливо и для любых простых функций г]. Если f ^ 0, г] ^ 0, то, взяв последовательность простых функций 0 ^ rjn | rj и пользуясь теоремой о монотонной сходимости в равенстве ЕЫ|Я)=1ьЕ(С|Я), мы получим (17). Переход к случаю произвольных f и rj осуществляется обычным образом — путем рассмотрения положительных и отрицательных частей случайных величин f и 7]. При этом для того, чтобы полученные разности и суммы имели смысл, нужно требовать существования Е|£|, Е|^г/|.
88 Глава 4. Числовые характеристики случайных величин 6. Для у.м.о. остаются справедливыми все основные неравенства для обычных математических ожиданий, в частности, неравенство Кош и—Буняковского E(|fcfe||20<[E(tf|a)E(fe2|a)],/2 и неравенство Иенсена: если E|f | < со, то для любой выпуклой вниз функции 0(Е(£|Я))<Е(0(0|а). (18) Неравенство Коши—Буняковского доказывается точно так же, как для обычных математических ожиданий, поскольку доказательство не использует других свойств математических ожиданий, кроме линейности. Неравенство Иенсена вытекает из следующего соотношения. В силу выпуклости д(х) для каждого у найдется число д\(у) такое, что д(х) ^ д(у) + (х — у)д\{у). Положим здесь х = £, г/ = £ = Е(£ |21) и возьмем у.м.о. обеих частей этого неравенства. Так как в силу свойства 5 Е [U ~ t)9l(i) IЩ = 51 (ОЕ({ - fIЯ) = О, то получим (18). 7. Формула полной вероятности Е£ = ЕЕ(£|Я) вытекает непосредственно из свойства 2) определения 9 при А = П. 8. Последовательное усреднение (обобщение свойств 7): если 21 С 2li С #, то Е((|Я) = Е[Е(€|Я!)|Я]. Действительно, для любого А Е 21 в силу того, что А С 211, имеем J E[E(a*i)\*]dP = J Е(£\Щ)аР = J tdP = J E(t\K)dP. A AAA Очевидно, что свойства 1, 3-5, 7, 8 справедливы как для скалярных, так и для векторных случайных величин £. Следующее свойство у. м.о. мы выделим особо. 9. Для f Е L2 при а(и) = Е(£ 121) достигается минимум Е(£ - а(ш))2 среди всех ^[-измеримых функций а(и>). Действительно, Е(£ - а(ш))2 = ЕЕ((£ - а(ш))2 |21), но а(и) ведет себя как постоянная относительно операции Е(-121) (см. свойство 5), так что Е(« - а(Ш))2 |И) = Е(« - Е(£|21))2 |Я) + (Е(*|Я) - а(ш))2, и минимум этого выражения достигается при а(ш) = E(f |2t). Это свойство доказывает эквивалентность определений 8 и 9 в случае £ Е Li (в обоих определениях у. м. о. определяется однозначно с точностью до значений на множестве меры нуль). В связи с этим свойством отметим еще раз, что в L2 операция у.м.о. есть операция проектирования на Н% (см. пояснения к определению 8). Свойство 9 можно перенести на многомерный случай в следующей форме: при а(и) = Е(£ |21) достигается min(f — a(o;))V(f — а(ш))Т для любой неотрицательно определенной матрицы V, где min берется по всем ^.-измеримым функциям а(и). В заключение отметим, что свойство 5 при широких предположениях допускает следующее обобщение.
§ 9. Условные распределения 89 5А. Если 7] измерима относительно Я, gi^^rj) есть измеримая функция переменных ш eft и Т) еШк, то Е(д(ш,<п)\Ъ) =Е(д(ш,у)\Ъ)\у=т]. (19) Отсюда следует формула (последовательного усреднения или полной вероятности) Eg(u>,V) = E[E(g(u,,y)\X)\,=4], которую можно рассматривать как обобщение теоремы Фубини (см. §6 и §3.6). Действительно, если д(и>,у) не зависит от 21, то ЕЫ«,у)|Я) =Ед(ш,у), Е(д(и,,г,)\Я)=Ед(и>,у)\,=„ Eg(w,v) = Е [Ед(и>,у)\у = rj\. По форме это и есть теорема Фубини, но г) здесь векторная случайная величина, а и может иметь произвольную природу. Мы докажем свойство 5А в упрощающем предположении, что существует последовательность простых функций г)п такая, что g{w,r}n) T ^(^,^), h(w,rjn) T h(u>,rj) п.н., где h(u,y) = Е(д(ш,у) |Я). Действительно, пусть rjn — ук при ш G Ак С Я. Тогда 9(w,Vn) = ^д(и>,ук)1Лк. В силу свойства 5 отсюда следует выполнение (19) для функций rjn. Остается воспользоваться теоремой о монотонной сходимости (свойство 4) в равенстве § 9. Условные распределения Наряду с у. м.о. можно рассматривать условные распределения относительно а-подалгебр и относительно случайных величин. В этом парафафе мы остановимся лишь на последних. Пусть f и г] — две случайные величины на (П,^, Р) со значениями соответственно в Rs, и Rk и ЯЗ5 — а-алгебра борелевских множеств из Ш?. Определение 12. Функция Р(В\у) двух переменных у G Rk, В G ЯЗ5 называется условным распределением £ при условии rj = у, если: 1. При каждом В P(B\rj) есть условная вероятность P(f G B\rj) события {£ G В} относительно 7/, т. е. Р(В \ у) есть борелевская функция от у такая, что для любого A G 93* E(P(B|iy);iy G А) = f P{B \y)P{7) G dy) = P(£ G Б, ту G А). 2. При каждом у Р(2?|у) есть распределение вероятностей по В. Функцию Р(В | у) будем иногда записывать в более «расшифрованной форме» в виде Р(В \у) = Р(£еВ\г) = у). Мы знаем, что для каждого В G 935 существует борелевская функция дв(у) такая, что gsiv) — P(f € #|?/). Таким образом, положив Р(2?|у) = дв{у), мы удовлетворим условию 1 определения 1. Однако условие 2 при этом из свойств у. м. о. никак не следует и выполняться совсем не обязано — ведь условная вероятность
90 Глава 4. Числовые характеристики случайных величин Р(£ Е B\rj) определена при каждом В с точностью до значений на множестве NB меры нуль (так что существует много вариантов у. м.о.), и это множество может быть своим для каждого В. Поэтому если объединение N = |J Nb имеет не веъ* нулевую вероятность, то может оказаться, что, например, равенства Р(£ G ВХ U В2 \rj) = Р(£ G В{ |Ч) + Р(£ G B2 \rj) (аддитивность вероятности) сразу для всех непересекающихся В\, В2 из ЯЗ5 не выполняются ни для одного ш из N, т.е. на ^-множестве N положительной вероятности функция дв(у) не будет распределением как функция В. Однако в случае, когда f есть случайная величина со значениями в Rs с а- алгеброй борелевских множеств ЯЗ5, geiv) — P(f £ B\v) всегда можно выбрать таким образом, что дв(у) будет условным распределением2'. Как и следовало ожидать, условные распределения обладают тем естественным свойством, что у.м.о. выражаются в виде интегралов по условным распределениям. Теорема 9. Для любой измеримой функции д(х), отображающей Rs в R, такой, что Е\д(£)\ < со, справедливо равенство E(ff(0l4) = / 9(x)P(dx\ v). (20) Доказательство. Достаточно рассмотреть случай, когда д(х) ^ 0. Если д(х) = 7д(ж) есть индикатор множества А, то формула (20), очевидно, верна. Стало быть, она верна для любой простой функции дп(х) (т.е. для функции, принимающей конечное число значений). Остается взять последовательность дп | д и воспользоваться монотонностью обеих частей в (20) и свойством 4 из § 8. ■ В реальных задачах для подсчета условных распределений часто можно пользоваться следующим простым правилом, которое для наглядности мы запишем в форме Очевидно, что формально оба условия определения 12 будут удовлетворены. Если f и rj имеют плотность распределения, то этому равенству будет придан точный смысл. Определение 13. Пусть условное распределение Р(В | у) при каждом у абсолютно непрерывно относительно некоторой меры fi в Rs : >(teB\ri = y) = Jf(z\y)ii(dx). Тогда плотность f(x\y) называется условной плотностью £ (относительно меры fi) при условии 7] = у. Другими словами, измеримая по паре переменных ж, у функция f(x\y) есть условная плотность f при условии г] = у, если: Подробнее об этом см. в [7, 16, 22].
§ 9. Условные распределения 91 1) для любых борелевских множеств А С R*, В С К* У У /(*1У)М*«0Р(Ч € dy) - Р({ € В, v € А); (22) уеАхев 2) при каждом у функция f(x\y) есть плотность распределения вероятностей. Из теоремы 9 вытекает, что если существует условная плотность, то E(g(0\V) = J g(x)f(x\V)n(dx). Если предположить дополнительно, что распределение rj имеет плотность q(y) относительно некоторой меры Л в Rk, то (22) можно записать в виде У У f(x\y)q(y)fi(dx)X(dy) = P(teB,VE A). (23) уеАхев Рассмотрим теперь прямое произведение пространств IR5 и Шк и на нем прямое произведение мер \i х А (если С — В х А, В С IR5, А € R , то fi x Л(С) = fi(B)X(A)). В этом пространстве соотношение (23) означает, очевидно, что совместное распределение £ и rj в IR5 x Rk имеет плотность относительно р, x А, равную /(я, у) = f(*\y)q(y). Справедливо и обратное утверждение. Теорема 10. Если совместное распределение £ и rj в №? х Шк имеет плотность f(x,y) относительно р x А, то функция /(а?» У) я(у) есть условная плотность f при условии rj = у, а функция q(y) есть плотность т/ относительно меры А. Доказательство. Утверждение теоремы относительно q(y) очевидно, так как Jq(y)X(dy) = P(rj G А). Остается заметить, что f(x\y) = f(x,y)/q(y) удовлетворяет A всем условиям в определении 13 условной плотности (равенство (23), эквивалентное (22), выполнено очевидным образом). ■ Теорема уточняет соотношение (21) в случае наличия плотностей у распределений f и г). Пример 19. Пусть f i, & независимы, £\ €= ПЛ,, & €= Пд2. Чему равно условное распределение £\ при условии, что £\ + & — п<}- Мы могли бы без труда подсчитать искомую условную вероятность Р(£\ = к \£\ + & — п)> к ^ п, без использования теоремы 10, поскольку f i -Ь & €= Пл,+л2 и вероятность события {£ 1 + £2 = пУ положительна. Оставив этот путь для сопоставлений, воспользуемся все же теоремой 10. Здесь £\ и rj = £\ -f f2 имеют плотности (равные вероятностям) относительно считающих мер, так что /0Ф) = ^р где q(y) = J f(x,y)»(dx), \k\n~k f(k,n) = Р(£, = к, г, = п) = Р(£, = *, fo = п - к) = е-*'"*2—1-2— fc!(n-fc)!'
92 Глава 4. Числовые характеристики случайных величин q(n) = P(r1 = n)=e . п! Поэтому искомая условная плотность (вероятность) равна /(fc|n) = P(C,=*|i? = n) = /(fc.n) n! Г,Р*(1-Р) П-k q(n) Щп-к)Г где р = Ai/(Ai +Л2). Таким образом, условное распределение £i при фиксированной сумме fi + ^2 = п есть биномиальное распределение. В частности, если £i,...,fr независимы, £у ^ ГЦ, то распределение f i при фиксированной сумме f i + ... +fr = п будет равно Bwr и от А зависеть не будет. Ответ на тот же вопрос, что и в примере 19, для нормально распределенных случайных величин можно получить, используя следующий Пример 20. Пусть Фа(72 есть двумерное нормальное распределение величин fi и £2, где а = (аьа2), а{ = Е&, а2 = ||сгу||, a{j = Е(& - «,)(£/ - а,-), ij = 1,2. Определитель матрицы вторых моментов равен 9 9 9 k I = 0"Ц022 - 0*12 = 0"110"22О - Р )> где р есть коэффициент корреляции между fi и &• Таким образом, если \р\ф\, то матрица вторых моментов не вырождена и для нее существует обратная матрица (-2)-1 1 022 -0*12 -(712 ^11 1-Р2 1 \/^11^22 1 л/сг11сг12 0"22 Следовательно, совместная плотность f i и £2 (относительно меры Лебега) равна (см. §3.3) f(x,y) = 1 27гап<Т22л/1 ~~ Р2 Г 1 2(TV) х ехр < - (х - ах)2 2р(х - «0(7/ - а2) (у - а2) 0*11 л/сгПсг22 Одномерные плотности f i и £2 соответственно равны /(*) 1 -(x-ai)2/(2au) q(y) = 1 \/27Г0"ц \/27Г0"22 Поэтому условная плотность f i при условии & = У равна /(^, 2/) (722 -(у-а2)2/(2<т22) /Ыу) = яЫ 1 : ехр - 1 Ж — OL\ Р\ (У ~а2) V а22 (24) (25) л это есть плотность нормального распределения со средним а\ + Р\/&\\/сг22 (у ~~ а2) и дисперсией сгц(1 — р ).
§ 9. Условные распределения 93 Отсюда следует, что f(x\y) при р = О совпадает с безусловной плотностью f(x) (и, значит, £i и £2 независимы) и что у. м.о. £\ относительно & равно E(£il &) = «!+Pi Прямую х = а\ + p\J(J\\/&22 (у - al) называют линией регрессии £\ на £2- Она дает наилучшие среднеквадратические приближения величины £\ при данной & — У- Пример 21. Рассмотрим задачу о вычислении плотности случайной величины £ — ^(С)7?)» гДе С и V независимы. Из формулы (22) при А = Rk вытекает, что плотность f(x) распределения £ выражается через условную плотность f(x\y) равенством f(x) = Jf(z\y)P(riedy). Применительно к рассматриваемой задаче под f(x\y) надо понимать плотность случайной величины <р((,у), поскольку P(f Е В \rj = г/) = Р(у>(С>2/) € В). Пример 22. Стрельба по цели с коррекцией. Производится стрельба из орудия по цели с известной геометрической конфигурацией. Введем систему полярных координат, в начале которых располагается орудие. Расстояние г (рис. 6) от орудия до некоторой точки, которую считают центром цели, известно расчету орудия точно; азимут неизвестен, но имеется корректировщик, который после первого пробного выстрела сообщает расчету, каково отклонение по азимуту от точки попадания до центра цели. Предположим, что рассеивание р снарядов при стрельбе (т. е. отклонение / ^\ Центр цели (£>V) точки попадания от точки прице- / ^^ \ ливания) описывается двумерным нор- /~ *J^^ \ о мальным распределением с плотностью /S^^ 1 прицеливания f(x,y), определенной в (24) при а = 0. —f^—- л :* г» * л о с и Л »Точка попадания В §4 главы 8 мы сможем объяснить, первого выстрела почему отклонение (£,?/) нормально. Мы пренебрегаем здесь тем обстоя- Рис- 6- тельством, что отклонение rj по азимуту не может превосходить 7Г, а отклонение f по удаленности не может быть больше г. (Обычно стандартные уклонения а\ и (Т2 очень малы по сравнению соответственно с г и 7Г, и отмеченное обстоятельство не имеет значения.) Если бы вместе с удалением г был бы точно известен и азимут (3 центра цели, то тогда вероятность попадания в цель была бы равна // f(x,y)dxdy, где B{r,fi) = {(ж,у): (г + х,р + у) Е В}, множество В есть цель. Но расчету орудия азимут сообщается корректировщиком по результату пробного выстрела (точку попадания он отождествляет с точкой прицеливания), т.е. сообщается с погрешностью <5, распределенной по нормальному закону с плотностью q(y) (см. (25)). Какова вероятность в этих условиях события А, что вторым выстрелом
94 Глава 4. Числовые характеристики случайных величин орудие поразит цель? Если б = z, то азимут сообщается с погрешностью z и P(A\6 = z) = 11 f(x,y-z)dxdy = (p(z). B(r,p) Следовательно, оо Р(А) = Е[Р(А\6)] = Еф) = -±= f e-z2'2°2>p(z)dz. — 00 Пример 23. Отрезок [0,1] «наудачу» разламывается (т.е. с равномерным распределением точки излома) на две части. Затем большая часть снова «наудачу» делится на две части. Какова вероятность, что из полученных отрезков можно составить треугольник? Эту задачу можно решать, конечно, и прямым «геометрическим» способом. Надо построить вероятностное пространство (П,^, Р), где в качестве П выбрать квадрат (как множество значений ш\, и^, равных расстоянию соответственно точек первого и второго деления от начала координат). Вероятность здесь определяется соотношением Р(А) = J J f(x,y)dxdy, где А /(я, у) 1 1 О, если х < -, у < х или х ^ -, у ^ ж, 1 1 , если х < -, у ^ ж, 1-х 2 1 1 —, если х ^ - у < х. х 2 Остается вычислить интеграл от этой функции по множеству В = В\ U В2, гДе Б1 = |я<^;2(2/-я)<1, 2г/> li, B2 = lx> -;2(х-у)< 1, 2г/< l|, так как треугольник можно построить в том и только в том случае, если {и\,ш2) Е В = В\ UB2. Использование формулы P(B) = E[E(I(B)|W1)]=EP(B|W1) дает несколько иной путь решения задачи. Здесь для сокращения записи использована буква В также для обозначения события {(ш\,и>2) £ В}. Так как ш\ распределено равномерно на [0,1], то надо вычислить лишь Р(В\и>\). Если ш\ < 1/2, то U2 распределено равномерно на [o>i, 1]. Треугольник можно построить, если 1/2 < u>2 < l/2-\-iv\. Следовательно, Р(В\и>\) = o>i(l — o;i). Из соображений симметрии легко находим, что при ш\ > 1/2 P(B|Wl) = i^.
§ 9. Условные распределения 95 Следовательно, 1/2 1/2 /х Г dx dx = -l+2 / = -1+21п2. 1 - х J 1 - х о о Все приведенные выше примеры относились к у. м. о. относительно случайных величин (а не а-подалгебр). Потребность в у. м.о. относительно а-алгебр возникает там, где с помощью у. м.о. относительно случайных величин обойтись уже трудно. Пусть, например, некоторый процесс описывается последовательностью случайных величин {tj}JL-oo9 которые не являются независимыми. Тогда описывать распределение £i, когда фиксирована вся «предыстория» (т.е. значения fo>£-b£-2>---)» удобнее всего с помощью условного распределения fi относительно <т(£о,£-ь«--)- Офаничиться условными распределениями относительно случайных величин здесь уже трудно. Соответствующие примеры содержатся в главах 12, 14—21.
Глава 5 Последовательность независимых испытаний с двумя исходами § 1. Законы больших чисел Пусть имеется последовательность испытаний, в каждом из которых некоторое событие А появляется с вероятностью р независимо от исходов других испытаний. Образуем последовательность случайных величин следующим образом. Положим £к = 1, если событие А в к-м испытании произошло, и & = 0 в противном случае. Тогда {ffc}^ будет последовательностью независимых случайных величин, одинаково распределенных по закону Бернулли: Р(£к = 1) = р, Р(& = 0) = q = 1-р, Effc = p, D& = pq. Сумма Sn = £\ + ... + £n ^ BJJ есть не что иное, как число появлений события А в п первых испытаний. Очевидно, E5n = np, D5n = npq. Следующее утверждение носит название закона больших чисел для схемы Бернулли. Теорема 1. Для любого е > 0 (1Н>-) 0 при п —> со. Это утверждение есть частный случай теоремы 4.7. Можно получить и более сильный результат. Теорема 2 (усиленный закон больших чисел для схемы Бернулли). Для любого е > 0 при п —> со \Sk Т~р > е 0. Смысл этого факта состоит в том, что введенное нами в гл. 1,2 определение вероятности соответствует интуитивному пониманию вероятности как предела частоты появления события. Ведь Sn/n можно рассматривать как частоту появления события А, для которого P(j4) = р. И оказалось, что в известном смысле Sn/n неограниченно сближается с р. Доказательство теоремы 2. Имеем sup Sk Т~Р > е т->п) ^ к=п > € ' fc=n E(5t - fcp)4 к4е4 " (1)
§2. Локальная предельная теорема 97 Здесь мы опять воспользовались неравенством Чебышева, но с четвертыми моментами. Раскрывая скобки, находим \ 4 E(Sk-kp)4 = E XX-Р) = J=i k ) = ЕEfc- - р)4 +6 Е Е(6 - р)2& - ?)2 = i=i *<j = %04 + ЯР*) + ЗЛ:(Л: - l)(pq)2 ^ k + k{k - I) = k2. (2) 00 Таким образом, оцениваемая вероятность не превосходит е~ Х^АГ —> 0 при к=п п —>• со. ■ Нетрудно видеть, что если бы мы в (1) воспользовались неравенством Чебышева со вторыми моментами, то требуемой оценки не получили бы. Можно отметить также, что на самом деле для вероятностей Р(|5* — кр\ > ек) верны и более сильные оценки, чем те, которыми мы пользовались. Они получены в §5. Следствие 1. Если f(x) — непрерывная функция на [0,1], то при п —► со равномерно по р Е/ ® №■ (3) Доказательство следует из того, что при любом е > О п ) № (Кт)-'« Sn п -V ) ^е + 5„ п > е ) ^ sup |/(р + х) - f(p)\ + o(l). / |х|<£ ■ Следствие 2. £сли /(ж) непрерывна на [0,1], то яри п —► оо ё/(;)(;)-'о-г*-л.) А:=0 равномерно по х Е [0,1]. Это соотношение есть просто другая запись (3), так как Р(5П = А:) = ( *• )рк(^ ~ Р)п~к (см- главУ 0- Из него следует известная теорема Вейерштрасса о приближении непрерывных функций полиномами. При этом нужные полиномы построены в явном виде — это полиномы Бернштейна. § 2. Локальная предельная теорема Мы знаем, что Р(5П = &)=(, 1 pkqn~k, q = I — р. Однако эта формула при больших пик становится весьма неудобной для вычислений, в связи с чем возникает вопрос об асимптотическом поведении вероятности P(Sn = к) при п —> со.
98 Глава 5. Последовательность независимых испытаний В дальнейшем символ ап ~ Ьп, где {ап} и {Ьп} — две числовые последовательности, будет означать, что ап/Ьп —> 1 при п —> со. При этом такие последовательности {ап} и {Ьп} будем называть эквивалентными. Обозначим Н(х) = ж In - + (1 - х) In ——, р* = -. (4) р 1 — р п Теорема 3. При к —» со, п - А; —► со Р(5„ . Ц . Р (| _/) ~ ^.^«Ч-*/»- (Ч Доказательство. Воспользуемся формулой Стирлинга, в силу которой n! ~ \/27гпппе~п при п —> со. Тогда ^ ««« чп-fc р^ - *> - (;) *- ~ ;2,t(;_ t) и. :;„./<■ -*>■ 1 с k tl к ~\ — — ехр< -A:In (п - A:) In Ь к\пр + (п - fc)ln(l - р) \ = л/27Г7гр*(1 — р*) L n n J = v/WO-^) exPbnb*ln^*+ (1" '*>ln(1" '*>" -pMnp-(l-p*)ln(l-p)]} = ) ==ехр{-пЯ(р*)}. J ^/2^71^(1-^*) H Если p* = к/п близко кр, то для правой части в (5) можно найти другую форму записи, представляющую значительный интерес. Заметим, что функция Н(х) является аналитической в интервале (0,1). Так как Я'* = In--In—-, H"(x) = - + ——, 6 р 1 — р х 1 — х то Н(р) = Н'(р) = О и при р* - р -> О О Я(р*) = ^ f - + -) (р* - Р)2 + 0(|р* - р\\ Поэтому если р* ~ р и п(р* — р) —> 0, то Р(5П = *) ~ J ехр(--^-(/-р)2|. y/2impq У 2pq ) Если положить А = \/>/npq, (р(х) = \/у/2же~х ^, то получим Следствие 3. ^сли z = п(р* — р) — к — пр = о(п / ), wo Р(5П = Л) = P(S„ - np = z) ~ y?(zA)A. (7) Эта формула позволит оценивать вероятности и событий вида {Sn < к}. Если р* существенно отличается от р, то оценка вероятностей указанных событий может быть произведена с помощью результатов § 1.3. !) В соответствии с общепринятыми обозначениями будем писать a(z) = o(b(z)) при z —> zq, если b(z) >0, lim j& =o, и a(z) = 0(6(z)) при z -> z0, если 6(z) > 0, limsup^ < oo.
§ 2. Локальная предельная теорема 99 Пример 1. В жюри, состоящем из нечетного числа п = 2га + 1 членов, каждый человек независимо от других принимает правильное решение с вероятностью р = 0,7. Каково минимальное число членов жюри, при котором решение, принимаемое большинством голосов, будет справедливым с вероятностью, не меньшей, чем 0,99? Положим в этой задаче & = 1, если k-й член жюри принял правильное решение, и £* = 0 в противном случае. Нас интересуют нечетные значения п, при которых Р(5„ ^ га) ^ 0,01. Несомненно, что высокая точность принятого решения может быть достигнута лишь при больших значениях п. В этом случае, как мы установили в § 1.3, вероятность Р(5„ ^ га) равна приближенно (п + 1 — т)р , р 5——г ;-P(Sn = m) « -^-P5n = га . (n+l)p -m 2p - 1 2p - 1 V 7гп Используя теорему 3 и тот факт, что в нашей задаче р* « -^, Я(2) = — 2 1п4р(1 —р), H'(j) = ln-jj2, получим Р(5„ * я») « ^^ ехр {-пН (I - ±) } « ехр{-пя(1)+1я'(1)}« Справа здесь стоит монотонно убывающая функция а(п). Решая уравнение а(п) = 0,01, в качестве ответа получим п = 33. Такой же результат будет, если мы воспользуемся точными формулами. Нетрудно оценить погрешность, возникающую в формуле (5). Если в формуле Стирлинга п\ — у/2тгпппе~п+9(п' воспользоваться известными неравенствами2) l/(12n-f 1) < $(п) < 1/12п, то с помощью прежних рассуждений получим следующее уточнение теоремы 3. Теорема 4. Р(5П = к)= \ ехр{-пЯ(/) + 6(к,п)}, (8) y/2irnp*(l — р*) где |*<М)1 = \0(п) - ,(*),(» - *)| < ± + ^-L^ = ПпГ1_рГ (9) Соотношение (7) можно уточнить следующим образом. Теорема 5. При всех к таких, что \р* -р\ ^ ^ min(p, q), имеет место равенство P(5n = k) = (p(zA)A(l + e(k,n)), где 1 +ф,п) = ехр{б^^^- + (|z| + 1Л аА }, |0| < 1. Как это нетрудно усмотреть из свойств разложения в ряд функции ех, порядок малости е(к,п) в приведенных формулах совпадает с порядком малости показателя 2)См., например, [22, т. 1, с. 66].
100 Глава 5. Последовательность независимых испытаний экспоненты. Из теоремы 5 следует поэтому, что при z — к - пр = о(А / ) или, что то же, при z = о(п2^) справедливо (7). Доказательство. Воспользуемся утверждением теоремы 4. В дополнение к формулам (6) можем записать #«(*) (-!)*(*-2)! (А;-2)! хк-\ (1-ж)*-р к ^2, 1 Я(р*) = ^-(рф-р)2 + Ль 2pq где остаток R\ = ^2 —ь\(Р* ~ Р) мы °Ценим- Учитывая, что fc=3 |H«(P)K(fc-2)!(^lr + ^T), *>2, и обозначая для краткости |р* - р| = б, получим при б ^ \ min(p, g) «■«Ё^^ *=3 Отсюда следует, что 1 g*-l ^ 1 1 1 1 р2 1 - б/р q2 1 — £/<7, <J 2 2 < -nHlp*) = {к ~ ПР)2 + ^l|fc~ny|3 2npg 3(npg)2 z2A2 (9!|z|3A4 P2 ?2J 3(pg)2' , l*il<l. (10) Обратимся теперь к остальным множителям в равенстве (8) и рассмотрим произведение р*(\ - р*). Так как -р ^ 1 - р - р* ^ 1 - р, то |р*(1-р*)-р(1 -р)| = I(P*-P)(1-P-P*)I ^ I/-P|max(p,g). Отсюда следует, в частности, что при \р* — р\ < l/2min(p, q) выполняется |/(1 - р*) - pq\ < -pq, p*(\ - р*) > -pq. Поэтому наряду с (9) можно написать, что при значениях А:, указанных в теореме 4, \0(к,п)\< 1 А' 6npq 6 Осталось рассмотреть множитель [р*(\ — Р*)]"1 . Так как при I7I < 1/2 1+7 00 |1п(1+7)1 = /J dx < 2|7|, то при б = \р* — р\ < l/2min(p, q) будут справедливы соотношения
§ 2. Локальная предельная теорема 101 1пр (1 - р ) = \npq + In 1 Н = V РЯ ) = Inpq + In ( 1 ) , |0*| < max(p, g); V РЯ) (12) ,Ч1""^="7Г "2|<тах<л«): b*(l-/)]-1/2 = M-1/2exp^. Используя представления (10)-(12) и утверждение теоремы 3, закончим доказательство. ■ Из приведенных оценок видно, что границы для числа в в формулировке теоремы 5 могут быть сужены, если рассматривать меньшие отклонения \р* — р\, скажем, до значения amin(^, q), где а < 1/2. Найденные соотношения для Р(5П = А:) представляют собой так называемые локальные теоремы для схемы Бернулли. Основная асимптотическая формула, изложенная в теореме 3, допускает естественное обобщение на полиномиальное распределение В£, р — (р\,.-.,рг)> когда в последовательности независимых испытаний при каждом испытании наступает не один из двух, а один из г ^ 2 возможных исходов А\,... >АГ, вероятности которых равны соответственно р\,...,рг. Пусть S„ есть число появлений события Aj в п испытаниях, Sn = \£>п , • • •, Ьп J, А: = (&!,... ,А:Г), р = —, и положим Н(х) — ^XilnXi/pi, х = (х\,... ,хг). Очевидно, что Sn ^ В£. Следующее утверждение является прямым обобщением теоремы 3. Теорема 6. Если каждое из г переменных k\,...,kr либо равно нулю, либо стремится к со при п —> со, то ( Т \~Щ P(Sn = к) ~ (2тгп)(1-г°)/2 ( Д v) ) ехр{-пЯ(р*)}, где го — число переменных к\,...,кг, не равных нулю. Доказательство. Как и в доказательстве теоремы 3, воспользуемся формулой Стирлинга п\ ~ v 2тгп е ппп при п —у со. Считая, не ограничивая общности, что все kj —> со, j = 1,...,г, получим 1/2 г / ч kj = (2Х»)^2(П^"^|„2|,„М|. >=1 /г ч -1/2
102 Глава 5. Последовательность независимых испытаний § 3. Теорема Муавра—Лапласа и ее уточнения Пусть а и b — фиксированные числа, Сп = (Sn — пр)/ y/npq. Тогда Р(о < Сп < Ь) = ^2 P(S" ~пР = *)• a y/npq <z<b y/npq Если здесь вместо Р(5П — пр — z) подставить (p(zA)A, то получим интегральную ь сумму ^2 (p(zA)A, соответствующую интефалу J (p(х) dx. a<zA<b a Таким образом, соотношения (7) делают правдоподобным равенство ь lim Р(а < Сп < Ъ) = / <р(х) dx = Ф(Ь) - Ф(а), (13) п-юо J а где Ф(ж) есть функция нормального распределения с параметрами (0,1) : X *ix) = 7^Je~t2/7dt -00 Это есть теорема Муавра—Лапласа, относящаяся к интегральным предельным теоремам. В главе 7 мы получим более общие интефальные теоремы, из которых (13) будет следовать в качестве частного случая. Теорема 5 позволяет получить (13) вместе с оценкой пофешности или, иначе говоря, с оценкой скорости сходимости. Пусть А и В — целые числа, А — пр В — пр , ч а = —=±, b=—-J-. 14 y/npq VnPQ Теорема 7. Пусть b > а, с = тах(|а|, |Ь|), с3 + Ъс А2 н 3 6 Тогда если А = 1/\Jnpq ^ 1/2, р ^ 1/2, то ь Р{А ^Sn<B) = Р(о ^ Сп < Ь) = J<p(t)dt(l + 0iAc)(l + 202p), (15) а где |0,-| ^ 1, г= 1,2. Эта теорема показывает, что левая часть в (15) может быть эквивалентной Ф(Ь) — Ф(а) и при растущих а и 6. В этих условиях Ф(Ь) — Ф(а) может сходиться к нулю, и знание относительной пофешности в (13) более удобно, так как ее малость всегда позволяет установить малость и абсолютной пофешности, но не наоборот.
§3. Теорема Муавра—Лапласа и ее уточнения 103 Доказательство. Заметим прежде всего, что при всех А: таких, что \z\ — \k — пр\ < Cy/npq, будут выполнены условия теоремы 5. Действительно, для выполнения неравенства \р* — р\ < l/2min(p,q) достаточно, чтобы |А: — пр\ < (npq)/2 — 1/(2А ). Это неравенство будет выполнено, если с < 1/(2А). Но в силу того, что р ^ 1/2, имеем с{с5 + 3)А 1 1 < -, сА < -. 2 2 Таким образом, при каждом А: таком, что a^Jnpq ^ z < Ъу/npq, мы можем воспользоваться теоремой 5, в силу которой P(A^Sn<B) = J2 P(Sn = k) = a^npq^.z<by/npq = J2 <p(zA)A a^.zA<b где |0| < 1. Так как при р ^ 1 |3д4 1 + ехр {>(!^ЫУ)П\ (16) е>-1 < (е - 1) < 2, то абсолютное значение поправочного члена в (16) не превосходит (подставим туда zA = с) I Г /с3Д Д2\~| I /с3Д Д2\ ехр < 01—+сА+—П-1\^2в1—+сА + —\= 2вр. Поэтому P(A^Sn<B)= J2 *»(2Д)А[1 + 2в1р], (17) a^.zA<b где \в{\ < 1. Преобразуем теперь сумму, стоящую в правой части полученного равенства. Для этого заметим, что для любой гладкой функции (р(х) ж+А А<р(х) - J <p(t) dt ^ — max \(p'(t)\. I ж^^ж+А (18) Но для функции (р(х) = 1/\/27ге х I2 имеем <p'(x) = —x<p(x), и наибольшее значение (p(t) на отрезке [ж,ж +А], |ж| ^ с, отличается от наименьшего не более чем на множитель ехр < сА + А2/2 >. Поэтому при |ж| ^ с в силу (18) ж+А , ж+А А сссА+А2/2 2 ж^*^ж+А " <; __е"«- ,. min v(t) ^ ?£есД+Д2/2 J ^(f) d( Др(ж)- J ^(«) ' Ж Так как сА + А2/2 < 1/2 + 1/8, ссЛ+А /2 ^ 2, то справедливо представление ж+А Atp(x)= J <p{t)dt{\+6xAc), \0Х\<\.
104 Глава 5. Последовательность независимых испытаний Подставляя его в (17), мы получим утверждение теоремы. ■ Таким образом, по теореме 7 разность \Р(х^(п<у)- (Ф(у)-Ф(х))\ (19) эффективно, хотя и весьма грубо, оценивается сверху величиной порядка А, или, что то же, величиной порядка l/y/npq, если только х = а, у = b (под а и 6 мы понимаем значения (см. (14)), представимые в виде (А: - пр)А, где А: целое). Если ж и у не принадлежат указанной решетке с шагом А, то погрешность (19) будет оцениваться величиной того же порядка, так как, например, при изменении у вероятность Р(а ^ (п < у) будет постоянной на полуинтервалах вида (а + к А, а + (А: + 1)А), а функция Ф(у) - Ф(х) монотонно возрастает с ограниченной производной. Аналогичные доводы справедливы и относительно левой границы х. Теперь важно отметить, что порядок оценки l/y/npq не может быть улучшен, так как именно такой порядок имеют по теореме 5 скачки функции распределения £п. Теорема 7 позволяет использовать нормальное приближение для Р (х ^ (п < у) и в так называемой области больших уклонений, когда х и у возрастают по абсолютной величине и имеют одинаковые знаки. В этом случае Ф(у) — Ф(х) и приближаемая вероятность сходятся к нулю. Поэтому приближение естественно считать удовлетворительным, если только (*^Сп<у) Как показывает теорема 7, такая сходимость будет иметь место, когда с = тах(|ж|, \у\) = о(А-1/3) или, что то же, с = о{пх^). При больших значениях с, как это нетрудно проверить с помощью теоремы 3, соотношение (20), вообще говоря, выполняться не будет. В заключение отметим, что так как при b —> со Р(1С»1>Ь)-0, то из теоремы 7 немедленно следует, что при каждом фиксированном у Km P(Cn <»)=#(»)• П—*00 Позже мы покажем, что это утверждение справедливо и в гораздо более широких условиях, когда (п есть нормированная сумма произвольно распределенных случайных величин с конечной дисперсией. § 4. Теорема Пуассона и ее уточнения Как было видно из оценок в предыдущем разделе, теорема Муавра—Лапласа будет обеспечивать хорошее приближение для оцениваемых вероятностей, если число npq (дисперсия Sn) велико. Это число будет расти вместе с п, если р и q положительны и фиксированы. Но как поступать в задаче, где, например, р = 0,001, а п = 1000, так что пр = 1? Хотя п здесь велико, в этой задаче применять теорему Муавра—Лапласа бессмысленно. Оказывается, что в этом случае распределение Р(5П = к) можно хорошо приближать распределением Пуассона П^ при подходящем значении fi (см. §4.2). Напомним, что О^кев Обозначим пр = fi.
§ 4. Теорема Пуассона и ее уточнения 105 Теорема 8. Для всех множеств В .2 | P(Sn € В)-!!„(*) |^—. п Это утверждение мы могли бы доказывать так же, как локальную теорему, пользуясь явной формулой для Р (5„ = А:). Однако доказательство можно получить более простым и красивым способом, который можно было бы назвать «методом одного вероятностного пространства». Этот метод нередко используется в вероятностных исследованиях и состоит в нашем случае в том, что на том же пространстве, где заданы 5„, строятся случайные величины S*, по возможности близкие к Sn и такие, что распределение S* совпадает с распределением Пуассона. Важно также, что метод одного вероятностного пространства без каких бы то ни было усложнений допускает обобщение на случай сумм разнораспределенных случайных величин, когда вероятность р появления 1 в каждом испытании зависит от номера испытания. Пользуясь этим обстоятельством, докажем здесь более общее утверждение, из которого теорема 8 будет следовать как частный случай. Итак, пусть имеется последовательность независимых случайных величин п fi,...,£„; £j €= BPj. Обозначим, как и прежде, Sn — Y^ij- Формулируемая ниже .7=1 теорема предназначена для оценки Р(5П = к), когда pj малы, а число fi = Y, Pj «сравнимо с 1». Теорема 9. Для всех множеств В п i=i Прежде чем переходить к доказательству теоремы 9, отметим одно важное свойство распределения Пуассона, которое нам понадобится: если rj\ и г}2 независимы, rj2 ^ П^,, rj2 ^ П^, то щ + rj2 ^ 11^,+^ 3). Действительно, по формуле полной вероятности к P(i?i + т = к) = Y^ р(т = i)P(m = * - i) = * р\е^_ р*-У» _ 1 (,1+л) Л / АЛ ■■*-,■ _ (/ч + 1*г)*е-»+» \н = >=0 J \ •" j=0 k\ j=0 7Г" Доказательство теоремы 9. Пусть u;i,...,u;n — независимые случайные величины, каждая из которых есть тождественная функция (€(щ) = Wk) на единичном отрезке с равномерным распределением. Можно считать, следовательно, что вектор ш = (o>i,... ,(*;„) задан как тождественная функция на единичном n-мерном кубе П с равномерным распределением. ' Этот факт будет очень просто следовать также из свойств характеристических функций, излагаемых в главе 7.
106 Глава 5. Последовательность независимых испытаний Построим на Г2 случайные величины ^ и £* следующим образом: ГО, если и, < 1 -Vh у 1, если Wj ^ 1 - Pj, Г 0, если uj <е~р\ [к ^ 1, если wj € [7ГЛ_1,7ГЛ), где*г* = Ee-ft-^,fe = 0,l,... . Очевидно, что £j(u) независимы, £j(u) ^ BPj; ^(o;) также независимы, fj(o;) €= Пр>. Заметим теперь, что, так как 1 - р3^ e~Pj, то £j(u>) ф f *(<*;), только если Uj Е [1 —Pj,e~Pj) или о^- Е [e~Pi +Pje~Pi, 1]. Следовательно, Р fe * б) = (е~* " 1 + ft) + 0 " е~р> - Pje-p>) = Pj(l - е"р>) ^ р), р (5„ # 5:) ^ р (и{^ * ш) ^ Х>;> где S* = £ £ ^= П,. Теперь можно записать p(5n eB) = P(sne в, sn = s*n) + p(s„ e в, sn ф s*) = = P(s*neв) -p(s*n ев,8пФs*n) + P(sn eв, sn фs*)-, \p(sn ев)-p(s*n ев)\^ \P(s*n ев,8пФs*n) - -p(sne в, sn ф s*)\ ^ p(s„ ф s*). (2i) Отсюда очевидным образом следует утверждение теоремы. ■ Замечание. Можно указать и другие конструкции одного вероятностного пространства. С помощью одной из них мы выясним сейчас существование более точного пуассоновского приближения для распределения Sn. Именно, пусть ^(ш) — независимые случайные величины, распределенные по закону Пуассона с параметрами т3 — — ln(l — Pj) ^ Pj, так что P(f!- = 0) = е~Г] = 1 —pj. Тогда £j(u>) = min(l,f!-(a;)) ^ ВР], при этом р (и (6-и ф *»}) < Е р(*» >2) = £о - е~Тз - *>*"')• Но при г — - 1п(1 - р) справедливо неравенство 2 Следовательно, для построенного пуассоновского приближения 1 - е~г - ге~г =р + (1-р) 1п(1 - р) ^ р + (1 - р) ( -р - V— J = ^-(1 + р). P(s:^Sn)^l-f2p](\+Pj).
§ 4. Теорема Пуассона и ее уточнения 107 Положив А = — 5^ ln(l —pj) ^ E?ji путем прежних рассуждений получаем оценку \p(sneB)-ux(B)\^l-J2pj(\+Pj). i=i Эта оценка близости с распределением Пуассона с «чуть сдвинутым» параметром лучше, чем оценка, полученная в теореме 9. Кроме того, можно отметить, что в новом построении £у ^ £!-, Sn ^ S£ и, следовательно, P(Sn ^k)^P(S*^k) = ПА([*,оо)). Вернемся к случаю одинаково распределенных &. Чтобы из теоремы 9 получить теперь предельную теорему типа Муавра—Лапласа (см. (13)), здесь требуется несколько иная, чем прежде, постановка задачи. Ведь для того, чтобы пр с ростом п оставалось ограниченным, нам нужно, чтобы р = Р(& = 1) сходилась к нулю, чего нельзя добиться, рассматривая фиксированную последовательность случайных величин £i, f2>••• • Мы введем в рассмотрение последовательность возрастающих серий случайных величин: Ч ' ,(2) ,(2). Ч »S2 > ,(3) ,(3) .(3). si >S2 >S3 > Лп) Лп) Лп) Ч >S2 >чз »•• Л») Это так называемая схема серый. Индекс сверху означает номер серии. Нижний индекс означает номер случайной величины в серии. Пусть в п-й серии случайные величины ^ независимы, £^ ^= ВРп, А: = 1,...,п. Следствие 4 (теорема Пуассона). Если прп —> \i > 0 л/ш n —> со, /wo л/w каждом k Р(5П = *)-П„({*}), (22) г^5п=^п) + ...+^п). Это утверждение является очевидным следствием теоремы 8. Его легко „ол^ть также «посредственно. т*ъ что „ рабства Р <«. = *)=(») Л, - p)n-fc следует Р(5„ = 0) = еп1п(1-')~е-'\ Р(5п = fc+ 1) n-k p fi P(Sn = k) k+\ \-p k+\' ш Из теоремы 9 вытекает аналог теоремы Пуассона и в более общем случае, когда fj не обязательно одинаково распределены4) и могут принимать значения, отличные от нуля и единицы. 4) Обобщение теоремы Муавра—Лапласа на случай разнораспределенных величин содержится в центральной предельной теореме § 8.4.
108 Глава 5. Последовательность независимых испытаний Следствие 5. Пусть pjn = Р (£• = l) зависят от п и j так, что п maxpjn -> 0, У2Pjn -> р> > О, P(c{n)=0) = l-ft-„ + o(pill). Тогда справедливо (22). Для доказательства следствия надо воспользоваться теоремой 9 и тем фактом, U {f) ^ 0> £/ ^ 1} I ^ X) °(Р>п) = о(1), означающим, что с вероятно- i=i / i^1 Л») стью, сходящейся к 1, все & принимают лишь значения нуль или единица. Наряду с этими утверждениями из теорем 9, 8, очевидно, можно получить и несколько более сильные формулировки: для любого множества В lim Р(5„€В) = П«(В). п—юо Отметим, что в условиях теоремы 8 такая сходимость будет иметь место и для значений пр —> со, но таких, что пр —> 0. В то же время уточнение теоремы Муавра—Лапласа в § 3 показывает, что приближение для распределения 5„ с помощью нормального закона действует, если пр —* со (мы считаем, что р < д, так что npq > \/2пр —> со). Таким образом, существуют последовательности р Е {р: пр —> со, пр2 —> 0}, для которых применимы оба приближения — и нормальное, и пуассоновское. Другими словами", области применений нормального и пуассоновского приближений перекрываются. Далее, из теоремы 8 мы видим, что скорость сходимости в следствии 4 определяется величиной порядка п~1. Поскольку при п —> со Р(5П = 0) - 7г0 = еп1п(1-'> - е" ~ J-e"", 2п то эта оценка существенно улучшена быть не может. Однако при больших А: (так сказать, в области больших уклонений) такая оценка для разности Р(5П = А:)-П/,({А:}) становится грубой. (Ведь в (21) мы пренебрегаем не только разными знаками поправочных слагаемых, но и редкими событиями {Sn = к} и {S* = к}, которые стоят под знаком вероятностей.) Здесь мы приходим так же, как и в §4, к необходимости иметь приближения, обладающие малой не только абсолютной, но и относительной погрешностью. Покажем, что соотношения асимптотической эквивалентности (22) сохраняются и при растущих (вместе с п) к и р таких, что к = о(п2/3)1 ц = о(п2/3), \k-p\=o(y/n). Действительно, (:У D/Q м ("1-п*л „\п-ь п(п-\)-(п-к+ 1) к к P(Sn = к) = [ h ) р (1 - р) = р (1 - р) =
§ 4. Теорема Пуассона и ее уточнения 109 = ^е-Р" (,_!)...(!_ !Z_L) (, _ p)«-Vn = n„({fc})e'<*'">. Надо доказать, таким образом, что при указанных значениях к и fi е(к,п) = ln[(l - i) - (l - ^)(1 -pf-V"] = о(1). (23) Мы получим это соотношение вместе с видом поправочного члена. Именно, покажем, что и, следовательно, Воспользуемся тем, что при а —> О а2 1п(1 - а) = -а - — + 0(аг). Тогда соотношения (23), (24) будут следовать из равенств к-\ , . v fc-1 . /,3 (п - А:) 1п(1 -р)+рп = (п- к)(-р- — + 0(р3) \ + рп = 2п п \nz J ш В заключение отметим, что приближенная формула Пуассона P(Sn = fc)«^-e-" широко используется в различных приложениях и обладает, как показывают опыт и полученные выше оценки, высокой точностью даже при умеренных значениях п. Рассмотрим теперь примеры, где для приближенных вычислений используются теоремы Муавра—Лапласа и Пуассона. Пример 2. Пусть имеется 10 пакетов с зерном. Известно, что в этих пакетах имеется 5000 меченых зерен. Какова вероятность, что в некотором фиксированном пакете есть хотя бы одно меченое зерно? Можно себе представить, что меченые зерна случайным образом распределяются среди пакетов. Тогда вероятность попадания определенного меченого зерна в выбранный пакет будет равна р — Ю-4. Так как этих зерен 5000, то это число и будет числом испытаний, т.е. п = 5000. Определим случайную величину & следующим образом: & = 1, если fc-e зерно попало 5000 в выбранный пакет, ^=0 в противном случае. Тогда S5000 = Ю, & будет числом меченых зерен в нашем пакете. По теореме 8 Р(#5000 = 0) « е~пр — е ,5, так
по Глава 5. Последовательность независимых испытаний что искомая вероятность равна приближенно 1-е ' . Точность этих соотношений оказывается весьма высокой (в силу теоремы 8 пофешность не превосходит 2-1 . Ю" ). Если бы мы пользовались теоремой Пуассона, а не теоремой 8, то должны были бы представить себе схему случайных величин, распределенных по закону Бернулли, при этом наши случайные величины составляют пятитысячную серию. Кроме того, мы считали бы, что для серии с номером п прп = 0,5. Таким образом, условия теоремы Пуассона были бы выполнены, и можно было бы воспользоваться предельной теоремой для того, чтобы написать уже полученное приближенное соотношение. Пример 3. Те же рассуждения можно использовать и в следующей задаче. Водоем объема V, из которого мы берем пробу объема v <C V, содержит п опасных бактерий. Какова вероятность того, что мы обнаружим эти бактерии в конфольном сосуде? Обычно считают, что вероятность р того, что любая заданная бактерия попадет в пробу, равна отношению объемов v/V. Кроме того, обычно также предполагают, что появление одной данной бактерии в пробе не зависит от того, где находятся остальные п— 1 бактерий — в пробе или нет. Иными словами, обычно постулируют, что механизм переноса бактерий в конфольную пробу эквивалентен последовательности п независимых испытаний с вероятностью «успеха» в каждом испытании, равной р = v/V. Вводя, как и раньше, случайные величины £к, получим описание бактерий п в пробе с помощью суммы Sn = ]Г} & в схеме Бернулли. Если nv сравнимо по величине с V, то по теореме Пуассона искомая вероятность P(Sn>0)^l-e~nv/v. Модели, аналогичные только что описанной, используются также для описания числа видимых звезд в некоторой области неба, расположенной вдали от Млечного пути. Именно, предполагается, что если в области R имеется п видимых звезд, то вероятность того, что в подобласти г С R будет находиться к видимых звезд, равна (z)i*i-pr\ где р равно отношению площадей S(r)/S(R) областей г и R соответственно. Пример 4. Допустим, что вероятность рождения мальчика постоянна и равна 0,512 (см. п. 1 из §5 главы 3). Рассмофим фуппу новорожденных в 10 человек и будем считать, что ей соответствует последовательность 10 независимых испытаний, результатом каждого из которых является появление мальчика или девочки. Какова вероятность того, что среди этих новорожденных мальчиков будет по крайней мере на двести человек больше, чем девочек? Случайные величины & определим следующим образом: & = 1, если к-й Ю4 новорожденный оказался мальчиком, и ^ = 0 в противном случае. Тогда Sn = У1 & к=\ есть число мальчиков в зарегисфированной фуппе. Число npq « 0,25 • 104 здесь
§ 5. Вероятности больших уклонений 111 велико, поэтому, применив интегральную теорему Муавра—Лапласа, для искомой вероятности получим р№>з.«»-.-р(^<2^5)-1-.(-|)-.-^,-^ Для отыскания численных значений Ф(х) часто пользуются таблицами, имеющимися в большинстве руководств по теории вероятностей и математической статистике (см. Приложение 7). Они заложены также во многие статистические программы и в калькуляторы. В приведенном примере А « 1/50 и удовлетворительное приближение формулой Муавра—Лапласа будет заведомо обеспечено (см. теорему 7) при с ^ 2,5. Если же, допустим, нам потребуется оценить вероятность того, что доля мальчиков превысит 0,55, то мы будем иметь дело с вероятностями больших уклонений, где для оценки Р(5„ > 5500) уже лучше воспользоваться приближенным соотношением, полученным в § 1.3, в силу которого (k = 0,45n, q = 0,488) Р(5П > 5500) « (n+j-fc)^ p(5n = 5500). (n+ \)q - к Пользуясь теоремой 3, находим Р(5П > 5500) « -*&*- / 1 е-"я(°'55> ^ - е-25 < 1(ГП. 7 q - 0,45 ^2^710,25 5 То есть, если допустить на минуту, что на планете ежегодно рождается 100 млн чел. и что все родившиеся разбиваются на партии по 10 тыс. в каждой, то для того, чтобы в какой-нибудь партии появилось завышение доли мальчиков всего на 3,8%, потребуется ждать в среднем более 107 лет (см. пример 1 из §4.1). Ясно, что числовые оценки, основанные на нормальном приближении, можно проводить и в задачах примера 3, если числа пр, фигурирующие там, окажутся большими. § 5. Неравенства для вероятностей больших уклонений в схеме Бернулли В заключение этой главы мы получим некоторые полезные неравенства для схемы Бернулли. В § 2 мы ввели функцию X 1 — Ж Н(х) — ж In- + (1 -ж) In , V 1 -V которая играет существенную роль в теоремах 3, 4 об асимптотическом поведении вероятности Р(5„ = А:). Там же были рассмотрены простейшие свойства этой функции. Теорема 10. При z ^ 0 Р(5П - пр ^ z) ^ ехр |-пЯ [р + -) } , г / *м (25) Р(5„ —пр^. -z) ^ ехр < -пН 1р 1 > .
112 Глава 5. Последовательность независимых испытаний Кроме того, при всех р Н(р + х)^2х2, (26) так что каждая из вероятностей (25) при любом р не превосходит exp{-2z /n}. Для сравнения с утверждением (5) теоремы 3 первое неравенство теоремы 10 можно записать в виде Р (^ > Р*) ^ ехр{-пЯ(р*)}. Неравенства (25) в какой-то мере близки и к теореме Муавра—Лапласа, поскольку при z = о(п I ) -nH(p+zn)=-4rq+°{i)- Последнее утверждение вместе с (26) можно интерпретировать так: уклонение z от среднего значения пр имеет максимальную вероятность при р = 1/2. При z/л/п —> со обе вероятности (25) сходятся к нулю при п —> со, так как они соответствуют большим отклонениям суммы Sn от среднего пр. В этом случае их называют вероятностями больших уклонений. Доказательство теоремы 10. В следствии 4.3 предыдущей главы было установлено неравенство Р(^х)^е~ХхЕеч. Применяя его к сумме Sn, получим P(Sn ^np + z)^ e-x(np+z)Eexs\ п Так как eXSn = Yl e^k и случайные величины еА^ независимы, то ЕеА5« = ГТЕе*' = (?e* + «)" = 0 +Р(е" " О)", P(S„£np + z)< [(l+p(eA-l))e-A^+a)]") а=Л. Выражение в квадратных скобках равно EeA^*"^+Qf^. Следовательно, как сумма двух выпуклых функций это есть выпуклая функция от Л. Уравнение для точки Л(а) минимума этой функции имеет вид -(р + а)(1 + р(ех - 1)) + рех = 0. Отсюда находим сА(а) = (Р + <*)Я p(q - а)' А(«) _ 1\\р-А(ог)(р+а) (l+p(eAW-\))e q - а p(q-a) Р+<* л>+а q-a l(p + a)q\ (p + a)P+a(q - a)9~a Г р + a q — а ^ = ехр < -(р + а) In (g - а) In > = ехр{-Я(р + а)}. I V Я )
§ 5. Вероятности больших уклонений ИЗ Первое из неравенств (25) доказано. Второе неравенство следует из первого, если его рассматривать как неравенство для числа появления нулей. Далее из (4) следует, что Н(р) = Н'(р) = О, Н"(х) — 1/(ж(1 - х)). Поскольку максимум функции х{\ - х) на [0,1] достигается в точке х = 1/2, то Н"(х) ^ 4, Об аналогах теоремы 10 для сумм произвольных случайных величин см. замечание 1 из § 7.5.
Глава 6 О сходимости случайных величин и распределений § 1. Сходимость случайных величин В предыдущих главах мы уже не раз сталкивались с утверждениями, где рассматривалась сходимость в том или ином смысле распределений случайных величин или самих случайных величин. Теперь введем ряд определений, описывающих разные виды сходимости, и выясним соотношения между ними. Пусть на вероятностном пространстве (П,^, Р) заданы последовательность случайных величин {£„} и случайная величина £. Определение 1. Последовательность {£&} сходится по вероятности^ к £, если для любого е > О P(lfn -£| > е) -+0 при п-юо. Обозначается это так: fn—►£ при п —> со. В этих обозначениях утверждение закона больших чисел для схемы Бернулли можно было бы записать в виде поскольку Sn/n можно рассматривать как последовательность случайных величин, заданных на одном вероятностном пространстве. Определение 2. Мы будем говорить, что последовательность £п сходится к £ с вероятностью 1 (или почти наверное: £„ —* £ п.н., £п—► £), если £п(ш) —► £(и) при п —► со для всех ш Е П за исключением, быть может, ш из множества N С П нулевой вероятности: P(N) = 0. Такую сходимость можно назвать также сходимостью почти всюду (п. в.) относительно меры Р. Очевидно, что сходимость £„—► £ влечет влечет за собой сходимость £п—►£• Обратное утверждение, вообще говоря, неверно, в чем мы убедимся позже. Однако, если fn монотонно возрастает или убывает, то сходимость £„ —► f влечет за собой fn —►£. Действительно, предположим, не ограничивая общности, что £ = 0, £n ^ 0, ' В теоретико-множественной терминологии сходимость по вероятности означает сходимость по мере.
§ 1. Сходимость случайных величин 115 in I, €п—*£- Отсутствие сходимости fn—>£ означало бы, что существуют е > О и множество А, Р(А) > 6 > О, такие, что supffc > е при и € А и при всех п. Но supffc — £„, и сказанное означает, что РЦп>е)>Р(А)>6>0 при всех п, что противоречит сходимости £„ —*0. В этих рассуждениях случайные величины £„ могли быть и несобственными. Итак, сходимость по вероятности определяется поведением числовой последовательности P(|fn-fl > б:). Можно ли аналогичным образом характеризовать сходимость с вероятностью 1? Обозначим £n = sup |£n — f | (эта случайная величина может быть и несобственной). к^п Теорема 1. £„ —► £ тогда и только тогда, когда Сп-+0 или, что то же, когда ъ п. н. р для любого е > О при п —► оо P(sup|£„-£|>e)^0. (1) k>n Доказательство. Ясно, что £„ —> £ п.н. тогда и только тогда, когда £„ —► О п.н. Но последовательность £„ монотонно убывает £n J,, Сп—►(), и нам остается воспользоваться сделанными выше замечаниями, в силу которых £„ —► 0 п. н. ■ Во введенной терминологии утверждение усиленного закона больших чисел для схемы Бернулли можно сформулировать в силу (1) как сходимость Sn/n —> р с вероятностью 1. Мы уже отмечали, что сходимость почти наверное влечет за собой сходимость по вероятности. Приведем теперь пример, показывающий, что обратное утверждение неверно. Пусть (£1,$,Р) есть единичная окружность с а"-алгеброй борелевских множеств и равномерным распределением. Положим £(ш) = 1, £п(<*>) = 2 на дуге [r(n),r(n)-f 1/п] и £п(<*>) = 1 на остальном множестве. Здесь г(п) = ]С *• Очевидно, к=\ что £п—►£• В то же время г(п) —> оо при п —► оо, и множество сходимости £п к f пусто (мы не можем указать ни одного ш, для которого £п(^) —> £(<*>))• Однако, если Р(|£„ — f | > е) убывает при п —> оо достаточно быстро, то сходимость по вероятности будет означать и сходимость п.н. Именно, соотношение (1) дает следующее достаточное условие для сходимости с вероятностью 1. оо Теорема 2. Если ряд ]Г} Р(|& — f I > е) при любом е > О сходится, то £п —> f к=\ п. н. Это утверждение очевидно, поскольку 00 р(1Ж»-*1>е}) <5>(1&-*1>е). Именно этим критерием мы, по существу, пользовались при доказательстве усиленного закона больших чисел для схемы Бернулли.
116 Глава 6. О сходимости случайных величин и распределений Обратное заключение о скорости сходимости к нулю вероятности Р(|£п~"£1 > £) из сходимости п. н. сделать невозможно. Читатель без труда может построить пример, когда £„ —► f п. н., а Р(|£п - £1 > £) сходится к нулю сколь угодно медленно. Из теоремы 2 вытекает Следствие 1. Если £п—*£> то существует подпоследовательность {п^} такая, что £Пк —► f п. н. при к —> со. Это утверждение также очевидно, так как достаточно взять такие п&, чтобы Pflfm. ~ f I > е) ^ 1/& » и воспользоваться теоремой 2. ■ Есть еще один важный частный случай, когда из сходимости по вероятности £п~>£ следует сходимость fn —> £ п.н. Это случай, когда £„ образованы последовательными суммами независимых случайных величин. Именно, справедливо п следующее утверждение. Если £„ = ]Г} ту*, ту* независимы, то сходимость £п яо *=1 вероятности влечет за собой сходимость с вероятностью 1. Это утверждение будет доказано в § 10.2. Рассмотрим, наконец, третий вид сходимости случайных величин. Определение 3. Будем говорить, что £„ сходится к £ в среднем г-го порядка (в среднем, если г = 1; в среднеквадратическом, если г = 2), если при п —> со Е|£„-£Г->0. Такую сходимость будем обозначать fn —>f. W Очевидно, что из £„ —>£ в силу неравенства Чебышева следует fn —>f. Из п. н. сходимости (и тем более из сходимости по вероятности) сходимость —> не следует. (г) Таким образом, сходимость по вероятности является слабейшей из введенных трех видов сходимости. Отметим, что при наличии дополнительных условий из сходимости £п —>£ может, конечно, следовать £п-^£- Например, в следствии 4 будет показано, что (г) если £п—>€, Е|£„|г+а < с при некотором а > 0 и всех п, то £п —►£. р (г) Определение 4. Будем говорить, что последовательность fn является фундаментальной по вероятности (п. н., в среднем), если для любого е > 0 P(l6i - 6»1 > *) -> 0 (P(sup |£п - £га| > е) - 0, Е|£п - £mf -> 0) при п —► со, га —► со. Теорема 3 (признак сходимости Коши). fn —► £ <? каком-нибудь смысле (—►, —►. —») тогда и только тогда, когда £„ фундаментальна в соответствующем смысле. п.». (г) Доказательство. Фундаментальность очевидным образом следует из сходимости в силу неравенств i6.-6»i<i6.-fl + i6i.-£i, sup |£„ - £m| ^ sup |£„ - £| + |£т - £| ^ 2 sup |fn - £|, к» - ыг < cr(i^„ - «г + \и - i\r) при некотором Сг.
§ 1. Сходимость случайных величин 117 Пусть теперь последовательность fn фундаментальна по вероятности. Выберем последовательность {пк} так, чтобы Р(Кп-£т|>2-*)<2-* при п ^ rife, m ^ пк. Обозначим 00 fc=l Тогда P(^fc) ^ 2~к, Ег] = J2P(Ak) ^ 1. Это, конечно же, означает, что число г] появлений событий Ак есть собственная случайная величина: Р(г) < со) = 1 и, стало быть, с вероятностью 1 произойдет лишь конечное число событий Ак. Это означает далее, что для каждого и е ft- А найдется ко(и>) такое, что \&(ш) - €k+\(w)\ ^ 2~к при всех А; ^ ко(ш). Отсюда получаем неравенство \£к(ш) — €l(v)\ ^ 2~к+ при всех А; ^ к^{и), I ^ ко(ш), означающее, что последовательность чисел ££(<*>) фундаментальна и что, следовательно, существует значение £(и) такое, что |£*(о>) — £(о>)| —> 0 при А; —> со. Это означает, в свою очередь, что £к —>£, Р(16. - €1 ^ е) < Р (|6. - 6J £ |) + Р (16* — CI > §) — О при п —> со, А; —> со. Пусть теперь £п фундаментальна в среднем. Тогда в силу неравенства Чебышева она будет фундаментальна по вероятности, и, следовательно, существуют случайная величина £ и подпоследовательность {пк} такие, что £„*—► £. Покажем, что E|fn — £Г —> 0. Для заданного е > О выберем п так, чтобы Е|6 — £/|г < £ при к ^ п, I ^ п. Тогда в силу леммы Фату (см. Приложение 3) Е|£„-£Г = Е lim |{„-&Jr = E lim inf 16,-6,/^ lim inf E|£n - £nJr ^ e. Пд.—»00 Пд..—»00 Пд;—»00 Это и означает, что E|fn — f |r —> 0. Осталось проверить утверждение теоремы для сходимости п. н. Мы уже знаем, что если £п фундаментальна по вероятности (и тем более п.н.), то существуют f и подпоследовательность fnjt такие, что £Пк—► £. Поэтому если обозначить nfc(n) = min{nfc: пк^п}, то P(sup 16 - £| > е) ^ Р (sup |6 - UJ > ^) + Р (l^., - €1 > ^) - О при п —> со. Теорема доказана. ■ Замечание 1. Если в пространстве Lr всех случайных величин £ на (12,5, Р), для которых Е|£|г < со, ввести норму ||£|| = (Е|£|г)1/г (неравенство \\£\ + &II ^ 116II + II&II есть не что иное, как неравенство Минковского, см. теорему 4.4), то утверждение теоремы 3 применительно к сходимости —> (это есть сходимость по (г) норме в Lr) означает, что пространство Lr полно и, стало быть, является банаховым пространством.
118 Глава 6. О сходимости случайных величин и распределений Пространство всех случайных величин на (Г2, У, Р) можно метризовать так, чтобы сходимость во введенной метрике была эквивалентна сходимости по вероятности. Например, можно положить p(fi,f2) — Е ^[Г!2! i • Так как всегда \х + у\ < \х\ \у\ 1 + lx + yp 1 + |х| 1 + |уГ то p(fbf2) удовлетворяет всем аксиомам метрики. Нетрудно видеть, что соотношения р(£п,0 —►О и fn—►£ эквивалентны. Утверждение теоремы 3 применительно к сходимости —> будет означать полноту введенного метрического пространства. v В заключение этого параграфа получим две «теоремы непрерывности». Теорема 4. Пусть £„ —>£ (fn —>£) и H(s) — функция, непрерывная почти всюду относительно распределения случайной величины £ (т. е. H(s) непрерывна в каждой точке множества В такого, что P(f Е В) = 1). Тогда Н^^.Н® (Я(6.)^Я(0). Доказательство. Так как вероятности множеств А = {ш: £п(ш) —> f (о>)} и С = {и: £(ш) е В} равны единице, то Р(АС) = Р(А) + Р(С) - Р(А + С) = 1. Но на множестве ^4С имеет место сходимость Н(£п) —> #(£). Сходимость п. н. доказана. Пусть теперь fn->■£• Если допустить, что сходимость Н(£п)—*Н(£) не имеет места, то найдутся е > О, 6 > О и подпоследовательность {п'} такие, что Р(|Я(6,)-Я(01>е)>Л Но fП'—»£ и, значит, найдется подпоследовательность {п"} такая, что fn»—► £, Н(€п")—>Н(£). Это противоречит сделанному допущению, из которого вытекает, что P(\H(tn*)-H(t)\>e)>6. Вторая теорема непрерывности касается моментов и связи со сходимостью в среднем. Определение 5. Последовательность {£„} называется равномерно интегрируемой, если supE(|£n|;|£n|>i\r)-+0 при ЛГ-.ОС. п Если {£„} равномерно интегрируема, то supE|£n| ^ с < со. п Действительно, выберем N так, чтобы supE(|fn|; |fn| > N) ^ 1. Тогда supEl^nl = sup[E(|£n|; |{n| ^ N) + E(|£n|; |£n| > N)] \ N + 1. . n Обратное утверждение неверно. Например, для последовательности fn : P(fn = n) = 1/n = 1 - P(fn = 0) справедливо E|fn| = 1, но она не является равномерно интегрируемой.
§ 1. Сходимость случайных величин 119 Теорема 5. Пусть £п—>€, {£п} равномерно интегрируема. Тогда существует E|6,-fl->0. Если, кроме того, \£п\г равномерно интегрируема, то £п-^£- (г) Обратно, если £п-+£, Е|£|г < со и E|fn - f|r —► 0, г ^ 1, то |£„|г равномерно интегрируема. Доказательство. Покажем, что Е£ существует. В силу свойств интеграла Е(С;Ап) —> 0 при Р(Ап) -^ О, Е|С1 < оо (см. лемму 3 в Приложении 3). Поэтому при любых N и е Emm(\Z\,N) = lim E[min(ia^);l&i-£!<*)] ^ lim E minflfij +e,N) ^ с + е. П—КХ) П—>00 Отсюда следует, что E|f | ^ с. Далее положим для краткости |£п — £| = rjn. Тогда г)п—► () и rjn вместе с fn равномерно интефируема. Имеем для любых N, е Е?7П = E(rjn;rjn ^е) + E(r)n;N ^r)n>e) + ^(Vn',Vn > N) ^ ^ е + NP(rjn >е) + Е(т)п;г)п > N). (3) Выберем N так, чтобы supE(rjn;rjn > N) ^.е. Тогда для такого N п lim supE77„ ^ 2e. п—юо Так как е произвольно, то Erjn —> 0 при п —*• оо. Соотношение E|fn — f |г —► 0 доказывается точно так же, как (3), поскольку rfn = \€п - f Г —►О и rfn равномерно интефируемы вместе с |£п|г. Докажем теперь обратное утверждение. Пусть для простоты г = 1. Имеем Е(16.|; 16.1 >N)^ E(|£n - Ц \Цп\ > N) + E(|£|; |£n| > N) ^ ^Е|£п-£| + Е(Шб.|>ЛГК ^ E|£n - fl + E(|€l; 16. - €1 > 1) + E(KI; 1*1 > N - l). Здесь первое слагаемое в правой части сходится к нулю по условию, второе — в силу уже упоминавшейся леммы 3 Приложения 3 и того, что P(|6i — £1 > 1) —* 0. Последнее слагаемое от п не зависит и может быть выбором N сделано сколь угодно малым. Теорема доказана. ■ Следствие 2. Если 6i~~*f> H(s) удовлетворяет условиям теоремы 4 и Н(£п) равномерно интегрируема, то ЕЯ(й.) - ЕН(0- Это утверждение вытекает из теорем 4, 5, так как по теореме 4 Н(£п) —> Я(0. Иногда бывает удобно различать равномерную интефируемость справа и слева. Мы будем говорить, что {£п} равномерно интегрируема справа (слева), если sup E (6,; 6. ^ N) - 0 (supE(|6.l;6. ^ -ЛГ) - 0) при N —► оо. Ясно, что последовательность {£„} равномерно интефируема тогда и только тогда, когда она равномерно интефируема справа и слева.
120 Глава 6. О сходимости случайных величин и распределений Лемма 1. Для равномерной интегрируемости {£„} справа достаточно выполнения хотя бы одного из следующих условий. 1. Для любой последовательности N(n) —> со при п —> со Е(£п;£п>Щп))->0. (Очевидно, это условие является и необходимым для равномерной интегрируемости.) 2. £п ^ rj, Erj < со. 3. Е(^) < с < со при некотором а > 0 (ж+ = тах(0,ж)). 4. fn равномерно интегрируема слева, £п—*£, Е£„ —► Е£ < со. Доказательство. 1. Отсутствие равномерной интегрируемости справа означает существование £>0и подпоследовательностей п' —> со, iV' = N'(n') —► со таких, что Е(£П»;£П' > iV') > е. Но это противоречит условию 1. 2. E(£n;£n > N) < Е(т7;т7 > ЛГ) - 0 при JV -> со. 3. E(£n;£n > N) ^ E(tln+aN~a;Zn > N) ^ N~ac - 0 при TV - со. 4. Положим, не ограничивая общности, £ = 0. Тогда Е (£„;£„ > JV) = Е£„ - Е(£п;£„ < -N) - Е(£П;Ы ^ N). Первые два слагаемые сходятся к нулю при п->оо и любых N — N(n) —► со. В последнем слагаемом при любом е > 0 |E(fn;|f„| ^ N)\ ^ |E(f„;|fn| ^ е)\ + |E(fn;£ < \€п\ ^ ^)1 ^ £+NP(|fn| > £)• Для заданного е > 0 выберем п(е) так, чтобы при всех п ^ п(£г) выполнялось Р(|£п| > е) < е, и положим ЛГ(б:) = [1/х/ё]. Это будет означать, что при всех п ^ п(е), N ^ ^(б:) выполняется E(fn; |fn| ^ N) < е Л- у/ё и, стало быть, для E(£n;£n > N) выполнены условия п. 1 настоящей леммы. ■ На основании сказанного мы можем теперь сформулировать еще три полезных следствия. Следствие 3 (теорема о сходимости мажорируемой последовательности). Если in—*£ и |£„| < г}, Erj < со, то существует Ef и Е£„ —> Е£. Следствие 4. Если £„->£, Е|£п|г+а < с, а > 0, то £„-►£. Следствие 5. Если £п—>€ и Н(х) — непрерывная ограниченная функция, то ЕЯ(6.) - ЕЯ(0. В заключение этого параграфа получим еще одно вспомогательное утверждение, которое может быть полезным (обобщение леммы 3 Приложения 3). Лемма 2 (об интегралах по множеству малой вероятности). Есаи{£п} равномерно интегрируема и {Ап} — произвольная последовательность событий такая, что Р{Ап) ->0,то ЕШ;Ап)^0 при п —► со. Доказательство. Обозначим Вп = {\£п\ ^ N}. Тогда Е(\£п\;Ап) = ЕШ;АпВп) + ЕШ;АпВп) ^ NP(An) + Efl&l; \U > N). Для заданного е > 0 выберем сначала N так, чтобы второе слагаемое не превосходило е/2, а затем п так, чтобы первое слагаемое не превосходило е/2. Мы получили, что Е(|£„|; Ап) выбором п может быть сделана меньше е. ш
§ 2. Сходимость распределений 121 § 2. Сходимость распределений Мы ввели в § 1 три способа характеризовать близость случайных величин, заданных на одном вероятностном пространстве. Но как быть, если случайные величины заданы на разных вероятностных пространствах (или вообще не известно, где заданы), а их распределения очень похожи? (Вспомним, например, теоремы Пуассона или Муавра—Лапласа.) В этих случаях надо уметь характеризовать близость самих распределений. При удачном определении такой близости мы сможем во многих задачах приближать нужные, но труднодоступные распределения с помощью распределений известных и, как правило, более простых. Итак, какие распределения считать близкими? Речь идет, очевидно, об определении сходимости последовательности функций распределения Fn(x) к функции распределения F(x). Было бы естественным, например, считать, что распределения величин £n = f -f \/п и f сходятся при п —> со. Поэтому требовать малости sup|Fn(x) — F(x)\ в определении сходимости было бы неразумно, так как этому х условию не удовлетворяют распределения f + \/п и f, если F(x) = P(f < x) имеет хотя бы один разрыв. Мы определим сходимость Fn к F как такую, которая возникает при рассмотрении сходимости по вероятности. Определение 6. Будем говорить, что Fn слабо сходится к F, и обозначать это через Fn => F, если для любой непрерывной и ограниченной функции f(x) f f(x) dFn(x) -> f f(x) dF(x). (4) Если речь идет о распределениях Рп(В) и Р(В) (В — борелевские множества), соответствующих Fn и F, то говорят, что Р„ слабо сходится к Р, и обозначают это через Р„ => Р. Очевидно, что (4) можно записать также в виде J f(x)Pn(dx)-+ J f(x)P(dx) или E/teO-E/fc), (5) (ср. со следствием 5), где £n G= Fn, f G= F. Другое возможное определение слабой сходимости возникает из следующего утверждения. Теорема б.2) Fn => F тогда и только тогда, когда Fn(x) —> F(x) в каждой точке х, являющейся точкой непрерывности F. Доказательство. Пусть выполнено (4). Рассмотрим е > 0 и непрерывную функцию f£(t), равную единице при t < ж, нулю при t ^ х + е и меняющуюся линейно на [ж,ж + е]. Так как X Fn(x) = J fS) dFn(t) ^ J fe(t) dFn(t), 2) Во многих учебниках по теории вероятностей высказывание теоремы принимается за определение слабой сходимости. Однако определение Р„ => Р в форме / f(x)Pn(dx) - J f(x)P(dx) для всех ограниченных непрерывных функций /, по-видимому, целесообразнее, поскольку оно сохраняется и для распределений в произвольных топологических пространствах (см., например, [15, 1]).
122 Глава 6. О сходимости случайных величин и распределений то в силу (4) lim supFn(x) ^ / f£(t) dF(t) ^ F(x + е). П-+0О J Если х — точка непрерывности F, то в силу произвольности е получаем lim supFn(x) ^ F(x). п—>оо Совершенно аналогично с помощью функции f*(t) = f£(t + е) получаем неравенство lim MFn(x) ^ F(x). п—*оо Получим теперь обратное утверждение теоремы. Пусть -М и N — такие точки непрерывности F, что F(-M) < е/5, 1 - F(N) < е/5. Тогда Fn(-M) < е/4, 1 - Fn(N) < е/4 при всех достаточно больших п. Поэтому, считая для простоты |/|^1, получим, что JfdFn и JfdF (6) будут отличаться соответственно от N N JfdFn и J fdF -м -м меньше, чем на е/2. Построим на полуотрезке (-М,ЛГ] ступенчатую функцию f£ со скачками в точках непрерывности F, которая отличалась бы от / меньше, чем на е/2. Вне (—М,ЛГ] функцию Д положим равной нулю. Можно считать, к например, что Д(х) = J2 f(xj)6j(x), где xq = -М, х\,... ,ж& = N есть выбранные i=i нужным образом точки непрерывности F, функция 6j(x) — индикатор полуотрезка (#7-1, Xj]. Тогда / Д dFn и / Д dF будут отличаться от интегралов (6) при достаточно больших п меньше, чем на б\ В то же время J Д dFn = ^ f(Xj) [Fn(xj) - Fnizj-0] - J f£ dF Отсюда в силу произвольности е > 0 следует сходимость (4) (надо воспользоваться неравенством lim sup fdFn^e + limsup f£dFn=e+ / Д dF ^ 2e + / / dF и аналогичным неравенством для liminf f f dFn). ■ Замечания по поводу другого, в известном смысле более простого доказательства второго утверждения теоремы 6 см. в конце § 3 и в § 7.4. Замечание 2. Если повторить с очевидными изменениями приведенное доказательство, то мы получим несколько иной эквивалент сходимости (4): сходимость разностей Fn(y) — Fn(x) —> F(y) - F(x) для любых х и у, являющихся точками непрерывности F.
§ 2. Сходимость распределений 123 Замечание 3. Если F(x) непрерывна, то сходимость Fn => F эквивалентна равномерной сходимости sup|Fn(x) - F(x)\ —> 0. х Доказательство этого утверждения предоставляем читателю. Оно следует из того, что сходимость Fn(x) —► F(x) при каждом х влечет за собой в силу непрерывности F равномерную сходимость на любом конечном отрезке. Равномерная малость Fn(x) — F(x) на «краях» обеспечивается малостью F(x) или 1 - F(x). Замечание 4. Если распределения Fn и F дискретны и имеют скачки в одних и тех же точках х\,Х2,... , то Fn ^> F будет эквивалентной, очевидно, сходимости вероятностей значений х\,xi,... (Fn(x\. + 0) - Fn(xk) —> F(xj. + 0) — F(xk)). Введем теперь некоторые удобные для дальнейшего обозначения. Пусть £п, £ — некоторые случайные величины (заданные, вообще говоря, на разных вероятностных пространствах) такие, что £„ €= Рп, f ^= Р. Определение 7. Если Рп => Р, то будем говорить, что £„ сходится к £ по распределению, и обозначать это через £„ => £. Мы используем здесь тот же символ =>, что и для обозначения слабой сходимости, но это нигде к недоразумениям не приведет. Ясно, что £п —>£ влечет за собой £„ => £, но не наоборот. В то же время справедливо следующее утверждение. Лемма 3. Если £„ => £ (Fn => F), /wo можно на одном вероятностном пространстве построить случайные величины £'п и £' такие, что Р(£'п < х) — P(fn < ж) = ВД, Р(£' < х) = Р(£ < х) = F(x), Доказательство. Определим обратные функции F„ (t) = sup(x: Fn(x) ^ t), F~l(t) = sup(x: F(x) ^ t). (Если F(x) непрерывна и строго возрастает, то F~ (t) совпадает с решением уравнения F(v) = t.) Пусть г) Е Uo,i- Положим (см. §3.2) и покажем, что £'п—►£'. Для этого достаточно доказать, что F~l(t) —> F~l(t) для п. в. te [0,1]. Функции F и F-1 являются монотонными, и, стало быть, число точек разрыва для каждой из них не более чем счетно. Это означает, что для всех t G [0,1] за исключением, быть может, счетного множества Т функция F~l(t) будет непрерывной и точка F~l(t) будет точкой непрерывности F. Допустим противное: требуемая сходимость F„ (t) —*■ F~ (t) отсутствует. Это будет означать, что найдутся t £ Т, е > 0 и подпоследовательность п' такие, что F~,\t) < F~l(t)-e (или > F~l(t) + e). Применение Fn> дает эквивалентное неравенство t<Fn,{F~\t)-e). При достаточно малом е F (t) — е также будет точкой непрерывности F и, следовательно, правая часть последнего неравенства будет сходиться к F(F~ (t)—e).
124 Глава 6. О сходимости случайных величин и распределений Это означает, что t ^ F{F~\t) - е), F~\t) ^ F~\t) - е. Мы получили противоречие, доказывающее требуемое утверждение. ■ Лемма 3 останется справедливой и для векторнозначных случайных величин. Иногда удобно иметь также простой символ для записи выражения «распределения £„ слабо сходятся к Р ». Мы будем записывать это соотношение в виде 6.^>Р, (7) так что символ €=> выражает тот же факт, что и =>, но соединяет объекты разной природы так же, как это делает символ ^ в соотношении f ^ P (слева в (7) стоят случайные величины, а справа — распределение). В этих терминах утверждение теоремы Пуассона можно записать в виде 5П {=> Нц, а утверждение закона больших чисел для схемы Бернулли в виде Sjn & lp. Совпадение распределений f и rj будем обозначать символом f = rj. р Замечание 5. Ясно, что если fn => f, еп —> 0, то f„ -f еп => f. Действительно, при любых t и 6 > О таких, что t, t±6 являются точками непрерывности P(f < t), будем иметь lim supP(f„ + еп < t) = lim supP(fn + en < t, en > -6) ^ n—>оо n—*oo ^ lim sup P(f„ < t + 6) = P(f < t + 6). n—>oo Аналогично lim inf P(£n + en < t) ^ P(£ < t - 6). n-*oo Так как P(£ < t ± 6) могут быть сделаны выбором 6 сколь угодно близкими к P(f < t), то отсюда следует требуемая сходимость. Приведем аналоги теорем 4, 5 в терминах распределений. Теорема 4А. Если £п => f и H(s) удовлетворяют условиям теоремы 4, то щи) => що- Теорема 5А. Если £п => f и {£„} равномерно интегрируема, то существует Е£ и Е£п - Е£. Есть два пути доказательства этих теорем. Один из них состоит в сведении их к теоремам 4, 5. Для этого надо построить случайные величины £'п = Fnl(rj) и £' = F~l(rj), где 1) ^ Uo,i, F^1, F~l — обратные функции к F„, F, и доказать, что £,—*£' (мы уже знаем, что F~l(rj) ^ F; если F разрывна или не строго монотонна, то F~l должна быть определена, как в лемме 3). Другой путь состоит в проведении доказательств заново на языке распределений. При наличии незначительных дополнительных предположений это оказывается иногда даже проще. Чтобы проиллюстрировать это, предположим, например, в теореме 4А, что функция Н непрерывна. Надо доказать, что Ед(Н(£п)) —> Ед(Н(£)) для любой непрерывной и ограниченной функции д. Но это есть прямое следствие (4), (5) при / = д о Н (/ есть суперпозиция функций д и Я).
§2. Сходимость распределений 125 В теореме 5А предположим, что £n ^ О (это не ограничивает общности). Тогда, интегрируя по частям, получим ОО 00 Е£п = - I х dP(£n > х) = f P(£n > х) dx. (8) о о Так как в силу равномерной интегрируемости 00 sup [ Р(£„ > х) dx ^ supE(£n;£„ >N)^0 п J п N при N —> со, то интефал в (8) сходится равномерно. Так как, кроме того, P(tn>x)-+P(t>x) п. в., то ОО ОО lim E£n = lim / P(fn ^ x) dx = [ P(f ^ x) dx = Ef. П-ЮО П-ЮО J J 0 0 ■ Условия, обеспечивающие равномерную интефируемость, содержатся в лемме 1. Приведем здесь модификацию п. 4 этой леммы на случай слабой сходимости. Лемма 1А. Если £„ равномерно интегрируемы слева, £n => f, Е£„ —► Е£, то £„ равномерно интегрируемы. Мы предлагаем читателю построить примеры, показывающие, что все три условия леммы существенны. Из леммы 1А следует, в частности, что если £п ^ 0, £„ => £, Е£„ —► Е£, то £п равномерно интегрируемы. Как и для теорем 4А, 5А здесь также возможны два пути доказательства. Один из них состоит в использовании леммы 1. Мы приведем здесь иное и несколько более простое доказательство. Доказательство леммы 1А. Предположим для простоты, что ^п^0и допустим, что лемма не верна. Тогда найдутся е > О, подпоследовательности п' —► со и ЛГ(п') —► со такие, что E(U, t« > N(n')) > е. Так как Е£п* = E(fn»; £П' ^ N) + E(f„', £„» > N), то для любого N, являющегося точкой непрерывности распределения £, Е£ = НтЕ6,£Е(£^ЛГ) + е. Выберем N так, чтобы первое слагаемое в правой части превосходило Е£ — е/2. Тогда мы получим противоречие Е£ ^ Е£ + е/2, доказывающее лемму. Переход к произвольным £„, равномерно интефируемым слева, мы предоставим читателю. ■ Бывает полезной также следующая Теорема 7. Пусть £п => £, H(s) дифференцируема в точке а, Ьп —► О при п —> со. Тогда Я(о + &„£„) - Н{а) Если Н'(а) = О и существует Н"(а), то Н(а + Ьп(п) - Н(а) _ Z2 ., Ы 2 £Н'(а). Н"(а).
126 Глава 6. О сходимости случайных величин и распределений Доказательство. Рассмотрим функцию (а + х) - Н(а) — при х ф О, X Н'(а) при х = О, которая будет непрерывной в точке х = 0. Так как 6П£П => 0, то по теореме 4А h(bn£n) => /i(0) = H'(a). Пользуясь снова этой теоремой (для двумерных распределений), получим = КЪп£п)£п => Н (а)£. К Второе утверждение доказывается точно так же. ■ Многомерный аналог этой теоремы будет выглядеть несколько сложнее. При необходимости читатель может получить ее самостоятельно, следуя рассуждениям теоремы 7. § 3. Условия слабой сходимости Вернемся к понятию слабой сходимости. Мы имеем два критерия этой сходимости: (4) и теорема 6. Однако с точки зрения применений (проверки их в конкретных задачах) оба эти критерия неудобны. Значительно проще было бы, например, доказывать сходимость Е/(£п) —► Е/(£) не для всех Офаниченных непрерывных /, а для функций / из какого-нибудь достаточно узкого и просто устроенного класса. Ясно, что совсем узким такой класс быть не может. Прежде чем формулировать основные утверждения, введем в рассмотрение некоторые понятия. Расширим класс в?~ всех функций распределения до класса & функций G, удовлетворяющих условиям Fl, F2 из §3.2 и условиям G(-oo) ^ 0, G(oo) ^ 1. Функции G из & можно называть обобщенными распределениями. Их можно представлять себе как функции распределения несобственных случайных величин f, принимающих с положительной вероятностью и бесконечные значения, так что Сг(-оо) = Р(£ = -оо), 1 - G(oo) = P(f = со). Мы будем писать Gn => G, Gn e #, G G ^, если Gn(x) —> G(x) во всех точках непрерывности G(x). Теорема 8 (Хелли). Класс 3 есть компакт относительно сходимости =>, т.е. из любой последовательности {Gn}, Gn G &, можно выделить сходящуюся подпоследовательность Gnk ^GG^. Доказательство этой теоремы см. в Приложении 4. Следствие 6. Если любая сходящаяся подпоследовательность {Gnk} из {Gn}, Gn E &, сходится к G, то Gn=> G. Доказательство. Если Gn ф- G, то существует точка xq непрерывности G такая, что Gh(xq) -/+ G(xq). Так как Gn(xo) E [0,1], то должна существовать подпоследовательность Gnk(xo) —»• g Ф G(xq). Однако по предположению это невозможно, так как Gnk(xo) —> G(xq). ■ Причина расширения класса вг всех функций распределения состоит в том, что этот класс не является компактом (в смысле теоремы 8), а сходимость Fn => G, h(x) =
§3. Условия слабой сходимости 127 Fn G ^", еще не означает, что G С .^~. Например, последовательность {О, х ^ -п, 1/2, - п< ж ^ п, (9) 1, ж > п, всюду сходится к функции <2(ж) = 1/2 £ &~, соответствующей несобственной случайной величине, принимающей значения ±оо с вероятностями 1/2. Однако иметь дело с классом {? тоже не совсем удобно. Дело в том, что сходимость в точках непрерывности Gn => G в классе <7 вовсе не эквивалентна сходимости J f dGn —> J f dG (см. пример (9) для / e 1), да и сами интегралы / / dG не определяют однозначно G (они определяют приращения G, но не значения G(-oo) и G(oo)). Введем теперь два понятия, которые помогут избежать отмеченных неудобств. Определение 8. Последовательность распределений {Рп} (или функций распределения {Fn}) называется плотной, если для любого е > О существует N такое, что infPn([-i\T,i\r]) > 1-е. (10) п Определение 9. Мы будем говорить, что класс X непрерывных и ограниченных функций / определяет распределение, если равенство / f(x)dF(x) = f f(x)dG(x), FG^, G <E /7 для всех /G«/ влечет за собой F = G (или E/(f) = Ef(rj) для всех / G X, где одна из случайных величин f, rj собственная, влечет £ = т]). р Основной теоремой этого параграфа является Теорема 9. Пусть класс X определяет распределение. Тогда для существования распределения F G &~ такого, что Fn => F, необходимо и достаточно, чтобы*) 1) последовательность {Fn} была плотной; 2) существовал lim Г / dFn для всех f G X. п—>оо Доказательство теоремы 9. Необходимость очевидна. Достаточность. В силу теоремы 8 существует подпоследовательность Fnk => F G &. Но по условию 1) F G в?. Действительно, если х ^ N есть точка непрерывности F, то по определению 8 F(x) = \imFnk(x) ^ \ - е. Аналогично устанавливается, что для х ^ — N выполняется F(x) < е. Так как е произвольно, то jF(-oo) = 0, jF(oo) = 1. Далее, возьмем любую другую сходящуюся подпоследовательность Fn' => G G &. Тогда для любой / G X WmjfdFnk = jfdF, \imffdFn.k=JfdG. (11) Но по условию 2) f fdF= f fdG (12) 3) В таком виде теорема о сходимости распределений сохраняется и для пространств более общей природы. Роль отрезков [—N, N] в (10) в этом случае играют компакты (ср. с [1, 7, 15, 25]).
128 Глава 6. О сходимости случайных величин и распределений и, следовательно, F — G. По следствию 6 теорема доказана. ■ Если доказывать сходимость к «известному» распределению F Е .^", то условие плотности в теореме 9 становится ненужным. Следствие 7. Пусть класс ~£ определяет распределение и J fdFn^ J' fdF, Feff, (13) для любой f £ ~l. Пусть, кроме того, выполнено хотя бы одно из следующих трех условий: 1) последовательность {Fn} является плотной; 2) f е &\ 3) / = 1 6 X. Тогда F £ & и Fn => F. Доказательство следствия почти очевидно. Утверждение при условии 1) сразу вытекает из теоремы 9. Условие 3) и сходимость (13) влекут за собой условие 2). Если выполнено 2), то в соотношениях (11), (12) F Е ^~ и, значит, G — F. ■ Так как, как правило (увидим это ниже), хотя бы одно из условий 1)~3) бывает выполненным, то основной задачей становится проверка сходимости (13) для класса X. Отметим также, что в случае, когда доказывается сходимость к «известному» заранее распределению F 6 ^, вся схема рассуждений может быть иной и более простой. Один из таких альтернативных подходов изложен в § 7.4. Приведем теперь несколько примеров классов X, определяющих распределение. Пример 1. Класс Х0 функций, имеющих вид f (\- Я> х^а> На отрезке [а, а + е] функции /а?е определяются как линейные и непрерывные (график fa,e(x) CM- на рис. 7). Это двупараметрическое семейство функций. Покажем, что Х0 определяет распределение. Пусть / / dF — J f dG для всех / G <£0- Тогда F(a) ^ J fa,e dF = J /в|£ dG ^ G(a + e), Рис. 7. и наоборот, G(a) ^ F(a + e) для любого € > 0. Если взять в качестве а точку непрерывности F и G, мы получим F(a) = G(a), F = G. Аналогичным образом легко убедиться, что класс J,0 «трапециеобразных» функций /(ж) = min(/e>0 1 - Де) также определяет распределение.
§ 3. Условия слабой сходимости 129 Пример 2. Класс Xf непрерывных ограниченных функций таких, что для каждой / G -£0 (или / G Л,,) существует последовательность /n G «//, sup|/„(x)| < М, х для которой lim /п(#) = /(ж) при каждом х G HL п—»оо Пусть / / dF = J f dG для всех / G -£,. По теореме о сходимости мажорируемой последовательности lim f fndF= Г fdF, lim f fndG= f f dG, /€-/,. Поэтому J fdF = J fdG, /G -4?; F = G и, следовательно, -/', определяет распределения. Пример 3. Класс Ск всех ограниченных функций f(x) с ограниченной равномерно непрерывной производной f^k'(x) к-го порядка (sup|.p'(ж)| < оо). х Очевидно, Ск определяет распределение, так как обладает свойствами *£^. Точно так же убеждаемся, что будет определять распределение подкласс С^ С Ск финитных функций (обращающихся в нуль вне конечного интервала). Это следует из того, что С® обладает свойством класса Х4 относительно класса Х0 трапециеобразных (и, следовательно, финитных) функций. Очевидно, что класс Ск удовлетворяет условию 3) следствия 7 и, стало быть, для доказательства сходимости Fn => F G вг достаточно проверять сходимость (13) лишь для f € Ск. Если в качестве X взять класс с\ финитных дифференцируемых функций, то соотношение (13) вместе с условием 2) следствия 7 можно записать в виде Г Fnf'dx-+ f Ff'dx, Fe&~. (14) (Нужно провести интегрирование по частям в (13), где /' снова есть финитная дифференцируемая функция.) Критерий сходимости (14) иногда бывает полезным. Из него сразу видно, например, что из сходимости Fn(x) —* F(x) в точках непрерывности (т.е. почти всюду) следует (13), так как из названной сходимости и теоремы о мажорируемой сходимости вытекает соотношение (14), эквивалентное (13). Пример 4. Одним из наиболее важных классов, определяющих распределение, является однопараметрическое семейство комплекснозначных функций {ettx}, t G R. Изучению свойств / ettx dF(x) будет посвящена следующая глава. Все сказанное в этой главе может быть после очевидных изменений перенесено на многомерный случай.
Глава 7 Характеристические функции § 1. Определение и свойства характеристических функций Предварительно отметим, что наряду с вещественными случайными величинами £(ш) мы с таким же успехом можем рассматривать и комплекснозначные случайные величины, понимая под этим функцию £\(w) -f t^(^), где (fbfo) — случайный вектор. Естественно положить E(£i -N£2) == Ef l + *Eif2- Комплекснозначные случайные величины £ = £1 -f ifr и rj = rj\ +Щг независимы, если (т-алгебры сг(^х,^2) и 0-(t7i,772), порожденные соответственно векторами (fbfo) и (viiVl)* независимы. Без труда проверяется, что для таких величин Е£т? = E£Etj. Определение 1. Характеристической функцией (х.ф.) вещественной случайной величины f называется комплекснозначная функция ¥><(«) = Ее* = JeitxdF(x), где t — действительное число. Если функция распределения имеет плотность f(x), то х.ф. равна <р$) = Jettxf(x)dx и есть просто преобразование Фурье функции /(ж). В общем случае х.ф. есть преобразование Фурье—Стилтьеса над функцией F(x). Х.ф. существует для любой случайной величины £. Это сразу следует из того, что М01 = / е"Х dF(x)\ ^ J 1 dF(x) = 1. Х.ф. представляют собой прекрасный аппарат для исследования свойств сумм независимых случайных величин. Свойства характеристических функций. 1. Для любой случайной величины f (f((0) = 1 и \<f((t)\ ^ I для всех t. Это свойство очевидно. 2. Для любой случайной величины £ <Pa(+b(t) = ettb<p((ta). Действительно, Vai+b(t) = Ee^+V = eitbEeiati = eM<p((ta).
§ 1. Определение и свойства х. ф. 131 3. Если fi,...fn — независимые случайные величины, то х.ф. суммы Sn = f 1 + • • • + fn равна (PsAt) = <P(i(t)'-(Ptn(t)' Доказательство следует из свойств математического ожидания произведения независимых случайных величин. Действительно, <ps.(t) = Ее"«'+ ""«■> = Ее^'е"6 • • • е^ = Так что свертке F^ * F^2 соответствует произведение <р^ <р{2. 4. Х.ф. (ft(t) является равномерно непрерывной функцией. Действительно, \<p(t + Л) - у>(*)1 = |Е(е*+Л>« - е*)| ^ Е|е'"* - 1| -> О по теореме о сходимости мажорируемой последовательности (см. следствие 6.3), так как |е^ - 1|->0 при h -> О, \eih* - 1| ^ 2. р 5. Если существует k-й момент Е\£\к < оо, к ^ \, то существует непрерывная к-я производная функции (p{(t) и <р(к'(0) = ikE£k. Так как |/ixeitxdF(x)\ ^ J\x\dF(x) = E|f| < оо, то интеграл /ixeitxdF(x) равномерно сходится относительно t. Поэтому возможно дифференцирование под знаком интеграла: <p'(t) = г [ xeitx dF(x), <p'(0) = гЕ£. Дальнейшие рассуждения проводятся по индукции. Если для I < к <p(l\t) = il I xleiixdF{x), (p(^)(t) = il+l fxl+leitxdF(x) в силу равномерной сходимости интеграла в правой части. Значит, у?"+1'(0) = t'+1E£'+1. Следовательно, если Е|£|* < оо, то в окрестности точки t = О справедливо разложение Утверждение в обратную сторону верно лишь частично: Если производная четного порядка уЛ2*' существует, то Е|£|2*<оо, *><2*>(0) = (-1)*Е£2\ Докажем это свойство для А; = 1 (далее можно использовать индукцию). Достаточно убедиться в конечности E|f | . Имеем 2у>(0) - <p(2h) - (p(-2h) _ ( eiht - e~i}* \ 2 ™2 то 4/i2 V 2/i ) "E h2 '
132 Глава 7. Характеристические функции Так как (sin h()/h —> £ при /г —> 0, то по лемме Фату r w л-oV 4/i2 ) л-о Esin2/i£ sin2/i£ 2 х ^ Е hm =— = Е£ . h2 л->о /i2 6. £слм £ ^ 0, то (р((\) определена в плоскости комплексного переменного А при ImA ^ 0. При этом |<^(А)| ^ 1, <р{(\) есть аналитическая функция в области Im А > 0, непрерывная, включая границу Im A = 0. Аналитичность следует из возможности при Im A > 0 дифференцирования под знаком интеграла ^(А) = JeiXxdF{x). о Непрерывность доказывается так же, как в свойстве 4. Сказанное означает, что что для неотрицательных £ х. ф. <Р((\) однозначно определяет функцию fi(s) вещественного переменного s ^ 0, равную (3(s) = <P{(is) = Ее~5^ и называемую преобразованием Лапласа (или Лапласа—Стилтьеса) над распределением f. Из свойств аналитических функций вытекает и обратное утверждение: преобразование Лапласа /3(s) на полуоси s ^ 0 однозначно определяет х. ф. <Р{(Х). 7. "ipfo) = <Р{(~~t) = (p-{(t), где черта означает комплексную сопряженность. Доказательство следует из равенств ЩЬ) = Ее5* = Ее1* = Ee~it(. Отсюда вытекает, что если f симметрична (распределена так же, как — £), то ее х. ф. вещественна. Можно показать и обратное, если воспользоваться теоремой единственности, о которой речь будет идти ниже. Найдем теперь х. ф. основных законов распределений. Пример 1. Если £ = а с вероятностью 1, т.е. f ^ 1а, то <P((t) = etta. Пример 2. Если f ^ Вр, то (p((t) = peil + (1 - р) = 1 + p(eil - 1). Пример 3. Если f €= Фо,1, то 00 -00 Дифференцируя по £ и интегрируя по частям (хе~х I dx = —de~x /2), получим tp'(t) = -1= / ixj**-*2'2 dx = —4= f teitx~x2/2 dx = -t<p(t), V27T J V27T У (\n<p(t))'=-t, \n<p(t) = -- + c. Так как y>(0) = 1, то с = 0, у>(*) = е~'2/2. Пусть теперь 7] — нормально распределенная случайная величина с параметрами (а,а). Тогда ее можно представить в виде rj = а£ + а, где f нормально распределена с параметрами (0,1). X. ф. 7] определяется по свойству 2: ¥>*(*) ita-(ta)2/2 _ ita-t2o2/2 е е х ' ' = е
§ 1. Определение и свойства х. ф. 133 Дифференцируя <pv(t) для rj ^ Фо,<т2> получим Erjk = О при нечетных А: и Ег]к = ак(к - \)(к - 3)... 1 при к = 2,4,.... Пример 4. Если f ^ П^, то ^(0 = Ее* = £«"£*-'• = в""Е ^ = е-"е"е" = «ф[р(ев - 1)]. к к Пример 5. Если f имеет показательное распределение Га с плотностью ае~ах при х ^ 0, то е(0 = «/ itx—ax <Pt(t) = a / e™-u'dx = а а - it о Значит, если £ имеет «двустороннее» показательное распределение с плотностью 1/2e"w, -оо < ж < со, то 1 / 1 1 \ 1 t2' Если f имеет геометрическое распределение, Р(£ = А:) = (1 - p)pfc, А; = 0,1,... , то 1-Р *-<<« = т^- Пример б. Если f ^= Ko,i (имеет плотность 1/(7г(1 -f х ))), то у^(£) = е-'*'. Читатель может легко доказать это чуть позже, пользуясь формулой обращения и примером 5. Пример 7. Если f ^= Uo,i, то 1 их . ей - 1 Mt) = fjl dx = it о X. ф. сумм fi + &> f l + & + £ь • • •» рассматривавшихся в примере 3.5, будут равны в силу свойств 3 (в* - I)2 (в* - I)3 fti+Mf) = £2 > УЪ+fc+fcW = ^3 >•*• * Как установить, является ли та или иная функция (р характеристической? Иногда это можно сделать с помощью указанных свойств. Предлагаем читателю установить, являются ли характеристическими функции (1 +t)~ , 1 +t, sint, cost и, если являются, то каким распределениям соответствуют. В общем случае ответ на поставленный вопрос является сложным. Сформулируем здесь без доказательства один из известных результатов. Теорема Бохнера—Хинчина. Для того, чтобы непрерывная функция <p(t), обладающая свойством <р(0) = 1, была характеристической, необходимо и достаточно, чтобы она была неотрицательно определенной, т. е. чтобы для_любых действительных t\,..., tn и любых комплексных чисел Х\,..., Лп выполнялось (А — сопряженное к А) п J2 ?(*к - «,-)аД,- > о. kj-\
134 Глава 7. Характеристические функции Отметим, что необходимость этого условия почти очевидна, так как если <p(t) = Ее"*, то Е^^ *=1 2 >0. Укажем теперь еще два свойства х. ф. 8. Если распределение £ имеет плотность, то <Pz(t) —*• 0 я/?и £ —* со. Это есть прямое следствие теоремы Лебега о преобразованиях Фурье. Обратное утверждение неверно. В целом же скорость стремления к нулю функции (f((t) при \t\ —*• со тем выше, чем выше гладкость F(x). Формулы примера 7 в этом смысле типичны. Если плотность f(x) имеет интефируемую k-ю производную, то интефированием по частям получаем щ{1) = J eitxf(x) dx = i J eitxf'(x) dx = ...=-±^J «.«"/<»>(*) dx. Отсюда следует, что W)l < ш- С 9. Будем называть распределение £ решетчатым с шагом решетки h, если существуют а и h такие, что Y2 P(£ = a + kh) = 1. fc=-00 Случайная величина £ имеет решетчатое распределение с шагом h > О тогда и только тогда, когда П /2тг\| Действительно, если £ решетчата, то Vi(t) = ейв ^ Р(£ = а + *Л)еЙЫк и, следовательно, п(^)=е^1\ (2) Обратно, если верно (2), то при t = lir/h <P(-a(t) = Е cos£(£ - a) -f гЕ sin£(£ - а) = 1. Следовательно, E(l -cos£(£-a)) = 0 и по свойству Е4 cos£(£-a) = 1, (£-a)27r//i = 2жк, к — к(ш), с вероятностью I. Среди решетчатых распределений важное место занимают распределения целочисленных случайных величин. Для них а и h — целые числа, и мы можем положить для простоты а = О, h = I. Тогда (p{(t) будет функцией переменной z = eli и будет периодической по t с периодом 27г. Значит, в этом случае достаточно знать поведение х. ф. на отрезке [—7г,7г], или, что то же, знать поведение функции ^(z) = Е*« = 5>*Р(* = *)
§ 2. Формула обращения 135 на единичной окружности \z\ = 1. Функция ip((z) называется производящей функцией случайной величины f (или распределения f). Так как 4p((elt) = (p^(t) есть х. ф., то для производящих функций остаются справедливыми все свойства х. ф. с теми лишь изменениями, которые вытекают из замены аргумента. Подробнее о применении аппарата производящих функций см. § 8. § 2. Формула обращения Итак, для каждой случайной величины определена соответствующая ей х. ф. Покажем теперь, что класс X функций ettx определяет распределение, т. е. что по х. ф. однозначно восстанавливается распределение. Этот факт доказывает формула обращения. Теорема 1 (формула обращения). Если F(x) — функция распределения случайной величины £, a (p(t) — х.ф. £, то для любых точек непрерывности х и у функции F(x) F(y) - F(x) = - lim J v>(t)e-' ' dt». (3) Если функция <p(t)/t интегрируема на бесконечности, то становится законным предельный переход под знаком интеграла, и можно записать F(y) - F(x) = - у V(t) dt (4) Доказательство. Предположим сначала, что существует плотность /(ж), а х. ф. (p(t) интегрируема. Тогда в силу известной формулы обращения для преобразования Фурье оо /(*) = ^ / e-iix<p(t)dt. (5) -00 Утверждение теоремы в этом случае получится, если проинтегрировать обе части этого равенства в пределах от х до у и поменять в правой части (в силу абсолютной сходимости) порядок интегрирования2). Пусть теперь (p(t) — характеристическая функция f с произвольным распределением F(x). Рассмотрим на одном вероятностном пространстве с £ случайную величину г], независимую от £ и распределенную нормально с параметрами (0,2а ). Как мы уже знаем, характеристическая функция rj будет равна e~l a . * В литературе формула обращения часто приводится также в виде F(y) — F(x) = А 2^- lim f -—^—tp(t)dt, эквивалентном (3). А^ос_А ' Формулу (4) можно получить из (5) и без интегрирования, заметив, что »_z есть значение в нуле плотности, равной свертке двух плотностей: f(x) и плотности равномерного на [—у, —х] распределения (замечание по этому поводу см. также в конце §3.6). Х.ф. этой свертки равна
136 Глава 7. Характеристические функции Это означает, что характеристическая функция £ + rj, равная (f(t)e интегрируема. Поэтому будет справедливо равенство 00 -itx _ -ity Fi+„ (у) - Fi+V (*) = ^f C- ^— <P(t) ^ dt. (6) -00 Так как P(\rj\ > 6) —> 0 при любом <S > 0 и а —► О, то в силу главы 6 F^ => F (если бы была последовательность ^->0и каждому а^ соответствовала бы своя случайная величина щ, то, очевидно, мы имели бы f + % —>£; i^+7/fc => -F). Значит, если ж и у есть точки непрерывности F, то F(y)—F(x) — \\m{F^+r]{y)— <7->0 ^+т/(ж)). Это вместе с (6) доказывает утверждение теоремы. ■ В доказательстве этой теоремы использован прием, который можно назвать «сглаживанием» распределений. Он часто применяется для преодоления технических трудностей, связанных с формулой обращения. Следствие 1 (теорема единственности). Х.ф. случайной - величины однозначно определяет ее функцию распределения. Доказательство следует из формулы обращения и из того, что разности F(y) - F(x) однозначно определяют F(x). ш Для решетчатых распределений формула обращения упрощается. Пусть для простоты f — целочисленная случайная величина и ip^z) = Ez^ есть ее производящая функция. Тогда И=1 Действительно, переходя к х.ф. (p{(t) = ^2ettjP(^ = j) и делая замену в (7) j z = it, получим, что интеграл в правой части (7) равен 7Г 1 2тг — 1С J e-itkn(t) Я = ^ £ Р« = i) / eUiJ~k) dt- Здесь все интегралы в правой части, очевидно, равны нулю, кроме интеграла при j = к, равного 27Г. ■ Формула (7) есть не что иное, как формула для коэффициентов ряда Фурье, и имеет простой геометрический смысл. Функции {е& = ettk} образуют ортонормированный базис в гильбертовом пространстве ^(-7г,7г) комплекснозначных функций, интегрируемых с квадратом, со скалярным произведением 7Г (f,g) = ^f f(t)g(t)dt
§3. Теорема непрерывности (сходимости) 137 (д — комплексно-сопряженное к д). Если (р^ = Х)е&Р(£ = *0> то из равенства tft = X^fcC^O^) немедленно следует, что Р(€ = *) = (?«, е») = ^ У e-"V{(*)Vtt- -7Г § 3. Теорема непрерывности (сходимости) Пусть {^п(0}£°=1 ~~ последовательность х.ф., а {^п}£°=1 — последовательность соответствующих функций распределения. Напомним, что знак => означает слабую сходимость распределений, определенную нами в главе 6. Теорема 2 (теорема непрерывности). Для сходимости Fn^> F необходимо и достаточно, чтобы <pn(t) —► (p(t) при каждом t, где <p(t) —х.ф., соответствующая F. Теорема очевидным образом вытекает из следствия 7 предыдущей главы (здесь выполнены сразу два из достаточных условий следствия 6.7: условия 2) и 3)). Ее доказательство будет получено также более простым способом в § 4. В § 1 для неотрицательных случайных величин £ было введено понятие преобразования Лапласа (3(s) = Ее~5^. Пусть /3n(s), (3(s) — преобразования Лапласа, соответствующие Fn и F. Справедливо аналогичное теореме 2 утверждение: Для Fn => F необходимо и достаточно, чтобы (3n(s) —► (3(s) при каждом s ^ 0. Как и теорема 2, это утверждение вытекает из следствия 6.7, так как класс функций {/(ж) = e~sx}, s ^ 0 (как и {ettx}), определяет распределение (см. свойство 6 из § 1) и, кроме того, выполнены достаточные условия 2), 3) следствия 6.7. Теорема 2 обладает одним недостатком — в ней заранее требуется знать, что функция <p(t), к которой сходится х.ф. <pn(t), является характеристической. Между тем таких сведений может и не быть (см., например, §8.9). В связи с этим возникает естественный вопрос, при каких условиях предельная функция (p(t) будет характеристической. Ответ на этот вопрос содержится в следующей теореме. Теорема 3. Пусть <pn(t) = J ettx dFn(x) есть последовательность характеристических функций и (pn(t) —* 4>(t) при п —> со и при каждом t. Тогда следующие условия эквивалентны: а) (p(t) является х. ф., б) (p(t) непрерывна в точке t = 0, в) последовательность {Fn} является плотной. Таким образом, если мы установим, что (pn(t) —* (p(t) и выполнено одно из трех перечисленных свойств, то можно утверждать, что существует распределение F такое, что (р является х. ф. F и Fn => F. Доказательство. Эквивалентность условий а) и в) вытекает из теоремы 6.9. То, что из а) следует б), нам известно. Осталось установить, что из б) следует в). Для этого покажем сначала, что справедлива Лемма 1. Если (р есть х.ф. f, то при любом и > 0 и —и
138 Глава 7. Характеристические функции Доказательство. Правая часть этого неравенства равна [l-e-itx)dF(x)dt, i//0 -и -оо где F — функция распределения £. Меняя порядок интефирования и замечая, что /0-<-)*-(«+£)1>0-~)- получим и оо 1 Л /vl /* / sintta:\ -Ju-m*=2j(i-—)&(*)> —и -оо >2/tx ^2 1*1>2/и \*\>2/и' \х\>2/и Пусть теперь выполнено условие б). В силу леммы 1 IX IX lim sup / dFn(x) ^ lim sup - / [1 - <pn(t)] dt = - / [1 - (p(t)] dt. п-юо J n-+oo U J U J \x\>2/u -и -и Так как (p(t) непрерывна в точке 0 и (р(0) = 1, то среднее значение интефала, стоящего в правой части, может быть сделано выбором и сколь угодно малым. Это означает, очевидно, выполнение условия в). ■ С помощью х. ф. можно не только устанавливать факт сходимости распределений, но и оценивать также скорость этой сходимости в тех случаях, когда удается оценить скорость убывания (рп — <Р> С соответствующими примерами мы столкнемся в §5. Основные применения аппарата х. ф. встречаются в главах 8, 11, 16. В этой главе мы также коснемся применений х. ф., однако более иллюстративного характера. Прежде чем переходить к ним, рассмотрим еще один подход (возможно, он покажется читателю более простым) к доказательству теоремы 2 о сходимости распределений. § 4*. Другой подход к доказательству теорем сходимости к известному распределению При доказательстве с помощью х. ф. сходимости Fn => F к известному распределению F вместо схемы, изложенной в §6.3, 6.2, 7.3, можно предложить другую, которая может оказаться в данном случае предпочтительнее. Она состоит в следующем.
§4*. Доказательство теорем сходимости 139 1. После определения 6.6 слабой сходимости следует доказать возможность сужения класса функций /, для которых надо проверять сходимость JfdFn-+ JfdF (8) Однако сделать это нужно «непосредственно», а не опираясь на теорему 6.6, как это было в § 6.3. Таким классом может быть любой класс, определяющий распределение, например, класс С{? финитных (отличных от нуля на конечном отрезке) к раз непрерывно дифференцируемых функций при к ^ 2. Схема доказательства возможности сужения такова. Пусть С — класс всех непрерывных ограниченных функций на прямой, С — класс непрерывных финитных функций. Утверждение 1. Если соотношение (8) верно для любой /JE С0, то оно верно для любой / Е С. Доказательство, Выберем де Е С , 0 ^ де ^ 1, так, чтобы / (\-g£(x))dF(x)^e. Это всегда возможно, так как для любой функции д Е С0, 0 ^ д ^ 1, «/(О) = 1, выполняется 1 - д(бх) —► 0 при б —► О, и по теореме о мажорируемой сходимости J(l-g(6x))dF(x)-+0. Пусть /ЕС, II/H = sup|/(x)| и (8) справедливо для /Е С0. Тогда fg£ Е Сг, X |/(1 -&)/<№„| < 11/11 (l - f gedF^j - ll/Ц (l - JgedF^ < e||/||. (9) Следовательно, в силу равенства / = fgc + f(l — ge) limsup fdF„- / / dF\ ^ ton sup /(1 ~ ge)f dF„\ + J J St dF„ - f fg£ Af| + !/(!- 9e)f dF < 2e||/||. Так как е здесь произвольно, то для / Е С справедливо (8). ■ В (9) использован тот факт, что J dF = 1. Утверждение 2. Если соотношение (8) верно для любой / Е с£, k ^ 1, то оно верно и для любой /ЕС. Доказательство в силу утверждения 1 очевидно, так как / Е С можно равномерно приблизить функцией fts\ E С*?. Можно рассмотреть, например, функции х+6 /<*)(*) = ^ / /(«И, равномерно близкие к / Е С и дифференцируемые. Повторив эту операцию, получим дважды дифференцируемую функцию и т.д. ■
140 Глава 7. Характеристические функции Для финитной функции /Ец J fdF = -J Fdf = -J Ff'dx, feci,. Следовательно, критерий (8) можно записать также в форме ffFndx-+ Г/Fdx, feet k^o. (10) Отметим, что доказательство теоремы 6.9 после этого можно упростить (мы уже отмечали это), так как из сходимости Fn(x) —> F(x) в точках непрерывности F (следовательно, всюду, за исключением, быть может, счетного множества) вытекает сходимость (10) по теореме о мажорируемой сходимости. Далее вводится понятие х. ф., как это сделано в §1, и в числе ее свойств нужно доказать равенство Парсеваля. Утверждение 3. Если д G с£, к ^ 2, £ €= F, то E9(0 = ^f<Pd-№)dt, где щ(1) = J ettx dF(x), g(t) = J eltxg(x) dx. Если F имеет плотность h, то равенство Парсеваля записывается в более привычной в математическом анализе форме: J g{x)h(x) dx = -^ f g(t)h(-t) dt. Доказательство. Так как g G c£, A: ^ 2, то в силу свойства 8 характеристических функций # абсолютно интегрируема. Применяя к </(£) формулу обращения, получим ЫО = Е ^ / е~*Ш dt = ^f Ee-'«5W dt = hj ъ^-'Я® dt Мы можем предложить теперь новый вариант доказательства теоремы непрерывности 2. Доказательство теоремы 2. Пусть (рп —* (р ((рп и <р суть х. ф. Fn и F соответственно). Тогда для д G Ск fgdFn = ±J<pn(-t)g(t)dt, (И) где функция \<Рпд\ ^ \д\ интегрируема. Поэтому по теореме о мажорируемой сходимости правая часть в (11) сходится к 1 2тг f<p(-t)W)dt = JgdF.
§ 5. Применение х. ф. в теореме Пуассона 141 § 5. Применение характеристических функций в теореме Пуассона Пусть fi,...,fn — независимые целочисленные случайные величины, Sn — п Ylik, Р(& = 1) = Vk, P(& = 0) = 1 - pk - qk. Формулируемая ниже теорема представляет собой некоторое обобщение3) теорем, полученных в §5.4. Теорема 4. п п |Р(5П - к) - Щ({к})\ ^ £>Л + 2]ГЯк, к=\ к=\ п где fi= ]Г; рк. к=\ Таким образом, если заданы серии sln>s2m • • • ч£,пт П — 1,2,..., независимых целочисленных случайных величин Sn = J2bn, Р(&„=1): Vkn, fc=l P(6n = 0) = 1 - ркп = qkn, /х = ^Pkn> k=\ то для сходимости разности P(Sn = к) — П/Х({А:}) к нулю достаточно, чтобы п п Так как ]Г} pkn ^ p,maxpkn, то последнее условие всегда выполнено, если к=\ к^п maxpkn —^ 0, fi ^ fio = const. к^.п 3* Это обобщение не очень существенно, так как результаты, близкие к теореме 4, можно получить и пользуясь теоремой 5.4, в которой {* может принимать лишь значения нуль и единица. Достаточно заметить, что вероятность события А = [J{£jb ф 0, & Ф 1} оценивается значением ^д* и, к следовательно, p(s» = *) = *i]T)gk + (i-'2^g*)p(s„ = *|I), «.-< i, i= 1,2, где P(5n = А: | Л) = Р (s£ = A:J , S£ образованы случайными величинами ££,
142 Глава 7. Характеристические функции Лемма 2. Если Re/3 ^ 0, то |е"-1|<|/>|, |e"-l-/J|<!^-, е^- 1-/3- Р1 ^ W 6 Доказательство. Требуемые неравенства вытекают из соотношений (в них используется замена t = @v и тот факт, что |es| ^ 1 при Res ^ 0) к"- 1-/3| = 1^-11 = 1 р yV-i)d 0 /5 ) 1 Г м = 1 1 Р 1 <?vdv 0 1 1 о 1 <|/*|, ^\р\ ■/• dv ri Последнее неравенство доказывается аналогично. Лемма 3. Если |а*| ^ 1, |Ь*| ^ 1; fc = 1,... ,п, /яо Па*" Пbk k=\ k=\ ^X)ia* ~b*i- *=1 Таким образом, если <fk(t), ^fc(0 — х.ф., то при любом t п k=\ Доказательство, Обозначим Ап = П a*> Bn = П &*• Тогда |Л„| ^ 1, |Б„| ^ 1, к=\ к=\ \Ап - Вп\ = \Ап_\ап - Вп-\Ъп\ = = \(An-i - Вп-Х)ап + (ап - Ьп)Вп.х\ ^ \Ап_х - Bn_i| + \ап - Ьп\. Применяя это неравенство п раз, получим требуемое соотношение. ■ Доказательство теоремы 4. Имеем Mt) = Ее** = 1 +рк(еа - 1) + ft(7k(*) - 1), где 7*(0 есть Х-Ф- некоторой целочисленной случайной величины. В силу независимости случайных величин & к=\ Пусть далее С ^ П^. Тогда v,c(t) = Eeef = e^«e-,)=n^(t), *=1
§ 6. X. ф. многомерных распределений 143 где ij)k{t) = еРк^е . Следовательно, разность х. ф. (psn и у>< по лемме 3 можно оценить следующим образом: №*(*)-pcWI П^*~П^* к=\ к=\ к=\ где по лемме 2 (Re(e** - 1) ^ 0) Рь / ? ч?\ 2 /sin < 4 А = ^(sin2< + (l-cos*)2) = рЦ—- + 2вт4-\, (i2) n n n / • 2i * \ X) IVfc - iM < 2^fc + ^2Pk(~- + 2sin4 - ). *=1 *=1 t=l Ч z LJ Остается воспользоваться формулой обращения (7), в силу которой |Р(5„ = к) - П„({*})| = |^ / e~"W') - ¥»cW) *| < -Я" "^ L t=1 fc=1 \ ^ ^/J k=l fc=1 Я" » так как ^ /sin Ы£ = |, - /sin4 ^ <ft = |. m 0 0 Если в (12) воспользоваться неравенством \eli —1| ^ 2, то выкладки упростятся, необходимость в вычислении двух последних интегралов отпадет, но оценки будут несколько хуже: Х>* - ^* к 2 (х> + &0' |Р(5Я = к) - П,({*})| ^ 2 (J2 К + J^Pk) • § 6. Характеристические функции многомерных распределений. Многомерное нормальное распределение Определение 2. Если дан случайный вектор f = (£i,f2>- • • >fn), то его х. ф. (х. ф. распределения £) называется функция от вектора t = (t\,... tn), равная n(t) = Ее"? = Ее'"<"> = Ecxp{i^«fc j = г г п 1 = / ехр^ гУ^^xfc >Р^,,...^ (dxu...,dxn), здесь fT — вектор-столбец, транспонированный к £, (£,£) — скалярное произведение.
144 Глава 7. Характеристические функции X. ф. многомерных распределений обладают всеми свойствами (с очевидными изменениями в формулировках), которые излагались выше в § 1-3. Ясно, что <^(0) = 1 и всегда \(p{(t)\ ^ 1, <Pz(-t) — (f^(t). Далее, <p{(t) ty непрерывна. Если существует производную порядка к\ + ... + кп : ву£+•■•+*■ (*)| всюду непрерывна. Если существует смешанный момент E£j'- •£„", то tp^ имеет dt\x • • • 8tkrC = i*l+.-+*. Eg*l.. .£*« t=0 Если существуют все моменты некоторого порядка, то в окрестности точки t = 0 справедливо разложение функции <P{(t), аналогичное (1). Если известна <р$), то х. ф. любой подсовокупности случайных величин (ffci >•••)&•)» очевидно, можно получить, положив все £*, за исключением t^,..., tj. , равными нулю. Следующие теоремы являются простыми обобщениями своих одномерных аналогов. Формула обращения. Если А есть «интервал», определенный неравенствами <*>k < #* < &£, & = 1,...,п, и вероятность P(f Е А) непрерывна на гранях этого интервала, то 1 Г Г ( п e~itk0Lk — e~itkbk 2 г\ P«eA^l™o<wJ-J (П йк е~'" )*®dt>-*" Если существует плотность f(x) случайного вектора f, а х. ф. (f{(t) интегрируема, то формула обращения может быть записана в форме Если функция д(х) такова, что ее преобразование Фурье g(t) = J\^x)g{x)dx интефируемо (это всегда так для достаточно гладких д(х)), то справедливо равенство Парсеваля Е9Ю = Е (2^ / е~т)т * = ^ / ^{~tm dL Из формулы обращения следует, как и раньше, теорема о взаимно однозначном соответствии между х. ф. и функциями распределения и вместе с ней тот факт, что класс функций {е%"'х'} в многомерном случае определяет распределение (ср. с определением 6.9). Слабая сходимость распределений Рп(В) в п-мерном пространстве к распределению Р(В) определяется так же, как в одномерном случае: Рп => Р, если Г f(x)dPn(dx)-> Г f(x)dP(dx) для любой непрерывной и ограниченной функции f(x). Обозначим (pn(t) и (p(t) х.ф. соответственно распределений Рп и Р.
§ 6. X. ф. многомерных распределений 145 Теорема непрерывности 2А. Для слабой сходимости Рп => Р необходимо и достаточно, чтобы при каждом t мп->оо у>п(0 —> ^(0- Если удается установить сходимость <pn(t) к некоторой функции <p(t), то возникает вопрос, будет ли (p(t) x. ф. какого-нибудь распределения или, что то же, будет ли последовательность Рп слабо сходиться к некоторому распределению Р? Ответы на эти вопросы содержатся в следующем утверждении. Пусть Д# — куб, определяемый неравенством тах|ж*| < N. к Теорема непрерывности ЗА. Пусть последовательность х.ф. <pn(t) сходится к функции (p(t) при каждом t. Тогда следующие три условия эквивалентны: а) (р является х. ф., б) (р непрерывна в точке t = 0, в) lim sup J dPn(x) —> 0 при N —> oo. x<£AN Доказательство всех трех теорем проводится так же, как в одномерном случае. Пример 8. Многомерное нормальное распределение определено как распределение с плотностью (см. § 3.3) МХ)- (2ж)"/1е п где Q(x) = хАхТ = ]Г) aijXiXj, \A\ есть определитель положительно определенной матрицы А = \\aij\\. Это центрированное нормальное распределение, для которого Е£ = 0. Распределение вектора f + а при любом постоянном векторе а также называется нормальным. Найдем х.ф. £. Покажем, что Mt) = е-1/2'М'Г, (13) где М = А~1 есть матрица, обратная к А, совпадающая с матрицей ||m,-j|| вторых моментов распределения f : mij = Е№,. В самом деле, 00 ОО П{) = Щ^ J "J dx{..dxn. (14) -oo -oo Выберем ортогональную матрицу С так, чтобы САСТ = D была бы диагональной матрицей, и обозначим через /i\,...,fin значения диагональных элементов. Сделаем замену переменных, положив х = у С и t = vC. Тогда \A\ = \D\ = f[pk, k=\ п itxT - -хАхт = ivyT - -yDyT = i ^ vkyk - ^У^/хщ, k=\ k=\
146 Глава 7. Характеристические функции и в силу свойств х. ф. одномерных нормальных распределений ^w = (^n/^"-"2""i"» = = л/ЙГГГ —— е",/2"'/'" = е-1№1* = e-i/2<crzr'C(r = е-1/2и-'/г *=l ^ С другой стороны, так как все моменты £ существуют, то в окрестности точки t = О 'у м*) = 1 - ^"1<т+° (X) **) =1+itEtT+\1тТ+° (X) «*) • Отсюда следует, что Е£ = О, Л = М. Из доказанной формулы (13) вытекает следующее свойство нормальных распределений: компоненты вектора (fi,...,fn) независимы тогда и только тогда, когда коэффициенты корреляции р(&,£/) равны нулю при всех г Ф j. Действительно, если М — диагональная матрица, то А = М~1 также диагональна и Д(х) равна произведению плотностей. Обратно, если (£ ь... ,£„) независимы, то А диагональна и, стало быть, диагональна М. § 7. Другие применения х. ф. Свойства гамма-распределения 1. Свойство устойчивости распределений Фа,«г2» Ка,«г- Свойство устойчивости, грубо говоря, состоит в сохранении типа распределения при суммировании случайных величин (это описание устойчивости не точно, подробнее об этом см. §8.6). Сумма независимых случайных величин, распределенных по нормальному закону, снова имеет нормальное распределение. Действительно, пусть fi и & независимы и нормально распределены соответственно с параметрами {ct\,o\), (а2, <т\). Тогда х. ф. f 1 + & равна ¥Ъ+б(0 = ¥>б(*)*>6<') = еНа^2^2еиа^2^2 = е^^г)-^\^\)1\ Таким образом, сумма f i -f & снова является нормально распределенной случайной величиной с параметрами [ot\ -f a2,cr2 -f o^). Нормальность распределения сохраняется и при суммировании зависимых величин (компонент произвольного нормально распределенного вектора). Это немедленно следует из вида х. ф. многомерного нормального закона, найденного в § 6. Надо лишь заметить, что для получения х. ф. £i -f ... -f fn достаточно в выражении для ^(6, ~,6i) (*Ь-- -,*п) = Еехр{г*1£1 +... + itn£n} положить t\ = ... =tn=t. Сумма независимых случайных величин, распределенных по закону Пуассона, снова имеет распределение Пуассона.
§ 7. Свойства гамма-распределения 147 Рассмотрим две независимые случайные величины £\ ^= Пд,, £2 ^= Пд2. X. ф. их суммы равна ^1+6(0 = ехр [^(е* - 1)] ехр [л2(ей - l)] = ехр [(Л! + А2)(е" - l)] . Следовательно, & +& €= Па1+а2. Сумма независимых случайных величин, распределенных по закону Коши, также имеет распределение Коши. Действительно, если £\ €= К**,,*,, & ^ Ка2,<г2> то ф П\ — eiait-ai\t\eia2t-a2\t\ _ e*(ai+a2)*-(a,+<r2)|*|. i+a2,<r,+<r2- Высказанные утверждения тесно связаны с тем, что нормальный закон и закон Пуассона выступают, как мы видели, в качестве предельных законов для сумм независимых слагаемых (тем же свойством обладает и закон Коши, см §8.9). Ведь если 52„/л/2п сходится по распределению к нормальному закону, то ясно, что Sn/y/n и (52„ — Sn)/y/n также будут сходиться к нормальному закону, так что сумма двух асимптотически нормальных величин обязана снова быть асимптотически нормальной. Равномерное распределение, например, этим свойством сохранения вида распределения при суммировании не обладает. Если £\ и & распределены равномерно на [0,1] и независимы, то 2^, и 1^,+fc оказываются существенно разными функциями (см. пример 3.5). 2. Г-распределение и его свойства. В этом разделе рассмотрим еще один весьма распространенный вид распределений, тесно связанных с нормальным распределением и часто используемых в приложениях. Речь идет о так называемом гамма-распределении Пирсона ТауХ. Будем писать, что f ^ Та,\, если f имеет плотность f(x;a, А) а -хх-1х~ах, х^О, Г(А) О, х < О, зависящую от двух параметров a > 0 и А > 0, где Г(Х) есть гамма-функция оо x~le~xdx, A>0. ip(t) = <p(t, а, А) = -^ J xx-leitx-ax dx О Из этого равенства следует, что / f(x,a,\)dx = 1 (нужно сделать замену ах = у). Если х. ф. \-\jtx-ax i т Г(А) О продифференцировать по t и затем произвести интегрирование по частям, то получим А °° А • °° О О (In <p(t))f = (-\ \п(а - it))', (p(t) = с(а - it)~x.
148 Глава 7. Характеристические функции Так как <р(0) = 1, то с = аА, (p(t) = (1 - it/a)~ . Из вида х. ф. следует, что подсемейство распределений Га?д при фиксированном а также обладает известным свойством устойчивости: если fi ^ Га)д,, £2 €= Га,л2 независимы, то £i + 6 ^ Га,л,+А2. К Г-распределениям относится, в частности, распределение случайной величины Хп / у Si > i=l где £» независимы и нормально распределены с параметрами (0,1). Это так 2 называемое \ -распределение с п степенями свободы, играющее важную роль в математической статистике. Чтобы найти распределение хп > достаточно заметить, что в силу равенства Р(Х? < *) = P(Kil < Vi") = -^= J е-2 о <2du плотность х\ равна —е-Рх-1*2 у/2к = f (Х' 2' 2 ) ' ^1 ^ Г1/2,1/2- 2 Это означает, что х. ф. хп равна <РП (t; \, 0 = (1 - 2г<)-"/2 - *»(*; 1/2,п/2) и соответствует плотности /(ж; 1/2, га/2). К Г-распределениям относится также показательное распределение Га = Га>1 с плотностью /(ж; а, 1) = ае~аж, ж ^ 0, и характеристической функцией ¥>(«;*,!)= (i-£) • Предоставляем читателю с помощью х. ф. убедиться, что если £* €= Га независимы, а7- Ф ах при j ф1,чо -l В различных приложениях, например, в теории массового обслуживания (ср. с §11.4), важную роль играет также так называемое распределение Эрланга. Это распределение с плотностью /(ж; а, Л) при целом Л. Ясно, что распределение Эрланга есть Л-кратная свертка показательного распределения.
§ 7. Свойства гамма-распределения 149 Найдем математическое ожидание и дисперсию случайной величины £, имеющей гамма-распределение с параметрами (а, Л) : E£ = -V(0;a,A) = -, а р<2 »,«.Л ,ч А(А+1) Е£ = -у>(0;а,А) = =—, D£ а А(А+1) а2 (-V-4 Распределения из гамма-семейства и особенно показательное распределение часто используются с достаточными основаниями для аппроксимации распределений в разного рода прикладных задачах. В связи с этим приведем три примера. Пример 9. Рассмотрим какой-нибудь сложный механизм. Выход из строя хотя бы одной из п деталей или узлов, составляющих этот механизм, означает выход из строя всего механизма. Распределение срока службы каждого из узлов обычно хорошо описывается показательным законом. (Причины этого явления можно понять с помощью теоремы Пуассона о редких событиях; см. также пример 2.5 и главу 18.) Таким образом, если сроки службы узлов £у независимы и для узла с номером j выполняется Р&>х) = е-а", то срок службы всего механизма будет равен rjn = min(£i,... ,£п), и мы получим >(т/„ > х) = р I n {ь > хЛ = д р& > *) <£<* Это означает, что rjn снова будет иметь показательное распределение, и так как то среднее время службы всего механизма будет равно Пример 10. Обратимся теперь к распределению случайной величины £п = max(fi,... >fn), гДе 6 независимы и имеют Г-распределение с параметрами (а, Л). Мы можем рассматривать, например, некоторую систему обслуживания, имеющую п каналов. (Это может быть, скажем, электронно-вычислительная машина, решающая некоторую задачу методом перебора и состоящая из большого числа малых машин, каждая из которых просматривает свой вариант.) Канал с номером г занят случайное время £. Через какое время освободится вся система? Это время, очевидно, будет распределено так же, как случайная величина Сп- Так как £, независимы, то Р(Сп < х) = Р ( П {fc < х} J = [P(£, < *)]". (15)
150 Глава 7. Характеристические функции Если п велико, то для приближенных вычислений представляет интерес отыскание предельного при п —> со распределения (п (если п —» со, то Р(£п < ж) —> 0 при каждом фиксированном х). Считая для простоты а = 1 (общий случай сводится к этому изменением масштаба), по правилу Лопиталя убеждаемся, что при х —> со 00 X Г(Х) Полагая при n-юо ж = х(п) = In п^!л -f и, и = const, получим К^>Х> Г(А) n(lnn)^e ~ n ■ Поэтому при таких жип-юов силу (15) Р(С„ < х) = (l - 11(1+0(1)))" - е~е'\ Таким образом, мы получили, что существует \А-1 п—>оо или, что то же, Гп(1пп)А-11 Сп"1п[ г(л) J ^F°' Fo(u) Другими словами, величину £„ при больших п можно представить в виде Гпрпп)*' c"~lnbw +с°, где С° ^ F0. Пример 11. Пусть ^ и & независимы, fi ^= Г^д,, & €= Га)л2. Чему равно распределение fi/(fi-ff2)? Воспользуемся теоремой 4.10. Так как совместная плотность /(ж, у) для fi и 77 = fi -f & равна /(ж, г/) = f(x; a, X\)f(y - х\ а, Л2), а плотность для г\ есть ?(</) =/О/; а, Л1 +Л2), то условная плотность /(ж|г/) для £i при условии г) = у равна f(x,y) Г(Л1+Л2) хх*-1(у-х)Ъ-1 /Ш q(y) r(A0r(A2) yx^-l В силу формул § 3.2 условная плотность для £\/у = £\/(£\ + $2) (ПРИ том же условии £l + & = 2/) Равна у/М2/) = ?Щщ жА'~1(1" Ж)А2~1' ж е [0,1]-
§8. Производящие функции. Задача о вырождении 151 Это распределение не зависит от у (и от а). Поэтому такой же будет и безусловная плотность fi/(fi +&)• Мы получили так называемое бета-распределение ВАьл2 с параметрами Ль Л2, определенное на отрезке [0,1]. В частности, при Ai = Л2 = 1 Bi,i = Uo,i. § 8. Производящие функции. Применение к изучению ветвящегося процесса. Задача о вырождении 1. Производящие функции. Мы уже знаем, что если случайная величина f целочисленна, т.е. Р( |J{f = fc}) = 1, то х.ф. <f{(t) будет на самом деле функцией от z = elt, и наряду с х. ф. распределение f можно характеризовать производящей функцией Формула обращения здесь может быть записана в виде ж p{*=k)=:LJ «"****(') *=2b / z~k~l*№dz- (i6) 1*1=1 Читателю полезно отметить, что (16) представляет собой не что иное, как формулу для коэффициентов ряда Фурье (ведь ettk = cos tk + isintk). Если f и г) — независимые целочисленные случайные величины, то распределение f -f 77 будет определяться сверткой последовательностей Р(£ = к) и Р(т, = к): 00 к=—оо (формула полной вероятности). Свертке этих последовательностей отвечает произведение производящих функций 1>l+v(z) = М*)*ч(*)- Из примеров, рассмотренных в §1, ясно, что производящие функции случайных величин, распределенных соответственно по законам Бернулли и Пуассона, равны i>dz) = l +p(z ~ *)> Vt(z) = ехр{/Ф - 1)}. Из определения производящей функции видно, что для неотрицательной случайной величины f ^ О функция ф^(г) определена при \z\ ^ 1 и аналитична в области \z\ < 1. 2. Простейшие ветвящиеся процессы. Обратимся теперь к. последовательностям случайных величин, которыми описываются так называемые ветвящиеся процессы. С простейшим примером таких процессов мы уже сталкивались при описании схемы цепной реакции в примере 4.10. Рассмотрим более общую схему ветвящегося процесса. Представим себе частицы, которые могут производить другие частицы того же вида; это могут быть нейтроны в цепных реакциях, бактерии, размножающиеся по определенным законам, и др. Пусть в начальный момент
152 Глава 7. Характеристические функции времени имеется одна частица («нулевое поколение»), которая в результате акта «деления» с вероятностью Д, А: = 0,1,2,... , переходит в А: частиц того же типа, 00 ^2 Д = 1. Полученные частицы образуют «первое поколение». Каждая из частиц этого поколения ведет себя точно так же, как исходная частица, независимо от предыстории и судьбы других частиц. В результате получаем «второе поколение» и т.д. Обозначим (п число частиц в n-м поколении. Для описания последовательности Сп введем в рассмотрение, как и в примере 4.10, независимые между собой последовательности независимых одинаково распределенных случайных величин r>0)i°° гЛ2)1°о Лп) {Cj fj=v \Ч }j=V" > где Ч имеют распределение P($W =*)=Д, к = 0,1,.... Тогда последовательность £„ можно представить в виде Со = 1, Это есть суммы случайного числа случайных величин. Так как ц\Q,... от Cn-l не зависят, то по формуле полной вероятности для производящей функции f(n\{z) = Ez^n получим 00 00 /(»)(*) = Е P(Cn-l = k)Ez^+-+^ = J2 P(C-l = *)/'(*) = /(„_,)(/(*)), (17) fc=0 fc=0 (n) °° где f(z) = f(\\(z) — Ez^ = ^2 fkZk. Пусть fn(z) означает n-ю итерацию функции к=0 f(z), т.е. fx(z) = f(z), f2(z) = f(f(z)), h(z) = f(h(z)) и т.д. Тогда с помощью индукции из соотношений (17) заключаем, что производящая функция Сп равна п-й итерации f(z) : Е2<- = fn(z). Отсюда с помощью дифференцирования в точке z = 1 легко получить рекуррентные соотношения для моментов Сп. Как найти вероятность вырождения процесса? Под вырождением мы будем понимать событие, состоящее в том, что все Сп, начиная с некоторого п, равны нулю. (Если Сп = 0, то, очевидно, Сп+1 = Сп+2 = • • • = 0, так как Р(Сп+1 = 01Сп = 0) = 1.) оо Обозначим Ak = (С* = 0}- Тогда вырождение представляет собой событие (J ^Ц. к=\ Так как Ап С Ап+\, то вероятность вырождения q равна q = lim Р(Ап). n—»oo Теорема 5. Вероятность вырождения q равна наименьшему неотрицательному корню уравнения q = f(q).
§ 8. Производящие функции. Задача о вырождении 153 Доказательство. Имеем Р(^4П) убывает. Переходя в равенстве /n(0) ^ 1, и эта последовательность не /»+l(0) = /(/„(<>)) (18) к пределу при п —► со, получим q = /(g), q ^ 1. Это уравнение для вероятности вырождения. Исследуем поведение его решения. f(z) есть выпуклая (f"(z) > 0) неубывающая функция в области z ^ 0, /'(1) = т есть средняя величина потомства одной частицы. Предположим сначала, что P(q = l) < 1. Тогда если т ^ 1, то f(z) > z при z < 1 и, следовательно, q = 1. Если т > 1, то в силу выпуклости / уравнение q = f(q) будет иметь на отрезке [0,1] ровно два решения: q\ < 1 и qi — 1 (см. рис. 8). Допустим, что q = qi = 1. Тогда последовательность бп = 1 - /п(0) монотонно сходится к нулю и /(1 - 6п) < 1 - 6п при достаточно больших п. Следовательно, для таких п 6n^ = l-f(\-6n)>6n, что противоречит монотонности убывания 6п. Это означает, что q = q\ < 1. Наконец, в случае Р (f j ' = l) = f\ — 1 имеем f(z) = z и, очевидно, q = 0. ■ Рассмотрим теперь более внимательно случай т = 1, который называют критическим. Мы знаем, что в этом случае при f\ < 1 вероятность вырождения q равна 1. Пусть qn = Р(^4П) = /п(0) есть вероятность вырождения к моменту п. Как быстро qn сходится к 1? В силу (18) qn+\ = f(qn). Отсюда следует, что вероятность продолжения (не вырождения) процесса рп — 1 — qn (к моменту п) удовлетворяет соотношению Рп+\ = 9(Рп), 9(х) = 1 - /(1 - х). Ясно также, что 7п = Рп - Рп+\ есть вероятность того, что вырождение процесса совершится на шаге п. Теорема 6. Если т = /'(1) = 1, 0 < Ь = /"(1) < оо, то -уп ~ 2/(Ьп2), рп~2/(Ъп). Доказательство. Если второй момент числа потомков одной частицы конечен (6 < оо), то существует ^"(0) = -Ь и, следовательно (</(0) = 0, </(0) = /'(О) = 1), Рис. 8. 9(?)- х • -х2 + о(х2). Полагая здесь х = рп оо, для последовательности ап „2/ ап+1 ~ а>п Рп -Рп+\ РпРп+\ ЬРпО + о(1)) п-\ fc=l 2р2(\-Ърп/2 + о(рп)) Рп \/рп находим Ь Г Ьп 2 Ьп Рассмотрим теперь вопрос о распределении числа частиц £п при условии Сп>0.
154 Глава 7. Характеристические функции Теорема 7. Пусть выполнены условия теоремы 6. Тогда условное распределение рп(п (или 2£„/(bn)) при условии Сп > О сходится при п —> со к показательному: Р(РпСп>х\Сп>0)-^е~х. Сформулированное утверждение означает, в частности, что при п —► со и условии Сп > 0 число частиц £п имеет величину порядка п. Доказательство. Рассмотрим преобразование Лапласа (см. свойство 6 из § 1) над условным распределением рп£п (при условии £„ > 0), равное 1 °° Е(е"5^|Сп > 0) = - ]Г в-*-Р(С„ = к). (19) Так как рп —► 0, то при любом фиксированном s > 0 -SD 2S е Уя — 1 ~ —spn ~ . Ьп Ясно, что всегда можно выбрать N ~ n/s, sn ~ s, sn | 5 так, чтобы e~SnPn — 1 = — pN. Поэтому e~sp*k = (1 - рм)к, и правая часть в (19) при s = sn может быть записана в виде 1 °° 1 — !>(& = *)0 -Ы* = -р(Сп > 0Хп+м =0) = л5 Рп Рп - Pn+N , Pn+N , П N =z 1 ~ 1 — Рп Рп 71 +N 71 +N 1+5 Заметим теперь, что E(e~sp*c* |Сп > 0) - Е(е-'лС-| С„ > 0) = Е [е"5^(1 - e^""5^) | Сп > 0]. Так как е~а ^ 1, 1 - е~а ^ а при а ^ 0, Е£„ = 1, Е(Сп I Сп > 0) = 1/рп, то оцениваемая положительная разность (sn > s) не превосходит (*п " 8)рпЕ(Сп |Сп > 0) = 5n ~ 5 -> 0. Следовательно, преобразование Лапласа (19) сходится при п —> со к 1/(1+5). Так как 1/(1+5) есть преобразование Лапласа показательного распределения 00 [е—-'<1х = —, J 1+5' о то в силу теоремы непрерывности (см. замечание к теореме 2 из § 3) рассматриваемое условное распределение сходится к показательному4). ■ Утверждения, касающиеся поведения £„ при п —*• со для ветвящихся процессов в случае р. > 1 (так называемых надкритических процессов) будут получены в § 14.4 (пример 8) в качестве следствий теорем о сходимости мартингалов. Приведенные простые доказательства теорем 6, 7 сообщил нам К. А. Боровков.
Глава 8 Последовательности независимых случайных величин. Предельные теоремы § 1. Закон больших чисел Теорема 1 (закон больших чисел в форме Хинчина). Пусть {fn}£Li — после- довательностъ независимых одинаково распределенных случайных величин, имеющих математическое ожидание Efn = а, и пусть 5„ = £i + ... + fn. Тогда Sn/n-+a при п —*• оо. Отметим, что здесь как условие независимости £*, так и само утверждение теоремы предполагают, что все случайные величины £* заданы на одном вероятностном пространстве. По своему физическому существу сформулированный закон больших чисел представляет собой простейшую эргодическую теорему, означающую, грубо говоря, что для случайных величин их средние значения «по времени» и «по пространству» совпадают. Еще в большей мере это замечание можно будет отнести к усиленному закону больших чисел, в силу которого Sn/n —► р с вероятностью 1. При более жестких предположениях (существование дисперсии) теорема 1 была получена нами в § 7 главы 4 в качестве следствия неравенства Чебышева. Доказательство теоремы 1. Надо доказать, что при любом е > О (1Н>'Ьв при п —*• оо. Выписанное соотношение эквивалентно слабой сходимости распределений Sn/n €=> 1а. Поэтому в силу теоремы непрерывности и примера 7.1 достаточно доказать, что для каждого фиксированного t <Psjn(t) -* etat. X. ф. (p(t) случайной величины £* в некоторой окрестности нуля обладает свойством \<p(t) - 1| < 1/2. Поэтому для таких t можно определить функцию l(t) = 1п^(£) (берется главное значение логарифма). Так как существует математическое ожидание £„, то существует При каждом фиксированном t и достаточно больших п значение l(t/n) определено и ¥>**.<«> = ЧГ (£) = е'('/п)".
156 Глава 8. Предельные теоремы Так как 2(0) = 0, то при п —> оо е'('/»>» = еХр 1гШ^М\ _+ /(0)1 = ш § 2. Центральная предельная теорема для одинаково распределенных случайных величин Пусть по-прежнему {£„} — последовательность независимых одинаково распределенных случайных величин. Но теперь, кроме математического ожидания Efn = л, будем предполагать существование дисперсии D£n = а . Как и раньше, 5„ = fi -f ... + fn, а Ф(ж) — функция распределения нормального закона с параметрами (0,1). Введем еще последовательность случайных величин Sn — an с = (Jy/n 00 P(Cn < ^) -^ Ф(#) равномерно Теорема 2. £с/ш 0 < <т2 < со, то при п относительно х (—оо < х < оо). В этом случае последовательность {£„} называется асимптотически нормальной. * 9 9 9 Из того, что Сп => С ^ 3>0,ь Сп ^ 0» Е£п = ЕС = 1 и из леммы 6.1А вытекает равномерная интефируемость £п. Поэтому наряду со слабой сходимостью £п => £? С ^ Ф0 j (Е/(Сп) —► Е/(С) для любой непрерывной офаниченной /) имеет место также сходимость Е/(£„) —► Е/(£) для любой непрерывной / такой, что |/(ж)| < с(1 -f х2) (см. теорему 6.5А). Доказательство теоремы 2. Равномерная сходимость является следствием слабой сходимости и непрерывности Ф(х). Далее, без офаничения общности можно считать а = 0, так как иначе можно было бы рассмотреть последовательность {fn = fn - а}™=\» ПРИ этом последовательность {£„} не изменилась бы. Стало быть, для доказательства требуемой сходимости достаточно показать, что <P(u(t) —► е~г' , когда а = 0. Имеем ¥>С. (0 = ^ ( ^= J > ™e У>(*) = Ч>& (*)• Так как существует Efn, то существует <p"(t), и справедливо разложение ¥>(*) = ¥>(0) + ty'(0) + уу>"(0) + о(*2) 1- t a + o(t2). оо Следовательно, при п In <р£п (£) = п In Ч —v п -— +0 2п ^)М->
§3. Закон больших чисел для произвольных независимых случайных величин 157 § 3. Закон больших чисел для произвольных независимых случайных величин Перейдем теперь к выяснению условий, при которых справедливы закон больших чисел и центральная предельная теорема в случае, когда & независимы, но не обязательно одинаково распределены. Мы не добавим трудностей, если сразу будем рассматривать более общую задачу, когда даны произвольные серии fl,n»--« »fn,n> n — 1)2,... , независимых случайных величин, где распределения £*)П могут зависеть от п. п Обозначим (п = Yl Ck,n- С точки зрения последующих результатов можно считать, не ограничивая общности, что Е&,„=°- (1) Предположим, что выполнено условие: п #1 = ]Г Еmin(|&,»l,|&,„|2) - О (DO *=1 при п —> со. Теорема 3 (закон больших чисел) При выполнении условий (1), (Di) £п €=> Iq, или, что тоже, Сп~*0. Замечание 1. Применительно к одинаково распределенным случайным величинам & и их суммам 5„ теорема 3 является более сильным в известном смысле утверждением по сравнению с теоремой 1. Тот факт, что теорема 1 вытекает из теоремы 3, будет установлен в теореме ЗА. Здесь же мы проиллюстрируем высказанное утверждение на примере случайных величин &, Е& = 0 с Е|&|5 ^ с < со, 1 < s ^ 2. Пусть Ь(п) = о(п) — любая последовательность, растущая быстрее, чем nlf*, £k,n = £к/Ъ(п). Тогда D\ ^ nc/b(n)s —> 0 и, следовательно, 5„/Ь(п)-^0. Рассмотрим внимательнее условие (Di). Очевидно, что его можно записать в также в форме п п DX=J2 Е(16м1; 16,»1 > 1) + J2 Е(Км12; 16м1 < 1) - о. к=\ к=\ Если п М1 = ^Е|&|П|^с<оо (2) при п —> со, то для выполнения (Di) необходимо и достаточно выполнения условия п Мх(т) = J2Е(1&,»1; 1&,»1 > т) -> 0 (МО при любом т > 0 и п —> со, которое можно назвать условием типа Линдеберга (условие Линдеберга (Мг) будет введено в §4). Действительно, (т ^ 1, д\(х) = тт(|ж|,|ж|2)),
158 Глава 8. Предельные теоремы D{ = £><7i(6,n) ^ ^Е(|&,П|;|&|П| > т) + £е(|&,п|2;|&|П| ^ г) ^ к=\ к=\ к=\ п ^m{(t) + tJ2E(l6,nl; KmI ^ г) ^ м{(т) + гмКО). (з) Так как М\(0) = М\ ^ с, а г может быть произвольно малым, то D\ —► О при п —► со. Обратно (здесь условие (2) не требуется), при г ^ 1 п м,(т) <X)E(l^.«l;l6,nl>i) + + - £ Е(|&,»12; г < |&,„| < i) < -л, - о (4) при п->оо и при любом т > 0. Каждое из условий (Di), (Mi) влечет за собой равномерную малость Е|&,п1 : maxE|6,n|—►() при п —► со. (5) Действительно, (Mi) означает, что существует достаточно медленно убывающая последовательность т„ -* 0 такая, что М\(тп) —► 0. Поэтому maxE|&,nl ^ max[r + (E|&,n|; l&,nl > т)] ^ rn + Afi(rn) -> 0. (6) Из (5) следует, в частности, свойство пренебрежимой малости слагаемых &,п- Будем говорить, что &,п пренебрежимо малы или, что то же, обладают свойством (S), если при любом е > О maxP(|&,nl>e)^0. (S) Свойство (S) можно было бы назвать равномерной сходимостью £*,п по вероятности к нулю. Свойство (S) сразу следует из (5) и неравенства Чебышева. Оно следует также из более сильных соотношений, вытекающих из (Mi) : P(max |6,„l > е) = Р(1)Ш*,»1 > *» < к<п ^ £>(Км1 > е) < e~f ^Е(|&,„|; 16,„| > е) - 0. (S,) к^.п к^п Обратимся теперь к доказательству закона больших чисел. Мы приведем две версии доказательства. Первая будет иллюстрировать классический метод характеристических функций. Вторая версия основана на элементарных неравенствах и приводит к более сильному утверждению о сходимости в среднем!). Рассмотрим сначала первую версию. !) Вторая версия предложена А. И. Саханенко.
§3. Закон больших чисел для произвольных независимых случайных величин 159 Доказательство теоремы 32\ Обозначим tpkjn(t) = Eei4k\ Ak(t) = ipKn{t) - 1. Надо доказать, что при каждом t и при п —* со *=1 В силу леммы 7.3 к Ы<) - И = <EKw| = *=1 В силу леммы 7.2 (g\(x) = min(|x|,x )) iin I 2|te|, -у- 1 \eitx - 1 - itx\ ^ min ( 2|te|, ^- } ^ 2^!^x) ^ 2h(t)gx{x)y где Л(£) = max(|£|,|£|2). Поэтому n \9Ct(t) - l| < ИкЮ^Ея (&,,.) = 2fc(*)I>i - 0. *=l ■ Последнее неравенство показывает, что |^«W ~ *1 может быть оценено непосредственно в терминах D\. Оказывается, что в терминах D\ можно оценить и Е|£п|. Мы приведем теперь более сильную версию закона больших чисел. Теорема ЗА. При выполнении условий (1), (Di) справедливо Е|£„| —► 0 {или, что то же, Сп"^0). (О Утверждение теоремы ЗА означает, очевидно, равномерную интегрируемость £п; из него следует теорема 3, так как Р(1Сп1>еК^^->0 при п-оо. е Доказательство теоремы ЗА. Положим если |&>п| ^ 1, в противном случае, ем -1 0 #U = 6,я - &,„• Тогда &>n = $,n + f£n, Cn = Cn + Cn ПРИ очевидном соглашении относительно обозначений £'п, Cn- В силу неравенства Коши—Буняковского EIC.I < Е|С; - ЕСА1 + Е\С - Е£\ < ^Е(СА-ЕСА)2 + Е|СЛ + |Etf | < 2) Существует еще одно, «прямое» доказательство теоремы 3, использующее не х. ф., а так называемые срезки случайных величин и оценки их дисперсий. Однако здесь и в связи с дальнейшим нам удобнее использовать аппарат х. ф.
160 Глава 8. Предельные теоремы 1 /Л = [Z)e(^»;KmI ^ 0] +2^E(|6,nl;l6,nl > 1К л/^ + 2^1 -о, если D\ —> 0. Теорема доказана. ■ Замечание 2. Из доказательства теоремы ЗА видно, что все ее рассуждения сохранятся, если независимость &|П заменить более слабым условием некоррелированности £кп. Они сохранятся и в том случае, когда gk n лишь слабо коррелированы, настолько, что E(C;-EC;)4c^D(4n), c<oo. Если {£&} есть заданная фиксированная (не зависящая от п) ПОСЛеДОВатеЛ fell ность независимых случайных величин, Sn = ]С &> Е& = ак, то объектом изучения в законе больших чисел будут последовательности п _ Sn - ^2 ак Ь>п = ~Ь(п)~> Cn=Yl^n= щ , (7) где ffc,„ удовлетворяют (1), Ь(п) — некоторая неофаниченно возрастающая после- п довательность. В качестве Ь(п) в ряде случаев естественно брать b(n) — ]Г} Е\£к\, к=\ если эта сумма неограниченно возрастает. Положим, не ограничивая общности, ак = 0. Из теоремы ЗА вытекает Следствие 1. Если выполнено условие или условия при любом т > 0, то (п —> 0. (0 Следствие 2. /7ри выполнении условий теоремы 1 справедливо Sn/n-^a. 0) Доказательство. Если & одинаково распределены, Е|^| < со, то, очевидно, выполнено условие Mi (г) —> 0 при Ь(п) = п, так как Е(161;1Ы > тп) ->0 при п->со. Следствие 2 доказано. ■ Вернемся к произвольным &. Для выполнения (Di) достаточно выполнения следующего условия: при некотором s, 2 ^ s > 1, ЁЕ|6,.|*-0. (L.) «:=1
§ 3. Закон больших чисел для произвольных независимых случайных величин 161 Это утверждение очевидно, так как g\(x) ^ \x\s при 2 ^ s > 1. Условия (Ls) можно было бы назвать условием типа Ляпунова (ср. с условием Ляпунова (Ls) в §4). Для доказательства теоремы ЗА мы использовали так называемые «срезки» £кп случайных величин £к,п- В заключение этого раздела мы приведем еще одно утверждение закона больших чисел, в котором условия выражены в терминах срезок. Обозначим через f ^ срезку случайной величины f на уровне N : £(iNr) = max[-N,mm(N,£)]. Теорема ЗВ. Предположим, что последовательность {£&} случайных величин в (7) удовлетворяет следующему условию: для любого заданного е > О существуют Nk такие, что 1 v ' fc=l v ' *=1 Тогда последовательность £п сходится к нулю в среднем £п —> 0. (О Доказательство. Очевидно, что а\, к) = Ef£ к' —► ак при Nk —» оо, |а]^ *'| ^ iVfc. Далее имеем (&№)-ai*>) + Е £ Ь(п) 1 V^ I (**) I 6(n) ^-Ч * *l Здесь среднее слагаемое в правой части сходится к нулю, так как сумма под знаком Е удовлетворяет условиям теоремы 3 и ограничена. Первое и последнее слагаемые не превосходят е. Так как левая часть от е не зависит, то Е|£„| —► 0 при п —» оо. ■ Следствие 3. Если Ь(п) —пи при достаточно большом N и всех к ^ п E\b-SlN)\<e, то справедливо утверждение теоремы ЗВ. Следствие 3 вытекает из теоремы ЗВ, так как условия следствия очевидным образом влекут выполнение условий теоремы ЗВ. Ясно, что для одинаково распределенных £к условие следствия 3 всегда выполнено, и мы вновь получаем следствие 2. Если E|ffc|r < оо, то аналогичным образом можно установить также, что у а. п (г) Замечание 3. Условие (Di) (или (Mi)) не является необходимым для сходимости (п—»0 даже при выполнении (2), (5), на что указывает следующий пример: £к,п принимает значения —п, 0, га, соответственно с вероятностями 1/га , 1 — 2/п , 1/га . Здесь СпуО, так как Р(С„ ф 0) ^ P(U{&,n Ф 0}) ^ 2/п -> 0, Е|£м| = 2/п -> 0, М\ = £Е|&>П| = 2 < оо. В то же время Z) E(l6,nl; I6,nl ^ 1) = 2 /> 0 и условия (Di), (Mi) не выполнены.
162 Глава 8. Предельные теоремы Однако, если потребовать, чтобы £к,п ^ —е*,п> £к,п ^ О, (8) £к,п -> 0, ]Р €Кп ^ с < оо, max к<п к=\ то условие (D\) станет необходимым. Прежде чем доказывать это утверждение, приведем некоторые вспомогательные соотношения, которые будут полезны нам в дальнейшем. Лемма 1. При выполнении условия (S) при п —> оо и при каждом t тах|Д*(*)|->0. Если случайная величина f, Ef = 0, ограничена слева: f > — с, с > 0, /wo Е|С| ^ 2с. Доказательство. В силу леммы 7.2 |Afc(Ol^E|e^-l|^|^|E|^n|, Далее, |Afc(t)| ^ Efle**" - 1|; |&|П| ^ г) + Е(|е%" - 1|; |&|П| > г) Ok + 2Р(|&,„| > г). Если воспользоваться здесь условием (S) и произвольностью е, то получим второе утверждение леммы. Положим f+ = тах(0; £) ^ О, Г = -(£ - £+) ^ 0. Тогда Е£ = Ef+ - Ef" = 0, Е|^| = Е^+ + ЕГ = 2ЕГ^2с. Из последнего утверждения леммы следует, что условие (8) влечет за собой выполнение (2), (5). Лемма 2. Пусть выполнены условия (S) и (2). Тогда для сходимости <P(n(t) —► (p(t) необходимо и достаточно, чтобы п £>*(*)-In р(*). к=\ Доказательство. Заметим, что Re Ak(t) = Re(y>M(t) - 1) ^ 0, |еА*«| ^ 1, и, следовательно, по лемме 7.3 k=\ k=\ < £ \<PkAt) - eAl(0| = £ |eA'W - 1 - Д»(«)| < A=l fc=l IA .7,.. . 1 £ -£>&) < -тах|Д*(«)|£|Д*(*)|.
§3. Закон больших чисел для произвольных независимых случайных величин 163 По лемме 1 в силу условий (S) и (2) оцениваемое выражение сходится к О при п —> со. Поэтому, если <P{u(t) —> <p(t), то е^ к"' —> <p(t), и наоборот. ■ Следующее утверждение дополняет теорему 3. Теорема 4. Пусть справедливы соотношения (1), (8). Тогда условие (D\) (или условие (Mi)) необходимо для выполнения закона больших чисел. Доказательство. Если выполнен закон больших чисел, то <P(u(t) —► 1 и, следовательно, по лемме 2 (напомним, что (8) влечет за собой (2), (5), (S)) п п J2 Ak(t) = J2Е(е*Ь* - 1 - й&,п) - 0. Кроме того, по лемме 7.2 п Х)Е(|е«^" - 1 - i<&,nl; |&,„| < ем) ^ *=1 1 " п п fc=l *=1 Поэтому, если имеет место закон больших чисел, то в силу (8) п ^Е(е^,п _ ! _ itikn. ikn > £kj _> 0 к=\ Рассмотрим функцию а(х) = (elx — \)/ix. Нетрудно видеть, что неравенство \а(х)\ ^ 1, доказанное в лемме 7.2, является при х > е > 0 строгим, и, значит, существует б(т) > 0 при т > 0 такое, что Re(l - а(х)) ^ 6(т) при х > т. Это равносильно тому, что Im(l -Ь га: — е,ж) ^ 6(т) ж и, следовательно, х ^ —— Im(l -f ix - etx) при х > т. 6(т) Отсюда находим п п М!(г) = Х)Е(1&,»1; |&,»1 > г) = Х)е(&,„; &,п > г) ^ *=1 fc=l 1 " Таким образом, выполнено условие (Mi), которое вместе с соотношением (2), вытекающим из (8), влечет за собой (D\). ш По-видимому, наряду с теоремой 4 имеет место и более сильное утверждение о том, что условие (D\) необходимо для сходимости („->0 в среднем (условия (8) влекут эту сходимость).
164 Глава 8. Предельные теоремы § 4. Центральная предельная теорема для сумм произвольных независимых случайных величин Как и в § 3, будем рассматривать серии случайных величин Ч1,П> • • • > ЧП,П и их суммы п С = £&,»• (9) Мы будем предполагать, что £k,n имеют конечные вторые моменты ак п = Dffc?n < со, и считать, не ограничивая общности, что п Е&,п = 0, Х>2,„ = DC„ = 1. (Ю) Введем в рассмотрение условие: при некотором s > 2 п D2 = ^2 Е min(d,n, 1б,пГ) - 0, (D2) k=\ которое будет ифать важную роль в дальнейшем. При этом многие рассмотрения, связанные с условием (D2) и с условиями (М2), (Ls), вводимыми ниже, будут вполне аналогичны рассмотрениям, связанным с условиями (Di), (Mi), (Ls) в §3. При выполнении (10) необходимым и достаточным для выполнения (D2) является условие Линдеберга: п М2(т) = ^2 Е(1б,п|2; I6b.nl > т) -> О (М2) к=\ при любом г > 0 и п —* со. Действительно, положим 9г(х) — min(x , |ж|5), s > 2. Тогда (ср. с (3), (4); т ^ 1) п п п D2 = Y1 Е^(Ы ^ X) Е(й,„; |&,„1 > т) + Е Е(1&.»Г; 1&,»1 ^ г) ^ ^ М2(г) + г5~2М2(0) = М2(т) + г5"2. Так как г произвольно, то D2 —> 0 при п —► со, М2(г) —> 0. Обратно, при г ^ 1 (условие (10) здесь не требуется) п \ П 1 М2(т) ^ Х^Е (**." 1*М1 > 0 + -7=2 Z)dW^ < l&,nl ^ 0 ^ ^2^2-0 при любом г > 0 и п —* со. Итак, при выполнении (10) условие (D2) инвариантно по s > 2.
§4. Центральная предельная теорема 165 Условию (D2) можно придать более общую форму: п Х)Е^(6,п)-0, к=\ где h(x) — любая функция, обладающая свойствами h(x) > 0 при х > 0, h(x) |, h(x) —> 0 при х —> 0, /i(x) —> с < со при ж —> со. При этом все основные свойства условия (D2) сохранятся. Условие Линденберга выясняет существо условия (D2) с несколько иной точки зрения. В нем h(x) = /(Г)0о)> r € (0>0- Аналогичное замечание можно сделать по поводу условий (Di), (Mi) в §3. Аналогично тому, как это сделано в §3 относительно условия (Mi), легко проверить, что условие (Мг), влечет за собой сходимость (см. (6)) maxD6b|fl->0 (11) и пренебрежимую малость &>п (свойство (S)). Очевидно также неравенство Mi(r) ^ -М2(т). т Если {&} есть заданная фиксированная (не зависящая от п) последователь- п ность независимых случайных величин, Sn = ]С &> ^& = ак, D& = (т^, то для нее к=\ будем изучать поведение нормированных сумм п Sn~ Z) ак п Сп — , i>n — 7. &к, которые, очевидно, также имеют вид (9), где ffcjn = (£к - ак)/Вп. Условия (D2), (Мг) для £* будут иметь вид 1 " м2(г) = ■& X)Е ((& -a*)2; i& - a*i >тВ") -> °- (12) Теорема 5 (центральная предельная теорема). Если последовательности независимых случайных величин {&,п}£=1, п = 1,2,... , удовлетворяют условиям (10), (D2), то Р(Сп < ж) —> Ф(ж) равномерно по х. Здесь сохраняют свою силу замечания к теореме 2 о равномерной интегриру- Доказательство. Достаточно убедиться, что п ^(0 = П*,м(*)-е-'2/2. *=1 9 емости £п
166 Глава 8. Предельные теоремы В силу леммы 7.3 <pUt)-e-t2/2\ = П^.»(о-Пе' -'Ч./2 к=\ к=\ < Е Wn(t) - /<»/2 fc=i ^ ^Е Так как по лемме 7.2 Wb.n(0 - l + 2*2(Г*»п е - 1 - ix + + 2Je *.»' - 1 + -t crfc>n ^ min ( ж2, — J ^ ^2(ж) (13) (при 5 ^ 3), то первая сумма в (13) не превосходит Е к=\ Е е** - 1 - «&,„ + «W £ ^ X) Е^2(1<й,„1) ^ Л(0 X) Е02(|&|П|) ^ М0°2 - О, *=1 к=\ где /i(£) = max(t\\t\ ). Вторая сумма в (13) (снова по лемме 7.2) не превосходит (см. (10), (11)) t4 n t4 Т 5^ °М ^ Т тах °"М "* ° ПРИ п о х—* о к к=\ со. Иногда утверждение теоремы 5 бывает удобным в следующей форме. Следствие 1. Пусть Е£к,п = 0, D£n —► а > 0 и выполнено условие (D2) или (М2), тогда (п &> Фо,<т2- Замечание 3. Утверждение теоремы 2 об асимптотической нормальности £„ = (5„ — ап)/ау/п, когда & одинаково распределены, можно было бы получить в качестве следствия теоремы 5. Нужно лишь проверить выполнение условия Линдеберга. Так как в этом случае Вп = па , то (см. (12)) М2(т) = —гЕ((& - а) ; \£к - а\ > raVn) —> 0 при п —> со для любого т > 0. Замечание 4. Достаточным условием для выполнения (D2), (M2) является более ограничительное условие Ляпунова. Проверять его в ряде случаев легче. Предположим, что выполнено (10). Величину ь, = ЕЕк*.»г к=\ при некотором s > 2 называют отношением Ляпунова порядка s. Условие Ls^0 (L.)
§ 4. Центральная предельная теорема 167 называют условием Ляпунова. Величина Ls получила название отношения потому, что для &>п = (& - ак)/Вп (ак = Е&, В = £)D&), & от п не зависят) Ls имеет вид Т _ к=\ Lie . Если & одинаково распределены, ак = a, D£k = о2, Е|& - о|* = /t < со, то Т М ,0 * ~ «г'п(»-2)/2 Достаточность условия Ляпунова вытекает из очевидных неравенств #2(ж) ^ М* при любом 5, Di ^ Ls. Замечание 5. Условия (D2) или (Мг) не являются необходимыми для сходимости распределения £п к нормальному. Достаточно рассмотреть следующий пример: fijn ©► Фо,ь &,п = ... = fn,n = 0. Очевидно, что условия (10) выполнены, Р(£п < х) = Ф(х), а слагаемые &|П не являются пренебрежимо малыми и, следовательно, не удовлетворяют условиям (D2), (M2). Однако, если наряду со сходимостью £п €=> Фо,1 потребовать, чтобы &>п были пренебрежимо малы, то условия (D2), (Мг) становятся необходимыми. Теорема 6. Пусть последовательности независимых величин {&,п}2=1 удовлетворяют условиям (10), (S). Тогда условие (D2) (w/ш (M2)) необходимо и достаточно для сходимости £„ ^= Фо,1- Заметим предварительно, что утверждения лемм 1, 2 при замене условий (2), (S) на (10), (S) сохранятся с точностью до несущественных изменений. Лемма 1А. Пусть выполнены условия (10), (S). Тогда тах|Д*(*)|->0, X)lA*WI^T' w полностью сохранится утверждение леммы 2. Доказательство. Все рассуждения в доказательствах лемм 1, 2 полностью сохраняются за исключением одного места, связанного с оценкой Х^|Д*(01- В новых условиях в силу леммы 7.2 имеем t2 |Д*(*)1 = №м(0 - 1 - **Е&,»1 ^ Е1е1^" - * - **&,»! ^ уEfiU так что Другие изменения в доказательствах лемм 1, 2 отсутствуют. Доказательство теоремы 6. Достаточность уже доказана. Чтобы доказать необходимость, воспользуемся леммой 1А. Если tp^ (t) —* e~l' , то в силу этой леммы (Д*(*) - <pkin(t) - 1) -t2 £>*(*)-> In*>(*) = — • *=1
168 Глава 8. Предельные теоремы При t = 1 выписанное соотношение можно записать в форме *» = SЕ (е'а'" -1 - ***.» + %ч -> °- о4) Обозначим а(ж) = (е,х - 1 - ix)/x . Нетрудно видеть, что неравенство \а(х)\ ^ 1/2, доказанное в лемме 7.2, является строгим при х Ф 0 и sup |а(ж)| < - - 6(т), \*\>т 2 где 5(т) > 0 при г > 0. Это означает, что при |ж| > т > 0 Re а(ж) + - ^ 0(т) > 0, x2<^Re(e,"-1-te+y)' E(d,„; |&.»| > г) ^ щ ReE ( е*'- - 1 - *&,„ + ^ М2(т)^-^Г)\Пп\-,0 в силу (14) при п —* со для любого г > 0. ■ Следствие 2. Пусть выполнено (10) и maxD&.„->0. (15) Тогда для сходимости £п ^=> Фо,1 необходима и достаточна сходимость п (или сходимость rjn —► 1). Доказательство. Пусть ?уп €=> 1\. Случайные величины £'кп = f^n — v\n в силу (15) удовлетворяют условию (8) и удовлетворяют закону больших чисел: п ]С €k,n — Vn - 1—^0. Следовательно, по теореме 4 £'кп удовлетворяют условию *=1 р (Mi) : п J2 Е(1*М " °ln\'> \tln - *ln\ > Г) -> 0 (16) *=1 при любом г > 0. Но по (15) это условие эквивалентно, очевидно, условию (М2) для &>п. Отсюда следует (п ^> Фо,ь Наоборот, если £п €=> Фо,1, то выполнено (М2) для £&>п и, значит, условие (16). Так как, кроме того, п п А=1 к=\
§ 4. Центральная предельная теорема 169 то для £'к п выполнено (2), и по теореме 3 п J2^ = Vn-i-^o. к=\ Пример 1. Пусть ffc, А: = 1,2,... , — независимые случайные величины с распределениями Г ка с вероятностью 1/2, \ — ка с вероятностью 1/2. Здесь (5 = 3) а\ = к2а, (лк = EI6I3 = к3а, к=\ к=\ к=\ Имеем при 2а -f 1 > О Д ~ п 1х ах = . J 2а +1 О При а = -1/2 п к=\ Если а < —1/2, то Вп Офаничены при п —> со и, следовательно, не будет выполнено условие пренебрежимой малости слагаемых. Аналогичным образом находим при а > —1/3 *-±*-^(Н^Т^---<№) п3«+1|а> n3a+l dx За+Г При а = —1/3 имеем С„ ~ Inn; если а < —1/3, то С„ ограничены. Так как па+1/3 = о(па+1/2), то при а ^ -1/2 С„ = о(Вп), и условие Ляпунова ^3 = Сп/Вп —> О будет выполнено. Следовательно, суммы SnV2a -f 1 /na+1^2 при a > —1/2 будут асимптотически нормальны с параметрами (0,1). Если же & = ±\/Vk с вероятностями 1/2, то асимптотически нормальной будет величина Sn/\/\nn. В частности, при больших п величина |5„| не будет превосходить 2V\nn с вероятностью, равной примерно 2Ф(2) - 1 « 0,955. Для сравнения можно заметить, что S "/Г Растет как >/и/2, а знакочередующиеся суммы X) ~71Г ограничены fc=i fc=i постоянным числом.
170 Глава 8. Предельные теоремы Очень наглядной и хорошо известной иллюстрацией действия доказанных теорем является рассеивание артиллерийских снарядов при стрельбе по цели. Дело в том, что на траекторию полета снаряда действует большое количество независимых факторов, влияние каждого из которых само по себе невелико. Это отклонения в количестве заряда, отклонения в весе и размерах снаряда, отклонения по влажности и температуре воздуха, направлении и силе ветра на разных высотах и т. д. В результате отклонение снаряда от точки прицеливания удивительно точно описывается нормальным законом. Такого же рода наблюдения можно сделать относительно ошибок в измерениях, когда на их точность влияет много «мелких» факторов. (Существует даже «теория ошибок», главным пунктом которой является центральная предельная теорема.) В целом центральная предельная теорема находит чрезвычайно много применений в самых разных областях. Это происходит благодаря ее универсальности, ее устойчивости относительно незначительных отклонений от условий теоремы и ее сравнительно высокой точности даже при умеренных значениях п. Первые два отмеченных качества означают, что: 1) теорема применима к величинам ^>п с любыми распределениями, лишь бы существовали дисперсии ffc)„ и они были «пренебрежимо малы»; 2) появление «умеренной» зависимости3) между &,п не меняет нормальности предельного распределения. Чтобы проиллюстрировать точность нормального приближения, приведем такой пример. Пусть Fn(x) — P(Sn/y/n < х) есть функция распределения нормированных сумм 5„, образованных независимыми величинами &, равномерно распределенными на [-л/3, л/3], так что Df* = 1. Тогда оказывается, что уже при п = 5 (!) максимальная величина разности \Fn(x) - Ф(х)\ на всей оси значений х не превосходит 0,006 (максимум достигается около точек х = ±0,7). И все, же несмотря на отмеченные обстоятельства, при использовании центральной предельной теоремы следует проявлять осторожность. Например, нельзя требовать точности от нормального приближения при оценке вероятностей редких событий, скажем, при изучении вероятностей больших уклонений (этот вопрос уже обсуждался в §5.3). Ведь теорема обеспечивает лишь малость при больших п разности |Ф(*) - Р(Сп < *)|. (17) Допустим, мы хотим с помощью нормального приближения указать такое xq, чтобы гарантировать появление события {£n > xq} в среднем не чаще, чем 1 раз на 1000 случаев (такая задача может возникнуть, скажем, у экспериментатора, когда он хочет быть уверенным, что в отдельном эксперименте событие такого вида не произойдет). Если даже разность (17) не превосходит 0,02 (что может считаться хорошим приближением), то, используя нормальное приближение, мы рискуем ошибиться в десятки раз, поскольку может оказаться, что 1 - Ф(жо) — Ю , а Р(Сп > #о) ~ 0,02, и событие {£п > #о} будет появляться значительно чаще — в среднем 1 раз на 50 случаев. В связи с этим в § 8 рассматривается задача о вероятностях больших уклонений, где отыскивается функция Р(п,х) такая, что Р(£„ > х)/Р(п,х) —> 1 при п —> со, х —► со. При этом функция Р(п,х) оказывается, вообще говоря, отличной от 1 - Ф(х). Надо отметить, однако, что использование приближения Р(п,х) требует 3) Существует целый ряд условий, характеризующих допустимую зависимость между £*>п. Знакомство с ними выходит за рамки настоящей книги и требует специальной литературы (см., например, [11]).
§ 5. Оценки погрешности 171 выполнения более жестких условий на £&>п. В §6 приводится также локальная предельная теорема, которая устанавливает сближение плотностей (п с плотностью нормального закона и позволяет оценивать вероятности редких событий другого сорта, скажем, вида {а < £п < 6}, где числа а и b близки. § 5. Другой подход к доказательству предельных теорем. Оценки погрешности Изложенный в § 1-4 подход к доказательству основных предельных теорем для распределения сумм случайных величин основан на х. ф. Однако это далеко не единственный метод доказательства такого рода утверждений. В настоящее время известно несколько весьма простых доказательств как законов больших чисел, так и центральной предельной теоремы, не использующих аппарата х. ф. (Это не умаляет значимости последнего, представляющего собой мощный, хорошо разработанный и весьма общий аппарат исследований.) Эти доказательства позволяют к тому же получать в некоторых случаях более общие результаты. В качестве иллюстрации приведем ниже доказательство центральной предельной теоремы, обобщающей в известном смысле теорему 6 и дающей оценку скорости сходимости (правда, не наилучшую). Наряду со случайными величинами £^п в схеме серий и при выполнении (10) рассмотрим независимые между собой и от последовательности {£k,n}k=\ случайные 2 п величины 77*,„ ^ Фо,<т2 , 0k = Dffc)„, так что г)п = ]£ %,„ €? Фо,ь Обозначим fikjn = E|ffc,n|3, vKn = E\rjkin\3 = c3aln ^ c3/^n4), fi°kn = J\x\3\d(Fk4x)-&k4x))\ ^ /iM + i/M> L3 = £ /*M> N3 = £ i/M> L°3 = J2 /**,» < k=\ k=\ k=\ L3 + N2 ^ (1 + сз)1гз. Здесь jFfcjfI, 4>fcjfI — функции распределения £fc?n и %,„ соответственно. Числа Z/з и Щ СУТЬ отношения Ляпунова третьего порядка для последовательностей {&|П} и {щ,п}- Числа цк называются псевдомоментами третьего порядка, а величина b\ — отношением Ляпунова для псевдомоментов. Очевидно, что N$ ^ C3X3 —* 0> если выполнено условие Ляпунова. Как уже отме- чалось, для &>п = (& - ак)/Вп, где ак = Е&, Вп = £ D6> & от п не зависят, ^3 = "»т $])/**> /** = Е|& - а*| . Если к тому же & одинаково распределены, то ^3 = Mi/(^3v^)- Нашей первой задачей будет оценка близости Е/(£п) и Е/(£п) для достаточно гладких /. Эта задача может представлять и самостоятельный интерес. Предположим, что / принадлежит классу Сз всех ограниченных функций с равномерно непрерывной и ограниченной третьей производной: sup|/^(x)| ^ /з- IX» IX» сз = ЕМ3 = -1= [xle-zl'2dx = -±= fte'ldt = -±
172 Глава 8. Предельные теоремы Теорема 7. Если / Е Сз, то |Е/(С») - Е/Ы| ^ ^ ^ ^(Z-з + ЛГз). (18) Доказательство. Обозначим ^/ = f 1,п + • • • + 6-1,п + ty,n + • • • + Vn,n, %1 = f l,n + • . • + 6-l,n + *7/+l,n + • • • + Vn,n, Тогда Xn+\ =Z\+ u,n, *i = Zx + 4iffl, (19) n /(Cn) - /Ы = ]C [/(*»+i) - /W] • (20) Воспользуемся теперь следующей леммой. Лемма 3. Пусть f € Сз, Z, £ и rj суть независимые случайные величины, Е£ = Ег, = а, Et2 = EV2=a\ /i° = J\хгЩр^х) - F„{x))\ < CO. Тогда fin0 |E/(Z + 0-E/(Z + ,)|^i2(L (21) Применяя эту лемму к (19), получим \Е[ПХ1+1)-/(Х,)]\*£&, что после суммирования дает (18). ■ Итак, для доказательства теоремы 7 осталось провести Доказательство леммы 3. Обозначим g(x) = Ef(Z + х). Очевидно, что д, будучи усреднением /, обладает всеми свойствами гладкости / и, в частности, \д (х)\ ^ /з. В силу независимости Z, f и rj Ef(Z + 0- E/(Z + V) = J9(x) d(Ft(x) - F4(x)). (22) Под интегралом воспользуемся разложением 2 3 д{х) = 5(0) + хд'(0) + у5"(0) + у $>х), вх б [0, х\. В силу совпадения моментов £ и ц до второго порядка для правой части (22) получим .0 ^yVs>») <*(*{(*)-ад) <М
§ 5. Оценки погрешности 173 Замечание 6. Совершенно аналогично можно получить представление |Е(Сп) - Е/Ы N ф Ё Е (£» - Vl) + Ц± (23) при очевидных соглашениях относительно обозначений Д и Щ. Эта оценка может улучшать (18), если разности Е(^п-^п) малы. Если, например, ffc)„ = {ik — a)/(<7\/n), £k одинаково распределены и третьи моменты £*)П и щ^п совпадают, то справа в (23) будет стоять величина порядка 1/п. Теорема 7 обобщает теорему 5 при 5 = 3. Обобщение состоит в том, что теперь для сходимости £п €=> Фо,1 не требуется предельной пренебрегаемости £^п. Если, например, fi,n €= Фо,1/2 (в этом случае fi°ln = 0) и L°3 -► 0, то Е/(С„) -► E/(iy), 77 ^ Ф01 для любой / из класса Сз. Так как Сз определяет распределение (см. главу 6), то остается воспользоваться следствием 6.7. Высказанное утверждение можно усилить. Теорема 7А. |Р(С„<х)-Ф(х)|<с(^)'/4, (24) где с — абсолютная постоянная. Доказательство. Возьмем какую-нибудь функцию h Е C3, 0 ^ h ^ 1, такую, что h(x) = 1, ж ^ 0; h(x) = 0, ж ^ 1, и обозначим /ц = sup\h'"(x)\. Тогда для X функции /(ж) = h((x - t)/e) будем иметь /3 = sup \f"'(x)\ ^ h^/e3, х Р(С„ < «К Е/(С.) < Е/(7,) + ^ < ^Р(7/<< + £) + ^!<Р(7/<,) + _£. + ^з. Последнее неравенство имеет место, так как максимум производной нормальной функции распределения Ф(£) = P(rj < t) равен \/y/2ir. Устанавливая точно так же обратное неравенство и полагая е = (щ) , получим (24). ■ Оценка в теореме 7А, конечно, не является наилучшей. И все же неравенство (24) показывает, что мы будем иметь хорошее нормальное приближение для Р(Сп < ж) и в области больших уклонений (т.е. при |ж| —> со), по крайней мере для ж, при которых при п —> со (1-Ф(М))(4)",/4-оо. (25) Действительно, в этом случае, например, при ж = |ж| > 0 p(Cn^x) _i 1 - Ф(х) Так как по правилу Лопиталя ^ 1 - Ф(х) оо 1 /» 1 1 - Ф(ж) = —= / e~l I2 dt ~ е~х I при ж —> со, V 27Г J V 27Г Ж х то (25) справедливо для |ж| < c\\/—\nL® при подходящей постоянной с\.
174 Глава 8. Предельные теоремы В главе 19 мы получим обобщение теорем 7, 7А. Вопрос об уточнениях и оценках погрешности в центральной предельной теореме и в других предельных теоремах является одним из важных в теории вероятностей, поскольку от ответа на него зависит, насколько точными и эффективными будут применения этих теорем к задачам практики. Надо, прежде всего, найти правильный порядок убывания An = sup |P(Cn < х) — Ф(х)\ по п (или, скажем, по L^ х в случае разнораспределенных слагаемых). Существует по крайней мере два подхода к отысканию правильных оценок Ап. Один из них, метод характеристических функций, исходит из неулучшаемой оценки блиаости характеристических функций /ч t2 <cL2n которую читатель может получить самостоятельно, пользуясь леммой 7.2 и усложнив немного рассуждения в доказательстве теоремы 5. Основные технические трудности здесь состоят в том, чтобы с помощью формулы обращения получить такой же порядок малости для Ап. Второй подход, так называемый метод композиций, был проиллюстрирован в этом параграфе в теореме 7 (в какой-то мере существо его заложено в соотношении (20)). Именно этим методом в Приложении 5 для случая одинаково распределенных слагаемых будет доказан следующий общий результат (Крамер, Берри, Эссен): Теорема. Если & не зависит от п, £k,n = (€k — о>к)/Вп, то 5ир|Р(С„-ж)-Ф(ж)| ^с£3, х где с — абсолютная постоянная. В случае одинаково распределенных & правая часть неравенства превращается в cfi\/a3y/n. Установлено, что (27г)-1/2 < с < 0,8 5). Здесь надо иметь в виду, что приведенные теоремы и оценка постоянной с универсальны и выполняются, следовательно, в самых неблагоприятных с точки зрения приближений условиях. Поэтому скорость сходимости в реальных задачах, как правило, оказывается лучше. § 6. Локальная предельная теорема В предыдущих параграфах мы установили, что распределение нормированной п суммы Sn — ^2 £j одинаково распределенных и независимых величин ^ с Е^ — 0, Dfj; = а < со сходится к нормальному закону. Допустим теперь, что распределение £n = Sn/(&\/n) имеет плотность. Будет ли она равномерно сближаться с плотностью нормального приближения? Положительный ответ на этот вопрос позволил бы оценивать вероятности попадания £п в произвольные измеримые множества6), 5)См. [28]. 6) Слабая сходимость распределений Рп =ф> Р означает сходимость вероятностей Рп(В) -* Р(В) лишь для множеств В, граница которых дВ (это есть разность между замыканием В и дополнением к замыканию R — В) обладает свойством Р(дВ) = 0. Существенность этого условия хорошо иллюстрируется следующим примером. Пусть & целочисленны, а — 1, а В есть множество всех
§6. Локальная предельная теорема 175 и в том числе вероятности событий вида {Sn Е А}, где А — фиксированный интервал (из центральной предельной теоремы следует лишь, что P(5n G А) = Р (С„ € A/(ay/it)) -> 0 при п -> оо. Теорема 8. Пусть {ffc}^ — последовательность независимых одинаково распределенных случайных величин, Е& = О, D& = а2, 0 < а2 < оо, y>(t) = Ее*'*. Предположим, что при некотором т ^ 1 распределение суммы о IT» имеет плотность, и, кроме того, х.ф. <pm(t) интегрируема. Тогда плотности распределения Дп(ж) случайных величин £n = Sn/(ay/n) равномерно по х сходятся к плотности нормального закона Например, плотность равномерного на [—1,1] распределения удовлетворяет этой теореме, так как для нее \<р (t)\ ^ l/t2 (см. пример 7.7) и, следовательно, \<р (t)\ интефируема. Следовательно, по теореме 6 плотность распределения Sn в точке исгу/п (а2 = 1/3) будет вести себя как l/(oV27rn)e~u ^2 (ср. с замечанием к примеру 3.4). Интефируемость <р (t) имеет место также во всех случаях, когда плотность & есть функция Офаниченной вариации. В этом легко убедиться, если проинтефиро- вать х. ф. по частям. Доказательство. В силу формулы обращения при n ^ m ^«-s/'^Ш*- (26) Здесь, как мы знаем, при каждом t \ay/nj е-1'2. (27) Поэтому, чтобы доказать требуемое равенство Иш /<.(*) = -L / e-itxe-^2dt = -^е"'1'2, (28) п-+оо 27Г У V27T достаточно убедиться, что (рп (1/(сг>/п)) при всех п мажорируется интефируемой функцией. Так как дисперсия конечна, то у>"(£) непрерывна, (р"(0) = —а2. Пусть б > 0 таково, что при \t\ < 6 \<p"(t)-<p"(0)\^ea2 для заданного е > 0. Тогда при |£| < 0 2 9 9 9 9 рациональных чисел. Тогда р„(в) = р(с„ев) = р(^ев) =i, если п = Л (к — целое), и Рп(В) = 0 в противном случае: так что lim Рп(В) не существует. В этом п—*оо примере для предельного нормального распределения Р, очевидно, выполняется Рп =Ф- Р, Р(дВ) = 1, так как дВ совпадает здесь со всей вещественной прямой R. Одновременно можно заметить, что для любого распределения Р, имеющего плотность (в том числе для нормального), в силу счетности В будем иметь Р(В) = 0.
176 Глава 8. Предельные теоремы где t 6 [0,t], \в\\ < е. Используя неравенство 11п(1 - /3) - (3\ ^ /З2, получаем, что In <p(t) t2a2 -(1+62), \в2\<е. (29) Отсюда находим, что при <Ту/п <6 *пШ) = е nReln * £ e-(2/2('-f). В дополнительной области ffy/n sup а\/% >s ^ 6 действует оценка < l-7< 1, 4<^J| которая справедлива в силу того, что Sm имеет плотность. Поэтому J>« Ш>6 dt^ (\-j)n-maV^ f \<pm(u)\du ^ (1 -7)nV^- (l-7)m при п->оов силу интегрируемости |y?m(u)|. Соотношение (28) доказано. Пользуясь тем, что (pn(t/y/n) мгжорируется интефируемой функцией, легко установить, что f(u(x) равностепенно по п непрерывны. Это делается с помощью представления (26) точно так же, как доказывается непрерывность х. ф. Равностепенная непрерывность Дп, непрерывность функции е~х ^ и соотношение (28) влекут за собой равномерную сходимость Дп (х) к плотности нормального закона. ■ Следствие 3. Из доказанной теоремы следует, в частности, что при п —► со и при \z\l\fn < с р (-iL < с < z-±±) ~ -1= -4= ^zWn)- (зо) где с, а — фиксированные числа. Мы предлагаем читателю сравнить это соотношение с локальной предельной теоремой для схемы Бернулли (см., в частности, формулу (5.7)). Соотношение (30) можно получить и при более широких условиях. Теорема 9. Соотношение (30) останется справедливым, если в теореме 8 условие интегрируемости <pm(t) заменить на интегрируемость (<pm(t))/(l + \t\). Доказательство. По формуле обращения 1 р -Их _ -Ну / t \ ад-и.»-5/—— "ЧгзО* При х = zl(o\fn), у = х + а/(а>/п) в правой части получим -ita/(<Ty/n) 1 2-кау/п H J it/(ay/n) \ay/n)
§7. ЗБЧ и ЦПТ в многомерном случае 177 где 1 it/tffjfi) v а> V* (t/(ay/n)) —* е ' /2- Здесь можно опять использовать теорему о мажорируемой сходимости (по тем же причинам, что и прежде, и при очевидных изменениях, связанных с появлением под интефалом множителя \/i). Получим в результате, что FCn (х + —= - F,(x) - — / е ttx ?dt = —^-=е х /2. В дальнейшем нам понадобится несколько более общая постановка задачи. Мы предположим, что распределения случайных величин ^ зависят от п (схема серий). Следовательно, будут зависеть от п и х. ф. (p(t) = (pn(t) = Ее*'*'. Теорема 10. Пусть 1) (p™(t) при некотором т ^ 1 интегрируемы равномерно по п; 2) sup \<pn(t)\ < 1 - б < 1 при всех t, |t| > е > 0, 6 = 6(e); п 3) (fn(t) равностепенно по п непрерывны в точке t = 0. Именно, для заданного € > 0 существует б > 0 такое, что при \t\ < 6 sup \ipl(t) - ^(0)| < е, 0 < q < |^'(0)| < с2 < со. п Тогда справедливо утверждение теоремы 8. Если в условии 1) (p™(t) заменить на <p™(t)/(\ +\t\), то справедливо утверждение теоремы 9. Приведенные условия таковы, что они позволяют получить доказательство теоремы 10, совершенно ничего не меняя в рассуждениях теорем 8, 9. Соотношение (27), для выполнения которого в условиях схемы серий требовалось бы условие Линдеберга, следует из (29). Теорема 10 показывает, что переход к схеме серий в локальной теореме даже в случае одинаково распределенных величин сопровождается введением целого ряда новых условий. § 7. Закон больших чисел и центральная предельная теорема в многомерном случае В этом параграфе мы будем предполагать, что fi?n, ... ,£„,„ есть случайные п векторы в схеме серий, Е&,п = 0, (п = X) &,„. к=\ Закон больших чисел Сп~^0 получается немедленно из теоремы 3, если v предположить, что условиям теоремы 3 удовлетворяют координаты £*)П. Поэтому ничто не мешает считать, что теорема 3 сформулирована и доказана для векторов. Чуть сложнее обстоит дело с центральной предельной теоремой. Здесь мы будем предполагать, что Е|^?п|2 < со, где |ж|2 = (ж,ж) есть квадрат нормы х. Обозначим п 1 Т 1 \.—^ 2 0fc,n = Е&|П&,„, ап = 2_^ °~к,п к=\ (индекс Т означает транспонирование, так что £jfn есть вектор-столбец).
178 Глава 8. Предельные теоремы Введем в рассмотрение условие п J2 Е min (|6,n|2, |&,„|') - 0, s > 2, (D2) и условие Линдеберга п Х^Е(1^п12;1б,п1>т)-о (м2) при п —> со и любом г > 0. Как и в одномерном случае, легко убедиться, что 2 d 2 условия (D2) и (Мг) при tran = Yl(an)jj < с < 00 равносильны. 7 9 9 Теорема 11. Если ап —> <т , где <т — положительно определенная матрица, и выполнено условие (D2) (и/ш (М2)), /wo Следствие 4 («обычная» центральная предельная теорема). Если fi,f2> ••• — последовательность независимых одинаково распределенных векторов, Е^ = 0, сг = п ЕС*6. S» = Z) С*, то прип-+оо к=\ vs ^ Ф°-*2- Это утверждение является следствием теоремы 11, так как случайные величины £k,n — £k/y/n удовлетворяют ее условиям. Доказательство теоремы 11. Рассмотрим характеристические функции п ¥>*,»(*) = Ее*'Ч <pn(t) = Ее'^> = Ц <pk,n(t). Для доказательства надо убедиться, что при любом t и при п —* оо <pn(t)^expl~t*2tT\. Воспользуемся теоремой 5. Функции (pk,n(t) и <pn(t) можно рассматривать как характеристические функции <PkAv) = Е ехР(™£м), <P°n(v) = Е exp(it<n) случайных величин f£n = (&,п,0), Сп = (Сп,0), где в = t/\t\, v — \t\. Покажем, что скалярные случайные величины f£n удовлетворяют условиям теоремы 5 (или следствия 1) для одномерного случая. Очевидно, ЕЙ,» = 0, £ Е(6%)2 = £ Е(6,п,*)2 = ftr*^ -> ftr V > 0.
§8*. Вероятности больших уклонений 179 Выполнение условия (D2) следует из очевидных неравенств (6ь,»,*)2 = Км|Ч I6.nl2, п п X^2(d,nK^ES2(l&,nl), k=\ *=1 где #2(ж) = niin(x ,\x\s), s > 2. Таким образом, для любых v и в (т.е. для любых t) в силу следствия 1 теоремы 5 <pn(t) = Е ехрфс'} - exp {-^20<т20Г} = ехр |-^<АГ J . В теореме 11 остается вне поля зрения случай, когда элементы матрицы <т„ неограниченно растут или ведут себя так, что ранг предельной матрицы а становится меньше размерности векторов &>п. Такое может происходить, когда дисперсии разных координат &>п имеют разные порядки убывания (или роста). В этом случае вместо £„ следует рассматривать преобразованные суммы £'п = ^па~х. По существу теорема 11 является следствием следующего более общего утверждения, которое, в свою очередь, вытекает из теоремы 11. Теорема НА. Если случайные величины £кп = £fc>n0"n удовлетворяют условию (D2) (или (М2)), то Сп €=> Фо,я» где Е — единичная матрица. § 8*. Вероятности больших уклонений Пусть £i,f2>--- — последовательность независимых одинаково распределенных величин, Е& = 0, D£k — 1. Предположим, что надо оценить вероятность Р(5П ^ ж), когда х зависит от п и х/у/п —► оо при п —> со. Центральная предельная теорема в этом случае позволяет лишь заключить, что Р(5„ ^ х) —► 0. Задача состоит в отыскании функции Р(п,х) такой, что P(Sn>x) = P(n,x)(l + o(l)). Отметим еще раз, что в отличие от нормального приближения здесь мы требуем малость относительной, а не абсолютной погрешности. Такого рода задачи нередко возникают, например, в математической статистике при оценке потерь в статистических критериях и в теории надежности. В этом параграфе будет изложен метод Крамера исследования вероятностей больших уклонений, который в известном смысле сводит задачу к центральной предельной теореме. В дальнейшем будем предполагать, что выполнено следующее основное Условие (А) (условие Крамера). Существует А > 0 такое, что [ eXydF(y) = EeX( < 00. Смысл этого условия понять нетрудно — оно эквивалентно экспоненциальному убыванию Р(£ > у) = 1 — F(y). Действительно, интеграл в (А) сходится или расходится вместе с интегралом ОО 00 ОО J ехУ dF(y) = - У е* d(l - F(y)) = 1 - F(0) + A J ex»(l - F(y)) dy.
180 Глава 8. Предельные теоремы Поэтому, если 1 - F(y) ^ се ^у, то (А) выполнено при Л < fi. Наоборот, из (А) следует по неравенству Чебышева, что Р(^>у)^е~ХуЕеХ(. Обозначим А+ = sup{A: Ее * < со}. Если, например, f ограничена сверху, то Л+ = со. То же самое верно для нормально распределенной £. Если же Р(£ > У) — се_/ху, fi > 0, то, очевидно, Л+ = fi. Если выполнено условие (А), то х. ф. (p(t) = Ее*'* — аналитическая в плоскости комплексного переменного в полосе 0 > Imt > — Л+. Это следует из возможности дифференцирования в плоскости комплексного переменного функции ¥>(*) = /< ,«у dF(y), поскольку J \yetty\dF(y) при указанных значениях t равномерно сходится. Если условие (А) выполняется и при некоторых отрицательных Л, то ip(t) аналитическая в полосе, содержащей прямую Im£ = 0. Рассмотрим теперь подробнее функцию ^(Л) = ЕеА* = (р(—гЛ). Очевидно, что (имеются в виду правые производные) V'(0) = E£, V"(0) = D£, V"(A) = Jy2ex» dF(y) > 0. Нетрудно видеть, что ^>"(A)/^(A) имеет смысл второго момента случайной величины г) с функцией распределения у Giy) = W)feXtdFV- W —оо Дисперсия этой величины равна (InV)"- Так как дисперсия обязана быть положительной, то отсюда следует, что функции г/> и Ычр являются выпуклыми на [0,А+]. Функции ^e(A) = e_aV(A) = EeA(*~a), ln^e(A) = -аХ + lntf (A), очевидно, также являются выпуклыми, при этом ^(0) = Е(£ - а) = -а. Поэтому, если а ^ 0 и ip'a(X+) > 0 (мы полагаем ip'a(X+) = lim^(A)), то на А|А+ полуинтервале [0, А+) существует единственная точка А(а), в которой ^'a(X) = 0 и функции ipa и 1п^« достигают своего минимума. Так как ip'a(X) = i>a(X) (-a + ^'(А)/^(А)), то условия существования точки Х(а) можно записать в виде ^'(А+)
§8*. Вероятности больших уклонений 181 Ясно, что при достаточно малых а > О эти условия всегда выполнены. Они выполнены при любом а ^ О, если 1р'(Л+) = со. Обозначим Л(а) = sup(aA - ln^(A)) = а\(а) - ln^(A(a)). (32) А Функцию Л(а) назовем функцией уклонений (смысл такого названия станет ясным позже). Точка А(а), где достигается значение А(а), удовлетворяет тождеству ^(А(а)) *(А(а)) = а. (33) Так как \nip — выпуклая функция, то производная (^'(А)/^(А))' = (1п^)" > 0 и, значит, функция А(а), являясь обратной к ip'/ip, будет аналитической в (О, А+). Заметив, что А(0) = О, Л(0) = 0 и что в силу (32), (33) А'(а) = Х(а) + аХ'(а) - t^^x\a) = А(а), а получим Л(а) = / Х(и) du. Так как А'(0) = (Df)_1 = 1, то отсюда следует, в частно- 0 сти, что Л(0) = Л'(0) = О, Л"(0) = 1. Случайную величину £'"' с распределением G в (31) нам будет удобно называть преобразованием Крамера над случайной величиной f. Характеристическая функция этой случайной величины равна g{u) = jj> ^•""«-w- <34) Функция распределения для преобразования Крамера над 5„ в силу (31) будет иметь вид у *-(А) У'е? dFs.it), (35) а соответствующая х. ф. будет равна в силу (34) y>sm(tt —гА) <pn(u — i\) (36) ^n(A) ^»(A) Покажем, что (35) есть не что иное, как функция распределения Fzn суммы Zn — ^2 £ъ , где ^ ^ и независимы. Другими словами, преобразование Крамера *=1 р над суммой есть сумма преобразований Крамера над слагаемыми. Это следует из того, что х. ф. Zn равна ^7\ и совпадает с (36). Таким образом, у у FzAv) = V>_n(A) J eM dFs.it), Fs.iy) = *"(А) f e~M dFz.it). (37) -00 -00 Если 5„ имеет плотность fsu(v)> TO %п также имеет плотность fz.iy) = ^-"(А)еЛ"/5.(у). (38)
182 Глава 8. Предельные теоремы Пусть 0 < а < а+. Выберем в формулах (31), (34) Л = Л(а). Тогда случайная величина f ^ с характеристической функцией д(и) будет обладать свойствами Е(^>-а)=^(Л(а))-а = 0 U ' *(Л(а)) ' п/,(а) ч ^"(Л(«)) 2 _ 2 . п D(* e)=*(W =<Та>°- (39) Можно сформулировать теперь следующую теорему. Обозначим п Hn = Zn-an = ^(tia)-a). к=\ Теорема 12. Пусть выполнено условие (А) и я ^'(А+) hm sup — < а+ = п—юо (напомним, что ^(А) = ЕеА^, А+ = sup{A: ^(A) < со}). Тогда а FSn(х + а) - FSn(х) = ехр{-пЛ(а)} J e~x^1 <LFHn(*), (40) о где а = х/п. Если, кроме того, £ имеет плотность, то fSu(x + а) = ехр{-пЛ(а) - аА(а)}/я». (41) Эта теорема позволяет сводить задачи о больших уклонениях для Sn к задаче о «нормальных» уклонениях для Нп. Доказательство следует немедленно из формул (37), (38), если положить в них у = х + а = ап + а, А = А(а) и заметить, что FZu(x + а) = FZu-an(a) = FHu(a). . Формулы (40), (41) позволяют вычислять FSu(x + а) и fSn{x + a), поскольку распределение суммы Нп = ]С(£* — а) в области «нормальных уклонений» к=\ известно. Мы знаем, например, что в широких предположениях в формуле (41) /яп(а) ~ 1/(<Гау/п) ' 1/\/2я\ Для большей точности воспользуемся локальной теоремой 10, где вместо <pn(t) нужно рассмотреть х. ф. fj - а, равную ^(t)-c~ita(p{t~iX{a)) J{t)~e <p(-i\(a)) (ясно, что мы находимся в условиях схемы серии, так как распределение f j - a зависит от п через а = х/п). Введем в рассмотрение
§8*. Вероятности больших уклонений 183 Условие (В). F(x) имеет плотность, ах.ф. <p(t) такова, что <pm(u — i\) при каком-нибудь целом т ^ 1 интегрируема по и при всех А Е [О, Л+) 7). Нетрудно видеть, что при выполнении этого условия выполняются условия 1-3 теоремы 10, при этом равномерно по а. Равномерность по а можно проверять непосредственно. Допустим, например, относительно условия 2 противное: что существует е>0и последовательности ak, tk такие, что \tk\ > e и I <p(tk - iX(ak)) I l7(fc)l <p(-i\(ak)) 1 (42) при А: —> oo. Так как ak € [0,a], a < oc+, то можно, пользуясь компактностью отрезка, не ограничивая общности, считать, что ак —► «о € [0,а], а < со. Далее, производная tp'(t) равномерно офаничена в области 0 ^ Imt ^ — Л(а), поскольку \<p'(t)\ ^ ip'(X(a)). Поэтому вместе с (42) при к —► со будет выполняться N > е, <p(-i\(ak)) — (p(-i\(a0)) > 0, <p(tk - »А(а0)) 1. p(-iA(a0)) Это противоречит существованию плотности у распределения с характеристической функцией и?гЯ- Таким образом, условия теоремы 10 выполнены. Это означает, что 1 D-f2/2 ч/2тг (43) равномерно по v, где £| = Нп/(сгал/п). Сопоставляя это с теоремой 12, получаем следующее утверждение. Теорема 13. Пусть выполнены условия теоремы 12 и условие (В). Тогда 1 /s» '27ГП ехр{-пЛ(а)}, где по-прежнему а = х/п, сга определяются формулой (39). При любом а > 0 таком, что а = o(\/w), Р(ж ^ 5„ ^ х + а) 1 /27ГП ехр{—пА(а)} -аХ(а) A(ar) £Ьш х/л/п —► со, /яо P(Sn > х) ааХ(а)у/2жп ехр{-пЛ(а)}. (44) (45) Доказательство. Соотношение (44) получается интефированием (41), (43) по а. Чтобы получить (45), надо выбрать a = о(у/п) так, чтобы а\(а) —> со (или, что то же, ах/п —> со). Это, очевидно, всегда возможно, и это делает правую часть в (44) асимптотически эквивалентной (45). ■ В соотношениях (44), (45) следует иметь в виду, что аа —► 1, Х(а) ~ а при а->0. 7)Для этого достаточно, чтобы интефируема была <pm(t).
184 Глава 8. Предельные теоремы Замечание 7. Для получения соотношений (44), (45) нет необходимости пользоваться локальной предельной теоремой 10, для которой введено условие (В). Достаточно воспользоваться формулой (40) и теоремой 9, для которой, как мы знаем, в условии (В) интегрируемость <pm(t) можно ослабить до интегрируемости fm(t)/(\ + \t\). Соотношение (40) при а = со допускает следующую интерпретацию, связанную с тем, что интефал в правой части представляет собой в этом случае свертку двух распределений. Пусть 7 ^ ГА(а) (т.е. Р(7 > х) — е~х^а'х, х ^ 0) и не зависит от Нп. Тогда (40) можно записать в виде Р(5П > х) = ехр{-пЛ(а)} [Р(#п > 0) - Р(#п > 7)] = = ехр{-пЛ(а)} Л(а) / e_A(a)zP(0 < Нп < z) dz. о По центральной предельной теореме отсюда следует лишь, что при а > а$ > 0 Р(5„>*) = 0(е-"Л(*>). Замечание 8. Соотношение (45) показывает, насколько точным является неравенство типа Чебышева Р(* > х) ^ е~ХхЕех^ полученное в §4.7. Применяя его к случайной величине Sn и выбирая Л = Л(а), мы получим ЕеА5п = i/>(\)n, Р(5„ ^ х) ^ expn{-aA(a) + ln^(A(a))} = ехр{-пЛ(а)}. Замечание 9. Теоремы 12, 13 показывают, что функция Л(а) ифает определяющую роль при описании вероятностей больших уклонений. Соотношения (45) позволяют записать для функции Л(а) при каждом а, 0 ^ а < а+, равенство А(а) = - lim -InP ( — ^ а ) . (46) Легко видеть также, что Л(а) = - lim lim - In P f — G (a - /i, a -f h) ) . (47) Это последнее соотношение оказывается верным уже без каких бы то ни было офаничений на распределение & и а. Равенства (46), (47) объясняют в какой-то мере термин «функция уклонений» для Л(а), которую следует считать определенной при всех а с помощью первого соотношения в (32). Можно отметить также, что если условие (А) не выполнено, то Л(а) = 0 при а > 0. Замечание 10. Возвращаясь к теореме 9, видим, что если х ^ olqu, а$ > 0, то убывание Р(5„ ^ х) оказывается экспоненциальным. Если функция ^>(А) аналитична в точке А = 0, то аналитической будет и Л(а) в точке a = 0, и можно воспользоваться разложением Л(а) = ^Aka*, где Л* полностью определяются А: моментами f. В этом случае при х/п = а —► 0 получим ехр{-пЛ(а)} ~ ехр«
§8*. Вероятности больших уклонений 185 если nas+x = xs+l/ns —> 0 при п —> со. В частности, если х = о(п2^), то Р<5„ **)-(*£) еХр{-^}^-ф(^)- (48) Можно отметить, что последний результат согласуется с замечаниями относительно применимости теоремы Муавра—Лапласа в области больших уклонений. Если же окажется, что Лз ф О, то пользоваться нормальным приближением, когда Лзж' /п не является малым числом, нельзя. Функция уклонений Л(а) для некоторых распределений может быть вычислена в явном виде. Например, для нормального закона с параметрами (0,1) Л+ = а+ = со, Л(а) = а, А(а) = а /2. Для центрированного показательного распределения с параметром fi Р(£ > х) = e-rt'+l,ti при х > —, Р(£ > х) = 1 при х < —, имеем Замечание 11. Для схемы Бернулли функция уклонений по существу нами была вычислена и использовалась в §5.2. В связи с этим можно отметить, что формулы (45) сохраняются и для решетчатых £* (& имеют вид kh, h > 0, А; целое), однако при этом х должно быть кратным шагу решетки. Из обобщений теоремы 13, которые доступны читателю без преодоления каких-либо новых трудностей, можно указать следующее. Вспомним, для чего требовалось условие (В) — для возможности использовать формулу обращения (интегрируемость (рт) и для оценки |7(^)1 < I - 6 при \и\ > е (см. условия теоремы 10). Но всего этого можно добиться и несколько иным путем, введя в 5„ «сглаживающее» слагаемое f * с финитной плотностью (гладкой и сосредоточенной на [0, h]) и предположив, что выполнено Условие (С) (это условие иногда также называют условием Крамера), lim sup \(p(u - i\)\ < у?(-гЛ), Л G [0, Л+). |ti| —00 Введение f* будет обеспечивать существование плотности 5„ + С и возможность пользоваться формулой обращения, поскольку х. ф. £* интегрируема (см. доказательство теоремы непрерывности). Из условия (С) будет следовать, что 17(^)1 < 1 - <5 при \и\ > е (\ти = 0). Для выполнения условия (С) достаточно8), чтобы F(x) содержала абсолютно непрерывную компоненту (ведь х. ф., соответствующая этой компоненте, сходится к нулю при \и\ —> со, 1ти = 0). Условие (С) заведомо не будет выполнено, если £ дискретна — тогда \<p(t)\ будет принимать при t —► со значения, сколь угодно близкие (или равные) единице. 8) Условие (С) будет выполнено, если lim sup|y?(«)| < 1 (Im« = 0). |«|-+оо
186 Глава 8. Предельные теоремы Таким образом, если случайная величина £* не зависит от {£*} и имеет финитную плотность, сосредоточенную на [О,Л], то ее х.ф. (f*(t) интегрируема, аналитична во всей плоскости, и плотность Sn + f * равна /W'(« + «) = ^/^WW dt. Повторяя с очевидными изменениями проведенные выкладки, получим fsn+e(x + а) = ехр{-пЛ(а) - аЛ(а)}/#п+г (а)у>*(-*А(а)), где £** также имеет финитную плотность и х. ф., равную у «(ГД/^и • Теперь надо вновь воспользоваться тем, что при а = о(у/п) равномерно по а /*.«••(«) = —7f=(l+o(l))- crev2xn Мы получим тогда так же, как в (44), что при а > О, о = о(\/п) Р(х < Sn + С < х + а) (1 - е-аА(а>)^(-гА(а)). (49) ааЛ(а)у27гп Отсюда уже нетрудно получить (44) и (45), пользуясь неравенствами Р(х + h< Sn + f* < х + а) ^ Р(ж ^ 5„ < ж + а) ^ Р(ж ^ 5„ + f * < ж + а + /i) и тем, что величина h может быть выбрана произвольно малой. Надо считать при этом, что а ^ ао = const > 0. Величина (p*(-iX(a)) в (49) выбором h может быть сделана сколь угодно близкой единице. Мы доказали таким образом, что верна Теорема 14. Если выполнены условия (А) и (С), то при дополнительном условии а ^ ао > 0 справедливы соотношения (44), (45). В заключение этого параграфа отметим еще одно свойство функции уклонений. Будем обозначать через Л^(а), Л^(а), ^(А) функции Л, А и if), определенные выше и соответствующие случайной величине £. Тогда если £ и rj независимы, то A(+V(a) = sup(aA - ln^(A) - ln^(A)) = = sup(/?A - ln^(A) + (a - p)\ - ln^(A)) ^ A^(/3) + Av(a - /3). (50) С другой стороны, так как Х^(/3) есть монотонно возрастающая функция, то можно подобрать (3 так, чтобы \{{р) = Xv(a - (3). При таком (3 в (50) будет знак равенства, и, следовательно, Л^а) = inf(A<(0) + Л„(а - р)). Из соображений симметрии для одинаково распределенных & отсюда находим, что Л6 +6 (2«) = 2Л6 («), As» (па) = пА( (а). Замечая, что в формуле (45) порядок стремления к бесконечности у последовательностей пХ (а) и пА(а) одинаков, мы могли бы эту формулу написать теперь в виде Р(5П £ *) ~ с(а)(Л5Лх))-1/2ехр{-Л5>)},
§9*. Сходимость к другим устойчивым законам 187 где с(а) заключено в фиксированных положительных пределах. В таком виде теорема о больших уклонениях становится весьма общей и сохраняющей свою силу при отклонениях от условий теоремы 14, когда допускается зависимость между слагаемыми и их разнораспределенность. § 9*. Сходимость к другим устойчивым законам Как это видно из предыдущих разделов, нормальный закон занимает особое место среди других распределений — он выступает в роли предельного для нормированных сумм произвольно распределенных слагаемых. Возникает естественный вопрос: существуют ли другие предельные законы для сумм независимых величин? Из доказательства теоремы 2 для одинаково распределенных случайных величин видно, что характер предельного распределения Sn определяется поведением 9 9 х. ф. в окрестности нуля. Если существуют Е£ = 0 и Е£ = а , то 2 '(*)-*F"G) А это определяет асимптотическое поведение х.ф. Sn/y/n, равной <pn(t/y/n), которое приводит к нормальному закону. Следовательно, в поисках других предельных законов для сумм 5„ = £i -f ... -f £„ надо отказаться от конечности дисперсии Е£ , или, что то же, от существования у>"(0). Мы не будем здесь рассматривать все распределения, обладающие этими свойствами, а ограничимся рассмотрением лишь достаточно «правильных» случаев, когда при а < 2 выполнено Условие (D). 1 - F(x) = ах~а + о(ж"а), F(-x) = Ьх~а + о(х~а) при х —*• со. Здесь предполагается, что по крайней мере одно из чисел а и Ь положительно. Нетрудно видеть, что для таких распределений / х dF(x) = со. Величины Е£, если а > 1, не ограничивая общности, будем считать равными нулю. Ответ на поставленный вопрос дает следующая Теорема 15. При 0 < а < 2 существуют последовательности Ап такие, что при п —> со —— ч п/ - Ап ^> ¥ар, (51) \а(а + Ь)пу1а где ¥ар есть закон распределения, зависящий лишь от параметров а и (3 = (о-Ь)/(о + Ь). Логарифм х. ф. закона ¥а^ равен 1пр(0 = У (> - 1 - y^lj) \x\-a-lD(x) dx, (52) при х > О, D(x) = { a + b b a + b при х ^ 0.
188 Глава 8. Предельные теоремы Роль параметров аир поясняется в замечании 13, помещенном в конце параграфа. Помимо Fa)ig, 0 < а < 2, -1^/3^1, предельными, как мы видели, являются нормальные законы Фа^г и вырожденные 1а. Множество всех этих законов обозначим через ~£0. Далее, нетрудно видеть, что если F — какой-нибудь предельный закон распределения, то закон, отличающийся от F изменением масштаба и сдвигом (т.е. закон F((х — а\)/Ь\), также является предельным. Оказывается, что класс законов распределения X, полученный таким расширением о^, исчерпывает все предельные законы для сумм одинаково распределенных независимых величин. Возможна и другая характеризация класса предельных законов <£. Определение 1. Мы назовем закон распределения F(x) устойчивым, если для любых а\, а>2, Ь\ > О, Ь^ > О найдутся а и Ь > 0 такие, что В терминах х. ф. свойство устойчивости можно сформулировать так: для любых bi > 0, ^2 > 0 найдутся а и Ь > 0 такие, что (p(tb{)(p(tb2) = eita<p(tb). Класс всех устойчивых законов обозначим через X*. Замечательный факт состоит в том, что класс всех предельных законов X и класс всех устойчивых законов J? совпадают. Принадлежность X С -/* следует из того, что законы Фа?(72, 1а и ¥а^ являются устойчивыми (устойчивость Fafi проще доказывать, пользуясь замечаниями 12, 13). Любопытно отметить, что закон Пуассона (напомним, что его х. ф. (p(t) равна ехр{/х(е*' - 1)}) и гамма-распределение ((p(t) = (1 - it/a)~x, см. §7.7) не являются устойчивыми в смысле определения 1. Однако они обладают другим свойством, называемым безграничной делимостью. Это свойство состоит в том, что функция <р ^n(t) при любом п снова должна быть х.ф. (т.е. величина f с х.ф. <р представима как сумма независимых &>n, k — 1,...,п, с х.ф. (р1^п). Класс безгранично делимых законов содержит в себе j£* и играет ту же роль, что и класс X : он совпадает с классом всех предельных законов для сумм независимых одинаково распределенных величин, но в схеме серий9). Доказательство теоремы 15. Общая схема доказательства здесь примерно та же, что и в центральной предельной теореме. Обозначим Вп = [ап(а + Ь)]^а, Cn = Sn/Bn — An, где Ап выберем позже. Характеристическая функция £п равна Так как (p^(t) —> 1 при t —> 0, то при каждом фиксированном t и п —> со '-'«(к) - («(s) - ОI * h (s) - ■" In <p(.(t) = -it An + п ( щ (—) - lj +Д„. (53) Подробнее об этом см. [9, 3].
§9*. Сходимость к другим устойчивым законам 189 Последнее слагаемое Rn по модулю не превосходит п L?^ f -J- J - 1 к нулю при п —> со. Действительно, из неравенств \eiT - IK И, \е" -1К2 вытекает, что при р < 1 \е" - 1|< 2\т\р. Так как m = E|f |p < со при р < а, то to(T)-l|<E|eiT«-l|<2E|Ttf\ |2 , , |2р И СХОДИТСЯ п V* ш- $С п вп 4m2 <const-n1_2p/a-+0 при 2р > а. Рассмотрим теперь второе слагаемое в правой части (53). Его можно записать в виде п f(eitx -\)dF(xBn) = ЯИх \ 1-Ь х Г х е"х-l~TTxi)^~dGn{x) + iinJ ТТ^dF(xBnl (54) где'°)С» = } ^dF(xBn). — 00 Введем в рассмотрение функцию -z— ах, где функция D(x) определена в (52). Интефируя по частям, находим при v > О (я ( *2 \ — 2xdx ^ VW*2) ~0+*2)V v 2 Gn(v) - Gn(0) =n f -^-j dF(xBn) = J 1 -f xz о ж \v Г x dx = -nir^(1 - *(яД4+2ny(1 -F№)) тгтда- (55) В силу (D) получаем \im(Gn(v)-Gn(0)) = n->oo t; 17 /* X =■ lim na(i7B„)~a -f 2 / lim па(ж£п)~а- ^-тг dx = + V1 n—oo 7 n—со (14-Ж^)^ 0 v2~a a a j xx~a ~~ 1+172 a(a + b) a(a + b)J (1+ж2)2 1+' l0) Если a > 1 и, следовательно, существует Е£ = 0, то удобнее вместо правой части в (54) записать J(eltx — 1 —itx)^- dGn(x). В общем случае мы добавляем и вычитаем J т-*~1 dF(xBn)y поскольку этот интеграл всегда существует.
190 Глава 8. Предельные теоремы Законность предельного перехода под знаком интеграла (включая случай v = со) здесь проверяется без труда, и мы предоставляем это читателю11). Производя «обратное» интегрирование по частям, получим v 2 lim (Gn(v) - Gn(0)) = -4т / -^—x~a-1 dx = G(v) - G(0). n->oo a -f о J 1 + xz 0 Совершенно аналогично устанавливаем, что при v < 0 0 2 ° 2 Gn(0) - Gn(v) = п [ -^Ц dF(xBn) -> -4"- / -^\х\-а-{ dx = G(0) - G(v). J 1 + xL a + о J 1 -f xL V V Таким образом, последовательность Gn(v)/G„(oo) образует последовательность функций распределения Вернемся теперь к (54). Первый интеграл в правой части (54) равен Gn(x) f f(x) dGn(x) = Gn(oo) f f(x) d J^ »(oo)' где f(x) = (ettx - 1 - itx/(\ -f ж2))(1 + x2)/(x2) есть при каждом t непрерывная и ограниченная функция от х. Офаниченность и непрерывность ее при х ф О очевидна. В окрестности точки х — 0, пользуясь разложением ettx в ряд, получаем, что /(ж) ведет себя как itx — -f 0(х3) 1 (1 -f x2) - itx *2 , ч = -- + 0(x). X На основании (56) и свойств слабой сходимости заключаем, что У /(*)d<7„(a) - У /(*) dG(x) = У fe"1 - 1 - -^Л \x\-"-lD(x) dx. Если теперь положить А„ —nf j^ dF(xB„), то получим, что существует lim lnyv (0 = / (eitz - 1 - -^Л \x\-"-lD{x) dx = i/>(t). (57) n-»oo J \ 1 + Я / Функция if), как нетрудно видеть, обладает свойством tp(t) —> 0 при £ —> 0 и, следовательно, непрерывна в точке t — 0 (ср. с доказательством непрерывности х. ф.). По теореме непрерывности (теорема 7.3) это означает, что (р = е^ является х. ф. Сходимость (51) доказана. п* Если в правой части (55) отбросить J> где vn таково, что Bnvn —*■ оо, vny/n —*■ 0, то п J -* 0, о о эо а подынтефальная функция в J мажорируется интефируемой функцией.
§9*. Сходимость к другим устойчивым законам 191 Тот факт, что Fa?Jg зависит только от а и /?, проверяется непосредственно. Действительно, если обозначить 00 / ( ettx — 1 2 ) M~a~ dx = u + iv (и, v вещественны), О 0 / • \ то / ( ettx - 1 - y^i) \x\~a~l dx — и - iv, и мы получим (см. (52)) -00 ^ /\ а \ b , ч \n(p(t) = (и + iv) -f (и — iv) = и -f ij5v. а + Ь а + Ь ■ Числа м и v в этих формулах можно найти в явном виде. Замечание 12. Формулировку теоремы можно несколько упростить, рассматривая отдельно случаи a<l,a=l,a>l.B первом случае нетрудно показать, что последний интеграл в (54) nit / —^Ц- dF(xBn) = it - dGn(x) -* it I - dG(x) J 1+r J x J x (надо воспользоваться интефированием по частям, подобно (55)). Одновременно можно заметить, что при а < 1 существует часть интефала (57), равная / 1 Х 2\x\~a~lD(x) dx = it [ - dG(x). Поэтому при а < 1 можно положить Ап = 0, а утверждение теоремы сформулировать так: ^ & Kj,, (58) где F* ^ есть устойчивый закон, логарифм х. ф. которого равен In*>*(«) = yV'* - l)\x\~a~lD(x)dx = |С /(с*'9 " l)\yra-lD(ysignt)dy. (59) Последнее равенство здесь есть результат замены переменных tx = у. Если а > 1, то Е£ — 0 и, как уже отмечалось в сноске 10) на с. 189, мы можем положить Ап = 0. Логарифм х. ф. распределения F* р в (58) будет при этом характеризоваться равенством \mp\t) = f(eitx - 1 - itx)\x\~a~XD(x) dx. (60) Это выражение интефированием по частям можно привести к виду, подобному (59). В случае а = 1 последовательность Ап устранить не удается, но можно найти асимптотическое поведение Ап и показать, что Ап = /3\пп + о(1пп). Будем считать для простоты, что а + b = 1. Тогда при а = 1, Вп = п /х 2 dF(xn).
192 Глава 8. Предельные теоремы Рассмотрим сначала /. Ясно, что при достаточно малом е > 0 значение О £ £ 71J jf^i dF(xn) будет близко к п J xdF(xn). Можно считать, кроме того, что О О при некотором с > О 1 - F(x) < min(l,caf!), x > 0. Поэтому, интегрируя по частям, получаем £ £ п / xdF(xn) — -пе(\ - F(en)) + п / (1 - F(xn)) dx. 0 0 е с/п (In n)/n e Здесь пе(\ — F(eri)) —► а, п J =n J +n J* -fn J* . Находим 0 0 с/п (In n)/n с/п (In n)/n (In n)/n | (In n)/n п / ^ с, п <п с(пх) dx = с\пх 0 с/п с/п — c[ln In п — In п — In с -f In n] — c[ln In п — In с]. В последнем интеграле аргумент хп > In п —> со при п —> со, так что п ~ п а(хп)~ dx = alnn = aflne — lnlnn-f lnnl. 7 J K ; l(lnn)/n (In n)/n (In n)/n Таким образом, n / 2 dF(xn) ~ alnn (= o(lnn) при a = 0). 0 Остальная часть интеграла конечна: 00 00 пIГГ^dF(xn) = TT7>{1-F{£n)) + nI{l~F{xn))d(if?) < oo С <T^+il\d{jh^) < CO. о Производя такие же вычисления с / , получим, что -00 Ап = (а — b) In n + o(ln п). Замечание 13. Устойчивость законов F* р, описанных в замечании 12, проверяется весьма просто, поскольку в силу (59), (60) In<p*(tb) = ba\n<p*(t). Так как ¥а^ и ¥*ар отличаются лишь сдвигом аргумента, то отсюда следует и устойчивость ¥а^.
§9*. Сходимость к другим устойчивым законам 193 Чтобы избежать в дальнейшем несущественных оговорок и пояснений, мы не будем различать Fajg и F^ и будем понимать под ¥а$ распределения с более простыми по форме х. ф. (59), (60). По поводу роли параметров аир отметим следующее. Параметр а характеризует скорость сходимости к нулю Fafi(-x) и 1 —Fafi(x) при х —> со. Оказывается, что Fa?Jg сохраняет свойство (D) с точностью до постоянного множителя. Параметр /3, принимающий значения из отрезка [—1,1], является мерой асимметрии распределения Fa^. Если, например, (3 = 1 (а > 0, b = 0), то при а < 1 распределение Fai(x) есть распределение, целиком сосредоточенное на правой полуоси. Это видно из того, что в этом случае Fa \(x) можно рассматривать как предельное распределение для нормированных сумм случайных величин & ^ 0 (F(x) — 0 при х < 0). Так как все допредельные распределения при этом будут сосредоточены на правой полуоси, то там же будет сосредоточено и предельное. Аналогично при Р = -1 (а = 0, 6 > 0), а < \ распределение Fa_i(x) целиком сосредоточено на левой полуоси. При /5 = 0 х. ф. Fa?o становится вещественной, а само распределение Fa,o ~~ симметричным (см. свойства х. ф.). Как мы отмечали, х. ф. для Fa?ig могут быть найдены в явном виде. Что же касается самих функций распределения Т?а,р, то в явной форме известны лишь немногие законы. Одним из них является закон Коши F^o с плотностью 2/(7г +4ж ). Преобразование сжатия в 7г/2 раз приводит эту плотность к виду 1/7г(1 + х ), соответствующему Ко,ь В заключение рассмотрим один пример. В § 11.8 мы увидим, что в безобидной игре, рассмотренной нами в примере 4.8, время разорения rj(z) игрока с начальным капиталом z удовлетворяет соотношению P(r)(z) ^ п) ~ zy/2/жп при п —> со. В частности, при z = 1 Р(т/(1) ^п)~ у/2/тгп. (61) Нетрудно видеть (см. об этом также в главе 11), что tj(z) будет распределено так же, как сумма 7]\ + щ + . •. +Vz, ГД£ Vj независимы и распределены, как rj(l). Таким образом, при изучении распределения rj(z), когда z велико, можно в силу (61) воспользоваться теоремой 15 (при a = y/2/ir, 6 = 0, a = 1/2), по которой (см. также замечание 12) jimp(?^<x)=Ft/2il(x) (62) есть устойчивый закон с показателями а = 1/2, /3 = 1. Это утверждение позволяет получить предельное распределение для числа пересечений траекторией S\,..., Sn произвольной полосы [u, v] в случае f E Вр, р = 1/2 (P(ffc = 1) = р = P(£k — -!))• Действительно, пусть для простоты и = 0. Первым моментом положительного пересечения полосы [0,v] назовем марковский момент 7/+ = min{fc : Sk = v}. Первым моментом отрицательного пересечения назовем момент rj+ + 7/_, где rj- = min{fc : S^+fc = 0}- Момент rj\ = 77+ + rj- будет также моментом «двойного пересечения» [0,v]. Величины rj± распределены как rj(v) и независимы, поэтому rj\ распределено как r}(2v). Величина Hk = rj(2v) + ... +77fc(2v), где rji(2v) распределены как rj(2v) и независимы, будет моментом А:-го двойного пересечения. Поэтому i/(n) = max{fc : Hk ^ п} = m'm{k : Hk > n} — 1
194 Глава 8. Предельные теоремы есть число двойных пересечений полосы [0,v] за время п. Мы можем доказать теперь следующее утверждение: Для доказательства воспользуемся следующим соотношением (которое в его более общем виде будет играть важную роль в следующей главе): {и(п) >к} = {Нк ^ п}, где Hk распределено как rj(2vk). Если ^ —> s при п —> со, то в силу (62) Л/ ч / 27T#fc 27ГП \ * /7Г52\ и, следовательно, Р (^ > *) = Р (l/(n) * ^ = Р (Я1^1 < П) "* **> (2Й?) • (Здесь для А; = [ж\/я] выполняется п/к2 —► s2 = 1/ж2.) Утверждение (63) доказано. ■ Ясно, что утверждение (63) сохранится и для числа пересечений [и, v], и Ф 0; надо лишь в правой части (63) v заменить на v — и. Ясно также, что (63) позволяет найти и предельное распределение для числа «простых» (не двойных) пересечений [и, v], поскольку последнее равно 2и(п) или 2v(n) + 1.
Глава 9 Элементы теории восстановления § 1. Процессы восстановления, функции восстановления Перейдем теперь к рассмотрению простейших случайных процессов, которые не требуют для своего описания каких-либо специальных конструкций и целиком определяются последовательностями обычных случайных величин. Пусть {fj}^! есть такая последовательность, причем ^ независимы. Определение 1. Процессом восстановления будем называть совокупность случайных величин rj(t), зависящих от параметра t и определенных на (ffc, #, Р) равенством rj(t) = min(fc: Sk > t), t^ 0, (1) к где Sk = J2tj> So = 0. i=i Величины r)(t) определены еще не полностью. Мы не знаем, чему равны rj(t) на тех исходах ш, на которых уровень t никогда превзойден не будет. В этом случае естественно положить rj(t) = со, если все Sk ^t. (2) Очевидно, что rj(t) является моментом остановки. Обычно случайные величины $2»£з»--- предполагаются одинаково распределенными и имеющими конечное математическое ожидание. Распределение случайной величины £i может быть произвольным. Пусть сначала все fj положительны. В этом случае определение (1) позволяет рассматривать rj(t) как случайную функцию, которую можно описать следующим образом. Если на вещественной оси нанести точки Sq = 0, 5i,52,... > то у(0) — 1 на полуинтервале [0,S\), rj(t) — 2 на полуинтервале [Si,S2) и т.д. Часто процессом восстановления называют и саму последовательность {5^}^_0- Иногда последовательность {Sk} мы будем называть также случайным блужданием. Сам термин «процесс восстановления» связан с тем, что функцию rj(t) и последовательность {Sk} часто используют для описания работы различных физических устройств, содержащих сменяемые элементы. Если, например, ^ — время бесперебойной работы прибора, после которого он выходит из строя и требует замены или ремонта («восстановления»), то время Sk будет означать момент fc-ro «восстановления» прибора. Если момент 5о = 0 также считать моментом «восстановления», то rj(t) будет равно числу «восстановлений», которые произошли до момента времени t.
196 Глава 9. Элементы теории восстановления Процессы восстановления нередко используются также и в собственно вероятностных исследованиях, а также при изучении других процессов, где присутствуют моменты «регенерации», после которых развитие процесса начинается как бы сначала. С примерами такого использования процессов восстановления мы столкнемся ниже. Вернемся к случаю произвольных (разнозначных) £j Определение 2. Функция H(t) = E<n(t), t>0, называется функцией восстановления последовательности {Sfc}£L0. В существующей литературе чаще используется другое определение. Определение 2А. Функцией восстановления последовательности {Sfc}£L0 называется функция 00 u(t) = J2P(sj^t). 3=0 Если £j ^ 0, то эти определения эквивалентны. Действительно, рассмотрим случайную величину 00 i=o где 1(^4) — индикатор события А. Это есть время, проведенное траекторией {S^^Lq (включая момент времени 0) на отрезке [0, t], что для положительных fj совпадает с числом восстановлений на [0,£], так что v(t) = rj(t). Если £j разнозначны, то, очевидно, v(t) ^ r)(t), и с положительной вероятностью u(t) > rj(t) (траектория {Sj} после прохождения уровня t может вернуться в область (—оо,£]). Следовательно, в этом случае U(t) > H(t). Таким образом, для разнозначных ^ мы приходим к двум версиям понятия функции восстановления, данным в определениях 2 и 2А. Мы будем называть их соответственно первой и второй версиями. В этой главе мы будем рассматривать главным образом первую версию (определение 2). О второй версии см. Приложение 6. Отметим также, что определенные нами функции H(t) и U(t) являются непрерывными справа. В существующей литературе часто рассматривают непрерывные слева версии функций восстановления, определенные, соответственно, как 00 H(t - 0) = Е min{fc: Sk ^ t) и U(t - 0) = ^ P(S, < t). Если все £j одинаково распределены, F*k(t) есть fc-значная свертка функции распределения F(t) = P(fj < t), то вторая непрерывная слева версия функции вос- оо становления может быть представлена также в виде ]Г} F*k(t), где F соответствует к=0 распределению, сосредоточенному в 0. С точки зрения рассмотрений, которые будут проводиться ниже, нет никакой разницы, какой вариант непрерывности выбрать. В силу ряда причин в этой главе нам будет удобнее иметь дело с функциями восстановления, непрерывными справа. Все сказанное ниже в равной степени будет справедливо и для функций, непрерывных слева.
§ 1. Процессы восстановления, функции восстановления 197 Теорема 1 (интегральная теорема восстановления). Пусть Е£\ > -со, £,, j ^ 2, одинаково распределены, E£j; = а > 0. 7огда существует H(t) 1 lim —^ = -. <->оо £ а Это соотношение остается справедливым при а — 0 и а = со, wo есть левая часть его обращается в со при а = 0 и в 0 я/?и а = со. Доказательство. Пусть сначала все ^ одинаково распределены. Нам понадобится Определение 3. Случайную величину x(t) = sv{t) -t>o мы будем называть эксцессом (или «перескоком») уровня t для случайного блуждания {Sj}. Так как rj(t) есть момент остановки, то для одинаково распределенных £j с Efj; = а > 0 в силу тождества Вальда ES4it)=t + EX(t) = aEr,(t) или, что то же Я«) = Е„(<) = ^« а Отсюда сразу следует оценка снизу нц) > i. о) а С другой стороны, для Офаниченных сверху случайных величин ^ ^ N очевидно выполняется %(£) ^ N и, стало быть, H(t) ^ . а Введем теперь для произвольных £,, а = Efj > 0 «срезки» Q ' = min(^,iV) и выберем N так, что а# = EQ ' > 0. Тогда, если функцию восстановления, соответствующую fj , обозначить HtN\(t), то мы получим Я(0 ^ H(N)(t) ^ , lim sup —^ ^ —. Так как N произвольно, то H(t) 1 lim sup ^ -. t^oo t a Вместе с оценкой (3) снизу это доказывает утверждение для одинаково распределенных £j. Обозначим H\(t) функцию восстановления в том случае, когда распределения £i и £j, j ^ 2, различны. Тогда я, (0 = 1+ /p(£i edu)H(t~u)
198 Глава 9. Элементы теории восстановления Из приведенных выше рассмотрений следует, что существуют постоянные с\, С2 такие, что при всех t ^ О H(t) ^ сх + c2t. Имеем t l- Jp(h6du)H(t-u)= f P(^edu)H{t~u) + j, -oo \uKN где в случае Ef i > -co интеграл *<l /+/V(^e^)Cl+C2(t-M) (И1 t ^-oo N ' выбором N может быть сделан произвольно малым. Отсюда следует, что H\(t) : 1 t a Последнее утверждение теоремы в случае а = со вытекает из оценок сверху, приведенных в доказательстве. Чтобы получить утверждение в случае а = О, надо ввести в рассмотрение функции восстановления H<£\(t), соответствующие случайным величинам £j +е, и заметить, что йц) > я(е)(«) > *-. Опишем теперь, как такое же, как теорема 1, утверждение можно доказать для функции U(t) (второй версии функции восстановления) с помощью аналитических подходов. Пусть (p(v) — характеристическая функция £,. Тогда преобразование Фурье— Стилтьеса / etvtdU(t) над функцией U(t) будет равно / eivtdU(t) = W ^P(Sk e dt) = $>*(*) = т-гг. J k=oJ k=o *ч ' Положим ip(\) = (f(iX) = f e~XydF(y) и предположим для простоты, что выполнено условие чр(Х) < со при некотором Л > 0 (это есть условие Крамера (ср. с условием (А) в §8.8), означающее экспоненциальное убывание Р(^ < t) = F(t) при t —> —со). Очевидно, что гр(Х) = 1 — аЛ + о(Х) при А | 0. Отсюда следует, что А(Х) = Г e~xtdU(t) 1 1 1 - ^(А) аХ при А | 0, так что А(Х) ведет себя асимптотически при А | О так же, как 00 / ■-«:> = =• Остается воспользоваться так называемыми тауберовыми теоремами, которые для монотонных функций U позволяют находить асимптотическое поведение U(t) при
§2. Основная теорема восстановления в решетчатом случае 199 t —> со по асимптотическому поведению при Л J. О преобразования Лапласа— Стилтьеса А(Х). В силу этих теорем 0 U(t) ~ t/a при £ —> со. Мы не формулируем это утверждение в виде доказанной теоремы по двум причинам: (1) мы не предполагаем, что читатель знаком с тауберовыми теоремами, (2) некоторое более сильное утверждение будет доказано в Приложении 6. Однако исторически многие исследования асимптотических свойств функции U(t) следовали именно этому аналитическому пути. Значительно более трудной задачей является исследование асимптотического при t —> со поведения приращений H(t + u) — H(t) (или U(t + и) — U(t)). С ней тесно связана более общая задача, часто возникающая в приложениях, об асимптотическом поведении интегралов (см., например, гл. 12) t Jg(t-y)dH(y) о 00 при t —► со для функций g(v) таких, что Jg(v)dv < со. О Теоремы, описывающие это асимптотическое поведение, будут называться основными теоремами восстановления. Этим теоремам будут посвящены ближайшие разделы и Приложение 6. Отметим, что в ряде частных случаев названные проблемы решаются очень просто, т.к. функция восстановления H(t) может быть найдена в явном виде. Как это следует из тождества Вальда, использованного выше, для этого достаточно найти в явном виде Ex(t). Если, например, £, целочисленны, Р(£, = 1) > О, P(£j ^ 2) = О, то %(£) = 1, и тождество Вальда дает H(t) = (t -f \)/a. Аналогичные равенства будут справедливы, если Р(£у > t) — ce~at при t > 0, а > 0 (если £у целочисленны, то t принимает лишь целочисленные значения). В этом случае распределение %(£) будет экспоненциальным и не будет зависеть от t (подробнее об этом см. ниже и в гл. 14). § 2. Основная теорема восстановления в решетчатом случае Мы будем различать два типа распределений ^ : решетчатые (или арифметические) и нерешетчатые. (L). Мы будет говорить, что распределение ^ решетчатое, если возможные значения ^ кратны некоторому числу, которое, не ограничивая общности, мы будем считать равным 1. При этом мы будем считать, что 1 есть наибольшее число, обладающее названным свойством, то есть наибольший общий делитель (н.о.д.) возможных значений ^ равен 1. Такие распределения называют также арифметическими. !) При невыполнении условия Крамера (гр(Х) < оо при некотором Л > 0) требуются более тонкие о рассмотрения. Отметим, что U(0) = оо при / t2dF(t) = 00.
200 Глава 9. Элементы теории восстановления Если условие (L) не выполнено, то распределение ^ мы будем называть нерешетчатым. Ясно, например, что случайная величина, принимающая с положительными вероятностями значения 1 и \/2, не может быть решетчатой. В этом параграфе мы будем рассматривать решетчатый случай. Здесь функции P(fj < t) и H(t) полностью определяются их значениями в целых точках t = к, к = 0,1,2,... . Рассмотрим сначала случай, когда ^ положительны. В этом случае разности 00 h(k) = H(k)-H(k- \) = Y^P(Sj = k), k^\, j=0 равны математическим ожиданиям числа попаданий последовательности {Sj} в точку А:. Положим g* = P(£i=*), Pk = P(Zj=k) при j^2. Определение 2. Процесс восстановления rj(t) будем называть однородным и обозначать rjo(t), если - ОО ОО Qk = -Y]pjy к= 1,2,..., VV = 1. (4) i=* *=i Если обозначить p(z) производящую функцию ОО p(z) = Е*6 = £>**, *=1 ОО то производящая функция g(z) = Ez^1 = ]Г gfczfc будет равна ,00 00 00 j-l 00 Л j /1 / \\ /\ 1VA^VA ZV^ V^ * ZV^ 1-z 2(l-p(z)) Как мы увидим позже, термин «однородный» применительно к процессу tfo(t) вполне оправдан. Одним из свидетельств тому может служить Теорема 1А. Щ(к) = Ет]0(к) = 1 + -. а Доказательство. Рассмотрим производящую функцию i/>(z) последовательности Л0(*) = Щ(Ъ) ~ но(к - 0 : 00 00 00 *(z) = J2 **м*) = Е Е **рФ =fc) = *=l >=I *=l oo oo , , Отсюда следует, что ho(k) = \/a. ■ Процесс т/о(0 иногда называют также стационарным. Как мы увидим позже, его правильнее было бы называть процессом со стационарными приращениями (см. § 21.1).
§ 2. Основная теорема восстановления в решетчатом случае 201 Правильное поведение функции Но(к) асимптотически при А: —> со сохраняется и при произвольном £i. Обозначим через d наибольший общий делитель (н.о. д.) возможных значений £2 : d = н.о.д.{к:рк > 0} и пусть д(к), А: = 0,1,... — произвольная последовательность такая, что 00 £ \д(к)\ < оо. Теорема 2 (основная теорема восстановления). Если d=\, & — произвольная целочисленная собственная случайная величина, то .к . оо h(k) = H(k)-H(k-i)-+-, X) Л(*М* ~ *)-> - X^W npu к~^°°- а 1=1 а 1=0 Для доказательства нам потребуются два вспомогательных утверждения. Лемма 1. Если v ^ 1 — марковская величина, то а-алгебра, порожденная случайными величинами и, fi,. ♦.,&/, и а-алгебра <т(£р+\,...), порожденная последовательностью {f„+i, £и+2-> • • • }» независимы. Последовательность {f„+i, &,+2> • • •} распределена так же, как {^2, £з> • • • }• Таким образом, несмотря на случайные номера, элементы последовательности f„+<7 распределены как fj. Доказательство. Для заданных борелевских множеств В\, 2?2>... , С\,..., Ск обозначим А = {v 6 N,£i е Ви... ,£, е БЛ, ^ = {6+1 € Сь ... ,6,+Jb G Cfc}, где iV есть заданное множество целых чисел. В силу теоремы 3.4 достаточно доказать что P(D„\A) = P(D\) или, что то же, P(D„\A) = P(D{)P(A). По формуле полной вероятности имеем p(dm) = J2 р(^и{"=я) = X) р(л> W"=я). Но событие ^4{i/ = j} принадлежит 0"(fi,... ,£,), в то время как D, G a(£J+i,... , £j+k). Поэтому события Dj и А{у = j} независимы, P(Dj\A{u = j}) = Р(Л,-)Р(А{«/ = j})l P(Dj) = P(D0, j > 1. Отсюда следует, очевидно, что P(DU\A) = P(D\)P(A). ■ Лемма 2. Пусть СьСг»--- — независимые, целочисленные, одинаково и симметрично распределенные случайные величины с конечным математическим ожиданием п (E(j = 0) и н.о. д. возможных значений, равным 1. Положим Zn = ]Г} Q. Тогда при i=i любом целом к v\. — min{n: Zn = к} есть собственная случайная величина: Р (г/к < оо) = 1. Доказательство этой леммы содержится в § 12.3 (см. следствие 12.2).
202 Глава 9. Элементы теории восстановления Доказательство теоремы 2. Рассмотрим две независимые между собой последовательности случайных величин (считаем их заданными на одном вероятностном пространстве): последовательность fi,f2>--> гДе fi имеет произвольное распределение, и последовательность fi,^»---» где p(f'i = &) = Як, Р(£; = к) = Pfe = к) = Рк при j ^ 2 (так что Q = ^ при j ^ 2; процесс rj'(t), к построенный по суммам S'k = ]Г} £j, является однородным). Обозначим v — min{n ^ 1: Sn = S'n}. Это есть, очевидно, марковский момент относительно последовательности (f i,£'i), (^2>^2)> • • • • Покажем, что Р(и < со) = 1. Положим п zn = 452(tj~tj) при n^2, Zi=0, Z0=fi-fi. Тогда i/ = min{n ^ 1: Zn = -Zq}. По лемме 2 (Cj = £j — £'j имеют при j ^ 2 симметричное распределение) для каждого целого А; величина ик — min{n ^ 1: Zn — А:} является собственной. Так как Z„ при п^ \ и Zq независимы, то P(i/ < оо) = Х)Р(^0 = ~к)р("к < оо) = 1. Произведем теперь «склеивание» последовательностей {5„} и {5^}. Так как S„ = S'v и v есть марковский момент, то можно по лемме 1 заменить ^+i, ^+2> • • • на £,+1, &+2,... (и тем самым 5„+i,5v+2,... на S'u+X, S'v+2,...), не изменяя при этом распределения последовательности {£„}. Следовательно, на множестве {Sv < к} выполняется rj(t) = rj'(k) при t ^ к — 1 и, значит, Л(*) = Е(Ч(*)-Ч(*-1)) = = Е [г)'(к) - г)'(к - 1); Su < к] + Е [Ч(*) - ?7(Л: - 1); 5„ ^ Л] = = £ - E[i/(*) - Ч'(* - 0;Я ^ Л] -h E [т7(Л:) - V(k - l);S„ > к]. Так как \rj(k) - rj(k - 1)| ^ 1, то h(k)- -I ^ Р(5^ ^к)-+0 а I при А; —► оо. Первое утверждение теоремы доказано. Так как h(k) ^ 1, то к-\ оо k-N ^h(l)g(k-l) Кроме того ^ J2 \9(l)\<: J2 10(01-0 при ЛГ-+оо. l=N+\ l=N+\ к 1 N У] h(l)g(k-l)^ ~У^д(1) при А: -> оо. /=*-iV а /=0 Поэтому второе утверждение теоремы является простым следствием первого.
§2. Основная теорема восстановления в решетчатом случае 203 Замечание 1. Склеивание {Sn} и {S'n} в доказательстве теоремы 2 можно произвести и раньше, в момент 7 = min{n ^ 1: Sn G S'}, где S' есть множество точек S' = {5J,5^,... }. Теорема 2А. Для произвольных {разнозначных) £j утверждение теоремы 2 сохраняется. Доказательство. Мы редуцируем задачу к случаю & > 0. Пусть сначала все £j одинаково распределены. Рассмотрим случайную величину х\ = х(0)> которую мы будем называть первой положительной суммой. В гл. 11 будет показано (см. следствие 11.2), что Ех\ < оо, если а — Е^ < оо. В соответствии с леммой 1 последовательность ^(о)+1>^(о)+2--- будет иметь то же распределение, что и fbf2>--- • Поэтому «вторая положительная сумма» Х2 или> что то же> первая положительная сумма величин ^/о)+ь^(0)+2>--- > будет распределена так же, как xi, и не будет зависеть от нее. То же будет справедливо и для последующих «перескоков» уже достигнутых уровней х\ > Xl +X2> • • • • Рассмотрим теперь случайное к блуждание {Нк = ]С Xi}T=\ и обозначим для него »=1 ri*(t) = mm{k:Hk>th Х*(«) = *„•(*) ~ *> H*(t) = Eq*(t). Так как Хк > 0, то применима теорема 2 и, стало быть, в силу тождества Вальда Я*(*) - Я'(* - 1) = ^^W-E^ib-l) ^ _L> ЕХ*(*)-Ех*(*-1)-»0. Заметим теперь, что распределения случайных величин %(£) и %*(£) совпадают. Поэтому H(t) -H(k-i)=1 + E*(fc) - E*(fc -'> = '+ E**(fc) - E**(fc - l) -, 1. a a a Пусть теперь распределения fi и fj, j ^ 2, различны. Тогда функция восстановления Н\ (t) для такого блуждания будет равна к Щ(к) = 1+ Yl P(ti=i)H(k-i), к h{(k) = Нх(к) - Нх(к - 1) - J2 р(*1 = *)М* - «)• Если допустить, что h(k) < с < оо при всех А:, то отсюда будет следовать h\(k) —> 1/a, что доказывает теорему. Требуемое неравенство h(k) < с вытекает из следующего общего предложения, справедливого для произвольных (не обязательно решетчатых) £у. Лемма 3. Если все ^ одинаково распределены, то при всех t,u H(t + U)~ H(t) ^ Н(и) ^ С! + C2U.
204 Глава 9. Элементы теории восстановления Доказательство. Разность rj(t + и) — 7](t) есть число скачков траектории {Sk}, стартовавшей в точке t + х(£) > t до первого прохождения уровня t + и, при этом последовательность {Sk} распределена так же, как последовательность {Sk}, и независима от нее (см. лемму 1). Другими словами, rj(t + и) — rj(t) имеет то же распределение, что и rj(t - %(£)) ^ rj(t), где rj соответствует {Sk}, если %(£) ^ и, и 77(£ + м) - 7/(£) = 0, если х(£) > и. Поэтому H(t + и) - H(t) ^ Н(и). Неравенство для Н(и) вытекает из теоремы 1. ■ Теорема 2А доказана. ■ § 3. Эксцесс и дефект случайного блуждания. Предельное распределение в решетчатом случае Наряду с эксцессом %(£) — S^ — t введем в рассмотрение еще одну случайную величину, тесно связанную с х(£). Определение 3 А. Случайная величина 7(0 = t - 5,(|)_, > 0 называется величиной дефекта уровня t в блуждании {Sn}2\ Величина %(£) имеет смысл времени, которое еще проработает прибор, работающий в момент t; j(t) есть время, которое этот прибор уже работает. Не следует думать, что сумма %(£) +7(0 распределена так же, как £, — ведь эта сумма равна значению f со случайным индексом rj(t). В частности, как мы увидим ниже, может оказаться, что Е%(£) > Е^ при больших t. С этим обстоятельством связан кажущийся парадокс в следующем примере. Пассажир, пришедший на автобусную остановку, через которую проходят автобусы с интервалами £\ > 0, £2 > 0,... , (Е£у = а), будет ждать прихода очередного автобуса время %, среднее значение которого Е% может оказаться больше, чем а. Существенным фактом теории восстановления является утверждение о том, что в широких предположениях существует совместное предельное распределение x(t) и 7(0 при t —> со, так что при больших t распределение %(£) перестает зависеть от t и становится стационарным. Обозначим это предельное распределение %(£) через G : G(x)=limP(X(t)<x). (5) I-+00 Если в качестве распределения fi взять распределение G, то по самому его построению распределение величины %(£) для построенного процесса от t зависеть не будет. В самом деле, в этом случае {Sj} можно представлять себе как положительные моменты восстановления для процесса, который построен по последовательности {^} и начало которого отнесено в точку —N, где N велико. Так как в силу (5) можно считать, что распределения х(Ю и x(N + 0 совпадают, то распределение величины %(£) (которую можно отождествить с %(ЛГ +1)) от t не зависит и совпадает с распределением f i. Формальное доказательство этого факта мы опускаем, поскольку дальше он использоваться не будет. Однако читатель может провести его, используя явный вид G{x) в (5), полученный ниже. 2) В литературе х(0 называют часто первым «перескоком» через уровень t, a 7(0 «недоскоком». Эти термины весьма наглядны, но их можно упрекнуть в недостаточной «литературности».
§ 3. Эксцесс и дефект случайного блуждания. Решетчатый случай 205 Распределение G в решетчатом случае и есть распределение (4), с помощью которого строился однородный процесс восстановления 77о(0- Этот факт будет доказан чуть позже. Из того, что распределение %(£) для процесса 7/0 (0 не зависит от t и совпадает с распределением f i, будет следовать, что распределение rjo(t + и) — rjo(t) совпадает с распределением tjq(u) и, следовательно, от t также не зависит. Это свойство и определяет стационарность приращений процесса восстановления; мы назвали его однородностью процесса. Оно означает, что распределение числа восстановлений в интервале времени длины и не зависит от того, с какого момента мы начали отсчет, и, следовательно, зависит только от и. Теоремы о предельном распределении %(£) и j(t) представляют интерес не только с точки зрения приложений. Они понадобятся нам и для целого ряда других задач. Мы рассмотрим опять сначала случай, когда величины £у > 0 целочисленны. В этом случае «время» t можно считать дискретным, и мы будем, как и прежде, обозначать его буквами пик. Теорема 3. Пусть н.о.д. возможных значений & ровен 1, существует Е^2 = а, f 1 есть произвольная целочисленная случайная величина. Тогда существует limP(7(fc) =*,*(*)=;) = —• (6) fc-»oo a Из теоремы 3 следует, что 1 °° UmP(x(*) = 0 = -£ft. (7) limP(7(*) = «)=- J2 Pi' к—►оо и, Доказательство теоремы 3. В силу теоремы восстановления имеем при k > i 00 Р(7(*) = hX(k) = j) = J2P<<S< = к~ *>&+! = * + Я = i=\ = J2 Р(5, = к - t)P(fo = г + j) = h(k - i)Vi+j i=\ Vi+3 a Если Ef2 = ГП2 < oo, то теорема З позволяет уточнить теорему 2. Следствие 3. Если га 2 < со, то случайные величины %(&) равномерно интегрируемы, Ex(4-ii;«t*-=£i. m i=0 j=i Доказательство. Равномерная интегрируемость следует из неравенств h(k) ^ 1, к оо р(х(*) = j) = J2 h(k - *)p.-+i ^ !>.•■ «=0 i=j Отсюда следует (8) (см. §6.1).
206 Глава 9. Элементы теории восстановления Теорема 2А. Если все ^ одинаково распределены, Ef? =rri2 < оо, то к 1 Н{к) = - + -з(т2 + а) + о(\). Доказательство немедленно следует из тождества Вальда Н(к) = Erj(k) — (к + Ех(к))/а и следствия 3. ■ В каких случаях распределение f i для однородного процесса восстановления совпадает с распределением £, при j ^ 2? Такое совпадение эквивалентно тому, что при г = 1,2,... справедливо 1 °° Pi = -Y]Pj, а г-^ ;=« или, что то же, а — \ 1 / а — 1 \» a(Pi ~ Pi-\) = -Р.-1, Р» = Vi-U Pi = r ( ) • а а — I \ а / Это означает, что процесс восстановления, порожденный последовательностью одинаково распределенных случайных величин fi,f2>-- » является однородным тогда и только тогда, когда ^ (или, точнее, ^ — 1) имеют геометрическое распределение. Обозначим 7 и X случайные величины с распределением (6). Пользуясь (5), нетрудно установить, что 7 и X независимы также лишь в случае, когда £j, j ^ 2, имеют геометрическое распределение. Для геометрического распределения £,-, j ^ 1, независимы также 7(™) и x(n)i x(n)=fi- Доказательство этих фактов р проводится точно так же, как для показательного распределения (см. §4). Вернемся к общему случаю и напомним, что 2а 2 Это означает, в частности, что если распределение f i таково, что Е^ > 2а2 - а, то среднее значение эксцесса Е%(п) при больших п станет больше, чем Ef i = a. § 4. Теорема восстановления и предельное распределение эксцесса и дефекта в нерешетчатом случае Напомним, что нерешетчатым мы называем случай, когда не существует такого числа d > 0, что P(LKf2 = kd}) = 1, где А: пробегает все целочисленные значения. к Чтобы сформулировать основную теорему восстановления в нерешетчатом, случае нам понадобится понятие непосредственно интегрируемой функции. Определение 4. Функция д(и), определенная на [0,оо), называется непосредственно интегрируемой, если 1) Функция g интегрируема по Риману3) на любом конечном интервале [0, N]. 2) Y,9k < оо, где gk = max \g(u)\. к<и<к+\ 3)То есть суммы £ $3^* и » ]С#* имеют при п -* оо одинаковые пределы, где д^ = min g(u), дк = max д(и), Ак = [кА, (к + 1)Д), Л = ЛГ/п.
§ 4. Теорема восстановления. Нерешетчатый случай 207 Очевидно, что любая монотонно убывающая функция g(t) I 0, имеющая 00 конечный интефал Лебега Jg(u)du < со, непосредственно интефируема. Это же О справедливо и для разностей таких функций. Понятие функций, непосредственно интефируемых по Риману, введенное в [22], несколько отличается от понятия, определенного выше, хотя по сути с ним совпадает. Нам будет удобнее пользоваться определением 4, т.к. оно позволяет несколько упростить изложение и избежать вспомогательных рассмотрений (см. Приложение 6). Теорема 4. Пусть функция д непосредственно интегрируема. Если £j, j ^ 2, нерешетчаты, существует Е^2 = а > 0, распределение £\ произвольно, то при t —> со t 00 J g(t - и) dH(u) -^l-f g(u) du. (9) 0 0 С функцией Н ассоциирована мера на [0, оо), которую можно обозначить тем же символом Н и которая определяется соотношениями Я((ж,г/)) = Н(у) - Н(х). Тогда наряду с J g(t — и) dH(u) в (9) можно писать также J g(t — u)H(du). Из (9) следует, в частности, что при любом фиксированном и H(t)-H(t-u)-+ -. (10) а Нетрудно видеть, что это соотношение, называемое локальной теоремой восстановления, эквивалентно (9). Доказательство теоремы 4 технически оказывается довольно сложным, поэтому мы поместили его в Приложение 6. Там же можно найти уточнения теоремы 4 и ее аналог в случае существования плотности распределения £2- Другие утверждения § 2, 3 переносятся на нерешетчатый случай без затруднений. Пусть все £j положительны. Определение 5. Процесс rj(t) в нерешетчатом случае называется однородным (и обозначается щ(t)), если распределение первого скачка имеет вид dt. X Если обозначить р(Х) х. ф. £2» то Х-Ф- fi будет равна оо д(А) = Ее'А6 = - / eiXxP(£2 > x)dx. О Обычное определение интегрируемости по Риману на [0, оо) предполагает выполнение условия 1) N и существование предела J g(u)du при N —► оо. Такой подход охватывает более широкий класс о функций, чем в определении 4, допускающих, например, существование последовательности £* -+ оо такой, что g(tk) —*■ 00.
208 Глава 9. Элементы теории восстановления Так как интегрирование здесь ведется по х > 0, то интеграл существует (как и функция р(А)) при всех Л, ImA > 0 (при А = га + v, —со < v < со, а > 0, множитель егХх равен е~ахегух, см. свойство 6 х. ф.) Поэтому при ImA > 0 *А> = -«3£ оо 1+ j eiXxdP{(,2>x) Р(А) ~ 1 гАа 0 Теорема 5. Щ{Ь) = Е?уо(0 = £/а. Доказательство. Эта теорема доказывается так же, как теорема 1. Рассмотрим преобразование Фурье—Стилтьеса над функцией Щ(Ь) : 00 ^(А) = JeiXxdH0(x). О Отметим, что это преобразование существует при ImA > 0 и для него сохраняется теорема единственности, установленная для х. ф., так как tp(v) = %p{ia -f v)/xp(ia), -co < v < со (мы положили А = га + v при фиксированном а > 0) можно рассматривать как х. ф. некоторого распределения, полученного «преобразованием Крамера» (см. §8 гл. 8) над #о(0- Имеем в силу (3) ♦(А) = у etXxdH0(x) = ^>(АУ(А) = ?(А)-1 1 = 1 гАа 1 - р(Х) гАа о j=0 Очевидно, что это преобразование соответствует функции Щ(Ь) = t/a- ■ Связи между однородным процессом восстановления w(t) и предельным распределением %(£) и 7(0 в нерешетчатом случае те же, что и в решетчатом. Так же, как и в §3, из теоремы восстановления вытекает Теорема 6. Если & нерешетчата, Е& = а, распределение £\ произвольно, то существует оо lim P (7(t) > и, x(t) >v) = - [ Р(£> > х) dx. (15) t—>oo a J u-hv Доказательство. При t > и P(j(t)>ulX(t)>v) = оо l~u = Yl / p МО = i> si e dx> ?(*) > tt» x(0 >v) = t—u 00 = !>2 P(Sie dx^i+\ >t-x + v) = >=° 0 / dtf(x)P(£> >*-x + v). (16)
§4. Теорема восстановления. Нерешетчатый случай 209 В силу теоремы восстановления (см. (10)) при д(х) = Р(^2 > х + и + v) последний 00 1 интеграл сходится к - / Р(^2 > х + и + v) dx. ■ а о Как и в предыдущем параграфе, в случае Е£2 = ™>2 < со теорема 6 позволяет уточнить основную теорему восстановления. Теорема 4А. Если все ^ > 0 одинаково распределены, Ef? = m-i < со, то Доказательство. Из соотношений (16) и леммы 3 следует равномерная интегрируемость x(t)» т-к- t P(x(t) >v)=f <Ш(х)Р(Ь >t-x + v)<(cl+c2)Yl P(tj >k + v), о *^o поэтому Ex(t) - \ f f P(u> it)« = Г712 ~2o"" 0 0 Остается воспользоваться тождеством Вальда. ■ Пусть, как и прежде, 7 и % — случайные величины, распределение которых совпадает с предельным распределением (15). Из теоремы 6 видно, что каждая из случайных величин 7 и X имеют плотности, равные 1/аР(^2 > #)• Совместное распределение 7 и X может не иметь плотности. Если существует плотность f(x) случайной величины &> то плотность 7 и X существует и равна l/af(x + у). Из теоремы 6 вытекает также, что 7 и X независимы, если только оо / P(^>u)du = -e~ax при каким-нибудь а > 0, т.е. независимость имеет место лишь для показательного распределения £2 ^ Га. Кроме того, совпадение P(fi > х) и Р(& > х) для однородного процесса восстановление также имеет место лишь для & ^ Га. Другими словами, процесс восстановления, порожденный последовательностью одинаково распределенных случайных величин £ь£2>-- будет однородным тогда и только тогда, когда ij ^ Га. В этом случае процесс щ{Ь) называется (см. также §18.4) пуассоновским. Это связано с тем, что для такого процесса величина rj(t) = w(t) при каждом t имеет распределение Пуассона с параметром t/a. Пуассоновский процесс обладает и рядом других замечательных свойств (см. также §18.4). Для него, очевидно, %(£) €= Га, но, кроме того, случайные величины 7(0 и %(£) независимы. Действительно, в силу (16) при и < t l-U Р(7(0 > «, X(t) >v) = e-a((+") + a f e'a[ ((-I+">dx =
210 Глава 9. Элементы теории восстановления = е-а(-+.) = р(7(0>в)р(х(0>г>). Р(7(«) = *, X(t) >v) = Р(£, >< +1») = e-^,+"); P(7(t)>*) = 0. Факт независимости j(t) и %(£) заслуживает внимания с точки зрения его интерпретации. Он означает следующее. Если мы будем следить за сроком службы некоторого прибора, начиная с момента времени t, то этот срок будет иметь то же распределение, что и срок службы нового прибора (распределение fy ^ Га), и не будет зависеть от того, сколько этот прибор уже проработал (на первый взгляд, явление парадоксальное). Так как распределение длительности безотказной работы всех механизмов и приборов, состоящих из большого числа «надежных» элементов, близко к показательному (см. теорему 19.6), то отмеченное обстоятельство представляет значительный практический интерес. Если £j принимает и отрицательные значения, то задачи, связанные с распределениями i(n) и х(п) 9 качественно усложняются. В какой-то мере эти задачи могут быть сведены к случаю неотрицательных величин, поскольку распределение %(п) совпадает с распределением величины х*(п), построенной по последовательности {£> ^ 0}, где £• распределены так же, как х(0). Распределение х(0) может быть найдено методами гл. 11. § 5. Закон больших чисел и центральная предельная теорема для процесса восстановления Предположим сначала, что £у ^ 0. Теорема 7. Если 0 < Е£2 = а, < оо, то при t —> со t v a Доказательство. Основным соотношением, которым мы здесь будем пользоваться, является равенство {rj(t) >k} = {Sk ^ t}. (17) Так как p(f-i>.)-p(*»i+-). то, считая для простоты, что N = t/a -f et является целым числом, получим 4f-;~)=p(^_^)=p(^°-4 где е\ = а(\ — 1/(1 +ае)) > 0. По закону больших чисел это означает, что оцениваемая вероятность сходится к 0 при t —> оо. Аналогичным образом оценивается вероятность V t a / ■
§ 5. ЗБЧ и ЦПТ для процесса восстановления 211 Теорема 8. Если Е£2 = a, Df2 = о-2 < со, то при t —* со y(t)-t/a / , , , ^ ф0,1- ^ta2/a? Доказательство. На основании (17) имеем 'Sk — ak t — ак> , , ч ч (Ъъ — ак г — а/с\ , ч PW0>lr).p(__r< ). (18) По центральной предельной теореме ' 5^ — а А: т=- ^ v ) —> Ф(г;) при А: —> со. avA: / Пусть теперь А; при t —> со меняется так, что выполняется (t — ak)/(ay/k) = v. Считая v фиксированным, можно разрешить это равенство относительно А:: t va(va±2y/alJl+(v2a2)/(4ta)) t va / 1 \\ Подставляя найденное значение А; в (18), получим "««^-"(Д^^+ЧтОЬ*** (i9) Здесь следует, очевидно, выбрать знак минус, так как только в этом случае в обеих частях полученного соотношения будут стоять возрастающие по v функции. Так как Ф(г;) непрерывна, то наряду с (19) ' V(t)-t/a -«) > -v ) -> Ф(г;) = 1 - Ф(-у) или В следующей главе будет доказан усиленный закон больших чисел, в силу которого Sk/k ->ап.н. Пользуясь этим фактом, читатель может наряду с теоремой 7 установить, что rj(t)/t —> 1/а при t —> со с вероятностью 1. Обратимся теперь к разнозначным ^ и предположим для простоты, что все они одинаково распределены. Из усиленного закона больших чисел будет следовать также, что для заданного е > О, е < а, при всех достаточно больших А; будет выполняться Sk > (а — е)к и, стало быть, 5 = inf S* есть собственная случайная величина (см. об этом также в гл. 11). Отсюда будет вытекать следующее утверждение о5„= max Sk • Лемма 4. Случайная величина Сп = ьп — ьп ^ и мажорируется по распределению собственной случайной величиной — 5 = — inf Sk : P(Cn>x)^P(-S>x).
212 Глава 9. Элементы теории восстановления Доказательство. Имеем 5„ = max(0, Si,..., Sn) = Sn + max(-Sn, S\ - S„,..., -£n, 0) = = 5n-min(0,£n>...lSn-S1,Sn). Распределение £n = - min(0,£n,... ,Sn) не изменится, если мы перенумеруем случайные величины и заменим £„_у на fj+ь j = 0,1,...,п— 1, в результате чего получим <„ = - min(0, f i,..., S„_i, 5„) ^ -5. ■ Теорема 9. Утверждения теорем 7, 8 справедливы и для разнозначных £у, Е^- = а > 0. Доказательство. Теперь вместо (13) мы будем иметь Ш >*} = (Sk ^ t}. _ В силу леммы 4 и замечания 6.5 предельные распределения нормированных Sn и 5„ будут совпадать. Поэтому, повторяя рассуждения теорем 7, 8, мы получим требуемое утверждение. ■
Глава 10 Последовательности независимых случайных величин. Свойства траектории (0,5i, #2, • • •) в целом § 1. Законы нуля и единицы. Верхние и нижние функции Первой предельной теоремой, которая была доказана для распределения сумм одинаково распределенных независимых случайных величин, был закон больших чисел: Sn/n—>Е£. Можно задать вопрос: будет ли вся траектория 5n/n, Sn+\/n -f 1,... , начиная с некоторого п, с вероятностью, мало отличающейся от 1, близка к Е£. Т.е. будет ли для любого е > 0 lim pfsupM-Ed <e) = 1? (1) Очевидно, это есть вопрос о сходимости почти наверное или сходимости с вероятностью 1. Утверждение (1), называемое усиленным законом больших чисел, которое будет доказано в этой главе, является частным случаем так называемых законов нуля и единицы. В качестве первого такого закона приведем критерий нуля и единицы Борел я—Кантел л и. Теорема 1. Пусть {Ап}^{ — последовательность независимых событий на (0,5, Р), « пусть А есть событие, состоящее в том, что наступит бесконечно много 00 00 событий Ak, т.е. А = П |J Aj~ (А составлено из ш, принадлежащих бесконечно п=1к=п 00 ОО многим Ak). Тогда, если ^ P(Ak) < оо, то Р(А) = 0. Если ^2 P(Ak) = со и Ak к=\ к=\ независимы, то Р(А) = 1. 00 Доказательство. Пусть ^ P(Ak) < со. Обозначим rj = ^ I(Ak) число появле- к=\ ний событий Ak. Тогда Erj = ^2P(Ak) < со, что, конечно же, означает, что rj есть собственная случайная величина: P(rj < оо) = 1 - Р(А) = 1.
214 Глава 10. Последовательности независимых случайных величин Если же ^2 P(Ak) = оо, то в силу независимости Ап к=\ Р(А) = lim Р ( U At) = Ит Р Ы - f) Ак) = 1 - Ит Р ( f) Лк) = п-оо \к=п / п-+оо Ч к==п / п^оо \к=п / = 1 - Нт Ит Р ( П 1А) = 1 - Ит ТТ(1 - Р(^)). П-*00 171—ЮО Чь — -, / П-»00Х-1' \jl_ / П—»00 " fc~n к=п Воспользовавшись неравенством 1п(1-ж) ^ -х, получим, что П 0~P(^fc)) ^ {оо -v к=п - ]Г) Р(Ак) >. Следовательно, П(1-Ри*))<е-°° = 0. fc=n в Замечание 1. Отметим, что, если первое утверждение теоремы о том, что Erj < оо влечет г) < оо п.н., выглядит тривиальным, то второе, означающее, что P(rj < оо) = 1 влечет Ег) < оо, оказывается весьма содержательным. Из него следует также, что, если ту < оо с вероятностью 1, но Ег; = оо, то Ак с необходимостью зависимы. Отметим также, что рассуждения, доказывающие первую часть теоремы, уже использовались нами в тех же целях в доказательстве теоремы 6.1. Предположим, что на (П,^, Р) задана последовательность независимых случайных величин {fn}£Li- Пусть, как и прежде, a(fi,... ,£„) есть а-алгебра, порожденная первыми п случайными величинами fi,...,fn, а а(£„,...) — а-алгебра, порожденная случайными величинами fn,fn+bfn+2>- • • . Определение 1. Событие А называется остаточным, если А Е а(£„,...) при любом п > 0. 00 00 Например, событие А = f) |J {£к > N}, состоящее в том, что бесконечно п=1к=п много раз произошло событие {£к > N}, очевидно, является остаточным. Теорема 2 (закон нуля и единицы Колмогорова). Если А — остаточное событие, то Р(А) = 0 или Р(А) = 1. Доказательство. Так как А — остаточное событие, то A Е a(fn+i,...), п ^ 0. Поэтому событие А не зависит от а-алгебры cr(fi,... ,fn) при любом п. Следовательно (см. теорему 3.4), событие А не зависит от а-алгебры 0"(£ь • • • )• Так как А Е 0"(£ь • • • )> то А не зависит само от себя: Р(А) = Р(АА) = Р(А)Р(А). Но это возможно, если только Р(^4) = 0 или 1. ■ п Обозначим 5 = sup{0,Si,S2>« • • Ь гДе $п = S&- В качестве примера к=\ применения доказанной теоремы сформулируем следующее Следствие 1. Если £к, к = 1,2,... , независимы, то либо Р(5 = оо) = 1, либо Р(5<оо) = 1.
§1. Законы нуля и единицы. Верхние и нижние функции 215 Доказательство следует из того, что событие {S = со} остаточно. Действительно, для любого п {S = oo} = {sup(5n-i,5n,...) = oo} = {sup(0,5„-5n_b...)=(x>} 6^»,...). и Другие примеры остаточных событий получим, если рассмотрим для последовательности независимых величин fb&j--- событие I ряд X) f fc сходится >. L Jb=l J Теорема 2 означает, что вероятность этого события может быть только 0 или 1. 00 Если рассмотреть степенной ряд ]Г zfcffc, где £* независимы, то об- наружим, что радиус сходимости этого ряда р — limsupl&l ' есть слу- к—юо чайная величина, измеримая относительно <т-алгебры а(£п,...) при любом п ({р < х} G #"(£„,...),—со ^ х ^ со). Такие случайные величины также называются остаточными. Так как в силу сказанного Fp(x) = Р(р < х) = О или 1, то отсюда следует, что р, как и любая другая остаточная случайная величина, с вероятностью 1 равна постоянной. В предположении, что элементы последовательности {&}£Li не только независимы, но и одинаково распределены, закон нуля и единицы Колмогорова был распространен Сэвиджем и Хьюиттом на более широкий класс событий. Пусть и = (х\,Х2,...) есть элемент выборочного вероятностного пространства (Е00,^00,?) для последовательности f = (fi, &>•••) (^°° — счетное прямое произведение прямых Щ, к = 1,2,...; ЯЗ00 = 0"(Ci,...) порождена событиями N П Bk С 0"(fi,... ,€n)> гДе &k € (r(£k) — борелевские множества на прямой Щ). Определение 2. Событие A G 93°° назовем перестановочным, если (жьЖ2,...,жп_ьжп,жп+1,...) G А влечет за собой (жп,Ж2,... ,жп-ь#ь#п+ь-• •) G А. Очевидно, это условие перестановочности автоматически распространяется на любые перестановки конечного числа координат. Примером перестановочных событий могут служить остаточные события. Теорема 3 (закон нуля и единицы для перестановочных событий). Если & независимы и одинаково распределены и А есть перестановочное событие, то либо Р(А) = 0,либо Р(А) = 1. Доказательство. В силу теоремы аппроксимации (§3.5) для любого A G ЯЗ00 найдется последовательность Ап G a(f i,... ,£„) такая, что при п —* со P(iniuIin)-^0. Введем преобразование TnU = ТП(ЖЬЖ2,...) = (хп+1,...,Ж2п,Ж1,...,Жп,Ж2п+Ь---) и обозначим Вп = ТпАп. Если А перестановочно, то ТпА = А, и для любого В G ЯЗ00 Р(ТПВ) = Р(В). Поэтому Р(ВпА) = Р(ТпАпА) = Р(АпА), и, следовательно, Вп будут также аппроксимировать А. Но вместе с Вп и in свойством аппроксимации будут обладать, очевидно, и множества Сп = АпВп. В силу независимости Ап и Вп это означает, что Р(А) = lim P(i4nBn) = lim P2(An) = Р2(А). п—»оо п—»оо ■
216 Глава 10. Последовательности независимых случайных величин Из этой теоремы вытекает следующий интересный факт. Определение 3. Последовательность {ап}£°=1 называется верхней для последовательности случайных величин {т/п}^°=1, если события {г]п > ап} с вероятностью 1 наступают конечное число раз. Последовательность {ап} называется нижней, если с вероятностью 1 происходит бесконечно много событий {rjn > ап}. Следствие 2. Если £п независимы и одинаково распределены, то любая последовательность {ап} является либо верхней, либо нижней для последовательности сумм п {Sn}™=\, Sn = У v£fc. k=\ Другими словами, нельзя подобрать такую «промежуточную» последовательность {ап}, чтобы вероятность события А — {бесконечно много раз Sn > ап} была бы, скажем, равна 1/2. Для доказательства следствия достаточно заметить, что событие А является перестановочным, так как перестановка местами fi и fn в реализации (fb&j---) отражается на поведении лишь первых п сумм S\,...,Sn. Аналогичный факт, конечно, имеет место и для последовательности самих случайный величин {£n}^Li> но его в отличие от приведенного следствия можно получить проще, так как событие В = {бесконечно много раз £п > ап} является остаточным. По поводу свойств верхних и нижних последовательностей для сумм {5„} заметим здесь также следующее. Если Р(& = с) Ф 1 и если {ап} является верхней (нижней) последовательностью для {5„}, то последовательность {bn = an+k - t}™=l также является верхней (нижней) при любых к ^ 0 и t. При достаточно больших к ^ k(t) это следует из равенств вида!) 00 О = Р(А) = J2 Р(5* € \j,j + l))P(A\Sk € \j,j + 1)) ^ j=—oo ^ ^2 Р (Sk e [jj + 1))Р (бесконечно много раз Sn + j > an+jk). При k ^ k(t) надо, допустив противное, применить доказанную часть утверждения к нижним функциям. Из сделанного замечания вытекает, в частности, что lim sup5n и lim inf Sn n-*oo n-*oo для последовательности сумм одинаково распределенных независимых величин, не равных 0 с вероятностью 1, не могут быть конечными. В самом деле, событие В = {lim sup5n G (a,b)} является перестановочным п—кх> и, следовательно, в силу закона 0 и 1, Р(В) = 0 или Р(В) = 1. Если бы Р(В) равнялась 1, то последовательность (6,6,...) была бы верхней для {Sn}, а вместе с ней была бы верхней и последовательность (а, а,...). Это означало бы, что Р ( lim sup Sn ^ a) = 1 n—>oo и что предположение Р(В) = 1 противоречиво. 1) Пользуясь у. м.о., можно было бы записать точнее: Р(Л) = ЕР (A\St) = J dP(Sk < t)P {бесконечно много раз Sn +t > an+jt).
§ 2. Сходимость рядов независимых случайных величин 217 Из теоремы 3 читатель может извлечь также, что для любых последовательностей {ап} и {Ьп} случайные величины ,. Ьп — ап ш Ьп — сьп lim sup и lim inf n-»oo bn n-»oo bn с вероятностью 1 постоянны. § 2. Сходимость рядов независимых случайных величин В этом параграфе остановимся более подробно на сходимости рядов, составленных из независимых случайных величин. Мы уже знаем, что такие ряды сходятся с вероятностью 1 или 0. Нас будут интересовать условия сходимости. Получим, в частности, ответ на следующий интересный вопрос. Хорошо оо со ,^Л известно, что ряд ^ ^ ПРИ а ^ * расходится, а знакочередующийся ряд ^2 ^г~ п=\ п=\ сходится при любом а > О (разность соседних элементов имеет порядок малости оо а/п+а). Как будет вести себя ряд ^2 -^, где 6п одинаково распределены, n=i n независимы, Ебп = 0 (например, 6п = ±1 с вероятностью 1/2)? Одним из основных путей исследования этих задач состоит в выяснении связи сходимости п. н. с более простым понятием сходимости по вероятности. Известно,. что, вообще говоря, из сходимости по вероятности £„ —> f не следует сходимость Р п п. н. Однако в рассматриваемом случае, когда fn = Sn = ^2 щ и щ независимы, к=\ это не так. Основным утверждением в этом параграфе является п Теорема 4. Если rjj независимы, Sn = ^2 щ, то сходимость Sn no вероятности к=\ влечет сходимость Sn п. н. Здесь для определенности под сходимостью будем понимать фундаментальность, не предполагая заранее, что сумма ряда известна. Для доказательства теоремы нам понадобится следующее неравенство: Лемма 1 (первое неравенство Колмогорова). Если rjj независимы и при всех j ^п P(\Sn-Sj\^a)^p< 1, то Р (max IS,-1 £ х) ^ —!—Р(|5„| > х - а). (2) Следствие 3. 1 (тах|5,| ^х) ^2Р(|5П| > х- ^2DSn). Собственно, Колмогоровым было установлено имеет это неравенство (лемма 1 является его незначительным обобщением). Оно вытекает из (2), так как в силу неравенства Чебышева P(\Sn-Sj\ > у/ШГп) ^ P(2D5n5>) < \-
218 Глава 10. Последовательности независимых случайных величин Доказательство леммы 1. Пусть г = {minfc ^ 1: \Sk\ ^ х). Обозначим Aj = {г = j},j = 1,2,... . Очевидно, что Aj несовместны и, значит, п п Р(|5Я| > х - а) > Y1 Р05»1 > х ~ a>Aj) > J2 Р05» ~ 5>1 < а'^)' i=i i=i (Последнее неравенство верно, так как событие {|5„ - Sj\ < a}Aj влечет за собой {|5„| >x-a}Aj.) Но Aj € cr(iyb... ,iy), {|5„ - 5у| < a} G crfaj+b-.. ,iyn). Поэтому эти два события независимы, Р (|5„| > х - а) > Yl P(Aj)P О5" ~ Si\ <a)^ п > (l-p)^P(Aj) = (1-р)р(тах|^| £ Л Лемма доказана. ■ Обратимся к доказательству теоремы. Достаточно доказать п. н. фундаментальность {£„}, т. е. сходимость для любого е > О при т —> оо p(sup|Sn-Sm|>2£) -0. (3) Обозначим ^n,m = {\Sn ~ Sm\ > e}, Aem = (J A£>ra. Тогда соотношение (З) можно записать в виде PUm) - 0 (4) при га —> оо. Так как {Sn} фундаментальна по вероятности, то Рт,м = sup P(i4^tjf)->0 при га —► оо, М —> оо, так что рт>м < 1/2 при всех достаточно больших га и М. Для таких га и М имеем по лемме 1 при а = е, х = 2е .м. .9, \ 1 В силу свойств вероятности Р ( sup \Sn - Sm\ > 2е) = Р ( (J А%,п) ^ Т-^ P(Akm) < 2P(AeMim). Р(4)=ИтР( U 0^2 1imsupP(ii|ffl). (5) Обозначим через S предел (по вероятности) последовательности Sn, Ben = {\Sn -S\> е}. Тогда Р(Веп) -> 0 при п -> оо, Ам,т С B^2|jBm2, и в силу (5) Р (А%) ^ 2Р (В^/2) -> 0 при т -> оо. Соотношение (4), а вместе с ним и утверждение теоремы доказаны. ■
§ 3. Усиленный закон больших чисел 219 Следствие 4. Если Ещ = О, ^Г, Ощ < со, то Sn п.н. сходится. к=\ Утверждение следует из теоремы 4 и фундаментальности Sn в среднеквадра- 2 п тичном (Е(5П - Sm) = ^2 Drjk —> 0 при га —► со, п —► со) и, следовательно, по вероятности. Оказывается, что если Е^ = 0, \щ\ < с при всех к, то условие ^20щ < со будет и необходимым для сходимости Sn п.н.2). В следствии 4 содержится ответ и на вопрос, поставленный в начале параграфа о сходимости ^2 ^г, где бп одинаково распределены, независимы, Е6п — 0. Следствие 5. Ряд ^2бпап сходится с вероятностью 1, если D6j- = (г < со, 5>п < СО- С учетом сделанного выше замечания можно сказать, следовательно, что ряд ^2 ■£ при 6п = ±1 с вероятностью 1/2, сходится тогда и только тогда, когда а > 1/2. Некоторым обобщением следствия 4 является Следствие 6 (критерий двух рядов). Для сходимости ряда ^2rjn п.н. достаточно, чтобы сходились ряды ]Г} Erjn, ]Г} Drjn. п п Доказательство очевидно, так как последовательности ]Г) Ещ и Y2(Vk~- Ещ) к=\ к=\ сходятся п. н. по следствию 4. ■ § 3. Усиленный закон больших чисел Нетрудно видеть, что если использовать терминологию §1, то усиленный закон больших чисел (1) означает, что последовательность {£:п}^0_1 при любом е > 0 является верхней для обеих последовательностей {5„} и {-Sn}, если только Efr - 0. Сформулируем предварительно в виде леммы следующее простое утверждение. Лемма 2. E|f | < со тогда и только тогда, когда оо ЕР(К1>Я<оо. i=i Доказательство следует очевидным образом из равенства 00 m = fp(\t\>*)dx о и неравенств 00 °9 00 Е p(Ki > л ^ у p(Ki >*)dx^\ + j2 p(i^i > л- i=l О J'=1 ■ Усиленный закон больших чисел получим в качестве следствия одного факта, который представляет и самостоятельный интерес. * Подробнее см. об этом, например, [25].
220 Глава 10. Последовательности независимых случайных величин Теорема 5. Если £, одинаково распределены и независимы, E£i > 0, то случайная величина Z = inf Sk является собственной (с вероятностью 1 конечной) : Доказательство. Пусть п\ — 7/(1) + 1 = v(\) (см. обозначения гл. 9) есть номер первой суммы Sk, которая достигла уровня 1. Рассмотрим последовательность {££ = ^1+fc}, которая в силу леммы 9.1 распределена так же, как {&}, и не зависит от rj\, к f 1,... ,6у, • Для нее построим индекс к = rj2, при котором впервые сумма S% = ^>2 £• 3 = 1 достигла уровня 1. Ясно, что случайные величины п\ и 7/2 одинаково распределены и независимы. Затем для последовательности {£" = £m+m+k} построим величину щ и т.д. В результате получим последовательность марковских моментов 7/1,772,..., которые определяют моменты «регенерации» исходной последовательности {Sk}, связанные с достижением уровня 1. Обозначим теперь Z\ = inf Sk, Z2 — inf S£,... . Ясно, что Zj одинаково fc<T/, k<T)2 распределены и что Z = inf{Zb Sm + Z2, Srj{+1j2 + Z3,... }, где по определению SVl > 1, SVl+1j2 > 2 и т.д. Поэтому 00 00 {Z < -N} = U {Зь+1 + Бт+...+щ < -N} С U {Zk + к < -TV}, fc=0 fc=0 00 00 P(Z<-N)^^2P(Zk + k<-N)= Yl P(Zx<-j). k=\ j=N+\ Это выражение сходится к 0 при N —> со, если E|#i| < 00 (см. лемму 1). Конечность EZi, в которой нам осталось убедиться, следует из конечности Ег/1 = Erj(l) (см. теоремы гл. 9) и неравенств E\Zl\<EJT\(j\ = EmE\(l\<oo. Пусть, как и прежде, £ь$2>- • • независимы и одинаково распределены. Теорема 6 (усиленный закон больших чисел Колмогорова). Для того, чтобы Sn/n—»а, необходимо и достаточно, чтобы существовало Е& = а. п. н. Доказательство. Достаточность. Предположим, не ограничивая общности, что Effc = 0. Тогда из теоремы 5 вытекает, что случайная величина Z^6' = inf (5* + ek) k>0 является собственной при любом е > О (Sk + sk есть суммы случайных величин ik + е, Е(& + е) > 0). Следовательно, Sk при п —► оо. Аналогично обнаруживаем, что Sk Р (inf ^ < -2е) ^P(\J{Sk + ek< -en}) <: P(Z(e) < -en) -+ О \k>n К / V>n ' ' (sup — > 2e) —> 0 при n • 00.
§ 3. Усиленный закон больших чисел 221 Так как Ptsup у1 > 2е) не превосходит суммы двух рассмотренных выше вероятностей, то мы получим, что — —»0. п п.н. Необходимость. Заметим, что ^ = — - ^- ^4 —>0, т.е. событие \\ — \ > \\ наступает конечное число раз с вероятностью 1. По критерию «нуля или единицы» Бореля—Кантелли это означает, что ]С Р ( п ^ 0 ^ °° или> что то же' n=i v,n| J X)P(lfil > n) < °°. Следовательно, по лемме 1 E£i < со. ■ Таким образом, условие Е& = 0 является необходимым и достаточным для того, чтобы последовательность {бгп}^°=1 была верхней для обеих последовательностей {Sn} и {—Sn}. В следующей главе мы получим в качестве следствий необходимые и достаточные условия для того, чтобы {еп} была верхней последовательностью для каждой из траекторий {5„} и {-£„} в отдельности. Разумеется, что, например, для последовательности {Sn} это условие будет шире, чем условие Е£& = 0. Замечание 2. Мы видели, что в основе приведенного доказательства усиленного закона больших чисел лежит тождество Вальда. Теперь, пользуясь доказанным законом, можно несколько усилить утверждение тождества. Именно, имеет место следующий факт. Если а = Е£ Ф 0, то для марковского момента и условие Ей < со для выполнения тождества Вальда ESU = aEv излишне. Другими словами, это тождество верно и при Ей = со, или, что то же, конечность ESU влечет за собой конечность Ей. Если а = 0, то последнее утверждение неверно. Читателю нетрудно проиллюстрировать этот факт на примере безобидной игры, рассмотренной в §4.2. Для доказательства приведенного утверждения достаточно убедиться, что при а > 0 равенство Ей = со влечет за собой ESU = со. Заметим сначала, что для любого марковского момента ESU ^ 0. Допустив, что ES„ < 0, мы построим так же, как в доказательстве теоремы 4, последовательность независимых моментов остановок J'i,^,-.- таких, что SUl,SVl — SUl,... будут независимы и распределены как Su. По усиленному закону больших чисел это будет означать, что с вероятностью 1 все SVn, начиная с некоторого N, будут отрицательны. Но это, очевидно, противоречит усиленному закону больших чисел, примененному к 5n, n = 1,2,... , поскольку Ef i = а > 0. Далее, нетрудно видеть, что v^ — min^iV,^) вместе с v есть марковская величина. Имеем ESU = Е{5^; v <: N} + E{S„; v > N} = = ESUN + E{S„ - SN; v > N} = EvN • a + E5J-, где Si = £n+\ + • • • + (,N+k> Sq = 0,i/* = max(0, v - N) есть марковская величина относительно последовательности {fjv+bfjv-i-2> • • • }- На основании предыдущего получаем ESj, ^ EvN • а. Так как EvN ^ E{v\v ^ N} —> со при N —> со, то утверждение доказано. Для иллюстрации усиленного закона больших чисел рассмотрим следующий пример.
222 Глава 10. Последовательности независимых случайных величин Пример 1. Пусть и = (еь^,...) есть последовательность независимых случайных величин, принимающих значения 1 и 0 соответственно с вероятностями р и q = 1 — р. Поставим в соответствие каждой такой последовательности и число 00 £ = £(и>) = ^2 |Ь так что ш есть двоичное разложение f. Ясно, что возможные к=\ значения f заполняют отрезок [О, 1]. Покажем, что если р = q = 1/2, то распределение f равномерно. Если же 00 р Ф 1/2, то распределение £ сингулярно. В самом деле, если х = ]Г} 6к2~к, где 6к к=\ принимают значения 0 или 1, то {£<х} = {ех < 6Х} и {е{ = бие2 < б2} и {е{ = 6ие2 = б2,е3 < 63} и ... . Так как события в этом объединении не пересекаются, то при р = 1/2 00 Р(£ <ж) = ^Р(£1 =6и...,ек = 6к,ек+{ < 6к+{) = к=0 оо оо = Х)2""Р(^+1 < ft+i) = X)2"*"ltf*+i =x- Это означает, что распределение £ равномерно, т.е. для любого измеримого по Борелю множества В С [0,1] определена вероятность Р(£ Е Б) = mesB, п п равная лебеговой мере В. Обозначим ап = ]Г} <$*, sn = ]Г} ек. Тогда множество < х: lim — = р > измеримо по Борелю и, стало быть, I п—*оо 71 У mes< ж: lim — = - \ = Р ( lim -2- = - ). L n-юо n 2 У \п-»оо 71 2/ Так как по усиленному закону больших чисел правая часть здесь равна 1, то mes< x: lim — = - > = 1. I п—юо 71 2 У Другими словами, для почти всех х е [О,1] доля единиц в двоичном разложении х равна 1/2. Пусть теперь р Ф 1/2. Тогда Р[ lim — = р) = 1, хотя в силу предыдущего \п—юо 71 / n\QS< x: lim — = р > = О, I п—юо 71 У так что «носителем» вероятностной меры на [О, 1] является множества лебеговой меры 0. С другой стороны, распределение случайной величины f при р Ф 1/2 непрерывно. Это следует из того, что оо {£ = Х} = П {£к = 6к}, к=\ если х двоично-иррационально. Если х — двоично-рационально, т. е. если при некотором г < оо все 6к при к^г равны 0 или 1, то непрерывность следует из вложения 00 ОО tt = *}C П{е*=0}+П{е* = 1}, к=г к=г
§4. УЗБЧ для произвольных независимых слагаемых 223 так как вероятности этих событий, очевидно, равны 0. Сингулярность F^(x) при р Ф 1/2 доказана. ■ Предлагаем читателю построить график функции распределения f. § 4. Усиленный закон больших чисел для произвольных независимых слагаемых Отыскание необходимых и достаточных условий для сходимости 6n ^ ' когда Ьп Т со, а слагаемые f ь &> • • • распределены не одинаково, представляет собой трудную задачу. Мы ограничимся здесь тем, что докажем следующую теорему. Теорема 7 (критерий Колмогорова сходимости почти всюду). Пусть £*, к = 1, 2,... , независимы, Е£к = 0, D£k = ак < со и, кроме того, Тогда Sn/bn—>0. п.н. Доказательство. Из условий теоремы 7 вытекает, что (см. следствие 4) ряд 00 ]С & с вероятностью 1 сходится. Поэтому утверждение теоремы 7 будет следствием k=\ k следующей известной леммы анализа. 00 Лемма 3. Пусть Ьп | со, а последовательность х\,Х2,... такова, что ряд JD xk сходится. Тогда при п —► со *=1 1 °° — ^2 Ь*хь "* °- оо Доказательство. Обозначим Хп = ^жь так что Хп —> 0 при п —> со, п+1 X = maxn^o l-^nl < со- Используя преобразования Абеля, получим 00 П П—\ П ^У] bkXk = ^2 h(Xk-.i - Хк) = ^2 ьк+\хк ~ zZ ЬкХк ~ к=\ к=\ к=0 к=\ п-\ — 2-/(&fc+i ~ Ък)хк + Ъ\Х$ - ь„х„, к=\ \ п 1 n_1 lim sup — Y] Ькхк ^ lim sup — У^(Ь*+1 - Ьк)Хк. (7) n^oo &n f—' n^oo bn f—' Здесь для заданного £ > 0 можно выбрать N так, что \Хк\ < е при к^ N. Поэтому п-\ N-1 п-1 £>*+1 - Ък)Хк ^ ^(bfc+i - Ь*)Х + £ £>*+* - Ь*) = Х(Ь^ - 60 + фп - bN). к=\ к=\ k=N
224 Глава 10. Последовательности независимых случайных величин Отсюда и из (7) следует, что 1 v- lim sup — у bkXk ^ е. 00 Ьп и 1 Можно было бы доказывать теорему 7 и непосредственно, используя неравенство Колмогорова примерно так же, как это делалось в теореме 4. Первоначально достаточность в теореме 6 была доказана с помощью теоремы 7 путем использования срезок с' _ /& при |&| < к, О при Iffcl ^ Л, которые имеют дисперсии Df£, удовлетворяющие условию ]Г -^ < со, и которые 00 с точки зрения закона больших чисел не отличаются от &, так как ]Г} Р(£[. / &) < к=\ со и, следовательно, происходит лишь конечное число событий {£'к Ф &}. Пример 2. Пусть &, А: = 1,2,... , — независимые случайные величины, принимающие значения f* = ±fca с вероятностями 1/2. Как мы видели в примере 1 § 8.4 при а ^ —1/2 суммы 5„ этих величин асимптотически нормальны при соответствующей нормировке. Будут ли они удовлетворять усиленному закону больших чисел? Так как Df* = v\ = к2а, то ряд J2 -$■ — J2 к2(а~1' будет сходиться при а < 1/2. Таким образом, если а < 1/2, то Sn/n—>0. Отметим теперь, что, хотя условие п. н. а < 1/2 есть всего лишь достаточное, оно точно определяет границы применимости усиленного закона больших чисел. Действительно, Вп = DSn ~ n /2 при а = 1/2 и, следовательно, величина Sn/n будет асимптотически нормальной с параметрами (0,1/\/2) (пример 1 §8.4). Итак 5„ при а ^ 1/2 не будет удовлетворять усиленному закону больших чисел, хотя и будет удовлетворять центральной предельной теореме. Этот факт объясняется, очевидно, существенно различными нормировками в этих предельных теоремах.
Глава 11 Факторизационные тождества В этой главе мы получим ряд замечательных и весьма полезных соотношений, устанавливающих связи между разными характеристиками случайных блужданий, а также связи между возникающими при этом проблемами и простейшими граничными задачами теории функций комплексного переменного. § 1. Факторизационные тождества и их первые следствия Пусть (£"2,5, Р) — вероятностное пространство, на котором задана последовательность {ffc}£Li независимых одинаково распределенных случайных величин. п Пусть, как и прежде, Sn = ]Г} &, So = 0. fc=i На этом же вероятностном пространстве определим случайную величину rj°+ = min{fc ^ l;5fc ^ 0}. Это есть время первого достижения нулевого уровня. На тех элементарных исходах ш, для которых все S* < 0, А: ^ 1, положим гу+ = со. Как и 1/(0) = 77(0) -f 1 в §9.1, величина щ. является марковской. Случайная величина %+ = S^o называется первой неотрицательной суммой. Она определена лишь на множестве {щ. < со}. Совершенно аналогичными свойствами обладают время достижения нулевого уровня справа 7]°_ =min{k^ 1; Sk ^ 0} и первая неположительная сумма Х- = S^o • Исследование свойств введенных случайных величин представляет значительный самостоятельный интерес. Величина rj+, например, есть момент остановки, и знание ее природы весьма существенно для изучения моментов остановки во многих более сложных задачах (см. задачи теории восстановления в гл. 9, задачи о статистическом контроле, описанные в §4.4, и др.). Кроме того, величины 7/+ и Х+ потребуются для описания поведения экстремумов С = sup(5i, 5г,...) и 7 = inf (Si, 5г,...), которые играют важную роль в задачах математической статистики, теории массового обслуживания (см. §4) и других. Обозначим (р(Х) = (рь(\) = ЕегА6.
226 Глава 11. Факторизационные тождества Теорема 1 (факторизационное тождество). Для х.ф. совместных распределений введенных случайных величин при \z\ < 1, Im А = 0 справедливо тождество 1 - z<p(\) = [1 - E(e'A*V°; V°+ < oo)]D-l(z)[l -Е^-г*; rfc < oo)], где D(z) = 1 - E(A x+ = 0, 4i < oo) = 1 - E(z*°-; X- = 0; iy° < oo). Доказательство. Обозначим £n = max{5i,... ,5n}. На множестве {77+ = k} имеем Sn = Sno+ + 5n - 5^0 = x+ + Sn - 5^. Поэтому p-(A) = Ee<A5" = X)E(eiA5-; vl = *) + E(e'A5«; C„ < 0) - = ^E(e.A(5»-^)eU5t/(??0 = k)) +Mn> (1) fc=l где Mn = E(e,A5w; Cn < 0). При каждом фиксированном А: случайные величины Sn-Sk и Skl(r/+ — к) — х+1(ч+ — &), где 1(A) есть индикатор события А, являются независимыми. Следовательно, РП(А) = X>n-*(A)E(eiA*°; 4+ = *) + М„. Умножим теперь обе части равенства на zn, n = 0,1,... , и просуммируем по п. При этом условимся считать, что при п = 0 п ^ = 0, Мп = 1. п Для свертки двух последовательностей сп = ]Г} а&6п_£ справедливо равенство к=\ 00 ОО ОО если только ряды, фигурирующие в этом равенстве, абсолютно сходятся. Так как \z\ < 1, \<р(\)\ ^ 1 при ImA = 0, то 00 « 00 П 00 5>V(A) = г^ш - E-nE^(A)E(eiAx0+; «Л =*) + Е^« = n=0 ^V ' п=0 *=1 п=0 00 00 00 = £У Е (eiA*°; ,0 = fc) X: г>"(А) + £ -"М„ = *=1 п=0 п=0 1 E^V-^ <оо) + £>"МП) 1 - **А)
§ 1. Факторизационные тождества и их первые следствия 227 или, что то же, -^А).-.^*1*^-^. (2) n=0 где AZ±(X) означают числитель и знаменатель отношения, полученного для 1— z<p(X). Легко понять, что если мы обозначим 7n = min(5b...,5n), то, повторив приведенные рассуждения, придем к равенству ,-^») = '-.ЕС**<<~>.|=&. о) 5>»Е(е'"л*;7»>0) *Z+W Заметим теперь, что при \z\ < 1 функции 4Z+(A) и 2?Z+(A) аналитичны в области ImA > 0, непрерывны, включая фаницу ImA = 0, и офаничены при ImA ^ 0. Это следует из того, что обе эти функции представляют собой равномерно сходящиеся ряды из функций, обладающих указанными свойствами. Например, 00 E(eiA*V*; vl < оо) = 5>nE(eiA*°; 4+ = *), n=l где Е (е,А*+; 7/+ = п) есть часть х. ф. неотрицательной случайной величины (см. свойство 6 х. ф.). Функции Az-(A) и Дг_(А) по тем же причинам обладают аналогичными свойствами в полуплоскости ImA ^ 0. Но если сравнить (2) и (3), то получим, что при ImA = О, 42+(A)Bz+(A) = 4z_(A)Bz_(A). Это означает, что функция AZ-(X)BZ-{X) (Az+(X)Bz+(X)) может быть через фаницу Im A = 0 из нижней (верхней) полуплоскости продолжена до целой функции. Так как эта функция офаничена, то в силу известных теорем она с необходимостью равна постоянной. Далее, егХх —> 0 при Im А —► -co, x < О и, следовательно, Bz-(-too) = 1 - E(z"°-; х- = 0, чЯ < оо), Az-(-ioo) = 1, 4Z_(A)£Z_(A) = 4z_(-zoo)Bz_(-zoo) = D(z) = 1 - E(z*-; x°- = 0, V- < oo). Подставляя в (2) найденное из этого равенства значение AZ-(X) = D(z)/Bz-(X), получим утверждение теоремы. Второе соотношение для D(z) найдем из равенства D(z) — Az+(ioo)Bz+(ioo). ■ При доказательстве теоремы 1 мы в формуле (1) использовали разложение Ее * на слагаемые, соответствующие непересекающимся событиям \ U {т/+ = к} \ = {Сп ^ 0} и {(п < 0}. Но схема доказательства полностью coital хранится, если мы рассмотрим разбиение П на события {(п > 0} и {£п ^ 0}. Чтобы сделать это, введем случайные величины rj+ = min{fc: Sk > 0} (77+ = 00, если ( ^ 0. Заметим, что rj+ = и(0) = 7/(0) + 1 в обозначениях § 9.1), x+ = s4+, у]- = min{&: Sk < 0} (r/_ = 00, если 7^0), x-=sn_.
228 Глава 11. Факторизационные тождества Величина rj+ (77-) называется временем появления первой положительной (отрицательной) суммы х+ (Х-)- Теперь наряду с равенствами (2), (3) сможем записать , ч 1 - E(e*A*+z*+; т/+ < 00) 1 - E(ef'A*-z*-; rj- < оо) 1 ~ ^(А) = -^ *■ = -^Н - }~. (4) £ z"E (е'А5«; Cn ^ 0) £ ^nE (eiA5«; 1п > 0) п=0 п=0 Сопоставляя эти соотношения с (2), (3), мы с помощью прежних рассуждений сможем доказать следующее утверждение. Теорема 2. 1 - E(ef'A*V°; !# < 00) = D(z)[l -E(eiXx+z4+; rj+ < 00)], (5) 1 - E(eiA*V-; 77° < 00) = D(z)[l - Е(е*А*-**-; r/_ < 00)]. Здесь функция D(z), определенная в теореме 1, удовлетворяет также соотношениям 00 00 Я"1 (*) = ХУ Р<5" = °> С» ^ 0) = £>Пр(5» = °> 7» ^ 0). (6) Ясно, что с помощью теоремы 2 можно получить некоторые другие разновидности факторизационного тождества. Например, такое: 1 - Z(p(\) = [1 - E(eiA*+z*+; r/+ < 00)] [l - E(ef'A*V-; 77° < 00)]. (7) Из представлений (6) для £>(z) вытекает, в частности, что P(Sn = 0,Сп ^ 0) = Р(5п = 0,7п ^ 0) и что D(z) = 1, если Р (5„ = 0) = 0 при всех п ^ 1. Доказательство теоремы 2. Получим, например, первое из соотношений (5). Сравнивая (3) и (4), как и раньше, находим [l-E(e'A^z"-77+<oo)]B,+(A)=l, (8) так как 1 есть значение рассматриваемого произведения в точке гоо. Поэтому в силу (3) получаем (7). Остается сравнить (7) с тождеством теоремы 1. Выражения (6) для D(z) получаются, если вспомнить, что в правой части (8) должно стоять 00 [£VE(e'"A*; С» ^ 0)] [l - E(eiA*V-; т>_ < оо)]. Так как это произведение также равно 1, то полагая Л = -гоо, приходим к одному из требуемых равенств. Второе доказывается аналогично. ■ Замечание 1. Важно отметить, что теоремы 1 и 2 наряду с доказательством существования тождеств дают нам также средство отыскания х. ф. совместных распределений величин х и V- Речь иДет °б отождествлении с представлениями в теоремах 1 и 2 любого представления функции 1 - z<p(\) при Im А = О в виде CZ+(X)/CZ-(X) или CZ_(A)/C2+(A), где CZ±(X) аналитичны соответственно в областях ImA ^ 0, непрерывны включая границу ImA = О и ограничены при ImA^O. Если, например, ^V ' CZ_(A)
§1. Факторизационные тождества и их первые следствия 229 и С2+(гсо) = Cz-(—ioo) = 1, то, как мы видели, 1 - E(elXx+zv+;x+ < °°) можно отождествить с CZ+(A); С~±(\) с 1 - E(eiXx~z11-;rj. < оо), a C(z) с D(z). В общем случае, если некоторую функцию CZ(A), заданную при Im(A) = 0, удается представить в виде одного из соотношений CZ+(A)/CZ_.(A) или CZ_(A)/CZ+(A), где Cz± обладают указанными выше свойствами, то говорят, что С2(А) допускает факторизацию. Функция CZ+(A) (CZ_(A)) называется положительной (отрицательной) компонентой факторизации. Задача о факторизации представляет собой разновидность так называемой проблемы Коши—Римана в граничных задачах теории функций комплексного переменного. Получим теперь некоторые следствия теорем 1 и 2. Следствие 1. Устремляя z —> 1, мы получим 1 - р(А) = [1 - Е(е,А*+;т7+ < со)] [1 - Е(eiA*°-;Ч° < со)]. Аналогичным образом можно, очевидно, написать и другие тождества такого типа, соответствующие тождествам, которые можно получить из теорем 1 и 2. Следствие 2. Если существует Е& = а < О, то Р(т/_ < со) = 1, существует ЕХ°-иР(<;^0) = а/Ех0->0. Доказательство. Первое соотношение следует из закона больших чисел, так как Р(Ч->п)<Р(5„>0)->0 при п —> оо. Следовательно, в рассматриваемом случае Е(е,Л*0-;7£<оо)=Ее,А*-. Существование Е%_ следует из множества Вальда Е%_ = аЕт)__ и теоремы 9.4, в силу которой Ет)_ < оо. Наконец, поделив обе части тождества в следствии 1 на А и переходя к пределу А —> 0, получим а = (1-Р(Ч+<оо))Ех- = Р(С<0)Ех-. Интересно отметить, что в качестве следствия доказанного утверждения мы можем получить усиленный закон больших чисел. Действительно, так как событие {С < со} является остаточным иР((< со) ^ Р(£ ^ 0), то из следствия 2 вытекает, что Р(С < со) = 1 при а < 0. Это означает, что верно утверждение теоремы 4, из которой и был получен усиленный закон больших чисел. Ниже, на основании факторизационных тождеств, мы получим некоторое обобщение этого закона. Во всем дальнейшем в этой главе, чтобы избежать тривиальных затруднений, будем предполагать, что & с положительной вероятностью принимает как положительные, так и отрицательные значения. Следствие 3. Если а = Е& = 0, mo P(rj+ = со) = Р(77- = со) = 0, так что \-<p(\)=(\-EeiXx+)(\-EelXx-).
230 Глава 11. Факторизационные тождества Доказательство. Рассмотрим последовательность & — & — е, е > 0. Обозначив получим С, Х-, а, соответствующие характеристики для введенной последовательности, Р(С^о)<Р(с^о) ЕХ°- Ех°_' где Е^ ^ E(€i;€i OK E(fc - e;fr ^ е) ^ E(€i;€i ^ 0) < 0. Таким образом, вероятность Р(£ ^ 0) может быть сделана сколь угодно малой, так что Р(С ^ 0) = Р(т/+ = со) = 0. Аналогично устанавливается, что Р(7 ^ 0) = 0, и, следовательно, Р(г)°_ = со) ^ Р(т7_ = оо) = Р(7 £ 0) = 0. § 2. Факторизационные тождества. Свойства траектории (0, Si, S2, • • •) Найдем теперь еще одно представление для компонент факторизации функции l-z(p(X). Теорема 3. При \z\ < 1, Im А = 0 функция 1 — z<p(\) допускает факторизацию »-*Р(Л)=С,С^(А)(г)' С,+(*оо) = С,_(-гоо) = 1, (9) где оо k CZ+(A) =exp { - £ jE(ett5'; 5, > 0)}, ОО fc CZ_(A) =exp { £) yE(el'A5i;5, < 0)}, (10) oo fc C(Z)=exp{-^^P(5fc=0)}. Доказательство. Так как |z| < 1, то существует ln(l — z(p(X)), понимаемый в смысле главного значения. Следующие равенства дают нужное разложение 00 Jfe,Jfe/\w , °° Л 1 - zrfA) = е"*1"*» = ехр { - £ ^} = ехр { - £ уЕе«*} = fc=l fc=l ОО fc ОО fc = ехр{ - Е jE(eiA*;5fc > 0)}ехр{ - £ jP(S* = 0)}х ОО fc хеЧ-^тЕ(е'А5';5*<0)}- *=1 fc=l fc=l Требуемые свойства компоненты C2+(A) (CZ_(A)) (аналитичность при ImA>0 (Im A < 0), непрерывность включая границу Im A = 0, и ограниченность) доказывается точно так же, как для компоненты Az+ (AZJ) в доказательстве теоремы 1. ■ Так как в формулах (9), (10), очевидно, С2+(гоо) = С2_(-гоо) = 1, то в силу замечания, сделанного к теоремам 1 и 2, мы немедленно получаем
§ 2. Факторизационные тождества. Свойства траектории 231 Следствие 4. 00 л 1 - E(e*'Ax+z'+;i/+ < оо) =ехр { - ]Г jE(eiXS';Sk > 0)}; оо к D(z)=exp{-]T^P(Sfc=0)}; оо fc 1 - Е(е'"А*-*'-;Ч- < оо) = ехр { - ]Г yE(eiA5*;S* < 0)}. к к=\ Следствие 5. 1. Всегда ^^f^<oo. 2. Три следующие условия эквивалентны: а) Р(С<оо) = 1, б) Р(С^0) = Р(т7+ = оо)>0, в) X, — k— < оо или J2 к < °°* Доказательство. Чтобы получить первое утверждение, надо во втором равенстве следствия 4 устремить z к 1 и вспомнить, что £>(1) = 1 — Р(х+ = 0,7/+ < со) > P(ft > 0) > 0. Эквивалентность б) и в) вытекает из равенства l-P(,+ <oo) = P(C^0) = exp{-f:^^}) k=\ которое получится, если в первом тождестве в следствии 4 положить Л = 0, z — 1. Установим эквивалентность а) и б). Если Р(£ ^ 0) > 0, то Р(С < оо) > 0> и стало быть, Р(С < оо) = 1, т.к. событие {£ < оо} остаточное. Наоборот, пусть теперь £ — собственная случайная величина. Выберем N так, чтобы Р(£ ^ N) > О, и 6 > 0 так, чтобы А: = N/b было целое и P(ft < —b) > 0. Тогда — {CO}D {ft <-l,■•-,&<-&, sup(-6fc + ft+1+... +&+iK0|. Так как последовательность ft+i, ft+2,. • • распределена так же, как ft, ft,... , то Р(С *: о) Ир(£, <-ь)]*Р(с ^ bfc) > о. Следствие 6. 1. Р(С<оо,7 > -оо)=0. 2. £сли существует Ef i = о < 0, то Р« < оо,7 = -оо) = 1, /~Р(5, >0)^ ~P(5t<0) ч [22—т—<оо> £——=о°)- 3. Если существует Eft = а = 0, то Р(С = оо,7 = -оо) = 1, P(Sk>0) " Р(5,<0) (ekj^=0O] Е 001 *=1 Jfc-1
232 Глава 11. Факторизационные тождества Случай а > О мы здесь не рассматриваем, поскольку он является «симметричным» к случаю а < 0. Доказательство. Первое утверждение следует из того, что по крайней мере 00 Р(5.<0) °° Р(5>0) один из двух рядов ^2 —^—- или ^2 kk^ расходится. Значит, по следствию 5 к=\ к=\ либо Р(7 = -оо) = 1, либо Р(С = оо) = 1. Второе и третье утверждения очевидным образом вытекают из следствий 2, 3 и 5. ■ Обобщение усиленного закона больших чисел, о котором мы упоминали выше, состоит в следующем. Теорема 4 (односторонний закон больших чисел). Сходимость ряда Y2 \s*>£k) к=\ при любом е > 0 является необходимым и достаточным условием для того, чтобы Sn Y Hm sup— о) = 1. (11) \п-юо П / Sn Так как \ lim sup — ^ а > есть остаточное событие и т. к. S'n = Sn - an снова образуют последовательность сумм независимых одинаково распределенных величин, то из этой теоремы немедленно получаем Следствие 7. С вероятностью 1 Sn limsup — = а, п где а = inf |Ь: ^ < оо). Доказательство теоремы 4. Достаточность. Если выполнено условие теоремы, то по следствию 5 P(sup{Sfc - ek} < оо) = 1. Следовательно, {еп} есть верхняя последовательность к для {Sn} и / Sk \ Р I lim sup — ^£1 = 1. \к->оо к / А так как е произвольно, то Sk Р( lim sup— ^о) = 1. Vfc-юо А: / Необходимость. Наоборот, если выполнено равенство (11), то с вероятностью 1 с некоторых пор Sn/n < е для любого е > 0. Но это значит, что sup(Sfc - ек) < оо к с вероятностью 1 и, стало быть, ряд 2^ —К—т—'- сходится. ■ к *=1 Чтобы из этой теоремы получить обычный усиленный закон больших чисел, достаточно воспользоваться п. 2 следствия 6. В заключение этого параграфа сделаем одно замечание.
§3. Распределение S = max(0,C) 233 Замечание 2. В доказательстве следствий 2 и 5 фигурировало равенство Р(С ^ 0) = Р(т/+ = со). Более тонким фактом является соотношение P(C<0) = P(i#=oo), которое мы сейчас в виде упражнения и докажем. Имеем Л оо оо {^ = 00}= f|{^n<0} = {C<0}+ П{5п<0,С = 0}. п=1 п=1 Надо убедиться, что вероятность последнего события, которое обозначим через А, равна 0. Но это так в силу того, что А С Bq — \ lim sup Sn = 0 > и Р (Во) = О I п—»оо J (см. §10.1). § 3. Распределение S = max(0, Q = max Sk В разного рода приложениях (одному из них мы посвятим следующий параграф) представляет интерес распределение случайной величины S = max(0,C), разумеется, в том случае, когда Р(С < оо) = 1. Мы установим здесь, как связано распределение S с распределением %+, г)+ и с компонентами факторизации функции 1 - z<p(\). Заметим прежде всего, что случайная величина 7/+ является марковской. Для таких величин, как легко установить (ср. с леммой 9.1), последовательность fi = ft/++hf2 = f»7++2>--- на множестве {ш: 77+ < со} (или при условии i)+ < оо) распределена так же, как £ь£2> • • • » и не зависит от (?y+,^i,... ,^+). Действительно, = P(£i+1 € ВЬ... ,£,-+* € Bfclfi € Ль ... ,fc € ji>;iy+ = j) = = P(d GBb...,a6ft). Рассматривая новую последовательность {£*}£?_ p мы опять замечаем, что для нее уровень 0 (уровень %+ Для исходной последовательности) будет превзойден лишь с вероятностью р = P(rj+ < со), а распределение С = sup(f J + ... + f£) будет к совпадать с распределением £. Таким образом, обозначив S* = тах(0,£*), можно записать, что о_ слл_ /° на {u;: T/+ = оо}, *-*W-^Slf++S* = x+ + 5* на {и;: т/+< оо}. Так как 5*, как уже отмечалось, не зависит от %+ и г/+, и распределение 5* совпадает с распределением 5, то Ее*"А5 ^= (1 -р) + E(el'A(*++ir);7/+ < оо) = (1 - р) + Ее,А5Е(е,Ах+;г/+ < оо). Отсюда вытекает
234 Глава 11. Факторизационные тождества Теорема 5. Если J2 ~k— < °° иЛи" нто то же> ест Р = Р(*7+ < оо) < \, то Ее.-Л5= I"? 1 -Е(е,А^,т/+ < оо)' Совершенно аналогичным образом можно было бы получить соотношение р jxs * ~Р0 /19ч ~1-Е(е'Л*0+,т£<оо)' U ' где р0 = ?(*?+ <оо) < 1. Факторизационные тождества в этом случае можно записать в виде (1-ро)Р(1)(1-Ее<Л*-) 0-р)(1-Ее'А*-) 1 " ^(Л) = Е?*5 = Ё&~з • Совершенно аналогично можно найти х. ф. момента времени в = min{fc: Sk = 5}, когда впервые достигается максимум S = Se. Для этого надо воспользоваться равенством в = Г О на {a;: rj+ = оо}, \г)+ + 0* на {о;: ?7+ < оо}, где в* распределена на {rj+ < оо} так же, как 0, и от г)+ не зависит. Находим Егв = (1 -р) + Е/Е(^+;77+ < оо); и окончательно 1 -E(z*+;i7+ < оо)" Полагая в факторизационном тождестве Л = 0, получим также соотношение 1 — [1 - Е(,-;,+ < со)] [, - ЕУ] . О-40;^). § 4. Системы обслуживания В этом параграфе мы покажем, что к изучению распределения величины S, рассмотренной в §3, приводит исследование систем массового обслуживания с очередью. Представим себе, что в некоторую систему через интервалы времени ti,T2, ... поступают «вызовы», которые надо обслуживать. Это могут быть телефонные вызовы; самолеты, прибывающие в аэропорт; клиенты бытовых учреждений; сообщения, содержащие информацию, которую надо обрабатывать, скажем, на электронной машине и др. Пусть на обслуживание А:-го вызова (первый вызов пришел в момент времени 0, второй в момент времени т\, и т. д.) тратится время Pk, к = 1,2,... . Если в момент прихода к-ro вызова система занята обслуживанием одного из предьщущих вызовов, то он становится в «очередь» и ждет своего обслуживания, которое начинается немедленно после того, как система обслужит все предыдущие вызовы. Задача состоит в отыскании распределения времени ожидания wn, которое n-й вызов ждал начала своего обслуживания. Предположим для простоты, что w\ = 0 и найдем, как связаны между собой значения wn+\ и wn. (п + 1)-й вызов пришел позже n-го на время тп, но зато
§ 5. Факторизационные тождества 235 ему придется ждать дополнительно (по сравнению с n-м вызовом) время /Зп обслуживания n-го вызова. Поэтому wn+l =wn -rn+(3ni если только wn — тп + /Зп ^ 0. Если же wn — тп + /Зп < 0, то очевидно wn+\ = 0. Таким образом, если обозначить fn+i = /Зп — тп, то ti/n+1 =max(ti/n + £n+b0), п ^ 1, г^ = 0. Покажем, что решением этих уравнений является последовательность wn = Sn - min(5i,..., 5„) = 5„ - 7n, n где, как и прежде, Sn — ]Г ffc. Так как S\ - 71 = 0, то достаточно проверить fc=i рекуррентное соотношение 5n+i - 7n+i = max(0,5n + £n+i - -yn). (13) Если 5n+i > 7п, то 7п+1 = 7п, и в обеих частях (13) будет стоять Sn+\ — jn. Если Sn+\ ^ 7п, то Sn+\ = 7п+ь и в обеих частях (13) будет стоять 0. Таким образом, равенство wn — Sn — jn доказано. Предположим теперь, что & независимы и одинаково распределены. Тогда разность Sn-Jn = max(5„-5i,...,5„ - Sn) = max(0,£„,£„ +£П_Ь... ,f„ + ... + £2) будет распределена, очевидно, так же, как Sn_i = max(0, S\,..., Sn-i) = max(0, Cn-i)- Так что распределение wn совпадает с распределением max(0,Cn-i)- Так как £п монотонно сходится к £ при п —> со, то всегда существует lim P(wn <х) = P(max(0,C) < x) = P(S < х). п—►оо Это распределение называют стационарным распределением времени ожидания. Как мы уже знаем, оно будет собственным, если Е£2 = E/?i — Ет\ < 0. Если же Е/3\ > Ет\, или Е(3\ = Ет\ и (3\ ^ т\, то «стационарное» время ожидания будет бесконечным. § 5. Факторизационные тождества для распределений, связанных с показательной функцией Рассмотрим теперь ряд примеров, когда факторизационные тождества используются для отыскания явного вида распределений %+, rj+, S и других. 1. Предположим сначала, что при х > 0, P(£i >x) = be~ax при некоторых а>0и\>/3>0. При х ^ 0 распределение fi может быть произвольным. Этот случай замечателен тем, что для него распределение х+ не зависит от 77_(_ и является показательным. Действительно, о Р(Х+ >x,r)+=n) = J P(rj+ = n, 5n_i 6 dz, Х+> х) = -00
236 Глава 11. Факторизационные тождества f P(Cn-i ^ 0,5n_i €dz,(n>x-z) = J P(£n >x- z)P(C„_i ^ 0,5n_i 6 <fe) ) 0 fbeazdP(Cn-l^O,Sn-l<z)=pne- -00 0 -ai = e Отсюда следует, что Pn = P(*7+ = n), P(x+ > ж|т7+ = n) = e~ Р(Х+>х;т)+<оо)=ре-ах, где p = p\ + p2 + • • • • Следовательно, 00 00 ; (e'A*+; 77+ < oo) = / eiXxd(p - ре~аж) = р Г aeiX Е(е'Л*+;т7+ < oo) = / elAXd(p - pe~ax) = p I aeiXx~axdx = - PC* iX — a1 0 0 и если S < oo с вероятностью 1 (т.е. если р < 1), то iAS 1-Р _/i _л . _ -«О"?) Ее = , , Ч/Д v = О -Р) +Ртт 1 + (ра)/(»Л - а) гЛ - а(1 - р)" Последнее равенство означает, что Р(5 = 0) = 1 - р, Р(5 > ж) = ре~а{1~р)х при ж ^ 0. В полученных соотношениях осталось неизвестным лишь число р (знаем только, что 1 -р = а/(Е%_), если существует а = Efi < 0 (см. следствие 2)). Предоставляем читателю с помощью тождества l-v(A)=(l + ^)[l-E(e^-;7?0_<oo)] (14) убедиться, что a(l-p) = fi(l), где fi(l) > 0 — единственный положительный корень уравнения ^(/х) = 1, где tp(fi) = (p(-ifi) = Ее**' (^'(0) < 0,^"(/х) > 0,^(/х) -► оо) при /х —> а. При Л = -г/х(1) правая часть тождества (14) обязана обратиться в 0). Отметим также, что в рассматриваемом случае, пользуясь независимостью %+ и 77+, нетрудно найти и распределение 77+. 2. Предположим теперь, что при х > О, P(ft < -ж) = Ъе~ах, а > О, 1 > 6 > О, и что 5 с вероятностью 1 конечно. В этом случае заключения, аналогичные предьщущим, справедливы относительно величин %_, 77_. Разница состоит лишь в том, что здесь Р (77- < оо) = 1 и, следовательно, Р(Х-<-*) = е-~, ЕХ- = -~, EeiA*"--^— а гЛ + a Отсюда находим, в частности, что (см. (12)) 1 - Ро = Р(*7+ = оо) = -— = ~аа; Eixs = 1-РО Г1 _ Ee.-Ax-i = ____ааг\___ l-y>(A)L J (iA + a)(l-^(A))'
§ 6. Симметричные случайные величины 237 В заключение следует отметить, что полученные соотношения позволяют находить стационарное распределение времени ожидания для систем обслуживания с ожиданием (см. §4), когда хотя бы одна из случайных величин Т\ или /3\ имеет показательное распределение (в силу ряда причин такие предположения можно делать довольно часто. Имеется в виду также, что последовательности {tj} и {/3j} составлены из независимых и одинаково распределенных величин.) В самом деле, если, например, Р(/3\ > х) — е~ах, то для f i = /3\ - Т\ будем иметь при х > О, 00 Р(6 >х) = Р(А - т{ > х) = fdFT(y)P(f3 >x + y) = { у = е~а*х / e-aydFT(y) = е~ахЕе~ат\ о Это означает, что мы находимся в условиях п. 1 этого параграфа. Аналогично обстоит дело, если показательным является распределение т\. Важные выводы о распределении рассматриваемых случайных величин (5, 7/+, х+ и ДР-) можно сделать, используя качественные аналитические свойства компонент факторизации C±Z(X), определяющих нужные нам распределения. Пусть, например, (р(Х) есть рациональная функция от Л, (это будет, в частности, если f i =р — т (см. §4), где (3 ^ Га,, г €р Га2 и независимы. Представление (15) возникает и при других предположениях относительно fi, связанных с показательным распределением). Тогда требуемые аналитические свойства CZ±(X) (прежде всего аналитичность в соответствующих полуплоскостях) будут иметь место, если только положить ^ сг(л) = П^ к A-A;(z) A-A*(z)' где A^(z), Ak(z) — все нули и полюса функции 1 — z<p(\), лежащие в нижней полуплоскости. В связи с изложенным можно отметить также, что если некоторая х. ф. ^(Л) есть рациональная функция, то путем разложения ее на простые дроби соответствующее ей распределение можно представить как смесь показательных распределений или их сверток. Рассмотрение случаев, когда факторизация позволяет находить явные формулы, будет продолжена в § 8. § 6. Симметричные непрерывно распределенные случайные величины Будем говорить, что распределение & симметрично, если оно совпадает с распределением —&, и называть распределение £к непрерывным, если функция 1) Подробнее об этом см. [3].
238 Глава 11. Факторизационные тождества распределения & непрерывна. Для таких величин распределения Sn при всех п также симметричны и непрерывны и Р(5П > 0) = P(S„ < 0) = 1, Р(5П = 0) = 0. Стало быть, здесь D(z) = 1, Р(х+ = 0) = 0, и с вероятностью 1 rj+ = rf+, %+ = х+. В силу следствия 5 в рассматриваемом случае С = оо,7 = —оос вероятностью 1 и 77+ есть собственная случайная величина. В силу следствия 4 оо k t 1 - EZ"+ = exp {- £) ^} = exp {- ln(l - z)} = vT=I, *=1 Ez"+ = 1 - VTT Отсюда, разлагая в ряд V\ - z, находим, что (2n)! Р(т;+ = п) (2n- l)(n!)222n* При больших п по формуле Стирлинга обнаруживаем, что 1 Р(9+=п). 2 х/тгп3/2' 1 Р(Сп<о)= ^ Р(ч+ = *)' fc=n+l V""' Аналогичные формулы справедливы и для rj-, 7n • § 7. Тождество Поллачека—Спитцера До сих пор мы получали различные факторизационные тождества как соотношения между числителями в представлениях (2), (3) и (4). Обратимся теперь к знаменателям. Получим еще одно тождество, которое играет важную роль при исследовании распределений Sn = max(0, С») = max(0, SU..., 5„). Это так называемое тождество Поллачека—Спитцера, связывающее х. ф. Sn, п = 1,2,... , с характеристическими функциями max(0, Sn), п— 1,2,... . Теорема 6. При \z\ < 1, ImA ^ 0 ОО _ 00 к Х>пЕе,А5' = ехр{]Г £_Ее<Атах<0А>}. п=0 к=\ Если использовать обозначения теоремы 3, то правую часть этого тождества Cz+(0) можно записать в виде п^ /л\ • Доказательство. Из теорем 1-3 и соотношения (2) вытекает, что 00 5>nE(eiA5-;C„ < 0) = [1 - E(eiA*-Z'-;i/- < оо)]"1 =С,_(Л), *=о
§ 7. Тождество Поллачека—Спитцера 239 где принято E(elA5o;Co < О) = 1. Обозначим Si = Sn-k - Sn, 0n = min{fc : Si = Sn = max(0,5*,... ,5^)} (0n есть первый момент достижения максимума в последовательности 0,5f,..., 5£). Тогда событие {Sn E dx, £п < 0} можно записать в виде {S^ Е -dx,0n = n}. Отсюда следует, что E(eI'A5-;C„<0)=E(e-f"A5;;^=n), 00 X;^nE(eiA5:;^=n)=C2_(-A). (16) Но последовательность Sj,...,S* распределена так же, как суммы £j,£i -f £2, • • • ,f J -К.. +^п, где £ = —&. Если положить 0n = min{fc: Sk — Sn}, то тождество (16) можно эквивалентным образом записать в виде 00 ХУЕ(е'^=п)=С;_(-А), где С*_(А) есть отрицательная компонента факторизации функции 1 — z<p*(\) = 1 — zy>(—А), соответствующей случайной величине —&. Так как .-„(-Л) = ВД|±М и функция l/Cz+(—А) обладает всеми свойствами отрицательной компоненты С*_(-А) факторизации функции 1 —z(p*(—\), а функция 1/CZ_(-A) обладает всеми свойствами положительной компоненты, то мы находим, что С*_(А) = С~+(—\) и оо 1 Теперь надо заметить, что _ 00 _ Eea5"=^E(e,A5";^=fc) = *=° „ = 53E(eiA*; 0t = fc, 5t+1 - Sk ^ 0,... ,5„ - S* ^ 0) = *=0 n = ^E(e,AS<;<?*=fc)P(5n_fc = 0). fc=0 Так как в правой части стоит свертка двух последовательностей, то 00 _ 00 . £z»Eea5. = J2z"P(Sn = 0)-— „=0 n=0 Cz+W Полагая А = 0, получим 1 А - 1 1 -z п=0 = VznP(S„=0) ГТ.
240 Глава 11. Факторизационные тождества Следовательно, (1 - z)Cz+{\) 00 ~k °° Jz = ехр{- ln(l -z) + J2 jE(eiXS";Sk > 0) - £ ^P(S* > 0)} = k=\ k=\ oo fc oo fc oo fc -P{E xE(e"*;5t > 0) + £ ^ < 0)} = expj^ ^E(e""«<0*>)}. fc=l fc=l fc=l Теорема доказана. ■ § 8*. Явные формулы для дискретных блужданий, непрерывных сверху Дискретным блужданием, непрерывным сверху, будем называть блуждание частицы, порожденное последовательностью сумм 0,5i,52,..., когда £к целочисленны и maxffc(o;) = 1. и/ Другими словами, если обозначить fk = P(fi — к), то fk = О при к ^ 2, 1 ^2 /к = 1. В этом случае, очевидно, %+ = 1 на множестве {г)+ < со}, и в силу fc = -00 теоремы 5 I — ре1Л Это означает, что S имеет геометрическое распределение P(S = k) = (l-p)p\ A: = 0,1,... . Осталось лишь найти р. Чтобы сделать это, заметим, что по формуле полной вероятности (по первому скачку) при любом к ^2, 1 1 p(s = *>= x; fJp(s = k-jy, i= £/,*-'. j=—oo j=-*oo Таким образом, z = \/р > 1 есть решение уравнения /(z) = 1, где /(z) есть производящая функция /(z) = Ez^1. Так как /(z) всегда выпукла (см. гл. 7), то это уравнение имеет не более двух корней: один из них 2 = 1, другой корень z > 1 возможен лишь в случае Ef i < 0. Итак, в случае Ef i < 0 число р < 1 есть единственное решение уравнения 1 = f(p~l). Оказывается, для блужданий, непрерывных сверху, могут быть найдены и многие другие явные формулы. Очевидно, что в этом случае последовательность {5П} не может «перескочить» ни один целочисленный уровень х > О : если Sn > х, то обязательно найдется к ^.п такое, что Sk = х. Задача, которая_нас интересует, по-прежнему состоит в отыскании распределения максимума Sn = max(0, S\,... ,5n), знание которого, как уже отмечалось, бывает важным для многих задач математической статистики, теории массового
§8*. Явные формулы для дискретных блужданий 241 обслуживания и др. Отметим, что найти распределение Sn — это то же самое, что найти распределение 7](х) = min{fc: Sk ^ ж}, 7/(0) = 0, так как _ {Sn <x} = {ф) > п}. (17) Здесь мы считаем г)(х) = со, если S < х. Тождество §7 дает двойное преобразование над распределением Sn. Исследования этого тождества показывают, что само распределение 5„ (или г)(х)), как правило, в явном виде через распределение & не выражается. Однако для дискретных блужданий, непрерывных сверху, оказывается, имеют место замечательные «двойственные» соотношения, которые мы сейчас с помощью тождества Поллачека—Спитцера докажем. Теорема 7. Если & целочисленны, то условие Р(£к ^ 2) = 0 является необходимым и достаточным для того, чтобы nP(rj(x) = n) = xP(Sn = x)1 х ^ 1. (18) С помощью тождества Вальда нетрудно убедиться также, что если существует Efi = а > 0, то блуждание {Sn} будет непрерывным сверху тогда и только тогда, когда Ег)(х) = х/а. Доказательство. Обозначим Рх = Р0?(ж) = оо) = Р(5 < ж), рж>п = Р(ф) = n), оо qx,n = Р(Ф) > n) = ^2 p** + p*' Так как для каждого у, 0 ^ у ^ х, {ф) = п} с и Му) = *>> А:=0 то, используя непрерывность сверху, можно написать по формуле полной вероятности п Рх,п = / ^Py,kPx-y,n-ki k=0 гДе Р0,0 — 1» Ру,0 = 0 при у > 0. Следовательно, при \z\ ^ 1 по правилу свертки 00 px(z) = Е(г*М;ф) < оо) = ]Г)р«|П*п = py(z)px.y(z). fc=0 Полагая у = 1, p\(z) = p(z), получим Px(z) = p(z)px-\(z) = px(z), x^O. Отсюда можно легко найти производящую функцию последовательности джп : ОО ОО 00 П—\ e,<*) = 2>"(*+ E *м) = т=7 +£>•.»£** = n=0 fc=n+l n=\ k=0 Рх ^Дч 1 ~ Zn __ Рх рх(\) - px(z) _ 1 - px(z) n=0
242 Глава 11. Факторизационные тождества Заметим, что здесь число px(l) = P(v(x) < оо) = Р(5 ^ х) может быть и меньшим, чем 1. Используя (17), получим Р(5„ = х) = Р(ф + 1) > п) - Р(ф) > п), ^ {\-px+\z))-{\-p*(z)) p*(z)(l-p(z)) Е* P{Sn = x) = Г^ = —z • Наконец, пользуясь абсолютной сходимостью фигурирующих ниже рядов, находим при \v\ < 1, \z\ < 1, оо _ оо оо 1 / \ YznEvs* =Yv*YznP(Sn=x) = \"P(Z)/44. п=0 х=0 n=0 v /v ^v n Обращаясь теперь к формуле Поллачека—Спитцера, можно записать, что £ *Ы*ш = ln izfW _ 1п(1 _ vp(z)) = ln Iz£<£> + ± М*»'. п=1 s=l Сравнивая здесь коэффициенты при Vх, ж ^ 1, получим 00 Ц X / \ £f_p(5n=x) = ^, в£,. (19) п=1 Учитывая, что px(z) = px(z) и сравнивая в (19) коэффициенты при zn, n ^ 1, получим -P(5n = x) = -P(vx = п), х ^ 1, n ^ 1. п ж Достаточность утверждения теоремы доказана. Читателю предлагается проверить, что имеет место также равенство fx(z)=px(z)f0(z), ОО где fx(z) = ^2 znP(Sn = х), и что p(z) при |z| < 1 является единственным в области \р\ ^ 1 корнем уравнения zEp~^x = 1. Докажем теперь необходимость условия Р(& ^ 2) = 0. Обозначим Д = P(f i = А:). Тогда в силу (18) xfz =Рх,\ =Х^Л- 00 Полагая f(v) = ]Г} vxfx, получим отсюда х=\ оо оо оо °° / к л\ /л х/ \\ ™ /- = «/(«) = Ev Ел = Ел-7гг = i-t> • Мы получили относительно /(v) уравнение
§8*. Явные формулы для дискретных блужданий 243 Сделав замену у = 1 - /, придем к уравнению у' = -у/(1 - v), из которого находим In у = 1п(1 - v) + с, /(v) = 1 - у = 1 - с(1 - v). Но это означает, что Д = О при А: ^ 2. ■ Пользуясь полученными формулами, можно, например, найти в примере 4.8 распределение для времени разорения игрока при игре с бесконечно богатым противником (суммарный капитал равен со). Если начальный капитал первого игрока равен z, то для времени его разорения rj(z) получим Р(ф)=п) = -Р(Яп=г), п п где 5„ = ]Cf>; P(fj = 0 — Q> P(£j = ~0 = Р ( V есть вероятность выигрыша первого ифока в одной партии). Следовательно, если п и z вместе либо четны, либо нечетны, то Р^)=») = К(»-П*)/2)^)/2'("",)/2 (20) и Р(77(2) = п) = 0 в противном случае. Представляет интерес вопрос, как быстро убывает P(r)(z) > п) с ростом п в том случае, когда игрок с вероятностью 1 разорится, т.е. когда P(rj(z) < со) = 1. Как мы уже знаем, это будет тогда и только тогда, когда р ^ q. (Такое утверждение будет следовать также и из рассмотрений § 12.3). Применяя формулу Стирлинга так же, как это делалось в локальной предельной теореме для схемы Бернулли, из (20) уже нетрудно получить, что при каждом фиксированном z при п —> со (п и z одной четности) и р ^ q, P(^)^n)~w3/2J_g)2yi(4Pg)"/2(i)Z/2 при p<g и ГУ P(r)(z) ^ n) ~ z\ — при р = q. V 7ГП Последнее соотношение позволило нам в условиях § 8.9 получить предельное распределение для числа пересечений траекторией 5i,...,5„ полосы [а,Ь] (см. (8.63)). Это утверждение с точностью до нормирующих постоянных сохра- нится и для произвольного блуждания со свойством Effc = 0, Efj£ < со. Однако доказательство этого факта даже для блуждания, непрерывного сверху, требует больших усилий, несмотря на то, что для таких блужданий пересечение снизу вверх траекторией {5„} прямой х = 0 разбивает эту траекторию, как и в § 8.9, на независимые одинаково устроенные циклы. Формулу (18) при Р(5„ = х) > 0 можно переписать также в виде Р(Ч(я:) = п|5п=я:) = -> (21) п означающем, что среди траекторий {5^}, А: = 0,1,... ,п, со свойством Sn = x доля тех, которые имеют абсолютный максимум в последний момент, составляет х/п
244 Глава 11. Факторизационные тождества независимо от характера распределения & (при условии Р(£& ^ 2) = 0). В таком виде теорема 7 приобретает комбинаторный характер и может быть доказана комбинаторным путем. Действительно, пусть £ и а означают, соответственно, векторы £ = (£ь••♦>&»)> а — (аь •••><*„), ^ — совокупность разных векторов а со свой- п ством 5Z afc — ж> ^ — совокупность векторов а из Vi, отличающихся составом к=\ координат. Тогда Р(5П = ж) = X) PU = а) = Yl с*Ла)Р(£ = а)> где ^„(а) — соответствующие целочисленные коэффициенты. Далее Р(Ч(*) = х) = Y1 Р<£ = a)pfo(*) = »1€ = а) = X) М«)р« = а)> (22) где Р(ф) = п/£ = а) равны 1 или 0, так что Ьа?|П(о)/са.|П(а) есть доля таких вероятностей, равных 1. Достаточно показать, что эта доля равна х/п. Мы убедимся в этом не только для каждого a E Vx , а более того, для каждого подкласса Са векторов из Vx, отличающихся от a eVx сдвигом координат: Tla eCa, Z = 0,...,n- 1, где Tla = (a,+i,...,an,an+i,...,an+/), an+j = ay (каждому a 6 if в сумме (22) отвечает более широкий класс, распадающийся на подклассы вида С а)- Итак, установим, что Р(ф) = п\£=Т1а) = \ (23) для х индексов I из п возможных. Обозначим Slk = a/+i + ... + a/+fc, т/(ж) = min{j: Slj = ж}, m = min{.;: 57 = maxS^ }. Траектория {S™}, A: = l,...,n, распадается на х «лестничных моментов» (точек возрастания сумм S™): j-ft «лестничный момент» равен rjm(j). Очевидно, что т/(ж) = 71, еСЛИ I =771, 771 + 7/m(l), . . . , 771 + 7/т(ж) = 771 + 71 И ЧТО т/ < 71 ДЛЯ ДРУГИХ Z. Отсюда следует (23) и вместе с этим равенства Ъх,п(а>) _ х_ сх,п(а) п' Р(ф) =п) = ~У2 c*,n(a)p(£ = о) = -Р(5„ = х). aev? и Если P(£k ^ 2) > 0, то из приведенных рассуждений видно, что в этом случае число «лестничных моментов» траектории {S^} будет ^ ж, а для некоторых траекторий, имеющих положительную вероятность, будет строго меньше ж. Это означает, что в сумме (22) выполняется Ьх^п(а)/сх,п(а) ^ ж, а для некоторых а это неравенство будет строгим. Следовательно, в случае Р(£ ^ 2) > 0, Р(ф)=п) < -P(Sn = x). п Отсюда следует необходимость в утверждении теоремы 7. ■
Глава 12 Последовательности зависимых испытаний. Цепи Маркова § 1. Счетные цепи Маркова. Определения и примеры. Классификация состояний До сих пор мы изучали последовательности независимых испытаний. Рассмотрим теперь простейший вариант последовательности зависимых испытаний. Пусть G есть некоторый эксперимент, который имеет конечное или счетное множество исходов {E\,Ej,. ••}."Предположим, что мы неофаниченно повторяем эксперимент G. Номер исхода n-го эксперимента обозначим Хп. Вообще говоря, вероятности различных значений Ехп могут зависеть от того, какие события появились на предьщущих п— 1 испытаниях. Если же эта вероятность при фиксированном исходе Ехп_х испытания с номером п — 1 не зависит от исходов остальных п — 2 испытаний, то эта последовательность испытаний образует цепь Маркова. Чтобы дать точное определение цепи Маркова, рассмотрим последовательность целочисленных случайных величин {-Х^^о- Если в n-м испытании реализовалось событие Ej, то мы будем считать, что Хп = j. Определение 1. Последовательность {Xn}g° образует цепь Маркова, если Р(Х„ =j\Xq = k0,X\ = fci,...,X„_2 = fcn_2,Xn_i =i) = = P(Xn=j\Xn^=i)=p^. (1) Таким образом, цепь Маркова можно представить себе как некоторую систему с возможными состояниями {Е\,Е2,...}. Задается некоторое «начальное» распределение величины Xq : р(х0 = ]) = Ру, Х>° = !; затем в целочисленные моменты времени система меняет свое состояние, при этом вероятность в момент времени п попасть в состояние Ej, если известна вся предыстория системы, зависит только от того, в каком состоянии находилась система в момент п — 1. Это свойство кратко можно было бы охарактеризовать так: при фиксированном настоящем будущее и прошлое последовательности {Хп} независимы. Цепи Маркова, описанные в определении 1, называют счетными или дискретными (счетным является множество возможных состояний). Например, ветвящийся процесс {Сп}, описанный в § 7.8, где £я есть количество частиц в n-м поколении, представляет собой цепь Маркова с возможными состояниями {0,1,2,...}.
246 Глава 12. Цепи Маркова В терминах условных математических ожиданий или условных вероятностей (см. §4.8) свойство марковости (так будем называть свойство (1)) можно записать в виде P(Xn=j\<r(X0,...,Xn.i)) = P(Xn=j\(T(Xn_l))i где сг(-) есть а-алгебра, порожденная случайными величинами, стоящими в аргументе, или, проще, P(Xn=j\X0,...,Xn-l) = P(Xn=j\Xn-l). Такое определение немедленно допускает обобщение на цепи Маркова с более общим пространством состояний (см. §6, §7). Вопрос существования последовательности {Хп}^°=0, представляющей собой цепь Маркова с данными вероятностями перехода р\у (р}" ^ 0, Y^Pij = О и заданным «начальным» распределением {р®} значения Xq, решается, как и в независимом случае, с помощью теоремы Колмогорова (см. Приложение 2) и задания согласованных совместных распределений равенствами р (х0 = *о, х, = *i,..., х„ = к) = рЫ'Хр^ ... рЫ_1К, которые, как легко видеть, удовлетворяют марковскому свойству (1). Определение 2. Марковская цепь {Хп}™=0 называется однородной, если веро- (») ятности р\у не зависят от п. Рассмотрим несколько примеров. Пример 1. Блуждания с поглощением и с отражением. Пусть а > О — целое число. Рассмотрим блуждание частицы по целым точкам между 0 и а. Если О < А: < а, то из точки А: с вероятностями 1/2 частица переходит в А: - 1 или А; + 1. Если А: равно 0 или а, то частица остается в точке А: с вероятностью 1. Это так называемое блуждание с поглощением. Если Хп — случайная величина, равная координате частицы в момент п, то последовательность {Хп} образует цепь Маркова, так как условное распределение случайной величины Хп зависит только от значения Хп-\. Легко видеть, что эта цепь однородна. Таким блужданием можно описывать безобидную игру (см. пример 4.8) в том случае, когда суммарный капитал обоих игроков равен а. Попадание в точку а будет означать разорение второго игрока. Если же частица из точки 0 с вероятностью 1 переходит в точку 1, а из точки а с вероятностью 1 в точку а — 1, то получим блуждание с отражением. Ясно, что и в этом случае положения частицы Хп будут связаны в однородную цепь Маркова. Пример 2. Пусть {&}£% — последовательность независимых целочисленных п случайных величин и d > 0 — целое число. Случайные величины Хп = ^2 £к (modd), полученные сложением & по модулю d (Хп = ^ 6: ~ jd, где j таково, к=0 что 0 ^ Хп < d), образуют цепь Маркова. Действительно, Хп = Хп_\ + fn (modd), поэтому условное относительно Xj, Х^Л. •., Хп_\ распределение Хп зависит только от значения Хп-\. Если к тому же {^} одинаково распределены, то эта цепь будет однородной.
§ 1. Счетные цепи Маркова 247 Разумеется, все сказанное останется справедливым и при d — со, т.е. для обычного сложения. Только в этом случае множество возможных состояний системы будет бесконечным. Итак, для однородной цепи Маркова вероятности р\" перехода из состояния Ei в Ej на п-м шаге не зависят от п. Обозначим эти вероятности pij. Они образуют матрицу Р = \\pij\\ со свойствами: j Второе свойство есть следствие того, что из состояния Е{ система с вероятностью 1 попадает в одно из состояний Е\, Е^, • ♦ • • Матрицы с указанными двумя свойствами называются стохастическими. Матрица Р полностью описывает изменение состояния системы за один шаг. Рассмотрим теперь изменение состояния системы за к шагов. Введем обозначение Pij(k) = P(Xk = J\Xq — г). При А: > 1 по формуле полной вероятности получаем Pij(h) = Yl P(Xk-l = s\x0 = i>)Psj = Y2Pis(k " l)P'r s s Суммирование здесь ведется по всем состояниям. Если обозначить Р(к) = ||j?i;(A;)|| матрицу, образованную вероятностями pij(k), то написанное выше равенство будет означать, что Р(к) = Р(к — \)Р или, что то же, Р(к) = Рк. Таким образом, матрица Р однозначно определяет переходные вероятности за любое число шагов. (Здесь следует добавить, что для однородной цепи P(JTn+fc = j\Xn = i) = P(Xk= j\X0 = i) = Pij(k).) Из сказанного видно, что «распределение» цепи будет полностью определяться заданием матрицы Р и начального распределения р® = Р(Хо = к). Предоставляем читателю в качестве упражнения проверить, что для любых к^ I и множеств В\,..., Вп-к Р(Хп = j\Xn-k = г; Xn_fc_! G Bh..., Х0 G Bn_fc) = р^(к). Для доказательства этого соотношения можно сначала проверить его при А: = 1, а затем воспользоваться индукцией. Последовательность независимых целочисленных одинаково распределенных случайных величин Хп очевидно образует цепь Маркова, для которой р^ — pj = Р(Хп = j). Здесь Р(к) = Рк =Р. Классификация состояний1'. Определение 3. К1. Состояние Е{ называется несущественным, если существует такое состояние Ej и целое число to > 0, что Pij(to) > 0, Pji(t) = 0 для любого целого t. В противном случае Е{ называется существенным состоянием. К2. Существенные состояния Е{ и Ej называются сообщающимися, если существуют такие целые числа t > 0 и s > 0, что Pij(t) > 0 и Pji(s) > 0. Здесь и в §2 будем следовать в основном работе А. //. Колмогорова [12].
248 Глава 12. Цепи Маркова Пример 3. Пусть система может находиться в одном из четырех состояний {^1,^2)^3)^4} с матрицей переходных вероятностей 0 /2 0 0 1/2 1/2 0 0 0 1/2 0 1/2 0 \ 1/2 1/2 1/2/ Рис. 9. (на рис. 9 состояния обозначены точками, переходы из состояний в состояния — стрелками, числа на стрелках означают соответствующие вероятности). В этой цепи состояния Е\ и Е^ несущественны, а Е-$ и Е$ являются существенными сообщающимися состояниями. В примере 1, описывающем блуждание с поглоще- Е, нием, состояния 1,2,...,о—1 будут несущественными. Состояния 0 и а существенны, но не сообщающиеся 11/2 (их естественно называть поглощающими). В блуждании с отражением все состояния существенны и сообщающиеся. Пусть {Хп}™=0 — однородная цепь Маркова. Выделим класс S всех несущественных состояний. Пусть теперь Е{ — какое-нибудь существенное состояние. Обозначим SEi класс состояний, включающий в себя 2% и все состояния, с ним сообщающиеся. Если Ej € Se{, то Ej существенно, сообщается с Е{ и Ej Е S#,. Следовательно, S#t. = Sej • Таким образом, все множество существенных состояний разбивается на непересекающиеся классы сообщающихся состояний, которые будем обозначать S*,5 ,... . Определение 4. Если класс S#. состоит из одного состояния Е{, то это состояние называется поглощающим. Ясно, что если система попала в существенное состояние Е{, то она уже никогда не выйдет из класса S#.. Определение 5. Цепи Маркова, состоящие из одного класса существенных сообщающихся состояний, называется неразложимыми (неприводимыми). Если цепь содержит более одного класса, то она называется разложимой (приводимой). Если состояния перенумеровать так, чтобы сначала шли состояния из S , затем из 51 и т.д., то матрица переходных вероятностей будет иметь вид (см. рис. 10). Здесь подматрицы, заштрихованные в клеточку, являются стохастическими. Каждая 5l S2 Рис. 10.
§2. Условия возвратности. Однотипность состояний 249 из них соответствует некоторой неразложимой цепи. Подматрицы, отмеченные нулями, содержат одни нули. Одним из основных объектов изучения здесь являются неразложимые цепи Маркова. Ими и займемся. Введем следующие обозначения: fj(n) = p(xn=j,xn_l*j,...,xl*j\x0 = j)i 00 *> = £/»; fj(n) есть вероятность того, что система, выйдя из j-ro состояния, впервые вернется в него через п шагов. Вероятность того, что система, выйдя из j-ro состояния, вновь когда-нибудь вернется в него, равна Fj. Определение 6. КЗ. Состояние Ej называется возвратным, если Fj = 1, и невозвратным, если Fj < 1. К4. Состояние Ej называется нулевым, если Pjj(n) —> 0 при п —> со, и ненулевым в противном случае. К5. Состояние Ej называется периодическим с периодом dj, если возвращение с положительной вероятностью в Ej возможно только за число шагов, кратное dj > 1, и dj есть наибольшее число, обладающее этим свойством. Другими словами, dj есть наибольший общий делитель (н.о.д.) множества чисел {п : fj(n) > 0}. Заметим, что из этого множества всегда можно выбрать конечное подмножество {тц,... ,п^} такое, что dj есть наибольший общий делитель этих чисел. Ясно также, что Pjj(n) = fj(n) = О, если п ^ 0 (mod dj). Пример 4. Рассмотрим блуждание частицы по целым точкам на вещественной прямой, задаваемое следующим образом: частица либо с вероятностью 1/2 сдвигается на единицу вправо, либо с той же вероятностью остается на месте. Здесь fj(l) = 1/2, а для п > 1 fj(n) = 0 для любой точки j. Поэтому Fj < 1, и все состояния невозвратны. Легко видеть, что Pjj(n) = l/2n —► 0, поэтому все состояния нулевые. Если же точка с вероятностью 1/2 смещается вправо и с той же вероятностью влево, то мы получим цепь с периодом 2, так как вернуться в любое фиксированное состояние можно лишь за четное число шагов.* § 2. Необходимые и достаточные условия возвратности состояний. Теорема об однотипности состояний неразложимой цепи, структура цепи в периодическом случае Напомним, что производящей функцией последовательности {ап}^°_0 называется функция 00 где z — комплексное число. Если последовательность {ап} ограничена, то этот ряд сходится при \z\ < 1.
250 Глава 12. Цепи Маркова Теорема 1. Состояние Ej возвратно тогда и только тогда, когда Pj = 00 ]С Pjj(n) — °°. ДЛЯ невозвратного Ej Утверждение этой теоремы есть своего рода распространение леммы Бореля— Кантелли на случай зависимых событий Ап — {Хп = j}. События Ап происходят 00 с вероятностью 1 бесконечное число раз тогда и только тогда, когда ]Г} Р(^п) = Pj = СО. Доказательство. По формуле полной вероятности имеем Pjj(n) = fj(\)Vjj(n ~ О + fj(2)Pjj(n - 2) + ... + fj(n - \)pjj(l) + fj(n) • 1. Введем производящие функции последовательностей {pjj(n)} и {/,(n)} : 00 00 рм = £p«(n)z"> ад = Е/»*"• п=\ п=\ Оба ряда сходятся внутри единичного круга и являются там аналитическими функциями. Выписанная выше формула для Pjj(n) после умножения обеих частей на zn и суммирования по п приводит к равенству pj(z) = z/,-(i)o+Pjiz))+z2/;(2)(i + Pj(z)) +... = (i+ад>ад. Таким образом, F>{Z}- l+Pjiz)' Pj{z)~ l-Fj(z)' Пусть Pj = oo. Тогда Pj(z) —> со при z| 1 и, стало быть, Fj(z) —> 1. Из того, что F,(z) < Fj для вещественных z < 1, получаем, что Fj = \. Пусть теперь Fj — 1. Тогда ^-(z) —> 1 при z | 1, а поэтому Pj(z) —► со. Значит, р^- = со. Если Pj < со, то при z = 1 получаем равенство (2). ■ 00 Число Pj = ^2 Pjj(n) можно интерпретировать как среднее число попаданий п=\ в состояние Ej, если начальным состоянием тоже было Ej. Это следует из того, 00 что число возвращений в Ej можно представить в виде ]Г} I(Xn = j) (здесь, как п=\ и прежде, 7(^4) — индикатор события А). Поэтому математическое ожидание числа возвращений равно 00 00 00 Е Е ПХп - j) = J2 Е1(Х" = 3) = Z)P»W = Pj- n=l n=l n=l Из теоремы 1 вытекает Следствие 1. Невозвратное состояние всегда является нулевым. Это очевидно, поскольку из сходимости ряда YlVjji71) < °° следует Pjj(n) —> 0. Таким образом, на основании определений КЗ-К5 мы могли бы выделить в неразложимой цепи 8 возможных типов состояний (каждый из трех признаков
§ 2. Условия возвратности. Однотипность состояний 251 может быть или не быть). Но на самом деле их оказывается меньше, так как невозвратные состояния автоматически являются нулевыми, а ненулевые — возвратными. Поэтому возможны лишь 6 типов состояний, которые порождаются. 1) Классификацией по асимптотическим свойством вероятностей Pjj(n) (невозвратные состояния, возвратные нулевые, ненулевые). 2) Классификацией по арифметическим свойствам вероятностей рц{п) или fj(n) (периодичность и непериодичность). Теорема 2 (теорема солидарности). В неразложимой цепи Маркова все состояния принадлежат одному типу: если хоть одно возвратно, то и все возвратны; если хоть одно нулевое, то и все нулевые; если хоть одно периодично с периодом d, то и все периодичны с периодом d. Доказательство. Пусть Ек и Ej — два различных состояния. Существуют числа N и М такие, что pkj(N) > О, pjk(M) > 0. Из формулы полной вероятности pkk(N + M + n) = Y^,Pki(N)pUn)Psk(M) следует неравенство pkk(N + M + n)^ pkj(N)Pjj(n)Pjk(M) = appjjin). Здесь п > 0 — произвольное целое число, а = pkj(N) > 0, /3 = pjk(M) > 0. Точно так же можно получить неравенство Pjj(N + M + n)^ apPkk(n). Следовательно, —pkk(n + М + N) ^ Pjj(n) ^ a/3pkk(n -M-N). (3) Из этих неравенств видно, что асимптотические свойства у pkk(n) и Pjj(n) одинаковы. Если Ек — нулевое, т.е. ркк(п) —► 0, то и Pjj(n) —► 0. Если Ек — 00 возвратное или, что то же, Рк = ]Г} ркк(п) = со, то 00 ]С PjAn)^aP ^2 Ркк(п-М-N) = oo n=M+JV+l n=M+N+\ и, значит, Ej — тоже возвратное. Предположим теперь, что Ек — периодическое состояние с периодом dk. Если ркк(п) > 0, то dk делит п. Обозначать этот факт будем символом dk/n. Так как ркк(М + N)^a(3>0, то к Покажем, что состояние Ej тоже периодическое, и период его dj равен dk. Действительно, если Pjj(n) > 0 для некоторого п, то в силу (3) ркк(п + М + N) > 0. Следовательно, dk/(n + М + N), а из того, что dk/(M + N), мы получаем dk/n и, следовательно, dk ^ dj. Теперь аналогичным способом можно доказать, что dj ^ dk. Таким образом, dj = dk. m
252 Глава 12. Цепи Маркова Если состояния неразложимой цепи Маркова — периодические с периодом d > 1, то цепь называется периодической. Покажем теперь, что изучение периодических цепей в значительной мере может быть сведено к изучению непериодических. Для этого нам понадобится Теорема 3. Если цепь Маркова — периодическая с периодом d, то множество состояний разбивается на d подклассов Фо, \&i,..., Фд_1 таких, что с вероятностью 1 за один шаг система из класса Ф& переходит в класс Ф^+ь из класса Ф^_1 система переходит в Фо- Доказательство. Выберем какое-нибудь состояние, например, Е\. С помощью этого состояния построим подклассы Фо, Фь..., Ф<*_1 следующим образом: Е{ € Ф0, О ^ а ^ d — 1, если существует целое число к > О такое, что pu(kd + а) > 0. Покажем, что никакое состояние не может принадлежать сразу двум подклассам. Для этого достаточно доказать следующее утверждение: если Е{ Е Фа и для некоторого s pu(s) > 0, то s = a(modd). Действительно, существует число t\ > 0, для которого Pi\(t\) > 0. Тогда в силу определения Фа имеем p\\(kd + а + t\) > 0. Кроме того, P\\(s + t\) > 0. Следовательно, d/(kd + a + t\) и d/(s + t\). Это влечет за собой а = s(modd). Так как из состояния Е\ можно с положительной вероятностью попасть в любое состояние Е{, то (J Фа содержит все множество состояний. а Докажем теперь, что система из Фа за 1 шаг с вероятностью 1 переходит в Фа+1 (а + 1 понимается по modd). Для этого надо показать, что для Е{ € Фа Е п = 1. Для этого в свою очередь достаточно показать, что pij = 0, если Е{ Е Фа, Ej £ Фа+ь Если допустить противное, то, учитывая неравенство рц(кй + а) > 0, получим p\j(kd+a+\) > 0, и, следовательно, Ej G Фа+1- Полученное противоречие заканчивает доказательство теоремы. ■ Ч?0 ч7! hVj И3 доказанной теоремы видно, что матрица периодической цепи будет иметь вид (рис. 11), где отличны от нуля лишь элементы заштрихованных клеток. Из периодической цепи Маркова с периодом d можно образовать d новых цепей Маркова. Состояниями а-й цепи будут состояния из подкласса Фа. Вероятности перехода задаются равенствами Pij =Pij(d)' В силу только что доказанной теоремы ^2 p"j = 1. Новая цепь, к которой в известном смысле сводится изучение исходной, уже не будет иметь подклассов. § 3. Теоремы о случайных блужданиях по решетке 1. Случайное блуждание по целым точкам на прямой. Представим себе частицу, которая движется по целым точкам на прямой. Перемещение из одной точки в другую происходит через равные промежутки времени. За один шаг частица из точки А:
§3. Случайные блуждания по решетке 253 с положительной вероятностью р перемещается в точку HI и с положительной вероятностью q = 1 -р перемещается в точку к—\. Как уже отмечалось, описанной физической системе соответствует цепь Маркова Хп = Хп_\ + £п = Xq + 5П, п где fn принимает значения 1 и -1 с вероятностями р и q, Sn = ]Г} f*. Состояниями *=1 здесь служат целые точки на прямой. Легко видеть, что вернуться в какую-либо точку с положительной вероятностью можно только за четное число шагов. При этом /о(2) = 2pq > 0. Поэтому это периодическая цепь с периодом 2. Исследуем теперь, когда случайное блуждание образует возвратную цепь. Имеет место следующая Теорема 4. Описанное случайное блуждание образует возвратную цепь Маркова тогда и только тогда, когда р — q = 1/2. Доказательство. Так как 0 < р < 1, то блуждание представляет собой неразложимую цепь Маркова. Поэтому в силу теоремы 2 достаточно изучить тип одной точки, например, нуля. Воспользуемся теоремой 1. Для этого надо исследовать сходимость ряда 00 X) Роо(п)- Так как цепь — периодическая с периодом 2, то poo(2k + 1) = 0. Остается 00 подсчитать ]Сроо(2&). Сумма 5„ есть координата блуждающей частицы (Xq — 0) после п шагов. Поэтому роо(2к) = P(^2fc = 0)- Чтобы S2* = 0, необходимо, чтобы к суммируемых случайных величин равнялись 1, а оставшиеся А: случайных величин равнялись -1 (А: шагов вправо и А: шагов влево). Поэтому по теореме 2 гл. 5 P(52^0)~-Le-2^1/2) = -L(4^- Virk Virk Выясним поведение функции <р(р) — 4pq = 4р(\ — р) на отрезке [0,1]. В точке р = 1/2 функция (р(р) достигает единственного экстремума, а <р(1/2) = 1. Во всех остальных точках отрезка [0,1] (р(р) < 1. Значит, 4pq < 1 для р Ф 1/2, а это влечет 00 за собой сходимость ряда ^2 Роо(2к) и невозвратность цепи. Если же р = 1/2, то 00 роо(2к) ~ \/y/irk, и ряд ^2 роо(2к) расходится, что, в свою очередь, влечет за собой возвратность всех состояний цепи. ■ Доказанная теорема позволяет сделать также следующее замечание. Если 00 р Ф 1/2, то среднее число возвращений в 0 конечно, ибо оно равно ^2 Роо(2к). Это *=1 означает, что, начиная с некоторого шага, частица уже никогда больше не вернется в 0. Частицу «снесет» вправо или влево от нуля в зависимости от того, р > 1/2 или р < 1/2. Это легко получить и из усиленного закона больших чисел. Если р = 1/2, то среднее число возвращений в 0 бесконечно; частицу не «сносит». Интересно отметить, что при этом среднее число возвращений растет не пропорционально числу шагов. Действительно, среднее число возвращений за
254 Глава 12. Цепи Маркова первые 2га шагов есть ^2роо(2к). Из доказательства теоремы 4 нам известно, что к=\ Роо(2к) ~ l/y/nk. Поэтому к=\ к=\ Таким образом, в безобидной игре, рассмотренной нами в примере 7 гл. 4, доля «ничьих» результатов с увеличением числа шагов быстро падает, а отклонения по величине и по длительности возрастают. 2. Симметричные случайные блуждания в lfc, fc) 2. Будем рассматривать следующую модель случайного блуждания в А:-мерном евклидовом пространстве К*. Если частица находится в точке (mi,... ,т&), то она может переместиться с вероятностью 1/2* в любую из 2к вершин куба \xj — rrij\ = 1, т. е. в точки с координатами (mi ± 1,...,га* ± 1). Такое блуждание естественно называть симметричным. Если обозначить Хп положение частицы после п-го скачка, то мы, как и прежде, получим последовательность А:-мерных случайных величин, связанных в однородную неразложимую цепь Маркова. Покажем, что все состояния этой цепи для блуждания на плоскости, как и в одномерном случае, возвратны. В трехмерном пространстве состояния окажутся уже невозвратными. Будет доказана, таким образом, Теорема 5. Симметричное случайное блуждание возвратно в пространствах одного и двух измерений и невозвратно в пространстве трех и более измерений. По этому поводу В. Феллер весьма удачно заметил, что пословица «все дороги ведут в Рим» верна только для двумерной поверхности. Сформулированное нами утверждение примыкает к известной теореме Пойа о невозвратности при к ^ 2 симметричных блужданий в Шк, когда частица за один шаг перемещается на ±1 по одной из осей координат (^ принимают 2к значений с вероятностями \/2к). Обратимся к доказательству теоремы 5. Пусть к = 2. Нетрудно видеть, что наше блуждание Хп можно представить в виде суммы двух независимых компонент ХП = (Х,1,0) + (0,ХП2), (х1х1) = Хь где Х„, г = 1,2 — уже скалярные (одномерные) последовательности, описывающие симметричные независимые случайные блуждания на прямых. Это ясно, так как двумерная последовательность допускает представление Хп+1=Хп+£п, (4) где £п принимает 4 значения (±1,0) + (0, ±1) = (±1,±1) с вероятностью 1/4 каждое. С помощью представления (4) мы можем исследовать асимптотическое поведение переходных вероятностей Pij(n). Пусть состояние Xq совпадает с началом координат (0,0). Тогда Роо(2п) = Р (Х2п = (0,0)|Х0 = (0,0)) = 2 = P(xl = o\xt>=o)p(xl = o\x% = o) ~ (-±Л = -L. \у/ТГП/ 7ГП 00 Отсюда следует, что ряд ]Г} Роо(п) расходится, и все состояния нашей цепи возвратны.
§ 3. Случайные блуждания по решетке 255 В случае к = 3 следует поступить аналогичным образом, представив последовательность Хп в виде суммы трех независимых компонент Хп = (Х',0,0) + (0,ХП2,0) + (0,0,ХП3), где Хп, как и прежде, — симметричные случайные блуждания на прямой. Если положить Xq = (0,0,0), то получим роо(2п) = {Р(х\п = 0\ХЬ = О))3 ~ ^ЗД. 00 Здесь ряд ^2 Роо(п) будет уже сходящимся, а состояния цепи невозвратными. В отличие от случая прямой и плоскости здесь частица, выйдя из начала координат, может с положительной вероятностью никогда туда не вернуться. Ясно, что эта картина сохранится и для блуждания в любом fc-мерном 00 пространстве при к ^ 3, так как Х^С71"11)" < °° ПРИ & ^ 3. ■ п=1 3. Произвольное симметричное случайное блуждание на прямой. Пусть, как и прежде, п xn = x0 + J2tj> (5) но £, здесь уже произвольные независимые одинаково распределенные целочисленные случайные величины. Теорема 4 может быть обобщена следующим образом: Теорема 6. Если £j симметричны, существует Е£у (Efy = 0), то случайное блуждание Хп образует возвратную цепь Маркова с нулевыми состояниями. Доказательство. Достаточно убедиться, что £)P(Sn=0) = oo, п где Sn = X^fj, и что Р(5„ = 0) -> 0 при п —► со. Обозначим p(z) = Ez*1 = X)z*P(fl = &). Тогда производящая функция 5„ будет равна Ez5" = pn(z), и по -оо формуле обращения (см. § 7.8) P(5n=°) = i / PnWz~ldz> (6) v^P/ _ _ 1 [ dz _l [ dt ^ {Бп~0)~ЪЙ J z(l-p(z)) ~ж J \-р(е«)' п~° \z\=\ О Последнее равенство справедливо в силу четности вещественной функции p(z) и получено путем замены z = elt. Так как Ef i = 0, то 1 - p(elt) = o(t) при t —> 0, и при достаточно малом <5 и 0^£ < 6 0^1- р(е") < *.
256 Глава 12. Цепи Маркова Отсюда следует 7Г 6 Г dt Г dt _ J \-p(e«) ^ J 7" О Сходимость P(Sn = 0) —> 0 следует из (6), так как для всех z на окружности \z\ = 1, за исключением, быть может, конечного числа точек, p(z) < 1, pn(z) —> 0 при п —> со. ■ Теорему 6 можно дополнить следующим образом. Теорема 7. £слм //. о. д. возможных значений £j равен 1, то множество значений {Хп} образует один класс существенных сообщающихся состояний, совпадающий с множеством всех целых чисел. Утверждение теоремы вытекает из следующей леммы: Лемма 1. Если н. о. д. целых чисел а\ > 0,..., аг > 0 равен 1, то существует N такое, что любое натуральное число k ^ N можно представить в виде к = х\а\ + ... + жгаг, где ж, ^ 0 — целые числа. Доказательство. Рассмотрим функцию L(x) = х\а\ + ... +жгаг, где х = (х\,...,хг) есть вектор с целыми координатами. Пусть d > 0 — минимальное натуральное число, для которого существует такой вектор х , что d = L(x°). Покажем, что любое натуральное число, представимое в виде L(x), делится на d. Пусть это не так. Тогда существуют х, к и 0 < а < d, для которых L(x) = kd + a. Но, так как функция L(x) линейна, то L(x — кх ) = kd + а — kd = а < d, что противоречит минимальности d в множестве положительных целых значений L{x). Все числа а\,..., аг также являются значениями функции L(x), и поэтому все делятся на d. Так как, по предположению, наибольший делитель этих чисел равен единице, то d = 1. Пусть к — любое натуральное число. Тогда, обозначив через в < А остаток от деления А: на А = а\ + ... + аг, мы можем записать А; = t(ax + ... аг) + в = t(ax + ... + аг) + 0L(x°) = = a\(t + 0х\) + a2(t + 6x2) + . •. + ar(t + вх% где t + Ох® >0, г = 1,... ,г, при достаточно больших к. ш Следствие 2. Если выполнены условия теорем 6, 7, то цепь (5) при любом начальном состоянии Хо с вероятностью 1 побывает бесконечное число раз в любом состоянии к. В частности, случайная величина v = min{n : Xn = к} для любых Xq и к будет собственной. Если интересоваться периодичностью цепи (5), то нужны более полные сведения о множестве возможных значений £j. Мы предоставляем читателю
§4. Эргодические теоремы 257 убедиться, например, в том, что если множество возможных значений ^ имеет вид {а + a,kd}, к — 1,2,... , d ^ 1, н. о. д. (ai,a2,...) = 1, н.о. д. (a, d) = 1, то цепь будет периодической с периодом d. § 4. Эргодические теоремы Нам понадобятся следующие условия: (I) Существует состояние Es такое, что время t^s' возвращения в Es (P(r^ — п) — Л(п)) имеет конечное математическое ожидание Ет^5' < со. (II) Цепь неразложима. (III) Цепь непериодична. Введем в рассмотрение так называемые «табу-вероятности» Pi(n,j) перехода из Е{ в Ej за п шагов, минуя возвращение в «запретное» состояние Е{ : Pi(n,i) = p(xn=i;JT17fe *,...,JTn_19fe^-=t). Теорема 8 (эргодическая). Условия (I)—(III) необходимы и достаточны для того, чтобы при любых г и j существовали не зависящие от г положительные пределы lim pijin) = iTj > О, г, j = О,1,2,... . (7) П-КХ) Числа {к{} являются единственным в классе последовательностей, образующих абсолютно сходящиеся ряды, решением системы уравнений 00 £ ъ = 1, П=0 ос (8) *j = £ KkVkj, j = 0,1,2,... . п=0 Кроме того, Ет^' < оо при всех j и числа ttj = (Ет^7')-1 допускают представление 00 Т. = (Er0))-i = (ErW)-i J^PsiK j) (9) при любом s. Цепь, обладающая свойством (7), называется эргодической. Числа 7Tj есть, по существу, вероятности попадания системы в состояние Ej через большой интервал времени. При этом оказывается, что эти вероятности не зависят от начального состояния системы. Система «забывает», откуда началось движение. Распределение {ttj} называют стационарным или инвариантным. Свойство (8) выражает инвариантность распределения относительно переходных вероятностей pij. Другими словами, если Р(Хп = к) — 7^., то P(Xn+i = А:) = ^2^jPjk также равны 7г&. Доказательство. Достаточность. Рассмотрим «траекторию» цепи Маркова, начинающуюся в фиксированном состоянии Es, и рассмотрим интервалы времени г1 ^ 1>г2 ^ li--- , через которые система возвращается в Es. Так как каждый раз эволюция системы начинается из одного и того же фиксированного состояния, то длительности циклов т*, образованных попаданиями системы в Es, будут в силу
260 Глава 12. Цепи Маркова (см. теорему 3). Если же t — kd, то из только что доказанной теоремы и из теоремы 3 следует, что существует предел lim pij(kd) — ttj > 0 и не зависит от г. fc—>oo Проверка условий (II), (III) теоремы 8 обычно не представляет собой сколько- нибудь существенных трудностей: основные трудности бывают связаны с проверкой условия (I). Для конечных цепей Маркова это условие выполнено всегда. Теорема 9. Пусть цепь Маркова имеет конечное число состояний и удовлетворяет условиям (II), (III). Тогда существуют постоянные с > О и q < 1 такие, что для времени возвращения г в любое фиксированное состояние справедливы неравенства Р(т > п) < cqn. (12) Эти неравенства означают, очевидно, что условие (I) для конечных цепей всегда выполнено и, следовательно, эргодическая теорема для них верна тогда и только тогда, когда выполнены условия (II), (III). Доказательство. Рассмотрим некоторое состояние Eq и обозначим г» = Р(Х^0, *= 1,2,...,п|Х0= J)- Тогда, если цепь имеет га состояний, то г,(га) < 1 при любом j. Действительно, Tj(n) не возрастает с ростом п. Пусть N есть наименьшее число, для которого Tj(N) < 1. Это означает, что существует цепочка состояний Ej^Ej^... ,EjN такая, что EjN = Eq, и вероятность этой цепочки pjjl "'PjN_xjN положительна. Но легко видеть, что N ^ га, так как в противном случае указанная цепочка содержала бы по крайней мере два одинаковых состояния, а следовательно, и цикл, заключенный между этими состояниями, который можно было бы из цепочки выбросить, лишь увеличив ее вероятность. Таким образом, г, (га) < 1, г (га) = max г, (га) < 1. з Кроме того, Tj(n\ + щ) ^ Г](щ)г(щ) ^ г{п\)г{п2). Остается заметить, что если г есть время возвращения в Eq, то Р(т > пга) = ro(nra) ^ г(т)п. Отсюда следует утверждение теоремы. ■ Замечание 1. Выполнение условия (12) влечет за собой экспоненциальную скорость сходимости к нулю разностей \pij(n) — ttj\. В этом можно убедиться, 00 используя аналитичность функции Fq(z) = ]Г} foi71)*" B области \z\ < q~l, q~l > 1 n=l и равенство Ы*) = J2P00(n)zn = уз^) - ! (13) (см. теорему 1; мы считаем, что г в условии (12) относится к состоянию Eq, так что /о(п) = Р(т = п)). Так как ^(1) = Ет = 1/тг0, то F0(z) = 1 + (z - 1)/тг0 + ... , и из полученного равенства будет следовать аналитичность в области \z\ ^ 1 + е, е > О 00 функции Pq{z) — (z7To)/(l — z) — ^2(pQQ(n) — 7ro)zn, которая, очевидно, и будет означать, что \Роо(п) ~ ^ol < Ф + £)~П> с = const. Приведем теперь два примера конечных цепей Маркова.
§ 4. Эргодические теоремы 259 Действительно, состояние Е{, как и ESi возвратно. Рассмотрим циклы, образованные возвращением системы в состояние Е{, и обозначим Ak событие, состоящее в том, что в течение к-го цикла система хоть раз попадает в Es. Тогда в силу марковости события Ak независимы и Р(Ак) = р > 0. Следовательно, по критерию Бореля—Кантелли (см. §10.1) с вероятностью 1 произойдет бесконечно много событий Ak, и тем более P({jAk) = 1. По формуле полной вероятности находим п Piji71) = J2 fis(k)Psj(n ~ fy. к=\ Использование теоремы мажорируемой сходимости дает оо lim pij(n) = S2 fisifyiTj = -кj. к=\ Так как состояние Ej, так же как и Es, является непериодическим и ненулевым, то Kj = lim Pjj(n) > 0. п—*оо Представление (9) следует из (11). Докажем теперь необходимость. Необходимость условий (II), (III) очевидна, так как Pij(n) > 0 для каждых г и j при всех достаточно больших п. Необходимость условия (I) следует из справедливости для Es равенств (10). Осталось доказать вторую часть теоремы. Так как J2pSj(n) = 1, j 00 то X^7Tj^ 1. Поэтому в последнем равенстве и в равенстве psj(n+ 1) = ]Г} Psk(n)pkj fc=0 в силу неравенств psj(n) ^ itjEt\ можно воспользоваться теоремой о мажорируемой сходимости, откуда следует, что 00 к=0 Остается показать, что полученная система имеет единственное решение. Пусть числа {qj} также удовлетворяют (8) и ряд 5ZI^-| сходится. Тогда, меняя порядок суммирования, получим Ф = ]С &№ = 5^P*i ( ^PiMi) = Yl * X) ?1к?кз = J2 Я1Р1А2) = к к I Ik I I s s к для любого п. Так как ^tffc — 1, то, переходя к пределу при п —> оо, получим qj = ^2qkKj =itj- к ш Если цепь Маркова — периодическая с периодом d, то Pij(t) = '0, если t Ф к& для любой пары состояний #г и Ej, принадлежащих одному подклассу
260 Глава 12. Цепи Маркова (см. теорему 3). Если же t = kd, то из только что доказанной теоремы и из теоремы 3 следует, что существует предел lim pij(kd) — тг3 > 0 и не зависит от г. fc—>oo Проверка условий (II), (III) теоремы 8 обычно не представляет собой сколько- нибудь существенных трудностей: основные трудности бывают связаны с проверкой условия (I). Для конечных цепей Маркова это условие выполнено всегда. Теорема 9. Пусть цепь Маркова имеет конечное число состояний и удовлетворяет условиям (II), (III). Тогда существуют постоянные с > О и q < 1 такие, что для времени возвращения г в любое фиксированное состояние справедливы неравенства Р(т > п) < cqn. (12) Эти неравенства означают, очевидно, что условие (I) для конечных цепей всегда выполнено и, следовательно, эргодическая теорема для них верна тогда и только тогда, когда выполнены условия (II), (III). Доказательство. Рассмотрим некоторое состояние Eq и обозначим ri(n) = P(XJb#0, k= 1,2,...,п|Х0=Я- Тогда, если цепь имеет т состояний, то гДга) < 1 при любом j. Действительно, Tj(n) не возрастает с ростом п. Пусть N есть наименьшее число, для которого rj(N) < 1. Это означает, что существует цепочка состояний Ej^Ej^... ,EjN такая, что EjN = Eq, и вероятность этой цепочки pjj{ •••PjN_ljN положительна. Но легко видеть, что N ^ га, так как в противном случае указанная цепочка содержала бы по крайней мере два одинаковых состояния, а следовательно, и цикл, заключенный между этими состояниями, который можно было бы из цепочки выбросить, лишь увеличив ее вероятность. Таким образом, гДга) < 1, г (га) = max г, (га) < 1. j Кроме того, Tj{n\ + щ) ^ ^(^1)^(^2) ^ г(п\)г(п2). Остается заметить, что если г есть время возвращения в Eq, то Р(т > пт) = ro(nra) ^ г(т)п. Отсюда следует утверждение теоремы. ■ Замечание 1. Выполнение условия (12) влечет за собой экспоненциальную скорость сходимости к нулю разностей \pij(n) — ttj\. В этом можно убедиться, 00 используя аналитичность функции F§{z) = ^2 fo{n)zn в области \z\ < q~l, q~l > 1 п=\ и равенство ад = T,Poo(n)zn = yzt^j - 1 (13) (см. теорему 1; мы считаем, что г в условии (12) относится к состоянию Е$, так что /о(п) = Р(т = п)). Так как Fq(1) = Ет = 1/тг0, то F0(z) = 1 + (z - 1)/тг0 + ... , и из полученного равенства будет следовать аналитичность в области \z\ ^ 1 +£, е > О 00 функции Pq(z) - (ztto)/(\ - z) = Y^(POo(n) - no)zn, которая, очевидно, и будет п=\ означать, что \Роо(п) " ^ol < с0 + £)~п, с = const. Приведем теперь два примера конечных цепей Маркова.
§4. Эргодические теоремы 261 Пример 5. Допустим, что поведение двух шахматистов А и В в турнирной ифе описывается следующим образом. Шахматист А каждую партию независимо от исходов предыдущих партий выифывает с вероятностью р, проифывает с вероятностью q и делает ничью с вероятностью г = 1 - р — q. Шахматист В менее уравновешен, он выифывает партию с вероятностями р + е, р и р — е соответственно, если предыдущая партия была им выифана, сыфана вничью, проифана. Аналогично ведет себя вероятность проифыша: она равна в этих трех случаях соответственно q — e, q, q + e. Кто из ифоков А и В в длительном турнире наберет больше очков? Чтобы ответить на этот вопрос, надо вычислить для каждого из шахматистов стационарные вероятности ж\, 7Г2, я"з попадания в состояния Е\, Е^, #з> которые мы отождествим соответственно с выифышем, ничьей, проифышем (ср. с законом больших чисел в конце парафафа). Для ифока А цепь Маркова с состояниями Е\, Е^, Е$, описывающая ход его игры, будет иметь мафицу переходных вероятностей Ра = Очевидно, что здесь ж\ = р, 7Г2 = г, 7г3 = q. Для ифока В мафица переходных вероятностей будет равна Рв = Уравнения для стационарных вероятностей в этом случае будут иметь вид п\(р + е) + тг2р + к3(р - е) = тгь 7Г\Г + 7Г2Т + ТГ^Т = 7Г2, 7TJ -|- 7Г2 Ч- ТГз = 1. Решая эту систему, находим p-q 7Г2 - Г = О, 7Г1 - р = € \-2е' Таким образом, доли ничьих при большом числе партий у ифоков А и В будут совпадать, доля выифышей у ифока В будет больше, чем у А, если е > 0, р > q или е < 0, р < q. Если р = д, то стационарные распределения для исходов партий у ифоков А и В одинаковы. Пример 6. Рассмофим сложение независимых целочисленных случайных величин £ь£2>-.. по некоторому модулю d > 1 (см. пример 2). Мы положим ([х] означает целую часть х) Хо = О, Х\ = ^ - [fi/d]d, Xi — Х\ + £2 — [(^1 + &)/<(]^ и т.д., так что Хп есть остаток от деления на d суммы Хп-\ + £п. Такое суммирование иногда называют суммированием на окружности (точки 0 и d склеены в одну). Не Офаничивая общности, можем считать, очевидно, что & принимают лишь значения 0,1,... ,d — 1. Если Р(£* = j) = qj, то
262 Глава 12. Цепи Маркова Допустим, что множество индексов к, для которых q^ > 0, имеет н.о.д., равный 1. Тогда ясно, что цепь {Хп} будет представлять собой один класс существенных состояний без подклассов и будут существовать lim pijin) = тг,, п—»oo удовлетворяющие системе уравнений Yl^iVij — ^i» Yl^j — *> .; = 0,... ,d — 1. Заметим теперь, что стохастическая матрица переходных вероятностей \\pij\\ в нашем случае обладает свойствами « j Такие матрицы называют дважды стохастическими. Для них стационарное распределение всегда является равномерным, так как ttj = \/d удовлетворяют системе уравнений для финальных вероятностей. Таким образом, сложение произвольных случайных величин на окружности приводит к равномерному предельному распределению. При этом скорость сходимости Pij(k) к стационарному распределению будет показательной. Нетрудно заметить, что при суммировании по модулю композиция двух равномерных распределений снова будет равномерной. В этом смысле равномерное распределение является устойчивым. Более того, композиция любого распределения с равномерным также будет равномерной. Действительно, если rj равномерно распределена и не зависит от £i, то (сложение и вычитание здесь происходит по модулю d, pj = Р(£{= j)) d-\ d-\ 1 1 P(*i + V = b) = $>;Pfo = b-j) = J2^d = d' j=0 j=0 Таким образом, если передается некоторый сигнал, принимающий d возможных значений (например, буквы), и на него накладывается «случайный» (равномерный) шум, то принимаемый сигнал также будет иметь равномерное распределение и, стало быть, не будет содержать никакой информации о передаваемом сигнале. Рассмотренный пример заслуживает внимания и как простейшая иллюстрация законов, которые возникают при «суммировании» случайных величин со значениями уже не на числовой оси, а в некоторой группе (множество чисел 0,1,... ,d — 1 с операцией сложения по модулю d образуют конечную абелеву группу). Оказывается, что явление, обнаруженное нами в примере, — равномерность предельного распределения — сохраняется и для значительно более широкого класса групп. Вернемся к произвольным счетным цепям. Мы уже отмечали, что основные трудности при проверке условий теоремы 8 бывают связаны с условием (I). Подробно этот вопрос будет рассмотрен в § 7 для более широкого класса цепей (см. теоремы 14, 15 и их следствия). В некоторых случаях это можно сделать без труда с помощью результатов глав 9, 11. Пример 7. В § 11.4 мы видели, что времена ожидания в системе обслуживания удовлетворяют соотношениям Xn+i = max(Xn +£n+i>°)> X\ = О,
§ 4. Эргодические теоремы 263 где £п независимы и одинаково распределены. Ясно, что Хп связаны в однородную цепь Маркова с множеством состояний {0,1,..,}, если £ь целочисленны. Последовательность Хп можно интерпретировать также как блуждание с задерживающим экраном в точке 0. Если Е& < 0, то из теорем гл. 9 нетрудно получить (подробнее см. в § 7),что время возвращения в состояние 0 имеет конечное математическое ожидание. Поэтому, применяя эргодическую теорему, мы можем независимо от §11.4 сделать заключение о существовании предельного (стационарного) распределения для Хп при п —> со (или, принимая во внимание сказанное в § 11.4, — заключение к о конечности supS^, Sk = ^2 fj;, что составляет содержание теоремы 10.4). Сделаем теперь ряд замечаний, позволяющих сформулировать еще один критерий эргодичности цепи, связанный с существованием решения уравнения (8). Заметим прежде всего, что теорема 2 (солидарности) может быть дополнена теперь следующим образом. Состояние Ej мы назовем эргодическим, если при любом i Pij(n) —> iTj > 0. Состояние Ej назовем положительно возвратным, если оно возвратно и ненулевое (в этом случае время т^' возвращение в Ej имеет конечное математическое ожидание Ет^' < со). Из теоремы 8 следует тогда, что для неразложимой непериодической цепи состояние Ej эргодично тогда и только тогда, когда оно положительно возвратно. Если хоть одно состояние цепи эргодично, то и все эргодичны. Теорема 8А. Пусть цепь неразложима и непериодична (удовлетворяет условиям (II), (Ш)). Тогда возможно лишь одно из двух: либо все состояния цепи являются нулевыми, либо эргодическими. Существование абсолютно сходящегося решения уравнений (8) необходимо и достаточно для эргодичности цепи. Доказательство. Первое утверждение теоремы следует из того, что в силу локальной теоремы восстановления для случайного блуждания, порожденного моментами попадания цепи в состояние Ej, предел lim h(n) — lim Pij(n) всегда существует и равен (Etv/) . Поэтому для доказательства достаточности во втором утверждении (необходимость следует из теоремы 8) надо в случае существования абсолютно сходящегося решения {ttj} исключить существование нулевых состояний. Предположим противное, что Pij(n) —> 0. Выберем j такое, что 7Гу > 0. Тогда при п —> со по теореме о мажорируемой сходимости. Это противоречие заканчивает доказательство теоремы. ■ В заключение этого параграфа мы приведем два утверждения о предельном при п —> со поведении числа rrij(n) попаданий (возвращений) системы в фиксированное состояние Ej за время п. Эти утверждения являются непосредственным следствием теорем 7 и 8 гл. 9, поскольку величины rrij(n) просто совпадают со значениями в точке п процесса восстановления rj(n), порожденного независимыми одинаково распределенными величинами Ti,T2,..., где т\ есть время возвращения системы в состояние Ej. Именно, справедлива Теорема 10. Если Ет\ — а < со, то при п —> со ^Ы. (14) п р а
264 Глава 12. Цепи Маркова Если цепь эргодична, то отсюда следует, что mj{n) Если Dt\ = сг < со, то rrij(n) - п/а <x\X0=j Ф(х), (15) \ \/па2/а3 где Ф(ж), как и прежде, есть функция нормального распределения с параметрами (О,1) Предлагаем читателю в виде упражнения установить, что если ?({J{Xn=j}\X0 = k) = l xn=l (16) то соотношение (14) (как и (15)) останется справедливым и в том случае, когда начальное значение Xq = j заменено на значение Xq = к. В доказательстве теоремы 6 отмечалось, что равенство (16) для возвратной неразложимой цепи всегда выполнено. Резюмируя содержание этого параграфа, можно заметить, что изучение последовательности зависимых испытаний, связанных в цепь Маркова с дискретным множеством состояний, во многом может быть осуществлено с помощью результатов для последовательностей независимых случайных величин. Изучение других видов зависимых испытаний требует, как правило, иных подходов. §5*. Поведение переходных вероятностей для разложимых цепей Рассмотрим теперь конечную цепь Маркова общего типа. Как было выяснено, множество ее состояний состоит из класса S несущественных состояний и нескольких классов S ,...,Sl существенных состояний. Для выяснения природы асимптотического поведения Pij(n) для таких цепей достаточно рассмотреть случай, когда существенные состояния образуют один класс без подклассов. Матрица вероятностей Pij(n) в этом рис 12. случае имеет вид, изображенный на рис. 12. В силу эрго- дической теоремы для элементов подматрицы L существуют положительные пределы ttj. Таким образом, осталось выяснить, как ведут себя элементы заштрихованной части матрицы. г0 Теорема 11. Пусть Е{ е 5и. Тогда Yimpijit) {0i 17Г,- > О, если если Ej е 5°, е5 es{. Доказательство. Пусть Ej E S . Обозначим Aj(t) maxpijtt). Etes° J Для любого существенного состояния Ег существует такое целое tr, что Pir(tr) > 0. Так как переходные вероятности в S с некоторых пор все положительны, то
§ 6. Цепи Маркова с положительным атомом 265 существует 5 такое, что pu(s) > 0 для Е{ Е 5 и для всех Е\ Е S . Поэтому для достаточно больших t имеют место следующие соотношения: Vijit) = ]С Vtk{s)pkj{t - s) ^ Aj(t ~s)^2 Pik(s), Ekes° Ekes° где h(i) = ^2 Pik(s) = 1 - 5^ Pik(s) < 1. Если h = max/i(i)y то из полученного неравенства следует Aj(t) ^hAj(t-s)^... ^ /i[</5'. Таким образом, lim Pij(t) ^ lim AAt) — 0. Пусть теперь #г- 6 5 , a Ej 6 5 . Имеют место равенства fri(* + *) = ][^Раь(*)Р*;(5) = X^ Vik{t)pkj{s) + ^ Vik{t)Vkj{s). k Ekes° Ekesl Устремив t и 5 к со, мы видим, что первая сумма в последнем выражении есть о(1). Во второй сумме Y2 МО = l + °(0; p*j(0 = ъ + *0)- Таким образом, Pij(t + S)= TTj J2 Pik(t) + 0(0 = *> + 0(1) при £,s —> oo. С помощью доказанной теоремы нетрудно убедиться, что существования lim Pij(t) = 7Tj^ О необходимо и достаточно для того, чтобы цепь состояла из двух £—►00 классов S и 5 и чтобы 5 не содержал подклассов. § 6. Цепи Маркова с произвольным множеством состояний. Эргодичность цепей, имеющих положительный атом Цепи Маркова X = {Хп}, которые рассматривались в предыдущих разделах, принимали значения в счетном множестве {1,2,...} или {0,1,...}; их называют счетными или дискретными. Мы рассмотрим теперь цепи Маркова со значениями в произвольном пространстве состояний X, на котором определена некоторая а-алгебра 03 подмножеств из X. Пара (#,03) образует фазовое измеримое пространство цепи {Хп}. Пусть далее (0,5, Р) — исходное вероятностное пространство. Измеримое отображение Y пространства (0,5) в (#,03) мы будем называть Х-значным случайным элементом. Если X = R, 03 есть а-алгебра борелевских множеств, то Y будет обычной случайной величиной. Отображение Y может быть и тождественным, тогда пространство (П, JJ) = (X, 03) называют также выборочным. Рассмотрим последовательность {Хп} А'-значных случайных элементов и обозначим З^ш, т^ к, сг-алгебру, порожденную элементами Х*,...,Хт (т.е. событиями {Хк е Вк},..., {Хт Е Вт}3 Вг, е 03, i = к,... ,га). Очевидно, что £„ = ffo.n образуют неубывающую последовательность So С 3j • • • С Jn • • • Условное математическое ожидание Е(£|5^т) мы иногда будем обозначать также E(f | Xkl... ,Xm).
266 Глава 12. Цепи Маркова Определение 7. Х-знанная цепь Маркова есть такая последовательность Л'-знач- ных случайных элементов Хп, что для любого В Е <В р(хп+1ев\$п) = р(хп+1ев\хп) п.н. (17) В дальнейшем слова «почти наверное» мы, как правило, будем опускать. Соотношение (17) в силу свойств у. м.о., очевидно, эквивалентно тому, что для любой измеримой функции / : X —> Е выполняется E(f(Xn+l)\5n) = E(/(Xn+1)l Xn). (18) Определение 7 эквивалентно следующему определению. Определение 8. Последовательность X = {Хп} образует цепь Маркова, если ДЛЯ ЛЮбыХ А Е Зп+1,00 Р(А\$п) = Р(А\Хп) (19) или, что то же, для любой З^+^оо-измеримой функции /(о;) Е(/Н|&,) = Е(/(ы)|Хп). (20) Доказательство эквивалентности. Нам надо доказать, что из (18) следует (19). Пусть сначала А = {Хп+\ Е £i,Xn+2 E £?2}- Тогда в силу (18) Р(А\$п) = E[J(JTn+1 Е В!)Р(Хп+2 Е S2ISn+l)lSn] = = E[I(Xn+i Е В!)Р(Хп+2 Е В2|Хп+1)|£п] = Е(А| Хп). Отсюда следует равенство (19) для любого А Е Лп+1^+2, где Л*>т — алгебра, порожденная множествами {Xk E Вк,...,Хт E £?т}. Ясно, что Ап+\,п+2 порождает $п+\,п+2- Пусть теперь А Е Зп+\,п+2- Тогда по теореме об аппроксимации найдутся Ак Е Лп+1|П+2 такие, что <2(А,А&) —> 0 (см. §3.4). Отсюда следует 1(Ак)-^1(А), и по свойствам у. м.о. (см. п. 4 §4.8) Р(Ак\Г)-?Р(А\Г), где £* С $ — некоторая а-алгебра. Положим РА = Рд(^) = Р(-А| Хп). Нам известно, ЧТО ДЛЯ Ак Е Лг+1,п+2 Е(РЛ1;В) = Р(^В) (21) для любого В Е Зп (это и означает, что РдДо;) = Р(Ак\$п))- Пользуясь снова свойствами у.м.о. (теорема о мажорируемой сходимости; п. 4 §4.8) и переходя к пределу в (21), получим Е(РА; В) = Р(АВ). Это доказывает (19) для А Е ^п-\-\,п+2- Повторяя 7тг раз приведенные выше рассуждения, мы докажем (19) для А Е SWi.m- Переход к А Е 3Wi,oo также происходит по схеме, изложенной выше.■ Отметим, что (19) без труда распространяется также на события А Е Зп,оо- Можно было бы все рассмотрения в доказательстве эквивалентности с самого начала проводить для А Е 3nj(X> (сначала для А Е .4п,п+2 и т.д.). Приведем еще одно эквивалентное определение марковости. Определение 9. Последовательность {Хп} образует цепь Маркова, если для любых А Е Зп з В Е £„,00 Р{АВ\ Хп) = Р(А\ Х„)Р(В| Хп). (22) Это есть свойство условной независимости будущего от прошлого при фиксированном настоящем (условная независимость #п и Зп,оо при фиксированной Хп).
§ 6. Цепи Маркова с положительным атомом 267 Доказательство эквивалентности. Пусть выполнено (20). Тогда для А Е Зп, " Е ип,оо P(AB\Xn) = E[E(IAIB\$n)\Xn] = E[lAE(IB\$n)\Xn] = = E[IAE(IB\ Хп)\ Хп] = Е(1В\ Хп)Е(1А\Хп). Обратно, пусть теперь выполнено (22). Тогда Р(АВ) = ЕР(АВ\ Хп) = ЕР(А\ Хп)Р(В\ Хп) = = ЕЕ[1АР(В\ Хп)\ Хп) = Е1АР(В\ Хп). (23) С другой стороны, Р(АВ) = Е1А1В = Е1АР(В\$п). (24) Так как (23), (24) верны для любых А Е Зп, то это означает, что Р(В\Хп) = Р(В\дп). Итак, пусть {Хп} есть А'-значная цепь Маркова. Тогда в силу свойств у. м.о. P(Xn+i Е В\ Хп) — Р(п)(Хп,В), где функция Р(п)(ж, В) при каждом В Е 03 измерима по х относительно а-алгебры 03. Везде в дальнейшем мы будем считать, что функции Р/п\(ж,Б) являются условными распределениями (см. определение 4.12), т.е. при каждом х Е X Р(п^(х,В) есть распределение вероятностей по В. Условные распределения Р/П\(ж,2?) всегда существуют, если о"-алгебра 03 является счетно- порожденной, т.е. порождена счетным набором подмножеств из X (см. [26]). Это условие всегда выполнено, если X = Rk, 03 есть а-алгебра борелевских множеств. В нашем случае некоторая дополнительная проблема состоит еще и в том, что множество J\fCX «нулевой вероятности», на котором мы можем произвольно менять Ptn\(x,B) может зависеть от распределения Хп, т.к. «нулевая вероятность» имеется в виду относительно распределения Хп. Определение 10. Цепь X = {Хп} называется однородной, если существуют условные распределения Р/П\(ж,2?) = Р(х,В), не зависящие от п и начального распределения Xq (или от распределений Хп). Функция Р(х,В) называется переходной вероятностью (или переходной функцией) однородной цепи Маркова. Ее можно для наглядности записывать в виде Р(х,В) = Р(Хх £В\Х0 = х). (25) Если цепь Маркова счетна, X = {1,2,... }, то в обозначениях § 1 Р(г, {j}) = Pij =p,j(l). Переходная вероятность и начальное распределение Xq полностью определяют совместное распределение Xq, ..., Хп для любого п. Действительно, в силу формулы полной вероятности и свойства марковости P(x0eBo,...,xneBn)=J ••• JP(x0e dm)p{m,dyx)--p{yn_udyn). (26) уо€Д) уневн Цепь Маркова с начальным значением Xq = х мы будем обозначать {Хп(х)}. В приложениях цепи Маркова, обычно задаются с помощью задания условных распределений Р(х,В) или в более «сильной» форме — с помощью явных формул, связывающих Хп+\ со значениями Хп, и некоторых «управляющих» элементов (см. примеры 6-12), которые позволяют сразу же выписать переходные вероятности. В этих случаях, как уже отмечалось, совместное распределение (Xq, ..., Хп) можно
268 Глава 12. Цепи Маркова определить с помощью начального распределения Xq и переходной функции Р{х,В) по формуле (26). Легко видеть, что последовательность {Хп} с так определенными совместными распределениями удовлетворяет всем определениям цепи Маркова и имеет переходную вероятность Р(х1В). В дальнейшем везде, где это потребуется, мы будем считать выполненным соотношение (26). Его можно считать еще одним определением цепи Маркова, но более «сильным», чем определения 8-10, т.к. оно задает (или использует) в явном виде переходную функцию Р(х,В). Одним из основных объектов изучения будет асимптотическое поведение переходной вероятности за п шагов р(х,п,в) = Р(хп(х) ев) = Р(хп ев\х0 = х). Для нее справедливо рекуррентное соотношение, вытекающее из формулы полной вероятности (или из (26)) P(Xn+l eB) = EE(7(Xn+1 Е B)\Sn) = J P(Xn Е dy)P{y,B), Р(х, п + 1, В) = f P(x, n, dy)P(y, В). (27) Заметим теперь, что марковское свойство (19) однородных цепей можно записать также в виде Р(хп+к е вк\$п) = р{хп,к,вк) или более общо: р(хп+1 е ви...,хп+к евк\дп) = Р(хГ(хп) е ви...,хГ(хп) е вк), (28) где {Xkew(x)} — цепь Маркова, не зависящая от {Хп}, имеющая те же переходные функции, что и {Хп}, и начальное значение х. Свойство (28) допускает распространение на случайное время п. Определение 11. Случайная величина v ^ 0 называется марковской или моментом остановки относительно {$п}, если {V ^ п} Е Зп. Другими словами, тот факт, произошло событие {у ^ п} или нет, полностью определяется значением траектории Xq, X\,..., Хп. Отметим, что часто под Зп в определении 11 понимают более широкие а- алгебры, существенными остаются лишь соотношения {у ^ п} Е Зп и измеримость Хо,..., Хп относительно $п. Обозначим 3i/ ст-алгебру событий В таких, что В П {и = k} E Зь Другими словами, 3v можно представлять себе как а-алгебру, порожденную множествами {г/ = к}Вк, BfcEjb т.е. траекторией {Хп} до момента v. Лемма 2 (Строго марковское свойство). Для любого к ^ 1 Р(*,+1 € Bh...,Xv+k Е Вк\Ъи) = P{Xn{ew{Xu) E Bu...,Xrw{Xu) E Вк), где процесс {Xkew} определен в (28). Таким образом, после случайного момента остановки v траектория Хи+\, Xv+2i'- развивается по тем же законам, что и Х\УХ2,... , но с начальным условием Хи. Это свойство называют строго марковским. Оно будет использоваться ниже для моментов v — Ту первого попадания {Хп} в некоторое множество V С X. Мы уже использовали это свойство неявно в §4, когда множество V совпадало с точкой и позволяло делить траекторию {Хп} на независимые циклы.
§ 6. Цепи Маркова с положительным атомом 269 Доказательство леммы 2. Для простоты рассмотрим одномерные распределения. Нам надо доказать, что Р(Х„+1еВ{\$„) = Р(Х„,В{). Для любого А € 3V имеем Е(Р(Ху>В1);А)=5^Е(Р(Хв,В1);А{1/ = п}) = " = X)ЕЕ(1(А{и = п}{Хп+1 6 В,})|&,) = ^P(A{i/ = n}{jrB+1€Bi})=P(i4{Xy+, €В,}). Но это и означает, что Р(Х„,В\) есть требуемое у. м.о. Рассмотрение многомерных распределений происходит совершенно аналогично, и мы предоставляем его читателю. ■ Перейдем теперь к изучению асимптотических свойств распределений Р(х,п,В) при п —> со. Определение 12. Распределение 7г() на (ж,В) называется инвариантным, если оно удовлетворяет уравнению ж(В) = J\(dy)P(y,B). Из (27) следует, что если Хп ^ 7Г, то Xn+i ^ 7Г. Распределение 7Г называют также стационарным. Для цепей Маркова в произвольном фазовом пространстве X та простая и полная классификация состояний, которая была дана для счетных цепей в § 1, не представляется возможной, хотя некоторые понятия удается перенести и на общий случай. Такие естественные и важные для счетных цепей понятия, как неразложимость цепи, в общем случае приобретают иную форму. Пример 8, Пусть Хп+\ = Хп + fn (modi) {Хп+\ есть дробная часть Хп 4-£п)> fn независимы, одинаково распределены и принимают с положительными вероятностями два значения: 0 и \fl. Здесь в зависимости от начального значения х цепь разбивается на континуальное множество «подцепей» с множествами состояний вида Мх — {х + k\/2 (modi),А; = 0,1,2... }. Ясно, что если х\ — x-i не кратно \/2 (modi), то МХх и МХ1 не пересекаются, Р(Хп{х\) G МХ2) — 0, Р{Хп{х{) G МХх) = О при всех п. Таким образом, цепь является явно разложимой. Тем не менее оказывается, что такая цепь эргодична в следующем смысле: для любого х Хп(х) €=> £/о,1 (Р(ж,п, [0, t]) —> t) (см., например, [6, 10]). О наиболее употребимых условиях неразложимости см. в § 7. Определение 13. Цепь называется периодической, если существуют целое d ^ 2 и множество Х\ С X, такое, что для х Е Х\ Р(х1п1Х\) = Р(Хп(х) G Х\) = 1 для п = kd, k = 1,2,... , и Р(х1п1Х\) = 0 для п Ф kd. Периодичность означает, что все множество состояний X разбивается на подклассы X\,...,Xd, такие, что Р{Х\{х) G Хк+\) = 1 при х G Хъ, к = l,...,d, Xd+\ = X\. В случае отсутствия такого свойства цепь будет называться непериодической.
270 Глава 12. Цепи Маркова Состояние xq Е X называется атомом цепи X, если для любого х Е X P(\J{Xn(x)=x0})=\. Пример 9. Пусть Xq ^ 0, и при п ^ 0 х , = / (Хп + £п-и)+, если Хп > 0; n+1 \ч„+ь если Хп = 0, где ^п, 7]п ^ 0, п = 1,2,... две последовательности независимых и одинаково распределенных в каждой последовательности случайных величин. Ясно, что {Хп} образует цепь Маркова, и эта цепь при Е£к < 0 имеет в силу усиленного закона больших чисел атом в точке х$ = 0 : (00 v U {Хп(х) = 0}) = P(inf Sk ^ -х) = 1, п=\ ' k к где Sk = J2tj. i=i Цепи Маркова в произвольном фазовом пространстве X образуют весьма сложный объект изучения. Однако, если цепь обладает атомом, то положение может сильно упроститься и эргодическая теорема об асимптотическом поведении Р(х,п,В) при п —> со может быть доказана, не выходя за рамки подходов, изложенных в предыдущих параграфах. Пусть хо — атом цепи {Хп}. Обозначим г = min{fc : Хк(х0) = х0}. Это есть собственная случайная величина (Р(т < со) = 1). Определение 14. Атом xq называется положительным, если Ет < со. В терминологии §4 xq есть положительное, возвратное состояние. Для характеризации сходимости распределений в произвольном пространстве нам понадобятся понятия расстояния по вариации и сходимости по вариации. Если Р и Q — два распределения на (Л^ЯЗ), то расстоянием по вариации называется число ||P-Q||=2sup|P(B)-Q(B)|. Говорят, что последовательность распределений Рп на (Х^В) сходится по вариации к Р (Рп ~~*" Р). если ||РП - Р|| —> 0 при п —> со. Подробнее об этом см. §6 Var Приложения 4. Обозначим как и в §4 РХо(к,В) «табу-вероятность» РХо(к,В) = Р(Хк(х0)еВ1 Х1(хо)фх0,...,Хк-1(хо)фх0) перехода за к шагов из xq в В, не заходя при этом в «запретное» состояние xq. Теорема 12. Если цепь {Хп} имеет положительный атом и н.о.д. возможных значений т равен 1, то цепь эргодична в смысле сходимости по вариации: существует единственное инвариантное распределение 7Г такое, что для любого х Е X ||P(s,n,-)-*(•)!!-0. (29)
§ 6. Цепи Маркова с положительным атомом 271 При этом для любого В Е 93 - 00 *(в) = Ё71]р-.(*.-в)- (3°) k=\ Если обозначить Xn(fiQ) цепь Маркова с начальным распределением fiQ (Xq ^ [1q), P(liQ,n,B) = P(Xn(^o) E В) = J fio(dx)P(x1n1B), то наряду с (29) tfyde/и справедливо также ||Р(/1о,п.-)-*(-)11-0 (31) для любого начального распределения fiQ. Условие существования положительного атома есть аналог условий (I), (II) в теореме 8. Условие, касающееся н.о.д. возможных значений т, есть условие непериодичности. Доказательство теоремы 12 по существу повторяет доказательство эргодиче- ской теоремы 8. Пусть сначала Xq = xq. Как и в теореме 8 (обозначения этой теоремы сохраняются) находим Р(х0,п,В) = п = J2 Р(7(») = к)Р(Хп е В\ Хп-к = х0, Хп_к+1 фх0,..., Хп.\ ф хо) = " Р (-у(п) = к) . y^P(7(n) = fc) Для меры 7Г, определенной в (30), будем иметь Р(хо,п,В) - *(В) = £ (P^fc) - ^) Р„(*,В) - ±52Р«(к,В). к=\ Ч V ^ ' ' к>п Так как Р(7(^) = к) ^. Р(т ^ к) и РХ{)(к,В) ^ Р(т ^ к) (см. доказательство теоремы 8), то при любом N sup|P(x0)n;B) -т(В)| ^ X) (^/"tl^ - jM +2EP(r ^ *)• <32> Далее, так как P(j(n) = к) —> (Р(г ^ к))/(Ет), ^ Р(г ^ &) = Ет < со, то правая часть в (32) выбором ЛГ и затем п может быть сделана сколь угодно малой. Стало быть, lim sup |Р(ж0, п, В) - 7г(В)| = 0. n-юо в Рассмотрим теперь произвольное начальное состояние х Е X, х Ф xq. Так как жо есть атом, то для вероятностей первого попадания в xq на А: шаге F(x,k,xo) = Р(Хк(х) = xq,X\ Ф жо,...,ХЛ_1 Ф xq) имеем ^F(x,fc,*o) = 1,
272 Глава 12. Цепи Маркова Р(ж, n1B) = J2 F(x, *, х0)Р(х0, n-k,B), к=\ \\Р(х,п,.)-*(.)\\^ J2 р(х> к> хо)\\РЫп- к, .)-тг(-)|| + 2^ F(x1k1x0)-^0 к^п/2 к>п/2 при п —* со. Соотношение (31) следует из того, что ||Р(М0,Т1,-) -7Г(.)|| ^ У М(^)||Р(Х,П, •) -7Г(-)Ц -О по теореме о мажорируемой сходимости. Далее, из сходимости Р(ж, п, •) по вариации следует, что J P(x, n, dy)P(y, Б) - У *(dy)P(y, В). Так как левая часть этого соотношения, равная в силу (27) Р(х,п + 1,В), сходится к 7г(2?), то выполнено (28) и, стало быть, 7Г есть инвариантная мера. Допустим теперь, что тг\ — другое инвариантное распределение. Тогда 7Г1(-) = Р(7ГЬП,-) -+7Г(-), 7Г1 = 7Г. ■ Вернемся к примеру 9. Покажем, что условия теоремы 12 выполнены, если Е& < О, Е77*; < со. Действительно, обозначим в(х) = min«j к ^ I : Sk =^2 £у ^ -х >. Согласно теореме восстановления § 9.4 . Н(х) = Ев(х) ~ -£- при Efi < 0, х —> со и, стало быть, найдутся постоянные с\, С2, такие, что Н(х) < с\ + С2Х при всех х ^ 0. Поэтому для атома xq = 0 получим 00 00 Ет = / P(t7i E dx)H(x) ^c\ +C2 / #P(?7i G dx) = cj + С2Е771 < со. О О Отметим также, что в этом примере РХо(к, В) = Р (sk е В, min Sj > 0) >■ \^j<k ' определяется совместным распределением Sk и 5fc = min 5,, которое можно 3<к эффективно изучать с помощью факторизационных тождеств. §7*. Эргодичность харрисовых цепей Маркова Исследованию эргодичности цепей Маркова в произвольных пространствах состояний посвящено большое число исследований. Важнейшие из них связаны с именами Деблина, Дуба, Харриса, Орея. До недавнего времени эти исследования по праву относились к весьма не простым. Однако после появления конструкции искусственного положительного атома, предложенной Атреа, Неем и Нуммелином
§7*. Эргодичность харрисовых цепей Маркова 273 (см., например, [6, 18, 27]) оказалось возможным доказывать теоремы эргодичности, избегая сложных построений и редуцировать задачу к случаю, рассмотренному в предыдущем параграфе. Важную роль в дальнейшем будет играть понятие «харрисовости» цепи. Для некоторого фиксированного множества V G 03 определим случайную величину rv(x) = min{fc ^ 1 : Xk(x) G V}, являющуюся временем первого попадания в V (ту(х) = оо, если все Хк(х) £ V). Определение 15. Цепь Маркова {Хп} в (Х,В) называется харрисовой (или неприводимой по Харрису), если существуют множество V G 03, вероятностная мера р на {Х,Б) и числа по ^ 1, р G (0,1) такие, что (10) P(tv(x)<oo) = \ VxeX, (11) Р(ж,по,В) ^ до(£) для всех ж G V,B G 03. Условие (1о) выполняет роль условия неразложимости цепи: из любой точки х G X траектория Хп рано или поздно попадает в V. Условие (II) гарантирует, что через по шагов после попадания в V «блуждающая частица» будет иметь распределение, которое «минорируется» одним и тем же «распределением» рр{-). Это условие иногда называют условием «перемешивания», оно обеспечивает «частичную утерю памяти» о прошлом траектории. Этого не происходит для цепей в примере 8, для которых условие (II) не выполнено ни для каких V, р,Щ (Р(ж, •) есть набор взаимно сингулярных распределений, сингулярных относительно меры Лебега). Если цепь имеет атом, то условия (1о),(П) всегда выполнены при V = {#оЬ по = 1, р = 1, /х(-) = Р(#о,-)> так что такая цепь является харрисовой. В качестве множества V обычно рассматривают «компактные» множества (если X = Rk, то это будут ограниченные множества), иначе обеспечить выполнение неравенств в (II), как правило, не удается. Если само пространство X «компактно» (конечное множество или ограниченное множество в Rk), то условие (II) может быть выполнено и для V — X (условие (1о) при этом выполнено всегда). Например, если цепь {Хп} конечна, неразложима и непериодична, то согласно теореме 9 найдется по такое, что P(i,no,j) ^ р > 0 при всех г и j. Стало быть, условие (II) при V = X выполнено, если в качестве \i взять равномерное распределение на X'. Условие (II) можно интерпретировать как наличие у всех распределений Р(ж,по,) при х G V абсолютно непрерывной компоненты относительно меры fi: . Pjx.np.dy) inf — ^ р > 0. xev fi(dy) Нам понадобятся еще условие «положительности» множества V (или «положительности цепи»): (I) supE7v(x) < оо xev и условие непериодичности, которое мы запишем в следующем виде. Пусть Xk(p) — цепь Маркова с начальным значением Xq ^ р,, где р, — из условия (II). Положим TV(p) = min{fc ^ 0 : Хк(р) G V}. Очевидно, что Ту(р) в силу (1о) есть собственная случайная величина. Обозначим Tii,П2,... возможные значения ту(р>), т.е. значения, при которых Р(ту(р) = щ) > 0, А: = 1,2,... . Условие непериодичности имеет вид:
274 Глава 12. Цепи Маркова (III) Существует к такое, что о. н.д. (щ + пищ + п2,...,по +щ) = 1, где по из условия (II). Условие (III) всегда выполнено, если выполнено (II) при щ = \, p>(V) > О (тогда П! = 0, по + п\ = 1). Проверка условия (I), как правило, связана (см. примеры ниже) с получением оценок для Ету(ж) при х £ V, из которых автоматически будет следовать (1о). Теорема 13. Пусть выполнены условия (1о), (I), (Н), (HI), т.е. цепь Маркова является непериодической положительной харрисовой цепью. Тогда существует единственное инвариантное распределение 7Г такое, что для любого начального распределения flQ ||Р(^0,п,-)-7гО1|->0. (33) Основной элемент доказательства состоит в использовании упомянутой выше конструкции «искусственного атома» и в редукции задачи к теореме 12. Это позволяет получить в ходе доказательства представление для инвариантной меры 7Г, аналогичное (30) (см. (37)). Замечательный факт состоит в том, что условия теоремы 13 оказываются необходимыми для сходимости (33) (подробнее об этом см. [6]). Доказательство теоремы 13. Предположим для простоты, что по = 1. Построим сначала наряду с X «расширенную» цепь Маркова X* = {X*} = {Хп,и>(п)}, где ш(п) есть последовательность независимых одинаково распределенных случайных величин с Р(о>(и) = 1) = р и Р(и>(п) = 0) = 1 — р. Совместное распределение (Х(п),и>(п)) в фазовом пространстве X* = X х {0,1} = {х* = (ж, б) : х Е X; б — 0,1} и переходная функция Р* цепи X* определяются следующим образом (обозначение Х*(х*) имеет тот же смысл, что и Хп(х)): Р(Х\(х*) е (В,б)) = Р*(х\(В,б)) = Р(ж,В)Р(ш(\) = б) при х i V (при Хп <£ V компоненты Х*+1 «разыгрываются» независимо с соответствующими маргинальными распределениями). Если же х Е V, то распределение Х*(х*,\) определяется равенствами P(xf((x, 1) е (в,6)) = р*((х, 1),(в,б)) = y(s)PMi) = *), Р(Л?((*,0) € (В,6)) = Р*((х,0),(В,6)) = Q(x,B)P(u>(\) = 6), где 1 -р так что для любого В Е 03 р<р(В) + (\-p)Q(x,B) = P(x,B). (34) Таким образом, Р(о;(п + 1) = 1|Х*) = р при любых значениях X*. Однако при «выборе» Хп+\ происходит частичная (лишь при Хп Е V) рандомизация (или расщепление): при Хп Е V полагаем P(Xn+i E В\Х*) равной величине <р(В) (не зависящей от Хп Е V!), если шп = 1. Если же ш(п) = 0, то названную вероятность полагаем равной Q(Xn,B). Очевидно, что в силу условия (II) (при гсо=1) ¥>(£) и Q(x,B) являются распределениями, а в силу равенства (34)
§7*. Эргодичность харрисовых цепей Маркова 275 первая координата Х(п) определенного выше процесса X* обладает свойством P(Xn+i Е В\Хп) = Р(Хп,В), и, значит, распределения последовательностей X и X совпадают. Как уже отмечалось, определенный выше процесс Х*(п) обладает следующим свойством: распределение Р(Х*+1 Е (В,6)\Х*) на множестве X* Е V* = (V,\) не зависит от Х*(п) и является известным заранее распределением (р(В)Р(ш(\) = 6). Это и означает, что попадания цепи в состояние V* делят траекторию X* на независимые циклы, так же, как это происходит при наличии положительного атома. Выше было описано, как распределение X* строится по распределению X. Приведем также очевидные соотношения, которые восстанавливают распределение X по распределению X* : Р(Хп(х) Е В) = рР(Х*п(х, 1) Е B*)+(\-p)P(Xfa,0) € В*), (35) где В* = (1?,0) U (В, 1). Отметим также, что если Хп — Хп рассматривается как компонента Х„, то она должна записываться как функция от начального значения х* Е X* в форме Хп(х*). Положим т* = min{fc ^ 1 : ХЦх*) Е V*}, х* Е V*. Ясно, что т* не зависит от значения х* — (ж, 1), так как Х\(х*) при любом х Е V имеет распределение (р. Это свойство позволяет отождествить множество V* с одной точкой. Другими словами, надо рассмотреть еще одно фазовое пространство X**, которое получается из X* заменой множества V* = (V, 1) на точку, которую мы обозначим xq. В этом новом фазовом пространстве построим цепь X**, эквивалентную X*, с помощью очевидных соотношений для переходной вероятности Р** : Р**(х*,(В,б))=Р*(х*,(В,6)) при x**(V,l) = V*, {В,6)фУ\ р"(*о, (*,*)) = РИО = %(*), p*V,*o) = PV.O- Итак, мы построили цепь X** с переходной функцией Р**, и эта цепь имеет атом xq. Очевидно, что т* = min{fc ^ 1 : Х£*(хо) = жо}. Докажем теперь, что этот атом положителен. Обозначим Е = supEr^(x). Лемма 3. Ет < —. Доказательство. Рассмотрим эволюцию первой координаты Xk(x*) процесса Xl(x*)y х* Е V*. Разобьем ось времени А; ^ 0 на интервалы по попаданию Х^(х*) в множество V. Пусть Т\ ^ 1 — время первого такого попадания (напомним, что Х\(х*) = Xo(fi) и имеет распределение ^, так что rj = 1, если fi(V) = 1). До момента ri (в случае т\ > 1) переходы Xk(x*), к ^ 2, управлялись переходной функцией Р(у,В), у £VC = X\V. В момент т\ в соответствии с определением X* производится независимое от предыстории испытание в схеме Бернулли с вероятностью «успеха» (т.е. события ш(т\) = 1), равной р. Если ш(т\) = 1, то т* = т\. Если же и>(т\) = 0, то переход от ХГ|(ж*) к XTl+i(x*) происходит с помощью переходной функции Q(y,B) = (Р(у,В) — p/i(B))/(\ —p), у Е V. Далее все происходит
276 Глава 12. Цепи Маркова аналогично предыдущему: пусть т\ + Т2 есть момент второго попадания Х(х*,к) в V (в случае и(т\) — 0). В промежутке [т\ + 1,Т2] переходы Х(х*,к) осуществляются согласно переходной функции Р(у,В), у Е Vе. В момент т\ + т^ производится новое независимое испытание в схеме Бернулли с результатом ш(т\ + т{). Если w(t\ + тг) — 1» то г* = г1 + г2- Если o;(ri + тг) = 0, то переход от Х(х*,т\ + т{) к Х(ж*,Г1 + Т2 + 1) происходит согласно Q(y,B), и т.д. Другими словами, эволюцию координаты Х&(ж*) процесса Х£(х*) можно представить так. Пусть X = {Х&}, А: = 1,2,..., есть цепь Маркова с распределением \i в момент А: = 1 и переходной вероятностью Q(x1B) в моменты к^2 fP{z,B)-prtB) Q(x,B) = l l-p ' ЖЕК' [р(х,в), xevc. Определим Т{ следующим образом: Т0 = 0, Т1=т1= min{k :> 1 : Хк Е V}, Ti=Ti+... + Ti = mm{k > Т{_{ :XkeV}, i ^ 2. Пусть, далее, v — не зависящая от X случайная величина с геометрическим распределением Р(|/ = Л) = (1-р)*-1р, *£1, (*/ = min{fc^ 1 :w(rJb) = l}). Тогда из сказанного выше следует, что распределение Х(х*, 1),... ,Х(ж*,т*) совпадает с распределением Х(1),..., Х(Т„); в частности, г* = Tv, 00 *=1 Далее, так как fi(B) ^ Р(х,В)/р при ж Е V, то при любом х Е V Ет! = /х(7) + /\t(du)(\ + Ету(и)) ^ ^ - Р(ж,Г)+ Г P(x,du)(\+ETV(u)) Ету(х) < Я Чтобы оценить Ет, при г ^2, заметим, что Q{x,B) ^ (1 - р) 1Р(х,В) при ж Е V. Поэтому, если а-алгебру, порожденную {Х^,о;(г^)} при к ^Т{, обозначить gvt\, то Е(т,|3(,--1)) ^supb(x,F)+ /"д(ж,du)(1 + Er,r(u)) 1 ^ xev I J J ус ^- sup P(s,V) + I P{x,du)(\ + ETV{u))\ = = (1 -p)_1supErr(ar) = £;(l -p)-1.
§7*. Эргодичность харрисовых цепей Маркова 277 Отсюда следует неравенство ЕТ& ^ Е(\/р + (к — 1)/(1 - р)), из которого получаем, что \Р U ' р Лемма доказана. ■ Вернемся к доказательству теоремы. Чтобы воспользоваться теоремой 12, нам надо доказать теперь, что Р(т*(ж*) < со) = 1 для любых х* Е X*, где т*(х*) = min{fc ^ 1 : Х]1(х*) Е V*}. Но цепь X попадает в V с вероятностью 1. Через v возвращений в V {у определена в (36)) процесс X* = (Х(п),ш(п)) окажется в множестве V*. Условие непериодичности при по = 1 будет выполнено, если fi(V) > 0. В этом случае мы получаем в силу теоремы 12, что существует единственная инвариантная мера 7Г* такая, что для любого х* Е X* \\Р*(х\п,-)-ж*(-)\\^0, 1 °° *4(B,6)) = —J2Pv'(k>(B,6)), (37) fc=l Р$.{к,{В,6)) = Р(Х*к(х*) € (В,6),Х1(х*) $ V\...,Xl_x{x*) i V). В последнем равенстве имеется в виду любая точка х* G V*; вероятность от выбора х* G V* не зависит. Отсюда и из «формулы обращения» (35) получаем утверждение (33) для начального значения х* и представление для инвариантной меры ж процесса X. Доказательство сходимости ||P(/^o,n, •) - 7г(-)|| ->0и единственности инвариантной меры происходит точно так же, как в теореме 12 (они следуют также из соответствующих утверждений для X*). Проверка условий теоремы 12 в случае, когда по > 1 или fi(V) = 0, не вызывает никаких дополнительных затруднений, и мы предоставляем ее читателю. ■ Отметим, что аналогично тому, как это делалось в доказательстве теоремы 8, можно установить также единственность решения интегрального уравнения для инвариантной меры (см. определение 12) в более широком классе обобщенных конечных мер. Основными и наиболее трудными для проверки условиями теоремы 13 несомненно являются условия (I), (II). Условие (1о) обычно получается «автоматически» в ходе проверки условия (I), т.к. эта проверка требует оценивать Erv(x) при любых х. Проверка условия (III) непериодичности, как правило, не вызывает затруднений. Если, например, возвращение в множество V возможно за mi и rri2 шагов, н.о.д. (mi,7712) = 1, то цепь непериодична. Итак, мы остановимся теперь более подробно на основных условиях (I), (II). Условие (II) выражается непосредственно в терминах локальных характеристик цепи (переходных вероятностей за один или за фиксированное число шагов щ > 1) и в этом смысле его можно считать окончательным. Надо уметь только «правильно угадать» наиболее подходящие множества V и меру fi (если таковые существуют, конечно). Например, для многомерных цепей Маркова в X = Rd условие (II) будет выполнено, если выполнено одно из следующих двух условий. (Иа). Распределение ХПо(х) имеет при некотором по абсолютно непрерывную относительно меры Лебега (или относительно сумм мер Лебега на Rd
278 Глава 12. Цепи Маркова и его «координатных» подпространств) компоненту, равномерно положительную по х е Vn = {у : \у\ ^ N} при некотором N > 0 на множестве Vn . В этом случае роль ft будет играть равномерное распределение на Vn . (III). X — %d есть целочисленная решетка в Rd. В этом случае цепь становится счетной и все упрощается. Мы уже отмечали, что в тех случаях, когда цепь имеет положительный атом/ как это имело место в примере 9, никаких условий на структуру (гладкость) распределения Хщ(х) не требуется. Иначе обстоит дело с условием «положительности» (I). Оно выражено в терминах весьма сложных характеристик (Erv(x)) и требует дополнительных исследований и отыскания условий, также выраженных в терминах локальных характеристик, которые обеспечивали бы выполнение (I). Этому во многом и будет посвящено дальнейшее содержание этого параграфа. Предварительно приведем одно «промежуточное» утверждение, которое будет полезно для дальнейшего. Мы уже пользовались такого типа утверждением в рамках примера 9. Теорема 14. Пусть существует такая неотрицательная измеримая функция д : X —> R, что выполнены следующие условия (Iя) : (F)i Ету(ж) ^ с\ + С2д(х) при х Е Vе = X \ F, с\, С2 = const. (lgh supE^(X1(x))<oo. xev Тогда выполнено условие (I). Функцию в теореме 14 часто называют «пробной» функцией или функцией Ляпунова. Положим для краткости ту (ж) = т(х). Доказательство. Пусть выполнено (I9). Тогда для х Е V Ет(х) ^ 1 + Е[т(Хх(х));Х1(х) G Vе] ^ \+ Е(Е[т(Х1(х))\Х1(х)];Х1(х) е Vе) < ^ 1 + E(ci +c2g(Xi(x));Xl(x) G Vе) ^ 1 + с{ + с2 supE^X^)) < со. xev Отметим, что неравенство (F)2 относится к «локальным» характеристикам системы (как и условие (II)) и в этом смысле его также можно считать «окончательным» с точностью до проблемы выбора функции д. Рассмотрим теперь условия, обеспечивающие выполнение (Iя)\. Процессы {Хп} = {Хп(х)}, Xq(x) = x, которые будут рассматриваться в последующих утверждениях (например, в теореме 15) не обязательно должны быть марковскими. Мы будем использовать только те их свойства, которые будут оговорены в условиях утверждений. Мы будем опять использовать неотрицательные пробные функции д : X —► Е и рассматривать множество V, «индуцированное» функцией д и некоторым множеством U, которое чаще всего будет ограниченным фиксированным отрезком прямой: V = g-{(U) = {xeX:g(x)eU}. Обозначение т(х) = ту (ж) сохраняет свой смысл г = т(х) = min{k ^ 1 : g(Xk(x)) E U} = mm{k ^ 1 : Хк(х) Е V).
§ 7*. Эргодичность харрисовых цепей Маркова 279 Теорема 15. Если при некотором е > 0 и п = 0,1,2,... Е(д(Хп+:)-д(Хп)\т>п)^-е, (38) то Ет(*К^, xeve, и, стало быть, выполнено (Iя) \. Доказательство. Обозначим t*n\ = min(r, N), A(n) = g(Xn+\) — g(Xn). Имеем -g(x) = -Eg(Xo) ^ E(g(XT(N)) - g(X0)) = E^ A(n) = n=0 N N N = ^EA(n)7(r > n) = J2P(T > л)Е(Д(п)|г > n) ^ -е^2р(Т > n)- n=0 n=0 n=0 Отсюда следует, что при любом N Следовательно, это неравенство справедливо и при N = со, Ет ^ д{х)/е. ■ Следствие 2. ^сли {Хп} — цель Маркова и при х Е Vе Ед(Хх(х))-д(х)^-е, (39) то Ет(ж) ^ д(х)/е. Доказательство очевидным образом следует из того, что в силу (39) и однородности цепи на множестве {Хп Е Vе} выполнено Е(д(Хп+\) - д(Хп)\Хп) ^ —е и того, что {г > п} С {Хп G Vе} и, стало быть, Е($(Хп+1) -д(Хп);т > п) = Е[Е(д(Хп+1) - д(Хп)\Хп);т > п] ^ -еР(т > п). щ Теорема 15 представляет собой некоторую модификацию критерия положительной возвратности, известного как критерий Фостера—Мустафы—Твиди (см., например, [6, 27]). Рассмотрим некоторые применения полученных результатов. Пусть X — цепь Маркова на вещественной полуоси К+ = [0,со). Обозначим для краткости Х\(х) — х — £{х). Это есть приращение за 1 шаг цепи, стартующей в точке х. £(х) можно определить также как случайную величину с распределением Р(£(ж) еВ)= Р(х,В- х) (В-х = {уеХ:у + хе В}). Следствие 3. Если при некоторых N ^ 0, е > О sup Е£(ж) < со, sup Е£Ы ^ ~е, (40) x^N x>N w то выполнены условия (1о), (I) при V = [0,ЛГ]. Доказательство. Воспользуемся теоремами 14, 15 и следствием 2 при д(х) = х, V = [0,ЛГ]. Условия (\9)2 и (39) выполнены очевидным образом. ■ Таким образом, наличие «отрицательного сноса» цепи в области х > N гарантирует положительность цепи. Однако выполнение условия (I) можно обеспечить и в том случае, когда «снос» Е£(х) неограниченно убывает при х —> со.
280 Глава 12. Цепи Маркова Следствие 4. Пусть supEf (х) < со и Е£2(ж)^а2, Е£(ж)^-- при х > N. х Тогда, если 2с > а , то выполнено (II) при V = [0,ЛГ]. Доказательство. Воспользуемся вновь теоремой 14 и следствием 2, но при д(х) = х2. Получим для х > N Ед(Х1(х))-д(х) = Е(2х£(х) + £2(х))^-2с+а2<0. Прежде чем переходить к рассмотрению примеров, связанных с эргодичностью, отметим следующее обстоятельство. Чем «больше» множество V, тем легче проверять условие (I) и чем «меньше» это множество, тем легче проверять условие (II) (и труднее — (I)). В связи с этим возникает вопрос, когда можно рассматривать два множества «маленькое» W и «большое» V : W С V, такие, что выполнение (I) для V и (II) для W влечет за собой выполнение (I), (II) для W1 Лемма 4. Пусть Е = sup Etv(x) < со (l)v xev и существует т такое, что infP(U{X,-(*)elF})^9>0. Тогда выполнено (\)w : .- / ч / ч Ет sup Etw(x) ^ supETwyx) ^ . xew xev q Таким образом, если выполнено условие (I) для множества V, условие (II) для множества W и условия леммы 4, то выполнены условия (I), (II) для множества W. Для доказательства леммы 4 нам понадобится следующее утверждение, обобщающее (как неравенство) известное тождество Вальда. Пусть дана последовательность неотрицательных случайных величин т\, тг,..., измеримых соответственно относительно (т-алгебр 211 С 512 С ... , Т„ = т\ Л-... -f тп. Пусть, кроме того, задан момент остановки и : {у ^ п} Е 21„. Лемма 5. Если E(r„|2tn_i) ^ а, то ETV ^ aEv. Доказательство. Мы можем считать, не ограничивая общности, что Ей < оо (иначе неравенство тривиально). Доказательство по сути повторяет рассуждения в теореме 4.2. Имеем 00 00 Etv = 5^E(T*;i/ = k) = ^Efa.i/ > к). (41) fc=l fe=i Изменение порядка суммирования здесь законно, т. к. слагаемые неотрицательны. Далее {v ^ к - 1} Е 2t*_i и, следовательно, {и ^ к} е 21*-ь Поэтому E(r*;i/ ^ *) = EJ(i/ ^ *)E(Tfc|2U-i) ^ oP(i/ ^ Л). Сравнивая с (40), получим 00 ЕТи ^ а ^2 р(и ^ к) = aEl/- *=1 ■
§7*. Эргодичность харрисовых цепей Маркова 281 Доказательство леммы 4. Пусть цепь X стартует в точке х Е V. Рассмотрим последовательные моменты Т\,Т2,... попадания X в V, Tq = 0. Положим Yq = ж, Yk — Хтк(х), к = 1,2,... . Тогда в силу строго марковского свойства последовательность (У*,!*) образует цепь Маркова. Положим 21& = <т(Т\,... ,2У, Y\,..., Yk), Tk — Tfc - Tfc_i, A: = 1,2... . Тогда v — min{fc : Yk G W} образует момент остановки относительно {2^}. Очевидно, что Е(тк\Я1к-\) ^ Е. Оценим Ей. Для этого оценим (Ткт \ C\{Xjtw}) = П {Xj t w})e(i( n {Xj i w}) a(*-i)m)- i=i i—Г(к-|)да+| Так как ту ^ 1, то последний множитель по условию леммы и по свойству строгой марковости не превосходит P((\{xr(XT^JtW})<(l-q). Таким образом, pk ^ (l-q)Pk-\ ^ (1~я)к, Ei/ ^ тп/q, и в силу леммы 5 ETV ^ Em/q. Остается заметить, что тцг(х) = Ти. ■ Пример 10. Случайное блуждание с отражением. Пусть £i, &» • • • — независимые одинаково распределенные случайные величины, jr„+i=|*»+6»+il, п = 0,1,.... (42) Если &, а вместе с ними и Х\. не решетчаты, то цепь X не имеет, вообще говоря, атома. Если, например, & имеют плотность распределения /(£) относительно меры Лебега, то P(Xk(x) = у) = 0 при любых ж, г/, А; ^ 1. Мы будем предполагать, что выполнено более широкое условие (А). (А). В разложении P(tk<t)=paFa(t)+pcFc(t) на абсолютно непрерывную (Fa) и сингулярную (Fc) компоненты выполняется неравенство ра > 0. Следствие 6. Если выполнено условие (А), а = Е& < 0, Е|&| < со, то цепь Маркова, определенная в (42), удовлетворяет условиям теоремы 14 и, стало быть, эргодична в смысле сходимости по вариации. Доказательство. Убедимся сначала, что цепь удовлетворяет условиям следствия 3. Так как в нашем случае \Х\(х) — х\ ^ |fi|, то первое из условий (40) выполнено. Далее Е£(х) = E\x + h\-x = Е(й;й ^ -х) - Е(2х + fr;u < -х) - Efr при х —> ос, так как «P(Ci < -«) < E(|CiMCil > ж) -н. 0. Поэтому найдется N такое, что Е£(ж) ^ а/2 < 0 при х ^ N. Выполнение условий (1о),(1) при V = [0,ЛГ] доказано. Проверим теперь выполнение условия (II) для множества W = [0, h], при некотором h. Пусть f(t) есть плотность распределения Fa в условии (А). Тогда можно считать, что существуют /о > 0 и отрезок [^ь^Ь ^2 > ^1 такие, что
282 Глава 12. Цепи Маркова /(О > /о ПРИ * € [^ьЫ- Ясно, что плотность величины х + £i будет больше /о на [ж + t\,x + £2]- Положим /i = (£2 ~ ^i)/2. Тогда при 0 ^ х ^ h будет выполняться N2-M2] С [х + $ьх + *2]. Пусть для определенности £2 > 0. Сказанное будет означать тогда, что плотность х + f 1 будет больше /о на [(^2 - h)+,ti\ при всех ж^Ли, стало быть, в где /0(*) = / Л при £ G [(«2 - Л)+,*2], \ 0 в противном случае. Это и означает выполнение условия (II) на множестве W — [0,Л]. Случай £2 ^ 0 рассматривается аналогично. Нам остается воспользоваться леммой 4, из которой будет следовать выполнение условия (I) для множества W. Условие леммы 4 очевидным образом выполнено (при достаточно большом т распределение Хт(х), х ^ N будет иметь на W положительную абсолютно непрерывную компоненту). По этой же причине цепь X не может быть периодичной. Таким образом, все условия теоремы 14 выполнены. ■ Пример 11. Осциллирующее случайное блуждание. Пусть даны две независимые последовательности f i, £2,... и щ, 772,... независимых и одинаково распределенных в каждой последовательности случайных величин. Положим _ Г Хп + fn+1, если Хп ^ 0; ( , An^-\Xn+Vn+u еслиХп<0. <43> Такое случайное блуждание называют осциллирующим. Очевидно, оно образует цепь Маркова в X — (-со,со). Следствие 7. Если хотя одно из распределений £* или щ удовлетворяет условию (А), -со < Е& < 0, со > Ещ > 0, то цепь (43) будет удовлетворять условиям теоремы 14 и, стало быть, будет эргодической. Доказательство совершенно аналогично доказательству следствия 6. Надо лишь для проверки условия (I) взять д(х) = \х\ и V = [-N,N]. После чего воспользоваться леммой 4 при W — [0,/i], если условию (А) удовлетворяют & (и W = [-/i,0), если (А) удовлетворяют щ). ■ Отметим, что условие (А) в примерах 10, 11 может быть ослаблено до наличия т абсолютно непрерывной компоненты у сумм ]Г £j (или ^rjj) при некотором га. С другой стороны, если распределения этих сумм при всех т сингулярны, то сходимость распределений Р(ж, п, •) по вариации не может иметь место. Если, например, в примере 10 Р(& = -y/l) = Р(£к = 1) = 1/2, то Е& < 0 и условие (I) будет выполнено, а условие (II) нет. Невозможна и сходимость Р(ж, п, •) по вариации к предельному распределению 7Г. Действительно, из уравнения для инвариантного распределения 7Г легко следует, что это распределение с необходимостью непрерывно. С другой стороны, скажем, распределения Р(0,п, •) сосредоточены на счетном множестве ЛГ чисел | ~-ку/2 + 1\; к J = 1,2,... Поэтому Р (0, п, ЛГ) = 1 при всех п, ir(Af) = 0. Поэтому может иметь лишь слабая сходимость распределений Р(х,п, •) к 7г(). И хотя такая сходимость сомнений не вызывает, достаточно простое доказательство этого факта нам неизвестно.
§7*. Эргодичность харрисовых цепей Маркова 283 Пример 12 (Продолжение примеров 6, 8). Пусть X = [0,1], £ь£2>--- независимы и одинаково распределены, Хп+\ — Хп + £n+i (modi) или, что то же, Хп+\ = {Хп + £п+\}, где {х} означает дробную часть х. Здесь условие (I) очевидным образом выполнено при V = X = [0,1]. Если & удовлетворяют условию (А), то, так же, как в примере 10, будет выполнено условие (II) для множества W = [0, h] при некотором h > 0, что вместе с леммой 4, как и раньше, приводит к выполнению условий теоремы 14. Инвариантное распределение 7Г в этом примере будет равномерным на [0,1]. Для простоты будем считать, что распределение £k имеет плотность f(t), при этом не ограничивая общности можно считать Ск £ [0,1], (/(0 = 0 при t £ [0,1]). Тогда плотность р(х) = 1 инвариантной меры 7Г удовлетворяет уравнению для инвариантной меры: х 1 1 р(х) = 1 = / dyf(x - у) + / йг//(ж - у + 1) = / /(y)dy. 0 ж 0 Так как стационарное распределение единственно, то 7Г — Uo,i. При этом по теореме 5 Приложения3 наряду со сходимостью Р(х,п,) к Uo,i по вариации будет иметь место сходимость плотностей P(x,n,dt)/dt к 1 по мере Лебега. Тот факт, что инвариантное распределение является равномерным, остается верным и для произвольных нерешетчатых распределений £к. Однако, как уже отмечалось в примере 8, в общем случае (без выполнения условия (А)) возможна лишь слабая сходимость распределений Р(х,п,-) к равномерному (см. [6, 10]).
Глава 13 Информация и энтропия § 1. Определения, свойства информации и энтропии Предположим, что производится некоторый эксперимент. При этом событие А может произойти с вероятностью 0,99. Тогда естественно считать, что появление события А не несет в себе большой информации. Появление же события А несет в себе значительную информацию, так как оно нами не ожидалось. Пусть, например, событие А означает, что самолет приземлился благополучно. Тогда сообщение о том, что произошло событие А (обычно оно маловероятно), будет нести для встречающих (ожидающих исхода эксперимента) весьма существенную информацию. Принята следующая количественная мера информации. Пусть А и В — события некоторого вероятностного пространства (Г2,^, Р). Определение 1. Количеством информации 1(А\В), которое заключено в событии (сообщении) В относительно А, называется число Появление события В = А можно интерпретировать как сообщение о том, что наступило А. Определение 2. Число I(A\A) = 1(A) называется количеством информации 1(A), заключающейся в сообщении А : I(A\A) = 1(A) = -\ogP (А). Из этого определения видно, что чем больше вероятность события А, тем меньше 1(A). Как правило, в определении информации используется логарифм при основании 2, так что единицу информации несет, например, сообщение о том, что в семье родился мальчик (или девочка) (предполагается, что эти события равновероятны, а — \og2P = 1 при р = 1/2). В дальнейшем в этом параграфе везде запись log ж следует понимать как log2#. Если события А и В независимы, то 1(А\В} = 0. Это означает, что событие В не несет в себе никакой информации относительно А и наоборот. Следует заметить, что всегда 1(А\В) = 1(В\А). Легко видеть, что если события А и В независимы, то I(AB)= 1(A) + 1(B). (1) * Понятия количества информации и энтропии были введены К. Э. Шенноном в 1948 г. Для некоторых частных ситуаций понятие количества информации рассматривалось и в более ранних работах (например, Р. Хартли, 1928 г.). Изложение §2 этой главы основывается во многом на работе А. Я. Хинчина\2А\.
§1. Определения, свойства информации и энтропии 285 Рассмотрим пример. Пусть случайным образом на одну из клеток шахматной доски ставится фигура. В этом случае информация о том, что фигура находится в клетке с номером А: (событие А), будет равна 1(A) = log64 = 6. Пусть В\ — событие, заключающееся в том, что фигура находится в г строке, а ^2 — что фигура находится в j столбце. Сообщение А можно передать, передав сначала В\, затем 2?2- Имеем J(Bi)=Iog8 = 3 = J(B2). Поэтому I(Bl) + I(B2) = 6 = I(A), так что при передаче сообщения А «по частям» требуется сообщить то же количество информации, равное 6, что и при одноразовой передаче. Можно привести и другие примеры, обнаруживающие естественность введенных числовых характеристик. Пусть G есть некоторый эксперимент с исходами Е\,..., En , которые осуществляются с вероятностями р\,... ,Pn. Информация, полученная нами в результате испытания G, есть случайная величина JG — Jg(w), принимающая значение -logpj, j — 1,... ,iV, на множестве Ej. Таким образом, если в вероятностном пространстве (П,^, Р), соответствующем эксперименту G, П совпадает с множеством (Е\,... ,Ен), то Jg(u) = I(w)- Определение 3. Математическое ожидание этой информации EJg = ~lL,Pjl°&Pj называется энтропией эксперимента. Мы будем обозначать ее символами N Hp=H(G) = -J2PjloW> где р = (pi,... ,Pn)- При pj = 0 произведение Pjlogpj мы полагаем по непрерывности равным 0. Энтропия эксперимента есть в некотором смысле мера его неопределенности. Пусть, например, эксперимент имеет два исхода А и В с вероятностями р и q = 1 — р. Энтропия такого эксперимента равна |0 11 Нр = -plogp -(l-p) log(l -p) = f(p). Риг 11 График этой функции представлен на рис. 13. Един- ственный максимум f(p), равный log2 = 1, достигается в точке р = 1/2. Это схема с максимальной неопределенностью. Если р уменьшается, то неопределенность вместе с Нр тоже уменьшается, Нр = 0, если р = (0,1) или (1,0). Эти свойства легко усмотреть и в общем случае. Свойства энтропии. 1. H(G) = 0, если и только если существует такое j, \ ^ j ^ N, что 2. H(G) максимально, если pj = \/N для всех j. Доказательство. Так как вторая производная функции (р(х) = ж log ж на [0,1] положительна, то <р(х) выпукла. Следовательно, для любых qi ^ 0 таких, что
286 Глава 13. Информация и энтропия N ^2 qi — 1, и любых Х{ ^ 0 выполняется неравенство х=1 (N \ N 1=1 / 1=1 Если взять qi = l/N, ж, = pi, то получим (- I>)log (# 5>0 < 2^ jr* lo*Pi- Полагая и — (]у > • • • > ]у ), нах°Дим отсюда - log — = logiV = Ни ^ -^2Pi \ogpi = Нр. и Заметим, что если энтропия H(G) равна своему наибольшему значению H(G) = logN, то с вероятностью 1 Jg(u) = logJV, т.е. информация Jg становится постоянной. 3. Пусть G\ и G2 — два независимых эксперимента. Запишем исходы и соответствующие вероятности исходов в этих экспериментах следующим образом: f Е\, ..., EN\ G (М, •••> Ам\ этих двух экспериментов, мы получим новый G = GlxG2=(E{Au ЕхАъ •••' ^^Л. Комбинируя исходы этих двух экспериментов, мы получим новый эксперимент: Информация Jg, полученная в результате этого эксперимента, есть случайная величина, принимающая значения —\ogpiqj с вероятностями piqj, г = 1,...,ЛГ; j = 1,...,М. Но такое же распределение имеет, очевидно, сумма Jg1 + Jg2 независимых величин, равных соответственно информациям от экспериментов G\ и G2. Таким образом, информация, полученная от последовательности независимых экспериментов, равна сумме информации от этих экспериментов. Так как при этом, очевидно, EJG = EJG, +EJG2, то мы получаем, что для независимых G\, G2 энтропия H(G) равна сумме H(G) = H(Gl) + H(G2) энтропии экспериментов G\ и G2. 4. Если эксперименты G\ и G2 зависимы, то эксперимент G будет выглядеть следующим образом: G=fE\Au E\A2, ..., ENAM\ \ 01 b 012» •••, 4nm J ' где qij = PiPij, а р^ есть условная вероятность события Aj при условии Ех;, так что м X)ftj=tt = p№), г = 1,...,ЛГ; XI?*> = Ф = p(Aj)> i = 1, ■ • •,м. i=l
§1. Определения, свойства информации и энтропии 287 В этом случае равенство Jc = Jgx + Jg2 » вообще говоря, уже не будет иметь места. Введем случайную величину J^, равную — logp^ на множестве E{Aj. Тогда, очевидно, Jg = Jg{ + J2 • Так как P{AJ\Ei)=Vlh то величину J\ при фиксированном г можно рассматривать как информацию от эксперимента G2 при условии, что произошло событие Е{. Величину м E(J^\Et) = -J2Prj^gptj i=\ мы будем называть условной энтропией H(G2\E{) эксперимента G2 при условии Е{, а величину Е Г2 = ~Y19H {°%Рч = J2PiH(G№) условной энтропией H(G2\G\) эксперимента G2 относительно эксперимента G\. Во введенных обозначениях, очевидно, H(G) = H(Gl) + H(G2\Gl). Мы докажем, что в этом равенстве всегда H(G2\Gl) ^ Я(С2), т.е. для двух экспериментов G\ и G2 энтропия H(G) всегда не превосходит сумму энтропии H(G\) и H(G2): H(G) = H(GX x G2) ^ H(GX) + H(G2). При этом равенство имеет место только в том случае, когда qij = piqj, т. е. когда G\ и G2 независимы. Для доказательства заметим сначала, что для двух любых распределений (и\,..., ип) и (v\,..., vn) справедливо неравенство - ^2 щ log щ ^ - ^2 щ log у{, (2) причем равенство возможно лишь при уг; = щ, г = 1,...,п. Это следует из выпуклости функции log ж, в силу которой при любых аг > О У^ Щ log а, ^ log ( ^2 uiai) (равенство возможно, если только а\ — а2 = ... = ап). Полагая а, = Vi/щ, мы получим (2). Далее имеем H(Gi) + H(G2) = - ^2 VijQogPi + log qj) = - ]Г) д,, log p,-ft. Так как {piqj}, очевидно, образует распределение, то в силу (2) - ]Г q{j \ogPiqj > -^2 *з loS?0 = H(G)> при этом равенство возможно лишь при q^ = Piqj.
288 Глава 13. Информация и энтропия 5. Как мы видели в п. 3, информация, полученная в результате эксперимента G", состоящего в n-кратном повторении независимых испытаний G\, равна N i=i где i/j — число появлений исхода Ej. По закону больших чисел Vj/n-^pj при п-^оо и ijG?rtf(G,) = Hp. В заключение этого параграфа отметим, что рассмотренная мера количества информации, полученной от эксперимента, может быть выведена как единственно возможная (с точностью до постоянного множителя), если отправляться от нескольких простых требований, которые естественно предъявить к величине, количественно оценивающей информацию1). Интересно отметить также связь введенных понятий с вероятностями больших уклонений. Как видно из теорем 5.3, 5.6, разность между «смещенной» энтропией ~^2p*j\npj и энтропией — ^2p*j\np*j (p*j — Vj/n есть относительные частоты появления Ej) является аналогом функции уклонений (см. §8.8) в многомерном случае. § 2. Энтропия конечной цепи Маркова. Теорема об асимптотическом поведении информации длинного сообщения, ее приложения 1. Пусть {Хк}™=\ — стационарная конечная цепь Маркова, состоящая из одного класса существенных состояний без подклассов, и пусть Е\,...,Ех — состояния цепи. Стационарность цепи означает, что Р(Х\ = j) = ttj совпадают с финальными вероятностями. Тогда, очевидно, Р№ =3) = ^2 KkPkj = И>, Р(Х3 = j) = 7Tj И Т.Д. к Пусть Gk есть эксперимент, состоящий в выяснении значения Xk (т. е. состояния, в которое попала система на к-м шаге). Тогда, если Хк_\ = г, то энтропия А;-го шага равна H{Gk\Xk_\ = i) = ~^Pij logpij. j Энтропия стационарной цепи Маркова есть, по определению, число Я = EH(Gk\Xk.{) = H(Gk\Gk_{) = -][>,■ £>0- logpij. * j Рассмотрим первые п шагов цепи Маркова Х\,... ,Хп. Энтропия этого сложного эксперимента G^4' = G\ x ... х Gn в силу марковости равна #(G(n)) = H(G{) + H(G2\GX) + ... + Я(G„|G„_i) = - ]Г тг, logTr, + (n - \)Н ~ пН ^См., например, [21].
§2. Энтропия конечной цепи Маркова 289 при п —* со. Если бы Xk были независимы, то, как мы видели, здесь было бы точное равенство. 2. Рассмотрим теперь цепочку (Xi,...,Xn) как некоторое сообщение (событие) Сп и обозначим, как и прежде, I(Cn) = -logP(Cn) количество информации, содержащейся в сообщении Сп. Значение 1(Сп) есть функция на пространстве элементарных событий, равная информации J<7(«), содержащейся в эксперименте G^nK Покажем сейчас, что, как и для независимых Xk, эта информация с вероятностью, близкой к 1, ведет себя асимптотически как пН. Так что Н есть приближенное значение количества информации, приходящееся в среднем на одно испытание в последовательности {Х^}^. Теорема 1. При п —» со 1{Сп) -logP(Cn) п п р Утверждение теоремы означает, что все цепочки Сп при любом 6 > О можно разбить на 2 класса. Для первого класса \1(Сп)/п - Н\ < б. Сумма вероятностей элементов второго класса сходится к 0 при п —> со. Доказательство. Построим по данной цепи новую цепь Маркова {1^}^=! следующим образом. Положим Yk — (Xk,Xk+\). Состояниями этой цепи будут пары состояний (E{,Ej) цепи {Xk}, для которых pij > 0. Переходные вероятности определяются, очевидно, следующим образом: _ / 0, j фк, РШК1)-\Рк1, j = k. Заметим, что по индукции легко доказать соотношение P(i,j)(k,i)(n) = Pjk(n - l)pkh (3) Из определения {Yk} следует, что для этой цепи верна эргодическая теорема. Это видно и непосредственно из (3), при этом lim P(i,j)(k,i)(n) = *kPkh п—>оо v ,J/X ' ' Нам потребуется теперь закон больших чисел для числа попаданий Tfi(kl\(n) цепи {Yj}*?! в состояние (к,1) за время п. В силу этого закона (см. теорему 11.8) ты(п) * КкРЫ ПРИ П —> СО. п р Рассмотрим случайную величину Р(СП) Р(С„) = P(EXlEx2 • • • ЕХп) = P(EXl)P(EXl\EXl)- • • Р{ЕХи\ЕХп_х) = nmik i)(n-\) Pkl (м) Произведение здесь берется по всем парам (к,1). Поэтому (7Гг = Р(Х\ = г)) logP(Cn) = \ogpXl +^т(к1)(п- l)logpw, к,1 logP(Cn) п Р м y^^kPki^ogPki = -Н
290 Глава 13. Информация и энтропия 3. Теорема 1 имеет важное следствие. Упорядочим все цепочки Сп длины п в порядке убывания их вероятностей и будем отбирать наиболее вероятные до тех пор, пока впервые суммарная вероятность отобранных цепочек не превзойдет некоторый заранее заданный уровень а, 0 < а < 1. Число отобранных цепочек обозначим Ма(п). Теорема 2. Для каждого 0 < а < 1 существует один и тот же у logMa(n) lim = Я. п-*оо П Доказательство. Пусть б > 0 — некоторое число, которое может быть произвольно малым. Цепочку Сп отнесем к категории К\, если ее вероятность Р(СП) > 2~п^н~6>. Будем говорить, что Сп принадлежит к категории Kj, если 2~п{н+6) <Р(Сп)^2~п{н~6) и, наконец, Сп принадлежит к третьей категории К^, если Р(Сп)^2~п{н+6\ Так как по теореме 1 Р(Сп Е К\ (J-^з) ~^ 0 при п —> со, то в количество Ма{п) (этим символом мы будем обозначать и само множество отобранных цепочек) войдут только цепочки из К\ и К^. При этом последняя цепочка, вошедшая в Ма(п), обозначим ее Ca?n, будет из К^. Это значит, что Ма(п)2-п(я+*> < ^ P(Cn) < a + Р(Св|П) < а + 2~^н~6\ спема(п) Отсюда следует, что log Ma(n) \og(a + 2-n(H~6)) < + И -Ь о. п п В силу произвольности 6 log Ma(n) lim sup ^ Я. п—»оо 71 С другой стороны, цепочки из K-i, принадлежащие Ма(п), имеют суммарную (2) вероятность ^ a - Р(К\). Если М« '(п) — число указанных цепочек, то М{а\п)2-п(н-6)^а-Р{Кх). Следовательно, Мй(п)2-"(я-^а-Р№). Так как Р{К\) —> 0 при п —> со, то при достаточно большом п logMa(n) 1 a ^ Я - б + - log -. n n 2 Отсюда следует, что lim inf °ё "^ ^ Я. ■ п-*оо п Можно получить теперь полезную интерпретацию этой теоремы. Пусть N — число состояний цепи. Предположим для простоты, что N = 2т. Тогда число
§2. Энтропия конечной цепи Маркова 291 всевозможных сообщений длины п (цепочек Сп) будет равно Nn = 2пт. Предположим далее, что эти сообщения передаются с помощью двоичного кода, так что на кодирование каждого состояния нами затрачивается т двоичных символов. Значит, при таком способе передачи, назовем его непосредственным кодированием, длина сообщений составит пт (в русском языке, например, для моделирования которого можно использовать цепи Маркова, можно считать N = 32, т = 5). Утверждение теоремы 2 означает, что при больших п из этих 2пт цепочек с вероятностью 1-е, е > О, будет передаваться лишь 2пН сообщений. Вероятность появления остальных будет мала, если мы фиксируем малое е. Отсюда легко установить существование другого — более экономного кода, с помощью которого на передачу сообщения с большой вероятностью потребуется меньшее число единиц. Действительно, отобранные 2пП сообщений можно просто занумеровать с помощью того же двоичного кода и передавать их номер. На это потребуется, очевидно, пН двоичных единиц. Так как всегда Н ^ log N = т, то мы получим экономию в длительности сообщения в т/Н ^ 1 раз. Это есть частный случай так называемой основной теоремы кодирования для цепей Маркова: при больших п существует код, с помощью которого с высокой вероятностью исходное сообщение Сп может быть передано последовательностью сигналов в т/Н раз более короткой, чем при непосредственном кодировании. Приведенный выше способ кодирования, конечно, представляет собой скорее утрированный пример, чем эффективный рецепт укорачивания сообщения. По этому поводу следует отметить, что отыскание действительно эффективных способов кодирования представляет собой довольно сложную задачу. В азбуке Морзе, например, разумно более часто встречающимся буквам ставить в соответствие более короткие последовательности точек и тире. Но сокращение текста в т/Н раз при этом, конечно, не достигается. Некоторые приемы сокращения использовались и в этой книге. Например, часто встречающиеся слова «характеристическая функция» были заменены символом «х. ф.». Можно было бы добиться больших результатов, применяя, скажем, стенографию. Конструкция кода с высоким коэффициентом сокращения, безусловно, будет весьма сложной. Полученные теоремы указывают верхнюю границу для результата, которого мы при этом можем достигнуть. Так как для последовательности независимых равновероятных знаков Н = ^2~\ogN = т, то такой текст несократим. Поэтому некоторым критерием при построении различных кодов может служить близость «новых» сообщений (закодированных в новом алфавите) к последовательности равновероятных символов. Однако при этом следует учитывать, что та «избыточность» текста, с которой мы «боремся», во многих случаях представляет собой явление полезное и нужное — ведь иначе было бы невозможным выявлять опечатки или восстанавливать пропуски так же легко, как мы восстанавливаем, например, букву «р» в слове «инфомация». Читатель, видимо, знает, как трудно читать сильно сокращенный и формализованный математический текст. Так что при работе с идеальным кодом (если бы такой удалось найти) ошибки при передаче информации недопустимы, поскольку невозможно восстановить пропущенный или искаженный символ в последовательности равновероятных знаков. В связи с этим возникает одна из основных в теории информации задач о кодировании, которое оставляло бы наименьшую «избыточность», достаточную для ликвидации помех при передаче.
Глава 14 Мартингалы § 1. Определения, простейшие свойства, примеры В гл. 12 мы рассмотрели последовательности зависимых случайных величин Xq,X\,... , связанных в цепь Маркова. Зависимость характеризовалась при этом вероятностями переходов, которые определяли распределение Хп+\ при условии, что Хп известно. Это позволило весьма полно изучить свойства цепей Маркова. В этой главе будет рассмотрен другой тип последовательностей зависимых случайных величин, в котором характеризация зависимости происходит не через условное распределение Хп+\, а лишь через среднее значение Хп+\ при условии, что задана «предыстория» Xq,. .. ,ХП. Оказывается, это также позволяет получить многие весьма общие результаты об исследуемом объекте. Пусть дано вероятностное пространство (П,^, Р), и на нем задана последовательность случайных величин Xq,Xi,... . Пусть далее на (П,^,Р) выделено семейство (или поток) вложенных а-алгебр {3vi}n>0: т?0 Q i?i С • • • Q Зп С 3- Определение 1. Последовательность пар {Хп,$п\п ^ 0} , называемая стохастической последовательностью, является мартингалом (говорят также, что {Хп} есть мартингал относительно системы а-алгебр £„), если для всех п ^ 0 1) Е|Хп|<оо, (1) 2) Хп измеримы относительно $п, 3) E(Xm|Sr„) = Хп при любом т> п. (2) Последовательность {Хп,$п\п ^ 0} называется субмартингалом {супермартингалом), если выполнены условия 1)-3), но знак «=» в 3) заменен на «^» Будем говорить, что последовательность {Хп} образует мартингал (субмартингал, супермартингал), если для $п = 0"(Хо,... >Хп) пары {Хп,$п} образуют последовательность того же наименования. Субмартингалы и супермартингалы часто называют полумартингалами. Ясно, что соотношение (2) в силу свойств у. м. о. эквивалентно тому, что Е(Хп+\\$п) = Хп, поскольку в этом случае Е(Хт\5п) = E[E(Xm\Sm-\)\5n] =E(Xm_! |ff„) = ... =Xn. Аналогично обстоит дело с полумартингалами. Если {Хп} — мартингал, то E(Xn+i|cr(Xo,... ,ХП)) = Хп, и по свойству у. м.о. Е(Хп+1\а(Хп)) = Е[Е(Хп+1\*(Х0,...,Хп))\*(Хп)] = Е(Хп\а(Хп)) = Хп. Следовательно, для мартингалов, как и для цепей Маркова, Е(Хп+{\(т(Хо,...,Хп)) =Е(Хп+х\<г(Хп)).
§1. Определения, простейшие свойства, примеры 293 Однако на этом сходство кончается, так как для мартингала это равенство не сохраняется для распределений, но зато требуется, чтобы Е(Хп+\\сг(Хп)) = Хп. Пример 1. Пусть fn, n ^ 0, независимы. Тогда Хп = £() + ••• + £« образует мартингал (субмартингал, супермартингал), если Е£п = О (Efn ^ 0, E£n ^ 0). Очевидно, что Хп связаны также в цепь Маркова. п То же справедливо относительно Хп = YI €к ПРИ Е£п = 1. к=0 п Пример 2. Пусть fn, п ^ 0, независимы. Тогда Хп = Yl€k-\€k, n ^ U к=\ Хо = £о> образует мартингал, если Е£п = 0, так как E(Xn+i|a(Xo,... ,Хп)) = Xn + E(Un+Mtn))=Xn. Очевидно, что здесь {Хп} не является цепью Маркова. Пример последовательности, которая образует цепь Маркова, но не является мартингалом, можно получить, рассматривая, скажем, блуждание на отрезке с отражением от границ отрезка (пример 12.1). Наряду с множеством {0,1,...} индексов для Хп мы будем использовать и другие, например, {—со < п < оо} или {п ^ -1}, а также наборы целых чисел, включающие в себя значения ±оо, скажем, {0 ^ п ^ оо}. Эти множества будем обозначать одним символом Л/*, а мартингалы (полумартингалы) записывать в форме {Хп^п\п G Л/*}. При этом под З^оо будем понимать а-алгебру П Зп, а под Зоо будем понимать а-алгебру a I |J 3rn J, порожденную (J Зп, так что З-оо С Зп С Зоо С 3 при любом пеАГ. пеЛГ пеЛГ Определение 2. Стохастическая последовательность {Хп^п\п Е М} называется мартингалом {субмартингалом, супермартингалом), если выполнены условия определения 1 при любых п Е N, т 6 N, т > п. Если дан мартингал {Хп,$п;п Е Л/*} и левая граница по множества N конечна (например, М = {0,1,...}), то мартингал {Хп,3п} всегда можно продолжить «на всю ось», положив Зп = Зп0» Хп = ХПо при п < щ. Так же обстоит дело и с правым концом. Поэтому, если задан мартингал (полумартингал) {Хп^п',п Е Л/*}, то можно всегда, не ограничивая общности, считать, что задан мартингал (полумартингал) {Хп,$п;-оо <п< оо}. Пример 3. Пусть {Sn',—oo < п < оо} — заданная последовательность вложенных (7-алгебр и f есть заданная случайная величина на (0,3^ Р), Е|£| < оо. Тогда {Хп,3п', -оо ^ п ^ оо}, где Хп = Е(£\$п), образует мартингал. Действительно, по свойству у. м.о. при любом т ^ оо, т> п Е(Хт\5п) = E[E(£|3m)l3n] = Е(^|3п) = Хп. Определение 3. Мартингал в примере 3 будем называть мартингалом, порожденным случайной величиной £ (и семейством {$п})- Определение 4. Множество Л/+ будем называть замыканием Af справа, если 1) Л/+ = Л/\ когда максимальный элемент М конечен, 2) Л/+ = A/*(J{+oo}, если N не ограничено справа. Если М = Л/+, то будем говорить, что N замкнуто справа. Будем говорить, что мартингал (полумартингал) {ХП1$п;п Е М} замкнут справа, если N замкнуто справа.
294 Глава 14. Мартингалы Лемма 1. Мартингал {Хп,$п;п Е Л/*} порожден некоторой случайной величиной тогда и только тогда, когда он замкнут справа. Доказательство леммы очевидно. В одну сторону оно следует из примера 3. В другую — из равенства E(XN\$n) = Х„, N = sup{k,ke ЛО, так что {Хп,$п} порожден Х^. ш Приведем один интересный и более конкретный пример мартингала, порожденного случайной величиной. Пример 4. Пусть fi,f2>--- независимы, одинаково распределены, E|£i| < оо. Положим Sn = €\ + ••• + fn> X-n = —, п $-п - 0"(S„,Sn+i,...) = a(5n,^n+i,...). Тогда 3Ln С 3-п+\ и при любом А:, 1 ^ А: ^ п, E(&|y-») = E(fi|ff_n). Последнее равенство справедливо в силу симметрии. Из него следует, что п 5„ = E(S„|S_n) = J2 Е(&13-„) = пЕ(Ш~п), ^ = Е(Ш-п). п Это означает, что {Хп,$п;п ^ — 1} образует мартингал, порожденный fi. Получим ряд вспомогательных утверждений, характеризующих простейшие свойства мартингалов и полумартингалов. При этом мы часто будем ограничиваться рассмотрением лишь субмартингалов, так как соответствующие свойства супермартингалов сразу получаются переходом к последовательности Yn = —Хп, если {Хп} — субмартингал. Лемма 2. 1) Свойство {Хп,$п;п Е М} быть мартингалом эквивалентно неизменности по га ^ п функций множества (интеграла) Е(Хт;А) = Е(Хп;А) (3) при любом А Е 3>1- В частности, ЕХт — const. 2) Свойство {Хп,$п;п Е Л/*} быть субмартингалом эквивалентно монотонному возрастанию по га ^ п функций множества Е(Хт;А)^Е(Хп',А) (4) при каждом А Е $п- В частности, ЕХт |. Доказательство является очевидным следствием определений. Если выполнено (3), то, по определению у. м. о., Хп = Е(Хт\$п) и наоборот. Пусть теперь выполнено (4). Обозначим Yn = E(Xm\$n). Тогда из (4) следует, что E(Yn;A) ^ Е(Хп;А), E(Yn — Хп',А) ^ 0 при любом А £ $п. Отсюда вытекает, что с вероятностью 1 Yn = Е(Хт\$п) ^ Xn. Обратное утверждение получается столь же просто. ■
§1. Определения, простейшие свойства, примеры 295 Лемма 3. Пусть {Хпу$п;п Е Л/*} — мартингал и д(х) — выпуклая вниз функция с Е\д(Хп)\ < со. Тогда {g(Xn),$n;n Е Л/*} образует субмартингал. Если к тому лее д(х) не убывает, то утверждение сохранится и в том случае, когда {Хп,$п',п Е Л/*} — субмартингал. Доказательство. Обозначим fn+i = Хп+\ — Хп. Тогда E(g(Xn+i)\Sn) =E(9(Xn+Zn+i)\$n)- Воспользуемся свойствами у. м.о. и, в частности, неравенством Иенсена, примененным к функции д\(х) = д(Хп + х) (см. §4.8). Мы получим ЕЫби-О^») ^5l(E(e„+ll5n)) = 9i(0) = g(Xn). Точно так же проверяется утверждение для субмартингалов. ■ Лемма 4. Пусть {Хп,$п;п Е Л/*} — замкнутый справа субмартингал, Хп(а) = max(Xn,a). Тогда {Хп(а),$п;п Е Af} при любом а — равномерно интегрируемый субмартингал. Если {ХП1$п;п Е Af} — замкнутый справа мартингал, то он равномерно интегрируем. Доказательство. Пусть N = sup{k;k Е Л/*}. Тогда по лемме 3 {Хп(а),$п; п Е Л/*} — субмартингал. Следовательно, при любом с > О (Х+ = тах(0, X)) сР(Хп(а) > с) ^ Е(Хп(а); Хп(а) > с) ^ E(XN(a); Хп(а) > с) ^ ЕХ+(а), Р(ХЛа)>с)^^Ш-,0 с при с —> со равномерно по п. Поэтому мы имеем требуемую равномерную интегрируемость supE(Xn(a); Хп(а) > с) ^ supE(XN(a); Хп(а) > с) —> О, п п поскольку supP(Xn(a) > с) —> 0 при с —> со (см. лемму 3 в Приложении 3; наличие п срезки на уровне а позволило избежать оценки «отрицательных хвостов»). Если {Хп(а),$п;п Е Л/*} — мартингал, то его равномерная интегрируемость следует из первого утверждения, примененного к субмартингалу {\Хп\,$п;п Е Af}.m В какой-то мере природу мартингалов поясняет также следующий пример. Пример 5. Пусть fi,f2>-- — произвольная последовательность случайных величин, E|ffc| < со, £n = a(fb... ,fn) при п ^ 1, £о = (0,П) (тривиальная (7-алгебра), п п Тогда {JTn,5nJW ^ 1} образует мартингал. Это следует из того, что Е(5п+1 - Zn+l\Sn) = Е(Хп + £п+1 - E(fn+1|5n)l5n) = Хп. Другими словами, для произвольной последовательности {fn} последовательность Sn можно «подправить» так называемой «предсказуемой» последовательностью Zn (значение Zn определяется по Si,...,5n_i) так, что Sn — Zn будет мартингалом.
296 Глава 14. Мартингалы Лемма 5. Если {Хп^п\п ^ 0} — мартингал и д(х) — выпуклая вниз функция, Е\д(Хп)\ < оо, п ^ 0, то последовательность {g(Xn),$n; n ^ 0} образует субмартингал. Если {ХП1$п} — субмартингал и д(х) — выпуклая вниз неубывающая функция, Е\д(Хп)\ < оо, то {<7(^п),3п} также образует субмартингал. Доказательство обоих утверждений немедленно следует из неравенства Иен- сена: Е(д(Хп+х)\$п) > д(Е(Хп+1\$п)) > д(Е(Хп\$п)). Ясно, что функция д(х) = \х\р при р ^ 1 удовлетворяет условиям первой части леммы, а функция д(х) = еХх при Л > 0 — второй части леммы. § 2. О сохранении свойства быть мартингалом при замене времени на случайное. Тождество Вальда В этом параграфе ЛГ = {п ^ 0}. Напомним определение момента остановки. Определение 5. Для последовательности {$п; n ^ 0} случайную величину v будем называть моментом остановки (относительно {$п}), если {у ^ п} Е Зп при любом п ^ 0. Очевидно, что постоянная v = т является моментом остановки. Если v — момент остановки, то и(т) = min(i/, га) при любом фиксированном га также будет моментом остановки, поскольку при п ^ т выполняется v(m) ^ т ^ п, {и(т) ^ п} — П Е Ъп, при п < т {v(m) ^ п} = {и ^ п} Е #„. Если v — момент остановки, то {у — п} = {у ^ п} - {у ^ п — 1} Е Зп> {*/ ^ п} = П - {и ^ п - 1} Е Зп-ь Наоборот, если {у = п} Е Зп, то {*/ ^ п) Е Зп и, следовательно, v — момент остановки. Пусть дан мартингал {Хп,$п;п ^ 0}. Типичным примером момента остановки является момент v попадания Хп в заданное измеримое множество В : v = inf{n ^ 0: Хп Е В} (*/ = оо, если все Хп £ В). Действительно, {v = n} = {Х0 i В,..., *„_! ^,In6B}G ffn- Если i/ — собственный момент остановки {{и = оо} = 0), то J^ — случайная величина, так как 00 Xv = у v XnI{l/=n}. n=0 а-алгеброй $и будем называть а-алгебру, образованную множествами А Е 3, для которых Ap|{i/ = n} E 3n, n = 0,1,... . Можно представлять себе, что $и порождена событиями {у ^ п}(~)Вп, п = 0,1,..., где 2?п Е Зп. Ясно, что */ и Х^ измеримы относительно gv. Если i/i, vi — два момента остановки, то {v2 ^ ^i} E &,,, {1/2 ^ ^i} € 3*2, так как {*/2 ^ 1/1} = U{"2 = n}{v\ ^ n}. n Мы уже знаем, что если {Хп,$п} — мартингал, то значение ЕХп постоянно при всех п. Сохранится ли это свойство для ЕХи, где v — момент остановки? Из тождества Вальда мы знаем, что для примера 1 это так. В общем случае справедлива
§ 2. О сохранении свойства быть мартингалом. Тождество Вальда 297 Теорема 1 (Дуб). Пусть {Хп,$п;п ^ 0} — мартингал (субмартингал) и V\, vj — моменты остановки такие, что Е|Х„,|<оо, г =1,2, (5') Ищ E(|Xn|; i>2 > п) = 0. (5") П—>00 Тогда на множестве {у 2 ^ v{) E{XU2\$Ux) = XUx &XVl). (6) Это и есть обобщение мартингального (субмартингального) свойства для случайного времени. Следствие 1. Если 1/2 = ^^0 — произвольный момент остановки, то, полагая v\—n (это тоже момент остановки), получим, что на множестве и ^ п Е(Х„|5?П) = Х„, ЕХи = ЕХ0, или, что то же, при любом А Е $п f){v ^ п} Е(Хи;А) = Е(Хп;А). Для субмартингалов здесь надо вместо «=» писать «^». Доказательство теоремы 1. Чтобы доказать (6), достаточно убедиться, что для любого A Е 3^, Е(Х^;АП{^ ^ Щ}) =E{XU,',A^{V2 > щ}). (7) Так как щ дискретны, то для этого, в свою очередь, достаточно установить (7) для множеств Ап = A C\{f\ = п} Е Зп, п = 0,1,... , т. е. установить равенство П{^2 ^ п}) =Е(Хп',Ап flfo ^ п}). (8) Тем самым доказательство сведено к случаю V\ = п. Имеем р[{и2 > n}) = E(JTn; A„ f){u2 = n}) + H~ t ( Лп', Ап + E(Xn+l;Anri{v2> n+ 1}). Здесь использован тот факт, что {у2 ^ ^ + 1} Е Зп, и свойство (3) мартингала. Применяя полученное равенство т — п раз, находим Г\{п ^ V2 <т}) =Е( ГК"2^п})-Е( П^2^т}). (9) Последнее выражение в силу (5") сходится к нулю для некоторой последовательности т —> со. Так как Ап^т = Anf]{n ^ V2 < т} Т Вп = Anf]{n ^ 1/2}, то по свойству интегралов и в силу (9) Е(Х1/2;АпГ\{п^1У2})= Нт Е(Х1/2;Ащт)=Е{Хп',АпГ[{^2^п}). т—*оо Мы доказали равенство (8), а вместе с ним и теорему 1 для мартингалов. Изменения, которые надо внести в доказательство для субмартингалов, состоят в замене в нескольких местах знака равенства на неравенство. ■ Условия теоремы 1 бывают выполнены далеко не всегда, даже в довольно простых ситуациях. Рассмотрим, например, безобидную игру (см. примеры 4.8, 4.11),
298 Глава 14. Мартингалы в которой z + Sn есть капитал первого игрока после п партий в игре с бесконечно богатым противником и при условии, что игрок еще не разорился. Здесь z > О, п Sn = ^2 €k, P(ffc = ±0 — 1/2, v(z) = min{fc: Sk = -z} есть, очевидно, марковский к=\ момент; последовательность {Sn;n ^ 0}, Sq = 0 образует мартингал: Бф\ =■ —z. Следовательно, ES^) =-z/ E5n = 0, и равенство (8) при v\ = 0, v-i = rj{z), z > 0, n > 0 не имеет места. В рассматриваемом случае это означает, что не выполнено условие (5") (это связано с тем фактом, что Erj{z) = со). Вообще говоря, условия (5) теоремы 1 могут быть весьма трудными для проверки. Поэтому полезными для приложений являются следующие утверждения. Положим для краткости п £п = Хп-Хп_и & = *0, Гп = ^2Ы п = 0,1,.... к=0 Лемма 5. Для выполнения (5'), (5") {при */, = и) достаточно, чтобы EYV < оо. (10) Доказательство почти очевидно, поскольку \Хи\ ^ Yu, Е(|Х„|; 1/>п)^Е(Г„; и>п). Так как Р(у > п) —> О, ЕУ„ < оо, то остается воспользоваться свойством интегралов, в силу которого E(rj;An) —> 0, если E\rj\ < оо, Р(^4П) —►О. ■ Введем следующие обозначения: an = E(|e„||ff„-i), *l = Е(&\$п-\), п = 0,1,2,..., где 5-1 можно считать тривиальной а-алгеброй. Теорема 2. Пусть {Хп;п ^ 0} ес/яь мартингал {субмартингал) и и — момент остановки {относительно {$п = а(Хо, ..., Хп)}). 1) Если Еи<оо (11) и при всех п ^ 0 на множестве {у ^ п} Е Зп-1 выполняется an ^ c = const, (12) /wo Е|Х„|<оо, ЕХ„ = ЕХ0 (^ЕХ0). (13) 2) £сл«, кроме того, Еап = Е£п < оо, то Ех1 = Е(£а1). (14) Доказательство. В силу теоремы 1, следствия 1 и леммы 5 для доказательства (13) достаточно проверить, что условия (11), (12) влекут за собой (10). Вполне аналогично доказательству теоремы 4.2 имеем ОО П 00 00 00 п=0 *=0 fc=0 n=k k=Q
§ 2. О сохранении свойства быть мартингалом. Тождество Вальда 299 Здесь {v ^ к} = П - {и ^. к — 1} Е 3^-1- Поэтому по условию (12) Е(|Ы;" > к) = E(E(|&||3r*-i);i/ ^ к) ^ cP{v > к). Это означает, что 00 EYV ^ c^ P(i/ ^k) = cEv < оо. к=0 п Докажем теперь (14). Положим Zn = Х% — ]С а1- Нетрудно видеть, что Zn — о мартингал, так как Е(Х2+1 - X2 - cr;j+1|£„) = E(2Xn^n+1 + £2+1 ~ а1+\\дп) = 0. Ясно также, что E\Zn\ < оо и что и(п) — min(z/,n) вместе с v есть марковский момент. Для пары {Zk}, v(n) условия (5'), (5") в силу леммы 5, очевидно, всегда выполнены. Поэтому по первой части теоремы и(п) EZ„(n)=0, EX2u{n) = E^2al (15) *=i Осталось убедиться, что i/(n) v lim EX2v(n) = EXI lim еГ^еГ^ (16) П-»00 v / П-ЮО * ' *—* Второе из этих равенств следует из теоремы о монотонной сходимости (^(n) | и, 0£ ^ 0). Первое также будет следствием теоремы о монотонной сходимости, 1 2 9 поскольку Х*\—*Хи, Хи(п) Т- Чтобы убедиться в последнем, заметим, что {Xn,Snl 7i ^ 0} образует субмартингал и, следовательно, для любого А Е уп Е(*2(п);Л) = Е(Х*МП0' ^ п}) + E(xh A{){v > n}) < ^ E(X2Uf|{^ ^ n}) + Е(Е(Х2+1К?„МП{*' > n}) = = E(X2Uf|{^ < n + 1}) + E(X2+1; A f){v > n + 1}) = E(X2(n+1)U). Итак, из (15), (16) следует (14), и теорема полностью доказана. ■ Мы получили основное утверждение теоремы 2: ЕХ„ = ЕХ0 &ЕХ0) (17) для мартингалов (субмартингалов) в качестве следствия теоремы 1. Однако его можно получать и непосредственно, тем более что в основе его лежат весьма прозрачные соотношения, которые, помимо прочего, позволяют обобщить это утверждение на несобственные моменты остановки. Мы будем называть момент остановки v несобственным, если 0 < Р(у < оо) = 1 — Р(и = оо) < 1. Несобственные моменты остановки появляются, например, в случае, когда & независимы, п одинаково распределены, а = Е& < 0, Хп = ^2 €к, к=\ v — rj(x) = min{fc ^ \: Xk > ж}, х ^ 0.
300 Глава 14. Мартингалы Здесь v < со определена только на тех траекториях {Хк}, для которых supXfc > х. к Если последнее неравенство не выполнено, то мы положим v = со. Очевидно, что Р(*/ = оо) = P(supXfc ^ х) > 0. к Итак, для произвольного (возможно, несобственного) момента остановки имеем ОО 00 E(X„;i/ < со) = ^Е(Хь*/ = к) = £[E(*fc;i/ £ *) - E(Xfc;*/ £ * + 1)]. (18) fc=0 fc=0 Допустим теперь, что здесь законно изменение порядка суммирования. Тогда в силу того, что {i/^fc+1} С5ь мы получим 00 E{Xv;v <<x,) = EXQ + Y^ E(X4+1 - Хк; v > к + 1) = fc=0 °° - ЕХ0 + Y,EI(» >k+ l)Eft+i - **l3*). (19) fc=0 Так как для мартингалов (субмартингалов) последние множители =0 (^ 0), то мы получаем следующее Теорема 2А. Если изменение порядка суммирования в (18), (19) законно, то для мартингалов {субмартингалов) E{Xv\v < со) = ЕХ0 (> ЕХо). (20) Условия (11), (12) теоремы 2 есть не что иное, как условия, обеспечивающие абсолютную сходимость рядов в (18) (см. доказательство теоремы 2) и в (19), т.к. сумма абсолютных величин слагаемых в (19) оценивается значением 00 У~] EakI(v ^ k) ^. cEv < со, *=1 где, каки прежде, ак = E(|^||Srfe_i), & = Хк-Хк_\. Это и обеспечивает законность изменения порядка суммирования. Доказывать (20) с помощью (18) можно и несколько иначе, при этом выделяется простое условие, обеспечивающее требуемую законность изменения порядка суммирования. Предварительно заметим, что тождество (20) подразумевает существование E{Xv\v < со), т.е. конечность значений Е{Х^\и < со), где х± = тах(±ж,0). Теорема 2В. 1. Пусть {ХП1$п} — мартингал. Тогда условие lim Е{Хп\и > п) = 0 (21) п—>оо необходимо и достаточно для того, чтобы lim E(X„;i/^n) = EX0. (22) п-»оо Условие (21) и конечность хотя бы одного из значений Е(Х^\и < со) необходимы и достаточны для выполнения (20). 2. Если {ХП1$п} супермартингал и lim inf E(Xn\v > п) ^ 0, (23)
§ 2. О сохранении свойства быть мартингалом. Тождество Вальда 301 то lim sup E(Xu\v ^ n) ^ EXq. n—>oo Если к тому лее хотя бы одно из значений E(X^\v < со) конечно, то E(Xv\v <oo) ^ЕХ0. 3. Первые два утверждения теоремы полностью сохранятся, если в условиях (21), (23) Е(Хп;и > п) заменить на Е(Хп;и ^ п). Симметричные утверждения верны для субмартингалов. Доказательство. Как мы уже отмечали, для мартингалов Е(£&;*/ ^ А:) = 0. Поэтому в силу (21) п ЕХ0= Нт\ЕХ0 + У2Е(Ь;и2к)-Е(Хп,и2п+1)] = п-*оо I *-—' J П = lim V[E(Xt;0*)-E(Xt;i/>fc+l)] = n-»oo *—» n = lim У E(Xfc; i/ = k) = lim E(JT„; i/ ^ n). n—»oo ^—' n—юо fc=0 fc=0 Из этих же равенств следует необходимость условия (21). Если хотя бы одно из значений E(X^\v < со) конечно, то в силу теоремы о монотонной сходимости lim E(Xv\v ^ п) = lim Е{Х^\и ^ п) - lim Е{Х~\и ^ со) = п—»оо п—»оо п—»оо = Е{Хр,и < со) - Е(Л7;I/ < со) = Е(Х„;и < со). Третье утверждение теоремы следует из того, что v(n) = min(i/, п) удовлетворяет условиям п. 1 теоремы (или условиям теорем 1, 2А) и, стало быть, для мартингала {Хп} ЕХ0 - ЕХ„(п) = Е{Хи-и < п) + E(X„;i/ £ п), так что (22) влечет за собой сходимость Е(Хп; v ^ п) —> 0 и наоборот. Для полумартингалов доказательство аналогично. Теорема доказана. ■ Тот факт, что утверждения (20) и (22), вообще говоря, не совпадают даже при выполнении (/1) (т.е. не всегда lim E\Xv\v ^ п) = E(a„;i/ < со)) можно проил- п—*оо люстрировать следующим примером. Пусть & независимы, Р(£* = Зк) — Р(£к = -Зк) = 1/2, величина v не зависит от {&}, P(i/ = А:) = 2~fc, А: = 1,2,... . Тогда Xq = 0, Xfc = Xfc_i + f* при А: ^ 1 образует мартингал, ЕХп = 0, P(i/ < со) = 1, Е{Хп\и > п) = ЕХп • P(i/ > п) = 0 и условие (21) выполнено. Оно означает в силу (22), что lim P(X1/;i/ ^ п) = 0 (в этом можно убедиться и не- п—»оо посредственно). С другой стороны, значение Е(Хи\и < со) = ЕХ„ не определено, так как ЕХ^ — ЕХ~ — со. Действительно, 3*~3 г ,к, Г 3* + 3^ / 3* + 3\ 1 Хк-\> ^, {& = 3*} С {Xfc ^ -у- }, Р(х*^-у— J £-, 4fc ч оо оо ЕХ+ > L±i, ЕХ+ = £ 2-*ЕТ4+ > X)2~*~ V = °°- В силу симметрии имеем также ЕХ~ = со.
302 Глава 14. Мартингалы Следствие 2. 1. Если {ХП1$п} — неотрицательный мартингал, то условие (21) необходимо и достаточно для выполнения тождества (20). 2. Если {Хпу$п} — неотрицательный супермартингал и v — произвольный момент остановки, то всегда E(JT„;i/<oo) ^ЕХ0. (24) Доказательство. Утверждение очевидным образом следует из теоремы 2В, так как ЕХ^ = 0 и для неотрицательных супермартингалов условие (21) всегда выполнено. ■ Из теоремы 2 вытекает уже известное нам тождество Вальда (см. следствие 4.1), дополненное еще одним полезным утверждением. Теорема 3 (тождество Вальда). Пусть СьС2> •• независимы, одинаково распределены, Sn — Ci + ... + £n, So — 0 и существует E£i — а. Пусть, кроме того, v есть момент остановки такой, что Ev < оо. Тогда ESU = aEv. (25) Если к тому же а = D£fc < оо, то E[SU - иа]2 = а2Еи. (26) Доказательство. Очевидно, что Хп = Sn - па образует мартингал и для него выполнены условия (11), (12). Поэтому ЕХи — ЕХ§ — 0, что эквивалентно (25), и EX2 = Eva2, что эквивалентно (26). ■ Пример 6. Иллюстрацией использования теоремы 3 могут быть примеры 4.11, 4.16, касающиеся безобидной игры, когда Р(0ь = ±1) = 1/2, v = min{fc: Sk = %г или Sk = —z\} (z\ и 22 - капиталы соответственно 1-го и 2-го игроков). Рассмотрим теперь случай р = Р(0ь = 1) Ф 1/2. Последовательность Хп = (q/p)Sn, n ^ О, q = \-р, образует мартингал, так как E(q/p)^k = p(q/p) -f q(p/q) = 1. По теореме 3 (вероятности Pi, Pi определены в примере 4.11) Е^ = ЕХ0-1, Pi(-)Z2+P2(-)Z' = 1. Отсюда и из равенства Р\ + Р2 = I получаем (q/p)Zl - 1 Используя снова тождество Вальда, получим также ESU P\z2-P2z\ Ей = —- = . ECi v - q Отметим, что эти равенства можно было бы получить и элементарными методами 1\ но это потребовало бы больше места. В тех случаях, когда Su имеет достаточно простую природу, утверждения типа теорем 1,2 позволяют получать (или оценивать) и само распределение случайной величины v. В этих ситуациях весьма полезным является также следующее утверждение. См., например, [22], т. 1.
§2. О сохранении свойства быть мартингалом. Тождество Вальда 303 Предположим, что мы находимся в условиях теоремы 3, однако вместо условий на моменты £п мы будем предполагать, что (п удовлетворяют условию Крамера (ср. с §8.8): ^(Л) = ЕеАС < оо при некотором А Ф 0. Другими словами, если Л+ = sup(A: ^(Л) < оо) ^ 0, Л_ = inf (Л: ip(\) < оо) ^ 0, то Л+ — Л_ > 0. Везде в дальнейшем мы будем рассматривать лишь значения Л Е В = {А: ^(Л) < со} С [Л_,Л+], для которых ^(Л) < оо. Для таких Л определен положительный мартингал _ еА5, Хп~г(\у х°~1, так что ЕХп = 1. Теорема 4. Пусть v — произвольный момент остановки. Тогда / pxs» \ v < оо ^1 (27) и при любых s > 1, г > 1, 1/г + 1/s = 1 Е (eAS"; v < оо) < { Е [ф^'! (\s); v < оо] }1/г. (28) Для того, чтобы выполнялось необходимо и достаточно, чтобы .с exsv о 1/<оо) = 1, (29) A5n \ lim Е( -^—-; 1/>п) =0. (30) Замечание 1. Тождество (29) носит название фундаментального тождества Вальда. Обычно оно доказывается в литературе для п. н. конечных и : Р(и < оо) = 1, и в этом случае представляет собой обобщение на случайное время v очевидного равенства ЕеА5п = ^п(^)- Первоначально тождество (29) было установлено Вальдом для специального случая, когда v есть время выхода последовательности {5„} из некоторого конечного интервала (см. следствие 3), и сопровождалось весьма ограничительными условиями. Позже эти условия были сняты (см., например, [22] т. 2). Ниже мы получим более общее утверждение для задачи о первом выходе траектории {Sn} из области с криволинейными границами. Замечание 2. Фундаментальное тождество Вальда показывает, что при всей общности определения момента остановки v существует жесткая функциональная связь (29) на совместное распределение v и Sv (распределение & предполагается известным). В тех случаях, когда одну из этих величин удается каким-либо образом «вычислить» или «устранить» (см. примеры 6-8), тождество Вальда превращается в явную формулу для преобразования Лапласа над распределением другой величины. Если v и Sv оказываются независимыми (это бывает редко), то (29) дает связь ЕеА5" = [Е^(А)-"]'1 между преобразованиями Лапласа над распределениями v и Su.
304 Глава 14. Мартингалы Доказательство теоремы 4. Как мы уже отмечали {ХП1$п;п ^ 0} при Хп = eA5w^~n(A), Sn = 0"(Сь-. ,Сп) образует положительный мартингал, Xq = 1, ЕХп = 1. Из следствия 2 немедленно следует, что выполнено (27). Неравенство (28) есть результат применения неравенства Гельдера и (27): Г/ pXSv \ 1/5 1 E(e<A5^><oo)=E||^j V"/S(A);^ < ooj ^ 1 • [E(^'s(\);^ < оо)]1/r. Последнее утверждение теоремы, относящееся к тождеству (29), также следует из теоремы 2В. ■ Рассмотрим теперь несколько важных частных случаев. Заметим, что ip(\) является выпуклой функцией (ip"(X) > 0), гр(0) = 1 и, стало быть, существует единственная точка Ао, в которой ip(\) достигает своего минимума, чр(\о) ^ 1 (см. также §8.8). Пусть далее дана последовательность д(п) такая, что д+(п) = max(0,<7(n)) = о(п) при п —> со. Следствие 3. Если на множестве {у > п} выполняется Sn ^ д(п), то при A Е (Ло, А+] П В выполнено (29). Очевидно, что случайная величина v = vg = min{fc ^ 1: Sk > д(к)} удовлетворяет условиям следствия 3. Для моментов остановки ид можно рассматривать также случай д(п)/п —> с ^ 0, который сводится к случаю д(п) = о(п) введени- k ем случайных величин (£ = (к - с, 5£ = XXjN для которых vg = min{fc ^ 1: Доказательство следствия 3. При Л > Aq, А Е В имеем / еА5п \ \rw;u>n) ^^~п(Л)Е(еА5п;5^^п))^ ^ V>"n(A)E(e(A-Ao>5* • eA°5«;Sn ^ g(n)) ^ ^"П(А)е(А-Ао)^Е(еА^;5п ^ д(п)) ^ «- ^-п(л)е(А-Ао^+(п)ЕеАо5л = (^Х°ЛП с(х~Хо)д+(п) -> 0 при п —> оо, т. к. (Л - Ао)^+(п) = о(п). Следствие доказано. ■ Вернемся теперь к теореме 4 для произвольных моментов остановки. Оказывается, что ее утверждение можно сделать более полным, опираясь на преобразование Крамера, введенное в § 8.8, и совершенно не используя при этом мартингальный подход. Наряду с исходным распределением Р последовательности (CaJ^Li введем в рассмотрение семейство распределений Рд этой последовательности, порожденное в (R00^00) (см. §5.5) конечномерными распределениями еХхк Рх(Ск е dxk) = -—Pia e dxk), п Р\((к е dxu..., Cn € dxn) = Yl Р\(Ск е dxk). к=\ Это есть преобразование Крамера над распределением Р.
§2. О сохранении свойства быть мартингалом. Тождество Вальда 305 Теорема 4А. При любом А € В Е \r(xyu<0OrPx{v<0o)- (31) Доказательство. Так как {и = п} G 0"(Сь-■ • »Сп)» то в пространстве W1 существует борелевское множество Dn такое, что {" = n} = {(Ci,...,C»)eA»}. Далее, 4№);i/<oorS4rw;i/=n> где 0А5П ч л А(х,+...+хп) = у PA(Ci € ABb...,Cn€£ten) = PA(i/ = n). (ж,,...,жп)е1?п Это доказывает теорему. ■ Рассмотрим теперь для данной функции д(п) момент остановки и = vg = min{fc: Sk > g(k)} (ср. со следствием 3). Утверждение теоремы 4А можно дополнить в этом случае следующим образом. Через Ед мы будем обозначать математическое ожидание относительно распределения Рд. Следствие 4. 1. Если д+(п) = max(0,^(n)) = о(п), A G (Aq,A+] П В, то в соотношении (31) Рд(^ < со) = 1. 2. Если д(п) ^ 0, А < Aq, то Рд(^ < со) < 1. 3. При А = Ао распределение Рд0 величины v может быть как собственным (P\Q(vg < со) = 1), так и несобственным (Р \0(vg < со) < 1). Если Ао G (А_,А+), д(п) < (1 — e)aV2n\n\nn при всех п^ щ, начиная с некоторого щ, а = Ед0(^ , то РаоК<со) = 1. Если же A G (А_,А+), д(п) ^ 0, д(п) ^ (1 + e)aV2n\n\nn при п ^ щ, то P\Q{vg < со) < 1 {тривиальный случай £к = 0 исключается). Доказательство. Так как то ЕдОь имеет тот же знак, что и А - Ао, Ед00ь =0 (ip'(Xo) — 0> если Ао G (А_, А+)). Поэтому первое утверждение следствия вытекает из закона больших чисел для сумм п Хп = D Оь поскольку ЕдС* > 0, к=\ PA(i/ = оо) = РА(ХП < д(п) при всех п) < Р(Хп < д+(п)) -> 0 при п —> со. Второе утверждение является следствием усиленного закона больших чисел, т.к. Еда < 0, PA(i/ = со) = P(supXn ^ 0) > 0.
306 Глава 14. Мартингалы Последнее утверждение следствия вытекает из закона повторного логарифма, доказанного в § 19.2. ■ Условие д(п) ^ 0 п, 2 следствия, очевидно, можно ослабить до условия д(п) = о(п), P{v > п) > 0 при любом п > 0. Аналогичное замечание относится к п. 3. Утверждение, аналогичное следствию 4, справедливо и для времени vg_l9+ первого прохождения хотя бы одной из двух границ д±(п) = о(п) : v9.,g+ = min{fc ^ 1: Sk > д+(к) или Sk < д~(к)}. Следствие 5. При АЕБ\ {Ао} выполняется Р\(ид_,д+ < 1) = 1. Если A = AqG(A_,A+), то Р\ — распределение v — может быть как собственным, так и несобственным. Если д±(п) ^ ±(1 — e)aV2\n\nn при п ^ по, то Р\Q(vg_,g+ < со) = 1. Если д±(п) ^0 и, кроме того, д±(п) ^ ±(1 -f £:)aV21nlnn при п ^ щ, то РЛоК_^+ < 00) < 1. Доказательство. Первое утверждение вытекает из следствия 4, примененного к последовательностям {±Хп}. Второе — из закона повторного логарифма в § 19.2. ■ Рассмотрим теперь ряд соотношений, вытекающих из следствий 3, 4 (из тождества (29)) для случайных величин и = vg и v — vg_^g+. Пусть а < О, ^(^+) ^ 1- Так как i/>'(0) = а < О, ^(А) выпукла, то в области А > 0 уравнение тр(\) = 1 будет иметь единственный корень fi > 0. Полагая в (29) Х = fi, мы получим Следствие 6. Если а < О, ^(^+) ^ 1, /яо для моментов остановки v = ug и v — vg_,g+ справедливо равенство E(eftS»;v<oo) = l. Таким образом, в этом следствии мы «избавились» от «компоненты» ^"(А) в тождестве (29). «Избавиться» от компоненты eXSv можно только для блужданий специального вида. К ним относятся так называемые блуждания, непрерывные сверху (или снизу; см. § 11.8) и блуждания с экспоненциальным (или геометрическим) распределением £^~ — тах(0, £*) или (£ = - min(0, £*)• Проиллюстрируем это на примерах. Пример 7. Вернемся к задаче об игре на разорение, которая обсуждалась в примере 6. В условиях этой игры следствие 4 при g-(n) = —z\, g+(ri) = z-i дает еАчЕ(*(А)-';5,, =z2) + е^'Е^АГ^ = -*,) = 1. В частности, при z\ = z-i — z и р = 1/2 из соображений симметрии получаем 1 E(^(xyv;Sv=z) eAz + e-\z ' e(^)-") = ^tT7^- (32) Пусть A(s) — единственный в области А > 0 корень уравнения sip(\) = 1, 5 Е (0,1). Так как тр(\) = 1/2(еА + е~А), то, решая квадратное уравнение, мы находим
§2. О сохранении свойства быть мартингалом. Тождество Вальда 307 Тождество (32) дает Е^=2(еА(5)2 + е"А(5)2). Мы получили явный вид производящей функции случайной величины v, который позволяет путем разложений элементарных функций в ряд найти в явной форме вероятности Р(и = п), п = 1,2,... . Пример 8. Простые явные формулы можно получать из тождества Вальда и в задаче с одной границей, когда v = ug, g(n) = z. При этом класс распределений Ofc может быть более широким, чем в примере 7. Мы предположим, что выполнено одно из двух условий (ср. с § 11.8). 1. Блуждание является дискретным {целочисленным) и непрерывным сверху, т.е. С* целочисленны, Р(С* = 1) > 0, Р((к ^ 2) = 0. 2. Блуждание является экспоненциальным сверху, т. е. P((k>t)=ce-at (33) либо при всех t > 0, либо при t — 0,1,2,..., если блуждание целочисленно {геометрическое распределение). Величина и9 будет собственной тогда и только тогда, когда E£k = ip'(0) ^ 0 (см. гл. 9—11). Для блужданий, непрерывных сверху, тождество Вальда (29) дает (g(n) = z > 0, Su = z) eAzE^-"(A) = 1, Л>Л0. (34) Уравнение ip(\) = s~l (ср. с примером 7) при 5 ^ 1 имеет в области Л > До единственный корень A(s). Поэтому тождество (34) можно записать в виде Es" = e"zAW. (35) Из этого утверждения следует ряд результатов глав 8, 11. Из него можно найти многие свойства распределения v. Аналогичные соотношения можно получить для блужданий, экспоненциальных сверху. Пусть, например, (33) справедливо при всех t > 0. В этом случае условное распределение P(SU > t\v = n,5n_i = х) совпадает с распределением Р(С„ > г - х + t\ С„ > г - х) = е~а\ и, как видно, не зависит от п и х. Это означает, что и и Sv независимы, Sv = z+j, Е*(АГ" = [Ее^Ч"1 = е-А*~, Л0 < Л < а; а Е*" е -z\(s)a-4s) а где A(s), как и прежде, единственное в области А > Aq решение уравнения ^(А) = s~ . Отсюда можно получать все те же результаты, что и из (35). Если Р(0ь > t) = c\e~at, P(0k < -t) = С2ё~Р*, t > 0, то в задаче с двумя границами для и = vg_,g+, д+{п) = zi, 9-{n) = —z\ совершенно аналогично получаем из (29) aeXzi 6e~Xzi -Е(^(А);5, > z2) + ^-—E^A)^ ^ -zx) = 1, AG (-Да). а — А р + А
308 Глава 14. Мартингалы §3. Неравенства Отметим прежде всего, что свойство ЕХп ^ 1 последовательности Хп = Мл)-' образующей при подходящей функции ipoity супермартингал, сохраняется при замене п на момент остановки v (аналог неравенства (27)) и в значительно более общей, чем в теореме 4, ситуации, когда (& могут быть зависимы. Пусть, как и прежде, g>i — последовательность вложенных а-алгебр, (п измеримы относительно $п. Предположим, что п. в. E(eACl5n-iKV>o(A). (36) Это условие всегда выполнено, если п. в. P(Cn ^ x\ Sn-\) <: G(x), i>0(\) = - J eXx dG(x) < oo. В этом случае последовательность Хп = еА5"^п(Л) образует супермартингал: E(Xn\Sn-\)^Xn.u ЕХп^ 1. Теорема 4В. Пусть выполнено (36), v — момент остановки. Тогда справедливы неравенства (27), (28) при замене яр на ipQ. Доказательство теоремы почти дословно повторяет рассуждения в теореме 4. ■ Получим теперь неравенства для распределений Хп = max Xk и X* = max |X*| для произвольного субмартингала {Хп}. Теорема 5 (Дуб). Пусть {Хп,$п\п ^ 0} — неотрицательный субмартингал. Тогда при всех х ^ О, п ^ О Р(Хп>х)^Е^. X Доказательство. Пусть v — г)(х) = min{A; ^ 0: Xk > х}, v(n) = min(i/, n). Очевидно, что п и v{n) есть моменты остановки, v(n) ^ n, и поэтому по теореме 1 (см. (6) при vi — n,v\— v(n)) ЕХп^ ЕХи(пу Замечая, что {Хп > х} = {Xv^ > ж}, по неравенству Чебышева получим Р(Т„ > х) = P(Xv{n) >х)< ^> £ Н-. v ' XX ■ Из теоремы 5 вытекает Теорема 6 (второе неравенство Колмогорова). Пусть {$п;п ^ 0} —мартингал, для которого существует ЕХп. Тогда {ХП1$п;п ^ 0} — субмартингал, и из теоремы 5 получаем Р(Х*п>х)^Е^.
§3. Неравенства 309 Первоначально это неравенство было получено Колмогоровым для сумм Хп = £i + ... + fn независимых случайных величин £п. Теорема 6 обобщает доказательство Колмогорова на случай субмартингалов и усиливает неравенство Чебышева. Справедливо также следующее обобщение теоремы 6. Теорема 6А. Если {ХП1^п\п ^ 0} — мартингал, Е\Хп\р < со, р ^ U то {\Хп\р,$п;п ^ 0} образует неотрицательный субмартингал и при всех х > 0 Если {Хп,$п;п ^ 0} — субмартингал, ЕеХХп < со, Л > со, то {еХХп;$п} также образует неотрицательный субмартингал, Р(Хк^х) ^е~ХхЕехх\ Теорема 6А, как и теорема 6, немедленно следует из леммы 5 и теоремы 5. п Если Хп = Sn = ^2 Ok, где £* независимы, одинаково распределены и удовле- к=\ _ творяют условию Крамера: А+ — sup{A: ^(А) < со} > 0, то для Р(Хп > х) в случае а = Е& < 0 можно с помощью фундаментального тождества Вальда получить более точные неравенства. Напомним, что функция тр(Х) = ЕеА^ в случае а = тр'(0) < 0 убывает в окрестности точки А = 0 и при ^(^+) ^ 1 имеет в области А > 0 единственный корень fi уравнения ip(\) = 1. Пусть £ — случайная величина с тем же распределением, что и С*. Обозначим V+ - sup Е (е^~1) | С > 0, V- = inf E (е^~1) | С > 0 • Если p(Ct>t) = ce~at при t>0 (здесь в (33) с необходимостью а > fi ), то а av а — fi Аналогичное равенство будет иметь место для целочисленных £ с геометрическим распределением. Для других распределений будет выполняться ^+ > ^_. При выполнении названных выше условий для распределения случайной величины 5 = sup Sk справедливо следующее утверждение. к Теорема 6В. if'+e'^ ^ Р(5 > х) ^ <ф1Хе~»х. (37) Из теоремы следует, что для экспоненциальных правых частей распределения £ (см. (33)) неравенства (37) переходят в точное равенство
310 Глава 14. Мартингалы (Такой же результат мы получили в § 11.5.) Это говорит о том, что неравенства (37) неулучшаемы. Так как Sn = maxS* ^ S, то из них следует, что при любом п к^.п Доказательство теоремы 6В. Положим v = со, если S = supS* ^ х и v = 7)(х) = min{fc: Sk > х} в противном случае. Пусть далее %(ж) = Бф\ - х есть величина эксцесса уровня х. Имеем °° } Р(х(х) >v;u <oo) = Y^ / P(Sk-\ ^ ж,^*-1 edu,Ck>x-u + v) = = Y1 P(Sk-\ <:X,Sk-\ € du.Ck >x-u)P(Ck >x-u + v\(k > x-u), 00 7 E(e^x);i/ < oo) ^ ]T / P(Sfc_! ^ x,5fc_i G du,C* > x - u)^+ = = v+ X)р^ = k) = ^+p(u < °°)- Аналогично получаем E(e^w;i/ < oo) ^ ^_P(i/ < oo). Далее, в силу следствия 5 имеем 1 = E(e"5';i/ < oo) = e/iIE(e/ix(x);i/ < oo) ^ e^^+P(i/ < oo). Так как P(i/ < oo) = P(5 > x), то отсюда получаем правое неравенство теоремы 6В. Точно так же получается левое неравенство. ■ Замечание 3. Мы доказали теорему 6В с помощью фундаментального тождества Вальда. Но ее можно доказывать и непосредственно с помощью следующих соотношений V>n(A) = ЕеА5* £ ]£E(e<*+*-*>A;i/ = k) = ^Е(е(я+х<я»Ае^"*>А;1/ = к). (38) *=1 к=\ Здесь случайные величины еХх^1(и = к) и Sn - Sk независимы, при этом, так же, как и прежде E(eA*w;i/ = Jb)^ i>-P(v = k). Поэтому при А таких, что ^(А) ^ 1 п V>n(A) ^ е*1^- ^^"~*(A)P(i/ = *) ^ ^_eAxV"(A)P(i/ < п). Отсюда получаем P(Sn >x) = P(i/ ^ n) ^ ^:'e"Al.
§3. Неравенства 311 Так как правая часть от п не зависит, то это неравенство справедливо и для Р(5 > х). Оценка снизу получается аналогично. Надо лишь в исходном неравенстве (ср. с (38)) п ipn(\) = J2E(exs»;v = к) + Е(еА5»;*/ > п) к=\ доказать соотношение Е(еА5я; */ > п) = о(\) при X = fi, что мы проделывали в §2. Вернемся теперь к произвольным субмартингалам Хп и докажем еще одно неравенство, которое понадобится для теорем сходимости в следующем параграфе. Оно касается числа пересечений последовательностью Хп некоторой полосы. Пусть а < b — два заданных числа. Положим щ = О, V\ = min{n > 0: Хп ^ a}, v2 — min{n > v\\ Xn ^ 6}, "2к-\ = min{n > i/2k-2'- Хп ^ а}, ^2* = min{n > vlk-\\ Xn ^ Ъ}. Будем считать, что ит = со, если траектория {Хп} при п > vm_\ никогда не пересечет соответствующий уровень. В этих обозначениях можно определить число пересечений снизу вверх траекторией Хо,...,Хп полосы [а,Ь\ как случайную величину / , ч Г maxlfc: vyk ^ п}, если vi ^ п, via, Ь\ п) = < Л 1 /л ^ j > ^ v ' ' у 0, если i/2 >п- Обозначим (а)+ = max(0,а). Теорема 7 (Дуб). Пусть {Хп,$п\п ^ 0} — субмартингал. Тогда при всех п Е„(а,Ъ;п)^Е(Х"-а)+. (39) о — а Ясно, что само по себе неравенство (39) предполагает заданным лишь субмартингал {-ЗГ*,#ьО ^ А; ^ п}. Доказательство. и(а, Ь; п) совпадает с числом пересечений полосы [0, Ь — а] последовательностью (Хп — а)+. Но {(Хп — а)+^п;п ^ 0} образует неотрицательный субмартингал (см. пример 4) и, следовательно, можно, не ограничивая общности, считать а = 0, Хп ^ 0 и доказывать, что ЕХ Ei/(0,6;nK—1. О Пусть _ Г 1, если i/fc < j ^ i/fc+i для какого-нибудь нечетного А:, ^ — 1 0, если ик < j^ i/fc+i для какого-нибудь четного А;. На рис. 14 v\ =2,1/2 = 5, i/3 — 8; rjj = 0 при j ^ 2, 77, == 1 при 3^;^5ит.д. Нетрудно видеть (мы используем здесь преобразование Абеля), что (Xq = 0,770 = 1) п п-\ т/оХо + 5Z ЧА*} ' xj-\) = ^Z X№j - Vj+\) + VnXn ^ bi/(0,6; n). i=i i=0 Кроме того (Л/*1 означает множество нечетных чисел), {^ = 1} = U i"k < j^ i/*+i} = U [te О" - 1} - fo+i ^ з - 1}] е 3>-i.
312 Глава 14. Мартингалы О 12345678" Vl V2 V3 Рис. 14. Поэтому и в силу того, что E(Xj\Sj-\) — Xj_\ ^ 0, получим п п ЪЕи(0,Ъ;п) ^Е^ЧЛЪ ~ Ъ-i) = !>(*> " Xi-W = l) = = ]ГЕ[Е(Х,- - X^ASj^Wj = 1] = Х)Е[Е(Х,-|У,-_,) - Х,-_1;|/,- = l] < n n i=i j=i § 4. Теоремы сходимости Теорема 8 (теорема Дуба о сходимости мартингалов). Пусть {Хп,$п\-оо < п < со} — субмартингал. Тогда 1) Х-оо = Нт Хп существует п.н., EXJ^ < оо и {Хп,$п;—оо ^ п < оо} п—►—оо образует субмартингал. 2) £сл« supEX* < оо, то Х^ = Нт Хп существует п.н., ЕХ<£ < оо. £1с/ш п п^оо /с /ному же supE|Xn| < оо, то Е|Хоо| < оо. п 3) Последовательность {Хп,$п;—оо ^ n ^ со} образует субмартингал тогда и только тогда, когда последовательность {Х„} равномерно интегрируема. Доказательство. Так как {ШпХп>\\тХп} = [_1{ШпХп > Ь> а> ПтХп} рациональные (пределы берутся при п —> со), то предположение о расходимости с положительной вероятностью Р(ПтХп >limln) > О означает, что найдутся рациональные а < b такие, что Р (Нт Хп >Ь> а> Нт Хп) > 0. (40) Пусть i/(a,b;ra) — число пересечений снизу вверх полосы [а, 6] последовательностью Y\ = X_m,...,Fm == X_i, v(a,b) = lim v(a,b,m). Тогда (40) означает, m-*oo ЧТО P(i/(a,b) =oo) > 0 (41)
§ 4. Теоремы сходимости 313 По теореме 7 (примененной к последовательности Y\,..., Ym) Е(Х 1 - а)+ ЕХ+ + \а\ Ei/(a, 6; т) <С -Ц1 L. <; -> ', (42) о — а о — а ЕХ+ + |а| Е*/(а,ЬК "' ■ (43) о — а Но последнее неравенство противоречит (41) и доказывает, что P(limXn = lim Xn) = 1. Кроме того, по лемме Фату (Х*^ = НтХ+) Е-У-оо ^ ШДЕХ+ ^ ЕХ+! < оо. (44) Среднее неравенство здесь вытекает из того, что {Х+, £п} образует вместе с {Хп, $п} субмартингал (см. лемму 3) и, стало быть, ЕХ„ |- Чтобы доказать, что {Хп,$п;—оо ^ п < оо} — субмартингал, нам надо по лемме 2 убедиться, что для любого A Е У-оо С # Е(Х^00,А)^Е(Хп,А). (45) Положим Х„(а) = max(Xn,a). По лемме 4 {Хп(а),$п;п ^ 0} есть равномерно интегрируемый субмартингал. Поэтому при любом А:, -оо < А: < п, Е(Хк(а);А)^Е(Хп(а);А), Е(Х_оо(о);А) = lim E(Xk(a);A) ^ E(Xn(a);A). (46) Л—» 00 Устремляя а —> —оо, по теореме о монотонной сходимости получим (45). Второе утверждение теоремы доказывается точно так же. Надо лишь в (42), (43) правые части заменить на ЕХ„ и supEX^ соответственно. Вместо (44) получим (здесь пределы берутся при п —> оо) ЕХ+ ^НгпЕХ+ <оо, и если supE|Xn| < оо, то Е|Хоо|^ишЕ|Х„|<оо. Последнее утверждение теоремы доказывается точно так же, как первое (равномерная интегрируемость позволяет нам, наряду с (46), записать для любого A Е J? ЕСЯГоЛа); А) = lim Е(Хк(а); A) ^ Е(Хп(а); А). к-+оо В обратную сторону третье утверждение теоремы следует из леммы 4. ■ Получим теперь некоторые следствия теоремы 8. До сих пор (см. §4.8) мы при изучении сходимости у. м. о. имели дело с у. м. о. вида E(Xn|gr). Теперь из теоремы 8 можно получить полезную теорему сходимости для у. м. о. иного вида. Теорема 9 (Леви). Пусть на вероятностном пространстве (f2, ff, P) задано неубывающее семейство 5i С #2 С ... С £ а-алгебр и случайная величина f, Е|£| < оо. Пусть, как и прежде, 5оо = 0" ( U Зп) есть а-алгебра, порожденная событиями из Зь 32> • • • • Тогда при п —> оо ЕШп)^ЕШоо). (47)
314 Глава 14. Мартингалы Доказательство. Положим Хп — Е(£!£„). Мы уже знаем (см. пример 3), что {Хп,$п; 1 ^ п ^ со} есть мартингал и, следовательно, по теореме 8 п. в. существует lim Хп - Х(оо\. Остается доказать, что Х(оо) = E(f|goo) (т.е. что Х(оо) = Хоо). п—юо v ' v ' v ' Так как {X^S^l ^ п ^ °°} по лемме 4 является равномерно интефируемым мартингалом, то Е(Х{оо);А) = lim E(Xn;A) = lim E(E(£|ff„M) = EfcA) v ' п—юо п—юо при A Е #* и при любом А: = 1,2,... . Это означает, что крайние члены последнего равенства, являющиеся конечными мерами, совпадают на алгебре (J $п. По теореме о единственности продолжения меры (Приложение 1) они будут совпадать при всех A Е o~[ U #„) = Зоо- Следовательно, по определению у. м.о. Х(ро) = E(f 13оо) = ^оо- а Можно отметить также, что из равномерной интефируемости {Хп,$п;\ ^ п ^ со} следует, что в (47) можно —> заменить на —► . (1) Из теоремы 8 вытекает усиленный закон больших чисел. Действительно, обратимся к примеру 4. По теореме 8 существует предел Х-суо — lim Хп = lim (Sn/n), n—►—оо п—юо который измерим относительно остаточной (тривиальной) а-алгебры и, следовательно, с вероятностью 1 постоянен. Так как ЕХ_оо = Efi, то (Sn/n) —► Efi. ■ Можно получить также некоторые обобщения теорем о сходимости рядов п в гл. 10 на случай зависимых слагаемых. Пусть Хп — Sn = ]Г} &, и Хп образуют к=\ субмартингал (E(fn+i|3n) ^ 0). Пусть, кроме того, Е|ХП| < с при всех п при некотором с < со. Тогда существует п. н. предел 5^ = lim Sn. (Как и теорема 8, это п—юо есть некоторое обобщение теоремы о сходимости монотонной последовательности. Важнейшую роль при этом ифает условие офаниченности Е|ХП|.) В частности, если & независимы, Е& = 0, и £к имеют дисперсии а{ такие, что ^ а£ < а < оо, к=\ то 1/2 ^ а < со, Е|Х„|<(ЕХп2)1/2<(5>*) fc=l и, следовательно, 5„ —►Soo- Мы получили в качестве следствия теорему Колмогорова о сходимости рядов. Пример 8. Рассмофим ветвящийся процесс {Zn} (см. §7.7). Мы знаем, что Zn допускает представление zn = Ci+... +&.-„ где (k — одинаково распределенные целочисленные случайные величины, не зависящие между собой и от Zn_\ и представляющие собой числа потомков fc-й частицы в (п - 1)-м поколении. Если принять Zq = 1 и обозначить /i = Е&, то E(Zn\Zn_{) = fiZn.u EZn = \iEZn_x = fin. Отсюда следует, что Хп = Zn/fin образует мартингал, так как E(Xn|Xn_i) = fi ~nZn_\ — Хп_\.
§4. Теоремы сходимости 315 Теорема 10. Последовательность Хп = fi~nZn сходится почти наверное к собственной случайной величине X, ЕХ < оо. Х.ф. <р(\) случайной величины X удовлетворяет уравнению <p(li\) = /ИА)), где f(v) — Ev^k. Теорема 10 означает, что \i~nZn имеет при п —> оо собственное предельное распределение. Доказательство. Так как Хп ^ 0, ЕХп = 1, то первое утверждение немедленно вытекает из теоремы 8. Так как EvZn равно n-й итерации функции f(v), то для х.ф. получим (р„(А) = Ее'А') Р*.(А) =/(?*.-, (А)), ¥*.(А) = ^0*""А) = /(*>*._, (/ГПА)) = f(<fx.-, (-))• Поскольку Хп => X и функция / непрерывна, то отсюда получаем уравнение для х. ф. предельного распределения X : *А> = '(*(£))• В §7.7 было установлено, что в случае fi ^ 1 процесс Zn вырождается с вероятностью 1 и, следовательно, Р(Х = 0) — 1. Убедимся теперь, что в случае /а > 1 распределение X не вырождено (не сосредоточено в нуле). Для этого достаточно доказать, что {Хп,0 ^ п ^ оо} образует мартингал и что, следовательно, ЕХ = ЕХп ф 0. По теореме 8 для этого достаточно убедиться, что последовательность Хп равномерно интегрируема. Чтобы упростить рассуждения, предположим, что D£fc = а < оо и покажем, что в этом случае ЕХ„ < с < оо (это, конечно, влечет за собой требуемую равномерную интегрируемость Хп, см. §6.1). Непосредственно проверяется, что справедливо тождество ^2Vn = £[^-(/^-.)V"-2fc- k=\ Так как E[zl - biZb-xflZu-i] =(J2Zk.x (надо вспомнить равенство Drj = E(j)2 — (Erj) )), то П7 -t=(72 n2n\ - V n2n-2fc^2P 7- ..2n_2 V^ ,,-fc-l _ a /*"(/*" ~ 0 DZn-E(Zn-fi )_2^M aEZjk_1=^ <* 2^1* = / _ n—> EX2 = ii-2nEZ2n = 1 + V ** ' ^ 1 + Мы доказали таким образом, что X — невырожденная случайная величина, ЕХ = 1, DXn —> a /(/i(/i — 1)). Из последнего соотношения нетрудно получить, что DX = о /(fi(fi — 1)). Установить это можно, доказав, например, фундаментальность Хп второго порядка и тем самым (см. теорему 3 §6.1) сходимость Хп —>Х. (2)
316 Глава 14. Мартингалы § 5. Ограниченность моментов стохастических последовательностей Значительный интерес представляют условия, обеспечивающие ограниченность моментов стохастических последовательностей {Хп,$п}, которые, в свою очередь, обеспечивают стохастическую ограниченность Хп, то есть свойство supP(Xn > N) -> 0 при N -> со. п Для простоты мы ограничимся рассмотрением неотрицательных последовательностей Хп ^ 0. Разумеется, мы имели бы более полное описание асимптотического поведения Хп при п —> со, если бы могли доказать сходимость распределений Хп к предельному, как это имело место для цепей Маркова или для субмартингалов в теореме 8. Однако, такая сходимость требует, чтобы последовательность Хп удовлетворяла более жестким условиям, чем те, которые будут использованы ниже (сравним также с главой 15. Отметим также, что ограниченность ЕХп входит в качестве основного условия сходимости субмартингалов). Основными и весьма естественными элементами условий ограниченности, рассматриваемых ниже, будут отрицательность «сноса» E(fn|#n_i) в области Хп_\ > N при достаточно больших N (ср. со следствием 12.3; в противном случае траектория Хп может уходить на со) и ограниченность моментов fn = Хп - Хп_\ соответствующих порядков. Мы начнем с экспоненциальных моментов. Простейшими условиями, обеспечивающими ограниченность supEeAXn при некотором Л > 0 являются следующие: п при всех п ^ 1 и некоторых Л > 0, N < со E(eAH5„-i)/(*n-i > N) ^ <р(\) < 1, (47) E(eA^|^n_1)7(Xn_1 ^ N) ^ tf(A) < со. (48) Теорема 11. При выполнении (47), (48) Е(еА^|5о)^^(Л)е^ + ^^. (49) 1 - (р(Л) Доказательство. Обозначим через Ап левую часть в (49). Тогда в силу (47), (48) получим An = E{E[exx*(l(Xn-l>N)+I(Xn-l^N))\$n-l]\$o} ^ ^ Е [еАХ- (^(Л)7(ХП_! > N) + ф(Х)1(Хп^ ^ N)) \ %] ^ ¥>(AK-i + eXN^(X). Отсюда непосредственно находим Ап ^ А0<рп(\) + eXNi,(\) £ /(А) *С А0<рп(\) + ^-lU. Достаточными для выполнения (47), (48) являются условия: E(fnl3n-i) ^ ~£ < ° на ^-множестве {Хп_\ > N}, (50) E(eA|^|5n-i)^Vi(A)<co (51) при некотором А > 0. ■
§ 5. Ограниченность моментов стохастических последовательностей 317 Первое условие означает, что Yn = (Хп + £n)I(Xn_\ > N) образует супермартингал. Докажем достаточность (50), (51). Воспользуемся неравенством х2 ех < 1 +ж+— еи, которое следует из сравнения разложений в ряд правой и левой частей: ~ ХМ ~ |я.|*+2 ^ (к + 2)! ^ ^ 2fc! к=0 v ' fc=0 Тогда на множестве {Xn_i > ЛГ} будет выполняться Л2 E(eA^|5n-i) ^ l-A£+yE(deA,^|5n-i)- Так как х < еХх' при достаточно больших ж, то с помощью неравенства Гельдера убеждаемся, что наряду с (51) будет выполняться также E(&(AK-l)/2|3„_i)<fc(A)<oo. Отсюда следует, что при достаточно малом Л на множестве {Хп_\ > N} Л2 Хе E(eA4Sn-l) ^ 1 - А£ + -^2(Х) = <р(\) ^ 1 - — < 1. Следствие 6. £сл« <? дополнение к условиям теоремы 11 распределение Хп сходится к предельному распределению: Р (Xn < t) => Р (X < t), /яо г- ах eXNi/>(\) Еехх ^ ^-7-7. 1 - р(А) Следствие вытекает из теоремы Фату—Лебега (см. также лемму 6.1): Еехх ^ Ит ЕеАХ\ П—НУЭ ■ Получим теперь оценки для обычных моментов. Обозначим М1(п) = ЕХ1п, га(0) = 1, 7п(1) = sup supE(fn|ffn_i), n^l(jei(xn^>N) m(0 = supsupE(|{n|/|ffn.1)J Z> I. n^l to Теорема 12. Предположим, что EXq < со при некотором s > 1 и существуют N ^ 0 и е > 0 такие, что m(l) ^ -е, (52) m(s) < с < со. (53) 7Ъгдд lim inf M5-1(^) < оо- (54) п—*оо Если, кроме того, M'(n+l) > Ms(n)-c{ (55) при некотором с\ > О, то sup M5-1 (га) < со. (56)
318 Глава 14. Мартингалы Следствие 7. Если выполнены условия (52), (53) и распределение Хп слабо сходится к некоторому предельному распределению Р(Хп < £) => Р(Х <t), то EX5-1 < со. Это утверждение вытекает из теоремы Фату—Лебега (см. также лемму 6.1) EX5"1 ^ lim ЕХГ1. п—*оо ■ Утверждение следствия 7 неулучшаемо. В этом можно убедиться на примере последовательности Хп = (Хп_\ + Сп)+> где Ofc независимы и одинаково распределены. Предельное распределение Хп при ЕОь < 0 совпадает с распределением S = sup5fc (см. § 11.4). Из факторизационных тождеств можно извлечь, что Е55-1 конечно тогда и только тогда, когда Е(£+)5 < со. Схема доказательства этого факта такова. Из теоремы 11.5 следует, что ESk = сЕ(%+;77+ < со), с — const < со. Из следствия 11.1 вытекает, что оо 1 - E(eiXx+;V+ < со) = (1 - Ее'АС) /e~iXxШ(х), О где Н(х) — функция восстановления случайной величины %_ ^ 0. Так как а\ + b\x ^ H(x) ^ a-i -f bjx (см. теорему 9.4; а,-,Ь, — постоянные), то путем 00 интегрирования свертки Р(х+ > x,V+ < оо) = /Р(С > v -f x) dH(v) по частям О убеждаемся, что левая часть имеет тот же порядок малости при х —> со, как и оо / Р(С > v -f x) dv. Отсюда следует требуемое утверждение. О Вернемся к теореме 12. Отметим, что во всех наиболее часто встречающихся задачах Ms~l(n) ведет себя «регулярно»: либо эта последовательность ограничена, либо Ms~l(n) —> со. Утверждение (54) означает, что при выполнении условий теоремы 12 вторая возможность исключается. Условие (55), обеспечивающее (56), также является весьма широким. Доказательство теоремы 12. Пусть для простоты s > 1 — целое. Рассмотрим оо 5 оо Е(Х^;ХП_! > N) = JE((x + tn)s;Xn-{ G dx) = ^da JxlE(Cl\*n-\ € dx). N /=0 N Мы только увеличим правую часть, если заменим £*""' при s — I ^ 2 на |£п|5"'. Поэтому s Е(Х^Хп_{ > N) ^ ^2clsm(s - l)MlN(n - 1), f=0 где MlN(n) = E(XlniXn>N). Моменты Ms(n) = ЕХ„ удовлетворяют неравенствам Ms(n) ^ Е [(N + |£n|)5; Xn_! ^ N] + ^ Clsm(s - l)MlN(n - 1) ^ /=0 5 <: 25[ЛГ5 + с] + J2 С'ш(5 ~ l)MlN(n - 1). (57) /=0
§5. Ограниченность моментов стохастических последовательностей 319 Предположим теперь, что (54) неверно и Ms l(n) —> оо. Тогда тем более Ms(n) —> оо, и существует подпоследовательность п' такая, что Ms(n') > Ms(n' — 1). Так как Ml{n) ^ [Af'+1(n)]'//+1, то из (52) и (57) мы получаем M5(n) ^ const + Ms(n - 1) + sMs~\n - l)m(l) + o(Mi_1(n' - 1)) ^ ^ Ms(n - 1) - ^s€M''l(n' - 1) при достаточно больших n'. Это противоречит предположению Ms{n) —> оо и доказывает (54). Если (56) неверно, то существует последовательность п' такая, что Ms~ (п') —> оо, M5(n') > Ms(n — 1) — q. Остается вновь воспользоваться приведенными выше рассуждениями. Изменения в доказательстве для не целых s > 1 носят элементарный характер, и мы предоставляем их читателю. ■ Замечание 4. 1) Утверждения теорем 11, 12 останутся справедливыми, если выполнение неравенств (50) или E(fn + e\$n-\)I(Xn-\ > N) ^ 0 требовать не при всех п, а лишь для п^щ при некотором щ> \. 2) Как и в теореме 11, условие (52) означает, что последовательность (Хп + en)I(Xn-\ > N) образует супермартингал. 3) Условия теорем 11 и 12 можно ослабить, заменив их на «усредненные» условия. Рассмотрим, например, условие (47). Интегрируя его по множеству Xn_i > х > N, получим Е(еА^;Хп_! > х) ^ <р(\)Р(Хп-Х > х) или, что то же, Е{ехЬ\Хп_х>х)^<р{\). (58) Обратное утверждение о том, что (58) при любом х > N влечет (47), очевидно, не верно, так что условие (58) слабее условия (47). Аналогичное замечание справедливо относительно условия (50). Справедливы следующие обобщения теорем 11, 12. Теорема НА. Пусть при некоторых А > 0, N > 0 и всех х ^ N выполняется Е(ех^\Хп.{ >х)^<р(\)<1 E(eA^;Xn_! ^ N) ^ ф(Х) < оо. Тогда Ее™' * p"(A)Ee**<°> + p*&. 1 - <р(Л) m(l) = sup sup E(fn|Xn_i > ж), m(l) = sup sup Е(\£п\1\Х(п) > x),l > 1. Теорема 12А. Пусть EXq < оо и существуют N ^ 0, е > 0.такие, что т{\) ^ —е, rn(s) < оо ЕШ'',Хп-\ ^N)<c<cx>. Тогда справедливо (54). Если, кроме того, выполнено (55), то справедливо (56). Обозначим
320 Глава 14. Мартингалы Доказательство теорем НА, 12А совершенно аналогично доказательству теорем 11, 12. Единственным дополнительным элементом в обоих случаях является интегрирование по частям. Мы проиллюстрируем это на доказательстве теоремы ПА. Рассмотрим 00 Е(еАХя;Хп_! >N)= f еХхЕ(еч»\Хп_х e dx) = N оо = E(eA^+^;Xn_! >N)+ f \еХхЕ(ех^',Хп_{ > x)dx ^ N oo ^ E(eA(iV+^;X(n) > N) + (p(\) / ЛеАжР(Хп_! > x)dx = N oo E(eA<» - ip(X);Xn^ >N) + v?(A) J eAlP(Jf„_! 6 dx) < eXNE( ^<p(\)E(exx-';Xn-i>N). Отсюда находим pn(A) = Eexx- ^ E(eA(jr-'+4*„-i ^ N) + E(eAT";Xn_I > N) ^ ^ eXNi/>(\) + <p(\)E(exx~';Xn_x > N) ^ ^ eAJ>(A) - P(X„_! ^ N)<p(\) + р(А)р„(А); eXN1>(\) V„(A) ^ Vn(A)vo(A) + 1-*>(*)" К теоремам об ограниченности стохастических последовательностей могут быть отнесены также теорема 12.15 и следствие 12.3 о «положительной возвратности» таких последовательностей.
Глава 15 Стационарные (в узком смысле) последовательности § 1. Основные понятия Пусть (П,^, Р) — исходное вероятностное пространство и £ = (£о>£ь--«) — заданная на нем бесконечная последовательность случайных величин. Определение 1. Последовательность £ называется стационарной в узком смысле, если при любом А: распределение вектора (fn,... ,fn+fc) от п, п ^ 0, не зависит. Наряду с последовательностью £ рассмотрим последовательность (£n,£n+b • • • )• Так как конечномерные распределения этих последовательностей (т. е. распределения векторов (fm,... ,fm+fc)) совпадают, то будут совпадать и распределения самих этих последовательностей (нужно воспользоваться теоремой о продолжении меры (см. Приложение 1) или теоремой Колмогорова (см. §3.7)). Другими словами, для стационарной последовательности £ при любом п и любом В Е ЯЗ00 (обозначения см. в § 3.7) выполняется р(£ев) = Р((£п,£п+1,...)ев). Простейшим примером стационарной последовательности является последовательность независимых одинаково распределенных случайных величин £ = (&>&>•••)• Ясно, что последовательность £к = аоС* + ••• + asCk+s, к = О,1,2... , будет стационарной, но величины & уже не будут независимыми. То же справедливо и для последовательности 00 ;=о если E|Ot| < со, ^Cloyl < со или если Е£к = 0, D£k < со, ^aj < со (последние условия обеспечивают сходимость п. н. рассматриваемых рядов случайных величин; см. § 10.2). Аналогичным образом можно рассматривать «порожденные С» стационарные последовательности & = <7(С*>Сл+ь-• •)> гДе д(х) ~ произвольный измеримый функционал R°° —> Е. Другой пример — стационарные цепи Маркова. Если {Хп} — вещественно- значная цепь Маркова, имеющая инвариантную меру 7Г и переходную вероятность P(v), то цепь {Хп} с Xq €= 7Г будет образовывать стационарную последовательность, так как для нее распределение Р(Хп е В0, ..., Хп+к евк)= f ir(dX0) f Р(х0, dxx) • • • j P{xk_udxk) Во S, Вк от п не зависит.
322 Глава 15. Стационарные последовательности Произвольную стационарную последовательность £ = (£о>£ь-) всегда можно распространить до стационарной последовательности £ = (.. • £-ь£о>£ь- •.), «заданной на всей оси». Действительно, определим совместные распределения (£„,...,£„+*) при любых п, -со < п < со, и»&, к ^ О, как распределение (£о, •••>&)• Эти распределения, очевидно, будут согласованными (см. §3.7), и по теореме Колмогорова будет оо существовать единственное распределение вероятностей на К^ = YI ^ с со" fc=-oo ответствующей а-алгеброй такое, что каждое конечномерное распределение есть проекция этого распределения_на соответствующее подпространство. Остается в качестве случайного элемента £ взять тождественное отображение IK^ в себя. В некоторых последующих разделах нам будет удобно использовать стационарные последовательности, заданные на всей оси. Пусть £ — такая последовательность. Определим преобразование в пространства К?оо в себя с помощью соотношений (Ох)к = (х)к+1 =хк+и (1) где (х)к есть к-я координата вектора х Е М^, -со < А: < со. Очевидно, что преобразование в обладает следующими свойствами. 1. Оно взаимооднозначно, в определяется соотношением (в~1х)к = хк_\. 2. Последовательность J?£ снова является стационарной, и ее распределение совпадает с распределением £ : Р(0£ЕВ) = Р(£ЕВ). Последнее свойство преобразования в естественно назвать свойством «сохранять меру». Эти замечания объясняют в какой-то мере тот факт, что изучение свойств стационарных последовательностей шло исторически по пути изучения преобразований, сохраняющих меру. Исследования в этой области составляют значительный раздел современного анализа. В дальнейшем мы свяжем конструкцию стационарной последовательности с преобразованиями, сохраняющими меру, при этом эти преобразования удобнее будет считать «первичными». Определение 2. Пусть (П,^, Р) — исходное вероятностное пространство. Преобразование Т множества П в себя называется сохраняющим меру, если: 1) преобразование Т измеримо, т.е. Т~хА = {ш: Тш Е A} Е # для любого 2) преобразование Т сохраняет меру: Р(Т~1А) = Р(А) для любого А Е #. Пусть Т — преобразование, сохраняющее меру, Тп — его n-я степень, £ = £(u>) — некоторая случайная величина. Положим U£(u) = £(Тш), так что U есть преобразование над случайными величинами, ик£(ш) = £(Ткш). Тогда последовательность € = {&"««)}« = к(тпш)}~ (2) является стационарной последовательностью случайных величин. Действительно, пусть А = {ш\ £ Е В}, В Е <В°°, А\ = {ш: 0£ ЕВ}. Имеем £ = (£(а/),£(Ги;),...), 0£ = ^(Тш)^(Т2ш),...).
§1. Основные понятия 323 Поэтому ш G А\ тогда и только тогда, когда Тш G А, т.е. А\ = Т Л. Но Р(Т~{А) = Р(А) и, стало быть, P(^i) = Р(А), Р(Ап) = Р(А) при любом га, где Ап = {и>:ОпееВ}. Стационарные последовательности, определенные в (2), мы будем называть последовательностями, порожденными преобразованием Т. Для того, чтобы иметь возможность строить стационарные последовательности, определенные на всей оси, нам понадобятся преобразования, сохраняющие меру и действующие как в «положительном», так и в «отрицательном» направлениях. Определение 2А. Преобразование Т мы будем называть сохраняющим меру в обоих направлениях, если: 1) преобразование Т взаимооднозначно, область определения и область значений Т совпадают со всем П; 2) преобразования Т и Т"1 измеримы, т.е. Т~1А = {ш : Тш G A} G $, ТА = {Тш: ш G А} G 3 Для любого A G $; 3) преобразование Г сохраняет меру: Р(Т~1А) = Р(А) и, следовательно, Р(А) = Р(ТА) для любого A G £. Для таких преобразований мы можем, как и прежде, построить стационарные последовательности £, определенные на всей оси: € = {^Н}^-{«2-«)}^. Соображения, приведенные выше (перед определением 2), показывают, что такой подход «исчерпывает» все стационарные последовательности, заданные на (П,^, Р), т.е. с любой стационарной последовательностью £ можно связать сохраняющее меру преобразование Т и случайную величину £ = £о такие, что €k(v) = foCF*^)- При таком построении мы рассматриваем «выборочное вероятностное пространство» (Е00, Я3°°, Р), для которого £(ш) = ш, в = Т. Преобразование в = Т (т.е. преобразование (1)) мы будем называть преобразованием потраекторного сдвига. Оно существует всегда и «порождает» любую стационарную последовательность. Приведем теперь более простые примеры преобразований, сохраняющих меру (в обоих направлениях). Пример 1. Пусть П = {o>i,... ,о;</}, d ^ 2, есть конечное множество, # — а-алгебра всех его подмножеств, Тш{ = ш{+\, 1 ^ г ^ d - 1, Тша = ш\. Если Р(о>,) = \/d, то Т и Т~ — сохраняющие меру преобразования. Пример 2. Пусть П = [0,1), # — а-алгебра борелевских множеств, Р — мера Лебега, s — фиксированное число. Тогда Тш = ш + s (mod 1) есть преобразование, сохраняющее меру в обоих направлениях. В этих примерах пространство П является весьма бедным, что позволяет строить на них лишь стационарные последовательности с детерминированной или почти детерминированной зависимостью между элементами. Если выбрать в примере 1 £(ш) так, что £(ш{) все различны, то значение £*((*>) = £(Ткш) будет однозначно определять Ткш и, стало быть, Тк+Хш и 6j+i(o>). To же можно сказать и о примере 2, если £{ш), ш G [0,1), будет монотонной функцией ш. Как показывают рассуждения в начале параграфа, пространство ft = Ш°° является достаточно богатым, чтобы построить на нем любую стационарную последовательность.
324 Глава 15. Стационарные последовательности Итак, мы видели, что понятие преобразования, сохраняющего меру, возникает естественным образом при изучении стационарных случайных процессов. Но не только в этом случае. Они возникают, например, и при изучении динамики некоторых физических систем. Действительно, все приведенные выше рассмотрения сохранятся, если вместо вероятности Р рассматривать произвольную меру \i на (П,^). Например, для П — Rd значение р>(А), А Е 3, может быть мерой Лебега (объемом) множества А. Свойство преобразования Т сохранять меру будет означать, что любое множество А после воздействия преобразования Т (которое соответствует, скажем, изменению состояния физической системы за единицу времени) будет сохранять свой объем. Это свойство является весьма естественным для «несжимаемых жидкостей». Многие законы, которые будут установлены ниже, будут в равной мере относиться и к таким физическим системам. Вернемся к вероятностным моделям, т.е. к случаю, когда мера есть вероятность. В этих случаях оказывается, что для любого множества А, Р(А) > О, «траектория» Тпш, п = 0,1,... , для п. в. ш Е А бесконечно много раз побывает в А (п. в. относительно распределения Р). Теорема 1 (Пуанкаре). Пусть Т — сохраняющее меру преобразование, А Е £. Тогда для п. в. ш Е А соотношение Тпш Е А выполнено для бесконечно многих п ^ 1. Доказательство. Обозначим N = {ш Е А: Тпш £ А при всех п ^ 1}. Так как {ш: Тпш Е А} Е £, то нетрудно видеть, что N Е #. Очевидно, что N П T~nN = 0 при любом п ^ 1, T~mN П T_(m+n)iV = T~m(N П T~nN) = 0. Это значит, что мы имеем бесконечное число множеств T~nN, n = 0,1,2,... , которые не пересекаются и имеют одинаковую вероятность. Это означает, очевидно, что P(N) = 0. Таким образом, для каждого ш Е А \ N существует п\ = п\(и>) такое, что Тщш Е А. Применим теперь это утверждение к сохраняющему меру преобразованию Тк =Тк, к ^ 1. Тогда для каждого ш Е А \ Щ, P(Nfc) = 0, найдется п\. = щ(ш) ^ 1 такое, что (Тк)Пки Е А. Так как кпк ^ к,то теорема доказана. ■ Следствие 1. Пусть £(и>) ^ 0, А = {и: £(и) > 0}. Тогда для п. в. и Е А 00 п=0 Доказательство. Положим Ак = {о>: £(и>) ^ 1/А:} С А. Тогда в силу теоремы 1 рассматриваемый ряд расходится для п. в. ш Е Ak. Остается заметить, что А = |J Ak. ■ Замечание 1. Формально условие Р(^4) > 0 в теореме 1 и следствии 1 не требуется. Однако при его отсутствии эти утверждения становятся малосодержательными, так как множество А \ N в доказательстве теоремы 1 может оказаться пустым. Пусть, например, в условиях примера 2 множество А одноточечно А = {ш}, ш Е [0,1). Тогда если s иррационально, то Тки ни при каких к ^ 1 не попадают в А. Действительно, если допустить противное, то мы придем к существованию целых А: и 7тг таких, что ш + sk — m = ш, s = m/k, что противоречит иррациональности s.
§ 2. Свойства эргодичности 325 § 2. Свойства эргодичности (метрической транзитивности), перемешивания и слабой зависимости Определение 3. Множество i E 5 называется инвариантным (относительно сохраняющего меру преобразования Т), если Т~1А = А. Множество i 6 S называется почти инвариантным, если множества А и Т~ А отличаются друг от друга на множество вероятности 0: Р(^4 0Т_1^4) =0, где А® В — симметрическая разность i05 = AB U ~АВ. Ясно, что класс всех инвариантных (почти инвариантных) множеств образует а-алгебру, которую мы обозначим через 3 (3*). Лемма 1. Если А является почти инвариантным множеством, то найдется инвариантное множество В такое, что Р(А 0 В) = 0. оо оо Доказательство. Положим В = limsupT~n^4 (limsup^4n = П |J Ak есть мно- п=\к=п жество точек, принадлежащих бесконечно многим Ак). Тогда Т~ХВ = 00 HmsupT~(n+IM = В, т.е. В G 3. Нетрудно видеть, что А® В С U (Т~кА 0 к=0 Т^к+^А). Так как Р(Т~кА 0 Г"<*+1^) = Р(А 0 Т~х А) = 0, то Р(А 0 В) = 0. ■ Определение 4. Сохраняющее меру преобразование Т называется эргодическим {или метрически транзитивным), если каждое инвариантное множество имеет вероятность 0 или 1. Стационарная последовательность {&}, ассоциированная с таким Т (породившая Т или порожденная Т), также называется эргодической (или метрически транзитивной). Лемма 2. Преобразование Т эргодично тогда и только тогда, когда каждое почти инвариантное множество имеет вероятность О или 1. Доказательство. Пусть Т эргодично и A G 3*. Тогда по лемме 1 найдется инвариантное множество В такое, что Р(А®В) = 0. Так как Р(В) равно нулю или единице, то Р(^4) равно нулю или единице. Обратное утверждение очевидно. ■ Определение 5. Случайная величина £ = С(и) называется инвариантной (почти инвариантной), если £(ш) = ((Тш) для всех ш G П (для почти всех ш G П). Теорема 2. Пусть Т — сохраняющее меру преобразование. Следующие три условия эквивалентны: 1) Т эргодично; 2) каждая почти инвариантная случайная величина п. н. постоянна; 3) каждая инвариантная случайная величина п. н. постоянна. Доказательство. 1) => 2). Пусть Т эргодично и f почти инвариантна, т.е. £(и>) = £(Тш) п. н. Тогда для любого v Е Ш Av = {и: £(ш) ^ v} G 3* и по лемме 2 P(j4v) равно нулю или единице. Пусть V = sup{v: P(4V) = 0}. Так как Av ^ ft при v Т оо и Av I 0 при v I -оо, то |V| < оо и Р(««) < v) = р ( у {*(«) < у - ]-}) = о- Аналогично P(£(w) > V) = 0. Поэтому P(£(w) = V) = 1.
326 Глава 15. Стационарные последовательности 2) => 3). Очевидно. 3) => 1). Пусть A Е 3. Тогда /^ — инвариантная случайная величина, и так как она постоянна, то 1а = 0 или /^ = 1 п. н. Отсюда следует, что Р(^4) равно нулю или единице. ■ Утверждение теоремы остается, очевидно, в силе, если в 3) рассматривать лишь ограниченные случайные величины. Кроме того, если £ инвариантна, то срезка £/N\ = min(£, N) тоже инвариантна. Вернемся к примерам 1, 2. В примере 1 П = (ш\,... ,ud), Tw{ — ui+\ (mod d), P(u>i) = l/d. Такое преобразование T, очевидно, метрически транзитивно. В примере 2 П = [0,1), Тш = ш + s (mod 1), Р — мера Лебега. Покажем, что Т эргодично тогда и только тогда, когда s иррационально. Рассмотрим случайную величину f = f(u;) с интегрируемым квадратом Е£ (ш) < со. Тогда в силу равенства Парсеваля ряд Фурье для нее £(ш) — ]Г} апе27Гша' обладает свойством ]Г} \сп\ < со. Пусть s иррационально, а £ инвариантна. Тогда ап = E£(a;)e~2^ = ЕЦТи)е~ЪЫТш = = e-2irinsEZ(Tu)e-2iri™ = e-2irinsEZ(u)e-2*in" = e~2*insan. Для иррациональных s это равенство возможно лишь при ап = О, п ^ 1, £(и) = ао — const. Это означает в силу теоремы 2, что Т эргодично. Пусть теперь 5 = тп/п рационально (тип целые). Тогда множество п~1 ( 2к_ 2к + 1 \ будет инвариантным, Р(^4) = 1/2. Это означает, что Т не эргодично. Определение 6. Сохраняющее меру преобразование Т обладает свойством перемешивания, если для любых А\,А2 Е # при п —► со P(AinT-M2)-P(iii)PU2). (3) Рассмотрим теперь стационарную последовательность £ — (£о>£ь • • • )> порожденную Т : &Н = &(Г*(*;). Определение 7. Стационарная последовательность £ обладает свойством слабой зависимости, если & и £&+п асимптотически независимы при п —> со, т. е. для любых ВиВ2 Е 53 Р(& € ВЬ&+„ Е В2) - Р(£о € Bi)P(& € В2). (4) Теорема 3. Любая стационарная последовательность £, порожденная Т, обладает свойством слабой зависимости тогда и только тогда, когда Т обладает свойством перемешивания. Доказательство. Пусть Т обладает свойством перемешивания. Положим А{ = £ц1(В{), г = 1,2, и примем в (4) А: = 0. Тогда р(£о е в^п е в2) = р(ах п т~па2) -> р(а{)Р(а2).
§2. Свойства эргодичности 327 Пусть теперь любая последовательность, порожденная Т, обладает свойством слабой зависимости. Для заданных А\,А2 Е 5 определим случайную величину 0, если и £ А\ и А2\ 1, если w e А\А2; sv ; * 2, если ш е АХА2\ 3, если и G А\А2; и положим ffc(o>) = £(Ткш). Тогда Р(А! П Г""^) = Р(0 < fo < 3, «„ > 2) -^ Р(0 < & < 3)Р(£о > 2) = Р(А!)Р(А2). ■ Пусть {Хп} — стационарная вещественнозначная цепь Маркова с инвариантным распределением 7Г, удовлетворяющая условиям эргодическои теоремы, т.е. такая, что при каждых В Е 93, х Е R р(хпев\х0 = х)-^1т(в). Тогда {Хп} обладает свойством слабой зависимости и, следовательно, в силу теоремы 3 соответствующее преобразование Т обладает свойством перемешивания. Действительно, р(х0 бвихпб в2) = Ei(x0 е вх)Р(хп е в2 \х0), где последний множитель при каждом Xq сходится к п(В2). Поэтому рассматриваемая вероятность сходится к ir(B2)ir(B\). ш Дальнейшая характеризация свойства перемешивания будет дана в теоремах 4, 5. Введем теперь в рассмотрение несколько более широкие понятия, чем те, что даны в определениях 6, 7. Определение 8. Преобразование Т обладает свойством перемешивания в среднем, если при п —> со ±Yt9(AxnT-kA2)-+9(A)9(A2). (5) к=\ Стационарная последовательность f обладает свойством слабой зависимости в среднем, если 1 п " J2 Р(& € ВЬ& Е В2) - Р(£о € Bi)P(& € В2). (6) Теорема ЗА. Любая стационарная последовательность £, порожденная Т, обладает свойством слабой зависимости в среднем тогда и только тогда, когда Т обладает свойством перемешивания в среднем. Доказательство совершенно аналогично доказательству теоремы 3, и мы предоставляем его читателю. ■ Если {Хп} — периодическая с периодом d вещественнозначная стационарная цепь Маркова такая, что каждая из вложенных подцепей {Х,-+ш/}5|°_0, г = 0,..., d— 1, удовлетворяет условиям эргодичности с инвариантными распределениями 7Г1' на
328 Глава 15. Стационарные последовательности непересекающихся множествах Ло> • • • > <*d-b TO «общее» инвариантное распреде- ление 7Г будет равно ^г1', а цепь {Хп} будет обладать свойством слабой i=0 зависимости в среднем. В то же время очевидно, что она не будет обладать при d > 1 свойством слабой зависимости. Теорема 4. Сохраняющее меру преобразование Т эргодично тогда и только тогда, когда оно обладает свойством перемешивания в среднем. Доказательство. Пусть Т обладает свойством перемешивания в среднем, и пусть А\ € $, А2 Е 3. Тогда А2 = Т~кА2 и, стало быть, Р(А\ П Т~кА2) = Р(А{А2) при всех к ^ I. Поэтому (5) означает, что Р(А\А2) = Р(А\)Р(А2). При А\ — А2 получаем Р(^2) = Р (^2) и> следовательно, Р(^2) равно нулю или единице. Доказательство обратного утверждения мы отложим до следующего параграфа. ■ Приведем еще одно важное свойство эргодических преобразований. Теорема 5. Сохраняющее меру преобразование Т эргодично тогда и только тогда, когда для любого A Е #, Р(^) > 0> выполняется р(л}Т~па\ =1. (7) Свойство (7) означает, что множества Т~пА, п = 0,1,..., «заметают» все пространство П, что хорошо ассоциируется с термином «перемешивание». 00 Доказательство. Пусть Т эргодично. Обозначим В = (J Т~пА. Тогда п=0 Т~1В С В. Так как Т сохраняет меру, то, кроме того, Р(Т~[В) = Р(В). Отсюда следует, что Т~1В = В с точностью до множества меры нуль и, стало быть, В почти инвариантно. Так как Т эргодично, то Р(В) равно нулю или единице. Но Р(В) ^ Р(А) > 0 и, следовательно, Р(В) = 1. Обратно, если Т не эргодично, то существует инвариантное множество А, О < Р(А) < 1, и, стало быть, для него Т~пА = А, Р(В) = Р(А)< 1. Замечание 2. В §1, 2 мы предполагали явно или неявно (главным образом для простоты изложения), что координаты & стационарной последовательности £ вещественнозначны. Однако на самом деле это нигде, по существу, не использовалось, и мы могли бы так же, как при изучении цепей Маркова, считать фазовое пространство X, в котором принимают значение &, произвольным измеримым пространством. Такие конструкции могут понадобиться в следующей главе. В следующем параграфе вещественнозначность (или векторнозначность) & будет использоваться по существу. § 3. Эргодическая теорема В главе 10 мы доказали для последовательности £ь£2>-- независимых одинаково распределенных случайных величин усиленный закон больших чисел:
§3. Эргодическая теорема 329 где Sn = 5^£ь Теперь такое же утверждение мы докажем при значительно более k=o широких предположениях — для произвольной стационарной эргодической последовательности, т.е. последовательности, обладающей свойством слабой зависимости в среднем. Итак, пусть {ffc} — произвольная стационарная в узком смысле последовательность, Т — ассоциированное с ней сохраняющее меру преобразование, 3 — а-алгебра инвариантных множеств. Теорема 6 (Биркгоф, Хинчин). Если E|fol < оо, то ^1>-Е«б|3). (8) fc=0 Если последовательность {£*} {или преобразование Т) эргодична, то £l>-E&. (9) В дальнейших рассмотрениях, связанных с доказательством, мы будем пользоваться представлением & = £(Тки>) при f = £o- Нам понадобится Лемма 3. Пусть п-\ к=0 MJb(o;) = max{0,51(a;),...,5Jb(a;)}. Тогда при выполнении условий теоремы 6 /1/Ш ЛЮбоМ П ^ 1. Доказательство. При всех к ^ п имеем Sk(Tu) ^ М„(Та>) и, значит, £(u>) -f Mn(Ta;) ^ {(a;) + 5fc(Ta;) = Sk+\(w). Так как {(a;) ^ 5i(a;) - М„(Гш), то £(u;) ^ max{5!(a;),..., 5п(а;)} - Мп(Тш). Далее, так как {Мп(ш) > 0} = {max(5i(a;),... ,5n(a>)) > 0}, то Е[^(а;)7{л,п>о}(а;)] ^ E(max(5i(a;),..,,5n(a;)) - Мп(Га;)) /{мп>0}И > > Е(Мп(и>) - Мп(Тш))1{Мн>0](ш) > Е(Мп(и>) - Мп(Ти>)) = 0. ■ Доказательство теоремы 6. Утверждение (9) является очевидным следствием (8), так как для эргодического Т а-алгебра 3 тривиальна и Е(£ |3) = Е£ п.н. Поэтому нам достаточно доказать (8). Не ограничивая общности, можно считать, что Е(£|3) = 0, так как всегда можно вместо f рассматривать £ - Е(£ | 3). Пусть S = lim ^, 5 = lim ^-. Для доказательства надо установить, что СК5^5^0 п.н. (10)
330 Глава 15. Стационарные последовательности Так S(uj) = Б(Тш), то S инвариантна и, следовательно, инвариантным является также множество А£ = {S(uj) > е} при любом е > 0. Введем в рассмотрение величины 52(W) = {» + ...+Г (г*"Ч М4» = тах(0,51,...,52). Тогда в силу леммы 3 для любого п ^ 1 Е?1{м;>0] > 0. Но при п —> со {М* > 0} = { max 5fc* > 0} Т {supSfc* > 0} = 1<*<п fc>l = { sup -*■ > 0 i = I sup -p > e 1 П ^ = A£ Последнее равенство следует из того, что А£ = (S > е} С < sup — > € \. U^i * J Далее, Е|£*| ^ Е|£| -f е. Поэтому по теореме о мажорируемой сходимости Следовательно, 0 ^ ECIAe = Е(£ - е)1Ае = Е£1Ае " еР(Ае) = EIAeE(Z 13) - еР(^) = -еР(А£). Отсюда вытекает, что Р(А£) = 0 для любого е > 0, и, стало быть, Р(5 ^ 0) = 1. Аналогичным образом, рассматривая вместо f величины —f, мы получим lim \ п / п Р(-5 ^ 0) = 1, Р(5 ^ 0) = 1. Требуемые неравенства (10), а вместе с ними и теорема, доказаны. ■ Мы можем теперь закончить Доказательство теоремы 4. Нам осталось доказать, что эргодичность Т влечет за собой свойство перемешивания в среднем. Действительно, пусть Т эр- п годично, А\,А2 € $. Тогда в силу теоремы 6 (п = - ^ I(T~kA2)—>Р(А2), *=1 п'н- 1(А\)(п—>1(А\)Р(А2). Так как £п1(А\) ограничены, то имеет место также сходимость Е£п1(А\) —> Р(А2) • P(-Ai). Поэтому - J2 Р(^1 п Т~"А2) = Е/(А0С„ - Р(А{)Р(А2). Покажем теперь, что в (8), (9) имеет место также сходимость в среднем.
§3. Эргодическая теорема 331 Теорема 7. При выполнении условий теоремы 6 наряду с (8), (9) выполняется соответственно п-1 гУ>-Е(*о13) п к=0 п-1 о, ■Х)&-Ей> *=0 (И) (12) при п —> со. Доказательство. Мы воспользуемся опять представлением £& = £(Tfcu>). Для всякого £ > 0 всегда можно найти ограниченную случайную величину ((ш), ICI ^ ^> такую, что Е|£ - £| ^ £• В качестве £ можно взять, например, срезку £ на уровне N. Тогда п. ' * п * * fc=0 + Е п-1 п Х)С(т*«)-Е(С|з) *=0 + + Е Е(*|3)-Е(С|3) (13) Так как |£| ^ N, то по теореме 6 мажорируемой сходимости и в силу (8) второе слагаемое в правой части (13) сходится к нулю. Первое и последнее не превышают е. Так как е произвольно, то это доказывает (11). Сходимость (12) следует из (11) (см. доказательство теоремы 6). ■ Следствие 1. Если {&} — стационарная метрически транзитивная последовательность, а = Е& < 0, то S(u) = sup Sfc(u>) есть собственная случайная величина. Доказательство очевидно, так как при 0 < е < — а выполняется S* < (a -f e)k < О для всех А; ^ п(ш) < со. ■ Необычным в теореме 6 по сравнению с усиленным законом больших чисел 1 п~1 в главе 10 является то, что предел - X) £fc может оказаться случайной величиной. п к=0 Пусть, например, в условиях примера 1 мы положим Тик = ь>к+г и будем считать, что d — 21 четно. Тогда преобразование Т не будет эргодичным, так как множество А = {о>1,о>з,. • • ,^d-i} будет инвариантным, Р(А) = 1/2. С другой п-1 стороны, очевидно, что для любой функции £(и) сумма - X) £(Ткш) будет сходиться /-1 п к=0 с вероятностью 1/2 к ^ €(w2j+\) (если ш = Ш{ иг примет нечетное значение) Г' и с вероятностью 1/2 к ^ Z(v2j) (если и = Ш{ иг примет четное значение). Это предельное распределение и есть распределение Е(£/3).
Глава 16 Стохастически рекурсивные последовательности § 1. Основные понятия Рассмотрим два измеримых фазовых пространства (Х,Ъ$х) и (У,%$у), и пусть {£п} — последовательность случайных элементов со значениями в у. Если (П,^, Р) — основное вероятностное пространство, то {ал ffc Е В} Е £ для любого Б Е ЯЗу. Пусть, кроме того, на измеримом пространстве (X х у, У$х х ЗЗу), где 33х х ЯЗу означает а-алгебру, порожденную множествами А х В, А Е Я3;г, В Е ЯЗу, задана измеримая функция /: X х у —> X. Для простоты под X и У можно понимать вещественную прямую Е, а под 93 *, ЯЗу — <7-алгебры борелевских множеств. Определение 1. Последовательность {Xn}, n = 0,1,..., назовем стохастически рекурсивной последовательностью (с. р. п.), управляемой последовательностью {£п}, если Хп удовлетворяют соотношениям *»+!=/(*», 6.) (1) при всех п ^ 0. Для простоты мы будем считать начальное значение Xq не зависящим от {fn}. Распределение последовательности {ХП1£п} на ((Л" х У)°°, {*ВХ х %$у)°°) строится очевидным образом по конечномерным распределениям аналогично тому, как по переходной функции Р(х,В) = Р(Х\(х) Е В) строится на (А,оо,03^)) распределение цепи Маркова X. Конечномерные распределения {(Хо,£о)>- • • >№fc>ffc)} определяются соотношениями Р(Х, 6 Л|, 6 6 В,; 1 = 0,...,*) = fp(tiedylj = o,...,k)f[i(fl(x0,yo,...,yl)eAl), Во В, <=1 где /i(ж,уо) = /(ж,Уо). //(я, 2/0, •••,<//) = /(Л-1(ж,Уо,---,У/-1),У/)- Последовательность {£ПЬ не ограничивая общности, можно считать заданной при всех -со < п < со (как мы отмечали в § 15.1, для стационарной последовательности необходимое продолжение для п < 0 всегда можно осуществить с помощью теоремы Колмогорова). Стохастически рекурсивная последовательность есть объект более общий, чем цепь Маркова. Ясно, что если & независимы, то Хп образует цепь Маркова. Справедливо и более сильное утверждение: при широких предположениях относительно пространства (Х,*Вх) для любой цепи Маркова {Хп} можно построить функцию / "/
§2. Эргодичность при наличии обновляющих событий 333 и последовательность независимых одинаково распределенных случайных величин {£п} такие, что будет выполнено (1). Проще всего это понять в случае, когда X и У совпадают с вещественной прямой Е. Пусть Р(х,В), В Е 03 есть переходная функция цепи {Хп} и Fx(t) = P(x,(—oo1t)) есть функция распределения Х\(х) (Xq = х). Тогда если F~ (t) — обратная (по t) функция к Fx(t), a ^ Uo,i, то, как было установлено ранее (см., например, §6.2), случайная величина F~l(a) имеет функцию распределения Fx(t). Следовательно, если {ап} — последовательность независимых равномерно распределенных на [0,1] случайных величин, то последовательность Xn+i = F% (an) будет иметь то же распределение, что и исходная цепь {Хп}. Таким образом, рассматриваемая цепь Маркова является ср. п. с функцией /(ж,у) = F~l(y) и управляющей последовательностью {ап}, ап €= Uo,i. Для более общих фазовых пространств X аналогичная конструкция возможна, если а-алгебра 03^ является счетнопорожденной (т.е. порожденной счетным набором множеств из X; это всегда имеет место для борелевских а-алгебр в X — IRd, d^l; см. [26]). Последовательность /(-,£п) можно рассматривать как последовательность случайных преобразований пространства X в себя. Основной вопрос, который нас будет интересовать в дальнейшем, будет опять, как и в главе 12, связан с существованием предельного распределения Хп при п —> со. В последующих разделах мы рассмотрим три основных подхода к этой задаче. § 2. Эргодичность при наличии обновляющих событий. Условия ограниченности Введем а-алгебры gfn = а{£к'Л ^ к ^ n}, g£ = а{£к',к ^ п} = З^п, & = *{&; -оо < к < оо} = Sloo^. Определение 2. Событие А Е 5n+m, тп ^ 0, назовем обновляющим для с. р. п. {Хп} на отрезке [п, n+га], если существует такая измеримая функция д: Ут+ —> X, что на множестве А (т.е. при ш £ А) Хп+т+\ = g(£ni • • • > £п+т)- (2) Очевидно, что при ш Е А соотношения вида Xn+m+jk+i = gk(£n,---,£n+m+k) будут справедливы при всех к ^ О, где функция дк зависит лишь от своих аргументов и определяется событием А. Последовательность событий {Ап}, Ап Е 3n+m, гДе Целое неотрицательное число 7тг фиксировано, называется обновляющей для ср. п. {Хп}, если существует такое целое число no ^ О, что для п ^> щ при ш Е Ап выполнено соотношение (2), причем функция g одна и та же для всех п. Основной интерес для нас будут представлять «положительные» обновляющие события, т.е. события, имеющие положительную вероятность Р(Ап) > 0. Простейшим примером обновляющего события является попадание Хп в некоторую фиксированную точку xq: Ап = {Хп = xq}, при этом т = 0. Однако такое событие может иметь нулевую вероятность. Ниже мы рассмотрим еще один, более содержательный пример. Смысл введения обновляющих событий состоит в следующем. После попадания траектории {Хк,£к}, А: ^ п + га, в обновляющее множество А Е 3n+m
334 Глава 16. Стохастически рекурсивные последовательности дальнейшее течение процесса не зависит от значений {Xk}, к ^ п + га, а зависит лишь от fbfn+b-- • Это не дает полной «регенерации» процесса, с которой мы имели дело в главе 12 при изучении цепей Маркова (прежде всего потому, что теперь &, вообще говоря, зависимы), но все же позволит нам установить эргодичность последовательности Хп (примерно в том же смысле, что и в главе 12). Отметим, что, вообще говоря, событие А и, следовательно, функция g могут зависеть от начального значения Х$. В дальнейшем будет предполагаться, что последовательность {£„} стационарна. Символом U будет обозначаться сохраняющее меру преобразование сдвига ^-измеримых случайных величин, порожденное {£п}> так что U£n =fn+1, и символом Т — преобразование сдвига множеств (событий) из а-алгебры 3* : fn+1(u;) = £п(Тш). Соответственно, символами Un и Тп, n ^ 0, будут обозначаться степени (итерации) этих преобразований (так что U1 — U, Т1 = Т, U и Т суть тождественные преобразования), а символами U~n, Т~п — преобразования, обратные к Un и Тп соответственно. Последовательность событий {Aj~} назовем стационарной, если Aj- = ТкАо при всех А:. Пример 1. Рассмотрим вещественнозначную последовательность Хп+{ = (Хп + £п)+, Х0 = const ^ 0, (3) где х+ = тах(0, х), {£„} — стационарная метрически транзитивная последовательность. Используя те же рассуждения, что и в § 11.4, находим, что уравнение (3) имеет явное решение Xn = Sn_i-min(-X0,So,...,Sn_i), (4) п где 5„ = ^2 &. Из этого представления видно, что событие к=0 Ап = {и: 5„_i ^ 5П_2,..., 5n_i ^ So, Sn-i ^ -^о} является обновляющим, так как оно влечет за собой Хп = О, Хп+\ = £+, так что в этом случае га — О, д(у) = у+, щ = 0. Событие А°п = {£п-1 ^ 0, {n-i+fn-2^0,...,{„_!+... + £i О; £п-1+... + £о^-*о} можно несколько сузить, рассмотрев вместо него при п^щ событие Ап = {£n-l ^ 0,. . . ,£„_! + ... + £п_По ^ 0; £п_! + . . . + ^п_По_! ^ ^ -^0, fn-1 + • . • + fn-n0-2 ^ ~^0> • • • } = = {5П°_1 ^ О,...^ ^ 0; S**1 ^ -Х0, Cf ^ -^0,... }, где $п = £п + • • • + fn-Ь Очевидно, что Ап — ТпАо, так что Ап при п ^ щ образуют стационарную последовательность обновляющих событий: Xn+i=& при п^щ на множестве Ап.
§ 2. Эргодичность при наличии обновляющих событий 335 Если предположить, что Efi < 0, последовательность {£„} метрически тран- зитивна и, следовательно, £_i +... +f-n —> —со п. н. при п —> со, то найдется такой номер по = по(-ЗГо), что Р(-^п) > 0 при п^ щ. С другой стороны, если определить события Вп, число т и функцию д: Rm+1 -> R равенствами га = п0, Вп=ТтАп, д(уо,---,Ут) = Ут, то события Вп Е $п+т будут обновляющими для {Хп} на отрезке [п,п + га] при всех п ^ 0, так что в этом случае по можно считать равным нулю. Аналогичное соображение можно использовать и при произвольных обновляющих событиях. Поэтому в дальнейшем будем без офаничения общности предполагать, что число по, фигурирующее в определении последовательности обновляющих событий, равно нулю. Конструкции нестационарных обновляющих событий могут быть проще. В примере 1 таковыми являются события Ап = {Хп+\ — 0} Е Зоп ПРИ гп = 0, д = 0. Можно рассматривать также вложенные в Ап+т обновляющие события Апт) = {Хп О; С ^ min(-b,5^,... ,5Г!)} ^ &о,п+т при некотором га ^ 1, где S* = £п + • • • + £п+к • События An также соответствуют функции д = 0. Теорема 1. Пусть {£„} — произвольная стационарная последовательность, и для ср. п. {Хп} существует такая последовательность обновляющих событий {Ап}, что со (5) равномерно по s ^ 1. Тогда на одном с {Хп} вероятностном пространстве можно определить стационарную последовательность {Хп = UnX0}, удовлетворяющую уравнениям Хп+ = f(Xn,£n) и такую, что P{Xk = X при всех к ^ п} —> 1 при п —> со. (6) £bit/ последовательность {£„} метрически транзитивна, а события Ап стационарны, то соотношения P(Aq) > 0 и Pf(J^4nJ =1 эквивалентны и влекут за собой (5), (6). Отметим, что если так же, как и в главе 12, ввести меру 7г(Б) = Р(Х° Е В), то из сходимости (6) следует сходимость по вариации: sup \Р(Хп 6В)-7Г(В)| ->0 при га-юо. Доказательство теоремы 1. Покажем сначала, что из сходимости (5) следует, что /00 ч P(n{*n+*/tf~5Xn+fc+5}) -0 при п-+со (7) равномерно по 5^0. Для фиксированного 5 ^ 1 рассмотрим последовательность X* = U~sXs+j. Она определена при j ^ -5, Xi5 = X0, Xs_s+l = f(XL8,t-8) =
336 Глава 16. Стохастически рекурсивные последовательности /(Xq^-s) и т.д. Ясно, что событие {Xj — X* при каком-нибудь j Е [0,п]} влечет за собой событие {Xn+fc = X„+k при всех к ^> 0}. Покажем, что p(\J{Xj = X-}) -» 1 при п->оо. \ = l J Положим для простоты т = 0. Тогда для того, чтобы произошло событие Xj+\ = Xs-+\ достаточно, чтобы одновременно произошли события Aj и T~sAj+s. Другими словами, п—\ п оо U AjT-'Aj+i с и {Xj = x;} с U {*«+* = -ChJ. j=o i=i fc=o Поэтому из (5) следует (7) и сходимость Р (XZ ф Хпк +5) -> О при п -> оо равномерно по fc ^ 0 и 5 ^ 0. Если ввести метрику р: р{х,у) = 1 при х Ф у, р(х,х) = 0, то сказанное означает, что для любого б > О найдется такое ЛГ, что P(/,(XtB,XtB+') > 6) =P(p(XlXZ+$) *0)<6 при п^ N для любых fc^O, 5^0, т. е. последовательность Хк фундаментальна относительно сходимости по вероятности при каждом А:. Так как любое пространство X является полным относительно введенной метрики, то (см. лемму 4.2) существует такая случайная величина Хк, что Хк —> Хк при п —> оо. В силу специфики метрики р это означает, что при п —> оо. (8) Последовательность Xfc является стационарной. Действительно, при п —> оо P(Xk+l ф UXk) = Р (Х*"+1 # tf **") + о(1) = Р {Хпк+Х ф ХЦ\) + о(1) = о(1). Так как вероятность P(Xfc+1 Ф UXk) от п не зависит, то Хк+Х = L/Xfc п.н. Далее, Xn+fc+i = /(Xn+fc,fn+fc) и, следовательно, **+! = U-nf(Xn+k^n+k) = /(*?,&)■ (9) Здесь правая и левая части сходятся по вероятности к Хк+Х и f(Xk,£k) соответственно. Это означает, что Для доказательства сходимости (6) остается заметить, что в силу (9) значения Хк и Хк, совпав при каком-нибудь А:, при больших значениях А: уже не различаются. Поэтому наряду с (8) справедливо соотношение р(и{Х%фХк})=р(и{Хк+пфХк+п})-+0 при П-+СО, что эквивалентно (6). Последнее утверждение теоремы вытекает из теоремы 15.5. ■
§ 2. Эргодичность при наличии обновляющих событий 337 Замечание 1. Оказывается, что условие (5) является и необходимым для сходимости (6) (см. [6]). Более подробно о сходимости с. р. п. и их обобщений, а также о связи условий (5) с условиями (I), (II) главы 12 см. в [6]. В примере 1 последовательность X легко найти в явном виде: Xk=supS{_v S~l=0. (10) Эти случайные величины в силу следствия 15.1 будут собственными. Нетрудно видеть также, что при Хо = 0 (см. (4)) и-пхп+к\хк. (и) Рассмотрим теперь условия офаниченности с. р. п. в пространствах X = [0, со) и X = (—со,со). Утверждения об офаниченности мы будем формулировать в форме существования стационарных мажорант, т. е. стационарных последовательностей М„ таких, что Хп ^ Мп при всех п. Это позволит использовать эти результаты для построения стационарных обновляющих событий. Мы будем строить мажоранты для более широкого, чем ср. п., класса случайных последовательностей, удовлетворяющих неравенствам Xn+1^(Xn + /i(Xn, £„))+, (12) где измеримая функция h в свою очередь будет оцениваться достаточно простыми функциями от Хп и £п. Последовательность {fn}, как и прежде, мы будем предполагать заданной на всей оси. Теорема 2. Предположим, что существуют число N > 0 и измеримая функция д\, обладающая свойством Egi(fn) < 0, такие, что ,, v . Г 9\{У) при х> N, h{X'y)^\9l(y) + N-x при x^N. (13) Тогда если Xq ^ М < со, то стационарная последовательность Мп = тах(М,ЛГ) + sup S3n_v (14) j>-i где Sn = 0, SJk = g\(£k) + • • • + 9\(€k-j), образует мажоранту для последовательности Хп, удовлетворяющей (12). Доказательство. Положим для краткости <7i(&) = С» и обозначим тах(М,ЛГ) — Z, Zn = Хп - Z. Тогда Zn будут удовлетворять соотношениям Zn+l <^(Zn + Z + Cn)+ - Z ^ (Zn + Cn)+ при Zn> N - Z, Zn+X ^(iV + C„)+-^^Cn+ при Zn^N-Z. Рассмотрим теперь последовательность {Yn}, определенную соотношениями Yq = 0, yn+1 = (rn + Cn)+- Предположим, что Zn ^ Y„. Тогда если Zn > N - Z, то Zn+\ ^ (Z„ + £„)+ ^ (Yn +Cn)+ = *"„+,. Если Zn ^ N - Z, то Zn+i ^ Cn ^ (Y„ + C»)+ = Yn+l. Так как
338 Глава 16. Стохастически рекурсивные последовательности Zq ^ 0 = У(ь то очевидно, что Zn ^ Yn при всех п. Но решение уравнения для Yn нам известно и в силу (10), (11) Xn-Z^ sup SJn_v Теорема доказана. ■ Теорема 2А. Предположим, что существуют число N > 0 и измеримые функции 9\, 92, обладающие свойствами E<7i(£n)<0, Eg2(tn)<oo (15) h(x,y) ^ \ и такие, что 9\(у) при x>N, .9\(у)+9г(у) при x^N. Тогда если Xq ^ М < со, то выполнены условия теоремы 2 (возможно, при других N и д\) и для Хп существует стационарная мажоранта вида (13). Доказательство. Обозначим g — — Egi(fn) > 0 и найдем число L > 0 такое, что Е(д2(£п); £2(61) > £) ^ #/2- Введем функцию д\(у) = дх(у) + д2(у)1(92(у) > L). Тогда Е^(£п) ^ -д/2 < 0 и ^д\(у)+92Ш(х^Ю-9i(y)i{gi(y) > ^К ^ д\(у) + Ы(х ^N)^ д\(у) + (L + N - x)l(x ^ N) ^ ^ д\(у) + (L + N - х)1(х ^L + N). Это означает, что имеют место неравенства (12), в которых надо вместо N взять N* = N + L. Теорема доказана. ■ Еще раз отметим, что в теоремах 2, 2А не предполагалось, что {Хп} есть с. р. п. Читатель может заметить сходство условий теорем 2, 2А с условиями ограниченности в § 14.5, и в теореме 12.5 и следствии 12.3. Форма утверждений теорем 2, 2А позволяет строить стационарные обновляющие события для весьма широкого класса неотрицательных (X = [0,оо)) с. р. п., имеющих, скажем, «положительный атом» в точке нуль. Такие последовательности удобно записывать в виде Xn+{=(Xn + h{Xn,Zn))+. (17) Пример 2. Пусть с. р. п. (см. (1)) описывается уравнением (17) и удовлетворяет условиям (13) или (16), где функция h достаточно «регулярна», чтобы Cnj = r\{h(t,£n) ^ t} при любом Т было событием (достаточно, например, чтобы h имела не более чем счетное число точек разрыва по t; тогда несчетное пересечение П в определении Спр можно записать в виде счетного пересечения). Пусть, кроме того, существует L > 0 такое, что P(Mn<L,Cn,L)>0, (18) (М„ определено в (14)). Тогда событие Ап = {Мп < L}Cn^, очевидно, является положительным стационарным обновляющим событием с функцией д(у) = (/&(0,г/))+,
§3. Эргодичность и монотонность 339 т = 0. Стало быть, с. р. п., удовлетворяющая (17), удовлетворяет условиям теоремы 1 и является эргодической в смысле утверждения (6). Может оказаться, что за один шаг из точки t ^ L невозможно достичь точки нуль, но это может оказаться возможным за т > 1 шагов. Если В есть множество таких (£„,... fn+m), которые осуществляют такой переход, и Р(Мп < L,B) > 0, то события Ап = {Мп < L}B также будут положительными стационарными обновляющими событиями. § 3. Условия эргодичности, связанные с монотонностью / Рассмотрим теперь условия эргодичности ср.п., связанные с аналитическими свойствами функции / в (1). Как уже отмечалось, последовательность /(ж,^), к — 1,2,..., можно рассматривать как последовательность случайных преобразований пространств X в себя. Соотношение (1) показывает, что Хп+\ есть результат (п -f 1)-кратного применения к начальному значению Xq = ж Е X этих случайных преобразований /(•,&), к = 0,1,...,п. Если обозначить через £„+к вектор £п+* = (&»>••• An+k) и через /к — к-ю итерацию функции /, то представление (1) дает возможность при Xq — ж записать Хп+\ = Хп+\(х) = /п+1(ж,£о), где /1(ж,г/!) = f(x,yi), /2(2;,г/1,2/2) = /(/(я> 2/0,2/2) и т.д., так что справедливы «прямые» и «обратные» уравнения fn+i(x>$)=f(f«(x>$~l)>tn)=f«(f(x,ZoUi)- 09) В этом параграфе будут изучаться с. р. п., для которых функция / в представлении (1) обладает свойством монотонности по первому аргументу. Для этого мы должны предполагать, что в пространстве X определено отношение частичного порядка «^». В пространстве X = Rd векторов ж = (ж(1),... ,ж(й)) (или в его подпространствах) отношение порядка «^» можно вводить естественным образом, полагая х\(-) ^ жг(*)» если ПРИ всех ^ выполняется ж^А:) ^ Х2(к). Будем предполагать, далее, что для каждой неубывающей последовательности х\ ^ х2 ^ ••• ^ #„ ^ • •• существует предел ж Е X, т.е. такой наименьший элемент ж Е X, для которого х\. ^ ж при всех к. Мы будем писать в этом случае ж& \ ж или lim х\. = ж. В X = Rd такая сходимость будет означать к—>оо обычную сходимость. При этом пространство Rd необходимо пополнить точками с бесконечными координатами. Теорема 3 (Л ой нес). Пусть преобразование f — /(ж, у) и пространство X удовлетворяют следующим условиям'. 1) существует такое xq € X, что /(жо,г/) ^ жо при всех у Е У', 2) функция f монотонна по первому аргументу: f(x\,y) ^ /(ж2,у), если х\ ^ х^\ 3) функция f непрерывна по первому аргументу относительно введенной сходимости: /(жп,г/) Т /(ж,у), если хп | ж. Тогда существует такая стационарная случайная последовательность {Хп}, удовлетворяющая уравнению (1) : Хп+Х = UXn = f(Xn,£n), что U~nXn+s{xQ) T Xs при п -> оо, (20) где сходимость имеет место для всех элементарных исходов.
340 Глава 16. Стохастически рекурсивные последовательности Так как распределения Хп и U пХп совпадают, то в случае, когда сходимость случайных величин 7]п Т V означает сближение (в подходящем смысле) их распределений (как это имеет место в X — Rd), из теоремы 1 следует также сходимость при п —> со распределений Хп к распределению X . Замечание 1. Существенным недостатком этой теоремы является то, что она справедлива лишь для одного начального значения Хо = xq. Этот недостаток исчезает, если точка х$ достижима с вероятностью 1 из любого х Е X, а & независимы. В этом случае xq, скорее всего, будет положительным атомом, и применима также теорема 12.12 для цепей Маркова. Предельная последовательность X5 в (20) может быть и «несобственной» (в пространствах X — Ш она может принимать и бесконечные значения). Последовательность {Xs} будет собственной, если с. р. п. {Хп} удовлетворяет, например, условиям теоремы 2 или теорем § 14.5. Доказательство теоремы 3. Обозначим v7k = fh+s(xo,C~h ) = U~kfk+s(x0,Zs0+k~l) = U~kXk+s(x0). Здесь индекс —А: указывает номер элемента управляющей последовательности {^п}^°=_00, начиная с которого элементы этой последовательности используются для построения с. р. п. Индекс s указывает «момент времени», в который мы наблюдаем состояние с. р. п. Из «обратного» уравнения в (19) получаем v;k-{ = fk+s{f(xo,U-i),£-kl) > f^s(x0jC~kl) = v;k. Это значит, что последовательность vjk возрастает с ростом А: и, стало быть, существует такая случайная величина Xs Е X, что v~k = U~kX(xQ,k + s) T Xs при к —> оо. Далее, vjk есть функция от fi^1. Стало быть, Xs есть функция от ^: Xs = G(C~d)- Поэтому UXS = UG(C~™) = G(Coo) = Xs+\ что означает стационарность {Xs}. Используя «прямое» уравнение в (19), получаем, что v7k~l = /(/*+.(«o,^-i),6-i) = /К-Г\б-0- Переход к пределу при к —> оо в силу непрерывности / дает Xs = f(Xs~\£s_\). Теорема доказана. ■ Пример 1, очевидно, удовлетворяет всем условиям теоремы 3 при X = [0,оо), ж0 = 0, f(x,y) = (x + y)+. § 4. Условия эргодичности для сжимающих в среднем преобразований, удовлетворяющих условию Липшица В этом параграфе мы будем предполагать, что X есть полное сепарабельное метрическое пространство с метрикой р. Рассмотрим следующие условия на итерации /^(ж,^"1) = Хк(х). (В) (ограниченность). Для некоторого xq E X и любого б > 0 найдется такое N = Ns, что для всех п ^ 1 P(p(x0lXn(x0) > N) = P(p(x0Jn(x0^o~1)) >N) <6. Очевидно, что ср. п., удовлетворяющие условиям теорем 2, 2А или теорем § 14.5, будут удовлетворять (В).
§ 4. Эргодичность для липшицевых преобразований 341 (С) (сжатие в среднем). Функция f непрерывна по первому аргументу и, кроме того, выполнено следующее условие: Существуют числа т ^ 1, /3 > О и измеримая функция с : Ет —> R такие, что при всех х 1, Х2 p(fm(xU£^l),fm(x2,tf-1)) ^ c(tf-l)P(xUX2), т-1Е\пс($-{) ^-/3<0. Отметим, что условия ограниченности и сжатия ((В) и (С)), вообще говоря, между собой не связаны. Пусть, например, X — R, р(х,у) = \х-у\, /(ж,у) = Ьх + у, Хп+{ = ЬХп + £„, Хо ^ О, f n ^ 0. Тогда при 0 < Ь < 1 условие (С) выполнено очевидным образом, так как 1/(жь2/) ~ /(ж2>2/)1 = Ъ\х\ - х2\. В то же время условие (В) будет выполнено тогда и только тогда, когда Е1п£о < °°. Действительно, если Е1п£о = °°> т° п-н- бесконечно много раз наступает событие ln£fc > -2ЫпЬ. Но Хп+\ распределено так же, как п п ЬП+1Х0 + Y, Ь*& = Ьп+1Х0 + 5>хр{ЫпЬ + 1п&}, fc=0 k=0 где сумма в правой части имеет неограниченно растущее с ростом п число слагаемых, больших ехр{—A: In6}. Это означает, что Х(п -f 1)—>оо при п —> со. Аналогично рассматривается возможность Е 1п& < оо. Тот факт, что из (В), вообще говоря, не следует (С), очевиден. Будем считать, как прежде, что «управляющая» стационарная последовательность {£п}£°=-оо задана на всей оси, и будем обозначать через U соответствующий сохраняющий распределения оператор сдвига. Сходимость по вероятности и п. н. последовательности А'-значных случайных величин г)п Е X : rjn-^rj, r)n—>rf определяется естественным образом с помощью соотношений: P(p(rjn,rj) > 6) —> 0 при п —> оо и P(p(w,ri) > б хотя бы для одного к^ п) —> 0 при п —> оо для любого 6 > 0 соответственно. Теорема 4. Пусть выполнены условия (В), (С). Тогда существует такая стационарная последовательность {Хп}, удовлетворяющая (1) : Хп+Х = UХп = f(Xn,£n), что для любого фиксированного х U~nXn+s(x)—>XS при п->оо. (21) Эта сходимость равномерна по х из любого ограниченного множества С С X. Из теоремы 2 следует слабая сходимость при п —* оо распределений Хп(х) к распределению X . Условие (В), очевидно, необходимо для эргодичности. Как показывает пример обобщенной авторегрессии, рассмотренный ниже, условие (С) в ряде случаев также оказывается необходимым. Обозначим Yn = U~nXn(xo). Нам потребуется Лемма 1. Пусть выполнены условия условия (В), (С) и стационарная последовательность {с(€*т+т~ )}^=-оо эРг°дична. Тогда для любого 6 > 0 найдется такое щ, что при всех к ^ 0 P(p(Yn+k,Yn) < 6 при всех п^щ)^\-6. (22)
342 Глава 16. Стохастически рекурсивные последовательности Для эргодичности {с(£*™+т )} достаточно, чтобы преобразование Тт было метрически транзитивным. Утверждение леммы означает, что равномерно по А: с вероятностью 1 расстояние p(Yn+k,Yn) стримится к нулю при п —> со. Соотношение (22) можно записать также в виде Р(А6) ^ <5, где Аб= U {p(Yn+k,Yn)>6}. Доказательство. В силу (В) существует такое N = Ns, что при всех А: ^ 1 P(p(x0,Xk(x0))>N) ^-. Поэтому Р(А6) ^ б/З + Р(А6;р(х0,0п^) ^ N). Случайная величина вщк = U~n~kx хХк(хо) имеет то же распределение, что и Хк(хо). Далее, в силу (С) p(Yn+k,Yn) ^p(fn+k{x0^Zn-k)jn(x0^Zln)) ^ ^ (t-m)p(fn+k-m(xO,Z-™-k), fn-m(xo,£~™~ )) = = c(t:lm)p(U-n-kXn+k-m(x0), U-nXn-m(x0)). (23) Обозначим через Bs множество чисел п, допускающих представление вида п = lm + s, I = О,1,2,..., 0 ^ 5 < га, и положим А; = 1пс(£^~ )т~ ), j = 1,2,... . Тогда для п Е Bs из (23) и подобных ему соотношений получаем p(Yn+k,Yn) ^ ехр{^\1}р(и-п-кХк+3(х0),и~пХ3(х0)), (24) >=1 где последнее расстояние (обозначим его через р) можно оценить сверху: р ^ р{хъ,и~п-кХк+3{хъ)) +p(xo,U~nXs(x0)). Случайные величины U~nXj(xo) имеют то же распределение, что и Xj(xq). В силу условия (В) найдется N = N$ такое, что при всех j ^ 1 p(p(XOiXj(x0))>N)^-^. Следовательно, при всех п, А:, 5 будет выполняться Р(р > 2N) < б/2т. На дополнительном множестве {р ^ 2N} правая часть (23) не превосходит 2ЛГехр< ^ Л; >. Так как EAj ^ -т/З < 0 и последовательность {А^} метрически транзитивна, i то в силу эргодической теоремы 15.6 $^ Aj < -т/31/2 при всех I ^ 1(ш), где i=i 1(ш) — собственная случайная величина. Выберем 1\ и fy так, чтобы выполнялись неравенства т61\ 6 р<1пй-1п2ЛГ, Р(1(ш) > 12) <-.
§ 4. Эргодичность для липшицевых преобразований 343 Тогда, полагая 1б = max(/i,/2), Щ = mh, As6 — (J {p(Yn+k,Yn) ^ б}, получим б l P(AS6) ^P(p>2N) + P(As6;p^N) ^ — + P ( (J biVexpf - V лЛ > б}). Но пересечение события под знаком последней вероятности с событием {Is ^ U^)} пусто. Поэтому событие под знаком вероятности вложено в событие 0(о>) > Is} и /J m-l га ^—' v 5 = 0 Лемма доказана. ■ Лемма 2 (полнота X относительно сходимости по вероятности). Пусть X — полное метрическое пространство. Если последовательность Х-значных случайных элементов г)п такова, что для любого б > 0 Рп = sup P(p(Vn+k,Vn) > б) -► 0 л/w п —> со, то существует случайный элемент г) Е X такой, что r)n -^rj(P (p(Vn,v) > £ —» 0 л/ш n —> со). Доказательство. Для заданных е и <5 выберем п&, fc = 0,1,..., так, чтобы выполнялось 8ирР(р(|Ь4+„1Ь§) > 2~кб) < е2~к, s 00 и положим для краткости г)Пк = £&. Рассмотрим множество D — f) Dk, Dk = {^: fc=0 p(C*+bCfc) ^ 2 £}. Имеем P(£>) > 1 - 2e, и для любого и е D выполняется р(£к+3(ш)Хк(ш)) < б2к~х при всех s ^ 1. Следовательно, последовательность Ck(w) фундаментальна в X, и существует 77 = 7/(а>) Е X такое, что Ck(w) —► vi^)- Так как е произвольно, то сказанное означает, что £* —>г) при А; —> со, /00 \ °° Р(р(Со,7у) > 2*) ^ Р ( (J р(С*+ьСь) > 2~кб ^ J2 Р(Р(С*+Ь&) > 2"**) ^ 2*. Поэтому для любого п ^ по р(рОь,ч) > зя) ^ р(р(чг,,чВо) > в) + р(р(Со,ч)) ^ зе. Так как е и б произвольны, то лемма доказана. ■ Доказательство теоремы 4. Из леммы 1 следует, что sup P (р(Уп+*, Yn) > б) —> 0 при п —► со. к Это означает, что последовательность Yn фундаментальна относительно сходимости по вероятности, и в силу леммы 2 существует такая случайная величина X , что (25) U-"Xn+s(x0) = Us(U-"-sXn+s(xo)) = UsYn+s - USX° = Xs.
344 Глава 16. Стохастически рекурсивные последовательности В силу непрерывности / U-nXn+s+l(x0) = U-nf(Xn+s(x0)^n+s) = f{U-nXn+s(x0)^s)^f(Xs^s) = X 5+1 Мы доказали требуемую сходимость для фиксированного начального условия xq. При произвольном х Е Cn = {z: p(xq,z) ^ N} имеем р(и~пХп(х),Х°) ^ р(и~пХп(х),и-пХп(х0)) +p(U-nXn(x0),X°), (26) где первое слагаемое в правой части равномерно по х Е С# сходится по вероятности к нулю. Для п = 1т это следует из неравенства (см. условие (С)) р(и~пХп(х),и-пХп(х0)) ^ ЛГехр{2А>} (27) >=1 и приведенных выше рассуждений. Для п = lm + s, m > s > О, справедливы аналогичные соотношения. Отсюда и из (25), (26) следует, что U~nXn+s(x)-^ Xs = USX равномерно по х Е С#. Это доказывает утверждение теоремы относительно сходимости по вероятности. Докажем теперь сходимость с вероятностью 1. Для этого следует повторить рассуждения в доказательстве леммы 1, но оценивать не p(Yn+k,Yn), a p(X°,U~nXn(x)). Считая для простоты, что 5 — О (п кратно га), получим (аналогично (24)), что для любого х i р(х\и-пХп{х)) ^ р(х,£Г"Х°)ехр{1>,}- (28) i=i Остальные рассуждения леммы 1 остаются без изменений. Они означают, что для любого 6 > О при достаточно больших щ P(U {p(X0,U~nXn(x))>6})<6. Теорема доказана. ■ Пример 3. Обобщенная авторегрессия. Пусть X = R. Процесс обобщенной авторегрессии определим с помощью соотношений Xn+[=G(<;nF(Xn) + T)n), (29) где F, G — функции R —> R, £„ = (Сп,?7п) есть управляющая последовательность, так что {Хп} есть с. р. п. с функцией /(ж, у) = G(y\F(x) + y2), у = (2/1,2/2) € Ш1 = у. Если функции F и G не убывают и непрерывны слева, G(x) ^ 0 при всех х Е R, элементы £„ неотрицательны, то процесс (29) удовлетворяет условиям теоремы 3 и, следовательно, U~n+sXn(0) Т Xs с вероятностью 1 (при n —> со). Чтобы установить сходимость к собственной стационарной последовательности X5, надо доказать равномерную по п ограниченность по вероятности Хп(0) (см. ниже). Выясним теперь, при каких условиях (29) будет удовлетворять условиям теоремы 4. Предположим, что функции F и G удовлетворяют условию Липшица \G(x{) - G(x2)\ ^ сс\хх - х2\, \F(xx) - F(x2)\ ^ cF\x{ - х2\. Тогда 1/(*ь&) - /(*2,&)l ^ cg\Co(F(xx) - F(x2))\ ^ cFcG|Col |xi - х2\. (30)
§ 4. Эргодичность для липшицевых преобразований 345 Теорема 5. При сделанных предположениях последовательность (29) будет удовлетворять условию (С) при р(х\,Х2) — \х\ — Ж2|, если lncGcF + Eln|Col<0. (31) Последовательность (29) будет удовлетворять условию (В), если выполнено (31) и, кроме того, Е(1п|т/о|)+ <оо. (32) При выполнении (31), (32) последовательность (29) помимо этого имеет также стационарную мажоранту, т. е. существует такая стационарная последовательность Мп (зависящая от Xq), что \Хп\ ^ Мп при всех п. Доказательство теоремы 5. Выполнение (С) в силу (30) очевидно. Докажем (В). Для этого мы построим стационарную мажоранту для |ХП|. Это можно сделать, пользуясь результатами теорем 2, 2А. В нашем случае проще действовать непосредственно, пользуясь неравенствами \G(x)\ ^ |G(0)| + cc\x\, \F(x)\ ^ \F(0)\ + cF\x\, где мы будем считать для простоты, что G(0) и F(0) конечны. Тогда l*»+il ^ \G(0)\ + CGKn\\F(Xn)\ + cG\Vn\ ^ ^ |G(0)| + cGcF\Cn\ \Хп\ + cslCnl |F(0)| + cG\<nn\ = pn\X(n)\ + 7fl, где Ai = cGcF\Cn\ ^ 0, 7n = |G(0)| + c&|C„||F(0)| + cG|i7n|, E\n/3n <0, Е(1п7п)+ < oo. Отсюда получаем (х = Xq) n n—\ / n \ i^n+iKMllft + E П Pj I 7n-/-l + 7m ,-=„ ,=oW« / 0 oo / 0 \ V 7 U~n\Xn+l\ ^Wllft + E П ^ 17-1-1+70- j=-n *=o \j=-J / Обозначим о а,- = 1п^-, 5/ = У^ а^. В силу усиленного закона больших чисел значения 5/ — al, где 2а = Еау < О, лишь конечное число раз превосходят нуль. Поэтому для всех Z, за исключением этих значений, П А < е°' С другой стороны, 7-f-l лишь конечное число раз превышают уровень I. Это означает, что ряд в (33) (мы обозначим его через R) сходится с вероятностью 1. Кроме того, S = supS* ^Sn k>0
346 Глава 16. Стохастически рекурсивные последовательности является собственной случайной величиной. Мы получаем в результате, что для всех п U-n\Xn+l\^\x\es+R + l0, где все слагаемые в правой части суть собственные случайные величины. Требуемая мажоранта Mn = Un'\\x\es + R + j0) построена. Отсюда следует выполнение (В). Теорема доказана. ■ Утверждение теоремы 5 можно перенести и на многомерный случай X = Rd, d > 1 (см. [в]). Отметим, что условия (31), (32) являются в известном смысле необходимыми не только для сходимости U~n+SХп(х) —► Xs, но и для одной лишь офаниченности Хп(х) (или X ). Это обстоятельство лучше всего проиллюстрировать в случае, когда F(x) = G(x) = х. В этом случае U~nXn+s+\(x) и Xs+l допускают явные представления s n+s s u-"xn+s+](x) = х fj Cj + J2 П бч.-1-i + v*, j=-n 1=0 j=s-l 00 S xS+i = T, П 0Ч.-/-1+Ч.- /=0 j=s~l 0 Предположим, что E ln£ ^ О, 77= 1, и положим s = 0, Zj = ln£j, Z\ = ]T} Zj. Тогда 00 00 j = ~l Xх = 1 + ^2 eZl, ^2 \{Z\ ^ 0) = со с вероятностью 1 и, следовательно, X = со, Хп —> со с вероятностью 1. 00 Если Е[1п7/]+ = со, £ = 6 < 1, то X = щ + Ь ]СехР{2/-/-1 + Zlnb}, где у- = \nrjj-, число появлений событий {у-1~\ > —llnb} бесконечно с вероятностью 1. Это означает, что X = со, Хп —> со с вероятностью 1.
Глава 17 Случайные процессы с непрерывным временем § 1. Общие определения Определение 1. Случайным процессом1) называется семейство случайных величин £(£) = £(£,о>), заданных на одном вероятностном пространстве (П,^, Р) и зависящих от параметра t, принимающего значения из некоторого множества Т. Обозначать случайный процесс будем символами {£(t),t Е Т}. Последовательности независимых случайных величин £ь£2> • • • , рассматривавшиеся в предьщущих параграфах, являются случайными процессами, для которых Т — {1,2,...}. То же самое справедливо и относительно сумм S\,S2,--- слагаемых fbf2>«- • Случайными процессами являются также последовательности {Хп,п = 0,1,...} величин, связанных в цепь Маркова, мартингалы {X„,n Е Л/"}, стационарные и стохастические рекурсивные последовательности, описанные в предьщущих главах. Такие процессы, у которых множество Т можно отождествить со всей или с частью последовательности {...,—1,0,1,...}, обычно называются процессами с дискретным временем или случайными последовательностями. Если Т совпадает с некоторым числовым интервалом Т = [а, Ь] (это может быть также вся прямая -co < t < оо или полупрямая t ^ 0), то совокупность {£(£), t G Т} называют процессом с непрерывным временем. Простым примером таких процессов могут служить процессы восстановления {rj(t),t ^ 0}, описанные в гл. 9. В этой главе мы будем рассматривать лишь процессы с непрерывным временем. Интерпретация параметра t как времени не обязательна. Она возникла исторически, поскольку в большинстве естественнонаучных задач, которые привели к появлению понятия случайного процесса, параметр t был временем, а значение £(t) было тем, что наблюдалось в момент времени t. Как случайный процесс можно рассматривать, например, движение молекулы газа во времени, уровень воды в водохранилище, колебания крыла самолета и т. п. Процессом с непрерывным временем является, например, случайная функция 00 . к=0 где ffc независимы и одинаково распределены. Рассмотрим некоторый случайный процесс {£(t),t Е Т}. !) Наряду с термином «случайный процесс» часто используются также названия «вероятностный» или «стохастический» процесс.
348 Глава 17. Случайные процессы с непрерывным временем Если фиксировать ш Е ft, то мы получим функцию £(£), i E Т, которую часто называют выборочной функцией или траекторией процесса. Таким образом, в роли случайных величин здесь выступают функции. Как и раньше, можно было бы рассматривать здесь выборочное вероятностное пространство. Его можно построить, например, так. Рассмотрим пространство X функций x(t), t Е T, в котором лежат траектории £(£). Пусть далее 03^ есть а-алгебра подмножеств из X, порожденная множествами вида С = {хеХ: x(t{) еВи.. .,x(tn) Е Вп} (1) для любых п, любых t\,...,tn из Т и любых борелевских множеств £i,...,£n. Множества такого вида называются цилиндрическими; всевозможные конечные объединения цилиндрических множеств образуют алгебру, порождающую 03^. Если процесс £(t,u) задан, то он определяет измеримое отображение (П,#) в (^,03^), так как, очевидно, £~1(С) = {ш: £(-,о;) Е С} Е 3 для любого цилиндрического множества С и, следовательно, £~1(В) Е # Для любого В Е 93^. Это отображение индуцирует распределение Р^ на {Х,*ВТХ), определяемое равенством Р((В) = Р(£~1(В)). Тройка {Х,Ч$Тх,Р() и называется выборочным вероятностным пространством. В этом пространстве элементарный исход «о>» отождествляется с траекторией процесса, а мера Р^ называется распределением процесса £. Если же, рассматривая процесс {£(£)}, фиксировать значения времени *Ь*2)--->*п, то получим многомерную случайную величину (f(£i,u;),... ,f(£n,u;)). Распределения таких величин называют конечномерными распределениями процесса. В качестве пространства X в теории случайных процессов с континуальным множеством Т значений времени t чаще других рассматриваются следующие пространства функций. 1. Пространство всех функций на Т X = Rr =ЦК*, ter где Ж* есть экземпляры вещественной прямой (-со,со). Это пространство обычно рассматривают в паре с а"-алгеброй Q3jjJ подмножеств из RT, порожденной цилиндрическими множествами. 2. С(Т) — пространство всех непрерывных на Т функций (будем писать С(а,Ь), если Т = [а, 6]). В этом пространстве наряду с а-алгеброй <В£, порожденной цилиндрическими множествами из С(Т) (эта а-алгебра уже, чем аналогичная а-ал- гебра в IRT), часто рассматривают также а-алгебру 93wT) (борелевскую а-алгебру), порожденную множествами, открытыми относительно равномерной метрики р(х, у) = sup \y(t) - x(t)\, ж, у Е С(Т). Оказывается, что в пространстве С(Т) всегда %$С(т) = ®с2^- 3. Пространство D(T) функций, у которых в каждой точке t существуют пределы x(t - 0) и x(t + 0), причем значение x(t) совпадает либо с x(t — 0), либо с x(t + 0). Если Т — [а, 6], то предполагается также, что х(а) = ж(а + 0), х(Ь) = х(Ь — 0). Это пространство называют часто пространством функций без разрывов второго родаъУ Пространство функций, для которых в остальных точках 2)См., например, [7]. 3) Разрыв второго рода связан либо с учащающимися незатухающими колебаниями, либо с уходом на бесконечность.
§ 1. Общие определения 349 x(t) = x(t - 0) (x(t) = x(t + 0)), будем обозначать D-(T) (D+(T)). Пространство D+{T) (D-(T)) будем называть также пространством функций, непрерывных справа (слева). Например, траектории процессов восстановления, описанных в гл. 9, принадлежат D+(0,oo). В пространстве D(T) также можно строить борелевскую сг-алгебру относительно подходящей метрики, но мы ограничимся использованием а-алгебры 33# подмножеств из D(T). После проведенных рассмотрений можно сформулировать следующее эквивалентное определение случайного процесса. Пусть X — заданное пространство функций и 0 есть а-алгебра его подмножеств, содержащая а-алгебру 03^ цилиндрических множеств. Определение 2. Случайным процессом £(t) = Z(t,u) называется измеримое (по ш) отображение (£"2,$, Р) на (X, 0,Р^) (каждому ш ставится в соответствие t(t) = t(t,u>) так, что C\G) = {ш: £(•) G G} G $ для G G 0). Р^ называется распределением процесса. Условие 03^ С Ф нужно для того, чтобы были определены вероятности цилиндрических множеств и, в частности, вероятности Р(£(0 ЕВ), Be 93^, означающие, что £(t) есть случайные величины. До сих пор как бы предполагалось, что процесс £(t) задан и нам известно, что его траектории лежат в X'. Однако это бывает весьма редко. Чаще процесс пытаются описать теми или иными сведениями о его распределении. Можно задавать, например, конечномерные распределения. Из теоремы Колмогорова о согласованных распределениях4) (см. Приложение 2) следует, что задание согласованных конечномерных распределений определяет однозначно распределение процесса Р^ на пространстве (1RT, ЯЗд). Эту теорему можно рассматривать как теорему существования случайного процесса в (RT, ЯЗд) с заданными конечномерными распределениями. Однако пространство (JRT,03jjJ) не очень удобно для изучения случайных процессов. Дело в том, что далеко не все часто употребляемые в анализе соотношения для функций порождают события — т. е. множества, которые принадлежат сг-алгебре 93jjJ и о вероятности которых имеет смысл говорить. Ведь на основании определения можно с уверенностью сказать, что событиями являются лишь элементы а-алгебры, порожденной событиями {£(£) Е В}, t Е Т, где В — борелевские множества. Множество { supf (£) < с}, например, может и не быть событием, так как мы знаем teT лишь представление его в виде ПШО < СЬ те- в виДе пересечения несчетного teT числа измеримых множеств, если Т есть интервал числовой оси. Имеет место и другое неудобство — распределение Р^ на (!RT,Q3j£) не определяет однозначно свойств траекторий £(t). Этот факт связан с тем, что пространство RT очень богато и принадлежность х(-) цилиндрическому множеству вида (1) не несет в себе никакой информации о поведении x(t) в точках t, 4) Напомним определение согласованных распределений. Пусть R/, t 6 Т, — вещественные прямые, S8f — <т-алгебры борелевских множеств на R*. Пусть Тп = {t\,...,tn} — конечное подмножество чисел из Т. Конечномерное распределение (£(f[,w),...,£(*„,w)) есть распределение Ртп на (RTw,<8 n), где RTn = Yl к*> ЯЗТя = П ®«- ПУСТЬ Даны Два конечных подмножества Т' и Т" из Г и (R',<8;), teTn teTH (R",<8") — соответствующие подпространства (IRT,<8T). Распределения Рт> и Рт» на (R',<8'), (R",<8") согласованы, если их проекции на общую часть пространств Ш' и R" (если таковая существует) совпадают.
350 Глава 17. Случайные процессы с непрерывным временем отличных от t\,..., tn. Это же относится и к произвольным множествам А из 03^ — грубо говоря, принадлежность х(-) Е А может определять значения x(t) разве лишь в счетном числе точек. (Ниже мы увидим, что даже такое множество, как {x(t) = 0}, не принадлежит 93j£.) Чтобы задать всю траекторию процесса, недостаточно задать распределение на 33jjJ; эту а-алгебру надо расширять. Прежде чем приводить соответствующий пример, дадим следующее Определение 3. Процессы £(t) и rj(t) называются эквивалентными (или стохастически эквивалентными), если Р(£(£) = v(t)) — 1 при всех t £Т. Процесс rj будем называть модификацией f. Очевидно, что конечномерные распределения для эквивалентных процессов совпадают и, стало быть, совпадают распределения Р^ и Р7 в (RT,33j£). Пример 1. Обозначим и пополним 03^ элементами xa(t), а Е [0,1], и элементом x°(t) = 0. Пусть j ^ Uo,i. Рассмотрим два случайных процесса £о(0 и fi(0> определенных следующим образом: £о(0 = я°(0> fi(0 = #7(0- Тогда, очевидно, P(&(«) = £i(0) = P(7*0 = i, процессы £о и £i эквивалентны и, следовательно, их распределения в (IRT,<Bj£) совпадают. Однако мы видим, что траектории этих процессов существенно различны. На приведенном примере легко понять, что множество всех непрерывных функций С(Т), множество { sup x(t) < ж}, элемент {x(t) = 0} и многие другие «€[0,1] не принадлежат Q3jjJ. Действительно, если допустить противное, например, что С(Т) Е ЯЗТ, то мы в силу эквивалентности £о и fi должны были бы иметь Р(£о £ С(0> 1)) = P(fl £ ^(0,1)), в то время как первая из этих вероятностей равна 1, а вторая — нулю. Простейший путь преодоления отмеченных выше трудностей и неудобств состоит в том, чтобы задавать процессы в пространствах С(Т) или D(T), если это возможно. Если, например, £(t) E C(T), rj(t) E С(Т) и они эквивалентны, то траектории этих процессов будут с вероятностью 1 полностью совпадать, так как в этом случае П Ш = V(t)} = П Ш0 = V(t)} = Ш = V(t) при всех t E Г}, t рациональны teT где вероятность события в левой части равенства определена (это есть вероятность пересечения счетного числа событий) и равна 1. Аналогично обстоит дело, например, с событиями { supf(£) < с} = ПШ0 < с}- гет гет Точно такие же рассуждения справедливы для пространств D(T), поскольку каждый элемент х(-) из D однозначно определяется значениями x(t) на счетном всюду плотном множестве значений t (например, на множестве рациональных чисел). Итак, допустим, что удалось тем или иным способом установить, что для исходного процесса £(t) (пусть он задан на (Ет,03^)) существует его непрерывная модификация, т.е. эквивалентный ему процесс rj(t) такой, что траектории rj(t)
§2. Условия регулярности процессов 351 с вероятностью 1 непрерывны (или принадлежат D(t)). Сказанное означает прежде всего, что мы расширили каким-то образом а-алгебру 03^ присоединением, скажем, множества С(Т) и рассматриваем теперь распределение f на а-алгебре Ът = а(03^,С(Т)) (иначе приведенные слова теряют смысл). Но распределение £ может быть продолжено с (Rt,Q3jr) на (RT,<BT) не однозначно (это мы видели в примере 1; продолжение можно задать, положив, например, P(f G С(Т)) = 0). Сказанное выше о процессе rj означает, что существует продолжение Pv такое, что р,(с(г)) = р(чес(т)) = 1. Далее, часто бывает лучше совсем не иметь дела с неудобным пространством (ET,Q3j£). Для этого можно задать распределение процесса rj на суженном пространстве (С(Г),»£). Ведь ясно, что <В£ С Ът = сг(»£,С(Г)), <В£ = Ът П С(Т) (первая из этих а-алгебр порождена множествами вида (1), пересеченными с С(Т)). Поэтому, рассматривая распределение rj, сосредоточенное на С(Т), можно ограничиться сужением пространства (RT,93T) до (С(Т),ЯЗ£), определив на последнем вероятность как значение Pij(A) = P(rj G A), A G Я$£ С Ът. Тем самым построен процесс 7] с непрерывными выборочными траекториями, эквивалентный исходному процессу f (если их распределения рассматривать в (RT,Q3jJJ)). Чтобы осуществлять эту конструкцию, надо теперь уметь выяснять по распределению процесса f, существует для него непрерывная модификация г) или нет. Прежде чем переходить к формулировке и доказательству соответствующих теорем, отметим еще раз, что названные выше трудности носят главным образом математический характер, т.е. связаны с математической моделью случайного процесса. В реальных прикладных задачах, как правило, бывает заранее ясно, является рассматриваемый процесс непрерывным или нет. Если он «физически» непрерывен и мы хотим построить адекватную модель, то, конечно, из всех эквивалентных модификаций процесса надо взять непрерывную. Точно такие же рассуждения остаются справедливыми, если вместо непрерывных траекторий рассматривать траектории из D(T). Существо проблемы при этом остается тем же: трудности устраняются, если есть возможность описать всю траекторию процесса f (•) значениями £(t) лишь на каком-нибудь счетном множестве значений t. Процессы, обладающие таким свойством, будем называть регулярными. § 2. Условия регулярности процессов Выясним сначала условия, при которых процесс имеет непрерывную модификацию. В качестве множества Т, не ограничивая общности, будем рассматривать отрезок Т = [0,1]. Очень простой критерий существования непрерывной модификации, принадлежащий Колмогорову, основан на знании лишь двумерных распределений £(£). Теорема 1 (Колмогоров). Пусть £(t) — случайный процесс, заданный на (E,Q5r> при Т = [0,1]. Если при всех t, t + h из отрезка [0,1] ЕК(* + А)-ШЧс|Л|1+» (2) при каких-нибудь а > 0, b > 0, с<оо то £(•) имеет непрерывную модификацию. Мы получим это утверждение в качестве следствия более общей теоремы, условия которой воспринимаются несколько труднее, но имеют тот же смысл, что и (2).
352 Глава 17. Случайные процессы с непрерывным временем Теорема 2. Пусть при всех t, t + h из отрезка [О, 1] Р (к(< + Л) - ^(01 > е(А)) < «(Л), где s(h), q(h) — убывающие четные функции от /i, обладающие свойством 00 00 ]Г>(2-П)<оо, £)2nff(2-)<oo. п=\ п=\ Тогда £(•) имеет непрерывную модификацию. Доказательство. Воспользуемся приближениями процесса £(t) с помощью непрерывных процессов. Положим *n,r = r2-n, r = 0,1,-.. ,2", Ш = *(*»,) + 2"(t - <n,r) [C(*„,,+i) - £(<»,г)] при t e [<n,r,<n,r+i]. Из рис. 15 видно, что l6»+l(0 - 6.(91 < |*(*»+l,2r+l) - \ к(*»+1>) + €(«»+1,2г+2)] | < ^(« + /?), где а = \Z(tn+\,2r+l) ~ £(<n+l,2r)l. Р = IC(fn+l,2r+l) - £(*n+l,2r+2)l- Отсюда следует, что ^„= max iIC„+i(<)-e»(*)l<o(a + /5), (e[i.,r,i.,r+i] * P(Z„ > е(2-")) ^ Р(а > е(2-")) + P(/J > е(2-)) ^ 2g(2"n). fn+1(£) (Отметим, что так как процессы £п(£) непрерывны, ^^—- /5(0 то 3Десь {%п > с} € 53r. Если в определение Zn вместо £n(t) подставить процессы более общего вида, то такое вложение может и не иметь места.) Так как здесь всего 2п отрезков типа [<nr,inr+j], -^U r = 0, 1, ...,2п-1,то tn,r tn+l,2r *n,r *п+1,2г+2 P Рис. 15. ( max Kn+1(0 - Ut)\ > e(2~n)) ^ 2n+lq(2~n). Поскольку X^2ng(2~n) < со, то по критерию Бореля—Кантелли для п. в. ш (т.е. 1 для ш Е А, Р(А) = 1) существует п(ш) такое, что при всех п ^ п(ш) max |£п+1 - {„(01 = р(€„+ь€п) < е(2~п). «€[0,1] Отсюда следует п.н. фундаментальность последовательности £п, поскольку 00 k=n при п —> со и всех т > п, а> Е ^4. Следовательно, для ш £ А существует lim £n(t) = 77(0, l£n(0 - ??(01 ^ £п, так что сходимость £n(t) —> 7/(0 является п—»оо равномерной. Вместе с непрерывностью £n(t) это означает непрерывность rj(t) (здесь мы доказываем, собственно, полноту пространства С(0, 1)).
§ 2. Условия регулярности процессов 353 Осталось убедиться в эквивалентности £ и г}. Для t — £n?r имеем £n+fc(£) = £(t) при всех А; ^ О, так что rj(t) = £(£). Если t Ф tnr при всех я и г, то существует последовательность гп такая, что tnTn —> t, О < t — £п?Гп < 2~п и, следовательно, Р (\Z{tn,rn) - Z(t)\ > e(t ~ *п,г.)) ^ ?(* ~ tn,ru), Р{\фп,гп)~т\>е{2-п))^д(2-п). В силу критерия Бореля—Кантелли это означает, что £п?Гп —► £(t) с вероятностью 1. Одновременно в силу непрерывности rj(t) выполняется r)(tnrn) —> ?у(^). Так как £(£nrJ = rj(tn^n) то f(£) = 77(2) с вероятностью 1. ■ Из теоремы 1 вытекает Следствие 1. Если Elf<1 + ft>-f«>l"«TiJ^ (3) при некоторых b > а > 0, с < оо, то выполнены условия теоремы 2 и, следовательно, для £(t) существует непрерывная модификация. Условие (3), конечно, будет выполнено, если выполнено (2), так что теорема Колмогорова является следствием теоремы 2. Доказательство. Положим e(h) = \\og\h\\~P, 1 < (3 < Ь/а. Тогда ОО 00 Х>(2-) = 5>-" < <х>, и по неравенству типа Чебышева Ф\ (.(h)ya = Ф\ |log|ft||>+»^ К " |log|A||i где б — Ь — а/3 > 0. Остается заметить, что 00 00 00 J22nq(2-n) = £|log2-TW = £n"1-* < оо. Критерий существования модификации £(£), принадлежащей пространству D(t), формулируется и доказывается сложнее и связан с более слабыми условиями, накладываемыми на процесс. Ограничимся лишь формулировкой следующего утверждения: Теорема 3 (Колмогоров—Ченцов). Если при некоторых а ^ О, /3^0, b > О и при всех t, h\ ^ t ^ 1 - /i2, h\ ^ 0, hi ^ 0, выполняется Е|«(0 - «* - /и)Ш* + Л2) - £(*/ < сЛ1+*. Л = /11 + /12, (4) то существует модификация £(t) из D(0,1) 5). Условие (4) допускает следующее обобщение: Р (1*(* + h2) - i{t)\ \№ - i{t - hx)\ > e(h)) ^ q(h), (5) при котором утверждение теоремы также сохранится (здесь e(h), q(h) имеют тот же смысл, что и в теореме 1). Следующие два примера иллюстрируют в какой-то мере характер условий теорем 1-3. 5) Подробнее об этом см., например, [14]. Р № + h) - т > Ф)) < 71ГЛП[ЩW*))"" = Т^Шш = '<*)•
354 Глава 17. Случайные процессы с непрерывным временем Пример 2. Допустим, что случайный процесс £(t) имеет вид £(£) = ]Г} ffc<Pfc(£), где (fk{t) удовлетворяют условию Гёльдера \<fk(t + h) — (fk(t)\ ^ c\h\a, а > О, (£\, ..., £г) — произвольный случайный вектор, у которого конечны Е|&|' при некотором I > \/а. Тогда процесс £(t) (он является, очевидно, непрерывным) удовлетворяет условию (2). Действительно, г ЕДО + h) - t(t)\l ^ с{ J2 El6l'c \h\al ^ c2\h\al. к=\ Пример 3. Пусть 7 ^ Uo,i, £(t) = О при t < 7, £(0 = 1 при t ^ 7- Тогда Е|£(* + Л) - £(*)|' = Р(7 £ (М + Л)) = Л пРи любом Z > 0. Здесь условие (2) не выполнено, хотя |£(£ + h) — £(t)\ —»0 при /i —> 0. Условие (4), очевидно, выполнено, так как здесь е\№ - at - fti)l l«t + а2) - №\ = о. (6) Примерно те же результаты получим, если в качестве £(t) рассмотрим процесс восстановления для последовательности 7ь 72» •••» гДе распределение 7j имеет плотность. В этом случае вместо (6) будет выполняться ЕДО) - *(* - *iM* + Л) ~ £(01 ^ с/ц/12 ^ с/12. В общем случае, когда мы не располагаем данными для построения модификаций процесса f из пространств С(Т) или D(T), трудности, отмеченные в §1, позволяет преодолеть введение понятия сепарабельности. Определение 4. Процесс £(t) называется сепарабелъным, если существует всюду плотное в Т счетное множество S такое, что Р (йт^и) ^ Щ) ^ Нт£(и) для всех teT) = 1. (7) «65 «€5 Это свойство эквивалентно тому, что для любого интервала I CT Р ( sup £(u) = sup £(?*); inf £(u) — inf £(м)) = 1. Дубу принадлежит теорема6), утверждающая, «шо любой случайный процесс имеет сепарабельную модификацию. Построение сепарабельной модификации процесса, так же, как и построение модификаций из С(Т) или D(T), означает расширение а-алгебры 03^, куда присоединяются несчетные пересечения вида Л = П {£(*) е [а,Ъ]} = {supf(Ti) ^ 6, inf £(u) ^ а}, и распространение на это расширение меры Р с помощью равенств Р(А) = Р( П Ш«)€[а,Ь]}), где под знаком вероятности стоит уже элемент 03^. 6)См. [7, 16].
§ 2. Условия регулярности процессов 355 Для сепарабельных процессов такие множества, как множество всех неубывающих функций, множества С(Т), D(T) и др., являются событиями. Процессы из С(Т) или D(T), очевидно, автоматически будут сепарабельными. И наоборот, если процесс сепарабелен и допускает непрерывную модификацию (или модификацию из D(T)), то он сам будет непрерывным (принадлежать D(T)). Действительно, если rj есть непрерывная модификация f, то Р(£(£) = rj(t) для всех teS)=\. Отсюда на основании (7) получаем Р (Yimrj(u) ^ £(t) ^ \imrj(u) для всех t Е Т) = 1. «65 «65 Так как X\mt)(u) = limrj(u) = rj(t), то получаем, что U—* ti—t Р(£(£) = v(t) при всех t е Т) = 1. В примере 1 процесс fi(£)> очевидно, не является сепарабельным. Процесс £о(0 есть его сепарабельная модификация. Наряду с непрерывностью выборочных траекторий существует еще один способ характеризовать свойство непрерывности случайного процесса. Определение 5. Случайный процесс £(t) называется стохастически непрерывным, если при всех t Е Т и h —> О «* + Л)у««) (Р(К(« + А)-«01>е)->0). Здесь мы имеем дело лишь с двумерными распределениями £(£). Ясно, что все процессы с непрерывными траекториями являются стохастически непрерывными. Но не только. Разрывные процессы в примерах 1 и 3 также являются стохастически непрерывными. Разрывный процесс будет стохастически непрерывным в точке to, если точка разрыва г(((т + 0) Ф £(т - 0)) обладает свойством Р(т = to) =0. Определение 6. Процесс £(t) называется непрерывным в среднем порядка г (в среднеквадратичном при г = 2), если при всех t Е Т и h —> 0 «t +ft)->*(*) v) или, что то же, Е|£ (£ + h) - £(t)\r -> 0. Разрывный процесс £(t) в примере 3 будет непрерывным в среднем любого порядка. Поэтому сами по себе непрерывность в среднем и стохастическая непрерывность не очень много говорят о свойствах траекторий (они говорят лишь, что скачок в окрестности каждой фиксированной точки t маловероятен). Как показывает теорема Колмогорова, для того чтобы характеризовать свойства траекторий, нужны количественные оценки для Е|£(£ + h) - £(t)\r или для Р (|f (£ + h)— £(£)| > е). Из теорем непрерывности для моментов следует, что для стохастически непрерывного процесса £(t) и любой непрерывной и ограниченной функции д(х) функция Eg(£(t)) непрерывна. Это утверждение сохранится, если ограниченность д(х) заменить условием supE|<7(f(£))|a < со при каком-нибудь a > 1. t
356 Глава 17. Случайные процессы с непрерывным временем Последующие гл. 18, 20, 21 будут посвящены изучению тех типов случайных процессов, которые можно задать явной формой конечномерных распределений. К ним относятся: 1. Процессы с независимыми приращениями. 2. Марковские процессы. 3. Гауссовские процессы. В гл. 21, кроме того, будут рассмотрены некоторые вопросы теории случайных процессов с конечными моментами второго порядка. Гл. 19 содержит предельные теоремы для случайных процессов, порожденных последовательными суммами независимых случайных величин.
Глава 18 Процессы с независимыми приращениями § 1. Общие свойства Определение 1. Процесс {£(t),t Е [а,Ь]}, определенный на отрезке [а,Ь], называется процессом с независимыми приращениями, если для любых to < t\ < ... < tn, а ^ *(ь ^п ^ Ь, случайные величины f(*o)> f(*i) ~ £(£())>••• >£(^п) - €(tn - 1) независимы. Процесс с независимыми приращениями называется однородным, если распределение £(t\) - f (£o) определяется лишь длиной интервала t\ — to и не зависит от t0. В дальнейшем для простоты везде будем считать, что а — О, £(0) = 0, Ь = 1. Определение 2. Распределение случайной величины f называется безгранично делимым (ср. с § 8.9), если при любом п величину f можно представить в виде суммы независимых одинаково распределенных случайных величин: f = £\jTl -f ... -f fn,n- Если (р(Х) есть х. ф. f, то отмеченное свойство эквивалентно тому, что (р 'п при любом п является х. ф. Из приведенных определений ясно, что распределение £(t) для однородного процесса с независимыми приращениями f безгранично делимо, так как £(t) = fi n + • • • + €пп, где £кп = €(kt/n) - £((к - \)t/n) независимы и распределены как i(t/n). Теорема 1. 1) Пусть {£{t),t ^ 0} — стохастически непрерывный однородный процесс с независимыми приращениями и пусть <р*(А) = Ее,л^ есть х.ф. £(t), <p(\) — <р\(\). Тогда Р,(А)=р*(А), (1) <р(\) Ф 0 ни при каком А. ((1) означает, что <р\\) обязано быть х. ф. при любом t.) 2) Пусть (р(Х) есть х. ф. безгранично делимого распределения. Тогда существует случайный процесс {£(t),t ^ 0}, удовлетворяющий условиям 1), и такой, что Eeix^ =<p(\). Обозначим через J: класс х. ф. всех безгранично делимых распределений и через ~£ \ класс х. ф. распределений £(t) для стохастически непрерывных однородных процессов с независимыми приращениями. Тогда из теоремы 1 следует, что г£ — X1. Класс ~£ будет охарактеризован в § 5. Доказательство. 1) Пусть £(t) удовлетворяет условиям п. 1) теоремы. Тогда £(t) можно представить в виде суммы независимых приращений
358 Глава 18. Процессы с независимыми приращениями Ш = Efc(';) ~ *(*>-i)L 'о = о, tn = t, tj > t3_x. Отсюда следует, в частности, что nW = Wi/nW}[tn]<Pt-[tn]/nW = v(A)[(n,/>(-[<nl/n(A). Здесь t — [tn]/n —> 0, <Pt-[tn]/n(ty ~~^ I (B СИЛУ стохастической непрерывности), ^l'nl/n(A) —► <рг(\) при п —► со. Отсюда следует, что <р*(А) —> <р\\) при п —> со. Но <pt(ty и у?'(А) от п не зависят, значит, <pt(X) = у>'(А). Далее, у>*(А) = у>'(А) —► 1 при £ —► 0 и при любом А. Это возможно, если (р(Х) Ф 0 ни при каком А. 2) Заметим предварительно, что если <р Е -£, то у?' при любом £ > 0 есть снова х. ф. Действительно, <р\\) = lim pN/n(A), п—юо так что у>'(А) есть непрерывный в точке А = 0 предел х. ф. По теореме непрерывности для х. ф. это снова есть х. ф. Построим теперь случайный процесс £(t) с независимыми приращениями, задав его конечномерные распределения. Положим 0 = *о < *1 < ••• < h> A/ = €(tj) ~~ f (^j-l)» Gj — tj ~~ tj-\ и заметим, что Е ^(tj) = 1> Е д' = Е д; Ел<- Определим х. ф. совместного распределения f(£i),... ,£(£*) равенством (постулирующим независимость Aj) к к к к к 6 i=l .7=1 '=i i=l '=j Таким образом, мы с помощью tp определили конечномерные распределения £(t) в (IRt,Q3jr), которые, как нетрудно видеть, согласованы. По теореме Колмогорова существует распределение случайного процесса £(t) в (IRt,<Bjr). Этот процесс по определению является однородным процессом с независимыми приращениями. Чтобы доказать стохастическую непрерывность £(t), заметим, что при h —> 0, где /хЧ Г 1, если у?(А) / 0, ^А)=(о, если£(А) = 0. Таким образом, предельная функция щ{\) может принимать лишь два значения: 1 и 0. Но она обязана быть х. ф., так как непрерывна в точке А = 0 (<р(А) Ф 0 в окрестности точки А = 0) и является пределом х. ф. Следовательно, <ро(А) непрерывна, <^о(А) = 1, <рЛ(А) —> 1, i(i Л-К)- £(t) -> 0 при Л -> 0. р ■
§ 2. Винеровские процессы, свойства траекторий 359 Теорема 2. Однородные стохастически непрерывные процессы с независимыми приращениями {£(t);t Е Т} имеют модификации из пространства D(T), т.е. процесс £(£) может быть задан в (D(T),Q3^) и, следовательно, не иметь разрывов второго рода. Доказательство. Чтобы упростить рассуждения, предположим, что существует Е£ (1) или, что то же, существует вторая производная <р"(\). Тогда Е«(0 - t(t - h))2 = -^(0) = -h(h - \)Wm2 - Л/(0) ^ с|Л|, E(|*(* + h2) ~ №\2W) ~ № ~ hi)\2) ^ <?Ъ\Ъг ^ c2(h{ + /i2)2, так что выполнен критерий теоремы 17.3. ■ В общем случае доказательство усложняется: надо пользоваться критерием (17.5) и оценками для Рассмотрим теперь два наиболее важных представителя процессов с независимыми приращениями — так называемые винеровские и пуассоновские процессы. § 2. Винеровские процессы, свойства траекторий Определение 3. Винеровским процессом называется однородный процесс с независимыми приращениями, для которого распределение £(1) нормально. Другими словами, это процесс, для которого <р(\) = eiWA'/2, <pt{\) = 9\\) = еШа-°2хЧ'2 при некоторых а и а ^ 0. Последнее равенство означает, что приращения £(t -f и) - £(и) распределены нормально с параметрами (at,a2t). Все совместные распределения f(£i), ... , f(£n)> очевидно, также будут нормальными. Числа а и а называются соответственно коэффициентами сноса и диффузии. Введя в рассмотрение процесс £о(0 = (£(0-а0/а> отличающийся от £(t) линейным преобразованием, получим, что для него х. ф. равна leiX^=e-iXat^(ft^)=e -\2t/2 Такой процесс с параметрами (0, t) часто называют стандартным винеровским процессом. Рассмотрим его подробнее. Теорема 3. Существует непрерывная модификация винеровского процесса. Это означает, как мы знаем, что винеровский процесс {£(£)>£ € [0,1]} можно рассматривать, как заданный на измеримом пространстве (С(0, l),©^ ) непрерывных функций. Доказательство. Имеем £(t + h) - £(t) ^ Фо,/,, (£(t + h) - £{i))/\/h ^ Фо,ь Поэтому Е(£(< + Л)-£(0)4 = Л2Е£(1)4 = ЗЛ2. Это означает, что выполнены условия теоремы 17.1. ■ Итак, можно считать, что f() E С(0,1). Стандартный винеровский процесс с непрерывными траекториями будем обозначать {w(£),£ Е Т}.
360 Глава 18. Процессы с независимыми приращениями Отметим теперь, что траектории винеровского процесса w(t), обладая свойствами непрерывности, с вероятностью 1 не дифференцируемы ни в какой точке t. В силу однородности процесса достаточно доказать его недифференцируемость в точке 0. Если бы с положительной вероятностью, т.е. на множестве А С Г2, Р(А) > 0, существовала производная w (0) = w (0,ш) = lim , t-0 t то тогда на том же множестве существовал бы w(2-*+1)-W(2-*) 2W(2-*+l) Ц2~*) Й5, 2^ =t-Z 2-М -!un>4zir=2w(0)-w(0)=w(0). Но это невозможно по следующей причине. Независимые разности w(2~k+l)—w(2~k) распределены так же, как w(2~k), и с положительной вероятностью р = 1 - Ф(1) превосходят V2~k. Т.е. независимые события Bj~ = {w(2~k+l) — w(2~k) > V2~k} 00 обладают тем свойством, что Y2 P(^fc) — °°- По критерию Бореля—Кантелли это означает, что с вероятностью 1 произойдет бесконечно много событий Bj~, так что / wiz ) — wiz ) \ Р( lim sup — !F=-± '- > 1) = 1. V fc^oo \/2rk ' Точно так же обнаруживаем, что / w(2~k+x) - w(2~k) \ Р( liminf— i=-± - <-1) =1. Vfc—oo \/2~k ' Отсюда следует, что / W(2-fc+1)-W(2-fc) , rw(2-k+i)-w(2~k) ч Р I lim sup —г = со; lim mi —г = —со )= 1, \fc—оо 2 к к^оо 2~К / и, следовательно, процесс w(t) в каждой точке t с вероятностью 1 недифференцируем. Имеет место и более сильный факт: с вероятностью 1 не существует ни одной точки t, где траектория w(t) имела бы производную. Другими словами, винеровский процесс с вероятностью 1 нигде не дифференцируем. Доказательство этого факта значительно сложнее и выходит за рамки этой книги. Читатель может без труда проверить, что w(t) в известном смысле обладает свойством параболы — именно, процесс w*(t) = \/y/cw(ct) при любом с > О снова является стандартным винеровским процессом. § 3. Законы повторного логарифма С помощью рассуждений, подобных тем, что применялись в конце предыдущего параграфа, можно установить и значительно более сильный факт: траектория w(t) в окрестности точки t = О, образно говоря, «полностью зачерчивает» внутренность области, образованной двумя ветвями кривых у = ±д/2£1п1п j. Внешность этой области остается нетронутой. Это так называемый локальный закон повторного логарифма.
§ 3. Законы повторного логарифма 361 Теорема 4. / w(t) \ PI limsup^=^ = 1) = 1, V *-* д/и1п1п{ J pf liminf ^ДШ== = -Л = 1. V *-* ф^Ц ) Таким образом, если рассмотреть последовательность случайных величин w(£n), ^п I 0, то последовательности <J2tn lnln — (1 ± е) при любом е > О будут для нее соответственно верхней и нижней последовательностями. Для процессов можно было бы естественным образом ввести понятия верхней и нижней функций. Если, например, процесс £(t) принадлежит С(0, со) или Z?(0, со) (или сепарабелен на (0,со)), то соответствующее определение для t —> со имеет следующий вид. Определение 4. Функция a(t) называется верхней (нижней) для процесса £(t), если для какой-нибудь последовательности tn T со события Ап — {sup (£(£)— a(t)) > 0} с вероятностью 1 наступают лишь конечное число раз (бесконечное число раз). Наряду с теоремой 4 мы получим здесь обычный закон повторного логарифма. Доказываются оба эти утверждения практически одинаково. Докажем второе, а первое получим в качестве его следствия. Теорема 5 (закон повторного логарифма). pi„-„ At) flimsup-т^-^— = l) = 1, pfliminf-^ ' =-l) = 1. V <->oo y/2t\n\nt ' Таким образом, при t —> со функции V2t\n\nt(\ ± е) при любом е > О являются соответственно верхней и нижней функциями для w(t). Обозначим w(t) = sup w(u). Для доказательства теоремы потребуется Лемма 1. оо P(w(t) >*) = 2P(w(t) ^х) = -== f e~v2/2t dv\ х^О. V27rt J x Здесь справа стоит так называемый удвоенный нормальный закон. Доказательство. Введем в рассмотрение случайную величину тх = inf{u : w(u) ^ x} (напомним, что w() E С(0, со)). Это есть момент остановки в том же смысле, что и раньше: {тх > v} = {w(v) < х} е 3V = а{£(и);и ^ v}, {тх = v} = П {w[y J < x,w(v) = х\ е &,. п=\
362 Глава 18. Процессы с независимыми приращениями Следовательно, при фиксированном тх = v, v ^ t, приращение w(t) — w(rx) = w(t) — w(v) не зависит от {rx = v} E $v и распределено как w(t — v) ^ $o,*-v Поэтому на множестве {тх ^ t} P(w(t) ^ х\тх) = P(w(t) - w(tx) ^ 0\тх) = -, P(w(t) ^ х) = Е[Р (w(t) ^ х\тх);тх ^t]= -Р(тх ^t) = -P(w(t) ^ х). Доказательство теоремы 5. Заметим предварительно, что в силу правила Ло- питаля 00 00 pw»i)=vk/e""'2'^-vfc/^ /2 du • т/ft у/2жх -x2/2t (2) при x/Vi —> со. Пусть a > 1 й xk = V2ak\n\nak. у a Надо убедиться, что при любом е > О y=(l+e)V2t]n\nt ( w(t) < 1+£ )■ 1, (3) Р lim sup t у->«> V2t\n\nt т. е. что с вероятностью 1 при всех достаточно больших t w(t) < (1 + e)V2t\n\nt. Для этого достаточно установить, что с вероятностью 1 происходит лишь конечное число событий Bk = {sup w(u) > (1 +£)xfc_i}. Рассмотрим события Ak = { sup w(u) > (1 -f e)xk_\} (см. рис. 16). Тогда, так как а^/ч/а* —* со при к —> со, то Р(Ак) = 2P(w(ak) > (1 + ф*_0 - /y__Va^__ r 2(l+g)V~1lnlnafc~1-| У^(ГГф^"ехр1 2^ /~ = _L / г 1 +е V 7ralnh = с(а>е) 1 lna*"1 (lna*-1)^4-^" 1 (А; - 1)(1+£)2'ау/\п(к- 1)+In In а' Положим а — 1 + £ > 1. Тогда, очевидно, при А: —> со fc1+f\/h7fc В этих формулах с(а,е) и с(е) — некоторые постоянные, зависящие от своих 00 00 аргументов. Полученное соотношение означает, что ^2 Р(Ак) < со, ^ P(-Bfc) < со fc=l к=\
§ 3. Законы повторного логарифма 363 (Bk С Ак) и, значит, по критерию Боре л я—Кате лл и (теорема 10.1) события Вк с вероятностью 1 происходят лишь конечное число раз. Докажем теперь, что при произвольном е > 0 pflimsup ,' > 1-е) = \. (4) Очевидно, вместе с (3) это и будет означать, что выполнено первое утверждение теоремы. Рассмотрим при а > 1 независимые приращения w(ak) — w(ak~ ) и обозначим Bk событие Вк = {w(ak) - w(ak~l) > (l - 0xfc}. Так как w(ak) — w(ak~ ) распределено так же, как w(ak(\ — a~ )), то в силу (2), как и прежде, находим Р(Вк) „ У^1-^ ехр { - O-^blna-S „ c^ (I^/(I..-,) V ' Vbi(\-e/2)xk I 2а*(1-а-') / у/Ш 00 Отсюда следует, что при а ^ 2/е ряд ]Г} P(#fc) расходится, и, значит, по критерию л=1 Бореля—Кантелли с вероятностью 1 наступает бесконечное число событий Вк. Далее, в силу симметрии процесса w(t) из соотношения (3) следует, что при всех достаточно больших А: и любом 6 > О w(ak) > -(1 + 6)хк. Вместе с предыдущим это означает, что бесконечное число раз будет наступать событие w(ak~l) + [w(ak) - w(ak~1)] = w(ak) > -(1 + б)хк_{ + (l - |)*fc. Но правая часть этого неравенства может быть сделана выбором а больше (1 — е)хк. Действительно, -(\ + 6)хк-{ +-хк >0, если только (1 + 6)у а\п\пак ^ е1^"> чего в свою очередь легко добиться, выбрав a достаточно большим. Таким образом, соотношение (4) доказано. Второе утверждение теоремы, очевидно, следует из первого в силу симметрии распределения w(t). ш В качестве следствия можно получить теперь локальный закон повторного логарифма для t —> 0. Доказательство теоремы 4. Рассмотрим процесс {W(u) = uw(l/u);u ^ 0}, где принято W(0) = 0. Замечательный факт состоит в том, что процесс {W(u);u ^ 0} также является стандартным винеровским процессом. Действительно, при t > и Eexp{i\(W(t)-W(u))} =Еехр{гл[*™(-) -шМ]} = Еехр{гЛ^(7)(^-^)-^(^(-)-^(-))]} expt-- <ь-и?1--г(й-1)} = ^{-т{1-и)У
364 Глава 18. Процессы с независимыми приращениями Независимость приращений проще всего доказать, установив их некоррелированность. Действительно, E[W(u)(W(t)-W(u))] =е[ш£/(-)(*ti/(-) -w(-))] = = E[uwQtwQ-u2w2Q]=u-u = 0. Для доказательства теоремы остается заметить, что w(t) uw(7l) Wlu) lim sup . : = lim sup — = lim sup - nil \j\*^j . mil uw»^» ■ Hill uwp . yjlu\n\nx- u^° yj2u\n\nX- Доказательство можно было бы провести, повторив рассуждения теоремы 5, где надо выбрать а < 1. В заключение отметим, что винеровские процессы играют весьма важную роль во многих теоретико-вероятностных рассмотрениях и служат моделями для описания многих процессов в природе. Они представляют собой, например, хорошую модель для описания движения диффундирующей частицы. В связи с этим винеровские процессы часто называют также процессами броуновского движения. Винеровские процессы оказываются в известном смысле предельными для случайных ломаных, построенных по точкам (fc/n, 5*/л/п), где Sk — суммы случайных величин £;, Е£у = 0, Dfj = 1. Об этом подробнее будет сказано в гл. 19. С винеровским процессом тесно связно также понятие стохастического интеграла и большое количество других конструкций и результатов. § 4. Пуассоновские процессы Определение 5. Однородный процесс £(t) с независимыми приращениями называется пуассоновским, если £(t) — f (0) имеет распределение Пуассона. Положим для простоты £(0) = 0. Если £(1) ^ П^, то <р(\) = Ее,Л^^ = ехр{/^(е,А - 1)} и, как мы знаем, W(A) = Ee^W = p'(A) = exp{^(eiA - 1)}, так что £(t) ^ П^. Рассмотрим свойства пуассоновского процесса. Прежде всего, £(£) при каждом t принимает лишь целочисленные значения 0,1,2,... . Разобьем полуинтервал [0,£) на полуинтервалы [0,£i), [^i,^), • • • , l^n-b^n) длиной А, = £,-£,_!, г = 1,... ,п. При малых А,- распределение приращений £(£,) -f(£,-i) будет обладать свойствами Р(№ - £(<;_,) = 0) = P(t(Ai) = 0) = е-"Д- = 1 - Mi + 0(Д,2), Р«(«О - M-l) = 0 = ^А,е-"А' = MAi + 0(Д?), (5) P(№-t(ti-l)>2) = 0(Ah Рассмотрим «вложенные» рациональные разбиения ?А(п) = {t\,... , £п} отрезка [0,£] такие, что Щп) С £%(п + 1), \J@l(n) = ?At есть множество всех рациональных чисел отрезка [0,£]. Отметим следующие три обстоятельства.
§ 4. Пуассоновские процессы 365 1) Пусть i/(n) — число интервалов разбиения ^Л{п), на которых приращение процесса f отлично от 0. При каждом ш и{п) не убывает при п —> со. Кроме того, число и(п) представимо в виде суммы независимых случайных величин, равных 1, если на г-м интервале есть приращение, и нулю в противном случае. Поэтому в силу (5) ри»)?ч(*))=р( и м*.-)-to-i)^2}utew-*(*»)£!}) = V,-e^(») / „ / \ = счХ>; + (*-*»)), где ^2 Aj ^ ^maxAj —> 0 при п —> со, так что при измельчении разбиения п. в. i=i 1/(п)|{(0§П^. 2) Так как длина максимального интервала А; сходится к 0 при п —► со, то суммарная длина интервалов, содержащих скачки, сходится к 0. Следовательно, объединяя оставшиеся (т.е. без приращений £) и примыкающие друг к другу интервалы Aj, при каждом и получим при п —► со в пределе £(t) -f 1 интервалов (0,ai),(ai,a2),... ,(a^),£), на которых приращения процесса f равны нулю. 3) Наконец, в силу (5) вероятность того, что хотя бы один скачок на интервалах Aj превосходит единицу, меньше Х^О(А^) = о(1) при п —> со, так что с вероятностью 1 приращения в точках а& равны 1. Мы получили, таким образом, что на отрезке [0,£] для каждого и существует конечное число £(t) точек a\,...,a^/t\ таких, что £(и) в рациональных точках интервалов (afc,afc+i) принимает одно и то же постоянное значение, равное А:. Это означает, что можно доопределить траектории процесса £(и), скажем, по непрерывности справа так, что £(и) = к при всех и, ак ^ и < ак+\. Теми самым для исходного процесса £(t) построена модификация £(t) с траекториями в D+{T). Эквивалентность £ и f следует из самого построения, так как в силу 1) P(e(0 = «0)=P(Hmi/(n)={(0) = l. п—>оо Такие непрерывные справа (или слева) модификации пуассоновского процесса обычно и рассматривают. С такого рода процессами мы уже имели дело в гл. 9, где определялись более общие процессы — процессы восстановления — сразу с помощью траекторий. Тот факт, что пуассоновский процесс есть процесс восстановления, вытекает из следующих соображений. Из соотношений (5) легко установить, что распределения случайных величин а\, ai~о>\, аз ~а2» • • • совпадают и что сами эти величины независимы. Действительно, aj — a^_i, j' ^ 1, ao = 0, приближается суммой (у/ - 7.7-1)А одинаковых интервалов А, = А, где 7> есть номер интервала, на котором расположено j-e по счету ненулевое приращение f. Так как Р((Ъ - 7;-,)Л > и) = Р (71 > £) = (е-"Д)["/д1 -+ в""" при А —> 0, то величины aj = aj — aj_\, j = 1,2, 3,... , распределены показательно, а значение £(t) + 1 можно рассматривать как время первого прохождения уровня t суммами aj : £(t) = тах{&: ak ^ £}, £(£) -f 1 = min{fc: ak > t}.
366 Глава 18. Процессы с независимыми приращениями Мы получили, таким образом, что пуассоновский процесс £(t) совпадает о процессами восстановления rj(t) (см. гл. 9) для показательно распределенных величин аьа2,...; P(aj > и) = е~»и. Из сказанного и из свойств пуассоновского процесса вытекает также следующее замечательное свойство показательно распределенных случайных величин. Количества точек скачков (т.е. сумм а&), попавших в непересекающиеся интервалы времени 6j, независимы, причем эти количества имеют распределения Пуассона с параметрами pdj. Пользуясь последним обстоятельством, можно построить и более общую модель скачкообразного однородного процесса с независимыми приращениями. Рассмотрим произвольную, не зависящую от а-алгебры, порожденной процессом £(t), последовательность независимых одинаково распределенных случайных величин СьСг»--- с Х-Ф- PW- Построим теперь новый процесс £(£) следующим образом. Каждому ш поставим в соответствие новую траекторию, полученную из траектории £(t) заменой первого единичного скачка на величину £i, второго — на величину С2 и Т-Д- Легко видеть, что £(£) также будет процессом с независимыми приращениями. При этом значение £(£) будет равно сумме C(*) = Ci+-..+Q(t) (6) случайного числа £(£) случайных величин СьСг»---» гле £(0 по построению не зависит от {Cfc}- Поэтому по формуле полной вероятности Ее«С<0 = J2 Р(£(<) = k)EeiX«'+-+V = £ №) г-»Чя<\\\к - Р~^+(ИР(\) _ р/*«(Р(А)-1) к\ -е ,/rf(/3(A))* = e'^+WW = е^(А)_1). (7) Определение 6. Процесс £(£), определенный формулой (6) или х. ф. (7), называется обобщенным пуассоновским процессом. Как уже отмечалось, это снова есть однородный процесс с независимыми приращениями. В формуле (7) fi определяет интенсивность скачков процесса £(£), /3(A) — их распределение. Если к £(t) добавить постоянный «снос» at, то процесс £($) = £(£) + at, очевидно, также будет процессом с независимыми приращениями сх.ф. EeiAfW=et(iAe+^A)-1». Наконец, если на том же вероятностном пространстве задан винеровский процесс w(t) с коэффициентами (0,а), независимый от ((£), и мы каждому и поставим в соответствие траекторию £(£) + w(t), то вновь получим процесс с независимыми приращениями с х.ф. ^"-^/^"ММ)). Следует отметить, однако, что этими построениями далеко не исчерпан весь класс процессов с независимыми приращениями (и, следовательно, класс безгранично делимых распределений). Описание всего класса будет дано в следующем параграфе. Пуассоновские процессы так же, как и винеровские, часто используются в качестве математических моделей в разного рода приложениях. Пуассоновским процессом описывается, например, процесс появления космических частиц определенной энергии в заданном объеме или процесс возникновения соударений элементарных частиц в ускорителе. Им же описывается процесс поступления вызовов на телефонную станцию и многое другое.
§5. Распределения процессов с независимыми приращениями 367 Изучение обобщенных пуассоновских процессов в силу представления (6) во многом сводится к исследованию свойств сумм независимых случайных величин. § 5. Описание распределений всего класса процессов с независимыми приращениями Мы видели в теореме 1 §1, что для описания класса распределений стохастически непрерывных однородных процессов с независимыми приращениями достаточно описать класс всех безфанично делимых распределений. Пусть, как и прежде, X есть класс х. ф. безфанично делимых распределений. Лемма 2. Класс X замкнут относительно операций умножения и предельного перехода (если предел есть снова х.ф.). Доказательство. 1) Пусть (р\ е <£, (f2 € ^. Тогда (f\<p2 = (<pl/n • ^Т> где ^Z"' Р^" есть Х-Ф* 2) Пусть <рп € -£, <Рп -+ <Р, <Р есть х.ф. Тогда для любого га (рп —> (р 'т, где (р 'т непрерывна в нуле и, следовательно, есть х. ф. ■ Обозначим через -£п С X класс х. ф. вида lnp(A) = i\a + J2ck(eiXh~l)> с* ^ °> J2Ck< °°- Этот класс будем называть пуассоновским. Мы уже знаем, что он соответствует пуассоновским процессам со сносом а и интенсивностью с* скачков величины bj- (]Сс*(е'А&* ~~ О = ScfcE(e,A^ — 1), где С имеет скачки Ь& с вероятностью Ck/^Ck). Лемма 3. Х.ф. (р принадлежит <£ тогда и только тогда, когда (р = limy?„, Доказательство. Достаточность. Пусть \п<рп = i>n = Yl (iXak>n + С*ЖА&М - 0)> у? = limy?„ есть х.ф. Очевидно, что у?„ Е -^п С =^, у?п —► у^т. Поэтому у?1у^т, будучи непрерывным в нуле пределом х.ф., есть х.ф., (р Е X. ' Необходимость. Пусть у? G ^f. Тогда у?(А) / 0, существует ^ = \гкр, п(<р1'п-1)-+ф, ^_1=y,(e^_1)dFn(x) Интефал от непрерывной функции, стоящий справа, можно рассматривать как интефал Римана—Стилтьеса. Это означает, что для Fn существует разбиение вещественной оси на интервалы Дп& такое, что при xnk Е Дп&, гп < сп~2 [ (eiXx - 1) dFn(x) = J2 {eiXx^ - l)Pn(Ank) + rn J k (Pn(A) есть вероятность попадания в А, соответствующая Fn). Получаем ■ф = limn(v>1/n - 1) = lim [^(eiAl" - 1)Р„(Д„*)].
368 Глава 18. Процессы с независимыми приращениями Теорема 6 (Леви, Хинчин). (р Е X тогда и только тогда, когда функция -ф — In у? представима в виде 1> = 1>(\;а,*)=г\а+ (eiXx - 1 - Л —d*(x), (8) где Ф есть неубывающая функция ограниченной вариации {функция распределения с точностью до постоянного множителя), подынтегральную функцию при х — О следует считать равной —А /2 (доопределенной по непрерывности). Доказательство. Пусть 'ф имеет вид (8). Тогда тр(Х) есть непрерывная функция, так как она представляет собой (с точностью до непрерывного слагаемого iXa) равномерно сходящийся интеграл от непрерывной ограниченной функции. Далее, пусть Xkn /0, к = 1,...,п, — точки измельчающегося разбиения полуинтервала [—у/п, у/п). Тогда ip (А) = ip(X) — гХа можно представить в виде ip = lim^n, п ^п(А) = Yl iiXakn + Ckn(eiXh* - 1)] Е ^п, к=\ где при естественных соглашениях относительно обозначений следует положить 1+zL /г чч *([а*п,а*+1,п)) сы = 9 *{[хкп,хк+\п)), акп = , Ькп = хкп, Чп Х^ здесь буквой Ф мы обозначаем также меру Ф(А) = J dty(x). Мы получили, А что (р есть непрерывный предел последовательности х. ф. (рп Е -£п. Остается воспользоваться леммой 3. Пусть теперь <р Е ~£. Тогда 1> = \imn((pl/n - 1) = lim f(eiXx - l)ndFn(x) = Г f nx , . f / i\T i^x \ I + x2 nx2 t \ -i =lir4A/ TTJdF"ix)+J (e -'"тт^)—тт^-К)]- <9> Если положить 9 /пж пж 2 dF"(X)> d*n(x) = 2 dF"(X)> (10) 1 + Xz 1 + XL то справа будет стоять lim ^n, 'Фп = VK^ an, ^n)- Допустим теперь на минуту, что для функций из X справедлива теорема непрерывности: Лемма 4. Если ipn = ^(А;^, Фп) —> ip и чр непрерывна в точке А = О, то 'ф(Х) имеет вид ^(А;а,Ф), ап —> а, Фп => Ф (последнее, как и для функций распределения, означает сходимость в точках непрерывности, Фп(±оо) —> Ф(±оо)). Если эта лемма верна, то требуемое утверждение очевидным образом следует из (9), (10). Осталось лишь провести Доказательство леммы 4. Отметим сначала, что соответствие ^(А; а, Ф) <-> (а, Ф) взаимно однозначно. Так как в одну сторону это очевидно, то надо убедиться
§5. Распределения процессов с независимыми приращениями 369 лишь, что гр однозначно определяет а и Ф. Каждому гр поставим в соответствие функцию two/[«»-«*+»>;«*-*>] 1 е ) —i2— dV(x)dh, //( < , х о где ei(\+h)x + е*(А-Л)х — = е х coshx, 2 1 / e'Al(l - coshx)dh = elAx(l - ^i±), 2 sinx\ 1 + ж / sini\ l + x 0 < q < f 1 J — < c2 < oo. Поэтому 7(Л) = / eiXx dT{x), где -00 -OO ведет себя (с точностью до постоянного множителя) как функция распределения, для которой j(X) играет роль х. ф. Итак, мы получили цепочку однозначных соответствий i/> —> 7 —* Г —* ^> доказывающих утверждение. Вернемся к доказательству леммы 4. Так как е^* —> е^, е^п есть х. ф. и е^ непрерывна в точке Л = 0, то е^ есть х. ф. и, следовательно, непрерывная функция. Это значит, что сходимость трп —> тр равномерна на любом отрезке, 1 ^ + Л)+*(А-^Л = 7(Л)> 2 О и функция 7(^) непрерывна. По теореме непрерывности для х. ф. это означает, что *у(и) есть х.ф. (конечной меры Г), Гп => Г (Гп есть прообраз jn), Ф„ => Ф, ап —> а. Итак, установлено, что ^ = lim^n = Ит \iXan + / (eiXx - 1 —j) <*Фп(ж)] = = гЛа -f A (elAx - 1 - % X Л d$(x) = <0(A; а, Ф). Сделаем несколько замечаний, относящихся к структуре процесса £(t) и его связи с представлением (8). Функция Ф в (8) соответствует так называемой спектральной мере процесса £(£). Ее можно представить в виде fi^\(x), где
370 Глава 18. Процессы с независимыми приращениями \i = Ф(оо) — Ф(—со), Ф\(х) есть функция распределения. (Мы используем также запись Ф(А) = / с№(х).) А 1) Винеровскому процессу соответствует спектральная мера, сосредоточенная в точке 0. Если Ф({0}) = а2, то {(1) &Фааг. 2) Пуассоновскому процессу (обобщенному) соответствует мера Ф такая, что J , V < со. В этом случае х о f l + и G(x)= / у- йЩи) J и1 -оо обладает свойствами функции распределения и ^(Л; аФ) можно записать в виде г\ах + A (eiXx - l) <Ю(ж), где а! =а-J —^. 3) Рассмотрим теперь общий случай, но при условии Ф({0}) = 0. Как мы знаем, if) можно приблизить при малых А (А* = ((к— 1)А,А;А)) с помощью выражений вида *=-00 **0 что соответствует сумме пуассоновских процессов со скачками кА и интенсивностью TfcA)2 ^(А*)- Если, скажем, / —^ = со, то суммарная интенсивность скачков из К ' +0 (О, е) этих процессов при любом е > О будет неограниченно возрастать при А —► 0. Это значит, что с вероятностью 1 на любом временном интервале 6 появится хотя бы один скачок меньше любого заданного е > О, так что траектории £(t) будут всюду разрывны. Для «компенсации» этих скачков добавляется снос величиной ^д , который также может быть «в сумме» неограниченным (если / £ = оо). +0 4) Устойчивым процессам (см. §8.9) соответствуют гладкие на полуосях степенные функции Ф(ж), обладающие свойством с\Ф'(х) = Ф'(с2ж) при подходящих сь с2.
Глава 19 Функциональные предельные теоремы § 1. Сходимость к винеровскому процессу (принцип инвариантности) Уже отмечалось в §18.2, что винеровские процессы являются в известном смысле предельными для случайных ломаных, построенных по точкам (fc/n, Sk/y/n), где Sk = £i -f ... + £k — суммы независимых одинаково распределенных случайных величин £ь£2>--- . Придадим теперь этому высказыванию более точный и общий смысл. Пусть Sl,n> * • • >Sn,n — независимые случайные величины в схеме серий к (1) ЕЙ,„ °к,п с конечными третьими моментами Е|&|П| = fi^n < оо. Будем предполагать, не ограничивая общности (см. §8.4), что D£n?n = п к Y^ajn — 1- Положим tkn = ^crjny так что ^Оп = 0> L = 1, и рассмотрим .7=1 ' i=i случайную непрерывную ломаную с узлами в точках ($*,С*)> гДе Для краткости опущен второй индекс п: £* = t^n, Cfc = Ck,n- Мы получили случайный процесс на [0,1] с непрерывными траекториями, который обозначим sn = sn(t) (рис. 17). Принцип инвариантности (или функциональная центральная предельная теорема; смысл первого названия будет прокомментирован позже) состоит в том, что для любого функционала /, заданного на пространстве С(0,1) и непрерывного в равномерной метрике, распределение f(sn) слабо сходится: i £2 tl 0 i jr 1 1 tx t2 \s„«) ^ 1 t Рис. 17. f(s„) => f(w), (2) к распределению f(w), где w = w(t) — стандартный винеровский процесс. Обычная центральная предельная теорема является частным случаем этого факта (надо в качестве f(x) взять ж(1)). Высказанное утверждение эквивалентно каждому из следующих двух фактов:
372 Глава 19. Функциональные предельные теоремы 1. Для любого ограниченного и непрерывного функционала / Е/(в„) - Е/И. (3) 2. Для любого G из а-алгебры борелевских множеств 03^(0,1) в пространстве С(0,1) (53^(0,1) порождена открытыми множествами в метрическом пространстве С(0,1) с равномерной метрикой; уже отмечалось, что 93^(0,1) = ®с )"» такого, что Р(гу G 0G) = 0, где dG — граница множества G, выполняется P(sneG)-+P(weG). (4) Соотношения (3), (4) суть эквивалентные определения слабой сходимости распределений Рп процессов sn к распределению W винеровского процесса w в пространстве (С(0,1),93^(0,1))- Более подробные сведения об этом можно найти в Приложении 3 и в [1, 7]. Основное содержание этого параграфа составляют следующие теоремы. п Обозначим, как и прежде, Ь$ = ]Г} /^>п. к=\ Теорема 1. Пусть Ь$ —> 0 при п —> со (условие Ляпунова). Тогда справедливы соотношения сходимости (2) —(4). Замечание 1. Условие Ь$ —> 0 здесь можно ослабить до условия Линдеберга. В таком виде высказанная теорема сходимости носит наименование принципа инвариант ноет и Донскера—Прохорова. Наряду с теоремой 1 получим и более точное утверждение. Определение 1. Множество G назовем липшицевым, если AWc(e) = W(G^)- W(G) ^ се, где G'e' есть £-окрестность G, W — мера, соответствующая винеров- скому процессу. В дальнейшем буквой с (с индексами или без) будем обозначать абсолютные постоянные, не обязательно одни и те же. Теорема 2. Если G липшицево, то \P(sn е G) - P(w е G)\ < сЬ\/4. (5) В случае &|П = &/\/п (& от п не зависят и одинаково распределены, Е& = 0, D& = 1) правая часть в (5) превращается в сп~ ' . Аналогичная оценка может быть получена для функционалов. Функционал / в С(0,1) назовем липшицевым, если выполнены два условия: 1) \f(x)-f(y)\<cp(x,y), 2) распределение f(w) имеет ограниченную плотность. Следствие 1. Если f — Липшицев функционал, то множество Gv = {f(x) < v} липшицево (с одной и той лее постоянной при всех v), так что в силу теоремы 2 sup|P(/(ti/) < v) - P(f(sn) < v)\ < cb\f\ v Сформулированные выше теоремы будут следствиями формулируемой далее теоремы 3. Пусть *71,т---1*7п,п (6)
§ 1. Сходимость к винеровскому процессу 373 — любая другая последовательность независимых случайных величин в схеме серий с теми же первыми двумя моментами Ещп = 0, Ещп = а\п и с конечными третьими моментами. Обозначим ¥\.^, &k,n функции распределения &,п и щ^п соответственно, i/M = Е \щ,п | < оо, N3 = ]Р ^М» ц°кп = I \х\3\ d(F^n(x) - Ф*,„(ж))| ^ №,п + ^,п, п ^3 = £>*,» ^3 + ^3- Обозначим через s'n(t) случайный процесс, построенный так же, как процесс sn(t), но по последовательности {щуП}- Теорема 3. Для любого A Е ^с(0,1) р(,,€А)^р(,;е^) + 7- Чтобы доказать теорему 3, получим сначала ее конечномерный аналог. к Обозначим через С и ту векторы С = (Сь- • • Лп), V = (vu-'->Vn), где С* = X) £;,п, щ — Е ^,п} и обозначим BSe) £-окрестность множества В Е IRn : »<<> bw= U (* + »), где ж = (жь...,жп), v = (t7b...,t;n), |v| = max|vfc|. Лемма 1. Пусть В — любое борелевское множество из Ж1. Тогда Р((ЕВ)^Р(^Б(2с)) + ^. Доказательство^. Введем в рассмотрение совокупность расширяющихся окрестностей В^е\к) = (J (xb...xfc)xfc+i +гъ+1,...,ж„ + vn), fc = 0,...,n, В = BW(n) С BW(n - 1) С ... С В(£\\) С BW(0) = В{е) и обозначим через е& вектор (0,... ,0,1,0,... ,0), где 1 стоит на месте к-й координаты. Очевидно, что, если х Е В^(к), то х + екуке В^(к-\) при Ы^е. (7) '* В основе приводимого ниже доказательства лежит предложенное А. И. Саханенко обобщение подхода к доказательству центральной предельной теоремы, изложенного в §8.5.
374 Глава 19. Функциональные предельные теоремы Далее, наряду с сериями (1), (6) рассмотрим совокупность «переходных» последовательностей £l,n,--->&ln>1te+l,n>--->1?nln, fc = 0,...,П. (8) Обозначим £(fc) = (Ci(fc)> • • • >Сп(&)) векторы, образованные накопленными суммами k-й последовательности, так что £,-(*:) = 0 при j ^ k (j(k) = Ck + Vk+\,n + ••• +^i,n ПРИ j > fc. B Лемма 2. Для любой случайной величины 6 такой, что Р(\6\ ^. е) — 1, выполняется п Р(СевХР(т,ев(2£>)+5>*, (9) где Ак = Р (С(Л) + <5е(^ -1)6 B(£)(fe - 1)) - Р (С(* - О + 6е(к -1)6 BW(fc - 1)), П е(г) = ]Ге,=(0,...,0,1,...,1). г+1 Доказательство. Действительно, в силу (7) Р(С е В) = Р (С(п) € В(е\п)) ^ Р (С(п) + е(п)6 G В{е\п - 1)) = = р (С(п) + е(п - 1)<5 G В(е)(п - 1)) = Р (С(п - 1) + е(п - 1)6 G В{е\п - 1)) + Дп. Применяя снова те же выкладки к правой части, получим Р (С(п - 1) + е(п - 1)6 G В{е\п - 1)) ^ ^ Р (С(п - 1) + е(п - 1)6 + en_!<5 G В(е)(п - 2)) = = Р (С(п - 1) + е(п - 2)6 е В(е\п - 2)) = = Р (С(п - 2) + е(п - 2)6 G В{е\п - 2)) + Ап_ь Р(С(1) + е(\)6 е bW(1» ^ Р (С(1) + е(\)6 + ех6 G Я(е)(0)) = = Р (С(1) + е(0)б G В(е)(0)) = Р (С(0) + е(0)6 G В(е)(0)) + А!. Так как С(0) = iy, Р (ту + е(0)<5 G В(е)) ^ Р (т/ G £(2£)), то (9) доказано. ■ Чтобы получить лемму 1, надо оценить теперь А&. Нам будет удобно вместе с (8) рассматривать также последовательности f l,m • • • > &-1,п> У, %+l,m • • • > Vn,n и обозначать С(&>2/) — (0(^>2/)>- • Xn(k,y)) соответствующий вектор накопленных сумм, так что C(fc,6,n) = С(*) = С(М) + &,пс(*-1). С(Мм) = С(* - 1) = С(М) + ^,ne(*-i)-
§ 1. Сходимость к винеровскому процессу 375 Тогда Afc можно записать в виде Ак = Р (С(*, 0) + (б + &|П)е(* - 1) € B(ff)(* - 1)) - - Р(С(М) + (Н%,„)е(* - 1) € В(е)(* - 1)). (10) Возьмем в качестве б случайную величину, не зависящую от £ и г). Тогда вероятности, входящие в (10), удобно оценивать, пользуясь у. м.о., так как, например, в равенстве Р (С(*, 0) + (б + &|П)е(* - 1) G В(е)(А; - 1)) = = ЕР((^ + й|П)е('А:-1)€В<с)(А:-1)-С(*>0)|С(Л,0)). (И) множество С = В^£\к - 1) - С(&>0) можно считать фиксированным (см. свойства у.м.о., б и £k,n от С(&>0) не зависят). Обозначим через D множество у, для которых уе(к - 1) G С. Тогда надо оценить разность Р(* + &.я е D) - Р(б + 77М G />). (12) Воспользуемся леммой 8.3. Чтобы привести (12) к виду, удобному для применения леммы, выберем в качестве б случайную величину, имеющую трижды непрерывно дифференцируемую плотность g(t), и положим для краткости £*>п = £, щ^п = г). Тогда б + f будет иметь плотность, равную / dF^(t)g(y — t) = Eg(y — f), так что Р(б + £ G Я) = JEg(y - i)dy = Е У </(г/ - £)<1у. Р D Если положим теперь /(ж) = f g(y — х) dy, то получим, что D Р(* + £€Л) = Е/(0, где / — трижды непрерывно дифференцируемая функция, \f"'(x)\^J\g'"(y)\dy = h- Применяя теперь лемму 8.3, получим, что \P(6 + t e D)-P(6 + r,e D)\ = |E(/(0 - /fo))| < £/4!,„, Мм = J |x3||d(Ffc,n(x) - Фм(х))|. Так как правая часть здесь от С,(к,Ч) и D никак не зависит, то, возвращаясь к (10), (11), мы получим ту же оценку |Д*1 < уД- (13) Пусть теперь д\(х) — некоторая гладкая плотность, сосредоточенная на [-1,1]. Тогда, полагая д(х) = l/e<7i(f), получим /3 = / р|дГ(|) \dy = ^ f \9"'(y)\dy = ^, с, = const. (14) Сопоставляя (9), (13) и (14), мы получим утверждение леммы 1. ■
376 Глава 19. Функциональные предельные теоремы Доказательство теоремы 3. Эта теорема есть следствие леммы 1. Действительно, пусть В Е Шп таково, что события {sn € А} и {£ Е В} эквиваленты (sn полностью определяется по С), тогда, очевидно, {sn Е А^} = {С £ В^}, и утверждение теоремы 3 повторяет утверждение леммы 1. ■ Доказательство теоремы 1. Пусть w(t) — стандартный винеровский процесс. Положим rjkyn = w(tk,n) -w(h-\,n)- Тогда последовательность rj\n,... ,rjnn удовлетворяет всем наложенным выше условиям, так как Ет7*,„ = 0, Er)ln = сг£п, i/M = E|&|fI|3 = c3aln < со. Отметим также, что <г\п = (Е|&,„|2)3/2 ^ E|£fc,n|3 = рьк)П, так что п п к=\ к=\ Нам понадобится Лемма 3. P(p(w,s'n) > е) ^ cN3/e3. Доказательство. Событие {p(w,s'n) > e} равно \jAk, где к Ак = {sup \w(t) - s(t)\ >e}c f sup И*)| > J), h k 6k ^J f>k = [*fc-b*fc]- Поэтому (tk - tk_i = al w(t) = aw(t/a2)) p P(Ak)^p(sup\w(t)\>-^-) ^2(1-ф(-^)). v[0,l) 2^|fI/ V ^2afc)n// Функция (1 - Ф(£)) убывает при t —> со значительно быстрее, чем £~3. Поэтому 'О-•(£))< 4- Из доказательства видно, что оценка в лемме 3 является весьма грубой. Вернемся к доказательству теоремы 1. Так как P(s'n eG) = P(s'n E G,p(w,8'n) ^e) + P(sn E G,p{w,s'n) > е), то P(«L6G)^P(«6G>'0 + -r (15) и в силу теоремы 3 Р(5„ 6 G) * Р(« 6 С*)) + ^t^-
§ 1. Сходимость к винеровскому процессу 377 Получим теперь обратное неравенство. Обозначим G^~e' множество G~e = G - (dGp£\ тогда [G^-^]^' = G С G. Меняя местами sn и s'n в теореме 3 и применяя ее к множеству G^~2e\ получим P(Sn e G°) > Р(*« е g<-2£>) - £Й+Лз). (16) Меняя местами w и s'n в (15) и применяя это соотношение к G'~ ', находим Отсюда и из (16) получаем Р(*„ е G) * P(sn e с0) * Р(« € g<"*>) - c(L° + 4 Если обозначить P(w G GW) - P(weG) = W(G(e)) - W(G) = AWG(e) и учесть, что N3 ^ cL^, Щ ^ £3 -f N3, то мы получили -AWG(-3e) + ^y^P(5n6G)- W(G) ^ A^(3e) + ^. (17) Если W(dG) = 0, то очевидно, что W(G{3e)) - W(G{-3e)) -> 0 при £ —> 0, AWc(±3e) —> 0. Отсюда и из (17) уже легко получить, что P(sn Е G) —* P(w G G). Сходимость /(sn) => /(гу) для непрерывных функционалов следует из (4), так как множество Gv — {х G С(0,1): /(ж) < v} для точки v, являющейся точкой непрерывности распределения /(ги), обладает свойством W(dGv) = P(f(w) = v) = 0 и, следовательно, Р(/(*„) < V) - Р(/И 6 V). Доказательство теоремы 2. Если множество G липшицево, то \AWG(±3e)\ < се и в силу (17) \P(sneG)-W(G)\<c(e+1^). 1/4 Полагая е = L^ , получим требуемое утверждение. ■ Название «принцип инвариантности», относящееся к основным утверждениям этого параграфа, лучше всего иллюстрируется теоремой 3, в силу которой для приближенного вычисления P(sn Е .4) можно пользоваться значением P(s'n Е .4) для любой другой последовательности (6), обладающей лишь теми же первыми двумя моментами, что и (1). В этом смысле главная часть P(sn G А) инвариантна относительно конкретных распределений рассматриваемых последовательностей.
378 Глава 19. Функциональные предельные теоремы Например, вычисление P(sn Е G) или P(w(t) Е G) можно заменить вычислением P(s'n Е G) для последовательности в схеме Бернулли, к которой удобно применять различные численные методы. С другой стороны, вероятности P(w Е G) для целого класса областей G найдены в явном виде (см., например, [20]). Мы знаем, например, что P(suptu(£) > у) = 2(1 - Ф(г/)). (Отсюда следует, в частности, что множество G = {х Е С(0,1): supx(t) > у} является липшицевым.) Поэтому для — k 1 распределения максимума сумм Sn = maxSfc, Sfc = ]Г fy, E£k = 0, Df* = а будем иметь ^ J-1 Р(5п>жа^)-+2(1-Ф(ж)), и мы можем ^спользовать это соотношение для приближенного вычисления распределения 5„, представляющего, как мы видели в гл. 11, значительный интерес в приложениях. Точно так же можно приближать совместное распределение 5„, Sn и 5П = minSfc (т.е. вероятности вида P(5n < Хл/п, 5П > ул/n, Sn € В)) с помощью соответствующих формул для винеровского процесса, приведенных в [20]. Замечание 2. В заключение этого параграфа отметим, что все утверждения, высказанные выше, сохранятся, если в них вместо sn(t) рассматривать не непрерывную, а ступенчатую ломаную s*(£) = 0fc,n при t E [£fc,£fc+i). В этом можно убедиться, проведя заново все рассмотрения применительно к s*. Другой путь для получения, скажем, теорем 1, 2 для s* состоит в том, чтобы воспользоваться уже полученными результатами и оценить расстояние p(sn,s*). Так как п Ms», 4) > е} С (J {I6.nl > е], то Р(р(*Я|s\) >е)^ £ Р(|&,п| > *) ^ Е ^Г = 3- *=i *=i £ £ Напомним, что оценку такого же вида мы получили для p(s'n,w) и это позволило заменить, где это требовалось, s'n на w. Следовательно, пользуясь точно такими же рассуждениями, можно менять sn на s*. В этом случае можно рассматривать сходимость распределений функционалов /(5*), определенных на £>(0,1) (и непрерывных в равномерной метрике р). В ряде случаев использование s„ бывает технически более удобным, чем sn. Например, в случае, когда надо найти предельное распределение X) ^(Cfc,n) = n J (p(sn(t)) dt (£k,n одинаково распределены). Из к=\ , п выписанного представления следует, что - ]Г} <p(Cfc,n) ==> JV(w(0) dt. п к=\ § 2. Закон повторного логарифма Пусть f 1»&>■ • • — последовательность независимых случайных величин, пп п *=1 А=1 к=\
§2. Закон повторного логарифма 379 В этих обозначениях отношение Ляпунова равно Мп В этом параграфе мы покажем, что из закона повторного логарифма для винеровского процесса и из теоремы 2 следует Теорема 4 (закон повторного логарифма для сумм случайных величин). Если Вп —> со, £з,п < с/ 1п Вп при некотором с < со, /яо р( шй—Д= = Л = 1, V^^Bn^lnlnBn / 5n f lim—/* =-Q = i. Таким образом, все последовательности, располагающиеся выше (l-f£:)x хБ„\/21п1пБп, будут верхними для последовательности 5„, а все последовательности ниже (1 - е)Впу/2\п\пВп — нижними. Условия теоремы, очевидно, будут выполнены для одинаково распределенных ffc, так как в этом случае Ьзп — ^\/{с\\/п), в\ — а\п. Доказательство. Обратимся к доказательству закона повторного логарифма в теореме 18.5 и применим его к последовательности Sn. При этом не потребуется вносить никаких существенных изменений. Надо лишь вместо w(ak) рассматривать Snk, где rife = min{n: в\ ^ ак}, и заменить, где потребуется, ак на ВПк. В силу условия Ляпунова maxafc = о(Вп), так что ВПк_х ~ ВПк ~ ак при А; —+ со. Ключевым моментом доказательства теоремы 18.5 является доказательство сходимости ряда (при любом е > 0) и расходимости ряда где J^P( sup w(u) > (1 +e)xk-i) (18) к u^°k Х;Р(^)-Ца^1)>(1-|)^), (19) xk = yjlak\n\nak, w(ak) - w(ak~l) = w(ak(\ - a"1)). p В рассматриваемом случае, если следовать тому же пути, надо доказать сходимость ряда £>(S„fc>(l+e)lfc-i) (18а) к и расходимость ряда X)p(^-^,>(i-|)»*)' (19а) где yk = \J2B\k In In 2?^ ~ хк. Но асимптотическое поведение вероятностей событий в (18), (18а) и в (19), (19а) при выполнении условия £з,п < с/\пВп будет по существу одинаковым. Чтобы установить это, воспользуемся неравенством \p(TneG)-piweG(±i))\<Cjfr> (20)
380 Глава 19. Функциональные предельные теоремы вытекающим из доказательства теоремы 3. В силу этого неравенства р(— > (1 + Зе)ж) ^ p(supw(u) > (1 + 2е) х) + (ех) 3 = Р ( sup w(u) > (1 + 2е)хВп) 3* ^в> ' (еж) Поэтому (см. (18а)), полагая п = пк, ж = ук_\/Вп, получим P(snk >(l + 3e)yfc-i) ^P( sup i»(tt)>(l+2e)yfc-i) +4^3,яД1Шпв21)"3/2. Здесь 2/fc_! ~ жЛ_ь Blk ^ a*, lnlnB^. - In In a* ~ Infc, L3jnfc ^ y^f hfb ~ *"• Следовательно, при всех достаточно больших А: (буквой с обозначены различные постоянные) P(Snk > 0 +3e)0b_i) ^ P( sup w(u) > (\+e)xk_i) + ^/^43/2- Так как оо { 5*сьйрт<в0- (21) то полученное неравенство означает, что из сходимости ряда (18) вытекает сходимость ряда (18а). Первая часть теоремы доказана. Вторая часть доказывается аналогично. Рассмотрим ряд (19а). В силу (20) находим Р (Snk - Snk_x > (1 - Ъе) ук) = Р (snk(\) - snk(rk) > (1 - Зе)-^Л ^ > Р(ш(1) -w(rk) > (1 - 2e)f-) - ^(lnlnBn2J-3/2, (22) ?2 Я"2 'п4_|-°п4. l£ = a* + 0*4, 0 ^ 6k ^ 1, e^. = o(B2nk). Первое слагаемое в (22) равно Р (и>(1 - тк) > (1 - 2е)£-) > Р (w(ak(l - гк)) > (1 - е) хк) = V Впк' ^P^(afc(l-a-1))>(l-e)xfcJir^^ >p(w(ak)-w(ak~l) > (l-0Zfc)- Как и прежде, в силу (21) ряд, составленный из вторых слагаемых в (22), сходится. Поэтому установленные неравенства означают, что доказанная нами расходимость ряда (19) влечет за собой расходимость ряда (19а). Теорема доказана. ■ На самом деле условия выполнения закона повторного логарифма связаны не столько с существованием третьих моментов, сколько со скоростью сходимости в центральной предельной теореме. В какой-то мере этот факт иллюстрируется следующим утверждением (см. [19]):
§ 3. Сходимость к пуассоновскому процессу 381 Теорема. Если Вп —► со, Вп+\/Вп —> 1 я/ш п —> со sup|p(— <x) -Ф(х)\ ^с(\пВпу1-6 х I \Вп / I л/ш некоторых 6 > О, с < со, wo имеет место закон повторного логарифма. § 3. Сходимость к пуассоновскому процессу Приведенные в § 1, 2 теоремы показывают, что винеровский процесс достаточно хорошо описывает эволюцию накопленных сумм при суммировании «обычных» случайных величин &>п, удовлетворяющих условию Ляпунова. Оказывается, что подобным же образом пуассоновский процесс описывает эволюцию накопленных сумм, когда случайные величины &|П соответствуют появлению редких событий. Рассмотрим независимые случайные величины в схеме серий fi,n,-• • ,fn,n, которые для простоты будем считать одинаково распределенными. Пусть Р(&,п = 0) = 1 - р„, Р(6,п = 1) = Рп, npn = fin-+fi> 0. (23) Читателю предлагается проверить, что в этом случае условие Линдеберга (и, стало быть, Ляпунова) выполнено не будет. Образуем случайную функцию sn(t) на [0, 1] следующим образом. Положим Sn(t) = Ck,n = Y]Zj,n, te J ,-), k = i,...,n. Здесь удобнее использовать ступенчатую, а не непрерывную траекторию sn(t) (ср. с замечанием 2). Утверждение, которое мы получим в этом разделе, аналогично принципу инвариантности и состоит в том, что процесс sn(t) сходится в известном смысле к пуассоновскому процессу £(t) с параметром \i на [0, 1]. Эту сходимость можно было бы трактовать, конечно, как слабую сходимость распределений в D(0,1). Но в рамках настоящей книги это, по-видимому, нецелесообразно, по крайней мере, по двум причинам: 1. Нам пришлось бы для этого вводить метрику в D(0,1) и изучать ее свойства, что само по себе сложно. 2. Траектории процессов sn(t) и £(t) устроены просто, и характеризовать их близость можно проще и точнее, не привлекая общих концепций. Действительно, как мы видели, траектория £(t) на [0,1] полностью определяется набором случайных величин (£(1); а\,... уа^\), где а* есть точка А;-го скачка процесса, cxk+\— ak ^ IV Такую же характеризацию допускают траектории sn(t) : они определяются вектором (МО; 7l/w>---i7*m(i)/*0, где 71,72,-•• суть те значения j, для которых ^->п = 1. Будем считать распределения sn(t) и £(t) близкими, если близки распределения двух названных векторов. Это будет отвечать сходимости процессов в весьма естественном и сильном смысле. Из сказанного ранее (см. § 18.4) о процессах Пуассона нетрудно понять, что названная сходимость распределений точек скачков sn(t) эквивалентна сходимости конечномерных распределений sn(t) к распределениям £(t) (ступенчатый характер траекторий sn(£) известен).
382 Глава 19. Функциональные предельные теоремы Теорема 5. Молено так построить sn(t) и £(t) на одном вероятностном пространстве, что p(e(i) = e„0); |«*- —I < -, * = i,...,*(i)Hi-—. (24) \ п п / п Другими словами, траектории £(t) и sn(t) с вероятностью, не меньшей, чем 1 — fin/n, отличаются лишь малыми (< 1/п) отклонениями точек скачков. В отличие от теоремы 1 это утверждение уже трудно называть принципом инвариантности, так как разнообразие распределений ffcn, приводящее к такому результату, не очень велико. По сравнению с теоремой оно может быть расширено до всех распределений таких, что (см. теорему 7.4) Р(&,п = О = Рп, 1 " Р(6ь,п = 0) ~ р„, P(&,n*°> &,m # О = 0(р„). Следствие 2. Пусть В есть множество в Rk, обладающее свойством (его также естественно называть липшицевым) |P((ab...,aJb)€BW)-P((ab...,aJb)€B)|<ce. Тогда из теоремы 5 вытекает, что |Р(*„(!) = *, (^,...,^)ев)-Р(«1) = *, (аи...,ак)ев)\<-. I \ \ п п / / п Доказательство. Из (24) следует, что p(sn(i) = k, р,...^)ев)<Р(((1) = М«ь-,«^в(1/")) + -^ \ \ п п / / n 2 ^P(*(l) = *, (ab...,afc) ££) + - + —• п п Точно так же устанавливается обратное неравенство. ■ Доказательство теоремы 5. Пусть щуП = f(£) -f(^p), & = 1,...,п. Мы докажем утверждение теоремы, если осуществим построение &>п, ^п на одном пространстве так, что 2 p(L){6,»^4m})<— (25) (таким построением £(£) будет определен не на всех интервалах ((к — l)/n, fc/n). Однако дальнейшая «достройка» f (£) нас интересовать не будет — она может быть любой). Конструкция, приводящая к (25), по существу уже была использована в теореме 5.9. Мы получим нужное построение, если рассмотрим независимые ш\,...,шп, шк ^ Uo,i и положим f 0, если шк < 1 - рп, _ Г 0, если шк < е~р\ ^п \ 1, если шк^ \- рп, /fc'n \ fc ^ 1, если шк е [я*-1,и*), где 7г^ = П^О, А:]), А: = 0,1,... . Тогда &>п и т^ будут иметь требуемые совместные распределения, {&,» # 1?м> = {"* £ [1 ~ ?»> е~Рп) и [е"Рп + ?»*""*> 1] }• Так как Р(&|П # Vk,n) ^ Pn> TO теорема доказана. ■
§ 3. Сходимость к пуассоновскому процессу 383 Пуассоновский процесс может выступать в роли предельного и в несколько ином качестве — как предельный процесс для суммы большого числа однородных «медленных» процессов восстановления. Сформулируем постановку задачи более точно. Пусть rji(t), i = 1,2,... , га, — независимые между собой произвольные однородные процессы восстановления в «схеме серий» (т.е. зависящие от га), для которых (см. гл. 9) Е?7»(0 = —, а{ = а,,„ = Еф' -> оо, а,- ► Л, и при фиксированном £, а, Fi(t) = P($<t)^rttn^0 при га —> оо, где г*>п от г не зависит, ££ ,^3 »•*• ~~ случайные величины, порождающие процесс пДО- Теорема 6. /7/ш выполнении сформулированных условий конечномерные распределения процесса п сходятся к распределению пуассоновского процесса £(t) с параметром А : P(Cn(*l) = *Ь--.,Сп(<|) - kt) -> P(C(*l) = *!,..- ,C(«l) = *l)- (O сходимости к пуассоновскому процессу см. замечание, предшествующее теореме 5.) Доказательство. Докажем сначала сходимость распределений приращений £n(t -f и) — Сп(и) к распределению Пуассона с параметром Xt. Обозначим Д; = r)i(t + и) — rji(u), pi = t/ai. Имеем (Xi(u) — эксцесс для процесса rat; см. гл. 9) EAi =pt, Р(А,> I) < P(Xi(u) < t) [Р(# < 0]'~Ч 1 ^ - /Р(# > ^dz-FiW1"1 < -(Чп)1"1 =лг{"1. а, У а, О Отсюда следует, что 00 ЕА, =Pi = J2 *Р(А' = 1) = Р<А' = !) + °(Р*), /=1 Р(А, = 1) = р,- + o(pt.), P(Ai = 0) = 1 - j>,- + о(р{). (26) Мы находимся в условиях следствия 5.5, из которого следует, что п с»(< +«) - с»(«) = Х>- ^ Па(- (27) X
384 Глава 19. Функциональные предельные теоремы Осталось доказать асимптотическую независимость приращений. Рассмотрим для простоты лишь два приращения на интервалах (0,и) и (и,и +1) и предположим, что Сп(и) — к- Более того, предположим, что произошло событие А, состоящее в том, что восстановления произошли в процессах с номерами ii,..., г^. Нам достаточно убедиться, что при этом условии по-прежнему будет справедливо (27). Пусть В есть событие, состоящее в том, что в процессах rji с номерами i\,... ,г& на интервале (u,u + t) вновь произошли восстановления. Очевидно, что к Р(В\А) ^J2P (t? < * + и) ^ кг^п - 0. »=1 Таким образом, вклад процессов rji I = 1,..., А:, в сумму (27) при условии А пренебрежимо мал. Рассмотрим оставшиеся п — к процессов. Для них Р<*(0)>«) и+t и , = - [(\-Г{(г))(1г\\-- [(1-Fi(z))dz\ =Vi + o(Vi). (28) « 0 Так как соотношение (26) для условных (при условии А и при г ф ц, I = l,...,fc) распределений Д$ сохраняется, то получим аналогично предьщущему 00 00 (роль равенства ^)ZP(A; = 1) = pi теперь играет равенство ]Г}/Р(Д, = 1\А) = Pi + °(j>i), вытекающее из (28)): Р(Д, = 1\А)=р{ + о(р{), Р(А, = 0|j4) = 1 - Pi + oto). Остается вновь воспользоваться следствием 5.5. ■
Глава 20 Марковские процессы § 1. Определения и общие свойства Марковские процессы с дискретным временем и дискретным множеством состояний (цепи Маркова) рассматривались в гл. 12. Напомним, что главным в определении таких процессов было свойство независимости «будущего» процесса от его «прошлого», если фиксировано его «настоящее». Этот же принцип лежит в основе определения марковского процесса и в общем случае. 1. Определения и общие свойства. Пусть (П,^, Р) — вероятностное пространство, на котором задан случайный процесс {£(£) = £(£,о>), t ^ 0}. Обозначим St = <7(Z(u);u ^ t), S[t,oo) = *Й(и);и > 0> так что величина £(и) измерима относительно St при и ^ t и относительно S[t,<x>) при и ^ t. а-алгебра cr(St,Shoo)) порождена значениями £(и) при всех и и для выборочного вероятностного пространства может совпадать с S- Определение 1. Случайный процесс £(t) называется марковским, если при ЛЮбыХ t, А6&, В 6 5?[*>00) Р(АВ\№ = РШ*))Р(В\№)- 0) Это точно выраженная независимость будущего от прошлого при фиксированном настоящем (условная независимость St и S[tl00) ПРИ фиксированном £(£))• Покажем, что приведенное определение эквивалентно следующему: Определение 2. Процесс £(t) называется марковским, если для любой ограниченной случайной величины rj, измеримой относительно Зъ>00), Е(Ч|&) = Е(1/|«9). (2) В качестве rj достаточно брать функции вида rj = /(£ (s)) при s ^ t. Доказательство эквивалентности. Пусть верно (1). В силу теоремы о монотонной сходимости достаточно доказать (2) для простых функций rj. Для этого в свою очередь достаточно доказать (2) для rj = 1в — индикатора множества В Е d[t,oo)- Пусть A Е St- Тогда в силу (1) Р(АВ) = ЕР (АВ№) = EP(A\£(t))P(B№) = = ЕЕ[1АР(В№)\№] = Е1лР(В№)- (3) С другой стороны, Р(АВ) = EIAIB = EIAP(B\5t). (4) Так как (3), (4) верны для любого А £ &, то это означает, что P(B\St) = P(B\£(t)).
386 Глава 20. Марковские процессы Наоборот, пусть теперь верно (2). Тогда для А Е fo, BE 3[t,oo) Р(АВ\№) =Е[Е(1л1в\&)№] =Е[1аЕ(1в\Ш«)] = = Е[1АЕ(1в№)№] = Р(ВШ)Р(^(0)- ■ Приведем еще одно эквивалентное определение марковского процесса. Определение 3. Процесс £(t) является марковским, если для любой ограниченной функции / и для любых t\ < £2 < • • • < ^п ^ t E(f(tt№(W,--,t(tn))=E{№t))№n)). (5) Доказательство эквивалентности. Соотношение (5) очевидным образом следует из (2). Пусть теперь выполнено (5). Тогда для любого A € cr(£(t\),... ,£(tn)) Е(/(£(0); а) = е [Е(/(£(0)1Ш); а] . (6) Обе части в (6) являются мерами, совпадающими на алгебре цилиндрических множеств. Следовательно, по теореме единственности продолжения меры они совпадают и на а-алгебре, порожденной этими множествами, т.е. на &п. Другими словами, (6) верно при любом А Е 3tn, что эквивалентно равенству Е [/«(*))!&.] =Е[Ш*)Ж(*»)] при любом tn ^ t. Соотношение (2) для rj = /(£(£)) доказано. Осталось убедиться, что в (2) достаточно брать rj = /(f(s)), s ^ t. Пусть t ^u\ < ... < un. Докажем, что тогда (2) верно для Ч=П/.-«(«,•))• (?) Воспользуемся индукцией и предположим, что (2) выполнено для функ- п~\ ций 7 = П fi(€(ui)) (ПРИ п = \ (2) выполнено). Тогда, обозначив g(un_i) = E[/n(£W)l£(ti„-i)], получим E(77|ff,) = Е [E(77|ff^_,)|^] = Е [тЕС/.^С^))!?^.,)!^] = = E[7E(/B((K))|{(vi))ISj = E[7$ttK-i))|&]. По предположению индукции отсюда следует, что Е(ч1&) = Е[70(£К_,Ж(О] и, значит, E(r]\$t) измеримо относительно сг(£(£)), Е(чШ = Е(Е(Ч|&Ж(0)=Е№)- Мы доказали выполнение (2) для функций (7), измеримых относительно a(^(u\)i • • • i€(un))- Путем предельного перехода справедливость (2) устанавливается для простых, а затем и для любых g^^-измеримых функций. ■
§ 1. Определения и общие свойства 387 2. Переходная вероятность. Мы выяснили, что для марковского процесса £(£) условная вероятность Р(£(0 € B\S8) = P(£(t) € В|£(*)) при t > 5 есть борелевская функция от £(s), которую обозначим Р(№£В\С(*)) = РЫШ,в). Можно считать, что P(s,x;t,B) как функция от В и х есть условное распределение (см. §4.9) £(t) при условии, что f(s) = x. В силу свойства марковости они удовлетворяют соотношению (s < и < t) P(s,x;t,В) = J P(s, ж; щ dy)P(u,у; t, В), (8) которое вытекает из равенства Р(№ € B\t(a) = х) =E[P(i(t) £ В\Зи)\£(з) = х] = Е[Р(и,г(«);*,ВЖ(«) = *]. Уравнение (8) носит название уравнения Колмогорова— Чепмэна. Функцию P(s,x;t,B) можно использовать для аналитического задания марковского процесса. Предварительно надо выяснить, какими свойствами должна обладать функция jPx,b(s,£) для того, чтобы нашелся марковский процесс £(£), для которого Px,B(s,t) = P(s,x;t,B). • Пусть (^,03^) — некоторое измеримое пространство. Определение 4. Функция Px^{s,t) называется переходной функцией на (8Р,*&&>), если она удовлетворяет следующим условиям: О Px.eisyt) как функция от В есть распределение вероятностей при каждых 5 ^t, xe &. 2) PXyB(s,t) измерима по х при каждых s ^ t, В Е 93^. 3) При 0 ^ 5 < и <t и при всех ж, В Рх,в(8>*) = / px,dy(s^u)pyMu^) (уравнение Колмогорова—Чепмэна). 4) PXiB(s,t) = Ik(B) при s = t. Здесь свойства 1), 2) обеспечивают функции Px,b(s,0 возможность быть условным распределением (ср. с §4.9). Определим теперь с помощью Ржв(5,0 конечномерные распределения некоторого процесса £(t) с начальным условием £(0) = а по формуле Р(Ш €dyb...,£(*„) edy„)=P«,^^^ (9) В силу свойств 3), 4) эти распределения согласованы и, значит, по теореме Колмогорова определяют £(t) в (Ет,03^). По формуле (9) и правилу (6) Р(«*п)еВп|(^1),...,^п.1)) = (у1|...,уп.1)) = = Ру.-,А(*п-1,*п) = Р(^п)ев„|^„-1) = у„-1) =P(tn-uyn-i;tn,Bn). Можно проверить это равенство и более формально, пользуясь тем, что интегралы от обеих его частей по множеству {£(^i) Е В\,... ,f(£n_i) Е Вп-\) совпадают.
388 Глава 20. Марковские процессы Итак, в силу определения 3 мы построили марковский процесс £(£), для которого P(s,x;t,B) =PXtB(s,t). Эту функцию мы будем называть также переходной функцией (или вероятностью) процесса £(t). Определение 5. Марковский процесс £(t) называется однородным, если P(s,x;t,B) как функция s и t зависит лишь от разности t — s : P(s, х\ t, В) = P(t - s; ж, В). Это есть вероятность за время t — s попасть из х в В. Если Р(и\х,В) = J p(u;x,y)dy, то функция р(и;х,у) называется переходной плотностью, в Нетрудно видеть, что винеровский и пуассоновский процессы являются марковскими однородными процессами. Например, для винеровского процесса р(«;х,у) = -^=е-<-»>2/<Ч yi-ки § 2. Марковские процессы со счетным множеством состояний. Примеры 1. Основные свойства процесса. Не ограничивая общности, будем считать, что «дискретное» фазовое пространство 3? совпадает с множеством целых чисел {0,1,2,...}. Для простоты будем рассматривать лишь однородные марковские процессы. Переходная функция такого процесса определяется набором функций Pty'AiJ) — Pij(t)> образующих стохастическую матрицу P(t) = \\pij(t)\\ (pij(t) > 0, ^2pij(t) = 1). Уравнение Колмогорова—Чепмэна здесь принимает вид j Pij(t + s) = Y^P^(t)Pkj(s), k или, что то же, в матричной форме P(t + s) = P(t)P(s) = P(s)P(t). (10) Будем рассматривать в дальнейшем лишь стохастически непрерывные процессы, для которых £(t + s)—>£(t) при s —► 0, что в рассматриваемых условиях эквивалентно тому, что р P(t(t + s)*t(t))-+0, P(t + 8)-+P(t), P(s)-+P(Q) = E (11) при s —► 0 (поэлементно). Мы будем предполагать также, что сходимость в (11) равномерна (для конечного 8Р это всегда так). В соответствии с требованием сепарабельности будем считать, что £(t) не может менять свое состояние за «нулевое» время более одного раза (исключаем эффекты, проиллюстрированные в примере 17.1, т.е. будем считать, что если £(t) = j, то с вероятностью 1 £(t + s) = j при s G [0,т), г — т(ш) > 0). В этом случае траектории процесса будут кусочно-постоянны ми (для определенности, непрерывными
§2. Марковские процессы со счетным множеством состояний 389 справа), т.е. ось времени разбивается на полуинтервалы [0,ti), [ti,ti +T2),... , на которых £(t) постоянно. Обозначим Ф) = р (*(*) = h о ^ и < t\№ = j) = Pfa ^ t). Теорема 1. При выполнении сделанных предположений (стохастическая непрерывность, сепарабельность) где qi < со; qi > О, если pu(t) ^ 1. Существуют hm =qi, hm—— =д,,, г ф j, (12) t->0 t *—0 t Доказательство. В силу свойства марковости qi(t + s) = qi(t)qi(s), при этом qi(t) l. Поэтому существует единственное решение этого уравнения qi(t) = e~qit, где q{ < 00, т. к. Р(п > 0) = 1 и q{ > 0, т. к. q{(t) < 1 при pn(t) £ 1. Пусть далее 0 < to < t\ < ... < tn < t. Так как события {Z(u)=i при u^tr, Z(tr+{)=j} r = 0,...,n- 1; ]ф1, несовместны, то п-1 Pii(t) = Ф) + Yl Y1 Фг)Рфг+\ ~ tr)Pji(t - *r+l). (13) г=0 fri Здесь по условию (11) pji(t — tr+\) < St при всех j ф i, St —> 0 при t —> 0, так что сумма в (13) не превосходит п-1 п ^Х^ХЗ fc(*r)l4i(*г+1 - <г) = ^Р ( U {Ш # г}I €(0) = г) < е,(1 - ft(0), Pu(t)^qi(t) + et(l-qi(t)). Вместе с очевидным неравенством pa(t) ^ qi(t) это дает 1 " Ф) > 1 - pa(t) > (1 - g,-(*))(l + *,) (т.е. асимптотически 1 — д,(£) и 1 — Pa(t) при £ —► 0 ведут себя одинаково). Отсюда следует второе утверждение теоремы. Пусть теперь tr = rt/n. Рассмотрим переходные вероятности п-1 Pijlt) ^^ф^{~)ф ~ *r+l) ^ "° «\£1 .„„.. .. , /«м-."" г=0 Отсюда следует, что Vij(t)^{\-et)(—^—) ^^^й 5-0 ^
390 Глава 20. Марковские процессы и что верхний предел, стоящий справа, ограничен. Переходя к пределу при t —> 0, получим Так как Х>о(0 = [ ~ P«(0» TO X) Qij = Яг- ■ Теорема показывает, что числа Pij = —, ЗФ*, Ри = 0 образуют стохастическую матрицу и имеют смысл вероятностей перехода из г в j за бесконечно малый интервал А при условии, что процесс £(£) на этом интервале покинул состояние % : Р«(* + A) =Mt) = •,«* + А) фг) = Pij^ - *». Таким образом, эволюцию f (£) можно представлять себе следующим образом. Если £(0) = Xq, to £(t) находится в состоянии Xq время т\ ^ Tqx . Затем £(£) переходит в состояние Х\ с вероятностью pxQxx- Далее £(t) = X\ на интервале времени [т\,т\ +Т2), т^ ^ Tqx , после чего система меняет свое состояние на Х2, и т.д. Ясно, что последовательность Xq,X\,... связана в однородную цепь Маркова с матрицей переходных вероятностей \\pij\\. Поэтому дальнейшее изучение £(t) во многом может сведено к изучению цепи Маркова {Хп; п ^ 0}, проведенному достаточно подробно в гл. 12. Мы видим, что эволюция £(t) целиком описывается с помощью чисел gtJ, qi, образующих матрицу t—►() I где принято qu = -g,, так что ^Z qij = 0. К этому факту можно подойти и анали- j тически. Чтобы упростить техническую сторону рассуждений, будем предполагать, где это потребуется, что элементы матрицы Q ограничены, а сходимость в (12) происходит равномерно по г. Обозначим через еЛ матричнозначную функцию ^ k\ Теорема 2. Переходные вероятности Pij(t) удовлетворяют системе дифференциальных уравнений P'(t) = P(t)Q, (15) P'(t) = QP(t). (16) Каждая из систем (15), (16) имеет единственное решение P(t) = eQt. Ясно, что решение получается немедленно, если формально проинтегрировать (15).
§ 2. Марковские процессы со счетным множеством состояний 391 Доказательство. В силу (10), (11), (14) P'(t) = lim -{P(t + s) - P(t)) = lim -P(t)(P(s) -E) = P(t)Q. (17) 5^0 s s-+o s Точно так же из равенства P(t + s) - P(t) = (P(s) - E)P(t) получается второе уравнение (16). Законность предельных переходов обеспечивается сделанными предположениями. Далее, из (15) следует, что функция P(t) является бесконечно дифференцируемой, при этом Pw(t) = P(t)Q\ со Д оо Qktk p(0-P(o) = ^pW(°)^ = E P(t) = P(0)eQt. В связи с методом получения уравнение (15) называется обратным уравнением Колмогорова, а уравнение (16) — прямым (приращение времени берется после или до основного интервала времени). Разница между этими уравнениями становится еще более наглядной в случае неоднородных марковских процессов, когда переходные вероятности P(£(t) — j\£(s) = i) = Pij(s,t), s ^ t, зависят от двух временных аргументов: s и t. В этом случае (10) превращается в равенство P(s,t + и) = P(s,t)P(t,t + и), обратное уравнение имеет вид dP(s1t)/ds = P(s,t)Q(s), прямое — dP(s,t)/dt = Q(t)P(s,t). Читатель может получить эти соотношения самостоятельно. Каковы общие условия существования стационарного предельного распределения? Можно воспользоваться здесь подходом, аналогичным тому, который использовался в гл. 12. Пусть ^(t) есть процесс с начальным значением f ^'(0) = г и с непрерывными справа траекториями. Для заданного го обозначим i/W=min{*^0:£w(0=i0} = "о, i/jb = min{^i/jb_i + l:{W(0=*o}, fc= 1,2,... . Здесь во второй формуле мы рассматриваем значения t ^ vk_\ + 1, так как при t ^ i/fc_i было бы i/fc = Vk-\- Очевидно, что P{vk ~ ^к-\ = 1) > 0, P(vk ~ vk-\ £ (t,t + h)) > 0 при любых t > 1, h > 0, если Pi0i0(t) £ 1. Заметим также, что величины */&, А: = 0,1,..., определены не для всех элементарных исходов. Мы положим uq = оо, если ^l'(t) ф г'о при всех t ^ 0. Аналогичное соглашение действует и для щ при к ^ \. Теорема 3. Пусть существует состояние г'о такое, что Еи\ < оо, P(*/(i) < оо) = 1 при любом i Е Щ С 8С. Тогда существуют \\трф) =pj, (18) l—♦ 00 не зависящие от г Е ^о-
392 Глава 20. Марковские процессы О О t Доказательство. Так же, как и для цепей Маркова, моменты времени i/j , 1/2, • • • разбивают ось времени на одинаково устроенные независимые циклы по возвращению (спустя время 1) в состояние 1$. Рассмотрим процесс восстановления, порожденный суммами */&, А: = 0,1,..., независимых случайных величин щ, Vk-Vk-\, k= 1,2,... . Пусть 00 7/(0 = min{fc: i/fc > О, 7(0 = t - ^(0_ь H(t) = ]Г) P(i/fc < О- fc=0 Событие Adv = {7(0 € [v,v + dv)]} представимо в виде произведения событий Bdv = U {"к € (* - V - dv,t - V]} G dt-v И Cv = {f(w) 7^ *0 AI/W/ ti G [* - V + 1,*]} G fc>0 ^-t,,oo)- Имеем Pu(0 = / p (€(i)(0 - i,7(0 e K» + dt»)) - 0 < « = / P(Л) - 3,Bdvcv) = у EJBfcP(*<■'>(*) = i,c,|ff,-,) = t = fEIBdP(^\t)=j,Cv№-v)). 0 На множестве Bdv выполняется £(t — v) = го и, следовательно, вероятность под интегралом равна P(&4v)=ht(v)*h при ue[\M)=9(v) и не зависит от t и г. Так как РДь = d#(£ - v), то * t Vij(t) = f g{v)P{Bdv) = fg(v) dH(t - v). 0 0 00 По основной теореме восстановления этот интеграл сходится к l/(Ei/i) Jg(v)dv. О Существование последнего интеграла вытекает из того, что g(v) ^ P(v\ > v). ■ Теорема 4. Если существует стационарное распределение Р = lim P(t), f—»oo где все строки матрицы Р одинаковы, то оно является единственным решением уравнения PQ = 0. (19) Очевидно, что уравнение (19) получается приравниванием P'(t) = О в (15). Уравнение (16) дает тривиальное равенство QP = 0. Доказательство. Уравнение (19) получится, если в (17) перейти к пределу сначала при t —> со, а затем при s —> 0. Допустим теперь, что Pi есть решение (19), т.е.
§2. Марковские процессы со счетным множеством состояний 393 00 п*** PXQ = 0. Тогда P\P(t) =Р\ при t < 1, поскольку Pi(P(0 - Р(0)) = Р\ £ *г = 0. к=\ Далее, ^ = PiP*(*) = P\P(kt), P(kt) -> Р при к -> оо и, значит, Л = PiP = Р. ■ Рассмотрим цепь Маркова {Хп} с дискретным временем и переходными вероятностями р^ — qij/qi, i ^ j, pa = 0. Допустим, что эта цепь эргодич- на (см. теорему 12.8). Тогда ее стационарные вероятности {itj} удовлетворяют уравнениям (12.8). Заметим теперь, что уравнения (19) можно записать в виде Р№ = y^PkQkPkj, ^^<оо, 120) которое имеет очевидное решение pj = CKj/qj, с — const. Стало быть, если £* то существует решение (19), равное В § 4 мы получим эргодическую теорему для процессов более общего вида, чем те, которые рассматривались в этом параграфе. Из нее будет следовать, в частности, что эргодичность {Хп} и сходимость (20) влекут за собой эргодичность (18). Напомним, что для эргодичности {Хп} в свою очередь достаточно существования решения {ttj} уравнений (12.8). Таким образом, существование решения (21) влечет за собой эргодичность £(t). 2. Примеры. Пример 1, Пуассоновский процесс £(t) с параметром Л является марковским процессом, для которого qi = А, &■,,•+1 = A, Pij+\ =.1, г = 0,1,... . Для него стационарное распределение р не существует (траектория уходит на бесконечность). Пример 2. Процессы рождения и гибели. Так называются процессы, для которых при i ^ 1 {Л,Д + о(Д) при j =г+ 1, 7,-Д + о(Д) при^=г-1, о(А) при \j - г| ^ 2, так что А, Pij А,- + ъ 7» при j - г+ 1, при j = г - 1 А,- + 7,-. есть вероятности, соответственно, рождения и гибели одной частицы в некоторой популяции, когда эта популяция содержала г частиц и изменила свое состояние. При i = 0 следует положить 7о = 0- Выяснение условий существования стационарного режима представляет собой весьма сложную задачу (связанную главным образом с выяснением условий ухода траектории на бесконечность). Если таковой существует, то согласно теореме 4 стационарные вероятности pj могут быть найдены
394 Глава 20. Марковские процессы единственным образом из рекуррентных соотношений (см. уравнение (19), здесь qu = -qi = -(A,-+7i)) -Po^o + Pili =0, PoAo-Pi(Ai +7i)+P272 =0, (22) Pk-\*k-\ ~ Pk(*k + 7k) + Pk+\lk+\ =0, и условия YlPj = 1 • Пример З. Задача о телефонных линиях в теории массового обслуживания. Пусть дана система, состоящая из бесконечного числа каналов связи, по которым ведутся телефонные разговоры. Вероятность окончания разговора в каждой из линий за малый интервал времени (t,t+A) равна АД + о(Д). Вероятность поступления нового вызова за этот интервал времени равна ^А + о(А). Таким образом, «входящий» поток вызовов есть не что иное, как пуассоновский процесс с параметром Л, а число £(t) занятых каналов в момент времени t есть процесс рождения и гибели, для которого А, = Л, 7» = *7- В этом случае с помощью теоремы 3 нетрудно убедиться, что всегда существует стационарное предельное распределение (при го = 0), уравнения (22), для которого примут вид 1Р0 = 7Рь (Л + >ук)рк = Хрк_х + (к + 1)7Р*+ь Отсюда получаем Р1=Р0~, P2 = -j{-) > — »=l-J й' (24) так что ро = е~А/7, а предельное распределение будет распределением Пуассона с параметром Л/7. Если число каналов п конечно, то вызовы, заставшие все каналы занятыми, получают отказ и надо положить в (22) Лп = 0, рп+\ = рп+2 = • • • = 0. В этом случае последнее уравнение в (23) будет иметь вид jnpn = \pn-\. Так как формулы (24) при к ^п сохраняются, то получаем для стационарного распределения так называемые формулы Эрланга: i=o (усеченное распределение Пуассона). Следующий пример мы выделим в отдельный раздел. § 3. Ветвящиеся процессы Существо математической модели, описывающей ветвящийся процесс, остается примерно тем же, что в п. 2 §7.8. В условиях непрерывного времени задавать ветвящийся процесс можно следующим образом. Пусть £'*'(£) означает число частиц в момент времени t при начальном условии f ^(0) = г. Каждая частица независимо
§3. Ветвящиеся процессы 395 от других за интервал времени (£, t + А) с вероятностью ^А + о(А) переходит в случайное число rj Ф 1 частиц (при ч) — О мы говорим, что частица погибла). Таким образом, t%)=t?(t) + - ..+£\t), (25) где ^ (t) независимы и распределены как f^ '(£)• Кроме того, pij(A) = ifiApj_i+{+o(Ay, 2фг\ pk = P(v = k); рх = 0; p«(A)=l-t/iA+ *(*), (26) так что здесь qij = ifJ>Pj-i+\, qa — —i\i. Формула (26) объясняется тем, что ifiA есть главная часть вероятности того, что хотя бы одна частица будет делиться. Очевидно, что состояние 0 является поглощающим. Оно не будет таковым, если рассматривать процессы с иммиграцией; когда к ^l'(t) добавляется пуассоновский процесс с параметром Л «посторонних» частиц того же типа. Тогда Pij(A) = ifiApj-i+i + о(А) при j - г ф 0,1, ftV+i(A) = A(t/ij>2 + Л) + обвернемся к ветвящемуся процессу (25), (26). В силу (25) имеем оо <pU(t,z) = E^W = [E/"W]'' = v%z) = £*W«), k=0 где 00 fc=0 Из второго уравнения (16) следует, что 00 1=0 Поэтому, дифференцируя (27) по t, получим 00 00 00 <p\t,z) = $>Vu(«) = £5>,Ы*)** = к=0 i=0 1=0 оо оо оо ^YJ4uYJzkVlk(t) = YJlMfl(t,z). (28) f=0 k=0 1=0 Ho q\\ — fipi при l Ф 1, q\\ = — д, и если обозначить 00 00 f(s) = 1Z ^<5' = ^(E577 -5) = ^ (1Zp<5' "5)> f=0 f=0 то (28) можно записать в виде 4>\t,z) = J(<p(t,z)).
396 Глава 20. Марковские процессы Мы получили дифференциальное уравнение для (р — (f(t,z) (эквивалентное (16)), которое удобнее записать в виде dip ш <p(t,z) А^) = dt, t J /(У) J AM dy Ш Рассмотрим поведение функции f\(y) = Eyv - у на [0,1]. Очевидно, что fx(0) = P(rj = 0), /i(l) = 0, /|(1) = Erj-I, f"(y) = Ег)(г)~ l)^-2 > 0. Следовательно, f\(y) выпукла вниз и не имеет нулей на (0, 1) при Erj ^ 1. При Ег) > 1 существует точка q Е (0,1) такая, что f\(q) = 0, f[(q) < 0 (рис. 18), и в окрестности этой точки fx(y) = (y- q)f[(q) + О ((у - q)2). Таким образом, если Erj > \, z < q, (p I q,TOB силу представления l/f\(y) = 1/((у — q)f[(q)) + 0(l) получим Рис. 18. I dy ,„(ti) + o(1, (29) /(У) /*/((«) Z Отсюда следует, что при t —► со, tp(t,z) -q = (z- g)e^^)+°(1) - (z - q)e^q\ <p(t,z) = q + 0(e-at), a = -M/l(g)>0. В частности, вероятность вырождения Pi0(t) = <p(t,0) = q + O(e-at) экспоненциально быстро сходится к g, р\о(оо) = q. Сравнивая с §7.8, читатель может убедиться, что такой же была вероятность вырождения для ветвящегося процесса с дискретным временем (к этому выводу можно прийти и непосредственно). Так как pk0(t) = [p\o(t)]k, то pko(oo) = qk. Из (29) следует, что остальная «вероятностная масса» распределения £(t) быстро уходит при t —> со на бесконечность. Если Erj < 1, то все приведенные рассуждения сохраняются с заменой q на 1, так что р\о(оо) = Рко(оо) = 1. Если Ег) = 1, то /i(») = Ц^/Г0) + о((у-1)3), dy Ш Z (p(t,z) - 1 ~ - 1 Pf'{(l)<p-1' 2 litf"{\y Таким образом, здесь вероятность вырождения <р(£,0) = p\o(t) также сходится к 1.
§ 4. Полумарковские и регенерирующие процессы 397 § 4. Полумарковские и регенерирующие процессы 1. Полумарковские процессы. Полумарковские процессы описываются следующим образом. Пусть дана цепь Маркова {Хп} с дискретным временем п и множеством состояний X = {0,1,2,... }. Каждому состоянию j поставим в соответствие распределение Fi(t) положительной случайной величины (^ : Ж*) = Р(С(0<*). Рассмотрим далее не зависящие от {Хп} и между собой последовательности С} ,Сг »••• независимых случайных величин с распределением F{. Пусть, кроме того, задано распределение начального случайного вектора (Xq,Co)> %0 £ <**> Со ^ 0- Эволюция полумарковского процесса £(t) описывается следующим образом. £(и) = Х0 при 0 ^ и < Со, t(u) = Xx при Co^<Co + Ci(X,), i(u) = x2 при co + c{x,U^<Co + cfx,) + cf2), и т. д. ..., £(и) = Хп при Zn-X^u<Zn, Zn = Co + Ci№) + .-- + CnXn) (30) и т.д. Таким образом, попав в состояние Хп = j, траектория £(и) находится в этом состоянии время Q = ff , затем переходит в состояние Xn+i и т.д. Очевидно, что такой процесс, вообще говоря, не является марковским. Он будет марковским, только если 1 - Fi(t) = e"ft<, qi > 0 и будет совпадать в этом случае с процессом, описанным в §2. Если же распределение F, не является экспоненциальным, и дано значение £(£) = г, то расстояние от точки t до момента следующего скачка £(t) будет зависеть от момента предыдущего скачка £(£), так как P«<'>>„ + «|<«>„, = i^±Ji> для не экспоненциальных Fi зависит от v. Это и означает отсутствие марковости, т.к. означает, что фиксация «настоящего» (т.е. значения £(£)) не делает «будущее» процесса £(и) независимым от «прошлого» (т.е. от траектории £(и) при и < t). Процесс £(t) можно «дополнить» до марковского, присоединив к нему компоненту х(£), означающую время и, которое траектория £(t + и), и ^ 0, будет еще находиться в состоянии £(£). Другими словами, %(£) есть эксцесс уровня t в случайном блуждании Zo, Z\>... : X(t) = Zu(t) - t, v{t) = min{fc: Zk > t}. Процесс х(£) является марковским и имеет «пилообразные» траектории, детерминированные внутри интервалов (Zfc,Zfc+i). Последним свойством обладает, очевидно, и траектория £(£). Процесс X(t) = (£(0>х(0)> очевидно, является марковским, т.к. знание X(t) однозначно определяет эволюцию процесса X(t + и) при и ^ 0 при любой «предыстории» X(v), v < t. Аналогичным образом можно
398 Глава 20. Марковские процессы (£(0>7(0)> гДе 7(0 — дефект уровня t рассматривать марковский процесс Y(t) в блуждании Z$, Z\,... : 7(0 = ^-^(0-1- В дальнейшем мы будем различать два случая: (L) — решетчатый, когда возможные значения (/*', г = 0,1,... кратны некоторому числу d, которое, не ограничивая общности, можно считать равным 1. В этом случае мы будем считать также, что н.о.д. возможных значений сумм величин О*' вдоль траектории {Хп} тоже равен d = 1. Это, очевидно, эквивалентно тому, что н.о.д. возможных значений времени 0^' возвращения £(t) в состояние г равен 1 при любом фиксированном г. (NL) — нерешетчатый случай, когда условие (L) не выполнено. Обозначим di = ЕО*'. Теорема 5. Пусть цепь Маркова {Хп} является эргодической {удовлетворяет условиям теоремы 12.8) и {itj} есть стационарное распределение этой цепи. Тогда в нерешетчатом случае (NL) для любого начального распределения (Со»-Х"о) существует Нт Р(№ = hX(t) >v) = =5— / Р(С (.) > u)du. (31) В решетчатом случае (L) значения v в (31) следует брать целочисленными (интеграл при этом перейдет в сумму). Из (31) следует, что существует Iim P(t(t) t^OO i) 7Г,-а,- Доказательство. Ограничимся для определенности нерешетчатым случаем (NL). В § 12.4 мы рассматривали времена т^1' возвращения {Хп} в состояние г. Эти времена можно называть «вложенными», как и цепь {Хп} по отношению к процессу £(t). Наряду с т**' нам понадобятся "реальные» времена OW возвращения
§ 4. Полумарковские и регенерирующие процессы 399 процесса £(t) в состояние г. Пусть, например, Х\ = 1. Тогда где г = т^1'. Для сокращения записи и для определенности фиксируем на время г — 1 и положим 0^ =0. Пусть сначала Со = С(1), х0 = 1. (32) Тогда вся траектория процесса X(t) при £ ^ О разбивается на одинаково устроенные и независимые циклы по моментам попадания в состояние £(£) = 1. Длины этих циклов обозначим 01,02 • •; они независимы и одинаково распределены. Покажем, что Е0 = — Y^ajiTj. (33) Обозначим 0(п) «реальное» время, затраченное на п переходов «управляющей» цепи {Хп}. Тогда *1 + ... + *„(„Н ^ в{^ ^ *i + • • ■ + **(„), (34) к где 77(71) — min{fc: Т\. > n}, T& = Х^т,, т, независимы и распределены как г. j=i Докажем, что если Е0 < со, то Е0(п)~птг!Е0. (35) В силу тождества Вальда Е0(п) ^ Е0Ет/(тД (36) где Еп(и) ~ п/(Ет) =тпг\. п Оценим теперь Е0(п) снизу. Положим m — [п7Г\ - еп], в„ = Y2 6j. Тогда 3 = 1 E0(n) ^ Е(0(п); 77(71) > га) ^ Е(вт;т/(п) > га) = гаЕ0 - E(em;rj(n) ^ га). (37) Здесь случайная величина 6т/га ^ 0 обладает свойствами: 6т/га —>Е0, Е6т/га = Е0. Следовательно, она удовлетворяет условиям п. 4 леммы 6.1 и является равномерно интегрируемой. Это, в свою очередь, в силу леммы 6.2 и сходимости Р (77(71) ^ га) —► 0 означает, что последнее слагаемое в правой части (37) есть о(га). В силу (37) и произвольности е > О мы получаем liminfn~1E0(n) ^ 7TiE0. Вместе с (36) это доказывает (35). Подсчитаем теперь значение Е0(тг) из других соображений. 0(п) допускает представление
400 Глава 20. Марковские процессы где N(j,n) число попаданий траектории {Xk} в состояние j за время п. Так как (з) {Q }Т=\ и N(j,n) ПРИ каждом j независимы, то j п k=\ Так как p\j(k) —> 7Гу при А: —> со, то lim -EN(j,n) — itj. Кроме того, 7Г^ = ^2^iPij(k) ^ 7ripij(A;) и, стало быть, p\j(k) ^ £*-. Поэтому ^EN(j,n) ^,ив случае ^djKj < со ряд ^2aj-EN(j, n) сходится равномерно по п. Следовательно, существует lim n~ Ев(п) = V^ Q>jKj. 3 Сравнивая это с (35), мы получим (33). Если Ев = со, то очевидно Ев(п) = со, ^2 djiTj = оо и наоборот, если ^азжз = °°> то Е0 = со. Рассмотрим теперь случайное блуждание {6*}. Циклу с номером А: соответствует число переходов Т*. Поэтому по формуле полной вероятности 00 * P(t(t) = 1,х(0 > г;) = ]Г/ Р(^ € Л», Cjjj-i > t-u + v), *=l0 где Ст-ui от ®* не зависит и распределено как С/1' (см. лемму 9.1 или строго J-k i A 0O марковское свойство). Стало быть, если обозначить Но(и) = ^2 P(@fc < w) функцию восстановления последовательности {Ok}, то для нерешетчатого случая (NL) в силу теоремы восстановления (см. теорему 9.4 и (9.10)) будем иметь t РШ = hx(t) > у) = j <*я,(и)Р(с(1) > t - и + v) - О оо оо / Р(С0) >u + v)dv = -^- Г Р(С(1) > м) <fe. (38) Е0 Мы доказали утверждение (31) для i = l и начальных условий (32). Переход к произвольным начальным условиям вполне очевиден и происходит точно так же как в доказательстве эргодических теорем в гл. 12. Если Х^аг7г, = со, то, как уже отмечалось, Е0 = со, ив силу теоремы восстановления и (38) Р(£(£) = 1,х(0 >*>)—► О при t —> со. Остается заметить, что вместо i = 1 мы могли фиксировать любое другое значение г. Теорема доказана. ■
§ 4. Полумарковские и регенерирующие процессы 401 Совершенно аналогично мы могли бы доказать также, что оо lim P(£(t) = гЛ(0 >v) = =^— / P(C(l) > У) dy, t->oo ^ djITj J V 00 Hm P«(0 = hX(t) > uMt) >v) = ^— [ P(CW > У) dy u+v (см. теорему 9.6). Наряду с полумарковскими процессами £(£), описанными в начале этого парафафа, иногда рассматривают также полумарковские процессы, «заданные на переходах» цепи {Хп}. В этом случае задаются распределения F{j случайных величин £&' > 0 и аналогично (30) при начальном условии (Xq,X\,£q) £(и) = (Хо,Хх) при 0^и<Со, £(и) = (ХиХ2) при Co^^<Co + Ci(X°'Xl), (39) an) = (х2, х3) при со+ciXo'x,) < и < со+с!ад)+с?|Л) и т.д. Эта модель, на первый взгляд более общая, может быть полностью редуцирована к полумарковским процессам (30). Для этого надо заметить, что «двумерная» последовательность Yn = (Хп, Хп+\), п = 0,1,..., также образует цепь Маркова. Ее переходные вероятности имеют вид {: _ Pji npnk = j, *Gi)<«>-1 0 при k>j, P(ij)(ki)(n) = Pjk(n)pu при n > 1, так что, если цепь {Хп} эргодична, то цепь {Fn} также эргодична и P(ij)(kl)(n) -> *kPkl- Это дает возможность легко переформулировать теорему 5 для полумарковских процессов (39), заданных на переходах цепи {Хп}, поскольку процесс (39) будет обычным пол у марковским процессом, заданным на цепи {Yn}. Следствие 1. Если цепь {Хп} эргодична, то в нерешетчатом случае 00 Р(№ = (ij),x(t) >v)= *iPii f P(C(<i) > «) du, аы = ЕС(Ы). 2^ akl^kPkl J v В решетчатом случае v должно быть кратно шагу решетки. Сделаем еще одно замечание, которое может быть полезным при изучении полумарковских процессов. Речь будет идти о так называемых полумарковских функциях восстановления H{j(t). Обозначим Tij(n) момент (в «реальном» времени) п-го скачка процесса £(t) из состояния г в состояние j. Положим 00 Если Vij(t) число скачков из состояния г в состояние j на интервале времени [0,0, то, очевидно, H{j(t) — Evij{i). Обозначим Af(t) = f(t + А) - f(t), A > 0.
402 Глава 20. Марковские процессы Следствие 2. В нерешетчатом случае Km ДЯ„(0 = 2Е£. (40) t->oo ^ а/7Г/ / Z? решетчатом случае t и А должны быть кратны шагу решетки. (к) Доказательство. Обозначим и)-'(и) число переходов процесса £(t) за интервал времени (0, гг) из г в j при начальном условии (А:,0). Тогда по формуле полной вероятности ед^(<) = / J2 р(*(*) - *, х(«) е d«)E4fc)(A - «). о *=° Так как v\j(u) ^ i/,-J (и), то по теореме 5 lim Е Д^(<) = Мд) - — V жк / Р(C(fc) > к) rftt Ez/J^A - «). (41) Далее при Д —у 0, Р(С(0< Д-и)<ЖД)-+0 Р («/<*>(Д - t») = *) < (руЯ(Д))*, * / г, Р(^(Д - и) = s + 1) < (ру-Я(Д))', s ^ 1, Р(1^>(Д-«) = 1)=р0- + о№(Д)). Из сказанного следует, что Е1#>(Д - «) = о(Я(Д)), е4°(Д - «) = ру + о(Я(Д)). Поэтому Л,,(Л) = ^ + о(А). (42) Далее в силу равенства H{j(t + 2А) - Hij(t) = АЯо(0 + AH{j(t + A) получаем /i,j(2A) = 2/i,j(A), что означает линейность /itJ(A). Вместе с (42) это доказывает (40). ■ Класс процессов, для которых удается доказать эргодичность теми же методами, что использовались для полумарковских процессов и в гл. 12, может быть несколько расширен.
§ 4. Полумарковские и регенерирующие процессы 403 2. Регенерирующие процессы. Пусть X(t), Xo(t); t ^ 0 — процессы, заданные в пространстве £>(0, со) функций без разрывов второго рода (фазовым пространством этих процессов может быть не обязательно вещественная прямая, это может быть и любое метрическое пространство). Процесс X(t) мы назовем регенерирующим, если он обладает следующими свойствами: 1) Существует состояние xq, в которое процесс X попадает с вероятностью 1. После каждого такого попадания его эволюция совпадает с эволюцией исходного процесса X(t) при начальном значении Х(0) = xq. Этот новый процесс мы обозначим Xo(t), Xo(0) = xq. Чтобы сформулировать это свойство более точно, введем в рассмотрение момент £о первого попадания X в xq : *0 = min{* ^ 0: X(t) = х0}. Из такого определения не ясно, однако, будет ли £о случайной величиной. Для определенности предположим процесс X таким, что to есть величина, для которой {*<>>*} = U n{№)-*ol>-}, где S — счетное, всюду плотное на [О,*] множество. В этом случае {*о > t}, очевидно, есть событие, а £о — случайная величина. Описанное выше свойство означает, что *о — собственная случайная величина: P(*o < оо) = 1 и что распределение X{t$ + и), и ^ 0, совпадает с распределением Xq(u), и ^ 0, при любой «предыстории» процесса X(t), t ^ *o- 2) Время возвращения г в состояние xq имеет конечное математическое ожидание Ет < оо, г = min{£: Xo(t) = xq}. Сказанное означает, что эволюция регенерирующего процесса разбивается на независимые одинаково устроенные циклы по попаданию в состояние xq. Моменты попадания в xq называются моментами регенерации. Поведение процесса X внутри циклов может быть произвольным, никаких условий, в том числе условий марковости, не накладывается. Введем в рассмотрение так называемую «переходную табу-вероятность» Р(*,В) = Р(Х0(0еВ,т>*)- Мы будем предполагать, что эта функция измерима по t и интегрируема по Риману. Теорема 6. Пусть X(t) регенерирующий процесс, случайная величина т нерешетчата. Тогда для любого борелевского множества В 00 Р (X(t) е В) -> тг(В) = — Р(щВ) du. о Если г решетчата (это имеет место для процессов X(t) с дискретным временем), то утверждение теоремы сохраняется при очевидных изменениях: t —» оо по элементам решетки, интеграл заменится на сумму. Доказательство. Обозначим Tq = О, Тк = г, + ... + тк
404 Глава 20. Марковские процессы момент А:-ой регенерации процесса Xo(t), Н(и) = ^ P(rk < и). Тогда, используя к=0 формулу полной вероятности и основную теорему восстановления, мы получим со ' P(x0(t) eB) = ^2j Р(тк е du)P(t -щв) = t 00 = J dH(u)P(t-u,B)-+ — Г P(u,B)du = 7r(B). fc=0'0 о Для процесса X(t) выполняется t P(x(t) ев)= [ р(ц е du)P(x0(t -и)ев)-+ ъ(в). Теорема доказана. § 5. Диффузионные процессы Рассмотрим еще один важный класс марковских процессов, на этот раз с непрерывными траекториями. Определение 6. Однородный марковский процесс £(t) в фазовом пространстве (R, 03) с переходной функцией P(t, ж, В) называется диффузионным, если 1) \im±f{y-x)P(A,x,dy) = a(x), Д->0 2) lim £ J(y - х)2Р(А, х, dy) = b2(x), 3) при каких-нибудь 6 > О, с < со \y-x)2+6P(A1x1dy)<cAl+6/2. /< Обозначим Д£(£) = £(t + A) — £(t). Тогда приведенные условия можно записать в виде Е[Д*(<Ж(<)=:с]~а(*)Д, Е[(А№)2№)=х]~Ъ2(х)А, E[\At(t)\2+S№) = x]<cAl+s/2. Коэффициенты а(х), Ь(х) называют соответственно коэффициентами сноса и диффузии. Условие 3) есть некоторый аналог условия Ляпунова. Его можно заменить на условие типа Линдеберга: За) Е [(Д£(0)2; |Д£(01 > е] = °(А) пРи любом е > 0. Из условия 3) и теоремы Колмогорова немедленно вытекает, что диффузионный процесс £(t) можно рассматривать как процесс с непрерывными траекториями.
§ 5. Диффузионные процессы 405 Стандартный винеровский процесс w(t) является диффузионным процессом, так как для него В EAw(t) = 0, E[Aw(t)]2 = А, Е[ДЦ0]4 = ЗА2. Значит, винеровский процесс имеет нулевой снос и постоянный коэффициент диффузии. Ясно, что процесс w(t) + at будет иметь снос а и тот же коэффициент диффузии. Мы видели в § 2, что «локальная» характеристика Q марковского процесса £(£) с дискретным X однозначно определяет эволюцию процесса. Аналогичная картина наблюдается и здесь: распределение процесса однозначно определяется коэффициентами а(х) и Ь(х). Путь для установления этого факта опять лежит через уравнение Колмогорова—Чепмэна. Теорема 7. Если переходные вероятности диффузионного процесса P(t,x,B) дважды непрерывно дифференцируемы по х, то P{t,x,B) дифференцируема по t и удовлетворяет уравнению дР дР Ъ2д2Р ^ = а^ + Т^ (43) и начальному условию Р(0,х,В) = 1в(х). (44) Замечание 1. Условия теоремы на гладкость переходной функции Р на самом деле могут быть доказаны в предположении непрерывности а и Ь и условий Ь ^ Ьо > 0, \а\ ^ с(\х\ + 1), Ъ2 ^ с(\х\ + 1). Доказательство теоремы 7. Обозначим для краткости через Р/, Рх, Р" соответственно частные производные dP/dt, дР/дх, д2Р/дх2, и воспользуемся разложением Р(*, у, В) - P(t, х, В) = (у- х)Рх + (У"2Ж) К + + ^^[Px,(tiyXlB)-Px^t1x1B)] ухЕ(х,у). (45) Тогда в силу уравнения Колмогорова—Чепмэна P(t + А,х,В) - P(t,х,В) = ] Р(Д,х,dy) [P(t,у,В) - P(t,х,В)] = = а(х)Р> + ^-P'jA + о(Д) + Я, (46) где R = f(l-^-[p!;(t,yx,B)-p!;(t,x,B)]= J + J . \у-х\<^е \у-х\>£ Первый интеграл здесь в силу непрерывности Рх не превосходит 6(e)[b2(x)/2A + о(А)], 6(e) —> 0 при € —► 0; второй интеграл по условию За) есть о(А). Так как е произвольно, то R = о(А) и из сказанного выше следует, что существует hm = а(х)Рх + -^-Р, •
406 Глава 20. Марковские процессы Из теории дифференциальных уравнений известно, что при широких предположениях о коэффициентах a, b и при В = (—oo,z) задача Коши (43), (44) для уравнения (43) имеет единственное решение Р, бесконечное число раз дифференцируемое по t, х и z. Отсюда следует, в частности, что P{t,x,B) имеет плотность p(t,x,z), являющуюся фундаментальным решением (43). Из теоремы 7 нетрудно получить также, что вместе с Р(£,ж,2?) уравнению (43) будут удовлетворять функции u(t,x) — Jip(z)P(t,x,dz) = E[(p(^x\t))] для любой гладкой функции <р с конечным носителем. Мы рассматривали в доказательстве теоремы 7 (см. (46)) приращение времени А, предшествующее основному интервалу. В связи с этим уравнения (43) называются обратными уравнениями Колмогорова. Аналогичным образом могут быть получены и прямые уравнения. Теорема 8 (прямые уравнения Колмогорова). Пусть переходная плотность p(t, ж, у) такова, что существуют непрерывные производные J1 [a(y)p(t,x,y)] и -^1[b2(y)p(t,x,y)]. ft ft' — [a(y)p(t,x,y)] и ^-jb.2 Тогда p(t,x, у) удовлетворяет уравнению *2 Доказательство. Пусть (р(у) — гладкая функция с ограниченным носителем, u(t,x) = E<p(£l'\t)) = J<p(y)p(t,x,y)dy. Тогда u(t + А, ж) - u(t,x) = = / Р(*> х,z) [J P(A,z, уЫу) dy- J р(Л, г, у)ф) dy] dz. (48) Если восподьзоваться разложением в ряд <p(y) — <p(z), то для выражения в квадратных скобках мы аналогично тому, как это было в доказательстве теоремы 5, в силу свойств 1)-3) получим [a(z)<p'(z)+b-Qp"(z)]A + o(A). Отсюда следует, что существует P(t,x,z)[a(z)<p\z) + 2 2 ^"(Z)J dZ' ди Используя интегрирование по частям, получим ди п - Л 1 я2 = / { " -fa ^)Р^ Ж> Z)^\ib ^^^ Ж' Z)] }^Z) ^ = 0' dt или, что то же, Dp(t, ж, z)(p(z) dz = 0. /• Так как <р произвольна, то отсюда следует (47).
§5. Диффузионные процессы 407 Как и в случае дискретного X, различие между прямым и обратным уравнениями Колмогорова становится более наглядным в случае неоднородных процессов диффузии, когда переходные вероятности P(s,x',t,B) зависят от двух временных аргументов, а функции а и Ь в условиях 1)-3) будут функциями от s и х. Тогда обратное уравнение Колмогорова (для плотностей) будет связывать производные переходных плотностей p(s1x;t,y) по первым двум переменным, а прямое — по вторым. Вернемся к однородным процессам диффузии. Исследование условий, при которых существует стационарное распределение ^x'(t) при t —► со, не зависящее от х, может быть проведено с помощью того же подхода, что и в §2. Теорема 3 при этом полностью сохранится (надо лишь обозначение го заменить на xq для единообразия обозначений в условиях этого параграфа). Доказательство теоремы 3 также сохранится, однако потребует несколько более аккуратных рассуждений (в новой ситуации на событии Bdv выполняется £(t — v) G dxQ (а не = xq)). Если стационарное распределение \im p(t,x,y) =p(y) (49) t—>oo существует, то каким образом оно может быть найдено? Так как зависимость p(t,x,y) при t —> со от t и х становится исчезающей, то обратные уравнения Колмогорова превращаются при t —► со в тождество 0 = 0. Если обратиться к прямым уравнениям и перейти в (48) к пределу сначала по t —> со, а затем по А —> 0, мы придем после тех же, что в теореме 3, рассуждений к следующему заключению. Следствие 3. Если выполнено (49) и условия теоремы 8, то стационарная плотность р(у) удовлетворяет уравнению -[а(у)Р(у)]' +1-[Ь2(у)р(у)}" =0 (которое получается из (47), если положить dp/dt — 0). Пример 4. Процесс Орнштейна—Уленбека ^(t) = xeat + aeatw(^£^-), где w(u) — стандартный винеровский процесс, является однородным диффузионным процессом с переходной плотностью *••»>-TEw-'f^w}- "!» = й<«г"-|>- <50> Читателю предоставляется проверить, что этот процесс имеет коэффициенты а(х) — ах, Ь(х) = а = const, а функция (50) удовлетворяет прямому и обратному уравнениям. При а < 0 существует стационарный процесс (определение см. в следующей главе) ««>-""•(£). плотность распределения которого (она от t не зависит) равна 1 { У1 Л 2 °^ р(у) = \lmp(x,t,y) = ехр^ - 2 \, а (со) = - —. *-*оо V2ira(oo) { 2crz(oo) У 2а
408 Глава 20. Марковские процессы В заключение этого параграфа рассмотрим важную для разного рода приложений задачу об отыскании вероятности того, что траектория диффузионного процесса не выйдет за пределы заданной полосы. Для простоты мы ограничимся рассмотрением этой задачи для винеровского процесса. Пусть с > 0, d < 0. Обозначим U(t,x,B) = Р (w^x\u) e (d,c) при всех и G [0,t];w^x\t) G в) = = Р (supw(x)(u) < с, inf v)(x)(u) > d, x(x\t) <E в). Опустим проверку того факта, что функция U дважды непрерывно дифференцируема по ж, и ограничимся тем, что докажем следующее предложение: Теорема 9. Функция U удовлетворяет уравнению (43) с начальным условием U(0,x,B) = IB(x) (51) и с граничными условиями U(t, с, В) = U(t, d, В) = 0. (52) Доказательство. Отметим прежде всего, что функция U(t, ж, В) при х 6 (d, с) удовлетворяет условиям 1)—3), налагаемым на переходную функцию P(t,x,B). Действительно, рассмотрим, например, свойство 1). Надо убедиться, что с f(y- x)U(A, х, dy) ~ Аа(х) + о(А) (53) d (при а(х) = 0 в нашем случае). Но U(t,x,B) = Р(£, ж,£) - V(t,x,B), где V(t,x,B) = p({supw(x)(u) ^сили inf w(x\u) ^ d\ f]{^x)(t) e в\\ с ^ (у- x)V(A,x, dy) ^ max(c, -d) P f sup w^x\u) ^ c) + ( inf w^x\u) ^d)\. J L \х<д ' V«<A J\ d Например, первая вероятность в квадратных скобках оценивается, как мы знаем (см. (16.2) и лемму (16.1)), значением 2Р („<»<Д) > с) - 2Р („<■) > ~) ~ -2=-е-'>\ . - £^. При любом ж < с и любом А: > 0 это есть о(Ак). Поэтому (53) доказано. Точно так же проверяются свойства 2), 3). Далее, т. к. по формуле полной вероятности при х Е (d, с) с U(t + А, х, В) = J U(A, х, dy)U(t, у, В), d то, пользуясь разложением вида (45) для функции U, точно так же, как в (46), получим U(t + А, х, В) - U(t, x,B)= J U(A, х, dy) [U(t, у, В) - U(t, x, В)] = . ви . ъ2(х)д2и
§ 5. Диффузионные процессы 409 Отсюда следует существование dU/dt и уравнение (43) для функции U. Выполнение фаничных и начальный условий очевидно. ■ Читатель может убедиться, что функция u{t, х, у) = —U(t, ж, (-оо, у)), ye (d, с), ду ифающая роль фундаментального решения для фаничной задачи (51), (52) (функция и удовлетворяет (43) при фаничных условиях (52) и начальном значении, вырождающемся в 6-функцию), равна и{1,х,у)=-тГ£ ехр{ }- ^ г [у-2с-2к{с-й))2л ~ , [y-2d-2k(c-d)]2}] Этот ответ можно получить и непосредственно из вероятностных соображений (см., например, [20]).
Глава 21 Процессы с конечными моментами второго порядка, гауссовские процессы § 1. Процессы с конечными моментами второго порядка Пусть {£(£)> ~°° < t < со} — случайный процесс, для которого существуют a(t) = Ef(£), R(t,u) = E£(t)£(u). Так как от £(t) всегда можно перейти к изучению процесса £(t) — a(t) то, не ограничивая общности, можно считать, что a(t) = 0. Определение 1. Функция R(t,u) называется ковариационной функцией процесса £(£). Определение 2. Функция R(t,u) называется неотрицательно (положительно) определенной, если для любых А:; и\,...,щ', а>\,..., а>и Ф 0 ^а,-а;-Д(^,и;-) ^0 (>0). Очевидно, что ковариационная функция R(t,u) является неотрицательно определенной, так как X)o,-aiiJ(tiI-,tii) = E(^ai{(tiI-)) ^0. Определение 3. Процесс £(t) называется непредсказуемым, если никакая линейная комбинация величин fO^i),... ,£(щ) не равна нулю с вероятностью 1, т.е. если не существует таких щ,..., Uk', а\,..., а&, что Р ( ]Г} а^(щ) = 0) = 1. Если R(t, и) — ковариационная функция непредсказуемого процесса, то R(t, и) — положительно определенная функция. Ниже мы увидим, что в известном смысле верно и обратное утверждение. Непредсказуемость означает, что мы не можем определить £(£*) как линейную комбинацию £(tj), j < к. N Пример 1. Процесс £(t) = ^2 £k<Pk(t), гДе У>*(0 линейно независимы, & неза- *=1 висимы, не является непредсказуемым, так как по значениям £(£i),... , £(£jv) можно определить £(t) при всех остальных t. Рассмотрим Гильбертово пространство Li всех случайных величин г\ на (0,5, Р) с конечными вторыми моментами, Е77 = 0, и со скалярным произведением (771,7/2) = Ет/17/2, соответствующим расстоянию \\rj\ — 772II = [E(?7i — V2) ] Сходимость в ^2 есть, очевидно, сходимость в среднеквадратичном. Случайный процесс £(t) можно представлять себе как кривую в L^.
§ 1. Процессы с конечными моментами второго порядка 411 Определение 4. Случайный процесс £(£) называется стационарным в широком смысле, если функция R{t,u) = R(t — и) зависит лишь от разности t — и. Функция R(s) называется неотрицательно (положительно) определенной, если таковой оказывается функция R(t,t + s). Для краткости процессы, стационарные в широком смысле, мы часто будем называть просто стационарными. Для винеровского процесса R(t,u) = Ew(t)w(u) = min(^'a), так что процесс w(t) не может быть стационарным. Однако процесс £(t) = w(t + 1) — w(t) уже будет стационарным. Очевидно, что для стационарного процесса функция R(s) является четной, Ef (t) = R(0) = const. Положим для простоты R(0) = 1. Тогда в силу неравенства Коши—Буняковского |Я(*)| = |E((t)((t + a)\ < [E£2(t)Ei2(t + a)] m = Я(0) = 1. Теорема 1. 1) Процесс £(t) непрерывен в среднеквадратичном (^(i + А)—►£(£) (2) при А —> 0) тогда и только тогда, когда функция R(u) непрерывна в нуле. 2) Если функция R(u) непрерывна в нуле, то она непрерывна всюду. Доказательство. 1) \№ + Д) - №\\2 = Е (((t + А) - №)2 = 2Я(0) - 2Я(Д). 2) щг+д) - R(t) = е (at+джо) - mm) = = (ао),№+а) - т) ^ \№+а) - am = y/2(R(0)-R(A)). (1) В соответствии с содержанием гл. 6.17 процесс £(t), непрерывный в среднеквадратичном, будет стохастически непрерывным. Однако непрерывность в среднеквадратичном не влечет за собой непрерывность траектории. Читатель может убедиться в этом, рассмотрев в качестве примера процесс t(t) = v(*+ i)-q(0-i> где rj(t) — пуассоновский процесс с параметром 1. Для него функция ГО при^1, w \\-t при 0 ^ * ^ 1 непрерывна, хотя траектории £(t) разрывны. Если же |Д(Д) - Л(0)| < сАш (2) при некотором е > 0, то по теореме Колмогорова для £(t) существует непрерывная модификация. Отсюда следует, в частности, что если R(t) дважды дифференцируема в точке t = 0, то траектории £(t) можно считать непрерывными. Действительно, в этом случае в силу четности R(t) выполняется jR'(O) = 0, R(A) — R(0) ~ 1/2Д"(0)Д2. В целом, чем выше гладкость ковариационной функции в нуле, тем более высокой гладкостью обладают траектории £(£). Предположим, что траектории процесса £(t) измеримы (например, принадлежат пространству D).
412 Глава 21. Процессы с конечными моментами второго порядка Теорема 2 (простейшая эргодическая теорема). Если R(s) —> 0 при s —> со, (3) то 1 (2) Доказательство. т т Ш\2 = ^1 JR(t-u)dtdu. о о т т т т В силу четности R($) J = I I R(t-u)dtdu = 2 I I R{t-u)dtdu. 0 0 0 « СДелаем ортогональную замену переменных, положив v = \/y/2(t — и), s = l/y/lx (t + u). Тогда T/V2T/V2 T J ^ 2 I I R(vVl) dv ds^2T I R(v) dv, 5=0 v=0 0 T \KT\\2^^fR(v)dv-+0. 0 Пример 2. Стационарный процесс белого шума £(t) определяется как процесс с независимыми значениями, т.е. как процесс, для которого при любых t\,...,tn значения f (*i),... ,f (£n) независимы. Для него R(t) = \\ npH!iS' v ' I 0 при t Ф 0, и условие (3) выполнено. Однако применять здесь теорему 2 нельзя, так как траектории £(t) будут с вероятностью 1 неизмеримыми (неизмеримым с вероятностью 1 будет, например, множество В = {t: £(t) > 0}). Определение 5. Процесс £(t) называется стационарным в узком смысле, если при любых t\,...,tk распределение (£(t\ +и), ^(<2 + и),... ,£(tk -f и)) не зависит от и. Очевидно, что если £(t) — процесс, стационарный в узком смысле, то Е£(0 £(и) = Е£(* - и) т = R(t - и), и £(t) будет стационарным в широком смысле. Обратное, конечно, не верно. Однако существует класс процессов, для которых оба понятия стационарности совпадают.
§ 2. Гауссовские процессы 413 § 2. Гауссовские процессы Определение 6. Процесс £(t) называется гауссовским, если его конечномерные распределения нормальны. Будем считать снова, что Е£(£) = 0, R(t,u) = E£(t)£(u). Конечномерные распределения полностью определяются х. ф. (Л = (Ai,..., Afc), Ее«-(А,о = Ее»'Х>*(д = е-\™>? где R = ||Л(^,^)Н» индекс Т означает транспонирование, так что Таким образом, для гауссовского процесса конечномерные распределения полностью определяются ковариационной функцией R(t,u). Мы видели, что для непредсказуемого процесса £(£) функция R(t,u) положительно определена. Обратному утверждению можно придать следующую форму. Теорема 3. Если функция R(t,u) является положительно определенной, то существует непредсказуемый гауссовский процесс с ковариационной функцией R(t,u). Доказательство. Определим для произвольных t\,...,tk конечномерные распределения f (*i),... ,£(tk) через плотность Р«,,...а(жь--->ж*) = (27r)fc/2 ехр { " 2хАхТу где А есть матрица, обратная к матрице вторых моментов R = \\R(U,yj)\\ (см: §7.6). Эти распределения будут, очевидно, согласованы, поскольку согласованными являются матрицы вторых моментов (матрица для £(£i),..., f(**-l) является подматрицей матрицы R). Остается воспользоваться теоремой Колмогорова. ■ Пример 3. Пусть w(t) — стандартный винеровский процесс. Процесс w (t) = w(t) — tw(l), t G [0,1] называется броуновским мостом (его «концы закреплены»: гу°(0) = w°(l) = 0). Корреляционная функция для w°(t) равна R(t,u) = E(w(t)-tw(\)) (w(u) - uw(l)) =t(l-u) при и ^ t. Гауссовский процесс £(t), стационарный в широком смысле,.является стационарным в узком смысле. Это немедленно вытекает из того, что для R (£, и) = R(t — u) конечномерные распределения £(t) становятся инвариантными относительно сдвига времени: Р«,,...,**(жь..., ж*) = ^,+«,...,^+«(«1, • • •, ж*), поскольку \\R(ti + u,tj + u)\\ = ||jR(^-,^)||. Если £(t) — гауссовский процесс, то условия гладкости траекторий могут быть существенно ослаблены по сравнению с (2). Пусть для простоты гауссовский процесс £(t) стационарен. Теорема 4. Если \R(h)-R(0)\ <c(log-) , a > 3, с < оо, то траектории £(t) можно считать непрерывными.
414 Глава 21. Процессы с конечными моментами второго порядка \\-Р Доказательство. Воспользуемся теоремой 17.2 и положим e(h) — (log r) 00 при 1 < р < (а — 1)/2 (имеется в виду log по основанию 2). Тогда ]Г} £{^"п) — п=1 ^ п ^ < со, и в силу (1) п=\ р(|{((+Л)-,(,)|>ф))=2[1-ф(^> )] ^2 [l-$(c£(/l)(logi)a/2)]=2[l-$(c(logl)a/2-/3) (4) Так как аргумент под знаком Ф неограниченно растет при h —> О, 7 = а - 2/3 > 1, то в силу (18.2) 1 - Ф(х) ~ — е~х ' при х —> со, Л/27ГЖ и правая часть в (4) не превосходит / 1\0-ог/2 г / 1\«~2/Ь q{h) = cxy\og-j exp|-c2^log-J J, так что 00 00 ]Г 2nq (2~п) = сх^2 тГ7/2 ехр{-с2п7 + п In 2} < оо, п=1 п=\ так как с2 > 0, 7 > 1- Условия теоремы 15.2 выполнены, теорема 4 доказана. ■ § 3. Задача о прогнозе Пусть известно распределение процесса £(t) и известна траектория £(t) на множестве В С (—оо,£] (В — либо интервал, либо конечный набор точек). Что можно сказать о значении £(t + и)? Нашей целью будет отыскание случайной величины £, измеримой относительно $в = &(€(v), v € В) (и называемой прогнозом) такой, что Е(£ (£ + и) — £) принимает наименьшее возможное значение. Но ответ на этот вопрос известен (см. §4.8) C = EU(* + u)|3*). Пусть £(t) — гауссовский процесс, В = {t\,... fy}, t\ < tj < ... < tk < to = t + u, A — (cr2)~l = ||a,j||, a2 = ||Ef(*,-)£(^•)||,-J-=lj fcj0. Тогда распределение вектора (f (^i)> • • • >f (^о)) имеет плотность /(*,,...,xk,xo)= (2у)Д/2 exp{ - ^** w}. а условное распределение f(£o) относительно f(£i),... ,£(£*) имеет плотность, равную отношению /(а?1»-,жо) 00 / f(xu...1x0)dx0
§ 3. Задача о прогнозе 415 Экспоненциальная часть этого отношения имеет вид 2 * аоо^о ехр ■ Y2x°xJaJ°}- i=i Это означает, что рассматриваемое условное распределение есть Фа^2, где а = _^ж^а2о^ ^2 _ 1/аоо Таким образом, в рассматриваемом случае наилучший прогноз ( равен . _ у^ Z(tj) a0j i=i «oo Среднеквадратическая ошибка этого прогноза равна ^/Va00- Мы получили линейный прогноз. В общем случае это свойство линейности обычно нарушается. Рассмотрим теперь задачу о наилучшем линейном прогнозе в случае произвольного процесса £(t) с конечными моментами второго порядка. Для простоты будем считать опять, что В — {t\,...,£&}. Обозначим #(£) подпространство Li, порожденное случайными величинами £(*), -со < t< оо, и через ##(£) — подпространство #(£), порожденное (натянутое к на) f(*l)>-••>£(**)• Элементы ##(£) имеют вид ^2 a>j£(tj). Существование и вид наилучшего линейного прогноза в этом случае устанавливаются следующим утверждением. Теорема 5. Существует единственная точка £ £ Нв(0 (проекция £(t + и) на ##(£)> Рис- 20) такая, что t{t + v)-C±HB(Q. (5) Это условие эквивалентно тому, что Ы+и) Ш* + *)-СН= min II* (* + *)-'II- (6) оенв(0 Рис. 20. Явные формулы для коэффициентов dj в представлении ( = ^>2 a>j€(tj) содержатся в доказательстве. Доказательство. Соотношение (5) эквивалентно уравнениям (*(* + *)-С,*(*;)) = 0, j = l,...,fc. к Подставляя сюда С = 2 ait(ti) £ Нв(0> получим /=1 Н(Ь + и,Ъ) = ^0|Д(^-,*|), i = 1,...,*, (7) f=l или, в векторной форме, Rt+U = aR, где a = (ai,... ,afc), jfy+u = (Д(£ + u,£i),..., Д(* + М*)), Я = ||Д(*.-,Д;)Н-
416 Глава 21. Процессы с конечными моментами второго порядка Если процесс £(t) непредсказуем, то матрица R невырождена и уравнение (7) однозначно разрешимо: a = Rt+uR~l. (8) Если £(t) не является непредсказуемым, то либо R~ все же существует, и тогда справедливо (8), либо R вырождена. В этом случае из совокупности f(£i)>- •• >f(^fc) надо выделить лишь I < к линейно независимых элементов, для которых все сказанное выше останется справедливым с заменой к на I. Эквивалентность (5) и (6) вытекает из следующих соображений. Пусть в — любой другой элемент #в(£). Тогда j = 0 - £ € #в(£), j ± £(t + u) - (, так что \\((t + и) - в\\ = \№ + и)- с|| + |М1 ^ \№ + «) - СИ- Замечание 1. Может случиться (если процесс £(t) не является непредсказуемым), что £(t -f и) Е Нв(£). Тогда погрешность прогноза £ будет равна нулю.
Приложения
Приложение 1 Теорема о продолжении вероятностной меры Пусть si есть некоторая алгебра множеств из П, на которой задана вероятностная мера Р, т.е. числовая функция, удовлетворяющая условиям Р1-РЗ гл. 2. Пусть ЯР означает класс всех подмножеств П. Для любого A Е вР всегда существует последовательность {Ап}°°_, непересекающихся множеств из si такая, 00 что (J An D А (достаточно взять А\ = П, Ап = 0; n ^ 2). Обозначим 7(A) класс п=1 всех таких последовательностей и введем на £Р числовую функцию 00 Р* (А) = inf{^ P(An); {An} e 7(A)}. п=1 Эта функция (внешняя мера на 0*, индуцированная мерой Р на si) обладает свойствами: 1) Р* (А) ^ Р* (В) ^ 1, если АС В. (00 ч 00 U А„) = ]С Р(АП), если множества Ап Е si, n = 1,2,..., и не пересекаются. (00 ч 00 U -An) ^ ЕР* Un) Для любых АиА2,... е&>. п=1 У п=1 Свойство 1) очевидно. Свойство 2) вытекает из следующих рассужде- оо ний. Пусть {Вп} — любая последовательность из 7(A), где А = [J Ап. Так п=\ 00 00 как (J Ап е л/, то Р(Ап) = £ Р(АпВт). т=1 т=1 Следовательно, 00 00 00 П=\ П ГП 171=1 П—\ Но при каждом N < со JV ^P(AnBm)^P(Bm). n=l Значит, это неравенство верно и при ЛГ = со, и для любой {£?m}~=1 Е 7(A) Х;р(Ап)^р(вт). п=1
420 Приложение 1, Теорема о продолжении меры 00 Отсюда следует, что Р* (А) ^ Y2 Р(Ап). Так как обратное неравенство 00 П=\ очевидно, то Р* (4) = ]Г) Р(Ап). Для доказательства свойства 3) рассмотрим при некотором е > 0 последовательности {Ank}kX)=l € l(An) такие, что 00 5>UnfcKP*Un)+^« к=\ Последовательность множеств {Ank}™k=\, очевидно, содержит |J^n> и> значит, 00 п к п=\ В силу произвольности е свойство 3) доказано. ■ Введем теперь операцию симметрической разности © над произвольными множествами А, В из $Р с помощью равенства A®B = A~B(J~AB. Нетрудно заметить, что A0B = B0i=:IeBCiUB, A®A = 0, А © 0 = А, (А® В) Ф С = А® (В ©С). С помощью этой операции и функции Р* введем на @> расстояние р, положив для любых А,В е&> р(А,В) = Р*(А®В). Эта конструкция вполне аналогична той, которая использовалась в §3.4 (мы рассматривали там расстояние d(A,B) = P(A®B) между измеримыми А и В). Свойства расстояния р те же, что и в (3.10). Нам понадобятся следующие из них: 1) р(А,В) = р{В,А) > 0, р(А,А) = О, 2)р(А,В) = р(А,В), 3) р(АВ, CD) ^ р(А, С) + р(В, D), 4)p(U4b,UftK£p(4b,S*)- к Можно отметить также, что 5) |Р*(-А) — Р*(В)| ^ р(А,В), и, следовательно, Р* (•) есть функция, равномерно непрерывная относительно р. Свойства 1)-3) имеют место в (3.10) и доказываются совершенно аналогично на основании свойств меры Р*. Свойство 4) вытекает из свойства 3) меры Р* и соотношения (А = (J АП1В = [J Вп) А® В С \J(An®Bn), поскольку лфв= [(и^)П(П5„)]и[(П^»)П(ивв)] с [{jAnBn]\J[VBnAn] = = U {АпВп U АпВп) = и (Ап © Вп).
Приложение 1. Теорема о продолжении меры 421 Свойство 5) вытекает из того, что icBUUeB), bca\J(a®b) (i) и, значит, Р* (А) - Р* (В) ^ Р* (А © В) = р(А, В), Р* (В) - Р* (А) ^Р*(А®В) = р(А, В). Аналогично принятому в §3.4 назовем множество A Е ЯР аппроксимируемым, если для него существует последовательность Ап Е sf, для которой р(А, Ап) —> 0. Совокупность всех аппроксимируемых множеств обозначим 21. Это есть, очевидно, замыкание sf относительно р. Лемма. 21 есть а-алгебра. Доказательство. Проверим, что 21 удовлетворяет свойствам а-алгебры Al, A2', A3 гл. 2. Свойство А1: П Е 21 очевидно выполняется, так как s/ С 21. Свойство A3: A G 21, если ^4 Е 21, следует из того, что для A G 21 существуют ^4n G ^s/ такие, что при п —> со р(а, а„) -> о, р(3,2„) = р(А, а„) -> о. Рассмотрим, наконец, свойство А2'. Покажем сначала, что если Ап G я/, то A = UAneVl. Действительно, не ограничивая общности, можно считать, что Ап не пересекаются. Тогда в силу свойств меры Р* для любого е > 0 имеем $>(4ьКР*(П) = 1, A,\jAk)=P*( U Ак)= J2 ?(Ak)<£ при достаточно большом п. 00 Пусть теперь Ап G 21. Требуется показать, что А = |J An G 21. Пусть {£?„} — п=1 последовательность множеств из sf таких, что р(Ап,Вп) < е/2п. Тогда 2? = IJ^n £ 21 и в силу свойства 4) расстояния р 00 р(А,В) ^^рЦ^Вп) <е. п=1 Лемма доказана. ■ Теперь можно доказать основное утверждение. Теорема 1*. Вероятность Р может быть продолжена с алгебры s/ на а-ал- гебру 21 до некоторой вероятности Р. * Теорема о продолжении меры на минимальную <т-алгебру, содержащую S/, была получена Каратеодори. Метризация нормированных алгебр Буля sf с помощью расстояния р(А,В) = Р(АфВ) использовалась многими авторами (см., например, доклад А. Н. Колмогорова на VI съезде польских математиков в 1948 г.; П. Халмош [23]). Использовать для продолжения меры свойства ее непрерывности относительно расстояния р(А,В) = Р* (А © В) предложил Л. Я. Савельев.
422 Приложение 1. Теорема о продолжении меры Доказательство. Положим для А Е SI Р(А) = Р*(А). Очевидно, что Р (А) = Р(А) при А Е sf, Р(П) = 1. Чтобы убедиться, что Р есть вероятность, надо доказать лишь счетную аддитивность Р . Докажем сначала конечную аддитивность. Ее достаточно доказать для двух множеств: Р*(А + В) = Р*(А) + Р*(В), (2) где А,В Е St, А П В = 0. Пусть Ап Е sf, Bn E sf таковы, что р(А,Ап) —> О, р(В,Вп) —► 0 при п —> оо. Тогда |Р* (А + В) - Р* (А„ + В„)| ^ р(А + В,Ап + В„) ^ р(А, Ап) + р(В,Вп) - О, Р* (Ап + В„) = Р(АП + В„) = P(j4„) + Р(Вп) - Р(АпВп). (3) Здесь Р(Ап)^ Р* (А), _Р(ЯП) - РЧ*), P(j4„B„) ^ Р* (АПВ) + Р* (ВПВ) ^ Р* (АпА) + Р* (В„В) ^ р(А,А„) + р(В,В„) - 0. Значит, из (3) следует (2). Докажем теперь счетную аддитивность. Пусть Ап Е St не пересекаются. Тогда, оо полагая Ап = IJ ^4„, из конечной аддитивности Р получим п=1 P(A) = Y,P(Ak) + P{ U АЫ). k=\ ч*=»+1 ' Следовательно, 00 pu)^53pufc). С другой стороны, оо оо р(а) = р*(а) < £р*(4ь) = Ер(^)- fc=l fc=l и Теорема 2. Продолжение вероятности Р с алгебры sf на а-алгебру St единственно. Доказательство. Предположим, что на St существует еще одна вероятность Р i, совпадающая с Р на St и такая, что для некоторого А Е St Р{(А)^Р(А). Допустим сначала, что е = Р\(А) — Р (А) > 0. Рассмотрим последовательность {Вп} С J (А) такую, что J2P(Bn)-P(A)<£-.
Приложение 1. Теорема о продолжении меры 423 00 Тогда Р1 (^4) = Р(^4) + £ ^ ^ Р(ДО + £/2, что противоречит принадлежности А С 00 IJ 2?„. Значит, п=\ _ Pi(ii)^p(ii), ^€Я. Так как Р р-непрерывна в точке 0, то отсюда следует, что и Pi р-непрерывна в точке 0, а вместе с этим и в любой «точке» A Е 51. Действительно, в силу (1) \Pi(A)-Px(B)\^Pi(AeB)^P(A(BB)-+0, если только р(А,В) = Р (А © В) —> 0. Поэтому для Л Е 51 PU) = Нт Р(В) = Нт Р,(В) = Р,(Л). Пусть 51* = а(^) есть a-алгебра, порожденная sf. Так как J/ С 51, то 51* С 51, и из полученных утверждений очевидным образом вытекает Следствие 1. Вероятность Р может быть единственным образом продолжена с алгебры s/ на минимальную а-алгебру 51*, порожденную я/. Замечание 1. а-алгебра 51, определенная выше как замыкание алгебры я/ относительно введенного расстояния р, оказывается во многих случаях шире <т- алгебры 51* = сг(я?), порожденной я/. Это обстоятельство тесно связано с понятием пополнения меры. Речь идет вот о чем. Пусть я/ = # с самого начала есть а"-алгебра. Тогда меру Р в теореме 1 можно построить весьма просто. Для этого мы продолжим меру Р с (П,^) на более широкую, чем #, a-алгебру, построенную следующим образом. Мы будем говорить, что множество N из П принадлежит классу Л/\ если для N найдется такое А = A(N) Е #, что N С А, Р(А) = 0. Нетрудно видеть, что класс множеств вида В + N, где В Е #, N Е Л/*, снова образует <7-алгебру. Обозначим ее 5дг. Положив P(B-\-N) — Р(Б), мы получим продолжение меры Р на (tliB/s). Такая мера называется полной, а проведенная операция — пополнением меры Р. Теперь можно установить, что построенная в теореме 1 мера Р является полной, а а-алгебра 51 совпадает с 5дг. Если, например, П = [0,1], а sf есть алгебра, порожденная интервалами, то 51* = a(j/) будет, как мы уже знаем, борелевской <т-алгеброй, а 51 будет лебеговским расширением 51*, состоящим из множеств, «измеримых по Лебегу».
Приложение 2 Теорема Колмогорова о согласованных распределениях Пусть Т — некоторое множество индексов t, R$ при каждом t E T есть вещественная прямая (—со,со). Пусть NET — некоторое конечное подмножество Т. Тогда произведение пространств П М* = RN есть евклидово пространство teN размерности, равной числу п элементов в N, построенное на п осях пространства мг = п^. teN Предположим, что для любого конечного подмножества N С Т на (RN ,*BN), где 03 — о"-алгебра борелевских множеств в RN, задана вероятностная мера Р#. Тем самым на RT задано семейство мер. Это семейство называется согласованным, если для любых L С N и борелевских множеств В из RL PL(B) = PN(BxB?-L), Мера Рь называется проекцией Р# на RL. Множество из RT, которое можно представить в виде В х Ет~ , где В Е 03^, г N — конечное множество, называется цилиндрическим в RT. Множество В называется основанием цилиндра. Обозначим ЯЗТ а-алгебру множеств из RT, порожденную цилиндрическими множествами. Теорема. Если на Ет задано согласованное семейство вероятностных мер, то на (RT,Q3T) существует единственная вероятностная мера Р такая, что при любом N Р^ совпадает с проекцией Р на RN. Доказательство. Цилиндрические множества в RT образуют алгебру. Покажем, что при В Е *BN соотношения P{BxRT-N) = PN(B) определяют меру на этой алгебре. Прежде всего, в силу согласованности мер Р# это определение вероятности цилиндрических множеств корректно (имеются в виду случаи, когда В = В\ х RN~L, В\ Е Q3L. Тогда левая часть будет равна также Р{В\ х RT_L)). Далее, введенная вероятность аддитивна. Действительно, пусть В\ х ET_iNri и Bi х RT-iV2 — два непересекающихся цилиндрических множества. Тогда, обозначив N = N\ U N2, будем иметь P(£i х RT~Nl U В2 х RT~Nl) = = P({Bi x R"-"1 UB2x r"""2} x RT"") = P*({£! x R"-"» u52x К*""2}) = = PN(BX x R^-^1) + Pisr№ x RN~Nl) = P(Bi x RT-^) + P(£2 x Ег_*2).
Приложение 2. Теорема Колмогорова о согласованных распределениях 425 Чтобы проверить счетную аддитивность Р , воспользуемся эквивалентностью свойств РЗ и РЗ' (см. гл. 2). В силу этой эквивалентности достаточно показать, что если ЗВп, п = 1,2,... — убывающая последовательность цилиндрических множеств, то соотношения Р(^п) > е, п = 1,2,... , при некотором е > О означают, что % = 00 П ^п непусто. Вложенность множеств УВп означает, что в представлениях %п = п=\ Вп х lT_7Vn выполняется Nn С Nn+\, Вп+\ П RNn С Вп. Не ограничивая общности, мы будем считать в дальнейшем, что число элементов множества Nn = {t\,... ,£n} равно п, и через ж,- (с различными верхними индексами) будем обозначать координаты пространства К*.. 00 Итак, пусть Р(ЗВп) — Р^П(ВП) ^ е > 0. Докажем, что ^ = П ^fc непусто. Для каждого борелевского множества Вп С RNn существует компакт Кп такой, что е Кп С £?„, PNn(Bn - Кп) < rj^j- Если обозначить УСп = Кп х Ет_ЛГп, то мы получим Р(^п - ^Гп) = Р„п(Вп - Кя) < ^. п Введем в рассмотрение множества @п = П ^. Легко видеть, что ^п С ^п — к=\ п п тоже цилиндры. Так как %п - П УСк С П (^ ~ ^*)» то Л1151 них fc=l к=\ Р(^п - ®„) ^ Р ( Q («* - •**)) < X) Р№ - •**) ^ 2; fc=1 fc=l Из последнего соотношения следует, что ^п есть убывающая последовательность непустых цилиндрических множеств. Обозначим Хп = (ж",ж£,... ,ж£) некоторую п точку основания Dn = f] Кк х Е^п~^ цилиндра ^п, определяющую цилиндри- ческое множество f„ в f . Так как ^п убывают, то (ж!+р,Ж2+|,,...,ж"+р) G К„ при любом р ^ 0. В силу компактности Кп можно выбрать последовательность п\к такую, что ж"1* —> Ж} при А: —> со. Из этой последовательности можно выбрать подпоследовательность 7i2fc такую, что ж^2* —► Ж2 и т.д. Рассмотрим теперь диагональную последовательность точек (точнее, цилиндрических множеств) ХПкк = (ж"и, х£к,..., xJJ**). Ясно, что при А: —> со ХПи —> X = (ж1,Ж2,...) (имеется в виду покоординатная сходимость). При этом \х\ чх2 » * • * >Жт J ~~*" \х\ч - • • чхт) Е ^т при любом га. Это означает, что соответствующее точке X множество 3? = {y(t) Е 00 IRT: y(^) = жьу(^2) = Ж2,... } Е Hfm Е ^m при любом га и, значит, <f G f] ^m. Таким образом, & не пусто, и счетная аддитивность Р на алгебре цилиндрических множеств доказана. Следовательно, Р есть мера, и остается воспользоваться теоремой о продолжении меры с алгебры на а-алгебру, порожденную этой алгеброй. ■
Приложение 3 Интегрирование § 1. Пространство с мерой Пусть (П,^) — измеримое пространство. Мы будем говорить, что задано пространство с мерой (П, #,/£), если на # задана неотрицательная счетно-аддитивная функция fi, т.е. функция, обладающая следующими свойствами: 1) fi((jAj) = ^2fJ>(Aj) для любого счетного набора непересекающихся мно- j J жеств Aj G # (а-аддитивность). 2) fi(A) ^ 0 для каждого A G #. 3) fi(0) = О где 0 — пустое множество. Значение fi(A) называется мерой множества А. Мы будем рассматривать только конечные и а-конечные меры. В первое случае предполагается, что д(П) < со. Во втором — что существует разбиение П на счетное число подмножеств Aj таких, что fi(Aj) < со. Вероятностное пространство является примером пространства с конечной (единичной) мерой. Пространство (R,Q5,/x)", где R — вещественная прямая, 03 — а-алгебра борелевских множеств, ад — мера Лебега, представляет собой пример пространства с а-конечной мерой. Можно рассматривать также функции множеств ц(А), удовлетворяющие лишь условиям 1), 3) и не обязательно неотрицательные. Такие функции называются обобщенными мерами. Любая конечная обобщенная мера (т.е. такая, что sup fi(A) < со, А inf fi(A) > -со) может быть представлена в виде разности двух конечных неотрица- А тельных мер (теорема Хана о разложении, см §5 этого Приложения). Обобщенные меры нам понадобятся лишь в §5. В остальных местах и при отсутствии специальных оговорок мы везде под мерами будем понимать функции множеств, удовлетворяющие условиям 1)-3). Так же, как при изучении простейших свойств вероятности (§2.2), легко устанавливаются следующие свойства меры: 1) fi(A) ^ д(£), если АС В. 2) MU4?) ^ ^2^(лз) любых Aj. 3) Если Ап С Ап+\, (J Ап = А, то fi(An) —> ii(A), или, что то же самое, 3') если Ап D An+\, f]An = А, ц(А\) < со, то ц(Ап) —> рь{А). Рассмотрим далее на (Г2,£) измеримые функции, т.е. функции £(о>), обладающие свойством {и: £(ш) € В} € $ для любого борелевского множества В на прямой. Аналогично тому, как это делалось для вероятностной меры, вводятся понятия сходимости по мере и сходимости почти всюду.
§ 2. Интеграл по вероятностной мере 427 Будем говорить, что последовательность £п сходится к £ почти всюду (п. в.) fn —►£, если £п(и)) —> £(о>) для всех ш, за исключением множества меры 0. Будем говорить, что fn сходится к £ по мере: £п—>€, если для каждого е > 0 при п —> со М({1£п " £1 > *}) "> 0. Займемся теперь построением и изучением свойств интегралов. Рассмотрим сначала конечные меры и будем считать их, не ограничивая общности, вероятностными. В этом случае мы будем вместо fi(A) писать Р(А). К интегралам по произвольным а-конечным мерам вернемся в §4 этого раздела. § 2. Интеграл по вероятностной мере 1. Интегралы от простых функций. Измеримая функция £(ш) называется простой, если множество ее значений конечно. Индикатором множества F € $ называется простая функция ЛрЧ">-\0, если u£F. Очевидно, что любую простую функцию £(ш) можно записать в виде п где Xk, к = 1,2, ...,п, — значения, принимаемые £, a Fk = {ш: £(ш) — Xk}. п Множества Fk попарно не пересекаются и |J Fk = П. Интегралом от простой случайной величины £(и>) называется число [t*P= [t(w)dP(w) = j>2xkP(Fk) = Et. J J k=\ Интегралом по множеству A G 3 от простой измеримой функции f(u>) называется j ZdP= j Z{u)IA{u)dP{u). A Корректность этих определений (разбиения на множества Fk могут быть различны) проверяется очевидным образом. 2. Определение интегралов от произвольных функций. Лемма 1. Пусть £(и) ^ 0. Существует последовательность £п(о>) измеримых простых функций такая, что fn(u>) Т £(<*>) при п —> со. Доказательство. Разобьем отрезок [0, п] на п-2п равных отрезков. Пусть xq = 0, жь • • • > хп2п — п означают точки деления, так что xi+\ -ж, = 1/2п. Положим F{ = {ш: Xi ^ «w) < Xi+i}, г = 1,2,...,п2п - 1, F0 = {0 ^ {(w) < xj U {£(ш) ^ n}, n2n-l fn(k>) = ]C xilF,(w) ^ £(^)- fn(k>) есть, очевидно, измеримая простая функция, i=0
428 Приложение 3. Интегрирование обладающая тем свойством, что в точке ш Е ft при п > £(ш) выполняется неравенство Лемма 2. Пусть fn T f ^ О, т/n Т f ^ 0 — последовательности простых случайных величин. Тогда lim / f n dP = lim rjndP. Доказательство. Убедимся, что для любого т I UdP ^lim^VndP. Функция fm простая. Следовательно, она с вероятностью 1 офаничена некоторой постоянной: fm ^ ст. Поэтому при любых п, e > О Отсюда следует, что E£m ^ СтР{Ы ^ rjn + е} + е + Е?7П. Вероятность в правой части при п —> со мала: Р«ш ^ *?п + е} ^ Ptt > Vn + г} -> О, так как ?уп почти наверное (и, следовательно, по вероятности) сходится к £. Поэтому Efm ^ e -f lim E?yn. Так как £ произвольно, то п—юо lim Ef„ ^ lim E?yn. п—юо п—юо Меняя местами {£„} и {г)п}, получим обратное неравенство. ■ Утверждения лемм 1, 2 делают корректными следующие определения Интегралом неотрицательной функции £(ш) называется число [tdP=\imQ[tndP, (1) где fn — последовательность простых измеримых функций таких, что fn T f при п —> со. Интефал f £dP будем обозначать также через Е£. Мы будем говорить, что интефал J £dP существует, а f интегрируема, если Е£ < со. Интегралом от произвольной (принимающей значения разных знаков) функции £(ш) называется число Е£ = Е£+-ЕГ, f± = max(0,±O, если хотя бы одно из значений Е£* конечно. В противном случае Е£ не определено. Е£ существует тогда и только тогда, когда существует Е|£| < со (ведь |f| = f+ + f~). Если существует Е£, то существует также Е(£;А) = f £dP = Е£1а для любого A Е 5- Л Лемма 3. Если Е£ существует и Fn Е $ есть последовательность мно: :еств такая, что P{Fn) —> 0 при п —> со, то E(fcFn)->0.
§ 2. Интеграл по вероятностной мере 429 Доказательство. Для любой последовательности |£m| T Ifl простых функций справедливо (Ат = {|£| ^ га}) Е\(\ > lim ЕЦ\1Ат > lim E|£m|^„. = E|£|, m—>oo m—>oo поскольку |£ш|^лт Т If I- Отсюда следует, что Е|£|= lim Е|£|/Лт = lim Е(|£|;|£|^т) m->oo m—>oo и, значит, для любого е > О существует m(£r) такое, что Е|£|-Е(К|;ККт)<е при т ^ т(е). Поэтому для таких m. E(|£|;Fn) = Е(|£|; {|£| ^ m}Fn) + Е(|£|; {|£| > m}F„) ^ mP(F„) + e, UnTE(|^|;F„)^e. п—юо ■ Отметим, что в лемме 6.2 содержится некоторое обобщение леммы 3. 3. Свойства интегралов. 11. Если множества Aj Е # не пересекаются и [jAj = Q,, то j /*dP = X)/*dP- (2) J A; Достаточно доказать это соотношение для £(а>) ^ 0. Для простых функций равенство (2) очевидно, так как В общем случае, используя определение (1), получим J zap = jim y^ndp = „кт^у *»dP = Yl*™>ftndP = YlftdP- (3) Изменение порядка предельного перехода и суммирования здесь законно, так как в силу леммы 3 00 Г /°°\ /°оч 0 £ / €„dP =EU„; U АЛ < EU; U Л) 'А при JV —> оо равномерно по п. ш 12. /tt + 4)dP=/*dP + JVP. Для простых функций это свойство очевидно. Поэтому для f ^ О, т/^0 это свойство следует из аддитивности операции предельного перехода. В общем случае находим (£* и 7/* определяются, как и раньше) f{i + n)dP = f(? + V+) dP - /(Г + Vl dP = = [£+dP - ji'dP + f J]+dP - I 'if dP = I idP + f rjdP.
430 Приложение 3. Интегрирование I 3. Если а — произвольная постоянная, то J a£dP =а I £dP. 14. Если £^г), то f£dP ^ frjdP. Доказательство свойств 13, 14 очевидно. Так как f£dP = Ef, то свойства 11-14 можно записать с помощью математических ожиданий следующим образом: 11. Е£ = ^2E(£;Aj), если Aj не пересекаются, [jAj = П. j 12. E(t + Ti) = Et + Eri. 13. Еа£ = аЕ£. 14. Ef ^ Ег), если £ ^ г). Отметим также следующие свойства интегралов, легко вытекающие из свойств 11-14. 15. |Е£|^Е|а 16. Если с\ ^ f ^ С2, то с\ ^ Е£ ^ С2. 17. Если i ^0 и Е£ = 0,/ио Р(£ = 0) = 1. Это следует из неравенства Чебышева: Р(£ ^ е) ^ Е£/е = 0 при любом е > 0. 18. Если Р(£ = г)) = 1 w Ef существует, то Е£ = Е77. Действительно, Ет7 = lim Е(т;; \v\ ^ п) = lim E(fc |£| ^ п) = Е£. П—>00 П—»00 § 3. Дальнейшие свойства интегралов 1. Теоремы сходимости. Ряд теорем сходимости был доказан в § 6.1 и, в частности, теорема о сходимости мажорируемой последовательности: Если £п—>£, Ifnl ^ V> E77 < со, то существует Е£ и Е£п —> Е£. Приведем некоторые другие полезные утверждения о сходимости интегралов. Теорема 1 (Теорема о монотонной сходимости). Если О ^ fn | f, /яо Е£ = lim E£n. n-»oo Доказательство. В дополнение к следствию 6.4 нам надо здесь доказать лишь, что Efn —> 00, если Е£ = со. Положим £„ = min(fn,iV), f^ = min(f,iV). Тогда, очевидно, $ Т £^ при п —> со, Е^ Т Е£^. Следовательно, значение Е^ ^ Efn выбором п и N может быть сколь угодно большим. ■ Эти теоремы можно обобщить следующим образом. Для того, чтобы в § 4 было удобно получить распространение теорем сходимости на интегралы по произвольной мере, мы Е£ будем писать теперь в форме интеграла / £dP.
§3. Дальнейшие свойства интегралов 431 Теорема 2 (Фату—Лебега). Пусть rj и ( интегрируемы. Тогда если £п ^ rj, то limsup / £ndP ^ / Hmsup£ndP. (4) Если £п ^ С, то liminf J indP ^ I liminf£ndP. (5) Если in T £, in ^ С или £п ^+£, С ^ in ^ *Ь /яо lim J indP = IidP. (6) Доказательство. Докажем, например, (5), положив, не ограничивая общности, £ = 0. В этом случае i^rjn~ inf ik T liminf f„, r)n ^ 0, и по теореме о монотонной сходимости liminf indP ^ lim rjndP = I liminf fn dP. Если (5) применить к последовательности 77 — fn, то получим (4); (6) следует из предыдущих теорем. ■ 2. Связь с интегрированием по мере на прямой. Пусть д(х) — некоторая борелевская функция, заданная на прямой Ш (если 03 — а-алгебра борелевских множеств на прямой и В Е 03, то {х: д(х) Е В} Е 03). Тогда rj = д(£(ш)), очевидно, также будет случайной величиной. Как мы видели в §3.2, случайная величина £ индуцирует вероятностное пространство (R, 03, Р^) с мерой Р^ на прямой такое, что Р^(В) = Р((6В). Следовательно, можно говорить об интегралах по этой мере. Справедлива Теорема 3. Если Erj существует, то Ег)= frjdP = Г g(x)P((dx) (в правой части использована несколько иная запись J g(x) dP^(x)). Доказательство. Пусть сначала д(х) = 1в(х) есть индикатор множества В Е 03. Тогда 7] = д(£(и)) = 1^еВ}(^) и Erj = P(£ e В). Поэтому Jg(x)Pt(dx) = JlB(z)Pt(dx) = Р((В) = Р(£ ЕВ) = Ет7. Используя свойства интеграла, легко установить, что утверждение теоремы верно для простых функций д. Применение предельного перехода распространяет это утверждение на ограниченные функции. Пусть теперь д ^ 0. Если функция д(£)1в(0 — v(v)I{teB}(v) ограничена, то получаем Jg(x)dP^(x) = E(7/;f Е В). в Поэтому / gdPc = Е(т/;т/ ^ п).
432 Приложение 3. Интегрирование Переходя к пределу по п, получим утверждение теоремы. Рассмотрение случая, когда д принимает значения обоих знаков, затруднений не вызывает. ■ Если обозначить F{x) = РЦ< х), то наряду с интегралом J д(х)9№), (7) R который только что рассматривался, можно рассмотреть также интеграл Римана— Стилтьеса Jg(x)dF(z), (8) определение которого дано в §3.6. Там же было показано, что для непрерывных функций д(х) эти интегралы совпадают. Кроме того, в §3.6 были обсуждены некоторые другие условия совпадения этих интегралов. х Напомним также, что если F(x) — J f(t)dt, а функции д(х) и f(t) интегри- -00 руемы по Риману, то интегралы (7) и(8) совпадают с интегралом Римана / g(x)f(x)dx. 3. Произведения мер и повторные интегралы. Рассмотрим двумерную случайную величину £ = (£,7?), заданную на (П,^, Р). Случайные величины £ и г) индуцируют выборочное вероятностное пространство (R2,Q32,P^^) с мерой P^v, заданной на элементах а-алгебры ЯЗ2 борелевских множеств на плоскости (минимальная а-алгебра, порожденная прямоугольниками) и такой, что P^(ixB) = P({6i,ij6B). Здесь Ах В есть множество точек на плоскости (ж, у) для которых х Е А, у Е В. Если д(х,у) есть борелевская функция ({(ж,у): д(х,у) Е В} Е ЯЗ2 для каждого В Е 03), то из предыдущего легко следует, что Е<7(£, V) = f 9(x> y)Pu(dx dv), (9) R2 так как оба интеграла равны J 0Pe{dx) для в = д(£,г)). R Пусть теперь f и т) независимы, т. е. Р(£ еА1т)ев) = Р(£е a)P(tj e в) для любых А, В Е 03. Теорема Фубини (теорема о повторных интегралах). Если д(х,у) ^ О — борелевская функция, £ и 7] независимы, то Eg(t,T,) = E[Eg(x,T,)\x=i]. Для произвольных борелевских функций д(х,у) приведенное равенство справедливо, если существует Eg(£,r]).
§3. Дальнейшие свойства интегралов 433 Это же утверждение в гл. 3 мы записывали с помощью интегралов Jg(x,y)PCi„(dxdy) = J[J д(х,у)Рч(йу)\рс(<1х). (10) Нам будет полезна следующая Лемма 4. 1. Сечение Вх любого множества В Е 032 Вх = {у:(х,у)еВ} измеримо: Вх Е 03. 2. Сечение дх(у) — д(я,у) любой борелевской функции д (03> -измеримой) есть борелевская функция. 3. Интеграл Г g{x,y)Pr]{dy) (11) /' от борелевской функции д есть борелевская функция от х. Доказательство. 1. Пусть !К\ — класс всех множеств из 03 , у которых сечения измеримы. Очевидно, что УС\ содержит прямоугольники В — Вп\ х В<2\, где Вп\ Е 03, £(2) £ 03. Кроме того, Ж\ — а-алгебра. Действительно, рассмотрим, например, множество В — IJ в№', где B'fc' Е ЗС\. Очевидно, что операция (J над множествами вУк' (к) приводит к тем же операциям над сечениями, так что Вх = [JBX ' Е 03. Аналогично обстоит дело с другими операциями (р| и взятие дополнений). Таким образом, Ж[ — <т-алгебра, содержащая прямоугольники. Это значит, что 03 С Ж[. 2. Для В Е 03 имеем дх\в) = {у: дх(у) Е В} = {у: д(х,у) Е В} = {у: (х,у) Е g~l(B)} = Ь>~\в)]х е ®. 3. Интефал (11) есть результат предельного перехода над измеримыми функциями и поэтому сам измерим. ■ Доказательство теоремы Фубини. Докажем сначала (10) в случае д(х,у) = 1в(х,у), когда теорема Фубини превращается в формулу о последовательном вычислении меры множества В Е 032 : Р(«,Ч) 6 В) = J Pv((x,y) e B)P((dx) = f P,(Bx)P{(dx). (12) Введем в рассмотрение функцию множеств Q(B) = Jpv(Bx)P((dx). Очевидно, что Q(B) ^ 0, Q(&) = 0. Далее, если В = (jB^k\ B^k' не пересекаются, то Вх — IJ Вх , Вх не пересекаются, Q(B) = J P,(UBik))Pi(dx) = J2 f P4(Bik))Pi(dx) = £ Q(B(k))- Это означает, что Q(B) — мера.
434 Приложение 3. Интегрирование Мера Q(B) совпадает с Piri(B) = P(((,i]) 6 В) на прямоугольниках В = Вп\ х Вп\- Действительно, для прямоугольников ГВ(2) прих€В(1)) и* \0 при ж£В(1), Р(({,4) € В) = P{(B(i))P,(B(2)) = У P,(B(2))P{(«te) = У P,(Bx)P<(«fa) = Q(B). Это означает, что меры Q и Р^ совпадают на алгебре, порожденной прямоугольниками. По теореме о продолжении меры получаем, что Q — Р^. Справедливость (12) доказана. Отсюда следует справедливость теоремы Фубини N для простых функций д^ = ]С cjIaj так как N E9n(Z,v) = Y1cJEIa№>7)) = = Y1CJ J ЫаМ^Р^х) = j EgN(x,V)Pi(dx). (13) Если теперь g ^ 0 — произвольная борелевская функция, то существует последовательность простых функций д^ Т 9, и нам, как и в (13), остается воспользоваться операцией предельного перехода Eg&v) = Hm E9n(Z,v) = Иш / Е^(^,?7)Р^йж) = / Е^(£,77)Р^ж). N-юо N->oo J J Для произвольной функции g следует воспользоваться представлением 9=д+-д~,9+^0,д-^0. т Замечание 1. Из доказательства теоремы видно, что скалярность случайных величин f и rj не играет существенной роли. Утверждение сохранится и в более общей форме (см. свойство 5А §4.8) и, в частности, для векторных £ и rj. § 4. Интеграл по произвольной мере Если fi — конечная мера на (П,^), fi(Q) < со, то определение интеграла f £dfii по мере \i ничем не отличается от соответствующей конструкции интеграла по вероятностной мере (можно положить просто f £dfj, = /г(П) J £dP, где Р (В) = А А ц(В)Ifi(Q) есть распределение вероятностей). Если же fi а-конечна и fi(Q,) = со, то дело обстоит несколько сложнее, хотя снова все сводится к уже использованным построениям. Сделаем сначала несколько предварительных замечаний. Пусть (П,^, Р) — вероятностное пространство и / = /(ш) ^ 0 — п. в. конечная неотрицательная измеримая функция (т.е. случайная величина). Рассмотрим функцию множества fi(A) = JfdP. (14) А Если / интегрируема (fi(fl) < со), то рь{А) — конечная а-аддитивная функция множества (см. свойство II), удовлетворяющая условиям 1-3 § 1 этого Приложения.
§ 4. Интеграл по произвольной мере 435 Другими словами, fi — конечная мера на (Г^^). Если же / неинтегрируема, то fi сг-конечная мера, что сразу следует из возможности представления оо k~lAn{k-\^f<k} (интефалы под знаком суммы, равные ///(*_!</<*) dP, являются, очевидно, конечными мерами). Л Таким образом, интефалы вида (14) для любых распределения Р и функции / ^ О представляют собой меру. Оказывается, верно и обратное в известном смысле утверждение. Лемма 5. Для любой меры fi на (П,^) найдется распределение Р на этом пространстве и измеримая функция f ^ О такие, что справедливо представление (14). Таким образом, любая мера представима в виде интефала от вероятностной меры (т.е. в виде Е(/;^4) при соответствующих функции / и распределении Р). Доказательство. Пусть \i — а-конечная мера на (П,^), и множества Bj Е #, j — 1,2,... , обладают свойствами (J В3; = П, B{Bj = 0 при г Ф j, fi(Bj) < со. i=i Положим hi 2'***> pu)=i:^^v- 05) Очевидно, что Р(П) = 1, и Р является мерой. Далее, если А С Вк, то fi(A) = 2кfi(Bk)P(A). Это означает, что мы должны положить f(u) = 2kfi(Bk) при wGft. Тогда функция множества <р(А) = J fdP= J fIAdP будет совпадать с fi(A) : оо оо °° (Л R Fi \ °° <р(А) = £2к»(Вк)Р(АВк) = Х; 2*/t(B») £ Ти(»Т = ^^^ = ^ Jb=l Jb=l j=\ ^ j) к=\ ш Здесь, помимо требуемого утверждения, мы получили также, что в представлении (14) множество значений функции /, не офаничивая общности, можно считать счетным. Функция /, для которой возможно равенство (14), называется плотностью меры \i относительно Р (или производной Радона—Никодима меры /i no P) и обозначается dfi/dP. Очевидно, что изменение функции / = dfi/dP на множестве Р-меры нуль оставляет справедливым равенство (14). Пусть теперь fi и Р — две заданные произвольные меры. Весьма важным в теории вероятностей является вопрос, при каких условиях эти две меры \i и Р могут быть связаны соотношением (14) и единственным ли образом (с точностью до значений на множестве нулевой Р-меры) определяется при этом функция / (подчеркнем, что в предыдущих рассмофениях мера Р сфоилась специальным образом по мере fi или наоборот). Ответы на эти вопросы содержатся в теореме Радона—Никодима, которая будет изложена в следующем парафафе.
436 Приложение 3. Интегрирование Теперь же, пользуясь доказанным несложным утверждением леммы 5, дадим определение интеграла по произвольной мере fi. Пусть fi — а-конечная мера на (П,^), и £ ^ О есть ^-измеримая функция. Интегралом f£dfi по множеству i 6 J от функции f ^ 0 по мере р, А называется интеграл по распределению Р : /м-ЛФ"' (1б) А А где Р — любая вероятностная мера, удовлетворяющая равенству (14) (например, мера (15)). Это определение корректно, поскольку оно не зависит от выбора Р. Действительно, для простых функций £ (£(w) = xk при и € Fk) A A AFk Если теперь £ ^ 0 — произвольная функция, то по теореме о монотонной сходимости f £dfi равен А lim [&)(^dP= lim [ &)dv>, п->оо J dP п->оо J А А где f'n' T f есть последовательность простых функций, монотонно сходящихся к £ (см. лемму 1). И в том, и в другом случае полученный результат от выбора Р не зависит. Интеграл J £dfi от произвольной измеримой функции £ определяется как А JtdfJL = Jt + dfl- j Cdpi, AAA если оба выражения в правой части конечны (в этом случае говорят, что интеграл f£dfi существует). Здесь, как и прежде, £+ = тах(0,£) ^ О, £~ = max(0, -£) ^ 0, a < так что £ = £ - £ . Мы видим, таким образом, что по существу данное определение интеграла по произвольной мере эквивалентно той конструкции, которая использовалась в §2 этого Приложения. Однако определение в форме (16) избавляет от необходимости повторять весь пройденный путь (причем в более сложных условиях) и позволяет сразу перенести на общий случай все свойства интегралов f£dP. Перечислим основные из них, сохранив их нумерацию: П. £dfi = ^2 J £dfi, если Aj не пересекаются, [J Aj =tt. 12. /(£ + rj)dfi = Jidfi-hfrjdii. 13. J* a£dfi — af£dfi. 14. £dfi ^ Jrfdfi, если £ ^ rj. 15. \Jtdii\^f\t\dii. 16. Если c\ ^ £(u>) ^ C2 при и Е А, то c\/i(A) ^ J*£dfi ^ C2fJ,(A).
§ 5. Теоремы Лебега и Радона—Никодима 437 17. Если £ ^ 0 и / £dfi = О, то ц(£ > 0) = 0. 18. Если д(£ / 7/) = 0, то / f d^ = / rj \i. Очевидно, что полностью сохраняются также и теоремы сходимости. Теорема о сходимости мажорируемой последовательности. Пусть |f| ^ rj и f rjdfi существует. Тогда, если fn —►£ или fn —> f a?. <?., wo / ind\L-+ I £ dp. Теорема о монотонной сходимости. Если 0 ^ fn | f, /яо I £ndti-+ J £ dfi. Теорема Фату—Лебега. £е формулировка и доказательство получаются из теоремы 2 заменой Р на fi. В заключение отметим, что если П = R — (—со,со), # = ЯЗ есть (т-алгебра борелевских множеств, ^ есть мера Лебега, а функция ^(ж) непрерывна, то ь интефал / g(x)dfi(x) совпадает с инте фалом Римана Jg(x)dx. Это следует из [а,Ь] а соответствующих замечаний в п. 2 § 3 этого Приложения. § 5. Теорема Лебега о разложении и теорема Радона—Никодима Вернемся к вопросу, который был сформулирован в предыдущем парафафе. При каких условиях на меры \l и Л, заданные на (П,^), мера /х может быть представлена в виде li(A) = ffd\? А Здесь мы уже не предполагаем, что мера Л обязательно вероятностная. Определения. Мера \i называется абсолютно непрерывной относительно меры Л (обозначается fi ■< А), если для всякого А такого, что Х(А) = 0, выполняется fi(A) = 0. Любое множество N^ называется носителем меры fi, если fi(tt — N^) = 0. Говорят, что мера fi сингулярна относительно А, если найдется такой носитель N\ меры А, для которого fi(N\) = 0. Или, что то же, если найдется носитель N^ меры fi, для которого А(ЛГ^) = 0. Таким образом, последнее определение, в отличие от первого, симмефично, и можно говорить о взаимной сингулярности мер fi и А (такое соотношение часто обозначается /г JL Л). Теорема Радона—Никодима. Для абсолютной непрерывности fi < X необходимо и достаточно, чтобы существовала функция /, определенная с точностью до Х-эк- вивалентности (т.е. с точностью до значений на множестве Х-меры нуль), такая,
438 Приложение 3. Интегрирование что р(А) = J fdX\ А Как уже отмечалось, функция / называется производной Радона—Никодима dp/dX меры р по мере Л (или плотностью р относительно Л). Так как достаточность в утверждении этой теоремы очевидна, то получим теорему Радона—Никодима как следствие следующей теоремы Лебега о разложении меры: Теорема Лебега. Пусть р и X — две а-конечные меры на (0,3). Существует единственное разложение меры р на две компоненты ра и рс такие, что ра < Л, рс JL Л. При этом найдется единственная с точностью до Х-эквивалентности функция /, для которой ра(А) = J fdX. А Очевидно, что если р < Л, то рс = О, и из теоремы Лебега следует теорема Радона—Никодима. Доказательство. Так как р и Л а-конечны, то существуют возрастающие последовательности вложенных множеств П£ и П* такие, что р№) < оо, A(ftf) < оо, U «и = П, U ^п = П. п п Положив П„ = ПпП^, получим возрастающую до О последовательность множеств, на которых р(£1п) < оо, Л(П„) < оо. Если мы докажем теорему о разложении для сужения мер р и Л на (Вп,$п), где Вп = Пп+1 — &п, $п образована множествами ВпА, A G У, то тем самым мы докажем ее и на всем П. Достаточно будет в качестве ра и рс взять суммы соответствующих компонент по каждому из сужений. Это замечание означает, что можно рассматривать лишь случай конечных мер. Итак, пусть р и Л — конечные меры. а) Пусть Ф — класс функций / ^ 0, для которых fdX^ р(А) при всех A G £ (17) А (класс Ф не пуст, так как / = 0 принадлежит Ф). Обозначим а = sup / / dX ^ р(Г1) < оо п и выберем последовательность /п такую, что fndX-> a. * Это равенство иногда принимается за определение абсолютной непрерывности.
§ 5. Теоремы Лебега и Радона—Никодима 439 Положим fn = max(/i,... ,/п). Тогда, очевидно, fn T /' = sup/n, и по теореме о монотонной сходимости ffnd\-+Jf'd\. (18) А А Покажем теперь, что /' G Ф, т.е. что для /' выполнено (17). Для этого в силу (18) достаточно заметить, что /i 6 Ф. Пусть Ак, к — 1,...,п, — п непересекающиеся множества, на которых f'n = Д. Тогда |J Ак = П, к=\ Г п Г п J f'nd\ = ^Z J fkdX ^J2^dX(<AA^ = ^A)' A k=lAAk fc=1 Таким образом, для «максимального» элемента /' из Ф также выполнено (17). б) Положим fia(A) = / fd\, fic = fi- fia (19) A и докажем, что \ic сингулярна относительно Л. Для этого нам понадобится следующее утверждение о разложении произвольной обобщенной меры (определение см. в § 1 этого Приложения). Теорема Хана о разложении. Для любой обобщенной конечной меры j существуют непересекающиеся множества D+ G # и D~ G $ такие, что для любого A G $ 7(AD+)^0, j(AD~)^0. Доказательство. Покажем сначала, что существует множество D G 5, на котором j(A) достигает своей верхней границы. Пурть В„ 6 5 - такая последовательность, что j(Bn) —► Г = sup7(^)- А Положим В = (jBk и рассмотрим для данного п разбиение В на 2П мно- п жеств Б„?т, т— 1,..., 2П, вида П В'к, где В'к = Вк или В - Вк, к ^п. При п < N к=\ каждое Впт представляет собой конечную сумму множеств £дг,м» 1 ^ М ^ 2N. Обозначим Dn сумму всех тех ВПуТП, на которых i{Bn,m) ^ 0. Тогда j(Bn) ^ l{Dn). С другой стороны, при N > п каждое BNyM либо лежит в Dn, либо не пересекается с ним. Поэтому 7(Ai) ^ l{Dn + Dn+X + ... + DN). 00 Отсюда следует, что для множества D = lim |J Dk выполняется j(Bn) ^ fc=n j(D), Г ^ j(D). Вспоминая определение Г, получаем j(D) = Г. Таким образом, существование множества D, на котором ^y(D) максимально, доказано. Покажем теперь, что для любого A G 3 выполняется j(AD) ^ О и j(AD) ^ 0, где D = П - D. Действительно, допустив, например, что j(AD) < О, мы придем к противоречию, так как тогда l(D - AD) = -y(D) - -y(AD) > 7(£>).
440 Приложение 3. Интегрирование Аналогично, допустив *y(AD) > 0, мы получили бы <y(D + AD) = j(D) + j(AD) > j(D). Нам остается положить D+ = £>, jD~ = £>. ■ Следствие 1. Любая обобщенная конечная мера 7 представима в виде 7 = 7+ ~~7~ > где 7± ~ неотрицательные конечные меры. Для доказательства достаточно положить TV) = ±г/(А1?), где jD* — множества из теоремы Хана о разложении. Вернемся к доказательству того, что мера \ic в равенстве (19) сингулярна. Пусть D„ — множества в разложении Хана для обобщенной меры 1 4>n = V>c А. п Обозначим N = f]Dn • Тогда N = {JD+ и при всех п и А € # 0 ^ fic(AN) ^ -X(AN). п Отсюда, полагая п —> со, получаем fic(AN) = 0 и, следовательно, /*с(^) = Pc(AN). То есть множество ЛГ является носителем /ас. Далее, так как ра(А) = ii(A) - fic(AN) ^ fi(A) - pc(ADi\ то I(/' + -Id*) dX = fia(A) + -А(А/>+) ^ /х(А) - <pn(AD+) ^ fi(A). J \ n J n A Это означает, что /' -f \/nID+ E Ф и, следовательно, a > / (/' + -*»:) dX = <* + -а(дГ). J \ n / n Отсюда вытекает, что X(D„) — 0, A(iV) = 0 и, значит, fic сингулярна относительно А, поскольку N есть носитель \ic. Единственность разложения fi = \ia + \ic может быть установлена следующим образом. Допустим, что fi — р!а + р!с — некоторое другое разложение. Тогда j = Ра — Ра = 1*>с — Рс- В силу свойства сингулярности существуют множества N и N' такие, что fic(N) = 0, X(N) = 0, fi'c(N') = 0, X(N') = 0. Очевидно, X(D) = 0, где D = N -f N'. Если допустить, что 7 = /j'a - fia = fic - \j!c Ф 0, то найдется ^4 € #, при котором j(A) Ф 0. Следовательно, либо j(AD) Ф 0, либо l(AD) Ф 0. Однако первое невозможно, поскольку X(D) = 0 влечет за собой fi'a(D) = pa(D) = 0. Второе также невозможно, поскольку D = N N и, следовательно, fJ,c(D) = p!c(D) = 0. Единственность функции / (с точностью до А-эквивалентности), вытекает из того, что равенства ца(А) = J f dX = f f'dX, J(f - f) dX = 0 для всех А влекут за AAA собой равенство / —/' = 0 п. в. Если допустить, например, что А(^4) > 0 для А = {и: /-/'>£:}, то для такого А мы получили бы /(/ — /') dX > 0. ■ А
§ 6. Слабая сходимость и сходимость по вариации 441 Одним из наиболее существенных приложений теоремы Радона—Никодима является доказательство существования и единственности условных математических ожиданий. Пусть #0 есть а-подалгебра £ и f — случайная величина на (П,^, Р) такая, что Ef существует. Мы определили в §4.8 условное математическое ожидание Е (£/£()) величины f относительно 5о как Зх)-измеримую случайную величину 7, для которой Е{Т,В) = ЕЦ;В) (20) при любом В € #. Можно считать, не ограничивая общности, что £ ^ 0 (произвольная функция f представима в виде разности двух положительных). Тогда правая часть в (20) будет мерой на (П,^)- Так как Е(£;£) = 0, если Р(В) — 0, то она будет абсолютно непрерывной относительно Р. Это влечет за собой по теореме Радона— Никодима существование единственной с точностью до Р-эквивалентности функции 7 на (0,3^) такой, что для всякого В Е #() Е{^В) = J1dP. в Полученное соотношение, очевидно, эквивалентно (20) и устанавливает требуемое существование и единственность условного математического ожидания. Другое следствие доказанных в этом параграфе утверждений упоминалось в § 3.6 и касалось теоремы Лебега о том, что любое распределение Р на прямой Ж = (-со, со) (или соответствующая функция распределения) единственным образом представимо в виде суммы трех компонент Р = Ра + Рс + Ра> где компонента Ра абсолютно непрерывна относительно меры Лебега: Ра(^) = / f(x)dx; Рд — А дискретная компонента, сосредоточенная на не более чем счетном множестве точек xi,X2,... таких, что Р(ж&) > 0; компонента Рс имеет носитель лебеговой меры 0 и непрерывную функцию распределения. Это есть прямое следствие теоремы Лебега о разложении. Надо только из сингулярной компоненты распределения Р (относительно лебеговой меры Л) выделить дискретную ее часть, удалив сначала все точки х, для которых Р({х}) ^1/2, затем все точки х, для которых Р({х}) ^ 1/3 и т.д. Ясно, что мы получим при этом не более чем счетное множество ж-в и что такое выделение дискретной компоненты определяет Р^ однозначно. Все сказанное, очевидно, сохранится и для распределений в п-мерных евклидовых пространствах Rn. § 6. Слабая сходимость и сходимость по вариации распределений в произвольных пространствах 1. Слабая сходимость. В §6.2 и §7.6 мы изучали слабую сходимость распределений случайных величин и случайных векторов, т. е. слабую сходимость распределений в Efc, к ^ 1. Теперь мы хотим ввести понятие слабой сходимости в более общих пространствах X. Как показывают определения в §6.2, нам понадобится понятие непрерывных функций f(x) на X. Это возможно, если только пространство X наделено некоторой топологией. Для простоты мы ограничимся ситуацией, когда пространство X является метрическим с метрикой р(х,у). Итак, пусть дано измеримое пространство (Л^ЯЗ) с метрикой р, которая «согласована» с сг-алгеброй 03, т.е. все открытия множества из X (относительно метрики р) принадлежат 03 (ср. с § 15.1), так что любой непрерывный (относительно р) функционал
442 Приложение 3. Интегрирование будет измеримым относительно 03. Это означает, что если на (#,03) задано распределение Q (т.е. задано вероятностное пространство (^,03,(2), то {х : f(x) < t} Е 03 для любого t и определена вероятность этого множества. Пусть теперь (П,^, Р) — исходное вероятностное пространство. Измеримое отображение f = £(w) пространства (Г2,5) в (#,03) называется Х-значным случайным элементом. Это отображение может быть и тождественным, если (П,^) = (#,03). Пространство (#, 03) называют выборочным или фазовым для случайного элемента f. В этой ситуации /(f) будет случайной величиной в (#,03). Определение 1. Пусть на (#, 03) заданы распределение Р и последовательность распределений Рп. Говорят, что последовательность Рп слабо сходится к Р : Рп => Р, если для любого непрерывного, ограниченного функционала / (/ Е Сь(#)) J f(x) dPn(x) - У /(х) dP(x). (21) Если случайные элементы, соответствующие распределениям Рп и Р обозначить, соответственно, fn и f, то (21) эквивалентно Е/(6.) - Е/(0. (22) Это, в свою очередь, эквивалентно тому, что для любого непрерывного функционала /(/ Е С(Х)) /(6.) => /(О- (23) Действительно, (23) означает, что для любой непрерывной офаниченной функции g (g е СЬ(Щ) Ед(/(6.)) -> Ед(/(0), (24) что эквивалентно (22). Если X = Х(Т) есть пространство вещественнозначных функций x(t), t eT, на параметрическом множестве Т, и задано измеримое отображение £(ш) основного вероятностного пространства (П,#, Р) в (#, 03), то случайный элемент £(ш) = f (о>,£) будет случайным процессом (см. § 17.1), если {х : x(t) < и} Е 03 при всех t,u. В этом случае речь в (21)—(24) будет идти о слабой сходимости распределений случайных процессов, которая уже изучалась нами в гл. 19. В метрическом пространстве X для любого А Е X определена граница дА = [А] - (А), где [А] — замыкание множества А, (А) — его внутренность ((А) = X - [А], А — дополнение к А). Определение. 2 Множество А называется множеством непрерывности распределения Р, (Р-непрерывным множеством), если Р(дА) = 0. Класс всех Р-непрерывных множеств обозначим <2)р. Имеет место следующий критерий слабой сходимости распределений. Теорема 4. Следующие 4 условия эквивалентны (i)Pn=>P, (ii) lim Pn(A) = Р(А) для всех А^Г3Р, п-*оо (iii) lim sup Pn(^) ^ P(^) для всех замкнутых множеств F С X, п—*оо (iv) lim inf Pn(G) ^ P(G) для всех открытых множеств G С X.
§ 6. Слабая сходимость и сходимость по вариации 443 Отметим, что если Рп => Р, то сходимость (21)—(23) имеет место для более широкого класса функционалов чем Сь(Х) (С(Х)), а именно, для так называемых Р-непрерывных функционалов (или непрерывных с Р-вероятностью 1). Мы будем называть так функционалы /, для которых f(xn) —► f(x) при р(хп,х) —> 0 не для всех х Е X, а лишь для х Е А, Р(А) = 1. Класс Р-непрерывных функционалов мы будем обозначать Ср(Х). Классы <3р и Ср(Х), а также классы всех замкнутых и открытых множеств, фигурирующих в теореме 4, являются очень широкими, что делает проверку условий теоремы 4 делом весьма трудным и неудобным. Эти классы можно значительно сузить, если рассматривать не произвольные последовательности Рп, а лишь секвенциально компактные (из любой подпоследовательности Р'п можно выбрать сходящуюся. Такой подход мы уже использовали в §6.3). Определение 3. Говорят, что класс & множеств из 03 определяет меру Р, если какова бы ни была мера Q, равенства Р(А) = Q(A) для всех А Е &&Р влекут за собой Q = Р. Класс ^ определяет меру Р, если ^ есть алгебра и а(&&р) = 03 ;г (условие а{&) = 03 ;г недостаточно (см. [4]). Аналогично вводится класс Ф функционалов /, определяющих распределение Р элемента f = £р : для любого Q совпадение распределений /(£Р) и /(£^) для / Е ФСр(Х) влечет за собой Р = Q. а-алгебру 03 пространства X мы будем обозначать, где это потребуется, 03^. Теорема 5. Для сходимости Р„ => Р необходимо и достаточно, чтобы 1) Последовательность Рп была секвенциально компактной; 2) Существовал класс событий &) С 03^, определяющий меру Р такой, что Рп(А) —> Р(4) для каждого А Е Я)Я)р. Альтернативой условию 2) может быть существование класса функционалов Ф, определяющего меру Р такого, что P(/(fn) < t) => P(/(f) < t) для всех / Е ФСР(Х). При выяснении условий компактности {Рп} важную роль играет понятие плотности {Рп}- Определение 4. Семейство распределений {Рп} на X называется плотным, если для любого е > 0 существует компакт К = К£ С X такой, что Рп(К) > 1 - е при всех п. Справедлива следующая Теорема 6 (Прохоров). Если семейство {Рп} плотно, то оно секвенциально компактно. Если X — полное сепарабельное пространство, то верно и обратное утверждение. Так как компакты для многих функциональных пространств (в частности, пространств С(0,Т), £>(0,Т)), явно описаны, то мы получаем возможность исследовать условия сходимости Рп => Р в этих пространствах. Хорошо известно, например, что в этих пространствах компакты имеют вид множеств {х : о>д(ж) ^ е(А)}, где о>д(ж) — так называемый «модуль непрерывности» (соответственно в пространствах С или D), е(А) ^ 0 — любая функция такая, что е(Д) I 0 при при Л I 0. Доказательства теорем 4-6 можно найти, например, в [1]. Мы не приводим их здесь, так как они выходят в какой-то мере за рамки этой книги, а с другой стороны, сами эти теоремы в полном их объеме в основном тексте книги не используются. Используются лишь специальные случаи этих теорем, изложенные в §§6.2, 6.3.
444 Приложение 3. Интегрирование Принцип инвариантности в §17.1 является теоремой о слабой сходимости распределений в пространстве С(0,1). Если для доказательства этой теоремы использовать теоремы 5, 6, то в качестве класса <3) следует выбрать класс цилиндрических множеств. Сходимость Р„ к Р на множествах из такого ^ есть сходимость конечномерных распределений процессов sn(t), порожденных суммами случайных величин (см. §17.1). Так как приращения sn(t) по сути независимы, то доказательство этой части теоремы сводится к доказательству асимптотической нормальности этих приращений, что немедленно получается из центральной предельной теоремы. Условие компактности семейства распределений в С(0,1) требует доказательства, согласно теореме 6, сходимости по вероятности к нулю модуля непрерывности траектории sn(t) (подробнее см., например, в [1]). Это может быть доказано с помощью неравенства Колмогорова в следствии 10.3. 2. Сходимость по вариации. Итак, если мы рассматриваем слабую сходимость распределений в пространствах общей природы (Л*, ЯЗ), то для этого в этом пространстве необходимо введение топологии, а это не всегда удобно и возможно. Существует другой вид сходимости распределений на (;Г,ЯЗ), не требующий введения топологий. Это есть сходимость по вариации. Определение 5. Пусть j — обобщенная конечная мера на {X, ЯЗ). Вариацией j (или нормой ||71| по вариации) называется число = Var7 = sup /:|/I<1 Jf(x)dj(x)\, (25) где sup берется по классу всех ЯЗ-измеримых функций f(x) таких, что |/(ж)| ^ 1. Ясно, что sup в (25) будет достигаться, грубо говоря, на таких /, что f(x) = 1 в точках х, для которых dj(x) > 0 и f(x) = -1 в точках х, для которых dj(x) < 0. Поэтому (25) можно записать в виде IMI /|*7(*)|. (26) Точный смысл этому выражению можно придать с помощью теоремы Хана о разложении (см. следствие 1), из которой следует, что 1М1=7+(*)+7~(<*г (27) Правую часть этого равенства и надо принять за определение / | dj(x)\. Лемма 6. Если j(X) — 0, то Ц7Ц = 2 sup j(B). веъ Доказательство. Из (25) следует, что для любого В (В — дополнение к В, 7(В) + 7(B) = 0) 1Ы1^17(В)| + |7(В)|=2|7(В)|. Поэтому ||71| ^ 2 sup |7(B)|. веъ Чтобы получить обратное неравенство, воспользуемся следствием 1 теоремы Хана о разложении. Как мы уже отмечали, согласно этой теоремы (определение множеств D± см. в теореме Хана) IMI = 1+(Х) + Г(Х) = 1+(D+) +r(D+) = 7(D+)-7(D+) = 2j(D+) < 2 sup 7(B).
§ 6. Слабая сходимость и сходимость по вариации 445 Определение 6. Пусть даны распределение Р и последовательность распределений Рп, п = 1,2,..., на (#,93). Мы будем говорить, что Рп сходится к Р по вариации: Рп —> Р, если ||РП — Р|| = Var(Pn — Р) —> 0 при п —> со. Var Сходимость по вариации является весьма сильной формой сходимости. Если (X, 03) является метрическим пространством и Рп —► Р, то Р„ => Р. Действительно, Var так как функционал / Е СЬ{Х) ограничен: |/(ж)| < 6, то | J f(dPn - dP)\ ^ bJ\d{Pn - Р)| = 6||Pn - Р|| - 0. Таким образом, здесь J f dPn —> J f dP даже без условия непрерывности /. Обратное утверждение о сходимости Рп—>Р, если Рп => Р, не верно. Var Пусть, например, X = [0,1J, Рп есть равномерное распределение на множестве точек {0,1/п,... ,п/п}, Р = Uo,i. Ясно, что все Рп сосредоточены на счетном множестве М всех рациональных чисел. Стало быть, Рп(ЛГ) — 1, Р(-^0 = 0> 1|РП-Р|| = Р„(Л0 + Р(Д'\Л0 = 2. Пусть теперь распределение Р имеет плотность р относительно некоторой меры р (можно взять, в частности, р = Р, так что р(х) = 1). Обозначим рп плотность (относительно р) абсолютно непрерывной компоненты PJJ (относительно р) распределения Рп. Теорема 7. Для сходимости Рп —► Р необходимо и достаточно, чтобы рп Var сходилась к р по мере р, т.е. для любого е > 0 р{х : \рп(х) - р(х)\ > е} —> 0 при п —> со. Доказательство. Имеем J \d{Pn - Р)| = у |pn - p|/i(£te) + VarPS, где Р£ — сингулярная компонента Рп относительно меры р. Пусть ||РП — R|| —^ 0. Тогда / \Рп - р\ dp —> 0, р{х : |рп(ж) - р(ж)| > е} ^ е [ J \рп -p\dp -> 0. (28) »ь Рп-^Р- Обозначим Ве = {ж :р(ж) ^е}, Лп,е = {ж: |р„(ж)-р(ж)| ^ е2}. Пусть теперь рп-^Р- Обозначим „, = 1Ж . уу„ * Ч, Лп,е = t* . „ww - R*;i ^ Г2 Тогда Рассмотрим 1 > J pdp>ep{Be), p(B£)^ -. J\Pn-p\dp= / + / • (29) Я^»,* Bf4n.f
446 Приложение 3. Интегрирование Здесь первый интеграл в правой части не превосходит е. Так как lim Г pdu —► 1, то для заданного <5 > 0 и достаточно малых е будет выполняться f pdfi > 1 - <5, и при достаточно больших n sf / p<fyi > 1 - 2<5, / рп dp, > 1 - 3<5. (30) Из этих двух неравенств следует, что второй интеграл в (29) не превосходит 5<5. Это доказывает (28). Кроме того, из (30) следует, что VarP£ > 1 - 3(5, VarPJj < 3(5. Теорема доказана. ■ Из теоремы вытекает, что если Рп—>Р, то абсолютно непрерывная ком- Var понента Рп распределения Рп относительно \i — Р имеет плотность рп(х)-^\,
Приложение 4 Теоремы Хелли и Арцела—Асколи Пусть & — класс всех функций распределения и /7 — класс функций G, которые обладают свойствами F1,F3 §3.2 (монотонность и непрерывность слева) и свойствами G(-oo) ^ 0, G(oo) ^ 1. Будем писать Gn => G, G Е &, если G„(x) —> G(x) во всех точках ж непрерывности функции G. Теорема Хелли. Всякая последовательность Fn e &~ содержит подпоследовательность Fnn => F € .<7. Нам понадобится Лемма 1. Для сходимости Fn => F Е ^7 достаточно, чтобы Fn(x) -> F(z), xeD, при п -^ оо на каком-нибудь всюду плотном множестве D вещественных чисел. Доказательство. Пусть х — произвольная точка непрерывности F(x). Для произвольных х'ух" Е D таких, что х' < х ^ х", выполняется Fn(x')^Fn(x)^Fn(x"). Следовательно, lim Fn(x') ^ lim inf Fn(x) ^ lim supFn(x) ^ lim Fn(x"). n—юо n—»oo n—куэ n—*oo В силу условий леммы получаем отсюда F{x) ^ lim infFn(x) ^ lim supFn(x) ^ F(x"). n—»oo n—»oo Полагая ж' | ж и ж" j ж по множеству D и учитывая, что х — точка непрерывности F(x), получим: lim Fn(x) = F(x). п—*оо ■ Доказательство теоремы. Пусть D = {жп} — произвольное счетное всюду плотное множество вещественных чисел. Последовательность чисел {Fn(x\)} ограничена и поэтому содержит сходящуюся подпоследовательность {F[n(x\)}. Обозначим предел этой подпоследовательности F(x\). Рассмотрим теперь последовательность чисел {F\n(x2)}. Она также содержит сходящуюся подпоследовательность {i*2n(#2)} c пределом F(x2). При этом Hm F2n(x\) = F(xi). П—ИХ) Продолжая этот процесс, мы для любого числа к получим А: последовательностей {Fkn(xi)}y i = l,...,fc, таких, что lim Fkn(xi) = F(x{). n—>oo
448 Приложение 4. Теоремы Хелли и Арцела—Асколи Рассмотрим диагональную последовательность функций распределений {Fnn(x)}. Для любого Xk Е D только к - 1 первых членов последовательности чисел {Fnn(xk)} могут не принадлежать последовательности Fkn(xk). Поэтому lim Fnn(xk) =F(xk). п—*оо Ясно, что F(x) есть заданная на D неубывающая ограниченная функция. Ее легко продолжить по непрерывности слева до неубывающей функции на всей прямой. Теперь видно, что последовательность {Fnn} и функция F удовлетворяют условию леммы 1. ■ Условия теоремы Хелли могут быть ослаблены. Именно, в качестве F можно рассматривать более широкий класс Ж монотонных, непрерывных слева (т.е. удовлетворяющих F\^F^) функций Н, ограниченных в каждой точке х : |#(ж)| ^ N(x) < со, где N — заданная функция, характеризующая класс Ж. Неограниченный рост \Н(х)\ (или N(x)) при |ж| —> со не исключается. Обобщенная теорема Хелли. Всякая последовательность Нп Е Ж содержит подпоследовательность Нпп, сходящуюся к Н Е Ж в каждой точке непрерывности Н. Доказательство обобщенной теоремы Хелли полностью повторяет доказательство, приведенное выше. ■ С каждой функцией Нп Е Ж можно ассоциировать меру fin, положив /*п([а,Ь)) = Нп(Ь) - Нп(а). Обобщенная теорема Хелли будет означать тогда существование для любой последовательности р,п, порожденной функциями из Ж, подпоследовательности мер finn, слабо сходящейся на каждом конечном интервале, концы которого не являются атомами предельной меры fi. Приведем еще один аналог теоремы Хелли, относящийся к совокупности равностепенно непрерывных функций дп. Напомним, что последовательность {дп} называется равностепенно непрерывной, если для каждого е > О найдется 6 > О такое, что из \х\ — х^\ < 6 вытекает \дп(х\) — 9п{^2)\ < е ПРИ все* п- Теорема Арцела—Асколи. Пусть {дп} — последовательность равномерно ограниченных и равностепенно непрерывных функций вещественной переменной. Тогда найдется последовательность дщ, сходящаяся к непрерывному пределу д. Эта сходимость равномерна на каждом конечном интервале. Доказательство. Выберем снова счетное всюду плотное множество {хп} и подпоследовательность {<7пЛ> сходящуюся в точках xi,X2,... . Обозначим ее предел в точке Xj через g(xj). Имеем \9пк(х) - дПг(х)\ ^ \9пк(х) ~ 9nk(xj)\ + \9кЛх) ~ 9k(xj)\ + \9nt(xj) ~ 9nk(xj)l (l) По предположению последнее слагаемое справа сходится к 0 при пк —► со, пг —► со. Вследствие равностепенной непрерывности для любой точки х найдется точка Xj такая, что при всех п \9п(х) - 9n(xj)\ <e (2) Если х принадлежит интервалу /, то в I можно найти конечное число точек Xj таких, что будет выполнено (2). Отсюда вытекает, что правая часть в (1) будет меньше Зе для всех достаточно больших щ, пг равномерно по х Е /. Итак, существует предел д(х) — \\тдПк(х), и в силу (2) справедливо \(д(х) - g(xj)\ ^ е, откуда следует непрерывность д. ■
Приложение 5 Доказательство теоремы Берри—Эссена Докажем следующее утверждение (см. §8.5): Теорема (Берри—Эссен). Пусть & независимы, одинаково распределены, Е£* = О, D& = 1, и = Е|&|3 < оо, 5„ = 53 &> Сп = Sn/y/n. Тогда при всех п си Ап = sup |Р(С„ < х) - Ф(х)\ < -£=, х \/П где с — абсолютная постоянная. Доказательство будет проводиться методом композиций. Основанием для оценки А„ будет, как и в §8.5, оценка малости Eg(£n) - Eg(rj), rj ^ Фо,ь для гладких д. Чтобы получить оценку для Ап, мы в §8.5 выбирали д с изменением, сосредоточенным на малом интервале. Следующая лемма показывает, что такой выбор д не обязателен. Пусть G — какая-нибудь функция распределения, j ^ G и не зависит от £n, rj. Положим g(z) = Gl^-J, так что Ед(£п) = EG(~^4 = Р(7<£^) =p(Cn + £J<x), Eg(r)) = P(ri + ej<x). Обозначим ^-тК^)-^)!- = sup P(Cn + £7 < х) ~ Р(*7 + £7 < х)\ = = sup I [ dG(y)[P(C„ < х - еу) - Р(т? < х - еу)] X I J Очевидно, что А„?е ^ Ап. Нашей целью будет получение обратного для Ат неравенства. Лемма 1. Пусть v > О таково, что G(v) — G(—v) ^ 3/4. Тогда при любом е > О 3ve Ап ^2Ап,,+ -=. V27T Доказательство. Предположим, что sup в определении Ап достигается на по- X ложительном значении Ап(х) = Fn(x) — Ф(х) (отрицательное Ап(х) рассматривается аналогично), и пусть для заданного б > О значение х$ таково, что Ап(х6) = Fn(x6) - Ф(х6) ^ Ап - б,
450 Приложение 5. Доказательство теоремы Берри—Эссена где Fn — функция распределения (п. При увеличении аргумента значение Ап(х$) меняется мало в следующем смысле. Пусть \у\ < v. Тогда v - у > 0, &п(х6 +e(v-y)) = Fn(x6 +e(v-y)) - Ф(х6 + e(v - у)) ^ ^ Fn(x6) - Ф(х6) - [Ф(х6 + e(v - у)) - Ф(х6)}. Здесь разность в квадратных скобках не превосходит e(v — у)Ф'(О) ^ Ive/y/bt и, значит, 2.VC Ап(х6 + e(v - у)) ^ Ап-б- —=. Поэтому Д„,е ^ / dG(y)An(x6 + ev- ey) = f f ^ Va я 2VS\ l л A" Ъ(, 2v€\ Так как б произвольно, то отсюда следует утверждение леммы. ■ Следствие 1. Для G — Ф (7 ^ 3>o,l) значение v = 6/5 удовлетворяет условиям леммы 1, An^2(An,, + £). (1) В качестве следующего этапа доказательства оценим Ап>с, где, собственно, и используется метод композиций. Обозначим / ч л ^ 2 2 Буквой с (с индексами или без) будем обозначать абсолютные постоянные, не обязательно одни и те же. Лемма 2. При а ^ 1 / 1 аи(п — 1)\ Ап,е ^ с/Л — + Р М. 2 п Доказательство. Пусть Яп = Х^ ^ь % ^ $0,1 и независимы. Основу метода к=\ композиций составляет тождество (ср. с теоремой 8.6 и тождеством (8.20)) Р(Сп + Н < х) - Р(г) + 67 < х) = P(Sn + cry < ху/п) - Р(Нп + а-у < ж>/п) = п = Х^ [Р С5"-' + (Я« _ Я">) + 6» + "7 < хл/п ) - 171=1 / _ + (Яп-Яш) + т/т + а7 <ж>/п)|. Так как при 7 ^ $0,1 выполняется Нп - Нт + aj ^ $o,n-m+a2> ТО последняя сумма п равна X) An, где m=l
Приложение 5. Доказательство теоремы Берри—Эссена 451 ,2 , 2 гг ху/п- 5m_t 4 Для оценки слагаемых Dm воспользуемся тем же подходом, что и в лемме 8.3. Так как первые два момента £т и rjm совпадают, то, пользуясь разложением в ряд, получим \Dm\^?£supEtp"(Tn + t), dm t где tp(x) = Ф'(ж), <р" = Ф'". Так как функция у?" ограничена, то 1А»1 < 5- <3> Нам понадобится также другая оценка Dm. Чтобы ее получить, рассмотрим sup |E [<p"(Tm + t)- (p"(Vm + t)] | + sup lEy/'^m +1) |, (4) где Vm определяется так же, как Tm, но с заменой 5m_i на Нт_\. Интефированием по частям получаем |Е [рп(Тп + t) - <p"(Vm + tj\ | = I J <p"(u + t)d[P(Tm <u)-P(Vm< u)] | J <p"'(u + 0 [Р(Гга < u) - P(Vm < u)] du\ ^ Am_! f <p"'(u) du = cAm_b поскольку |P(Tm < u) - P(Vm < u)\ ^ Am_i (Tm и Vm отличаются от Sm-\/Vm - 1 и Hm-.\/Vm — 1, соответственно, одним и тем же линейным преобразованием). Для оценки второго слагаемого в (4) заметим, что E<p"(Vm + 0 = / /(и + 0 - ^(^^) du, где dm ' га - 1 п - га + а 2' так что l/rm<p( ^^-^Л есть плотность Vm = (xy/n- Hm_\)/dm. Интефируя два раза по частям, находим Итак |E^"(Vm + 0| = 4 I / <Р(и + *)¥>(——) <*" jRm ^ с( Am_! + — J, Dm^cfi с rv+ 1)3/2 ) • Полученные оценки Dm от ж не зависят. Поэтому, используя при га > п/2 только что полученную оценку, а при га ^ п/2 — оценку (3), в силу которой \Dm\ ^ cfi/n?l , получим 1 АПу£ ^ с/г Еп-з/2+Е^1+Е Sn^n/2 m>n/2 m>n/2 (га- l)3/2 (5)
452 Приложение 5. Доказательство теоремы Берри—Эссена Здесь первая сумма на превосходит п/2п 3/2 = 1/(2\/п), последняя не превосходит / 4$2 ^ с/у/п. Остается оценить среднюю сумму (и(п) = ma.x(AkVk)/fij : n/2-l Е -izi^^(7i-1)v- Е /Л dm ^ V 71 ^—' (п - 771+ а2)3/2' m>n/2 m m>n/2 v ' Последняя сумма не превосходит ^ 1 1 f _Л___ 1 ^ 1 ^ 3 Ц( (Л + а2)3/2 ^ ^ + У (* + а2)3/2 ~~ "~~ ^~~ о если а ^ 1. Резюмируя (5) и проведенные оценки, получим утверждение леммы. ■ Обратимся теперь непосредственно к доказательству теоремы. В силу (1), (2) , ч Апу/п 2 _ 2а 2сии(п - 1) 2а v(n) = -^— ^ -ч/тТА^ + — ^ 2с + —*—* '- + —. fi fi fi а \i Положим здесь а = тах(1,4с/*). Тогда (fi ^ 1) ti(n + 1) v(n) ^ сх + 7. Отсюда вытекает, что и(п) ^ 2ci при всех п. Чтобы убедиться в этом, воспользуемся индукцией. Очевидно, что и{\) = v(\) ^ 1 ^ 2q. Пусть и(п - 1) ^ 2ci. Тогда v(n) ^ 2ci, и(п) = max(v(n),u(n - 1)) ^ 2ci. Теорема доказана. ■
Приложение 6 Теоремы восстановления Основной целью этого раздела является доказательство теоремы 4 гл. 9 — основной теоремы восстановления для нерешетчатого случая. Будут рассмотрены также ее уточнения и обобщения. Рассмотрим сначала положительные одинаково распределенные случайные величины £j с функцией распределения F, а = Е^ < оо. Здесь нам будет удобнее под функцией восстановления понимать ее непрерывную слева версию 00 H(t) = ^2F*k(t), t>0, fc=0 где F*k — fc-ая свертка функции распределения F, являющаяся функцией распределения Sfc = f i + ... + &. Теорема 1. Если д — непосредственно интегрируемая функция (см. гл. 9), то t 00 / g(t - и) dH(u) —> - I g(v>) du. 0 0 Для доказательства теоремы, которое в целом будет следовать пути, предложенному в [22], нам понадобятся несколько вспомогательных утверждений. Лемма 1. Пусть g — измеримая ограниченная функция. Интеграл t G(t) = I g(t- и) dH(u) = g * H(t) (1) о является единственным решением уравнения t G(t) = g(t) + I G(t- u) dF(u) = g(t) + G * F(t) (2) о в классе функций, ограниченных на конечных интервалах. G = Н является решением (2) при g = 1. G = 1 является решением (2) при g = 1 — F. Уравнение (2) называется уравнением восстановления. Как уже отмечалось в теореме 9.4, с функциями Н и F очевидным образом можно ассоциировать меры Н и F, и интегралы в (1), (2), записывать, соответ- t t ственно, как интегралы по мере J g(t — u)H(du) и J G(t — u)F(du). 0 0
454 Приложение 6. Теоремы восстановления Доказательство леммы 1. Положим п Яп(0 = $>**(*)• k=0 Функции Gn — д * Нп удовлетворяют уравнению Gn+\ = д + G„ * F и образуют монотонно возрастающую последовательность Gn T, которая в силу леммы 9.2 ограничена. Поэтому Gn T G и, переходя к пределу в уравнении для G„, получим, что G удовлетворяет (2). Для доказательства единственности заметим, что разность V = G(l) _ G(2) для двух решений G^ ' и должна удовлетворять однородному уравнению V — V * F и, стало быть, соотношениям V = V * (Fk*) или, что то же, V(t)= IV(t-u)dF*k(u). О Но F*k(u) —> 0 при А: —> со на [0,$]. Так как по условию \V(u)\ < с на [О,*], то V(t) —> 0 при А: —> со. Так как V от А: не зависит, то V(t) = 0. Последнее утверждение леммы проверяется непосредственно. ■ Отметим, что если бы мы рассматривали функции д ограниченной вариации, то утверждение леммы 1 немедленно следовало бы из уравнения для преобразования оо Лапласа—Стилтьеса G(X) = J e~xt dG(t), вытекающего из (2): 0 G(\)=g(\) + G(\)<p(\), (3) 00 00 где (7(A) = / e~xt dg(t), (р(Х) = J e~xt dF(t). Действительно, из (3) следует О О Г(\\ - ^Л) G(A)-rr^)> что эквивалентно (1). Мы будем говорить, что точка t является точкой роста функции распределения F, если F(t + e)- F(t) > О при любом е > 0. Лемма 2. Пусть распределение F нерешетчато и Z есть множество, образованное точками роста Н, т.е. точками роста F,F* , F* ,.... Тогда Z «асимптотически плотно на бесконечности», то есть для любого заданного е > О и всех достаточно больших х пересечение (х,х + е) Г) Z не пусто. Доказательство. Заметим предварительно, что если t\ — точка роста распределения F\ случайной величины f, a t2 — точка роста распределения Fi случайной величины £, то t = t\ + t2 будет точкой роста распределения F\ *F2 величины f-f £. Действительно, для независимых f и £ Р(t^ £ + С < t + е) > Р (*i ^ £ < *i + £-) Р (t2 ^ С < h + |). Пусть далее х < у — две точки множества Z и А = у — х. Имеет место альтернатива: 1) Либо при каждом е > О можно найти х и у такие, что А < е. 2) Либо существует 6 > О такое, что А ^ 6 при всех х и у из Z.
Приложение 6. Теоремы восстановления 455 Обозначим 1п = [жп, уп]. Если пА > х, то этот интервал содержит [пх, (п+1)ж] в качестве подинтервала и, следовательно, любая точка v > vq = x /А принадлежит по крайней мере одному из интервалов I\yl2, . В силу сделанного выше замечания (п + 1) точек пх + А; А = (п - к)х + ку, к = 0,...,п, принадлежат Z и разбивают 1п на п подинтервалов длины А. Это значит, что всякая точка v > vq удалена от точек из Z не более чем на А/2. В случае 1) отсюда вытекает утверждение леммы. В случае 2) можно считать, что х и у выбраны так, чтобы А < 26. Тогда точками вида пх + кА исчерпываются все точки из Z, лежащие внутри 1п. Так как точка (п + \)х находится среди этих точек, то х кратно А, и все точки Z внутри 7„ кратны А. Пусть теперь z — произвольная точка роста F. При достаточно большом п интервал 7„ содержит точку вида z + А:А, а так как она принадлежит Z, то z также кратно А. Таким образом, распределение F является решетчатым и случай 2) в наших условиях не может иметь места. ■ Лемма 3. Пусть q — ограниченная равномерно непрерывная функция, определенная на (—со, со) и такая, что q(x) ^ g(0) при всех х, 00 q(x) = f q(x-y)dF(y). (4) О Тогда q(x) = q(0). Доказательство. Уравнение (4) означает, что q — q * F = ...g* F*k при любом к ^ 1. Правая часть (4) не превосходит д(0) и, стало быть, при х = О равенство (4) возможно, если только q(—у) = q(0) для всех у G Zk, где Zj. — множество точек роста F*k, и, стало быть, для всех у Е Z. В силу леммы 2 и равномерной непрерывности q это означает, что q(—у) —> д(0) при у —> со. Далее, для произвольно большого заданного N можно выбрать А: таким образом, что q(x) оо будет сколь угодно близким к / q(x-y) dF*k(y), поскольку F*k(N) —> 0 при А: —> со. N Это означает, в свою очередь, что q(x) будет близко к д(0). Так как q(x) ни от N, ни от к не зависит, то q(x) = q(0). m Лемма 4. Пусть g — непрерывная функция, обращающаяся в 0 вне отрезка [О, Ь]. Тогда соответствующее g решение G уравнения восстановления (2) равномерно непрерывно, и для любого и G(x + и) - G(x) -+ 0 (5) при х —> со. Доказательство. Имеем в силу леммы 9.3 . х+6 \G(x + 6)- G(x)\ = J (g(x + 6-y)-g(x- у)) <LH(y)\ < ^ max \g(x + 6)-g(x)\(c\+c2(b + 6)). (6) O^.x^.b+6 Это означает, что равномерная непрерывность g влечет за собой равномерную непрерывность G.
456 Приложение 6. Теоремы восстановления Допустим теперь, что д имеет непрерывную производную д'. Тогда G' существует и удовлетворяет уравнению восстановления х G'(x) = д'(х) + JG'(x - y)dF(y). О Это означает, что производная G' ограничена и равномерно непрерывна. Пусть lim sup G'(x) = s. x—>oo Выберем последовательность tn —> со такую, что G'(tn) —> s. Семейство функций qn, определенных равенствами qn(x) = G'(tn + x), равностепенно непрерывно и X+tn 00 qn(x) = g'(tn + х) + J qn(x - у) dF(y) = g'(tn + x) + J qn(x - y) dF(y). (7) 0 0 В силу теоремы Арцела—Асколи (см. Приложение 4) существует подпоследовательность tnr такая, что qHr сходится к пределу q. Из (7) следует, что этот предел удовлетворяет условиям леммы 3 и поэтому q(x) — q(0) = s при всех х. Таким образом, G'(tnr -f x) —> s при всех х и, стало быть, G(tnr + х) - G(tnr) -> ex. Поскольку это верно при любом х, а функция G ограничена, то 5 = 0. Мы доказали лемму для непрерывно дифференцируемой д. Но произвольная непрерывная функция д, равная 0 вне [0,6], может быть приближена непрерывно дифференцируемой функцией д\, обращающейся в 0 вне [0,6]. Пусть G\ — соответствующее #i решение уравнения восстановления. Тогда из \д — д\\ < е следует \G - G\\ < се, с — с\ -f cjb (см. лемму 9.3) и, стало быть, \G(x + u)-G(x)\ <(2c+l)e при всех достаточно больших х. Это доказывает (5) для произвольной непрерывной функции д. ш Доказательство теоремы 1. Рассмотрим произвольную последовательность tn —► со и меры fin, порожденные функциями Н<п\(и) = H(tn+u)—H(tn) (/^n([w,v)) = H(n\(v) — Н<п\(и)). Эти функции удовлетворяют условиям обобщенной теоремы Хелли (см. Приложение 4). Поэтому существует подпоследовательность tnn, соответствующая ей подпоследовательность дпп и предельная мера fi такие, что finn слабо сходится к \i на любом конечном интервале. Пусть теперь д непрерывная функция, равная 0 вне [0,6]. Тогда о G(tnn + ж) = / д(-и) dH(tnn + x + u) = -ь I д(-и) d(H(tnn + x + u)- H(tnn)) -+ / g(u)fi(x + du).
Приложение 6. Теоремы восстановления 457 По лемме 4 тот же предел будет существовать для G(tnn + у). Это значит, что мера fj,(x + du) от х не зависит и, следовательно, /i([u,v)) пропорционально длине интервала (u,v) : /x((xt, г;)) = c(v — и), fi(du) = cdu. Итак, мы доказали, что 00 G(tnn + х) -» с I д(и) du (8) О для любой непрерывной функции, равной 0 вне [0,6]. Но для любой интегрируемой по Риману на [0,6] функции д и заданного е > 0 найдутся непрерывные функции д\ ь и 92 '• 9\ < 9 < 92, равные 0 вне [0,6 + 1] и такие, что /(#2 _ 9\)^и < £• Это о означает, что сходимость (8) справедлива также для любой интефируемой по Риману функции, равной 0 вне [0,6]. Рассмотрим теперь произвольную непосредственно интефируемую функцию д. В силу свойства 2) этих функций (см. определение 9.4) можно так выбрать 6 > 0, что для функции ) при и ^ 6, при и > 6, правая и левая части в (8) будут сколь угодно мало отличаться от таких же выражений, соответствующих исходной функции д (для правой части это очевидно, для левой следует из того, что t-b mv = {#%) Jg(t - s)dH(s) - f 9{b){t - s)dH(s)\ = \jg{t- s)dH(s) о ' I о ^ ^2 (q + c2)gk -► 0 *>&-! при b —у oo (см. лемму 9.3)). Поэтому (8) доказано для любой непосредственно интефируемой функции д. Полагая д = 1 — F, мы получим в силу леммы 1 l=cJ(l-F(u))i 1 I du = ас, с = —. а О Таким образом, предел в (8) один и тот же для любой исходной последовательности tn. Отсюда следует, что при t —> со G(t) -> - / д(и) du. О ■ Теорема 9.4 является простым следствием теоремы 1 и рассмотрений, использованных в доказательстве теоремы 9.2А, в которой основная теорема восстановления в решетчатом случае обобщалась на случай разнозначных £,, j ^ 2 и произвольного fi. Мы предоставляем читателю повторить эти рассуждения применительно к нерешетчатому случаю. Приведем еще ряд следствий теоремы 1. В §9.4 мы получили уточнение теоремы восстановления в случае, когда Ш2 = Е£; < со. Подходы, развитые в доказательстве теоремы 1, позволяют получить альтернативное доказательство следующего утверждения, совпадающего с теоремой 9.4А,
458 Приложение 6. Теоремы восстановления Теорема 2. Пусть выполнены условия теоремы 1 и га 2 < со. Тогда t mi а 2а2 0^Я(0-7-^-|. Доказательство. Функция G(t) = H(t) - t/a является решением уравнения восстановления (2), соответствующего функции оо g(t)=l-J(\-F(u))du. оо оо t Так как </ непосредственно интегрируема, то ОО 00 7712 О « Теорема 3 (локальная теорема восстановления). Предположим, что F имеет плотность f = F', и эта плотность непосредственно интегрируема. Тогда Н имеет плотность h — H', h(t) —> - при t —> со. а Доказательство. Обозначим /п(#) плотность 5n = f i + ... + fn. Имеем оо Л(«) = Я'(0 = Y2 /»(*) = f(t) + I h(t- u)f(u) du = f(t) + h * F(t). Это значит, что h(t) удовлетворяет уравнению восстановления с функцией g = f. Поэтому в силу теоремы 1 оо 1 Г 1 М*)-* - / f(u)du= -. a J a О ■ Рассмотрим теперь некоторые обобщения теоремы 1. Функцию </, определенную на (—со,со), мы будем называть непосредственно интефируемой, если непосредственно интегрируемы функции g(t) и g(—t), t^O. Теорема 4. Если выполнены условия теоремы 1 и g непосредственно интегрируема, то G(t) = [ g(t- u)H(du) -> - Г g(u) du. 0 Доказательство получается незначительными и вполне очевидными модификациями рассуждений в доказательстве теоремы 1, главное из которых состоит в том, чтобы вместо функций д, равных нулю вне [0,6], надо теперь рассматривать функции, обращающиеся в 0 вне [-6,6]. ■ Другое обобщение касается второй версии функции восстановления 00 U(t) = ^ F*k(t), -co < t < со, в случае разнозначных ^.
Приложение 6. Теоремы восстановления 459 Теорема 5. Если д непосредственно интегрируема, Е^ = а > 0, то 00 ОО ^(0 = / d(t — u)U(du) —► - / g(u) du при t CO, U(t + и) — U(t) —> 0 л/ш £ —> — со w любом фиксированном и. Доказательство также получается путем некоторой модификации доказательства теоремы 1 (см. также [18]).
о Ю Ю ГО Ю Ю Ю NJ Ю Ю Ю чо Ьо ~-<i Ъ\ Ъ\ V oj "ю 1— "о 40CX)--4<^U»4^OJNJ ^- о о о о о о о о о о о Хо Ъо Vi Ъ\ V» V "oj "ю "J— Ъ> ОО ООООООО.ОООООО, О О О О •— >— *— .— tOtOtOWWW^AOi О OOOOOO»->-MMMU^Uia\00^'-WUi00»-JiNJO-M»M0\O Ю0\и1^ЮЮч1ЮЮ0000Юа\00000000ь-«дч1ь-ЮОЫи)0\^ЧК)О OOOOOOOOOOOOOOOOO*— •— н—н- MNJIOWWW^^^ OOOOOO»-'-H-gM0J^b')0\Nl\0»-WU)00OWvJO^NJ»-U<\0 ^tOUJ^0N00OUN]tO00UlUU»Ui\0UlUUO\»-\000OWO000Na\0\ 00y»^UiOO-t*0\-^N)'-'-a\vJUiWMMU)tO^O\0'OO^U00MO ОЮООООООООООООООООО-— >— ■— .— ЮЮМЫЫЫ^^-^ О OOOOOO»-H-^WtOUJ^U(0\Nl^^UU)NlOUJ0NO(>JNlMU)^ -*Д 00^U^\O00tv>NJOvJ^^N)a\W00^NJ^VO00h-000\UltOUlVOtOO о о о ^^h-^K)NJ|sj|OWW-t»^V OOOOOOOOOOOOOOOOO ._._._._ — _- ^ . OOOOOOO^-^-»fOtoU)4^U»0N^JVOONJV-h-^JO0J0N400J^JO-P»> ►-tow^uiv)vo(oo\^a\Wb-H-wON^-\o\o»-a\wto^oowo^oo Ю ОО ОО о 04^00000000000000000^— •— •— и-WNJhOWWW^^^ О OOOOOOO»-»-MtOU^W0\vl^OWAN)Otoa\^W0\OA00 О н-мы^и1^ЮЮО\00>ЮООм^О^^ЮЫО\Ои-^ООМ'1^^ OJ ONWh-h-UiWONUlOvJW^OVOUiOO^MUi^-tOONUiNjh-asOvOIOWO свя зана о к* о ^ о о 3 X О В X S 2 S ^-^ *■ и ^- i ** о ^ II в о '*~"ч> 1 N Табл s я р ы 2 п» X S » в* 3 Л С S S ■е» о н II я- <--> Л ^ ~^ ю а- е 3 Л Я S & X о 43 s S cr X о -t О 43 Р О а 43 п» 13 О) и п» X 5 & э ^ ^ с: J5 о 5 альное спр § сх> i с сх> и X 5м Я 43 К t=l о а> Я Я а> ^4
Приложение 7. Таблицы 461 Окончание таблицы 1 X Ofi 0,1 0,2 0,3 0,4 0,5 1 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 1 2,9 х = 1 Фо(*) = 5 0,4801 4404 4013 3632 3264 2912 2578 2266 1977 1711 1469 1251 1056 0885 0735 0606 0495 0401 0322 0256 0202 0158 0122 0094 0071 0054 0040 0030 0022 0016 3^5 0,0002 6 1 0,4761 4364 3974 3594 3228 2877 1 2546 2236 1949 1685 1446 1230 1038 0869 0721 0594 0485 0392 0314 0250 0197 0154 0119 0091 0069 0052 0039 0029 0021 0015 3^6 0,0002 7 0,4721 4325 3936 3557 3192 2843 2514 2206 1 1922 1660 1423 1210 1020 0853 0708 0582 0475 0384 0307 0244 0192 0150 0116 0089 0068 0051 0038 0028 0021 0015 3,7 0,0001 8 0,4681 4286 3897 1 3520 1 3156 2810 2483 2177 1894 1635 1401 1190 1003 0838 0694 0571 0465 0375 0301 0239 0188 0146 0113 0087 0066 0049 0037 0027 0020 0014 3,8 0,0001 9 0,4641 4247 3859 3483 3121 2776 2451 2148 1867 1611 1379 1170 0985 0823 0681 0559 0455 0367 0294 0233 0183 0143 ОНО 0084 0064 0048 0036 | 0026 0019 0014 3^9 0,0000 1
462 Приложение 7. Таблицы Таблица 2. Распределение Пуассона Таблица значений функции Yl(x) ~ S Tie к=х X Г 1 2 3 4 5 6 Параметр распределения Л од 0,0952 0047 0002 0000 0,2 0,1813 0175 ООН 0001 0000 0,3 0,2592 0369 0036 0003 0000 0,4 0,3297 0616 0079 0008 0001 0000 0,5 0,3935 0902 0144 0018 0002 0000 0,6 0,4512 1219 0232 0034 0004 0000 Продолжение таблицы 2 X 1 2 3 4 5 6 7 8 9 Параметр распределения Л 0,7 0,5034 1558 0341 0058 0008 0001 0,8 0,5507 1912 0474 0091 0014 0002 0,9 0,5934 2275 0629 0135 0023 0003 1,0 0,6321 2642 0803 0190 0037 0000 1,2 0,6988 3374 1205 0338 0077 0015 0003 0000 1,4 1 0,7534 1 4082 1665 0537 0143 0032 0006 0001 0000 Продолжение таблицы 2 х 1 2 3 4 5 6 7 8 9 10 11 12 Параметр распределения Л 1,6 0,7981 4751 2166 0788 0237 0060 0013 0003 0000 1,8 0,8347 5372 2694 1087 0364 0104 0026 0006 0001 0000 2,0 0,8647 5940 3233 1429 0527 0166 0045 ООП 0002 0000 2,2 0,8892 6454 3773 1806 0725 0249 0075 0020 0005 0001 0000 2,4 0,9093 6916 4303 2212 0859 0357 0116 0033 0009 0002 0000 2,6 0,9257 7326 4816 2640 1226 0490 0172 0053 0015 0004 0001 0000
чо оо 4*> Ui О 4^ -^1 -о LT\ О Ul ON 4^ «О 4*. ON UJ *— ON «O ON «O -О ЧО Ю OO -^1 OO ON U\ OO ON О OO OO ЧО 4^ — Lh О О Ui ЧО ЧО О 4* О ON to о ^ ON OO ON ON «-J ЧО UJ NJ OO ON VO ЧО ЧО Ю -Рь ЧО Ui 4* Ю ЧО -4 4* ON OO О OO OO OO OO 4* <-K> ЧО <-K> Ю ЧО ЧО ON Ю U\ ЧО -4 ЧО -o. ЧО OO VO U) U\ ЧО о о 4^ ЧО 4*. Ui о чо -о о «О ЧО OO 4*. ^о ЧО ЧО to 4*. чо ЧО ON U) 4* ЧО Lh «О. ON ЧО «О. ОО 00 ЧО оо ЧО -4 ЧО ^ Lh о ЧО ^ >о >о ЧО ЧО ЧО о U) ЧО оо ON to \D ЧО <-к> оо ЧО чо ^а to ЧО ЧО ОО ОО ЧО чо ЧО U» о чо ЧО чо оо ю ЧО ЧО -4 о ЧО ЧО ОО оо о ЧО ЧО ЧО LT\ о ЧО ЧО ЧО ОО о ЧО ЧО ЧО ЧО о о о о - о ЧО ЧО ЧО «о о ЧО ЧО ЧО ЧО ^- о о о о _- "о о о о "о о о о ~<=> <=> <=> о X оо о ЧО о о о -~ о ю о yj о я СО о» н р рас а •и п» дел п» ас 5 га > 3 g 1 I CD 2 I 04000-O.ONLft4b.U>tO*— О 4000-OONL^4^0JK>^- O000000b-oju>«040 OOOOOtOONl-ftO<-K>ONOJ ОООЮ004^^Ю00О00Ч0 3 g о 1 з: s CD OOOOOOO*— UJl-rt0040 OOOO*— OJOOOOLft-O.Ol-ft О О •— OJ^-*OJOJ4^tOONOO •— UJ •— 0040Lft40*O000040tO OOOOOOOO*— tOUJl-ft^44040 ООООООЮчУ»"— >— «О. ON ON О ОО О О О О to OO •— ►— О 4*. ►— ON *— OO ■— О >— Ю ЧО ОО ■— 4^n— «О, ЧО to Lft ЧО 4*. ^ OOOOOOOOO*— tOU)U\«0004040 О О О О О О •— UJ0NU>UJ00LftUJ«OLft40 OOOOtO^iOJ^— 00U)«O4^40UiU\40OJ О *— to -О. О Lft -*J OO *— 4^000U»OUJONUJ OOOOOOOOOO*— tOUJl/»«000404040 ОООООООЮ4^00^^чУ1ЧО^^*— 4^.OJ0O4O 0000<— OJOOOtOUJtOONOJ4^4i.OOOOto^J О *— Ю Lft 4*. ON OO *— ON40000^JOJ400000NLTi OOOOOOOOOO*— t04*.l-ftt00040404040 О О О О О О *— tOl/»400N^JOl-ft40tO*— *-4 to ЧО О О О *— tOl/»tO^JUJ00400*— ОЧО^ООООЮЧО О*— 4^04^^J0004^UiLri40U)OJU)Ot04v-vjH- 4* О 43 &э 2 а> H •О ТЗ о э •о l^3 с: I с: о1 §^ , с: J3N О ON
3" L?5 =3 CD 3 I K 0? s X <u e; <u ^ «u Q. 03 a a 03 a C3 С о со" о cn~ о —* о о" ~* о^ ON О оо~ н CN ^" ГО ОО ЧО F"* «П г-* Tl- ON V4 ЧО ^ CN "fr V4 ЧО CN "fr tJ- ГО ОО CN О ГО ОО ■*■ t^ ОО CN Ю ЧО о Т1- v-> О г- Tl- о Tl- ON CN tJ- оо ОО ^О rf чо 4t 00 го in г» о CN Tj- CN ГО О го t^ ЧО ON ON CN ON ЧО ГО v-> О тГ CN Tf ГО го "d- оо о CN CN "Э- CN ОО го чо о го о t^ CN "Э- «п ОО СО г^ ОО CN ч~\ V4 го —« ON ГО г*» о CN Tiro О "Э- ON "fr CN ГО О ОО CN CN О ЧО "Э- U~l го ОО о ч~\ *$■ о го t^ о U~l ^t ЧО го CN ^о 4-1 4-1 ЧО CN ON о t^ ОО "Э- о о CN CN О CN ОО о о ЧО in "Э- ЧО го о ON *п v-> о о t^ CN о о t^ ГО О о t^ m ON о о го ЧО о CN CN ГО О го "Э- о го *п О О ЧО о о ОО ОО ON чо о "Э- t^ ГО О t^ t^ о CN t^ О о Ti- CN О О t^ о о о ON t^ CN "fr О ГО CN О ГО ON О о *п ГО о о о о го о о о о CN о *п CN О ЧО о г* "Э- о о ЧО о о "Э- о о о о о о CN 5 о ЧО о о го CN О О t^ о о о CN О О О О о о о CN CN ЧО О Г^ "fr о о о о о ю ГО ~ч о о о о о m —■ о о о о о го -^ о о о о о о —' О о о о о о о ГО Tf CN CN О CN О о t^ о о о CN О О О О о о о «п CN О О О ГО О О О О О о чо CN *П О О О О О о о о о о г^ CN CN О о о о о о ОО CN о о о о о о о ON CN о с о X X * S ё 5 сх с 5 S О X 8 я 5 О ел» & и 5 I ITi сГ Ч гг л S сх Е si а* 5п а* ^ й{ t CvJ М О (ср. <и Ч >> S СХ о •Э сх <и 5 сх с а s « а х о X S 3 s ё х ю о сх §
Список литературы 1. Биллингсли 77. Сходимость вероятностных мер. М.: Наука, 1977. 2. Большее Л. #., Смирнов Н. В. Таблицы математической статистики. М.: Наука, 1965. 3. Боровков А. А. Вероятностные процессы в теории массового обслуживания. М.: Наука, 1972. 4. Боровков А. А. Сходимость мер и случайных процессов // Успехи математических наук, 1976. Т. 31, №2, стр. 3-68. 5. Боровков А. А. Теория вероятностей. 2-е изд., перераб. и доп. М.: Наука, 1986. 6. Боровков А. А. Эргодичность и устойчивость случайных процессов. М.: УРСС, 1998. 7. Гихман И. //., Скороход А. В. Введение в теорию случайных процессов. М.: Наука, 1977. 8. Гнеденко Б. В. Курс теории вероятностей. М.: Наука, 1969. 9. Гнеденко Б. В., Колмогоров А. Н. Предельные распределения для сумм независимых случайных величин. М.: Гостехиздат, 1949. 10. Гренадер У. Вероятности на алгебраических структурах. М.: Мир, 1965. 11. Ибрагимов И. А., Линник Ю. В. Независимые и стационарно связанные величины. М.: Наука, 1960. 12. Колмогоров А. И. Цепи Маркова со счетным числом состояний // Бюллетень МГУ. 1937. Т. 1, №3. 13. Колмогоров А. Н. Теория вероятностей. Математика, ее содержание, методы и значение. Т. 2. М.: Изд-во АН СССР, 1956. 14. Крамер Г, Лидбеттер М. Стационарные случайные процессы. М.: Мир, 1969. 15. Ламперти Дж. Вероятность. М.: Наука, 1973. 16. Лоэв М. Теория вероятностей. М.: Иностранная литература, 1962. 17. Натансон И. 77. Теория функций вещественной переменной. М.: Наука, 1974. 18. Нумеллин Э. Общие неприводимые цепи Маркова и неотрицательные операторы. М.: Мир, 1989. 19. Петров В. В. Суммы независимых случайных величин. М.: Наука, 1972. 20. Скороход А. В. Случайные процессы с независимыми приращениями. М.: Наука, 1986. 21. Файнстейн А. Основы теории информации. М.: Иностранная литература, 1960. 22. Феллер В. Введение в теорию вероятностей и ее приложения. Т. 1, 2. М.: Мир, 1984. 23. Халмош П. Теория меры. М.: Иностранная литература, 1953.
466 Список литературы 24. Хынчин А. Я. Понятие энтропии в теории вероятностей // Успехи математических наук. 1953. Т. 8. 25. Ширяев Л. Н. Вероятность. М.: Наука, 1980. 26. Kifer Yu. Ergodic Theory of Random Transformations. Boston, Birkhauser, 1986. 27. Meyn S. R, Tweedie R. L. Markov chains and stochastic stability. N.-Y, Berlin, Springer Verlag, 1993. 28. Van Seek R. An application of Fourier methods to the problem of charpening the Berry // Esseen inequality. Z. Wahrscheinlichkeitstheorie und Verw. 1972. B. 23, № 3. S. 187-196.
Предметный указатель Абсолютная непрерывность меры, 437 Абсолютно непрерывное распределение, 44, 48 Авторегрессия обобщенная, 344 Алгебра (множеств), 23 Безобидная игра, 70 Бернулли схема, 18, 96 Бернштейна полиномы, 97 Большие уклонения, 104, 112 Борелевская функция, 46 Борелевское множество, 24 — поле, 24 Бореля—Кантелли лемма (критерий), 213 Броуновский мост, 413 Вероятность, 14, 25 —, классическое определение, 15 — переходная, 267, 387 — условная, 30 Выборка, 15 Генеральная совокупность, 15 Дефект случайного блуждания, 204 Дисперсия, 76 Закон больших чисел, 81, 155, 157, 210 усиленный, 96, 213, 219, 220, 223, 229 — нуля и единицы, 213-215 — повторного логарифма, 360, 361, 378, 379 Измеримое отображение, 37 — пространство, 24 Индикатор множества, 427 Интеграл, 57, 427 — от произвольной функции, 428 — по множеству, 427 Информации количество, 284 Кольцо (множеств), 23 Корреляции коэффициент, 78 Критерий Колмогорова, 223, 351 Локальная предельная теорема, 97, 174 Маркова цепь, 245 возвратная, 253 однородная, 267 разложимая (неразложимая), 248, 249 счетная (дискретная), 245 Мартингал, 292-296, 300 Математическое ожидание, 64 условное, 68, 84, 85 Матрица дважды стохастическая, 262 — стохастическая, 247 Мера, 426 — сингулярная, 437 Момент, 79 — остановки, 73, 268, 296 несобственный, 299
468 Предметный указатель — смешанный, 80 — центральный, 79 Независимые испытания, 32 — классы событий, 52 — случайные величины, 50, 55, 130 — события, 30 Неравенство Гёльдера, 80 — Иенсена, 80, 88 — Колмогорова, 217, 308 — Коши—Буняковского, 80, 88 — Минковского, 80 — Чебышева, 81, 87 Носитель меры, 437 Обслуживания системы, 234, 394 Плотная последовательность распределений, 127 Плотность, 443 — меры, 435 — переходная, 388 — распределения, 45, 48, 62 — условная, 90 Последовательность верхняя (нижняя), 216 — событий обновляющая, 333 Преобразование Крамера, 181, 304 — Лапласа, 132 Принцип инвариантности, 371, 372, 377 Прогноз, 414, 415 Произведение мер прямое, 60 Производная Радона—Никодима, 435, 438 Производящая функция, 135, 151 Пространство вероятностное, 26 — выборочное, 41, 48, 265, 348, 442 — измеримое, 24, 27 — с мерой, 426 — элементарных событий (исходов), 13, 23, 25 Процесс восстановления, 195 однородный, 200, 209 — гауссовский, 413 — диффузионный, 404 — марковский, 385, 386, 388 — непредсказуемый, 410 — непрерывный в среднем, 355 — пуассоновский, 209, 364, 367, 381, 393 обобщенный, 366 — с независимыми приращениями, 357 — сепарабельный, 354 — случайный, 347, 349, 442 — стационарный в узком смысле, 412 широком —, 411 — стохастически непрерывный, 355 Процессы ветвящиеся, 151 Псевдомомент, 171 Равномерная интегрируемость, 118 Распределение Г (гамма-распределение), 147 — х (хи-квадрат), 148 — абсолютно непрерывное, 44 — безгранично делимое, 188, 357 — биномиальное, 18, 42 — вероятностей, 14, 26 — вырожденное, 41 — геометрическое, 43 — гипергеометрическое, 17, 19 — дискретное, 44 — конечномерное, 348 — Коши, 43, 133 — нормальное, 42, 132 многомерное, 49, 92, 145 — показательное, 42, 133, 148 — полиномиальное, 49 — процесса, 348, 349, 367 — Пуассона, 33, 43
Предметный указатель 469 — равномерное, 38, 42, 133, 262 дискретное, 15 — симметричное, 237 — сингулярное, 45, 222 — случайной величины, 37, 41, 47 — стационарное (инвариантное), 204, 235, 257, 269 — условное, 89 — устойчивое, 188 — Эрланга, 148 Свертка, 62 Симметрическая разность, 418 Случайная величина, 37 марковская, 73, 268 многомерная, 47 , не зависящая от будущего, 72 несобственная, 38 нормированная, 78 остаточная, 215 Случайное блуждание, 195, 252, 254 Случайные величины, положительно (отрицательно) коррелированные, 79 Случайный вектор, 47 Событие, 13 — дополнительное (противоположное), 14, 25 — достоверное, 14, 25 — невозможное, 25 — обновляющее, 333 — остаточное, 214 — перестановочное, 215 Событий произведение, 13 — разность, 13 — сумма, 13 События независимые, 30, 31 — несовместные, 14, 25 Состояние возвратное (невозвратное), 249, 250 — нулевое (ненулевое), 249, 250 — поглощающее, 248 — существенное (несущественное), 247 Сочетаний число, 16 Спектральная мера процесса, 369 Среднее значение, 64 Стандартное уклонение, 76 Стохастическая матрица, 247 Стохастически эквивалентные процессы, 350 Суб(супер)мартингал, 292, 293 Схема Бернулли, 96 Сходимость по вероятности, 114 мере, 427 распределению, 123 — почти.наверное (почти всюду, с вероятностью 1), 114, 213, 426 — слабая, 121, 144, 441 Теорема аппроксимации, 53 — Берри—Эссена, 174, 449 — Бохнера—Хинчина, 133 — Вейерштрасса, 97 — восстановления, 197, 199, 201, 458 -Дуба, 297, 308, 311, 354 — единственности, 136 — Каратеодори, 28, 421 — Колмогорова, 57, 214, 220, 314 — Лебега, 438 — Леви, 313 — Муавра—Лапласа, 102 — непрерывности, 118, 137, 145 — о монотонной сходимости, 87, 430, 437 продолжении меры, 28, 419 — — сходимости мажорируемой последовательности, 120, 430, 437 — о повторном интегрировании, 61 — Прохорова, 73 — Пуанкаре, 324 — Пуассона, 141 — Радона—Никодима, 437 — Фату—Лебега, 431 — Фубини, 432
470 Предметный указатель — Хана, 439 — Хелли, 126, 446, 448 — центральная предельная, 156, 164, 165, 177 — эргодическая, 257, 412 Тождество Вальда, 74, 280, 296, 302, 303 — Поллачека—Спитцера, 238 — факторизационное, 225, 230, 235 Уравнения Колмогорова, 391, 406 Условие Крамера, 179 — Линдеберга, 157, 164, 404 — Ляпунова, 166, 167 Условная вероятность, 30 — функция распределения, 68 Условное математическое ожидание, 68, 82, 85 Факторизации компоненты, 229 Факторизационные тождества, 225, 230 Формула Байеса, 35 — обращения, 135, 144 — полной вероятности, 32, 68, 88 — Стирлинга, 98, 99 Функция борелевская, 46 — верхняя (нижняя), 213, 361 — восстановления, 196 — ковариационная, 410 — неотрицательно определенная, 410, 4J 1 — переходная, 267, 387, 388 — производящая, 135, 151 — простая, 427 — распределения, 37, 39, 47 условная, 68 — уклонений, 181 — характеристическая, 130, 143 Центральная предельная теорема, 156, 165, 177 Цепь Маркова, 245 счетная (дискретная), 245 Цилиндрическое множество, 348, 349, 424 Эксцесс случайного блуждания, 197 Элементарные события (исходы), 13 Энтропия, 285 — условная, 287 — цепи Маркова, 288 а-алгебра, 24 а-алгебра борелевская, 24 а-алгебра, порожденная классом множеств, 24 а-алгебра, порожденная случайной величиной, 54, 56