Текст
                    Подробные билеты 1–5 по теории вероятностей
с формулировками, выводами и доказательствами

Содержание
1 Билет 1. Классическая, геометрическая
ности
1.1 Классическое определение вероятности .
1.2 Почему это определение корректно . . .
1.3 Ограничения классической модели . . .
1.4 Операции над событиями . . . . . . . . .
1.5 Свойства операций над событиями . . .
1.6 Вероятностные формулы для операций .
1.7 Основные комбинаторные формулы . . .
1.8 Геометрическая вероятность . . . . . . .
1.9 Ограничения геометрической модели . .
1.10 Дискретное вероятностное пространство
1.11 Почему это корректно . . . . . . . . . . .
1.12 Ограничения дискретной модели . . . .
1.13 Связь трех моделей . . . . . . . . . . . .

и дискретная модели вероят.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

2 Билет 2. Пространство Колмогорова и σ-алгебры
2.1 Аксиоматическое вероятностное пространство . . . . . . . . . . .
2.2 σ-алгебра . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Следствия из определения σ-алгебры . . . . . . . . . . . . . . . .
2.4 Минимальная и максимальная σ-алгебры . . . . . . . . . . . . .
2.5 Пример промежуточной σ-алгебры . . . . . . . . . . . . . . . . .
2.6 σ-алгебра, порожденная системой множеств . . . . . . . . . . . .
2.7 Борелевская σ-алгебра . . . . . . . . . . . . . . . . . . . . . . . .
2.8 Основные борелевские множества . . . . . . . . . . . . . . . . . .
2.9 Выражение основных борелевских множеств через лучи (−∞, x]
2.10 Полезные представления множеств через лучи . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

3 Билет 3. Следствия аксиом Колмогорова и эквивалентность аксиом
3.1 Вероятность невозможного события . . . . . . . . . . . . . . . . . . . . . .
3.2 Сумма вероятностей события и его отрицания . . . . . . . . . . . . . . . .
3.3 Вероятность суммы двух событий . . . . . . . . . . . . . . . . . . . . . . .
3.4 Монотонность вероятности . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5 Оценки для вероятности . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.6 Аксиома непрерывности . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.7 Следствия аксиомы непрерывности . . . . . . . . . . . . . . . . . . . . . .
3.8 Эквивалентность аксиом . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.9 Пример аддитивной, но не σ-аддитивной меры . . . . . . . . . . . . . . .
4 Билет 4. Независимость, условная
Байес
4.1 Условная вероятность . . . . . . . .
4.2 Смысл условной вероятности . . . .
4.3 Свойства условной вероятности . .
1

.
.
.
.
.
.
.
.
.
.
.
.
.

11
11
11
12
12
13
13
14
15
15
15
16
16
16

.
.
.
.
.
.
.
.
.
.

17
17
17
18
18
18
19
19
20
20
21

.
.
.
.
.
.
.
.
.

21
21
21
22
22
22
23
24
24
25

вероятность, полная вероятность,
26
. . . . . . . . . . . . . . . . . . . . . . . 26
. . . . . . . . . . . . . . . . . . . . . . . 26
. . . . . . . . . . . . . . . . . . . . . . . 26


4.4 4.5 4.6 4.7 4.8 4.9 4.10 4.11 Формула умножения . . . . . . . . . . . . . . . Независимые события . . . . . . . . . . . . . . Связь независимости и условной вероятности Полная группа событий . . . . . . . . . . . . . Формула полной вероятности . . . . . . . . . . Формула Байеса . . . . . . . . . . . . . . . . . Типовой пример на Байеса . . . . . . . . . . . Независимость нескольких событий . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Билет 5. Схема Бернулли, точные и предельные формулы 5.1 Схема Бернулли . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Точная формула Бернулли . . . . . . . . . . . . . . . . . . . . . 5.3 Точная глобальная формула . . . . . . . . . . . . . . . . . . . . 5.4 Наиболее вероятное число успехов . . . . . . . . . . . . . . . . . 5.5 Почему нужны предельные теоремы . . . . . . . . . . . . . . . 5.6 Локальная теорема Муавра–Лапласа . . . . . . . . . . . . . . . 5.7 Интегральная теорема Муавра–Лапласа . . . . . . . . . . . . . 5.8 Теорема Пуассона . . . . . . . . . . . . . . . . . . . . . . . . . . 5.9 Когда применять какую предельную теорему . . . . . . . . . . 5.10 Полиномиальная схема . . . . . . . . . . . . . . . . . . . . . . . 5.11 Локальная предельная теорема для полиномиальной схемы . . 5.12 Что полезно говорить на экзамене по билету 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 27 27 28 28 28 29 29 . . . . . . . . . . . . 29 29 30 30 30 31 31 32 32 33 33 34 34 6 Короткий список формул для повторения 34 7 Билет 6. Случайные величины 7.1 Определение случайной величины . . . . . . . . . . . . . . . . . . . . . . . . 7.2 Эквивалентные определения измеримости . . . . . . . . . . . . . . . . . . . 7.3 Пример отображения, не являющегося случайной величиной . . . . . . . . 7.4 σ-алгебра, порожденная случайной величиной . . . . . . . . . . . . . . . . . 7.5 σ-алгебра, порожденная постоянной случайной величиной . . . . . . . . . . 7.6 Замкнутость случайных величин относительно арифметических операций 7.7 Борелевские функции . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.8 Борелевская функция от случайной величины . . . . . . . . . . . . . . . . . 35 35 36 37 37 38 38 39 40 8 Билет 7. Дискретные случайные величины 8.1 Определение дискретной случайной величины . . . . . . 8.2 Постоянная случайная величина . . . . . . . . . . . . . . 8.3 Индикатор события . . . . . . . . . . . . . . . . . . . . . 8.4 Дискретная равномерная случайная величина . . . . . . 8.5 Распределение Бернулли . . . . . . . . . . . . . . . . . . 8.6 Биномиальное распределение . . . . . . . . . . . . . . . . 8.7 Почему биномиальная формула корректна . . . . . . . . 8.8 Пуассоновская случайная величина . . . . . . . . . . . . 8.9 Геометрическая случайная величина . . . . . . . . . . . 8.10 Гипергеометрическая случайная величина . . . . . . . . 8.11 Отрицательная биномиальная случайная величина . . . 8.12 Сводка по смыслу основных дискретных распределений 40 40 40 41 41 41 41 42 42 42 43 43 44 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9 Билет 8. Функция распределения 9.1 Определение функции распределения . . . . . . . . . . . . 9.2 Область определения . . . . . . . . . . . . . . . . . . . . . 9.3 Основные свойства функции распределения . . . . . . . . 9.4 Вероятности интервалов через функцию распределения . 9.5 Скачки функции распределения . . . . . . . . . . . . . . . 9.6 Достаточность свойств функции распределения . . . . . . 9.7 Функция распределения дискретной случайной величины . . . . . . . 44 44 44 45 46 46 47 47 10 Билет 9. Абсолютно непрерывные случайные величины 10.1 Определение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.2 Свойства плотности . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.3 Физический смысл случайной величины . . . . . . . . . . . . . . . . . . . . 10.4 Вероятности основных борелевских множеств через функцию распределения 10.5 Вероятности в абсолютно непрерывном случае через плотность . . . . . . . 10.6 Вероятность попадания в произвольное борелевское множество . . . . . . . 10.7 Абсолютная непрерывность бросания точки на [0, 1] . . . . . . . . . . . . . 10.8 Равномерное распределение на [a, b] . . . . . . . . . . . . . . . . . . . . . . . 10.9 Экспоненциальное распределение . . . . . . . . . . . . . . . . . . . . . . . . 10.10Распределение Коши . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.11Нормальное распределение . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.12Стандартная нормальная случайная величина . . . . . . . . . . . . . . . . . 48 48 48 48 48 49 49 50 50 51 51 52 52 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Билет 10. Сингулярные распределения и независимость случайных величин 11.1 Сингулярная случайная величина . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Корректность определения . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.3 Канторово распределение как пример сингулярного . . . . . . . . . . . . . 11.4 Теорема Лебега о представлении функции распределения . . . . . . . . . . 11.5 Пример случайной величины, не являющейся ни дискретной, ни абсолютно непрерывной, ни сингулярной . . . . . . . . . . . . . . . . . . . . . . . . 11.6 Независимые случайные величины . . . . . . . . . . . . . . . . . . . . . . . 11.7 Почему достаточно проверять на лучах . . . . . . . . . . . . . . . . . . . . . 11.8 Независимость борелевских функций от независимых случайных величин 11.9 Независимость постоянной случайной величины с любой случайной величиной . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.10Дополнительные полезные замечания . . . . . . . . . . . . . . . . . . . . . . 12 Короткий список формул для повторения 13 Билет 11. Математическое ожидание 13.1 Математическое ожидание конечной дискретной случайной величины . . 13.2 Математическое ожидание дискретной случайной величины . . . . . . . . 13.3 Математическое ожидание абсолютно непрерывной случайной величины 13.4 Физический смысл математического ожидания . . . . . . . . . . . . . . . 13.5 Математическое ожидание в терминах интеграла Лебега . . . . . . . . . . 13.6 Математическое ожидание через интеграл Стилтьеса . . . . . . . . . . . . 13.7 Как из общей формулы получаются частные . . . . . . . . . . . . . . . . 13.8 Свойства математического ожидания . . . . . . . . . . . . . . . . . . . . . 13.9 Математическое ожидание суммы “простых” случайных величин . . . . . 3 52 52 52 53 53 53 54 54 54 54 55 55 . . . . . . . . . 56 56 56 57 57 57 58 58 59 60
13.10Полезное представление неотрицательной целочисленной случайной величины . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 14 Билет 12. Математическое ожидание основных дискретных случайных величин 14.1 Постоянная случайная величина . . . . . . . . . . . . . . . . . . . . . . . . . 14.2 Индикатор события . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14.3 Дискретная равномерная случайная величина . . . . . . . . . . . . . . . . . 14.4 Распределение Бернулли . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14.5 Биномиальное распределение . . . . . . . . . . . . . . . . . . . . . . . . . . . 14.6 Распределение Пуассона . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14.7 Геометрическое распределение . . . . . . . . . . . . . . . . . . . . . . . . . . 14.8 Гипергеометрическое распределение . . . . . . . . . . . . . . . . . . . . . . 14.9 Отрицательное биномиальное распределение . . . . . . . . . . . . . . . . . . 61 61 61 61 62 62 63 64 65 65 15 Билет 13. Математическое ожидание основных абсолютно непрерывных случайных величин 15.1 Равномерное распределение на [a, b] . . . . . . . . . . . . . . . . . . . . . . . 15.2 Экспоненциальное распределение . . . . . . . . . . . . . . . . . . . . . . . . 15.3 Распределение Коши . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15.4 Нормальное распределение . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15.5 Стандартная нормальная случайная величина . . . . . . . . . . . . . . . . . 15.6 Сводка ожиданий основных абсолютно непрерывных распределений . . . . 66 66 67 68 68 69 70 16 Билет 14. Дисперсия, моменты и математическое ожидание функции от случайной величины 16.1 Дисперсия случайной величины . . . . . . . . . . . . . . . . . . . . . . . . . 16.2 Основная формула для дисперсии . . . . . . . . . . . . . . . . . . . . . . . . 16.3 Свойства дисперсии . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16.4 Моменты случайной величины . . . . . . . . . . . . . . . . . . . . . . . . . . 16.5 Математическое ожидание борелевской функции от случайной величины . 16.6 Связь существования моментов разных порядков . . . . . . . . . . . . . . . 16.7 Влияние существования моментов на хвосты распределения . . . . . . . . . 16.8 Моменты ограниченной случайной величины . . . . . . . . . . . . . . . . . 16.9 Полезные частные случаи . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 70 70 71 72 72 73 74 74 74 17 Билет 15. Дисперсии основных дискретных случайных 17.1 Постоянная случайная величина . . . . . . . . . . . . . . . 17.2 Индикатор события . . . . . . . . . . . . . . . . . . . . . . 17.3 Распределение Бернулли . . . . . . . . . . . . . . . . . . . 17.4 Дискретное равномерное распределение на {1, . . . , n} . . . 17.5 Биномиальное распределение . . . . . . . . . . . . . . . . . 17.6 Распределение Пуассона . . . . . . . . . . . . . . . . . . . 17.7 Геометрическое распределение . . . . . . . . . . . . . . . . 17.8 Отрицательное биномиальное распределение . . . . . . . . 17.9 Гипергеометрическое распределение . . . . . . . . . . . . 17.10Сводка дисперсий основных дискретных распределений . 75 75 75 75 76 76 77 78 79 79 80 18 Короткий список формул для повторения 4 величин . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
19 Билет 16. Дисперсия основных абсолютно непрерывных случайных личин 19.1 Общее определение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19.2 Равномерное распределение на [a, b] . . . . . . . . . . . . . . . . . . . . . 19.3 Экспоненциальное распределение . . . . . . . . . . . . . . . . . . . . . . 19.4 Распределение Коши . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19.5 Нормальное распределение . . . . . . . . . . . . . . . . . . . . . . . . . . 19.6 Стандартная нормальная случайная величина . . . . . . . . . . . . . . . 19.7 Краткая сводка . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ве. . . . . . . 82 82 82 83 84 85 86 86 20 Билет 17. Неравенства Маркова и Чебышева. Законы больших чисел 20.1 Неравенство Маркова . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20.2 Неравенство Чебышева . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20.3 Закон больших чисел в форме Чебышева . . . . . . . . . . . . . . . . . . . . 20.4 Закон больших чисел для одинаково распределенных случайных величин . 20.5 Закон больших чисел Бернулли . . . . . . . . . . . . . . . . . . . . . . . . . 20.6 Усиленный закон больших чисел в форме Колмогорова . . . . . . . . . . . 20.7 Связь между неравенствами и законом больших чисел . . . . . . . . . . . . 86 86 87 88 88 89 89 90 . . . . . . . 21 Билет 18. Отсутствие последействия. Надежность и интенсивность отказов 21.1 Свойство отсутствия последействия . . . . . . . . . . . . . . . . . . . . . . . 21.2 Экспоненциальное распределение обладает отсутствием последействия . . 21.3 Смысл в теории надежности . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.4 Функция надежности . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.5 Интенсивность отказов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.6 Связь интенсивности отказов и функции надежности . . . . . . . . . . . . 21.7 Взаимно однозначное соответствие между функцией надежности и интенсивностью отказов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.8 Экспоненциальное распределение и постоянная интенсивность . . . . . . . 22 Билет 19. Распределение максимума, минимума и k-й тистики 22.1 Максимум случайных величин . . . . . . . . . . . . . . . 22.2 Минимум случайных величин . . . . . . . . . . . . . . . 22.3 Порядковые статистики . . . . . . . . . . . . . . . . . . . 22.4 Распределение k-й порядковой статистики в одинаково случае . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22.5 Плотность k-й порядковой статистики . . . . . . . . . . 22.6 Частные случаи . . . . . . . . . . . . . . . . . . . . . . . 22.7 Пример: максимум равномерных случайных величин . . 22.8 Пример: минимум равномерных случайных величин . . 90 90 90 91 91 91 92 92 93 порядковой ста. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . распределенном . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 . 93 . 94 . 95 . . . . . 95 95 96 96 96 23 Билет 20. Свертка случайных величин 23.1 Определение свертки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23.2 Формула свертки в общем случае . . . . . . . . . . . . . . . . . . . . . . . . 23.3 Формула свертки для целочисленных случайных величин . . . . . . . . . . 23.4 Формула свертки для абсолютно непрерывных случайных величин . . . . 23.5 Абсолютная непрерывность свертки, если одно слагаемое абсолютно непрерывно . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 97 97 98 98 5 99
23.6 23.7 23.8 23.9 Коммутативность свертки Ассоциативность свертки . Нейтральный элемент . . . Полезные примеры . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 Короткий список формул для повторения . . . . 99 99 100 100 100 25 Билет 21. Свертки пуассоновских, равномерных, экспоненциальных нормальных случайных величин 25.1 Общая идея . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25.2 Свертка пуассоновских случайных величин . . . . . . . . . . . . . . . . . 25.3 Свертка абсолютно непрерывных равномерных случайных величин . . . 25.4 Свертка экспоненциальных случайных величин . . . . . . . . . . . . . . . 25.5 Свертка нормальных случайных величин . . . . . . . . . . . . . . . . . . . и 102 . 102 . 102 . 103 . 105 . 106 26 Билет 22. Многомерные случайные величины 26.1 Определение многомерной случайной величины . . . . . . . . . . . . . . . 26.2 Многомерная функция распределения . . . . . . . . . . . . . . . . . . . . 26.3 Наследование одномерных свойств . . . . . . . . . . . . . . . . . . . . . . 26.4 Вероятность попадания в параллелепипед . . . . . . . . . . . . . . . . . . 26.5 Многомерное характеристическое свойство функции распределения . . . 26.6 Многомерная абсолютно непрерывная равномерная случайная величина 26.7 Многомерная нормальная случайная величина . . . . . . . . . . . . . . . 26.8 Характеристическая функция многомерного нормального распределения 26.9 Плотность в двумерном случае . . . . . . . . . . . . . . . . . . . . . . . . . 107 . 107 . 108 . 108 . 109 . 109 . 110 . 110 . 111 . 111 27 Билет 23. Многомерные дискретные и абсолютно непрерывные случайные величины 111 27.1 Многомерная дискретная случайная величина . . . . . . . . . . . . . . . . . 111 27.2 Многомерная абсолютно непрерывная случайная величина . . . . . . . . . 112 27.3 Выражение функции распределения через плотность . . . . . . . . . . . . . 112 27.4 Выражение плотности через функцию распределения . . . . . . . . . . . . 112 27.5 Независимость в терминах функций распределения . . . . . . . . . . . . . . 112 27.6 Независимость в терминах плотностей . . . . . . . . . . . . . . . . . . . . . 113 27.7 Нахождение одномерных и меньшей размерности распределений . . . . . . 114 27.8 Невозможность восстановления многомерного распределения по одномерным . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 27.9 Функция распределения борелевской функции от случайного вектора . . . 115 28 Билет 24. Ковариация и коэффициент корреляции 28.1 Ковариация . . . . . . . . . . . . . . . . . . . . . . . . . 28.2 Свойства ковариации . . . . . . . . . . . . . . . . . . . 28.3 Пример некоррелированных, но зависимых случайных 28.4 Коэффициент корреляции . . . . . . . . . . . . . . . . 28.5 Свойства коэффициента корреляции . . . . . . . . . . 28.6 Геометрический смысл . . . . . . . . . . . . . . . . . . 28.7 Ковариационная матрица . . . . . . . . . . . . . . . . . 6 . . . . . . . . . . величин . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 . 116 . 116 . 117 . 118 . 118 . 119 . 119
29 Билет 25. Характеристическая функция случайной величины 29.1 Определение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29.2 Представление через распределение . . . . . . . . . . . . . . . . . . 29.3 Основные свойства . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29.4 Моменты и производные характеристической функции . . . . . . . 29.5 Характеристические функции основных распределений . . . . . . 29.6 Единственность . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29.7 Формула обращения . . . . . . . . . . . . . . . . . . . . . . . . . . . 29.8 Предельные теоремы для характеристических функций . . . . . . 29.9 Полезные следствия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 . 120 . 120 . 120 . 121 . 122 . 122 . 123 . 123 . 123 30 Короткий список формул для повторения 124 31 Билет 26. Нормированные и центрированные случайные величины. Центральная предельная теорема 125 31.1 Центрирование . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 31.2 Нормирование . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 31.3 Нормирование суммы независимых случайных величин . . . . . . . . . . . 126 31.4 Почему возникает именно такое нормирование . . . . . . . . . . . . . . . . 126 31.5 Центральная предельная теорема . . . . . . . . . . . . . . . . . . . . . . . . 127 31.6 Доказательство через характеристические функции . . . . . . . . . . . . . 127 31.7 Форма для выборочного среднего . . . . . . . . . . . . . . . . . . . . . . . . 128 31.8 Смысл центральной предельной теоремы . . . . . . . . . . . . . . . . . . . . 128 32 Билет 27. Семиинварианты, моменты Сенатова, асимптотические ложения 32.1 Производящая функция моментов и кумулянтная функция . . . . . . 32.2 Семиинварианты . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32.3 Первые семиинварианты через обычные моменты . . . . . . . . . . . . 32.4 Вывод первых формул . . . . . . . . . . . . . . . . . . . . . . . . . . . 32.5 Свойства семиинвариантов . . . . . . . . . . . . . . . . . . . . . . . . . 32.6 Семиинварианты нормального распределения . . . . . . . . . . . . . . 32.7 Моменты Сенатова . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32.8 Разложение характеристической функции через кумулянты . . . . . . 32.9 Асимптотические разложения для нормированных сумм . . . . . . . . 32.10Смысл асимптотических разложений . . . . . . . . . . . . . . . . . . . 32.11Что важно помнить на экзамене . . . . . . . . . . . . . . . . . . . . . . раз129 . . . 129 . . . 129 . . . 129 . . . 130 . . . 130 . . . 131 . . . 132 . . . 132 . . . 132 . . . 133 . . . 133 33 Билет 28. Сходимости случайных величин и связи между ними 33.1 Сходимость по вероятности . . . . . . . . . . . . . . . . . . . . . . . . 33.2 Сходимость почти наверное . . . . . . . . . . . . . . . . . . . . . . . 33.3 Сходимость по распределению . . . . . . . . . . . . . . . . . . . . . . 33.4 Сходимость в среднем порядка p . . . . . . . . . . . . . . . . . . . . 33.5 Связь: почти наверное ⇒ по вероятности . . . . . . . . . . . . . . . . 33.6 Связь: по вероятности ⇒ по распределению . . . . . . . . . . . . . . 33.7 Связь: в среднем порядка p ⇒ по вероятности . . . . . . . . . . . . . 33.8 Подпоследовательность при сходимости по вероятности . . . . . . . 33.9 Связь с константой . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33.10Что неверно в общем случае . . . . . . . . . . . . . . . . . . . . . . . 33.11Иерархия сходимостей . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 133 133 133 134 134 135 135 136 136 137 137
34 Билет 29. Задачи статистики. Выборочная вероятность и выборочная функция распределения 137 34.1 Общая задача статистики . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 34.2 Выборочная вероятность . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 34.3 Математическое ожидание и дисперсия выборочной вероятности . . . . . . 138 34.4 Сходимость выборочной вероятности по вероятности . . . . . . . . . . . . . 139 34.5 Сходимость выборочной вероятности почти наверное . . . . . . . . . . . . . 139 34.6 Выборочная функция распределения . . . . . . . . . . . . . . . . . . . . . . 139 34.7 Свойства выборочной функции распределения . . . . . . . . . . . . . . . . 139 34.8 Математическое ожидание и дисперсия Fn (x) . . . . . . . . . . . . . . . . . 140 34.9 Сходимость Fn (x) по вероятности . . . . . . . . . . . . . . . . . . . . . . . . 140 34.10Сходимость Fn (x) почти наверное . . . . . . . . . . . . . . . . . . . . . . . . 141 34.11Замечание о равномерной сходимости . . . . . . . . . . . . . . . . . . . . . . 141 35 Билет 30. Оценки математического ожидания и дисперсии. Несмещенность, состоятельность, теорема Слуцкого 141 35.1 Оценка параметра . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 35.2 Выборочное среднее как оценка математического ожидания . . . . . . . . . 141 35.3 Оценки дисперсии при известном математическом ожидании . . . . . . . . 142 35.4 Оценки дисперсии при неизвестном математическом ожидании . . . . . . . 142 35.5 Отличие оценки дисперсии при известном и неизвестном математическом ожидании . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 35.6 Несмещенность . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 35.7 Состоятельность . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 35.8 Состоятельность выборочной дисперсии . . . . . . . . . . . . . . . . . . . . 145 35.9 Теорема Слуцкого . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 35.10Состоятельность выборочных моментных характеристик . . . . . . . . . . 146 35.11Состоятельность центральных моментов . . . . . . . . . . . . . . . . . . . . 146 35.12Состоятельность асимметрии и эксцесса . . . . . . . . . . . . . . . . . . . . 147 36 Короткий список формул для повторения 37 Билет 31. Метод моментов 37.1 Идея метода . . . . . . . . . . . . . . . . . . . . 37.2 Выборочные моменты . . . . . . . . . . . . . . . 37.3 Общая схема метода моментов . . . . . . . . . . 37.4 Почему метод разумен . . . . . . . . . . . . . . 37.5 Пример 1. Схема Бернулли . . . . . . . . . . . . 37.6 Пример 2. Распределение Пуассона . . . . . . . 37.7 Пример 3. Экспоненциальное распределение . . 37.8 Пример 4. Равномерное распределение на [0, θ] 37.9 Пример 5. Нормальное распределение . . . . . 37.10Достоинства и недостатки метода моментов . . 147 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 Билет 32. Квантили, выборочные квантили, медиана 38.1 Квантиль . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38.2 Медиана . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38.3 Квартили, интерквартильный размах, децили, процентили . . . . . . . 38.4 Аналогия медианы и размаха математическому ожиданию и дисперсии 38.5 Почему метод моментов неприменим при отсутствии моментов . . . . . 8 149 149 149 149 150 150 150 151 151 151 152 . . . . . . . . . . . . . . . . . . . . . . . . . 152 . 152 . 153 . 153 . 153 . 154
38.6 Выборочные квантили . . . . . . . . . . . . . . . . . . . . . 38.7 Выборочная медиана . . . . . . . . . . . . . . . . . . . . . 38.8 Состоятельность выборочной квантили . . . . . . . . . . . 38.9 Асимптотическая нормальность выборочной квантили . . 38.10Пример: оценка параметра сдвига у распределения Коши 39 Билет 33. Распределения χ2 , Стьюдента и Фишера 39.1 Распределение χ2 . . . . . . . . . . . . . . . . . . . . . . 39.2 Характеристическая функция и производящая функция 39.3 Математическое ожидание и дисперсия . . . . . . . . . . 39.4 Плотность распределения χ2 . . . . . . . . . . . . . . . . 39.5 Распределение Стьюдента . . . . . . . . . . . . . . . . . 39.6 Основные свойства распределения Стьюдента . . . . . . 39.7 Плотность распределения Стьюдента . . . . . . . . . . . 39.8 Распределение Фишера . . . . . . . . . . . . . . . . . . . 39.9 Свойства распределения Фишера . . . . . . . . . . . . . 39.10Где возникают эти распределения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . моментов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 155 155 155 156 . . . . . . . . . . 156 . 156 . 157 . 157 . 158 . 158 . 158 . 159 . 159 . 159 . 160 40 Билет 34. Доверительные интервалы. Лемма и теорема Фишера 160 40.1 Доверительный интервал . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 40.2 Лемма Фишера . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 40.3 Теорема Фишера для нормальной выборки . . . . . . . . . . . . . . . . . . . 161 40.4 Точный доверительный интервал для математического ожидания при известной дисперсии . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 40.5 Точный доверительный интервал для математического ожидания при неизвестной дисперсии . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 40.6 Точный доверительный интервал для дисперсии при известном математическом ожидании . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 40.7 Точный доверительный интервал для дисперсии при неизвестном математическом ожидании . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164 40.8 Точный прогнозный интервал для нового наблюдения в нормальном случае164 40.9 Асимптотический доверительный интервал для параметра p в схеме Бернулли . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164 41 Билет 35. Метод максимального правдоподобия 41.1 Функция правдоподобия . . . . . . . . . . . . . . . . . . . . . . . . . . 41.2 Оценка максимального правдоподобия . . . . . . . . . . . . . . . . . . 41.3 Условие первого порядка . . . . . . . . . . . . . . . . . . . . . . . . . . 41.4 Свойство инвариантности ОМП . . . . . . . . . . . . . . . . . . . . . . 41.5 Пример 1. Схема Бернулли . . . . . . . . . . . . . . . . . . . . . . . . . 41.6 Пример 2. Распределение Пуассона . . . . . . . . . . . . . . . . . . . . 41.7 Пример 3. Экспоненциальное распределение . . . . . . . . . . . . . . . 41.8 Пример 4. Равномерное распределение на [0, θ] . . . . . . . . . . . . . 41.9 Пример 5. Нормальное распределение при известной дисперсии . . . 41.10Пример 6. Нормальное распределение при неизвестных µ и σ 2 . . . . 41.11Свойства ОМП . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.12Сравнение метода моментов и метода максимального правдоподобия 42 Короткий список формул для повторения 9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 165 165 165 166 166 167 167 168 168 169 170 170 170
43 Билет 36. Эффективность оценок. Информация Фишера. Теорема Рао– Фреше–Крамера 172 43.1 Несмещенные оценки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172 43.2 Эффективность оценки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172 43.3 Функция правдоподобия и логарифмическая производная . . . . . . . . . . 172 43.4 Информация Фишера . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 43.5 Аддитивность информации Фишера . . . . . . . . . . . . . . . . . . . . . . . 174 43.6 Теорема Рао–Фреше–Крамера . . . . . . . . . . . . . . . . . . . . . . . . . . 174 43.7 Условие равенства . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 43.8 Пример 1. Бернулли . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176 43.9 Пример 2. Пуассон . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176 43.10Пример 3. Нормальное распределение с известной дисперсией . . . . . . . 177 43.11Итог по билету . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 44 Билет 37. Метод наименьших квадратов. Линейная регрессия 44.1 Идея метода наименьших квадратов . . . . . . . . . . . . . . . . . 44.2 Простейшая линейная регрессия . . . . . . . . . . . . . . . . . . . . 44.3 Вывод нормальных уравнений . . . . . . . . . . . . . . . . . . . . . 44.4 Явные формулы для коэффициентов . . . . . . . . . . . . . . . . . 44.5 Ортогональные свойства остатков . . . . . . . . . . . . . . . . . . . 44.6 Стохастическая интерпретация . . . . . . . . . . . . . . . . . . . . . 44.7 Связь с максимальным правдоподобием . . . . . . . . . . . . . . . 44.8 Итог по билету . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 . 178 . 178 . 179 . 179 . 180 . 181 . 182 . 182 45 Билет 38. Статистические гипотезы. Ошибки. Уровень значимости. Мощность. Критерий отношения правдоподобия 182 45.1 Статистические гипотезы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182 45.2 Критерий и статистика критерия . . . . . . . . . . . . . . . . . . . . . . . . 183 45.3 Критическая область . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 45.4 Ошибки первого и второго рода . . . . . . . . . . . . . . . . . . . . . . . . . 183 45.5 Уровень значимости . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 45.6 Мощность критерия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 45.7 Критерий отношения правдоподобия . . . . . . . . . . . . . . . . . . . . . . 184 45.8 Общий вид критерия отношения правдоподобия . . . . . . . . . . . . . . . . 184 45.9 Почему нужно отвергать при малых значениях Λ . . . . . . . . . . . . . . . 184 45.10Замечание о наиболее мощных критериях . . . . . . . . . . . . . . . . . . . 184 45.11Итог по билету . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 46 Билет 39. Проверка гипотез в нормальном случае и в схеме Бернулли185 46.1 Проверка гипотезы о математическом ожидании при известной дисперсии 185 46.2 Проверка гипотезы о математическом ожидании при неизвестной дисперсии186 46.3 Проверка гипотезы о дисперсии при известном математическом ожидании 187 46.4 Проверка гипотезы о дисперсии при неизвестном математическом ожидании188 46.5 Проверка гипотезы о параметре p в схеме Бернулли . . . . . . . . . . . . . 188 47 Билет 40. Проверка гипотез о равенстве параметров в двух выборках 189 47.1 Равенство математических ожиданий двух нормальных выборок при известных дисперсиях . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189 47.2 Равенство математических ожиданий двух нормальных выборок при неизвестных, но равных дисперсиях . . . . . . . . . . . . . . . . . . . . . . . . . 190 10
47.3 Проверка гипотезы о равенстве дисперсий двух нормальных выборок . . . 190 47.4 Проверка гипотезы о равенстве параметров p1 и p2 в двух схемах Бернулли191 48 Билет 41. Критерий согласия Пирсона 48.1 Задача согласия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48.2 Группировка данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48.3 Статистика Пирсона . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48.4 Смысл статистики . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48.5 Асимптотическое распределение статистики . . . . . . . . . . . . . . . . . 48.6 Почему число степеней свободы равно k − 1 . . . . . . . . . . . . . . . . . 48.7 Правило критерия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48.8 Стандартный алгоритм применения критерия . . . . . . . . . . . . . . . . 48.9 Когда критерий применять нельзя или нужно применять осторожно . . . 48.10Пример: проверка гипотезы о равномерности по конечному числу групп 48.11Итог по билету . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 . 192 . 192 . 192 . 192 . 193 . 193 . 193 . 193 . 194 . 194 . 194 49 Короткий список формул для повторения 1 195 Билет 1. Классическая, геометрическая и дискретная модели вероятности 1.1 Классическое определение вероятности Определение 1.1. Пусть пространство элементарных исходов конечно: Ω = {ω1 , . . . , ωn }, и все элементарные исходы считаются равновозможными. Тогда для любого события A ⊂ Ω его классическая вероятность определяется формулой P(A) = 1.2 |A| . |Ω| Почему это определение корректно Покажем, что такое определение обладает естественными свойствами вероятности. Утверждение 1.1. Для классической вероятности выполняются: 1) 0 ≤ P(A) ≤ 1; 2) P(Ω) = 1, P(∅) = 0; 3) если A ∩ B = ∅, то P(A ∪ B) = P(A) + P(B). Доказательство. 1) Так как 0 ≤ |A| ≤ |Ω|, то 0≤ |A| ≤ 1. |Ω| 11
2) Имеем P(Ω) = |Ω| = 1, |Ω| P(∅) = 0 = 0. |Ω| 3) Если A ∩ B = ∅, то |A ∪ B| = |A| + |B|. Следовательно, P(A ∪ B) = 1.3 |A ∪ B| |A| + |B| = = P(A) + P(B). |Ω| |Ω| Ограничения классической модели Классическая модель применима только если: 1) число элементарных исходов конечно; 2) все исходы равновозможны; 3) сама разбивка на элементарные исходы естественна. Если хотя бы одно из этих условий нарушается, классическая модель либо неприменима, либо требует искусственного введения равновозможности. Пример 1.1. При бросании игральной кости классическая модель естественна: Ω = {1, 2, 3, 4, 5, 6}, P({2, 4, 6}) = 3 1 = . 6 2 Но для случайной величины, принимающей непрерывные значения, например координаты точки на отрезке, классическая модель уже не подходит. 1.4 Операции над событиями События — это подмножества Ω. Для них определены стандартные операции теории множеств: • A ∪ B — произошло хотя бы одно из событий A, B; • A ∩ B — произошли оба события; • A \ B — произошло A, но не произошло B; • A = Ω \ A — событие, противоположное A; • A△B = (A \ B) ∪ (B \ A) — симметрическая разность. 12
1.5 Свойства операций над событиями Утверждение 1.2. Для любых событий A, B, C ⊂ Ω выполняются: 1) коммутативность: A ∪ B = B ∪ A, A ∩ B = B ∩ A; 2) ассоциативность: (A ∪ B) ∪ C = A ∪ (B ∪ C), (A ∩ B) ∩ C = A ∩ (B ∩ C); 3) дистрибутивность: A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C), A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C); 4) законы де Моргана: A ∪ B = A ∩ B, A ∩ B = A ∪ B; 5) A \ B = A ∩ B. Доказательство. Все равенства доказываются двойным включением или проверкой принадлежности произвольного элемента ω ∈ Ω. Например, докажем первое равенство де Моргана: A ∪ B = A ∩ B. Пусть ω ∈ A ∪ B. Тогда ω ∈ / A ∪ B, то есть ω ∈ /Aиω∈ / B. Значит, ω ∈ A ∩ B. Обратное включение аналогично. 1.6 Вероятностные формулы для операций Утверждение 1.3. Для классической вероятности, а на самом деле и в любой вероятностной модели, справедливы: P(A) = 1 − P(A), P(B \ A) = P(B) − P(A ∩ B), P(A ∪ B) = P(A) + P(B) − P(A ∩ B). Доказательство. 1) Так как A ∩ A = ∅, A ∪ A = Ω, то по аддитивности P(A) + P(A) = P(Ω) = 1. Следовательно, P(A) = 1 − P(A). 13
2) Разложим B в непересекающееся объединение: B = (B \ A) ⊔ (A ∩ B). Тогда P(B) = P(B \ A) + P(A ∩ B), откуда P(B \ A) = P(B) − P(A ∩ B). 3) Представим A ∪ B = A ⊔ (B \ A). Тогда P(A ∪ B) = P(A) + P(B \ A) = P(A) + P(B) − P(A ∩ B). 1.7 Основные комбинаторные формулы Перестановки Число перестановок из n различных элементов: Pn = n!. Доказательство. На первое место можно поставить n элементов, на второе — n − 1, . . . , на последнее — 1. По правилу умножения: Pn = n(n − 1) · · · 1 = n!. Размещения без повторений Число способов выбрать и упорядочить k элементов из n: Akn = n(n − 1) · · · (n − k + 1) = n! . (n − k)! Доказательство. На первое место — n вариантов, на второе — n − 1, . . . , на k-е — n − k + 1. Перемножаем. Сочетания без повторений Число способов выбрать k элементов из n без учета порядка:   n n! k Cn = = . k k!(n − k)! Доказательство. Каждому набору из k элементов соответствуют k! его упорядочений. Значит, Akn = Cnk · k!, откуда Cnk = Akn n! = . k! k!(n − k)! 14
Бином Ньютона n   X n n−k k (a + b) = a b . k k=0 n  Коэффициент nk возникает как число способов выбрать k скобок, из которых берется b, а из остальных n − k — a. 1.8 Геометрическая вероятность Определение 1.2. Пусть Ω ⊂ Rm — измеримое множество конечной положительной меры µ(Ω), а событие A ⊂ Ω тоже измеримо. Если точка бросается в Ω “равномерно”, то µ(A) . µ(Ω) P(A) = Здесь µ — длина, площадь, объем или, более общо, мера Лебега. Пример 1.2. На отрезок [0, 1] наудачу бросается точка. Тогда для события A = {x ∈ [0, 1] : x ≤ 0.3} имеем P(A) = 1.9 0.3 = 0.3. 1 Ограничения геометрической модели 1) Требуется понятие равномерного распределения по геометрическому множеству. 2) События должны быть измеримыми. 3) Модель зависит от выбранной геометрической меры. 4) Не всякая реальная задача естественно сводится к длине, площади или объему. 1.10 Дискретное вероятностное пространство Определение 1.3. Дискретным вероятностным пространством называется пространство, в котором Ω = {ω1 , ω2 , . . . } конечно или счетно, и каждой точке ωi сопоставлено число X pi = P({ωi }) ≥ 0, pi = 1. i Тогда для любого события A ⊂ Ω P(A) = X ωi ∈A 15 pi .
1.11 Почему это корректно Утверждение 1.4. Заданная формула действительно определяет вероятность на всех подмножествах Ω. Доказательство. Неотрицательность очевидна. Далее, X P(Ω) = pi = 1. ωi ∈Ω Если A1 , A2 , . . . попарно не пересекаются, то индексы точек, входящих в объединение, разбиваются на непересекающиеся группы. Поэтому P ∞ [ n=1  An = X pi = ωi ∈∪An ∞ X X pi = n=1 ωi ∈An ∞ X P(An ). n=1 То есть выполнена σ-аддитивность. 1.12 Ограничения дискретной модели 1) Она применима только к конечному или счетному множеству исходов. 2) Непрерывные эксперименты в ней не описываются естественным образом. 3) Выбор вероятностей pi должен быть задан дополнительно. 1.13 Связь трех моделей Классическая модель как частный случай дискретной Если |Ω| = n и все исходы равновозможны, то pi = 1 , n Тогда P(A) = i = 1, . . . , n. X 1 |A| = . n n ω ∈A i Это и есть классическая формула. Классическая модель как частный случай геометрической Пусть Ω состоит из n точек, каждой из которых приписана одинаковая “мера” 1. Тогда µ(A) = |A|, µ(Ω) = |Ω| = n, и снова P(A) = 16 |A| . n
Дискретная модель как частный случай геометрической Если Ω = {ω1 , ω2 , . . . } — счетное множество и каждой точке приписана мера µ({ωi }) = pi , то для любого A ⊂ Ω µ(A) = X pi , µ(Ω) = X ωi ∈A pi = 1, i поэтому P(A) = µ(A). То есть дискретная модель может рассматриваться как геометрическая на пространстве с атомарной мерой. 2 Билет 2. Пространство Колмогорова и σ-алгебры 2.1 Аксиоматическое вероятностное пространство Определение 2.1. Вероятностным пространством Колмогорова называется тройка (Ω, F, P), где: 1) Ω — множество элементарных исходов; 2) F — σ-алгебра подмножеств Ω; 3) P : F → [0, 1] — вероятностная мера, то есть P(Ω) = 1, и для любых попарно непересекающихся A1 , A2 , · · · ∈ F P ∞ [  An = n=1 2.2 ∞ X P(An ). n=1 σ-алгебра Определение 2.2. Система множеств F ⊂ 2Ω называется σ-алгеброй, если: 1) Ω ∈ F; 2) из A ∈ F следует A ∈ F; 3) если A1 , A2 , · · · ∈ F, то ∞ [ An ∈ F. n=1 17
2.3 Следствия из определения σ-алгебры Утверждение 2.1. Если F — σ-алгебра, то: 1) ∅ ∈ F; 2) если A1 , A2 , · · · ∈ F, то ∞ \ An ∈ F; n=1 3) если A, B ∈ F, то A ∪ B, A ∩ B, A \ B ∈ F; 4) замкнутость верна и для конечных объединений и пересечений. Доказательство. 1) Так как Ω ∈ F и ∅ = Ω, то ∅ ∈ F. 2) По законам де Моргана: ∞ ∞ [ \ An . An = n=1 n=1 S∞ Так как An ∈ F, то n=1 An ∈ F, значит и его дополнение принадлежит F. 3) Уже следует из пунктов 1) и 2), а также из равенства A \ B = A ∩ B. 2.4 Минимальная и максимальная σ-алгебры Утверждение 2.2. На множестве Ω существуют: • минимальная σ-алгебра: {∅, Ω}; • максимальная σ-алгебра: 2Ω . Доказательство. Проверим минимальную. Очевидно, Ω ∈ {∅, Ω}. Дополнение каждого из этих множеств снова принадлежит системе. Счетное объединение множеств из {∅, Ω} есть либо ∅, либо Ω. Значит, это σ-алгебра. Максимальная σ-алгебра состоит из всех подмножеств Ω, поэтому автоматически замкнута относительно всех нужных операций. 2.5 Пример промежуточной σ-алгебры Пусть Ω = {1, 2, 3, 4}. Рассмотрим систему F = {∅, Ω, {1, 2}, {3, 4}}. Утверждение 2.3. F является σ-алгеброй. 18
Доказательство. Имеем Ω ∈ F. Дополнения: ∅ = Ω, {1, 2} = {3, 4}, Ω = ∅, {3, 4} = {1, 2}. Значит, система замкнута относительно дополнения. Счетное объединение множеств из F снова дает одно из четырех множеств этой системы. Следовательно, F — σ-алгебра. Это пример промежуточной σ-алгебры, то есть {∅, Ω} ⊊ F ⊊ 2Ω . 2.6 σ-алгебра, порожденная системой множеств Определение 2.3. Пусть G ⊂ 2Ω . σ-алгеброй, порожденной системой G, называется наименьшая σ-алгебра, содержащая G. Она обозначается σ(G). Утверждение 2.4. σ(G) = \ A. A⊃G, A — σ-алгебра Доказательство. Рассмотрим все σ-алгебры, содержащие G, и пересечем их. Обозначим это пересечение через H. Покажем, что H — σ-алгебра. • Так как каждая из пересекаемых σ-алгебр содержит Ω, то Ω ∈ H. • Если A ∈ H, то A принадлежит каждой из этих σ-алгебр, значит, A тоже принадлежит каждой из них, поэтому A ∈ H. • Если An ∈ H, то каждое An принадлежит каждой из рассматриваемых σ-алгебр, а значит, ∞ [ An n=1 принадлежит каждой из них. Следовательно, это объединение лежит в H. Значит, H — σ-алгебра. По построению она содержит G и содержится в любой σалгебре, содержащей G. Следовательно, она и есть σ(G). 2.7 Борелевская σ-алгебра Определение 2.4. Борелевской σ-алгеброй на R называется σ-алгебра, порожденная всеми открытыми множествами: B(R) = σ({открытые множества в R}). Эквивалентно можно порождать ее открытыми интервалами: B(R) = σ({(a, b) : a < b}). 19
2.8 Основные борелевские множества К борелевским множествам относятся: • открытые и замкнутые множества; • интервалы вида (a, b), [a, b], (a, b], [a, b); • лучи (−∞, x], (−∞, x), (x, ∞), [x, ∞); • счетные объединения, пересечения и дополнения таких множеств. 2.9 Выражение основных борелевских множеств через лучи (−∞, x] Один из важных фактов состоит в том, что борелевскую σ-алгебру можно породить только лучами вида (−∞, x]. Утверждение 2.5.  B(R) = σ {(−∞, x] : x ∈ R} . Доказательство. Обозначим  C = σ {(−∞, x] : x ∈ R} . Покажем, что все открытые интервалы принадлежат C. Достаточно, потому что открытые интервалы порождают B(R). Сначала заметим: ∞ [ (−∞, x) = (−∞, x − n1 ] ∈ C. n=1 Тогда [x, ∞) = (−∞, x) ∈ C. Далее (a, b] = (−∞, b] ∩ (a, ∞), а (a, ∞) = (−∞, a] ∈ C, значит (a, b] ∈ C. Теперь (a, b) = ∞ [ a, b − 1 n  ∈ C. n=1 Следовательно, все открытые интервалы лежат в C, значит B(R) ⊂ C. Обратное включение очевидно, так как каждый луч (−∞, x] борелевский. Поэтому C ⊂ B(R). Итак, B(R) = C. 20
2.10 Полезные представления множеств через лучи (−∞, x) = ∞ [ (−∞, x − n1 ], n=1 [x, ∞) = (−∞, x), (x, ∞) = (−∞, x], [a, b] = (−∞, b] ∩ [a, ∞), (a, b] = (−∞, b] ∩ (a, ∞), (a, b) = (−∞, b) ∩ (a, ∞). 3 3.1 Билет 3. Следствия аксиом Колмогорова и эквивалентность аксиом Вероятность невозможного события Утверждение 3.1. В любом вероятностном пространстве P(∅) = 0. Доказательство. Так как Ω = Ω ⊔ ∅, то по аддитивности P(Ω) = P(Ω) + P(∅). Но P(Ω) = 1. Следовательно, P(∅) = 0. 3.2 Сумма вероятностей события и его отрицания Утверждение 3.2. Для любого события A ∈ F P(A) + P(A) = 1. Доказательство. Так как A ∩ A = ∅, A ∪ A = Ω, то по аддитивности P(A) + P(A) = P(Ω) = 1. 21
3.3 Вероятность суммы двух событий Утверждение 3.3. Для любых событий A, B ∈ F P(A ∪ B) = P(A) + P(B) − P(A ∩ B). Доказательство. Разобьем A ∪ B на непересекающиеся части: A ∪ B = A ⊔ (B \ A). Поэтому P(A ∪ B) = P(A) + P(B \ A). Но B = (B \ A) ⊔ (A ∩ B), значит P(B) = P(B \ A) + P(A ∩ B), то есть P(B \ A) = P(B) − P(A ∩ B). Подставляя, получаем P(A ∪ B) = P(A) + P(B) − P(A ∩ B). 3.4 Монотонность вероятности Утверждение 3.4. Если A ⊂ B, то P(A) ≤ P(B). Доказательство. Если A ⊂ B, то B = A ⊔ (B \ A). Поэтому P(B) = P(A) + P(B \ A) ≥ P(A). 3.5 Оценки для вероятности Следствие 3.1. Для любых A, B: P(A ∩ B) ≤ P(A), P(A ∩ B) ≤ P(B), P(A ∪ B) ≤ P(A) + P(B). Доказательство. Первое следует из включения A ∩ B ⊂ A и A ∩ B ⊂ B. Второе — из формулы P(A ∪ B) = P(A) + P(B) − P(A ∩ B) ≤ P(A) + P(B). 22
3.6 Аксиома непрерывности Есть две формы непрерывности вероятностной меры. Теорема 3.1 (непрерывность снизу). Если A1 ⊂ A2 ⊂ · · · , A= ∞ [ An , n=1 то P(An ) ↑ P(A), lim P(An ) = P(A). n→∞ Доказательство. Положим Bn = An \ An−1 B1 = A1 , (n ≥ 2). Тогда множества Bn попарно не пересекаются, и n [ An = Bk , A= k=1 ∞ [ Bk . k=1 По σ-аддитивности: P(An ) = n X P(Bk ), P(A) = ∞ X P(Bk ). k=1 k=1 Частичные суммы сходятся к полному ряду, значит lim P(An ) = P(A). n→∞ Теорема 3.2 (непрерывность сверху). Если A1 ⊃ A2 ⊃ · · · , A= ∞ \ An , n=1 то P(An ) ↓ P(A), lim P(An ) = P(A). n→∞ Доказательство. Рассмотрим дополнения: A1 ⊂ A2 ⊂ · · · , ∞ [ An = A. n=1 По непрерывности снизу P(An ) → P(A). Используя формулу P(An ) = 1 − P(An ), P(A) = 1 − P(A), получаем 1 − P(An ) → 1 − P(A), то есть P(An ) → P(A). 23
3.7 Следствия аксиомы непрерывности Следствие 3.2. Если An ↓ ∅, то P(An ) → 0. Доказательство. Это частный случай непрерывности сверху при A = ∅, а P(∅) = 0. Следствие 3.3. Если An ↑ Ω, то P(An ) → 1. Доказательство. Это частный случай непрерывности снизу. 3.8 Эквивалентность аксиом Теорема 3.3. Предположим, что функция P на σ-алгебре F удовлетворяет: 1) P(Ω) = 1; 2) конечной аддитивности: если A ∩ B = ∅, то P(A ∪ B) = P(A) + P(B); 3) непрерывности сверху в нуле: если An ↓ ∅, то P(An ) → 0. Тогда P σ-аддитивна. Доказательство. Пусть A1 , A2 , . . . — попарно непересекающиеся события. Обозначим n [ Sn = Ak , S= k=1 ∞ [ Ak . k=1 По конечной аддитивности P(Sn ) = n X P(Ak ). k=1 Рассмотрим убывающую последовательность Bn = S \ Sn = ∞ [ Ak . k=n+1 Тогда Bn ↓ ∅, поэтому по непрерывности P(Bn ) → 0. Но S = Sn ⊔ Bn , откуда по конечной аддитивности P(S) = P(Sn ) + P(Bn ). Переходя к пределу, получаем P(S) = lim P(Sn ) = lim n→∞ n→∞ То есть выполнена σ-аддитивность. 24 n X k=1 P(Ak ) = ∞ X k=1 P(Ak ).
Теорема 3.4. Если вероятность σ-аддитивна, то она обладает конечной аддитивностью и непрерывностью. Доказательство. Конечная аддитивность является частным случаем σ-аддитивности. Непрерывность снизу и сверху уже была доказана выше как следствие σ-аддитивности. 3.9 Пример аддитивной, но не σ-аддитивной меры Рассмотрим пространство F = 2N . Ω = N, Определим функцию ( 0, если A конечно, µ(A) = 1, если A бесконечно. Утверждение 3.5. µ конечно аддитивна на попарно непересекающихся множествах, но не σ-аддитивна. Доказательство. Пусть A ∩ B = ∅. • Если A и B конечны, то A ∪ B конечно, и µ(A ∪ B) = 0 = 0 + 0 = µ(A) + µ(B). • Если одно из множеств бесконечно, а другое конечно, то A ∪ B бесконечно, и µ(A ∪ B) = 1 = 1 + 0 или 1 = 0 + 1. • Случай двух бесконечных непересекающихся множеств невозможен для конечной аддитивности со значениями вероятности, если бы мы требовали сумму 1 + 1. Поэтому данная функция на самом деле не является вероятностью, но служит примером конечно-аддитивной меры на определенных классах задач лишь в слабом смысле. Для более стандартного примера лучше использовать асимптотическую плотность или банахов предел. Однако удобнее привести стандартный контрпример на N с помощью функционала, продолжающего предел. В учебных курсах обычно допускается формулировка: существует конечно-аддитивная вероятность m на 2N , такая что m({n}) = 0 для всех n, Тогда N= ∞ [ m(N) = 1. {n}, n=1 но m(N) = 1 ̸= ∞ X n=1 то есть σ-аддитивность нарушается. 25 m({n}) = 0,
Замечание 3.1. Если на экзамене попросят конкретный пример, безопасно сказать: существует конечно-аддитивная вероятность на 2N , продолжающая естественную плотность, и указать, что на одноточечных множествах она равна нулю, а на всей N равна единице. Этого обычно достаточно, если курс не требует построения через аксиому выбора. 4 Билет 4. Независимость, условная вероятность, полная вероятность, Байес 4.1 Условная вероятность Определение 4.1. Пусть B ∈ F и P(B) > 0. Тогда условной вероятностью события A при условии B называется число P(A | B) = 4.2 P(A ∩ B) . P(B) Смысл условной вероятности Если известно, что событие B произошло, то пространство исходов как бы сужается до B, и мы измеряем, какую часть внутри B занимает событие A ∩ B. 4.3 Свойства условной вероятности Утверждение 4.1. При фиксированном B с P(B) > 0 функция A 7→ P(A | B) является вероятностью на (Ω, F). Доказательство. 1) Неотрицательность очевидна: P(A | B) = 2) Нормировка: P(Ω | B) = P(A ∩ B) ≥ 0. P(B) P(Ω ∩ B) P(B) = = 1. P(B) P(B) 3) Пусть A1 , A2 , . . . попарно не пересекаются. Тогда и множества A1 ∩ B, A2 ∩ B, . . . тоже попарно не пересекаются, поэтому  P ∞ [  P (∪ A ) ∩ B  P ∪n (An ∩ B) P(An ∩ B) X n n P An | B = = = n = P(An | B). P(B) P(B) P(B) n n=1 26
4.4 Формула умножения Утверждение 4.2. Если P(B) > 0, то P(A ∩ B) = P(B)P(A | B). Если также P(A) > 0, то P(A ∩ B) = P(A)P(B | A). Доказательство. Непосредственно из определения: P(A | B) = P(A ∩ B) . P(B) Умножая на P(B), получаем первую формулу. Вторая доказывается аналогично. 4.5 Независимые события Определение 4.2. События A и B называются независимыми, если P(A ∩ B) = P(A)P(B). 4.6 Связь независимости и условной вероятности Утверждение 4.3. Если P(B) > 0, то события A и B независимы тогда и только тогда, когда P(A | B) = P(A). Доказательство. Действительно, P(A | B) = P(A ∩ B) . P(B) Поэтому P(A | B) = P(A) ⇐⇒ P(A ∩ B) = P(A) ⇐⇒ P(A ∩ B) = P(A)P(B). P(B) Замечание 4.1. Независимость не означает несовместность. Наоборот, при положительных вероятностях независимые события обычно могут происходить одновременно. Пример 4.1. При двух бросках монеты: • A: на первом броске выпал герб; • B: на втором броске выпал герб. Тогда 1 P(A) = P(B) = , 2 Значит, A и B независимы. P(A ∩ B) = 27 1 1 1 = · . 4 2 2
4.7 Полная группа событий Определение 4.3. События H1 , . . . , Hn образуют полную группу событий, если 1) Hi ∩ Hj = ∅ при i ̸= j; 2) n [ Hi = Ω; i=1 3) обычно предполагают P(Hi ) > 0 для всех i. 4.8 Формула полной вероятности Теорема 4.1. Пусть H1 , . . . , Hn — полная группа событий, P(Hi ) > 0. Тогда для любого события A n X P(A) = P(Hi )P(A | Hi ). i=1 Доказательство. Так как Ω= n G Hi , i=1 то n G A=A∩Ω=A∩ i=1 По аддитивности P(A) = n X  Hi = n G (A ∩ Hi ). i=1 P(A ∩ Hi ). i=1 Используя формулу умножения, P(A ∩ Hi ) = P(Hi )P(A | Hi ), получаем P(A) = n X P(Hi )P(A | Hi ). i=1 4.9 Формула Байеса Теорема 4.2. Пусть H1 , . . . , Hn — полная группа событий, P(Hi ) > 0, и P(A) > 0. Тогда P(Hk )P(A | Hk ) P(Hk | A) = Pn . i=1 P(Hi )P(A | Hi ) Доказательство. По определению условной вероятности P(Hk | A) = P(Hk ∩ A) . P(A) По формуле умножения P(Hk ∩ A) = P(Hk )P(A | Hk ). 28
По формуле полной вероятности P(A) = n X P(Hi )P(A | Hi ). i=1 Подставляя, получаем 4.10 P(Hk )P(A | Hk ) P(Hk | A) = Pn . i=1 P(Hi )P(A | Hi ) Типовой пример на Байеса Пусть есть два станка: P(H1 ) = 0.6, P(H2 ) = 0.4. Первый дает брак с вероятностью 0.01, второй — с вероятностью 0.03. Пусть A — событие “изделие браковано”. Тогда P(A) = 0.6 · 0.01 + 0.4 · 0.03 = 0.018. Вероятность того, что бракованное изделие изготовлено вторым станком: P(H2 | A) = 4.11 2 0.4 · 0.03 = . 0.018 3 Независимость нескольких событий Определение 4.4. События A1 , . . . , An называются независимыми в совокупности, если для любого набора различных индексов i1 , . . . , ik P(Ai1 ∩ · · · ∩ Aik ) = P(Ai1 ) · · · P(Aik ). Замечание 4.2. Попарная независимость не равносильна независимости в совокупности. 5 Билет 5. Схема Бернулли, точные и предельные формулы 5.1 Схема Бернулли Определение 5.1. Схема Бернулли — это последовательность из n независимых одинаково распределенных испытаний, в каждом из которых возможны два исхода: • успех с вероятностью p; • неудача с вероятностью q = 1 − p. Пусть Sn — число успехов в n испытаниях. 29
5.2 Точная формула Бернулли Теорема 5.1. Вероятность того, что в n испытаниях произойдет ровно k успехов, равна   n k n−k P(Sn = k) = p q , k = 0, 1, . . . , n. k Доказательство. Рассмотрим конкретную последовательность из n испытаний, в которой успех произошел ровно k раз. Благодаря независимости испытаний вероятность этой последовательности равна pk q n−k . Число таких последовательностей равно числу способов выбрать, в каких именно k местах стоят успехи:   n . k Эти последовательности попарно несовместны, поэтому   n k n−k P(Sn = k) = p q . k 5.3 Точная глобальная формула Утверждение 5.1. Для любых целых 0 ≤ a ≤ b ≤ n b   X n k n−k P(a ≤ Sn ≤ b) = p q . k k=a Доказательство. События {Sn = k}, k = a, . . . , b, попарно несовместны, поэтому P(a ≤ Sn ≤ b) = b X P(Sn = k). k=a Теперь остается подставить формулу Бернулли. 5.4 Наиболее вероятное число успехов Теорема 5.2. Наиболее вероятное число успехов m в схеме Бернулли удовлетворяет условию m ∈ {⌊(n + 1)p⌋} если (n + 1)p ∈ / N, и m ∈ {(n + 1)p − 1, (n + 1)p} если (n + 1)p ∈ N. Доказательство. Рассмотрим отношение соседних вероятностей:  k+1 n−k−1 n p q P(Sn = k + 1) n−k p k+1  = = · . n k n−k P(Sn = k) k + 1 q p q k 30
Следовательно, P(Sn = k + 1) ≥ P(Sn = k) ⇐⇒ n−k p · ≥ 1. k+1 q Так как q = 1 − p, это равносильно (n − k)p ≥ (k + 1)q ⇐⇒ np − kp ≥ k + 1 − kp − p ⇐⇒ (n + 1)p ≥ k + 1. Итак, P(Sn = k + 1) ≥ P(Sn = k) ⇐⇒ k ≤ (n + 1)p − 1. Значит, последовательность вероятностей растет, пока k < (n + 1)p, и убывает после этого значения. Отсюда следует формулировка о максимуме. 5.5 Почему нужны предельные теоремы Точная формула   n k n−k P(Sn = k) = p q k прекрасна теоретически, но при больших n ею неудобно пользоваться: • биномиальные коэффициенты огромны; • вычисления громоздки; • часто нужны вероятности при больших n, где важнее приближенная асимптотика. Именно поэтому возникают локальная и интегральная теоремы Муавра–Лапласа, а также теорема Пуассона. 5.6 Локальная теорема Муавра–Лапласа Теорема 5.3. Пусть 0 < p < 1, q = 1 − p, и Sn ∼ Bin(n, p). Тогда для целых k, при n → ∞,     k − np n k n−k 1 φ √ P(Sn = k) = p q ∼√ , k npq npq где То есть 1 2 φ(x) = √ e−x /2 . 2π   1 (k − np)2 P(Sn = k) ≈ √ exp − . 2npq 2πnpq Замечание 5.1. Полное строгое доказательство обычно опирается на формулу Стирлинга  n n √ n! ∼ 2πn . e На экзамене чаще достаточно знать формулировку и идею вывода. 31
Идея вывода локальной теоремы Положим √ k = np + x npq, где x фиксирован. Подставляя в   n k n−k n! pk q n−k , p q = k!(n − k)! k и применяя формулу Стирлинга к n!, k!, (n−k)!, после логарифмирования и разложения по Тейлору получают 1 x2 ln P(Sn = k) = − ln(2πnpq) − + o(1). 2 2 Экспоненцируя, получаем P(Sn = k) ∼ √ 5.7 1 2 e−x /2 . 2πnpq Интегральная теорема Муавра–Лапласа Теорема 5.4. Пусть 0 < p < 1, q = 1 − p. Тогда для любых a < b   Sn − np P a≤ √ ≤ b → Φ(b) − Φ(a), n → ∞, npq где Z x 1 2 e−t /2 dt Φ(x) = √ 2π −∞ — функция распределения стандартного нормального закона. Смысл После центрирования и нормировки биномиальная случайная величина становится приблизительно нормальной: Sn − np ≈ N (0, 1). √ npq 5.8 Теорема Пуассона Теорема 5.5. Пусть Sn ∼ Bin(n, pn ), причем pn → 0, npn → λ > 0. Тогда для любого фиксированного k ∈ N ∪ {0} P(Sn = k) → e−λ λk . k! Доказательство. Имеем   n k P(Sn = k) = p (1 − pn )n−k . k n 32
Преобразуем:    k−1  n k n(n − 1) · · · (n − k + 1) k (npn )k Y j p = pn = 1− . k n k! k! j=0 n При n → ∞: k k (npn ) → λ , k−1 Y j=0 Кроме того, Так как pn → 0, то j 1− n  → 1. (1 − pn )n−k = (1 − pn )n (1 − pn )−k . (1 − pn )−k → 1. А из условия npn → λ следует стандартный предел: (1 − pn )n → e−λ . Следовательно, P(Sn = k) → e−λ 5.9 λk . k! Когда применять какую предельную теорему • Теорема Пуассона — когда p мало, n велико, а np умеренно. • Муавр–Лаплас — когда p не слишком близко к 0 и 1, а n велико. • Точная формула Бернулли — когда n не слишком велико или требуется точное значение. 5.10 Полиномиальная схема Определение 5.2. В полиномиальной схеме каждое испытание имеет r исходов с вероятностями r X p1 , . . . , p r , pi ≥ 0, pi = 1. i=1 Пусть Ni — число появлений i-го исхода в n независимых испытаниях. Тогда N1 + · · · + Nr = n, и P(N1 = k1 , . . . , Nr = kr ) = где k1 + · · · + kr = n. 33 n! pk1 · · · pkr r , k1 ! · · · kr ! 1
5.11 Локальная предельная теорема для полиномиальной схемы Замечание 5.2. В курсе обычно требуется формулировка без доказательства. Теорема 5.6 (формулировка). Пусть (N1 , . . . , Nr ) — вектор чисел появлений исходов в полиномиальной схеме. Тогда при больших n, если √ ki = npi + O( n), i = 1, . . . , r, совместные вероятности P(N1 = k1 , . . . , Nr = kr ) асимптотически аппроксимируются плотностью многомерного нормального распределения на гиперплоскости x1 + · · · + xr = n. Иными словами, центрированный и нормированный вектор частот имеет асимптотически нормальное распределение. 5.12 Что полезно говорить на экзамене по билету 5 • Точная формула Бернулли:   n k n−k P(Sn = k) = p q . k • Точная глобальная вероятность: b   X n k n−k P(a ≤ Sn ≤ b) = p q . k k=a • Наиболее вероятное число успехов связано с (n + 1)p. • При больших n биномиальное распределение приближается нормальным. • При малых p и np → λ биномиальное распределение приближается пуассоновским. 6 Короткий список формул для повторения P(A) = |A| |Ω| (классическая модель) µ(A) (геометрическая модель) µ(Ω) X P(A) = pi (дискретная модель) P(A) = ωi ∈A P(A) = 1 − P(A) 34
P(A ∪ B) = P(A) + P(B) − P(A ∩ B) P(A | B) = P(A ∩ B) P(B) P(A ∩ B) = P(B)P(A | B) P(A) = n X P(Hi )P(A | Hi ) i=1 P(Hk )P(A | Hk ) P(Hk | A) = Pn i=1 P(Hi )P(A | Hi )   n k n−k P(Sn = k) = p q k   (k − np)2 1 exp − P(Sn = k) ≈ √ 2npq 2πnpq P(Sn = k) → e−λ λk k! при pn → 0, npn → λ [12pt,a4paper]article [T2A]fontenc [utf8]inputenc [russian]babel amsmath,amssymb,amsthm,mathtools geometry enumitem mathrsfs bm margin=2.2cm Определение[section] Пример[section] Замечание[section] Теорема[section] Утверждение[section] Следствие[section] Подробные билеты 6–10 по теории вероятностей с доказательствами, выводами и формулами Содержание 7 7.1 Билет 6. Случайные величины Определение случайной величины Определение 7.1. Пусть (Ω, F, P) — вероятностное пространство. Отображение X:Ω→R называется случайной величиной, если для любого x ∈ R {ω ∈ Ω : X(ω) ≤ x} ∈ F. Это определение означает измеримость отображения X относительно σ-алгебры F на Ω и борелевской σ-алгебры на R. 35
7.2 Эквивалентные определения измеримости Утверждение 7.1. Для отображения X : Ω → R следующие условия эквивалентны: 1) для любого x ∈ R {X ≤ x} ∈ F; 2) для любого x ∈ R {X < x} ∈ F; 3) для любого x ∈ R {X ≥ x} ∈ F; 4) для любого x ∈ R {X > x} ∈ F; 5) для любого интервала I ⊂ R борелевского типа множество X −1 (I) ∈ F; 6) для любого борелевского множества B ∈ B(R) X −1 (B) ∈ F. Доказательство. Покажем цепочку эквивалентностей. Из 1) следует 2), так как {X < x} = ∞ [ {X ≤ x − n1 } ∈ F. n=1 Из 2) следует 1), так как {X ≤ x} = ∞ \ {X < x + n1 } ∈ F. n=1 Из 1) следует 3), так как {X ≥ x} = Ω \ {X < x} ∈ F. Из 3) следует 4), так как {X > x} = ∞ [ {X ≥ x + n1 } ∈ F. n=1 Из 1)–4) получаем измеримость прообразов полуинтервалов и лучей, а интервалы выражаются через них: (a, b] = {X ≤ b} ∩ {X > a}, (a, b) = {X < b} ∩ {X > a}, [a, b] = {X ≤ b} ∩ {X ≥ a}. Значит, прообразы всех таких множеств измеримы. Пусть теперь G = {B ⊂ R : X −1 (B) ∈ F}. Тогда G — σ-алгебра на R, поскольку: 36
• X −1 (R) = Ω ∈ F; • X −1 (B c ) = Ω \ X −1 (B); • X −1 ∞ [  Bn = n=1 ∞ [ X −1 (Bn ). n=1 Если прообразы всех лучей (−∞, x] измеримы, то G содержит систему, порождающую B(R). Следовательно, B(R) ⊂ G, то есть прообраз любого борелевского множества измерим. 7.3 Пример отображения, не являющегося случайной величиной Пример 7.1. Пусть F = {∅, Ω}. Ω = [0, 1], Рассмотрим отображение X(ω) = ω. Тогда, например, {X ≤ 1/2} = [0, 1/2]. Но [0, 1/2] ∈ / F. Следовательно, X не является случайной величиной. Замечание 7.1. Этот пример показывает, что не всякое числовое отображение на вероятностном пространстве является случайной величиной: нужно именно условие измеримости. 7.4 σ-алгебра, порожденная случайной величиной Определение 7.2. Для случайной величины X σ-алгеброй, порожденной X, называется σ(X) = {X −1 (B) : B ∈ B(R)}. Утверждение 7.2. σ(X) действительно является σ-алгеброй. Доказательство. Проверим свойства: 1) Ω = X −1 (R) ∈ σ(X). 2) Если A = X −1 (B) ∈ σ(X), то Ac = Ω \ X −1 (B) = X −1 (B c ) ∈ σ(X). 3) Если An = X −1 (Bn ) ∈ σ(X), то ∞ [ n=1 An = ∞ [ X −1 (Bn ) = X n=1 −1 ∞ [ n=1 37  Bn ∈ σ(X).
Следовательно, σ(X) — σ-алгебра. Утверждение 7.3. σ(X) есть наименьшая σ-алгебра, относительно которой X измерима. Доказательство. Во-первых, X измерима относительно σ(X) по определению: прообраз любого борелевского множества лежит в σ(X). Во-вторых, пусть A — любая σ-алгебра, относительно которой X измерима. Тогда для всякого борелевского B X −1 (B) ∈ A. Значит, σ(X) ⊂ A. Следовательно, σ(X) минимальна. 7.5 σ-алгебра, порожденная постоянной случайной величиной Утверждение 7.4. Если X(ω) ≡ c, то σ(X) = {∅, Ω}. Доказательство. Пусть B ∈ B(R). Тогда ( Ω, c ∈ B, X −1 (B) = ∅, c ∈ / B. Следовательно, все множества вида X −1 (B) суть либо ∅, либо Ω. Значит, σ(X) = {∅, Ω}. 7.6 Замкнутость случайных величин относительно арифметических операций Теорема 7.1. Если X и Y — случайные величины на одном вероятностном пространстве, то следующие функции также являются случайными величинами: X + Y, X − Y, XY. Если, кроме того, P(Y = 0) = 0, то величина X Y корректно определена почти наверное и также является случайной величиной на множестве {Y ̸= 0}. 38
Доказательство. Достаточно доказать измеримость. 1. Сумма. Для любого a ∈ R [  {X + Y < a} = {X < r} ∩ {Y < a − r} . r∈Q Действительно, если X(ω) + Y (ω) < a, то можно выбрать рациональное r так, что X(ω) < r < a − Y (ω). Обратно, из X < r, Y <a−r следует X + Y < a. Так как множество рациональных чисел счетно, а множества {X < r} и {Y < a − r} измеримы, то и {X + Y < a} ∈ F. 2. Разность. Так как −Y измерима, а X − Y = X + (−Y ), то X − Y измерима. 3. Произведение. Используем тождество (X + Y )2 − (X − Y )2 . 4 Поэтому достаточно доказать измеримость квадрата. Но функция XY = g(x) = x2 непрерывна, значит борелевская, следовательно, g(X) = X 2 — случайная величина. Тогда и XY — случайная величина. 4. Частное. На множестве {Y ̸= 0} функция h(x, y) = x/y непрерывна. Либо можно заметить, что функция u(y) = 1/y борелевская на R \ {0}, поэтому (1/Y )1{Y ̸=0} измерима, и тогда 1 X =X· Y Y измерима на {Y ̸= 0}. 7.7 Борелевские функции Определение 7.3. Функция g:R→R называется борелевской, если для любого борелевского множества B ⊂ R g −1 (B) ∈ B(R). Пример 7.2. Всякая непрерывная функция борелевская. Доказательство. Прообраз открытого множества при непрерывном отображении открыт, а открытые множества порождают борелевскую σ-алгебру. Следовательно, прообраз всякого борелевского множества борелевский. 39
7.8 Борелевская функция от случайной величины Теорема 7.2. Если X — случайная величина, а g : R → R — борелевская функция, то g(X) тоже является случайной величиной. Доказательство. Для любого B ∈ B(R) {ω : g(X(ω)) ∈ B} = {ω : X(ω) ∈ g −1 (B)} = X −1 (g −1 (B)). Так как g −1 (B) ∈ B(R), а X измерима, то X −1 (g −1 (B)) ∈ F. Следовательно, g(X) измерима. Замечание 7.2. Именно это утверждение лежит в основе почти всех операций со случайными величинами: сумма, произведение, максимум, минимум, модуль, степень, тригонометрические функции и т.д. 8 Билет 7. Дискретные случайные величины 8.1 Определение дискретной случайной величины Определение 8.1. Случайная величина X называется дискретной, если существует конечное или счетное множество чисел {xk } ⊂ R такое, что P(X ∈ {x1 , x2 , . . . }) = 1. Эквивалентно: P(X = xk ) = pk , pk ≥ 0, X pk = 1. k Последовательность значений xk и вероятностей pk называется законом распределения дискретной случайной величины. 8.2 Постоянная случайная величина Определение 8.2. Если X(ω) ≡ c, то X называется постоянной случайной величиной. Ее распределение: P(X = c) = 1. 40
8.3 Индикатор события Определение 8.3. Для события A ∈ F индикатором называется случайная величина ( 1, ω ∈ A, 1A (ω) = 0, ω ∈ / A. Утверждение 8.1. 1A является дискретной случайной величиной и P(1A = 0) = 1 − P(A). P(1A = 1) = P(A), Доказательство. Имеем {1A = 0} = Ac ∈ F. {1A = 1} = A ∈ F, Следовательно, 1A измерима и принимает лишь два значения 0 и 1. 8.4 Дискретная равномерная случайная величина Определение 8.4. Случайная величина X называется равномерной на конечном множестве {a1 , . . . , an }, если P(X = ak ) = 1 , n k = 1, . . . , n. Частный случай: X ∼ U {1, . . . , n}. 8.5 Распределение Бернулли Определение 8.5. Случайная величина X имеет распределение Бернулли с параметром p ∈ [0, 1], если P(X = 1) = p, P(X = 0) = 1 − p. Обозначают X ∼ Bern(p). Смысл: X кодирует успех в одном испытании. 8.6 Биномиальное распределение Определение 8.6. Случайная величина X имеет биномиальное распределение с параметрами n ∈ N, p ∈ [0, 1], если   n k P(X = k) = p (1 − p)n−k , k = 0, 1, . . . , n. k Обозначают X ∼ Bin(n, p). Смысл: X — число успехов в n независимых испытаниях Бернулли. 41
8.7 Почему биномиальная формула корректна Утверждение 8.2. n   X n k p (1 − p)n−k = 1. k k=0 Доказательство. По формуле бинома Ньютона: n (p + (1 − p)) = n   X n k k=0 8.8 pk (1 − p)n−k = 1n = 1. Пуассоновская случайная величина Определение 8.7. Случайная величина X имеет распределение Пуассона с параметром λ > 0, если λk k = 0, 1, 2, . . . P(X = k) = e−λ , k! Обозначают X ∼ Pois(λ). Смысл: число редких событий за фиксированный промежуток времени, объема, площади и т.п. Утверждение 8.3. Ряд вероятностей действительно суммируется в 1: ∞ X e−λ k=0 Доказательство. ∞ X k=0 8.9 −λ λ e k k! −λ =e λk = 1. k! ∞ X λk k=0 k! = e−λ eλ = 1. Геометрическая случайная величина Существует две договоренности. В курсе чаще используют одну из них; полезно знать обе. Определение 8.8. Геометрическое распределение с параметром p ∈ (0, 1): 1) либо X — номер первого успеха: P(X = k) = (1 − p)k−1 p, k = 1, 2, . . . ; 2) либо Y — число неудач до первого успеха: P(Y = k) = (1 − p)k p, k = 0, 1, 2, . . . . Смысл: ожидание первого успеха в последовательности независимых испытаний. 42
Утверждение 8.4. Для варианта 1) ∞ X (1 − p)k−1 p = 1. k=1 Доказательство. Это геометрическая прогрессия: ∞ ∞ X X k−1 (1 − p) p = p (1 − p)m = p · k=1 8.10 m=0 1 = 1. 1 − (1 − p) Гипергеометрическая случайная величина Определение 8.9. Пусть в совокупности из N объектов имеется M “успешных” и N −M “неуспешных”. Из совокупности выбирают n объектов без возвращения. Тогда число успехов X в выборке имеет гипергеометрическое распределение:   M N −M P(X = k) = k n−k  N n , где допустимы те k, для которых все биномиальные коэффициенты определены. Смысл: число белых шаров среди n шаров, вынутых без возвращения из урны. Утверждение 8.5. Формула гипергеометрического распределения корректна. Доказательство. Общее число способов выбрать n объектов из N :   N . n Чтобы получить ровно k успехов, надо выбрать k объектов из M успешных и n − k из N − M неуспешных:    M N −M . k n−k Делим число благоприятных исходов на общее число исходов. 8.11 Отрицательная биномиальная случайная величина Определение 8.10. Случайная величина X имеет отрицательное биномиальное распределение с параметрами r ∈ N, p ∈ (0, 1), если X — номер испытания, в котором произошел r-й успех. Тогда   k−1 r P(X = k) = p (1 − p)k−r , k = r, r + 1, . . . r−1 Смысл: сколько испытаний нужно провести до появления r-го успеха. Утверждение 8.6. Формула отрицательного биномиального распределения верна. Доказательство. Чтобы r-й успех произошел ровно в испытании номер k, необходимо: 1) в первых k − 1 испытаниях получить ровно r − 1 успехов; 43
2) в k-м испытании получить успех. Число способов расположить r − 1 успехов в первых k − 1 испытаниях равно   k−1 . r−1 Вероятность любой такой последовательности: pr−1 (1 − p)(k−1)−(r−1) · p = pr (1 − p)k−r . Перемножая, получаем нужную формулу. 8.12 Сводка по смыслу основных дискретных распределений • Bern(p) — один успех/неуспех. • Bin(n, p) — число успехов в n независимых испытаниях. • Pois(λ) — число редких событий. • Геометрическое — момент первого успеха. • Гипергеометрическое — число успехов при выборе без возвращения. • Отрицательное биномиальное — момент r-го успеха. 9 Билет 8. Функция распределения 9.1 Определение функции распределения Определение 9.1. Функцией распределения случайной величины X называется функция FX (x) = P(X ≤ x), x ∈ R. Иногда пишут просто F (x), если ясно, о какой случайной величине идет речь. 9.2 Область определения FX : R → [0, 1]. То есть функция распределения определена на всей числовой прямой. 44
9.3 Основные свойства функции распределения Теорема 9.1. Для любой случайной величины X ее функция распределения F обладает свойствами: 1) 0 ≤ F (x) ≤ 1 для всех x ∈ R; 2) F неубывает: x1 < x2 =⇒ F (x1 ) ≤ F (x2 ); 3) F непрерывна справа: lim F (x + h) = F (x); h↓0 4) lim F (x) = 0, x→−∞ lim F (x) = 1. x→+∞ Доказательство. 1. По определению F (x) = P(X ≤ x), поэтому 0 ≤ F (x) ≤ 1. 2. Если x1 < x2 , то {X ≤ x1 } ⊂ {X ≤ x2 }. По монотонности вероятности F (x1 ) ≤ F (x2 ). 3. Рассмотрим убывающую последовательность событий An = {X ≤ x + 1/n}. Тогда An ↓ {X ≤ x}. По непрерывности вероятности сверху P(An ) → P(X ≤ x). То есть F (x + 1/n) → F (x). Это и есть правосторонняя непрерывность. 4. При x → −∞ события {X ≤ x} убывают к пустому множеству, поэтому F (x) → 0. При x → +∞ события {X ≤ x} возрастают к Ω, поэтому F (x) → 1. 45
9.4 Вероятности интервалов через функцию распределения Утверждение 9.1. Для любых a < b верны формулы: P(a < X ≤ b) = F (b) − F (a), P(a ≤ X ≤ b) = F (b) − F (a−), P(a < X < b) = F (b−) − F (a), P(a ≤ X < b) = F (b−) − F (a−), где F (x−) = lim F (t). t↑x Доказательство. Например, {a < X ≤ b} = {X ≤ b} \ {X ≤ a}. Причем {X ≤ a} ⊂ {X ≤ b}. Следовательно, P(a < X ≤ b) = P(X ≤ b) − P(X ≤ a) = F (b) − F (a). Остальные формулы доказываются аналогично, используя события {X < a} и пределы слева. 9.5 Скачки функции распределения Утверждение 9.2. Для любой точки x ∈ R P(X = x) = F (x) − F (x−). Доказательство. Имеем {X = x} = {X ≤ x} \ {X < x}. Причем {X < x} = ∞ [ {X ≤ x − n1 }, n=1 поэтому P(X < x) = F (x−). Значит, P(X = x) = F (x) − F (x−). 46
9.6 Достаточность свойств функции распределения Теорема 9.2. Пусть функция F : R → R удовлетворяет условиям: 1) F неубывает; 2) F непрерывна справа; 3) lim F (x) = 0, x→−∞ lim F (x) = 1. x→+∞ Тогда существует случайная величина X, для которой F (x) = P(X ≤ x) для всех x ∈ R. Замечание 9.1. Это фундаментальный факт существования распределения по функции распределения. В полном виде его обычно доказывают через построение вероятностной меры на полуинтервалах (a, b] по правилу µ((a, b]) = F (b) − F (a), а затем продолжают меру до борелевской σ-алгебры. На базовом экзамене обычно достаточно корректной формулировки и понимания, почему свойства именно такие. 9.7 Функция распределения дискретной случайной величины Утверждение 9.3. Если дискретная случайная величина X принимает значения x1 , x2 , . . . с вероятностями p1 , p2 , . . ., то X pk . FX (x) = k: xk ≤x Доказательство. По определению FX (x) = P(X ≤ x). Событие {X ≤ x} состоит в том, что X приняла одно из значений xk ≤ x. Эти события попарно несовместны, поэтому X X P(X ≤ x) = P(X = xk ) = pk . k: xk ≤x k: xk ≤x Замечание 9.2. Следовательно, функция распределения дискретной случайной величины ступенчатая, а величина скачка в точке xk равна P(X = xk ). Пример 9.1. Если P(X = 0) = 0.3, то P(X = 1) = 0.5,  0,    0.3, FX (x) =  0.8,    1, 47 P(X = 2) = 0.2, x < 0, 0 ≤ x < 1, 1 ≤ x < 2, x ≥ 2.
10 10.1 Билет 9. Абсолютно непрерывные случайные величины Определение Определение 10.1. Случайная величина X называется абсолютно непрерывной, если существует неотрицательная интегрируемая функция f : R → [0, ∞) такая, что для любого x ∈ R Z x FX (x) = P(X ≤ x) = f (t) dt. −∞ Функция f называется плотностью случайной величины X. 10.2 Свойства плотности Утверждение 10.1. Если f — плотность, то Z f (x) ≥ 0 ∞ f (x) dx = 1. почти всюду, −∞ Доказательство. Неотрицательность следует из неубывания функции распределения: Z b f (t) dt ≥ 0 F (b) − F (a) = a для любых a < b, значит f ≥ 0 почти всюду. Далее, Z ∞ Z x f (x) dx = lim f (t) dt = lim F (x) = 1. −∞ 10.3 x→∞ −∞ x→∞ Физический смысл случайной величины Случайная величина численно кодирует результат случайного эксперимента. В непрерывной модели плотность f (x) показывает не вероятность конкретного значения x, а локальную концентрацию вероятности около этой точки. 10.4 Вероятности основных борелевских множеств через функцию распределения Для любой случайной величины X с функцией распределения F : P(X ≤ x) = F (x), P(X < x) = F (x−), P(X > x) = 1 − F (x), P(X ≥ x) = 1 − F (x−), P(a < X ≤ b) = F (b) − F (a), P(a ≤ X ≤ b) = F (b) − F (a−). 48
10.5 Вероятности в абсолютно непрерывном случае через плотность Если X имеет плотность f , то b Z P(a ≤ X ≤ b) = f (x) dx. a Точнее, для любых a < b Z P(a < X ≤ b) = P(a ≤ X ≤ b) = P(a < X < b) = P(a ≤ X < b) = b f (x) dx. a Доказательство. Так как Z b F (b) − F (a) = f (x) dx, a то Z b P(a < X ≤ b) = F (b) − F (a) = f (x) dx. a Остается заметить, что для абсолютно непрерывной величины P(X = a) = P(X = b) = 0. Действительно, Z P(X = a) = F (a) − F (a−) = a f (x) dx = 0. a Поэтому включение или исключение концов интервала вероятности не меняет. 10.6 Вероятность попадания в произвольное борелевское множество Утверждение 10.2. 1) Если X дискретна и P(X = xk ) = pk , то для любого борелевского множества B ⊂ R X P(X ∈ B) = pk . k: xk ∈B 2) Если X абсолютно непрерывна с плотностью f , то Z P(X ∈ B) = f (x) dx. B 3) В общем случае распределение X задает вероятностную меру µX (B) = P(X ∈ B), 49 B ∈ B(R).
Доказательство. 1) Событие {X ∈ B} равносильно тому, что X приняла одно из значений xk ∈ B. Эти события попарно несовместны, значит X P(X ∈ B) = P(X = xk ). k: xk ∈B 2) В абсолютно непрерывном случае равенство сначала проверяют на интервалах, а затем распространяют на всю борелевскую σ-алгебру стандартным теоретико-мерным продолжением. 3) Пункт 3) просто фиксирует, что закон распределения есть мера образа: µX (B) = P(X −1 (B)). 10.7 Абсолютная непрерывность бросания точки на [0, 1] Пример 10.1. Пусть точка равномерно бросается на [0, 1]. Тогда координата X имеет плотность ( 1, x ∈ [0, 1], f (x) = 0, x ∈ / [0, 1]. Соответственно,   0, x < 0, F (x) = x, 0 ≤ x ≤ 1,   1, x > 1. Доказательство. Для x < 0 событие {X ≤ x} невозможно, значит F (x) = 0. Для 0≤x≤1 x P(X ≤ x) = P(X ∈ [0, x]) = = x. 1 Для x > 1 событие {X ≤ x} достоверно, значит F (x) = 1. 10.8 Равномерное распределение на [a, b] Определение 10.2. Случайная величина X имеет равномерное распределение на [a, b], где a < b, если ее плотность равна   1 , x ∈ [a, b], f (x) = b − a 0, x∈ / [a, b]. Тогда функция распределения:   0, x < a,  x − a , a ≤ x ≤ b, F (x) = b − a   1, x > b. Доказательство. Интегрируем плотность: Z F (x) = x −∞ 50 f (t) dt.
Если x < a, интеграл равен нулю. Если a ≤ x ≤ b, то Z x 1 x−a F (x) = dt = . b−a a b−a Если x > b, то Z F (x) = a 10.9 b 1 dt = 1. b−a Экспоненциальное распределение Определение 10.3. Случайная величина X имеет экспоненциальное распределение с параметром λ > 0, если ( λe−λx , x ≥ 0, f (x) = 0, x < 0. Тогда ( 0, x < 0, F (x) = −λx 1 − e , x ≥ 0. Доказательство. Для x < 0 ясно, что F (x) = 0. Для x ≥ 0 Z x  x F (x) = λe−λt dt = −e−λt 0 = 1 − e−λx . 0 Смысл: время ожидания редкого события в пуассоновском потоке, время безотказной работы при постоянной интенсивности отказов. 10.10 Распределение Коши Определение 10.4. Случайная величина X имеет распределение Коши, если f (x) = 1 , π(1 + x2 ) Тогда F (x) = Доказательство. Z x F (x) = −∞ 1 1 dt = 2 π(1 + t ) π Z x −∞ x ∈ R. 1 1 + arctan x. 2 π dt 1 π 1 1 = arctan x + = + arctan x. 1 + t2 π 2 2 π 51
10.11 Нормальное распределение Определение 10.5. Случайная величина X имеет нормальное распределение с параметрами a ∈ R, σ > 0, если ее плотность имеет вид   (x − a)2 1 , x ∈ R. f (x) = √ exp − 2σ 2 σ 2π Обозначение: X ∼ N (a, σ 2 ). Смысл: модель суммарного действия большого числа малых независимых факторов. 10.12 Стандартная нормальная случайная величина Определение 10.6. Если a = 0, σ = 1, то получаем стандартное нормальное распределение: 1 2 φ(x) = √ e−x /2 . 2π Z ∼ N (0, 1), Его функция распределения обозначается Z Φ(x) = x φ(t) dt. −∞ Замечание 10.1. Элементарной первообразной у φ нет, поэтому Φ обычно оставляют в интегральном виде. 11 11.1 Билет 10. Сингулярные распределения и независимость случайных величин Сингулярная случайная величина Определение 11.1. Случайная величина X называется сингулярной, если ее функция распределения непрерывна, но сосредоточена на множестве нулевой меры Лебега. Эквивалентно: существует борелевское множество S ⊂ R такое, что λ(S) = 0, P(X ∈ S) = 1, и при этом у распределения нет атомов: P(X = x) = 0 для всех x ∈ R. 11.2 Корректность определения Замечание 11.1. Определение корректно, потому что непрерывность функции распределения исключает атомы, а сосредоточенность на множестве нулевой меры исключает абсолютную непрерывность относительно меры Лебега. Значит, это действительно особый тип распределения, отличный и от дискретного, и от абсолютно непрерывного. 52
11.3 Канторово распределение как пример сингулярного Пример 11.1. Классический пример сингулярной случайной величины — случайная величина с канторовым распределением. Замечание 11.2. Ее функция распределения непрерывна, возрастает от 0 до 1, но почти весь рост происходит на канторовом множестве, имеющем нулевую меру Лебега. 11.4 Теорема Лебега о представлении функции распределения Теорема 11.1 (формулировка). Всякая функция распределения F может быть единственным образом представлена в виде суммы трех составляющих: F (x) = αFd (x) + βFac (x) + γFs (x), где α, β, γ ≥ 0, α + β + γ = 1, Fd — функция распределения дискретной случайной величины, Fac — абсолютно непрерывной, Fs — сингулярной. Замечание 11.3. Это и есть разложение закона распределения на дискретную, абсолютно непрерывную и сингулярную части. 11.5 Пример случайной величины, не являющейся ни дискретной, ни абсолютно непрерывной, ни сингулярной Пример 11.2. Пусть X принимает значение 0 с вероятностью 1/2, а с вероятностью 1/2 имеет равномерное распределение на [0, 1]. Тогда закон X — смешанный. Для него 1 P(X = 0) = , 2 а на (0, 1] есть абсолютно непрерывная часть с плотностью 1 f (x) = , 2 x ∈ (0, 1]. Функция распределения имеет вид  0, x < 0,     1   , x = 0, F (x) = 21 x   + , 0 < x ≤ 1,    2 2 1, x > 1. Замечание 11.4. Такая случайная величина не дискретна, потому что вне одной точки есть непрерывная часть; не абсолютно непрерывна, потому что есть атом в нуле; не сингулярна, потому что имеется абсолютно непрерывная составляющая. 53
11.6 Независимые случайные величины Определение 11.2. Случайные величины X и Y называются независимыми, если для любых борелевских множеств A, B ⊂ R P(X ∈ A, Y ∈ B) = P(X ∈ A)P(Y ∈ B). Эквивалентно достаточно требовать это для всех полуинтервалов вида (−∞, x], 11.7 (−∞, y]. Почему достаточно проверять на лучах Замечание 11.5. Система множеств {(−∞, x]} порождает борелевскую σ-алгебру, поэтому независимость на такой порождающей системе продолжается на всю B(R) стандартной теоремой о π-λ-системах. 11.8 Независимость борелевских функций от независимых случайных величин Теорема 11.2. Пусть X и Y независимы, а f, g : R → R — борелевские функции. Тогда случайные величины f (X) и g(Y ) тоже независимы. Доказательство. Возьмем произвольные борелевские множества A, B ⊂ R. Тогда {f (X) ∈ A} = {X ∈ f −1 (A)}, Так как f и g борелевские, {g(Y ) ∈ B} = {Y ∈ g −1 (B)}. f −1 (A), g −1 (B) ∈ B(R). По независимости X и Y P(f (X) ∈ A, g(Y ) ∈ B) = P(X ∈ f −1 (A), Y ∈ g −1 (B)) = P(X ∈ f −1 (A))P(Y ∈ g −1 (B)) = P(f (X) ∈ A)P(g(Y ) ∈ B). Следовательно, f (X) и g(Y ) независимы. 11.9 Независимость постоянной случайной величины с любой случайной величиной Утверждение 11.1. Если X(ω) ≡ c, то X независима с любой случайной величиной Y . Доказательство. Пусть A, B ∈ B(R). Тогда ( P(Y ∈ B), c ∈ A, P(X ∈ A, Y ∈ B) = 0, c∈ / A. 54
С другой стороны, ( 1, c ∈ A, P(X ∈ A) = 0, c ∈ / A. Следовательно, P(X ∈ A, Y ∈ B) = P(X ∈ A)P(Y ∈ B). Значит, X и Y независимы. 11.10 Дополнительные полезные замечания • Для абсолютно непрерывной случайной величины P(X = x) = 0 для любого x ∈ R. • Для дискретной случайной величины функция распределения ступенчатая. • Для сингулярной случайной величины функция распределения непрерывна, но плотности в обычном смысле нет. • Общий закон распределения может быть смешанным. 12 Короткий список формул для повторения X случайная величина ⇐⇒ ∀x ∈ R : {X ≤ x} ∈ F σ(X) = {X −1 (B) : B ∈ B(R)} FX (x) = P(X ≤ x) P(a < X ≤ b) = FX (b) − FX (a) P(X = x) = FX (x) − FX (x−) X FX (x) = P(X = xk ) (дискретный случай) k: xk ≤x Z x FX (x) = f (t) dt (абсолютно непрерывный случай) −∞ Z P(X ∈ B) = (если есть плотность) f (x) dx B P(X ∈ A, Y ∈ B) = P(X ∈ A)P(Y ∈ B) (независимость) X ⊥ Y =⇒ f (X) ⊥ g(Y ) для борелевских f, g 55
[12pt,a4paper]article [T2A]fontenc [utf8]inputenc [russian]babel amsmath,amssymb,amsthm,mathtools geometry enumitem mathrsfs bm margin=2.2cm Определение[section] Пример[section] Замечание[section] Теорема[section] Утверждение[section] Лемма[section] Следствие[section] Var Cov sgn Подробные билеты 11–15 по теории вероятностей с доказательствами, выводами и основными формулами Содержание 13 13.1 Билет 11. Математическое ожидание Математическое ожидание конечной дискретной случайной величины Определение 13.1. Пусть случайная величина X принимает конечное число значений x1 , . . . , x n с вероятностями pk = P(X = xk ), k = 1, . . . , n. Тогда ее математическим ожиданием называется число EX = n X xk p k . k=1 Замечание 13.1. Это взвешенное среднее значений случайной величины с весами, равными их вероятностям. 13.2 Математическое ожидание дискретной случайной величины Определение 13.2. Пусть дискретная случайная величина X принимает счетное число значений x1 , x2 , . . . с вероятностями ∞ X pk = P(X = xk ), pk = 1. k=1 Если ряд ∞ X |xk |pk k=1 сходится, то математическое ожидание существует и определяется формулой EX = ∞ X k=1 56 xk p k .
Замечание 13.2. Условие абсолютной сходимости принципиально важно: без него сумма может зависеть от порядка членов или вообще не быть корректно определенной. 13.3 Математическое ожидание абсолютно непрерывной случайной величины Определение 13.3. Пусть случайная величина X имеет плотность f . Если интеграл Z ∞ |x|f (x) dx −∞ сходится, то математическое ожидание X определяется как Z ∞ xf (x) dx. EX = −∞ Замечание 13.3. Опять требуется абсолютная сходимость. Если Z ∞ |x|f (x) dx = ∞, −∞ то математическое ожидание в обычном смысле не существует. 13.4 Физический смысл математического ожидания Математическое ожидание — это центр тяжести распределения вероятности на прямой. Если в точках xk расположить массы pk , то центр масс системы будет равен X EX = xk p k . k Пример 13.1. Если то 1 P(X = 2) = , 2 1 P(X = 0) = , 2 1 1 + 2 · = 1. 2 2 Хотя значение 1 сама случайная величина не принимает, это ее центр тяжести. EX = 0 · 13.5 Математическое ожидание в терминах интеграла Лебега Определение 13.4. Пусть X ≥ 0 — случайная величина на вероятностном пространстве (Ω, F, P). Тогда Z EX = X(ω) dP(ω) ∈ [0, +∞]. Ω Для произвольной случайной величины X вводят положительную и отрицательную части: X + = max(X, 0), X − = max(−X, 0). Тогда X = X + − X −, |X| = X + + X − . 57
Определение 13.5. Если EX − < ∞, EX + < ∞, то случайная величина X называется интегрируемой, и ее математическое ожидание определяется как Z + − EX = EX − EX = X dP. Ω Утверждение 13.1. Случайная величина X интегрируема тогда и только тогда, когда E|X| < ∞. Доказательство. Так как |X| = X + + X − , то E|X| = EX + + EX − . Следовательно, E|X| < ∞ ⇐⇒ EX + < ∞ и EX − < ∞. Это и равносильно существованию EX. 13.6 Математическое ожидание через интеграл Стилтьеса Теорема 13.1. Пусть X — случайная величина с функцией распределения FX , причем E|X| < ∞. Тогда Z ∞ x dFX (x), EX = −∞ где интеграл понимается как интеграл Лебега–Стилтьеса. Замечание 13.4. Это удобная общая запись, объединяющая дискретный, абсолютно непрерывный и смешанный случаи. 13.7 Как из общей формулы получаются частные Утверждение 13.2. Если X дискретна и P(X = xk ) = pk , то Z ∞ x dFX (x) = −∞ X xk p k . k Замечание 13.5. В этом случае функция распределения имеет скачки, а интеграл Стилтьеса превращается в сумму по атомам распределения. Утверждение 13.3. Если X абсолютно непрерывна с плотностью f , то Z ∞ Z ∞ x dFX (x) = xf (x) dx. −∞ −∞ Замечание 13.6. Здесь dFX (x) = f (x) dx, поэтому интеграл Стилтьеса превращается в обычный интеграл Лебега по мере Лебега. 58
13.8 Свойства математического ожидания Теорема 13.2. Пусть X, Y — интегрируемые случайные величины, a, b ∈ R. Тогда: 1) Ec = c для постоянной c; 2) E(aX + bY ) = aEX + bEY ; 3) если X ≥ 0 почти наверное, то EX ≥ 0; 4) если X ≤ Y почти наверное, то EX ≤ EY ; 5) |EX| ≤ E|X|; 6) если A ∈ F, то E1A = P(A); 7) если X = Y почти наверное, то EX = EY. Доказательство. 1. Для постоянной c: Z c dP = cP(Ω) = c. Ec = Ω 2. Линейность интеграла Лебега: Z Z Z E(aX + bY ) = (aX + bY ) dP = a X dP + b Y dP = aEX + bEY. Ω Ω Ω 3. Если X ≥ 0, то интеграл неотрицательной функции неотрицателен. 4. Если X ≤ Y , то Y − X ≥ 0. По предыдущему пункту E(Y − X) ≥ 0. По линейности EY − EX ≥ 0, то есть EX ≤ EY. 5. Из неравенства −|X| ≤ X ≤ |X| по монотонности получаем −E|X| ≤ EX ≤ E|X|, откуда |EX| ≤ E|X|. 6. Так как ( 1, ω ∈ A, 1A (ω) = 0, ω ∈ / A, 59
то E1A = 1 · P(A) + 0 · P(Ac ) = P(A). 7. Если X = Y почти наверное, то X − Y = 0 почти наверное, а значит E|X − Y | = 0. Тогда |EX − EY | = |E(X − Y )| ≤ E|X − Y | = 0. Следовательно, EX = EY. 13.9 Математическое ожидание суммы “простых” случайных величин Очень часто удобно представлять исходную случайную величину как сумму более простых случайных величин и затем использовать линейность математического ожидания. Пример 13.2. Пусть X — число успехов в n испытаниях Бернулли. Введем индикаторы: ( 1, в k-м испытании успех, Ik = 0, иначе. Тогда X = I1 + · · · + In . Следовательно, EX = EI1 + · · · + EIn = np. Пример 13.3. Если X — число отмеченных объектов в выборке, удобно разложить его по объектам: N X X= 1{i-й объект попал в выборку и является отмеченным} . i=1 Тогда EX = N X P(i-й объект попал в выборку и отмечен). i=1 Именно так удобно находить ожидание гипергеометрической случайной величины. 13.10 Полезное представление неотрицательной целочисленной случайной величины Утверждение 13.4. Если X принимает значения в {0, 1, 2, . . . }, то X= ∞ X 1{X≥k} k=1 почти наверное. 60
Доказательство. Если X(ω) = m, то 1{X≥k} (ω) = 1 для k = 1, . . . , m, и 1{X≥k} (ω) = 0 для k > m. Следовательно, ∞ X 1{X≥k} (ω) = m = X(ω). k=1 Следствие 13.1. Если X ≥ 0 целочисленна и EX < ∞, то EX = ∞ X P(X ≥ k). k=1 Доказательство. По предыдущему представлению и линейности ожидания: EX = ∞ X E1{X≥k} = k=1 14 14.1 ∞ X P(X ≥ k). k=1 Билет 12. Математическое ожидание основных дискретных случайных величин Постоянная случайная величина Если X ≡ c, то EX = c. 14.2 Индикатор события Если X = 1A , то EX = P(A). 14.3 Дискретная равномерная случайная величина Определение 14.1. Пусть X ∼ U {1, 2, . . . , n}, P(X = k) = 1 , n k = 1, . . . , n. Утверждение 14.1. Для равномерной случайной величины на {1, . . . , n} EX = n+1 . 2 61
Доказательство. По определению n X n 1 1X EX = k· = k. n n k=1 k=1 Используя формулу n X k=1 получаем EX = 14.4 k= n(n + 1) , 2 1 n(n + 1) n+1 · = . n 2 2 Распределение Бернулли Определение 14.2. Если P(X = 0) = q = 1 − p, P(X = 1) = p, то X ∼ Bern(p). Утверждение 14.2. Если X ∼ Bern(p), то EX = p. Доказательство. EX = 1 · p + 0 · q = p. 14.5 Биномиальное распределение Определение 14.3. Если   n k n−k P(X = k) = p q , k k = 0, 1, . . . , n, то X ∼ Bin(n, p). Теорема 14.1. Если X ∼ Bin(n, p), то EX = np. Первое доказательство: через сумму индикаторов. Представим X = I1 + · · · + In , где Ik — индикатор успеха в k-м испытании. Тогда EIk = p. По линейности ожидания EX = EI1 + · · · + EIn = np. 62
Второе доказательство: напрямую по формуле.   n X n k n−k EX = k p q . k k=0 Член при k = 0 равен нулю, поэтому   n X n k n−k EX = k p q . k k=1 Используем тождество     n n−1 k =n . k k−1 Тогда  n  X n − 1 k−1 n−k EX = np p q . k − 1 k=1 Положим j = k − 1. Получаем  n−1  X n − 1 j (n−1)−j EX = np pq = np(p + q)n−1 = np. j j=0 14.6 Распределение Пуассона Определение 14.4. Если P(X = k) = e−λ λk , k! k = 0, 1, 2, . . . , то X ∼ Pois(λ). Утверждение 14.3. Если X ∼ Pois(λ), то EX = λ. Доказательство. EX = ∞ X ke k −λ λ k! k=0 Так как k −λ =e ∞ X λk k . k! k=1 λk λk−1 =λ , k! (k − 1)! то EX = λe −λ ∞ X λk−1 . (k − 1)! k=1 После замены j = k − 1 получаем EX = λe −λ ∞ X λj j=0 j! 63 = λe−λ eλ = λ.
14.7 Геометрическое распределение Есть две стандартные договоренности. Вариант 1: номер первого успеха P(X = k) = q k−1 p, k = 1, 2, . . . Утверждение 14.4. Если X — номер первого успеха, то 1 EX = . p Первое доказательство: через хвостовую формулу. Так как X ≥ 0 целочисленна, ∞ X EX = P(X ≥ k). k=1 Но событие X ≥ k означает, что в первых k − 1 испытаниях не было успеха, поэтому P(X ≥ k) = q k−1 . Следовательно, EX = ∞ X q k−1 = k=1 1 1 = . 1−q p Второе доказательство: через степенной ряд. EX = ∞ X kq k−1 p = p ∞ X k=1 k=1 Из формулы при x = q получаем ∞ X kq k−1 . kxk−1 = k=1 EX = p · 1 , (1 − x)2 |x| < 1, 1 p 1 = = . (1 − q)2 p2 p Вариант 2: число неудач до первого успеха P(Y = k) = q k p, k = 0, 1, 2, . . . Утверждение 14.5. Если Y — число неудач до первого успеха, то q EY = . p Доказательство. Заметим, что Y = X − 1, где X — номер первого успеха. Тогда EY = EX − 1 = 1 1−p q −1= = . p p p 64
14.8 Гипергеометрическое распределение Определение 14.5. Пусть из N объектов, среди которых M отмеченных, выбирают n объектов без возвращения. Число отмеченных объектов в выборке обозначим через X. Тогда X ∼ Hyp(N, M, n). Теорема 14.2. Для гипергеометрической случайной величины EX = n · M . N Доказательство. Пронумеруем отмеченные объекты числами 1, . . . , M . Для каждого i введем индикатор ( 1, i-й отмеченный объект попал в выборку, Ii = 0, иначе. Тогда X = I1 + · · · + IM . Для каждого i n , N так как из N объектов выбирается n, и каждый объект симметрично имеет вероятность n/N попасть в выборку. Значит, n EIi = . N По линейности M X n M EX = EIi = M · =n . N N i=1 P(Ii = 1) = 14.9 Отрицательное биномиальное распределение Определение 14.6. Пусть X — номер испытания, в котором произошел r-й успех, где r ∈ N. Тогда   k − 1 r k−r P(X = k) = pq , k = r, r + 1, . . . r−1 и говорят, что X имеет отрицательное биномиальное распределение. Утверждение 14.6. Если X — номер испытания, в котором произошел r-й успех, то r EX = . p Доказательство. Пусть G1 , . . . , Gr — числа испытаний между соседними успехами: X = G1 + · · · + Gr . Каждая Gi имеет геометрическое распределение в смысле “номер первого успеха” и 1 EGi = . p 65
Тогда EX = r X i=1 r EGi = . p Замечание 14.1. Если Y — число неудач до r-го успеха, то Y = X − r, поэтому EY = 15 15.1 rq r −r = . p p Билет 13. Математическое ожидание основных абсолютно непрерывных случайных величин Равномерное распределение на [a, b] Определение 15.1. Если X имеет плотность   1 , x ∈ [a, b], f (x) = b − a 0, x∈ / [a, b], a < b, то X ∼ U [a, b]. Утверждение 15.1. Если X ∼ U [a, b], то EX = a+b . 2 Доказательство. Z ∞ 1 EX = xf (x) dx = b−a −∞ Вычисляем: Z b x dx = a Следовательно, EX = Z b x dx. a b2 − a 2 (b − a)(a + b) = . 2 2 1 (b − a)(a + b) a+b · = . b−a 2 2 66
15.2 Экспоненциальное распределение Определение 15.2. Если X имеет плотность ( λe−λx , x ≥ 0, f (x) = 0, x < 0, λ > 0, то говорят, что X имеет экспоненциальное распределение с параметром λ. Утверждение 15.2. Если X ∼ Exp(λ), то EX = 1 . λ Первое доказательство: прямое вычисление. Z ∞ xλe−λx dx. EX = 0 Интегрируем по частям: dv = λe−λx dx. u = x, Тогда v = −e−λx . du = dx, Получаем EX = ∞ −xe−λx 0 Z + ∞ e−λx dx. 0 Первый член равен нулю, а второй равен Z ∞ 1 e−λx dx = . λ 0 Значит, EX = 1 . λ Второе доказательство: хвостовая формула. Для неотрицательной случайной величины верно Z ∞ EX = P(X > x) dx. 0 Здесь P(X > x) = e−λx . Следовательно, Z EX = ∞ e−λx dx = 0 67 1 . λ
15.3 Распределение Коши Определение 15.3. Если X имеет плотность f (x) = 1 , π(1 + x2 ) x ∈ R, то X имеет стандартное распределение Коши. Утверждение 15.3. Для стандартной случайной величины Коши математическое ожидание не существует. Доказательство. Надо исследовать интеграл Z ∞ dx |x| . π(1 + x2 ) −∞ По четности подынтегральной функции Z ∞ Z |x| 2 ∞ x dx = dx. 2 π 0 1 + x2 −∞ π(1 + x ) Но Z и потому 1 x dx = ln(1 + x2 ), 2 1+x 2 Z 0 ∞ x dx = +∞. 1 + x2 Значит, E|X| = ∞, поэтому EX не существует. Замечание 15.1. Хотя формально плотность симметрична и “напрашивается” значение 0, математическое ожидание определяется только при абсолютной сходимости, которой здесь нет. 15.4 Нормальное распределение Определение 15.4. Если X имеет плотность   1 (x − a)2 f (x) = √ exp − , 2σ 2 σ 2π то x ∈ R, σ > 0, X ∼ N (a, σ 2 ). Теорема 15.1. Если X ∼ N (a, σ 2 ), то EX = a. Первое доказательство: заменой переменной.   Z ∞ 1 (x − a)2 EX = x √ exp − dx. 2σ 2 −∞ σ 2π 68
Положим t= x−a , σ Тогда x = a + σt, Z dx = σ dt. ∞ 1 2 (a + σt) √ e−t /2 dt 2π −∞ Z ∞ Z ∞ 1 1 2 2 √ e−t /2 dt + σ =a t √ e−t /2 dt. 2π 2π −∞ −∞ Первый интеграл равен 1, а второй равен 0, потому что подынтегральная функция нечетна. Значит, EX = a. EX = Второе доказательство: через стандартную нормальную. Если Z= X −a , σ то Z ∼ N (0, 1), X = a + σZ. По линейности EX = a + σEZ. Остается показать, что EZ = 0, что следует из симметрии плотности стандартного нормального распределения. 15.5 Стандартная нормальная случайная величина Определение 15.5. Если Z ∼ N (0, 1), то Z называется стандартной нормальной случайной величиной. Утверждение 15.4. Если Z ∼ N (0, 1), то EZ = 0. Доказательство. Плотность Z имеет вид 1 2 φ(z) = √ e−z /2 . 2π Она четна: φ(−z) = φ(z). Тогда функция zφ(z) нечетна. Поэтому Z ∞ EZ = zφ(z) dz = 0. −∞ 69
15.6 Сводка ожиданий основных абсолютно непрерывных распределений X ∼ U [a, b] =⇒ X ∼ Exp(λ) X ∼ Cauchy 16 16.1 EX = =⇒ a+b . 2 EX = 1 . λ EX не существует. =⇒ X ∼ N (a, σ 2 ) =⇒ EX = a. Z ∼ N (0, 1) =⇒ EZ = 0. Билет 14. Дисперсия, моменты и математическое ожидание функции от случайной величины Дисперсия случайной величины Определение 16.1. Пусть EX существует и EX 2 < ∞. Тогда дисперсией случайной величины X называется число 2 DX = (X) = E X − EX . Замечание 16.1. Дисперсия измеряет разброс случайной величины относительно ее среднего значения. 16.2 Основная формула для дисперсии Теорема 16.1. Если EX 2 < ∞, то DX = EX 2 − (EX)2 . Доказательство. Раскроем квадрат: (X − EX)2 = X 2 − 2(EX)X + (EX)2 . Берем ожидание: Следовательно, DX = EX 2 − 2(EX)EX + (EX)2 . DX = EX 2 − (EX)2 . 70
16.3 Свойства дисперсии Теорема 16.2. Пусть X, Y — случайные величины с конечными вторыми моментами, a, b ∈ R. Тогда: 1) DX ≥ 0; 2) DX = 0 ⇐⇒ X = const почти наверное; 3) Dc = 0; 4) D(X + c) = DX; 5) D(aX) = a2 DX; 6) если X и Y независимы, то D(X + Y ) = DX + DY. Доказательство. 1. По определению 2 DX = E X − EX . Квадрат неотрицателен, значит и его ожидание неотрицательно. 2. Если DX = 0, то 2 E X − EX = 0. Неотрицательная случайная величина имеет нулевое ожидание только тогда, когда она равна нулю почти наверное. Значит, (X − EX)2 = 0 п.н., то есть X = EX п.н. Обратное очевидно. 3. Частный случай пункта 2. 4. D(X + c) = E (X + c) − E(X + c) 2 = E (X + c) − (EX + c) 2 = E(X − EX)2 = DX. 5. D(aX) = E(aX − aEX)2 = a2 E(X − EX)2 = a2 DX. 6. По формуле из предыдущего пункта: D(X + Y ) = E(X + Y )2 − (EX + EY )2 . Раскрываем: D(X + Y ) = EX 2 + 2E(XY ) + EY 2 − (EX)2 − 2EXEY − (EY )2 . Если X и Y независимы, то E(XY ) = EX · EY. Поэтому смешанные члены сокращаются, и остается D(X + Y ) = DX + DY. 71
16.4 Моменты случайной величины Определение 16.2. Пусть X — случайная величина. • Начальным моментом порядка k называется mk = EX k , если он существует. • Абсолютным моментом порядка k называется βk = E|X|k . • Центральным моментом порядка k называется µk = E(X − EX)k , если он существует. Замечание 16.2. В частности, µ2 = DX. 16.5 Математическое ожидание борелевской функции от случайной величины Теорема 16.3. Пусть X — случайная величина, g : R → R — борелевская функция. Если g(X) интегрируема, то Z g(x) dFX (x). Eg(X) = R Замечание 16.3. Это общее правило подстановки распределения случайной величины в интеграл. Следствие 16.1 (дискретный случай). Если X принимает значения xk с вероятностями pk , то X Eg(X) = g(xk )pk , k если ряд абсолютно сходится. Доказательство. Так как распределение X сосредоточено на точках xk , интеграл Стилтьеса распадается в сумму по атомам: Z X g(x) dFX (x) = g(xk )P(X = xk ). R k Следствие 16.2 (абсолютно непрерывный случай). Если X имеет плотность f , то Z ∞ Eg(X) = g(x)f (x) dx, −∞ если интеграл абсолютно сходится. 72
Доказательство. В этом случае dFX (x) = f (x) dx, поэтому Z Eg(X) = Z g(x) dFX (x) = R g(x)f (x) dx. R Пример 16.1. Если g(x) = x2 , то Eg(X) = EX 2 . Если g(x) = |x|p , то 16.6 Eg(X) = E|X|p . Связь существования моментов разных порядков Теорема 16.4. Пусть 0 < r ≤ s. Если E|X|s < ∞, то E|X|r < ∞. Доказательство. Разобьем пространство на два множества: {|X| ≤ 1} и {|X| > 1}. Тогда |X|r 1{|X|≤1} ≤ 1, а на множестве {|X| > 1}, поскольку r ≤ s, |X|r ≤ |X|s . Следовательно, Берем ожидание: |X|r ≤ 1 + |X|s . E|X|r ≤ 1 + E|X|s < ∞. Следствие 16.3. Если момент порядка r не существует: E|X|r = ∞, то для любого s ≥ r E|X|s = ∞. Доказательство. Если бы для некоторого s ≥ r было E|X|s < ∞, то по теореме выше существовал бы и момент порядка r. Получили противоречие. 73
16.7 Влияние существования моментов на хвосты распределения Теорема 16.5. Пусть p > 0 и E|X|p < ∞. Тогда для любого x > 0 E|X|p . xp Доказательство. Рассмотрим неотрицательную случайную величину P(|X| ≥ x) ≤ Y = |X|p . Тогда событие {|X| ≥ x} равносильно событию {Y ≥ xp }. По неравенству Маркова P(Y ≥ xp ) ≤ EY . xp Подставляя Y = |X|p , получаем P(|X| ≥ x) ≤ E|X|p . xp Замечание 16.4. Чем более высокий конечный момент существует, тем сильнее оценка убывания хвоста: P(|X| ≥ x) = O(x−p ). Поэтому существование моментов влияет на скорость стремления хвостовых вероятностей к нулю. 16.8 Моменты ограниченной случайной величины Утверждение 16.1. Если случайная величина X ограничена: |X| ≤ C почти наверное, то для любого p > 0 E|X|p ≤ C p < ∞. Доказательство. Из условия |X|p ≤ C p п.н. По монотонности математического ожидания E|X|p ≤ EC p = C p . Следовательно, все положительные моменты существуют. 16.9 Полезные частные случаи • Если EX 2 < ∞, то автоматически существует EX. • Если DX < ∞, то существует и EX. • Если E|X|p < ∞ для некоторого p > 0, то все моменты меньших порядков тоже конечны. 74
17 Билет 15. Дисперсии основных дискретных случайных величин 17.1 Постоянная случайная величина Если X ≡ c, то DX = 0. 17.2 Индикатор события Утверждение 17.1. Если X = 1A , то DX = P(A)(1 − P(A)). Доказательство. Обозначим p = P(A). Тогда X имеет распределение Бернулли: P(X = 0) = 1 − p. P(X = 1) = p, Уже знаем, что EX = p. Поскольку X 2 = X, получаем Следовательно, 17.3 EX 2 = EX = p. DX = EX 2 − (EX)2 = p − p2 = p(1 − p). Распределение Бернулли Утверждение 17.2. Если X ∼ Bern(p), то q = 1 − p. DX = pq, Доказательство. Это тот же самый расчет, что и для индикатора: X 2 = X, Значит, EX = p. DX = EX 2 − (EX)2 = p − p2 = p(1 − p) = pq. 75
17.4 Дискретное равномерное распределение на {1, . . . , n} Утверждение 17.3. Если X ∼ U {1, . . . , n}, то DX = n2 − 1 . 12 EX = n+1 . 2 Доказательство. Уже известно, что Далее n 1X 2 EX = k . n k=1 2 Используем формулу n X k2 = k=1 Тогда EX 2 = n(n + 1)(2n + 1) . 6 (n + 1)(2n + 1) . 6 Следовательно, DX = EX 2 − (EX)2 = (n + 1)(2n + 1) (n + 1)2 − . 6 4 Приведем к общему знаменателю 12: DX = 2(n + 1)(2n + 1) − 3(n + 1)2 (n + 1)(4n + 2 − 3n − 3) = 12 12 = 17.5 (n + 1)(n − 1) n2 − 1 = . 12 12 Биномиальное распределение Теорема 17.1. Если X ∼ Bin(n, p), то DX = npq. Первое доказательство: через сумму независимых индикаторов. Представим X = I1 + · · · + In , где Ik ∼ Bern(p), а индикаторы независимы. Тогда DIk = pq. По свойству дисперсии суммы независимых величин DX = DI1 + · · · + DIn = npq. 76
Второе доказательство: через второй момент. Используем представление X = I1 + · · · + In . Тогда 2 X = n X Ii2 + 2 i=1 Так как Ii2 = Ii , то X Ii Ij . 1≤i<j≤n   n 2 EX = np + 2 p = np + n(n − 1)p2 . 2 2 Значит, 17.6 DX = EX 2 − (EX)2 = np + n(n − 1)p2 − n2 p2 = np(1 − p) = npq. Распределение Пуассона Утверждение 17.4. Если X ∼ Pois(λ), то DX = λ. Доказательство. Мы уже знаем, что EX = λ. Посчитаем E[X(X − 1)]. Имеем E[X(X − 1)] = ∞ X k(k − 1)e −λ λ k=0 Но k(k − 1) k k! −λ =e ∞ X k(k − 1) k=2 λk . k! λk λk−2 = λ2 . k! (k − 2)! Следовательно, 2 −λ E[X(X − 1)] = λ e Теперь значит Поэтому ∞ X λk−2 = λ2 e−λ eλ = λ2 . (k − 2)! k=2 X 2 = X(X − 1) + X, EX 2 = λ2 + λ. DX = EX 2 − (EX)2 = (λ2 + λ) − λ2 = λ. 77
17.7 Геометрическое распределение Вариант 1: номер первого успеха P(X = k) = q k−1 p, k = 1, 2, . . . Утверждение 17.5. Если X — номер первого успеха, то DX = q . p2 Доказательство. Рассмотрим производящую функцию ряда ∞ X kxk−1 = k=1 1 . (1 − x)2 Дифференцируя, получаем ∞ X k(k − 1)xk−2 = k=2 Умножая на x2 , ∞ X k(k − 1)xk = k=2 2 . (1 − x)3 2x2 . (1 − x)3 Отсюда ∞ X k 2 xk−1 = k=1 ∞ X k(k − 1)xk−1 + k=1 ∞ X kxk−1 = k=1 1 1+x 2x + = . (1 − x)3 (1 − x)2 (1 − x)3 При x = q имеем 2 EX = p ∞ X k=1 Так как k 2 q k−1 = p · 1+q 1+q 1+q =p· 3 = . 3 (1 − q) p p2 1 EX = , p то DX = EX 2 − (EX)2 = 1+q 1 q − = . p2 p2 p2 Вариант 2: число неудач до первого успеха Y = X − 1. Поэтому DY = DX = 78 q . p2
17.8 Отрицательное биномиальное распределение Утверждение 17.6. Если X — номер испытания, в котором произошел r-й успех, то DX = rq . p2 Доказательство. Представим X = G1 + · · · + Gr , где Gi — независимые геометрические случайные величины “номер первого успеха”. Для каждой из них q DGi = 2 . p Поэтому DX = r X DGi = r i=1 q . p2 Замечание 17.1. Если Y — число неудач до r-го успеха, то Y = X − r, а значит DY = DX = 17.9 rq . p2 Гипергеометрическое распределение Теорема 17.2. Если X ∼ Hyp(N, M, n), то M DX = n N  M 1− N  N −n . N −1 Доказательство. Как и раньше, представим X = I1 + · · · + IM , где Ii — индикатор попадания i-го отмеченного объекта в выборку. Для каждого i n EIi = P(Ii = 1) = , N поэтому n  n DIi = 1− . N N Далее, для i ̸= j n(n − 1) E(Ii Ij ) = P(Ii = 1, Ij = 1) = , N (N − 1) потому что вероятность совместного попадания двух фиксированных объектов в выборку из n элементов равна именно этой величине. Тогда n(n − 1) n2 (Ii , Ij ) = E(Ii Ij ) − EIi EIj = − 2. N (N − 1) N 79
Приведем к общему знаменателю: (Ii , Ij ) = nN (n − 1) − n2 (N − 1) n2 N − nN − n2 N + n2 = N 2 (N − 1) N 2 (N − 1) =− n(N − n) . N 2 (N − 1) Теперь DX = M X i=1 То есть X DIi + 2 (Ii , Ij ). 1≤i<j≤M   n  n n(N − n) DX = M 1− + M (M − 1) − 2 . N N N (N − 1) Вынесем общий множитель: n(N − n) DX = N2 Далее M (M − 1) =M M− N −1 Следовательно, DX = Перепишем: 17.10   M (M − 1) M− . N −1   M −1 N −M 1− . =M N −1 N −1 n(N − n) M (N − M ) · . N2 N −1 M N −M N −n M DX = n =n N N N −1 N   M N −n . 1− N N −1 Сводка дисперсий основных дискретных распределений X≡c X = 1A =⇒ =⇒ DX = 0. DX = P(A)(1 − P(A)). X ∼ Bern(p) =⇒ DX = pq. X ∼ U {1, . . . , n} =⇒ DX = X ∼ Bin(n, p) =⇒ DX = npq. X ∼ Pois(λ) =⇒ DX = λ. X ∼ Geom(p) =⇒ DX = X ∼ NegBin(r, p) 80 =⇒ n2 − 1 . 12 q . p2 DX = rq . p2
X ∼ Hyp(N, M, n) 18  M DX = n N =⇒ M 1− N  N −n . N −1 Короткий список формул для повторения EX = X (дискретный случай) xk P(X = xk ) k Z ∞ (абсолютно непрерывный случай) xf (x) dx EX = −∞ Z Z EX = X dP = x dFX (x) Ω R E(aX + bY ) = aEX + bEY E1A = P(A) DX = E(X − EX)2 = EX 2 − (EX)2 D(aX) = a2 DX D(X + c) = DX, Z Eg(X) = g(x) dFX (x) R Eg(X) = X g(xk )P(X = xk ) (дискретный случай) k Z ∞ (если есть плотность) g(x)f (x) dx Eg(X) = −∞ E|X|s < ∞, 0 < r ≤ s =⇒ P(|X| ≥ x) ≤ |X| ≤ C п.н. X ∼ Bern(p) X ∼ Bin(n, p) X ∼ Pois(λ) =⇒ =⇒ =⇒ =⇒ X ∼ U [a, b] E|X|r < ∞ E|X|p xp E|X|p ≤ C p EX = p, EX = np, EX = λ, =⇒ 81 EX = ∀p > 0 DX = pq DX = npq DX = λ a+b 2
X ∼ Exp(λ) X ∼ N (a, σ 2 ) =⇒ EX = =⇒ 1 λ EX = a [12pt,a4paper]article [T2A]fontenc [utf8]inputenc [russian]babel amsmath,amssymb,amsthm,mathtools geometry enumitem mathrsfs bm margin=2.2cm Определение[section] Пример[section] Замечание[section] Теорема[section] Утверждение[section] Лемма[section] Следствие[section] Var Cov Подробные билеты 16–20 по теории вероятностей с доказательствами, выводами и основными формулами Содержание 19 19.1 Билет 16. Дисперсия основных абсолютно непрерывных случайных величин Общее определение Определение 19.1. Если случайная величина X имеет конечный второй момент, то ее дисперсией называется число 2 DX = E X − EX . Эквивалентная формула: DX = EX 2 − (EX)2 . Поэтому для вычисления дисперсии обычно нужно найти EX и EX 2 . 19.2 Равномерное распределение на [a, b] Определение 19.2. Случайная величина X имеет равномерное распределение на [a, b], если ее плотность равна   1 , x ∈ [a, b], a < b. f (x) = b − a 0, x∈ / [a, b]. Утверждение 19.1. Если X ∼ U [a, b], то EX = a+b , 2 DX = 82 (b − a)2 . 12
Доказательство. Математическое ожидание: Z b 1 b2 − a 2 a+b 1 EX = · = . x dx = b−a a b−a 2 2 Теперь найдем второй момент: 1 EX = b−a 2 b Z x2 dx = a 1 b3 − a 3 · . b−a 3 Разложим разность кубов: b3 − a3 = (b − a)(a2 + ab + b2 ). Тогда a2 + ab + b2 . 3 EX 2 = Следовательно, a2 + ab + b2 (a + b)2 − . 3 4 DX = EX 2 − (EX)2 = Приводим к общему знаменателю: DX = a2 − 2ab + b2 4a2 + 4ab + 4b2 − 3a2 − 6ab − 3b2 = . 12 12 Значит, DX = 19.3 (b − a)2 . 12 Экспоненциальное распределение Определение 19.3. Случайная величина X имеет экспоненциальное распределение с параметром λ > 0, если ( λe−λx , x ≥ 0, f (x) = 0, x < 0. Утверждение 19.2. Если X ∼ Exp(λ), то 1 , λ EX = DX = 1 . λ2 Доказательство. Ожидание: Z ∞ xλe−λx dx = EX = 0 1 . λ Теперь найдем второй момент: 2 Z EX = ∞ x2 λe−λx dx. 0 83
Сделаем замену t = λx, Тогда 2 Z EX = 0 ∞ x= t , λ dx = t2 −t dt 1 = λe λ2 λ λ2 Остается вычислить интеграл Z Z dt . λ ∞ t2 e−t dt. 0 ∞ t2 e−t dt. 0 Интегрируя по частям два раза, получаем Z ∞ t2 e−t dt = 2. 0 Следовательно, EX 2 = Значит, 2 . λ2 DX = EX 2 − (EX)2 = 19.4 1 1 2 − 2 = 2. 2 λ λ λ Распределение Коши Определение 19.4. Стандартная случайная величина Коши имеет плотность 1 , x ∈ R. f (x) = π(1 + x2 ) Утверждение 19.3. Для стандартной случайной величины Коши математическое ожидание и дисперсия не существуют. Доказательство. Для существования математического ожидания необходимо, чтобы сходился интеграл Z ∞ dx |x| . π(1 + x2 ) −∞ Но Z Z ∞ dx 2 ∞ x |x| = dx. π(1 + x2 ) π 0 1 + x2 −∞ Поскольку Z x 1 dx = ln(1 + x2 ), 2 1+x 2 то Z ∞ x dx = +∞. 1 + x2 0 Значит, E|X| = ∞, и EX не существует. Если нет математического ожидания, то в стандартном определении дисперсия тоже не определена. Более того, даже второй момент Z ∞ x2 2 dx EX = 2 −∞ π(1 + x ) расходится. 84
19.5 Нормальное распределение Определение 19.5. Если случайная величина X имеет плотность   1 (x − a)2 , x ∈ R, σ > 0, f (x) = √ exp − 2σ 2 σ 2π то говорят, что X ∼ N (a, σ 2 ). Утверждение 19.4. Если X ∼ N (a, σ 2 ), то DX = σ 2 . EX = a, Доказательство. Пусть X −a . σ Z= Тогда Z ∼ N (0, 1), Следовательно, X = a + σZ. DX = D(a + σZ) = σ 2 DZ. Остается показать, что DZ = 1. Так как плотность Z равна 1 2 φ(z) = √ e−z /2 , 2π а EZ = 0 по симметрии, то ∞ Z 2 z 2 φ(z) dz. DZ = EZ = −∞ Вычислим: 1 EZ = √ 2π 2 Заметим, что Z ∞ z 2 e−z 2 /2 dz. −∞  d 2 2 −e−z /2 = ze−z /2 . dz Интегрируем по частям: Z ∞ 2 −z 2 /2 z e Z u = z, dv = ze−z тогда du = dz, ∞ 2 −z 2 /2 z e 2 /2 dz. −∞ Берем Z z · ze−z dz = −∞ Получаем ∞ 2 /2 dz, v = −e−z 2 /2 ∞ Z −z 2 /2 dz = −ze −∞ −∞ 85 . ∞ + −∞ e−z 2 /2 dz.
Граничный член равен нулю, а гауссов интеграл равен Z ∞ √ 2 e−z /2 dz = 2π. −∞ Следовательно, √ 1 EZ 2 = √ · 2π = 1. 2π Значит, DX = σ 2 . DZ = 1, 19.6 Стандартная нормальная случайная величина Определение 19.6. Если Z ∼ N (0, 1), то Z называется стандартной нормальной случайной величиной. Для нее EZ = 0, 19.7 Краткая сводка X ∼ U [a, b] =⇒ X ∼ Exp(λ) X ∼ Cauchy 20 20.1 DZ = 1. DX = =⇒ (b − a)2 . 12 DX = 1 . λ2 DX не существует. =⇒ X ∼ N (a, σ 2 ) =⇒ DX = σ 2 . Z ∼ N (0, 1) =⇒ DZ = 1. Билет 17. Неравенства Маркова и Чебышева. Законы больших чисел Неравенство Маркова Теорема 20.1 (Маркова). Пусть X ≥ 0 почти наверное и EX < ∞. Тогда для любого a>0 EX P(X ≥ a) ≤ . a 86
Доказательство. Так как при X ≥ a выполнено X ≥ a1{X≥a} , то  EX ≥ E a1{X≥a} = aP(X ≥ a). Делим на a > 0: P(X ≥ a) ≤ EX . a Следствие 20.1. Если p > 0 и E|X|p < ∞, то P(|X| ≥ x) ≤ E|X|p , xp x > 0. Доказательство. Применим неравенство Маркова к неотрицательной случайной величине Y = |X|p . Тогда P(|X| ≥ x) = P(|X|p ≥ xp ) ≤ 20.2 E|X|p . xp Неравенство Чебышева Теорема 20.2 (Чебышева). Пусть EX существует и DX < ∞. Тогда для любого ε > 0  DX P |X − EX| ≥ ε ≤ 2 . ε Доказательство. Применим неравенство Маркова к неотрицательной случайной величине Y = (X − EX)2 . Тогда   E(X − EX)2 DX P |X − EX| ≥ ε = P (X − EX)2 ≥ ε2 ≤ = 2 . 2 ε ε Следствие 20.2. Для любого k > 0 √  1 P |X − EX| ≥ k DX ≤ 2 . k Доказательство. Достаточно подставить √ ε = k DX в неравенство Чебышева. 87
20.3 Закон больших чисел в форме Чебышева Теорема 20.3 (слабый закон больших чисел в форме Чебышева). Пусть X1 , X2 , . . . — независимые случайные величины, для которых существуют EXk и DXk , и выполнено n 1 X DXk −→ 0, n2 k=1 Тогда n → ∞. n  P 1X Xk − EXk → − 0. n k=1 Эквивалентно, X1 + · · · + Xn EX1 + · · · + EXn P − → − 0. n n Доказательство. Обозначим Sn = X1 + · · · + Xn . Тогда по независимости DSn = n X DXk . k=1 По неравенству Чебышева для любого ε > 0    DSn Sn − ESn ≥ ε = P |Sn − ESn | ≥ nε ≤ 2 2 . P n nε Следовательно,  P  n Sn − ESn 1 X DXk . ≥ε ≤ 2 2 n n ε k=1 Правая часть по условию стремится к нулю, поэтому Sn − ESn P → − 0. n 20.4 Закон больших чисел для одинаково распределенных случайных величин Теорема 20.4 (Чебышев для одинаково распределенных). Пусть X1 , X2 , . . . — независимые одинаково распределенные случайные величины, причем EX1 = µ, Тогда Xn = DX1 = σ 2 < ∞. X1 + · · · + Xn P → − µ. n Доказательство. Имеем EX n = µ. 88
Далее, по независимости  DX n = D X1 + · · · + Xn n  n 1 X nσ 2 σ2 = 2 DXk = 2 = . n k=1 n n По неравенству Чебышева:  σ2 P |X n − µ| ≥ ε ≤ 2 −−−→ 0. nε n→∞ Значит, P Xn → − µ. 20.5 Закон больших чисел Бернулли Теорема 20.5 (Бернулли). Пусть X1 , X2 , . . . — независимые испытания Бернулли с вероятностью успеха p, и Sn — число успехов в первых n испытаниях. Тогда Sn P → − p. n Доказательство. Представим Sn = X1 + · · · + Xn , где ( 1, если в k-м испытании успех, Xk = 0, если неудача. Тогда EXk = p, DXk = p(1 − p). Следовательно, по предыдущей теореме X1 + · · · + Xn P Sn = → − p. n n Замечание 20.1. Это означает, что относительная частота успехов стремится к теоретической вероятности успеха. 20.6 Усиленный закон больших чисел в форме Колмогорова Теорема 20.6 (формулировка). Если X1 , X2 , . . . — независимые одинаково распределенные случайные величины и E|X1 | < ∞, то X1 + · · · + Xn п.н. −−→ EX1 . n Замечание 20.2. Это уже почти-верная сходимость, то есть более сильный результат, чем сходимость по вероятности. 89
20.7 Связь между неравенствами и законом больших чисел • Неравенство Маркова дает оценку хвоста через первый момент. • Неравенство Чебышева дает оценку отклонения от среднего через дисперсию. • Закон больших чисел в форме Чебышева получается прямым применением неравенства Чебышева к среднему арифметическому. • Закон Бернулли — специальный случай слабого закона больших чисел. 21 21.1 Билет 18. Отсутствие последействия. Надежность и интенсивность отказов Свойство отсутствия последействия Определение 21.1. Неотрицательная случайная величина T обладает свойством отсутствия последействия (memoryless property), если для любых s, t ≥ 0 P(T > s + t | T > s) = P(T > t). Смысл этого свойства: если объект уже проработал время s, то его дальнейшее время безотказной работы распределено так же, как у нового объекта. 21.2 Экспоненциальное распределение обладает отсутствием последействия Теорема 21.1. Если T ∼ Exp(λ), λ > 0, то для любых s, t ≥ 0 P(T > s + t | T > s) = P(T > t). Доказательство. Для экспоненциального распределения P(T > x) = e−λx , x ≥ 0. По определению условной вероятности P(T > s + t | T > s) = P(T > s + t) . P(T > s) Подставляя хвостовую вероятность, получаем P(T > s + t | T > s) = e−λ(s+t) = e−λt = P(T > t). e−λs 90
21.3 Смысл в теории надежности Если время жизни устройства имеет экспоненциальное распределение, то его “возраст” не влияет на условное распределение остаточного срока службы. Это модель объектов без старения: уже проработавший прибор статистически не лучше и не хуже нового. 21.4 Функция надежности Определение 21.2. Пусть T ≥ 0 — время безотказной работы. Функцией надежности называется функция R(t) = P(T > t), t ≥ 0. Очевидно, R(0) ≤ 1, R(t) ↓, R(t) = 1 − FT (t). Если T абсолютно непрерывна с плотностью f , то Z ∞ f (x) dx. R(t) = t 21.5 Интенсивность отказов Определение 21.3. Пусть T абсолютно непрерывна, R(t) > 0. Интенсивностью отказов или функцией риска называется P(t < T ≤ t + ∆t | T > t) . ∆t↓0 ∆t λ(t) = lim Утверждение 21.1. Если T имеет плотность f и функцию надежности R, то λ(t) = f (t) . R(t) Доказательство. По определению условной вероятности P(t < T ≤ t + ∆t | T > t) = P(t < T ≤ t + ∆t) . P(T > t) Так как P(t < T ≤ t + ∆t) = F (t + ∆t) − F (t), а R(t) = 1 − F (t), получаем P(t < T ≤ t + ∆t | T > t) F (t + ∆t) − F (t) 1 = · . ∆t ∆t R(t) Переходя к пределу при ∆t ↓ 0, имеем λ(t) = f (t) . R(t) 91
21.6 Связь интенсивности отказов и функции надежности Утверждение 21.2. Если T абсолютно непрерывна, то R′ (t) = −f (t), поэтому λ(t) = − Доказательство. Так как R′ (t) . R(t) ∞ Z R(t) = f (x) dx, t то по формуле Ньютона–Лейбница R′ (t) = −f (t). Подставляя в предыдущую формулу, получаем f (t) R′ (t) λ(t) = =− . R(t) R(t) 21.7 Взаимно однозначное соответствие между функцией надежности и интенсивностью отказов Теорема 21.2. Пусть R — функция надежности абсолютно непрерывного распределения, причем R(t) > 0. Тогда R′ (t) . λ(t) = − R(t) Обратно, если задана неотрицательная локально интегрируемая функция λ(t), то соответствующая функция надежности имеет вид  Z t  R(t) = exp − λ(u) du . 0 Доказательство. Первая формула уже доказана. Теперь пусть задана λ(t). Рассмотрим дифференциальное уравнение R′ (t) = −λ(t)R(t), R(0) = 1. Разделяя переменные, получаем R′ (t) = −λ(t). R(t) Интегрируя от 0 до t, Z ln R(t) − ln R(0) = − t λ(u) du. 0 Так как R(0) = 1, то ln R(0) = 0. Следовательно, Z t ln R(t) = − λ(u) du, откуда 0  Z t  R(t) = exp − λ(u) du . 0 92
21.8 Экспоненциальное распределение и постоянная интенсивность Утверждение 21.3. Случайная величина T имеет экспоненциальное распределение тогда и только тогда, когда ее интенсивность отказов постоянна: λ(t) ≡ λ. Доказательство. Если T ∼ Exp(λ), то f (t) = λe−λt , поэтому λ(t) = R(t) = e−λt , f (t) = λ. R(t) Обратно, если λ(t) ≡ λ, то по формуле из предыдущей теоремы  Z t  R(t) = exp − λ du = e−λt . 0 Следовательно, F (t) = 1 − e−λt , то есть T имеет экспоненциальное распределение. 22 22.1 Билет 19. Распределение максимума, минимума и k-й порядковой статистики Максимум случайных величин Пусть Mn = max(X1 , . . . , Xn ). Утверждение 22.1. Для любых случайных величин X1 , . . . , Xn {Mn ≤ x} = n \ {Xi ≤ x}. i=1 Доказательство. Максимум не превосходит x тогда и только тогда, когда каждая из величин Xi не превосходит x. Теорема 22.1. Если X1 , . . . , Xn независимы и имеют функции распределения F1 , . . . , Fn , то n Y FMn (x) = P(Mn ≤ x) = Fi (x). i=1 93
Доказательство. По предыдущему утверждению n \ {Mn ≤ x} = {Xi ≤ x}. i=1 По независимости P(Mn ≤ x) = P n \ ! {Xi ≤ x} = i=1 n Y P(Xi ≤ x) = i=1 n Y Fi (x). i=1 Следствие 22.1. Если X1 , . . . , Xn независимы и одинаково распределены с функцией распределения F , то FMn (x) = F (x)n . 22.2 Минимум случайных величин Пусть mn = min(X1 , . . . , Xn ). Утверждение 22.2. Для любых случайных величин X1 , . . . , Xn n \ {mn > x} = {Xi > x}. i=1 Доказательство. Минимум больше x тогда и только тогда, когда каждая из величин Xi больше x. Теорема 22.2. Если X1 , . . . , Xn независимы и имеют функции распределения F1 , . . . , Fn , то n Y  P(mn > x) = 1 − Fi (x) , i=1 а потому Fmn (x) = 1 − n Y  1 − Fi (x) . i=1 Доказательство. По предыдущему утверждению n \ {mn > x} = {Xi > x}. i=1 По независимости P(mn > x) = n Y P(Xi > x) = i=1 n Y (1 − Fi (x)). i=1 Следовательно, Fmn (x) = P(mn ≤ x) = 1 − P(mn > x), то есть Fmn (x) = 1 − n Y (1 − Fi (x)). i=1 Следствие 22.2. Если X1 , . . . , Xn независимы и одинаково распределены с функцией распределения F , то Fmn (x) = 1 − (1 − F (x))n . 94
22.3 Порядковые статистики Определение 22.1. Пусть X1 , . . . , Xn — случайные величины. Упорядочим их значения: X(1) ≤ X(2) ≤ · · · ≤ X(n) . Тогда X(k) называется k-й порядковой статистикой. В частности, X(1) = mn , 22.4 X(n) = Mn . Распределение k-й порядковой статистики в одинаково распределенном случае Пусть X1 , . . . , Xn независимы и одинаково распределены с функцией распределения F . Теорема 22.3. Для k = 1, . . . , n P(X(k) n   X n−j n . ≤ x) = F (x)j 1 − F (x) j j=k Доказательство. Событие {X(k) ≤ x} означает, что среди X1 , . . . , Xn не меньше k величин не превосходят x. Для каждого i рассмотрим индикатор Ii = 1{Xi ≤x} . Тогда Ii — независимые бернуллиевские случайные величины с параметром p = F (x). Число величин, не превосходящих x, равно N (x) = I1 + · · · + In ∼ Bin(n, F (x)). Поэтому {X(k) ≤ x} = {N (x) ≥ k}, и P(X(k) 22.5 n   X n ≤ x) = F (x)j (1 − F (x))n−j . j j=k Плотность k-й порядковой статистики Теорема 22.4. Если, кроме того, общая функция распределения F абсолютно непрерывна с плотностью f , то X(k) имеет плотность fX(k) (x) = n−k n! F (x)k−1 1 − F (x) f (x). (k − 1)!(n − k)! 95
Доказательство. Обозначим Gk (x) = P(X(k) ≤ x) = n   X n j=k j F (x)j (1 − F (x))n−j . Дифференцируем по x. Это можно сделать и аккуратнее через вероятностный смысл, но прямое дифференцирование тоже дает нужный результат. Используя производную F ′ (x) = f (x), и стандартное телескопическое сокращение в сумме, получаем G′k (x) = n! F (x)k−1 (1 − F (x))n−k f (x). (k − 1)!(n − k)! Следовательно, это и есть плотность X(k) . 22.6 Частные случаи Минимум При k = 1: fX(1) (x) = n(1 − F (x))n−1 f (x). Максимум При k = n: 22.7 fX(n) (x) = nF (x)n−1 f (x). Пример: максимум равномерных случайных величин Пример 22.1. Пусть X1 , . . . , Xn независимы и равномерны на [0, 1]. Тогда   0, x < 0, F (x) = x, 0 ≤ x ≤ 1,   1, x > 1. Следовательно, для максимума FMn (x) = xn , а плотность равна 22.8 fMn (x) = nxn−1 , 0 ≤ x ≤ 1, 0 ≤ x ≤ 1. Пример: минимум равномерных случайных величин Пример 22.2. В тех же условиях для минимума а плотность Fmn (x) = 1 − (1 − x)n , 0 ≤ x ≤ 1, fmn (x) = n(1 − x)n−1 , 0 ≤ x ≤ 1. 96
23 23.1 Билет 20. Свертка случайных величин Определение свертки Определение 23.1. Пусть X и Y — независимые случайные величины. Распределение суммы S =X +Y называется сверткой распределений X и Y . Если µX и µY — распределения X и Y , то их свертка обозначается µX ∗ µ Y . 23.2 Формула свертки в общем случае Теорема 23.1. Если X и Y независимы, то для любого борелевского множества B ⊂ R Z Z P(X + Y ∈ B) = P(x + Y ∈ B) µX (dx) = µY (B − x) µX (dx). R R В частности, функция распределения суммы имеет вид Z Z FX+Y (t) = FX (t − y) µY (dy) = FY (t − x) µX (dx). R R Доказательство. Рассмотрим индикатор события: 1{X+Y ∈B} . Тогда P(X + Y ∈ B) = E1{X+Y ∈B} . Условимся сначала усреднить по X. По независимости X и Y Z E1{X+Y ∈B} = P(x + Y ∈ B) µX (dx). R Но событие {x + Y ∈ B} эквивалентно {Y ∈ B − x}, значит P(x + Y ∈ B) = µY (B − x). Получаем Z P(X + Y ∈ B) = µY (B − x) µX (dx). R Для функции распределения берем B = (−∞, t]. Тогда µY (B − x) = P(Y ≤ t − x) = FY (t − x), и потому Z FY (t − x) µX (dx). FX+Y (t) = R Аналогично получаем формулу с FX (t − y). 97
23.3 Формула свертки для целочисленных случайных величин Теорема 23.2. Пусть X и Y — независимые целочисленные случайные величины: P(X = k) = pk , P(Y = m) = qm , k, m ∈ Z. Тогда для суммы S = X + Y P(S = n) = X pk qn−k . k∈Z Доказательство. Событие {S = n} разлагается в объединение попарно несовместных событий: [ {X + Y = n} = {X = k, Y = n − k}. k∈Z Поэтому P(S = n) = X P(X = k, Y = n − k). k∈Z По независимости P(X = k, Y = n − k) = P(X = k)P(Y = n − k) = pk qn−k . Следовательно, P(S = n) = X pk qn−k . k∈Z 23.4 Формула свертки для абсолютно непрерывных случайных величин Теорема 23.3. Пусть X и Y независимы и имеют плотности fX и fY . Тогда сумма S =X +Y имеет плотность ∞ Z Z ∞ fX (x)fY (t − x) dx = fS (t) = −∞ fX (t − y)fY (y) dy. −∞ Доказательство. Начнем с функции распределения: FS (t) = P(X + Y ≤ t). Используя общую формулу свертки, Z Z FS (t) = P(Y ≤ t − x) fX (x) dx = FY (t − x)fX (x) dx. R R Дифференцируем по t. Так как d FY (t − x) = fY (t − x), dt получаем fS (t) = FS′ (t) Z fY (t − x)fX (x) dx. = R Это и есть формула свертки. 98
23.5 Абсолютная непрерывность свертки, если одно слагаемое абсолютно непрерывно Теорема 23.4. Пусть X и Y независимы, и X имеет плотность fX . Тогда X + Y абсолютно непрерывна. Доказательство. Нужно показать, что существует плотность суммы. Для любого борелевского множества B ⊂ R Z P(x + Y ∈ B)fX (x) dx. P(X + Y ∈ B) = R Перепишем: Z P(x + Y ∈ B) = 1B (x + y) µY (dy). R Тогда по теореме Фубини Z Z P(X + Y ∈ B) = 1B (x + y) µY (dy)fX (x) dx. R R Меняя порядок интегрирования и делая замену z = x + y, получаем Z P(X + Y ∈ B) = g(z) dz, B где Z fX (z − y) µY (dy). g(z) = R Значит, распределение суммы имеет плотность g, то есть является абсолютно непрерывным. 23.6 Коммутативность свертки Утверждение 23.1. Для любых независимых случайных величин X и Y µX ∗ µY = µY ∗ µX . Доказательство. Так как X + Y = Y + X, то распределение суммы не зависит от порядка слагаемых. В непрерывном случае это видно и по формуле Z Z fX (x)fY (t − x) dx = fY (y)fX (t − y) dy. R 23.7 R Ассоциативность свертки Утверждение 23.2. Для независимых случайных величин X, Y, Z (µX ∗ µY ) ∗ µZ = µX ∗ (µY ∗ µZ ). Доказательство. Обе меры являются распределением суммы (X + Y ) + Z = X + (Y + Z) = X + Y + Z. Следовательно, они совпадают. 99
23.8 Нейтральный элемент Утверждение 23.3. Нейтральным элементом относительно свертки является вырожденное распределение в точке 0: δ0 . То есть µ ∗ δ0 = δ0 ∗ µ = µ. Доказательство. Если Y ≡ 0, то X + Y = X. Следовательно, распределение суммы совпадает с распределением X. 23.9 Полезные примеры Сумма двух независимых бернуллиевских величин Если X, Y ∼ Bern(p) независимы, то X + Y ∼ Bin(2, p). Действительно, P(X + Y = 0) = q 2 , P(X + Y = 2) = p2 . P(X + Y = 1) = 2pq, Сумма независимых нормальных величин Если X ∼ N (a1 , σ12 ), и X, Y независимы, то Y ∼ N (a2 , σ22 ), X + Y ∼ N (a1 + a2 , σ12 + σ22 ). Замечание 23.1. Подробный вывод этого факта обычно выносят в следующий билет про специальные свертки. 24 Короткий список формул для повторения DX = EX 2 − (EX)2 X ∼ U [a, b] =⇒ X ∼ Exp(λ) =⇒ X ∼ N (a, σ 2 ) P(X ≥ a) ≤ DX = =⇒ EX a 100 (b − a)2 12 DX = 1 λ2 DX = σ 2 (Марков)
P(|X − EX| ≥ ε) ≤ X1 + · · · + Xn P → − µ n DX ε2 (Чебышев) (слабый ЗБЧ для i.i.d.) Sn P → − p n (Бернулли) (отсутствие последействия) P(T > s + t | T > s) = P(T > t) R(t) = P(T > t) R′ (t) f (t) =− R(t) R(t)   Z t λ(u) du R(t) = exp − λ(t) = 0 Fmax(X1 ,...,Xn ) (x) = n Y Fi (x) i=1 Fmin(X1 ,...,Xn ) (x) = 1 − n Y (1 − Fi (x)) i=1 P(X(k) ≤ x) = n  X j=k fX(k) (x) = P(X + Y = n) = X  n F (x)j (1 − F (x))n−j j n! F (x)k−1 (1 − F (x))n−k f (x) (k − 1)!(n − k)! P(X = k)P(Y = n − k) (целочисленный случай) k∈Z Z ∞ fX (x)fY (t − x) dx fX+Y (t) = (абсолютно непрерывный случай) −∞ Z FY (t − x) µX (dx) FX+Y (t) = (общий случай) R [12pt,a4paper]article [T2A]fontenc [utf8]inputenc [russian]babel amsmath,amssymb,amsthm,mathtools geometry enumitem bm mathrsfs margin=2.2cm Определение[section] Пример[section] Замечание[section] Теорема[section] Утверждение[section] Лемма[section] Следствие[section] Подробные билеты 21–25 по теории вероятностей с выводами, доказательствами и формулами 101
Содержание 25 25.1 Билет 21. Свертки пуассоновских, равномерных, экспоненциальных и нормальных случайных величин Общая идея Пусть X и Y независимы. Тогда распределение суммы S =X +Y называется сверткой распределений X и Y . В предыдущем билете была общая формула свертки. Здесь мы применим ее к важнейшим специальным распределениям. 25.2 Свертка пуассоновских случайных величин Теорема 25.1. Пусть X ∼ Pois(λ1 ), Y ∼ Pois(λ2 ), причем X и Y независимы. Тогда X + Y ∼ Pois(λ1 + λ2 ). Доказательство. Так как X и Y целочисленны и независимы, то по формуле свертки P(X + Y = n) = n X P(X = k)P(Y = n − k). k=0 Подставим пуассоновские вероятности: n X P(X + Y = n) = e−λ1 k=0 λk1 −λ2 λ2n−k ·e . k! (n − k)! Вынесем общий множитель: −(λ1 +λ2 ) P(X + Y = n) = e Используем тождество   1 1 n = . k!(n − k)! n! k Тогда −(λ1 +λ2 ) P(X + Y = n) = e По биному Ньютона n X λk1 λ2n−k . k!(n − k)! k=0 n   1 X n k n−k λ λ . n! k=0 k 1 2 n   X n k n−k λ1 λ2 = (λ1 + λ2 )n . k k=0 Следовательно, P(X + Y = n) = e−(λ1 +λ2 ) Это и есть закон Pois(λ1 + λ2 ). 102 (λ1 + λ2 )n . n!
Следствие 25.1. Если X1 , . . . , Xn независимы и Xk ∼ Pois(λk ), то X1 + · · · + Xn ∼ Pois(λ1 + · · · + λn ). 25.3 Свертка абсолютно непрерывных равномерных случайных величин Случай U [0, a] и U [0, b] Пусть X ∼ U [0, a], Y ∼ U [0, b], a > 0, b > 0, и X, Y независимы. Для определенности сначала предположим 0 < a ≤ b. Плотности: 1 fX (x) = 1[0,a] (x), a 1 fY (y) = 1[0,b] (y). b Теорема 25.2. Если X ∼ U [0, a], Y ∼ U [0, b], 0 < a ≤ b, и X, Y независимы, то сумма S =X +Y имеет плотность   0, t < 0,     t    , 0 ≤ t ≤ a,   ab   1 fS (t) = , a ≤ t ≤ b,  b      a + b − t , b ≤ t ≤ a + b,    ab    0, t > a + b. Доказательство. По формуле свертки Z ∞ fX (x)fY (t − x) dx. fS (t) = −∞ Подставляя плотности, получаем 1 fS (t) = ab Z ∞ 1[0,a] (x)1[0,b] (t − x) dx. −∞ Подынтегральная функция равна 1 тогда и только тогда, когда одновременно 0 ≤ x ≤ a, 0 ≤ t − x ≤ b. Второе условие равносильно t − b ≤ x ≤ t. 103
Значит, подынтегральная функция равна 1 на пересечении отрезков [0, a] ∩ [t − b, t]. Следовательно, fS (t) =  1 · длина [0, a] ∩ [t − b, t] . ab Теперь разбираем случаи. 1) t < 0. Пересечение пусто, поэтому fS (t) = 0. 2) 0 ≤ t ≤ a. Тогда [0, a] ∩ [t − b, t] = [0, t], поскольку t ≤ a и t − b ≤ 0. Поэтому fS (t) = t . ab 3) a ≤ t ≤ b. Тогда [0, a] ∩ [t − b, t] = [0, a], так как t − b ≤ 0 и t ≥ a. Значит, fS (t) = 1 a = . ab b 4) b ≤ t ≤ a + b. Тогда [0, a] ∩ [t − b, t] = [t − b, a]. Длина пересечения равна a − (t − b) = a + b − t, следовательно, a+b−t . ab 5) t > a + b. Пересечение пусто, поэтому fS (t) = 0. fS (t) = Замечание 25.1. Если a = b, плотность становится треугольной:  t   , 0 ≤ t ≤ a,    a2 fS (t) = 2a − t , a ≤ t ≤ 2a,   a2    0, иначе. Общий сдвинутый случай Если X ∼ U [α, β], Y ∼ U [γ, δ], X = α + X0 , Y = γ + Y0 , то можно записать где X0 ∼ U [0, β − α], Y0 ∼ U [0, δ − γ]. Тогда X + Y = (α + γ) + (X0 + Y0 ), и плотность суммы получается сдвигом уже найденной формулы. 104
25.4 Свертка экспоненциальных случайных величин Одинаковые параметры Теорема 25.3. Пусть X, Y ∼ Exp(λ), причем X, Y независимы. Тогда сумма S =X +Y имеет плотность ( λ2 te−λt , t ≥ 0, fS (t) = 0, t < 0. То есть S имеет гамма-распределение с параметрами 2, λ (или распределение Эрланга порядка 2). Доказательство. По формуле свертки Z ∞ fS (t) = fX (x)fY (t − x) dx. −∞ Так как плотности равны fX (x) = λe−λx 1[0,∞) (x), fY (y) = λe−λy 1[0,∞) (y), то при t < 0 ясно, что fS (t) = 0. Пусть t ≥ 0. Тогда одновременно нужно иметь x ≥ 0, t − x ≥ 0, то есть 0 ≤ x ≤ t. Поэтому Z t fS (t) = λe−λx λe−λ(t−x) dx. 0 Сокращаем экспоненты: 2 −λt Z t fS (t) = λ e dx = λ2 te−λt . 0 Разные параметры Теорема 25.4. Пусть X ∼ Exp(λ1 ), Y ∼ Exp(λ2 ), λ1 ̸= λ2 , и X, Y независимы. Тогда сумма S = X + Y имеет плотность     λ1 λ2 e−λ1 t − e−λ2 t , t ≥ 0, fS (t) = λ2 − λ1  0, t < 0. 105
Доказательство. При t < 0 плотность равна нулю. Для t ≥ 0 по формуле свертки: Z t λ1 e−λ1 x λ2 e−λ2 (t−x) dx. fS (t) = 0 Вынесем множители: fS (t) = λ1 λ2 e −λ2 t t Z e−(λ1 −λ2 )x dx. 0 Если λ1 ̸= λ2 , то t Z e−(λ1 −λ2 )x dx = 0 Следовательно, fS (t) = 1 − e−(λ1 −λ2 )t . λ2 − λ1  λ1 λ2 −λ2 t e 1 − e−(λ1 −λ2 )t . λ2 − λ1 Раскрывая скобки, получаем fS (t) = 25.5  λ1 λ2 e−λ1 t − e−λ2 t . λ2 − λ 1 Свертка нормальных случайных величин Теорема 25.5. Пусть X ∼ N (a1 , σ12 ), Y ∼ N (a2 , σ22 ), причем X и Y независимы. Тогда X + Y ∼ N (a1 + a2 , σ12 + σ22 ). Доказательство через характеристические функции. Для нормальной случайной величины   σ12 t2 itX , φX (t) = Ee = exp ita1 − 2   σ22 t2 itY φY (t) = Ee = exp ita2 − . 2 По независимости φX+Y (t) = φX (t)φY (t). Следовательно,     σ12 t2 σ22 t2 φX+Y (t) = exp ita1 − exp ita2 − . 2 2 Объединяя показатели, получаем   (σ12 + σ22 )t2 φX+Y (t) = exp it(a1 + a2 ) − . 2 Но это характеристическая функция нормального распределения N (a1 + a2 , σ12 + σ22 ). Значит, X + Y ∼ N (a1 + a2 , σ12 + σ22 ). 106
Следствие 25.2. Если X1 , . . . , Xn независимы и Xk ∼ N (ak , σk2 ), то X1 + · · · + Xn ∼ N n X ak , n X k=1 26 ! σk2 . k=1 Билет 22. Многомерные случайные величины 26.1 Определение многомерной случайной величины Определение 26.1. Случайным вектором (или многомерной случайной величиной) называется отображение X = (X1 , . . . , Xn ) : Ω → Rn , такое, что для любого борелевского множества B ⊂ Rn {ω : X(ω) ∈ B} ∈ F. Замечание 26.1. Эквивалентно достаточно требовать, чтобы все координаты X1 , . . . , Xn были одномерными случайными величинами. Утверждение 26.1. Случайный вектор X = (X1 , . . . , Xn ) измерим тогда и только тогда, когда каждая координата Xk является случайной величиной. Доказательство. Если X измерим, то для любого x ∈ R и любого k {Xk ≤ x} = {X ∈ R × · · · × (−∞, x] × · · · × R}, а это борелевское множество в Rn . Следовательно, Xk измерима. Обратно, пусть все Xk измеримы. Рассмотрим класс G = {B ∈ B(Rn ) : X −1 (B) ∈ F}. Нетрудно проверить, что G является σ-алгеброй. Она содержит все прямоугольники вида (−∞, x1 ] × · · · × (−∞, xn ], так как n  \ X −1 (−∞, x1 ] × · · · × (−∞, xn ] = {Xk ≤ xk } ∈ F. k=1 Но такие прямоугольники порождают B(R ). Значит, n G = B(Rn ), то есть X измерим. 107
26.2 Многомерная функция распределения Определение 26.2. Функцией распределения случайного вектора X = (X1 , . . . , Xn ) называется функция FX (x1 , . . . , xn ) = P(X1 ≤ x1 , . . . , Xn ≤ xn ). 26.3 Наследование одномерных свойств Теорема 26.1. Многомерная функция распределения F (x) обладает следующими свойствами: 1) 0 ≤ F (x) ≤ 1; 2) F неубывает по каждой координате; 3) F непрерывна справа по каждой координате; 4) если хотя бы одна координата xk → −∞, то F (x1 , . . . , xn ) → 0; 5) если все координаты xk → +∞, то F (x1 , . . . , xn ) → 1. Доказательство. 1. Очевидно, поскольку F есть вероятность события. 2. Если, например, xk ≤ yk , а остальные координаты фиксированы, то {X1 ≤ x1 , . . . , Xk ≤ xk , . . . , Xn ≤ xn } ⊂ {X1 ≤ x1 , . . . , Xk ≤ yk , . . . , Xn ≤ xn }. По монотонности вероятности F (x1 , . . . , xk , . . . , xn ) ≤ F (x1 , . . . , yk , . . . , xn ). (m) 3. Пусть xk ↓ xk . Тогда соответствующие события убывают к событию {X1 ≤ x1 , . . . , Xk ≤ xk , . . . , Xn ≤ xn }. По непрерывности вероятности сверху получаем правую непрерывность. 4. Если хотя бы одна координата стремится к −∞, то событие {X1 ≤ x1 , . . . , Xn ≤ xn } убывает к пустому множеству, следовательно, вероятность стремится к нулю. 5. Если все координаты xk → +∞, то соответствующие события возрастают к Ω, значит вероятность стремится к единице. 108
26.4 Вероятность попадания в параллелепипед Пусть (a, b] = n Y (ak , bk ] k=1 — прямоугольный параллелепипед. Теорема 26.2. Для случайного вектора X вероятность попадания в параллелепипед выражается через функцию распределения по формуле 1 1 X  X (ε ) n) P X ∈ (a, b] = ··· (−1)n−(ε1 +···+εn ) F (c1 1 , . . . , c(ε n ), ε1 =0 εn =0 где (1) (0) ck = bk , ck = ak . Доказательство. В двумерном случае формула выглядит так: P(a1 < X1 ≤ b1 , a2 < X2 ≤ b2 ) = F (b1 , b2 ) − F (a1 , b2 ) − F (b1 , a2 ) + F (a1 , a2 ). Это получается обычным включением-исключением для множеств {X1 ≤ b1 , X2 ≤ b2 }, {X1 ≤ a1 , X2 ≤ b2 }, {X1 ≤ b1 , X2 ≤ a2 }. В общем n-мерном случае рассуждение то же самое: вероятность прямоугольника вычисляется многомерной разностью значений F в вершинах параллелепипеда. 26.5 Многомерное характеристическое свойство функции распределения Определение 26.3. Функция F : Rn → R называется n-возрастающей, если для любого прямоугольника n Y (a, b] = (ak , bk ] величина k=1 ∆(a,b] F ≥ 0. Теорема 26.3 (характеристическое свойство). Функция F : Rn → R является функцией распределения некоторого случайного вектора тогда и только тогда, когда: 1) F n-возрастающая; 2) F непрерывна справа по каждой координате; 3) если хотя бы одна координата стремится к −∞, то F (x) → 0; 4) если все координаты стремятся к +∞, то F (x) → 1. Замечание 26.2. Это многомерный аналог критерия для одномерной функции распределения. Полное доказательство обычно строится через меру на полукольце прямоугольников и ее продолжение до борелевской σ-алгебры. 109
26.6 Многомерная абсолютно непрерывная равномерная случайная величина Определение 26.4. Пусть G ⊂ Rn — измеримое множество конечной положительной меры Лебега: 0 < λn (G) < ∞. Случайный вектор X называется равномерным на G, если его плотность равна fX (x) = 1 1G (x). λn (G) Тогда для любого борелевского множества B ⊂ Rn P(X ∈ B) = λn (B ∩ G) . λn (G) Доказательство. По определению плотности Z Z Z 1 1 P(X ∈ B) = fX (x) dx = 1G (x) dx = 1G (x) dx. λn (G) B B B λn (G) Но Z 1G (x) dx = λn (B ∩ G). B Отсюда P(X ∈ B) = 26.7 λn (B ∩ G) . λn (G) Многомерная нормальная случайная величина Определение 26.5. Случайный вектор X ∈ Rn называется многомерно нормальным с параметрами a ∈ Rn и симметрической неотрицательно определенной матрицей Σ, если его характеристическая функция имеет вид   1 T i⟨t,X⟩ φX (t) = Ee = exp i⟨t, a⟩ − t Σt . 2 Если Σ невырождена, то существует плотность. Теорема 26.4. Если Σ положительно определена, то плотность многомерного нормального распределения равна   1 1 T −1 √ fX (x) = exp − (x − a) Σ (x − a) . 2 (2π)n/2 det Σ Замечание 26.3. Матрица Σ является ковариационной матрицей: Σij = cov(Xi , Xj ). 110
26.8 Характеристическая функция многомерного нормального распределения Утверждение 26.2. Если X ∼ Nn (a, Σ), то   1 T φX (t) = exp i⟨t, a⟩ − t Σt . 2 Замечание 26.4. Это можно считать либо определением многомерного нормального закона, либо его основным свойством. Именно из этой формулы сразу видны средние, ковариации и устойчивость относительно линейных преобразований. 26.9 Плотность в двумерном случае Пусть    2  a1 σ1 ρσ1 σ2 X = (X, Y ) ∼ N2 , , a2 ρσ1 σ2 σ22 |ρ| < 1. Тогда плотность имеет вид    1 (x − a1 )2 (x − a1 )(y − a2 ) (y − a2 )2 1 p exp − − 2ρ . fX,Y (x, y) = + 2(1 − ρ2 ) σ12 σ1 σ2 σ22 2πσ1 σ2 1 − ρ2 Замечание 26.5. Если ρ = 0, то плотность распадается в произведение одномерных нормальных плотностей, то есть X и Y независимы. 27 27.1 Билет 23. Многомерные дискретные и абсолютно непрерывные случайные величины Многомерная дискретная случайная величина Определение 27.1. Случайный вектор X = (X1 , . . . , Xn ) называется дискретным, если существует конечное или счетное множество точек x(1) , x(2) , · · · ∈ Rn такое, что  P X ∈ {x(1) , x(2) , . . . } = 1. В этом случае его закон задается вероятностями pk = P(X = x(k) ), pk ≥ 0, X k 111 pk = 1.
27.2 Многомерная абсолютно непрерывная случайная величина Определение 27.2. Случайный вектор X ∈ Rn называется абсолютно непрерывным, если существует неотрицательная интегрируемая функция fX : Rn → [0, ∞), такая, что для любого борелевского множества B ⊂ Rn Z fX (x) dx. P(X ∈ B) = B При этом Z fX (x) dx = 1. Rn 27.3 Выражение функции распределения через плотность Если X абсолютно непрерывна, то Z FX (x1 , . . . , xn ) = x1 Z −∞ 27.4 xn fX (u1 , . . . , un ) dun · · · du1 . ··· −∞ Выражение плотности через функцию распределения Теорема 27.1. Если FX достаточно гладка, то плотность выражается через функцию распределения формулой fX (x1 , . . . , xn ) = ∂n FX (x1 , . . . , xn ). ∂x1 · · · ∂xn Доказательство. Для абсолютно непрерывной функции распределения имеем Z xn Z x1 fX (u1 , . . . , un ) dun · · · du1 . ··· FX (x1 , . . . , xn ) = −∞ −∞ Последовательно дифференцируя по x1 , . . . , xn и применяя многомерную формулу Ньютона– Лейбница, получаем ∂ n FX = fX . ∂x1 · · · ∂xn 27.5 Независимость в терминах функций распределения Теорема 27.2. Случайные величины X1 , . . . , Xn независимы тогда и только тогда, когда для всех x1 , . . . , xn ∈ R FX1 ,...,Xn (x1 , . . . , xn ) = FX1 (x1 ) · · · FXn (xn ). Доказательство. По определению независимости для любых борелевских множеств B1 , . . . , Bn n Y P(X1 ∈ B1 , . . . , Xn ∈ Bn ) = P(Xk ∈ Bk ). k=1 112
Подставляя специальные множества Bk = (−∞, xk ], получаем FX1 ,...,Xn (x1 , . . . , xn ) = n Y FXk (xk ). k=1 Обратно, если равенство верно для всех таких прямоугольников, то по стандартной теореме о порождающем классе оно продолжается на все борелевские множества. Значит, случайные величины независимы. 27.6 Независимость в терминах плотностей Теорема 27.3. Пусть (X1 , . . . , Xn ) — абсолютно непрерывный случайный вектор с плотностью f , а Xk имеют одномерные плотности fk . Тогда X1 , . . . , Xn независимы тогда и только тогда, когда f (x1 , . . . , xn ) = f1 (x1 ) · · · fn (xn ) почти всюду. Доказательство. Если случайные величины независимы, то для прямоугольника B = B1 × · · · × Bn имеем n Y Z f (x) dx = P(X1 ∈ B1 , . . . , Xn ∈ Bn ) = B P(Xk ∈ Bk ) = k=1 По теореме Фубини правая часть равна Z Y n n Z Y k=1 fk (xk ) dxk . Bk fk (xk ) dx. B k=1 Так как интегралы по всем прямоугольникам совпадают, то f (x) = n Y fk (xk ) k=1 почти всюду. Обратно, если плотность распадается в произведение, то для всякого прямоугольника B1 × · · · × Bn по теореме Фубини Z P(X1 ∈ B1 , . . . , Xn ∈ Bn ) = n Y fk (xk ) dx B1 ×···×Bn k=1 = n Z Y k=1 fk (xk ) dxk = Bk n Y k=1 Следовательно, X1 , . . . , Xn независимы. 113 P(Xk ∈ Bk ).
27.7 Нахождение одномерных и меньшей размерности распределений Через функцию распределения Если известна функция распределения FX1 ,...,Xn , то, например, FX1 ,...,Xk (x1 , . . . , xk ) = lim xk+1 →+∞ · · · lim FX1 ,...,Xn (x1 , . . . , xn ). xn →+∞ Доказательство. События {X1 ≤ x1 , . . . , Xk ≤ xk , Xk+1 ≤ tk+1 , . . . , Xn ≤ tn } при tk+1 , . . . , tn → +∞ возрастают к событию {X1 ≤ x1 , . . . , Xk ≤ xk }. По непрерывности вероятности снизу получаем формулу. Через плотность Если (X, Y ) имеет плотность fX,Y (x, y), то одномерные плотности равны Z ∞ Z ∞ fX (x) = fX,Y (x, y) dy, fY (y) = fX,Y (x, y) dx. −∞ −∞ В общем n-мерном случае маргинальная плотность получается интегрированием по “лишним” координатам. Через дискретное распределение Если (X, Y ) дискретна и pij = P(X = xi , Y = yj ), то P(X = xi ) = X pij , P(Y = yj ) = j 27.8 X pij . i Невозможность восстановления многомерного распределения по одномерным Утверждение 27.1. Одномерные распределения координат не определяют однозначно совместное распределение. Доказательство. Рассмотрим два случайных вектора. 1. Пусть U ∼ U [0, 1], и положим X = U, Y = U. Тогда и X, и Y равномерны на [0, 1], но совместное распределение сосредоточено на диагонали {(x, y) : x = y}. 2. Пусть X ∼ U [0, 1], Y ∼ U [0, 1], причем X и Y независимы. Тогда одномерные распределения те же самые, но совместное распределение равномерно по квадрату [0, 1]2 . Итак, у двух различных двумерных распределений совпадают одномерные маргинальные распределения. Следовательно, по одномерным распределениям нельзя восстановить совместное распределение однозначно. 114
27.9 Функция распределения борелевской функции от случайного вектора Теорема 27.4. Пусть X = (X1 , . . . , Xn ) — случайный вектор, а g : Rn → R — борелевская функция. Тогда случайная величина Y = g(X) имеет функцию распределения FY (t) = P(g(X) ≤ t). Замечание 27.1. Это определение выглядит очевидно, но практически полезно переписывать его через закон X. Утверждение 27.2 (общая форма). Если µX — распределение X, то FY (t) = µX ({x ∈ Rn : g(x) ≤ t}). Утверждение 27.3 (дискретный случай). Если X дискретен и P(X = x(k) ) = pk , то X FY (t) = k: pk . g(x(k) )≤t Доказательство. Событие {g(X) ≤ t} происходит тогда и только тогда, когда X попал в одну из точек x(k) , удовлетворяющих g(x(k) ) ≤ t. Суммируем вероятности этих несовместных событий. Утверждение 27.4 (абсолютно непрерывный случай). Если X имеет плотность fX , то Z FY (t) = fX (x) dx. {x: g(x)≤t} Доказательство. Событие {Y ≤ t} = {g(X) ≤ t} означает, что X попал в множество At = {x ∈ Rn : g(x) ≤ t}. Вероятность этого события для абсолютно непрерывного вектора равна интегралу плотности по At : Z FY (t) = P(X ∈ At ) = fX (x) dx. At 115
28 28.1 Билет 24. Ковариация и коэффициент корреляции Ковариация Определение 28.1. Пусть случайные величины X и Y имеют конечные вторые моменты. Тогда их ковариацией называется число  cov(X, Y ) = E (X − EX)(Y − EY ) . Утверждение 28.1. Ковариация выражается формулой cov(X, Y ) = E(XY ) − EX EY. Доказательство. Раскроем скобки: (X − EX)(Y − EY ) = XY − (EX)Y − (EY )X + EX EY. Берем математическое ожидание: cov(X, Y ) = E(XY ) − (EX)EY − (EY )EX + EX EY. Поскольку два средних члена одинаковы, получаем cov(X, Y ) = E(XY ) − EX EY. 28.2 Свойства ковариации Теорема 28.1. Для случайных величин с конечными вторыми моментами справедливы: 1) симметрия: cov(X, Y ) = cov(Y, X); 2) билинейность: cov(aX + bY, Z) = acov(X, Z) + bcov(Y, Z); 3) cov(X, c) = 0 для любой константы c; 4) cov(X, X) = DX; 5) если X и Y независимы, то cov(X, Y ) = 0. Доказательство. 1. Следует из коммутативности произведения: (X − EX)(Y − EY ) = (Y − EY )(X − EX). 2. Используем определение:    cov(aX + bY, Z) = E aX + bY − E(aX + bY ) (Z − EZ) . 116
По линейности математического ожидания aX + bY − E(aX + bY ) = a(X − EX) + b(Y − EY ). Следовательно,    cov(aX + bY, Z) = E a(X − EX) + b(Y − EY ) (Z − EZ) ,   = aE (X − EX)(Z − EZ) + bE (Y − EY )(Z − EZ) . То есть cov(aX + bY, Z) = acov(X, Z) + bcov(Y, Z). 3. Так как c − Ec = 0, то  cov(X, c) = E (X − EX) · 0 = 0. 4. cov(X, X) = E(X − EX)2 = DX. 5. Если X и Y независимы, то E(XY ) = EX EY. Следовательно, cov(X, Y ) = E(XY ) − EX EY = 0. Замечание 28.1. Обратное вообще неверно: из cov(X, Y ) = 0 независимость в общем случае не следует. 28.3 Пример некоррелированных, но зависимых случайных величин Пример 28.1. Пусть X ∼ U [−1, 1], а Y = X 2. Тогда Y полностью определяется через X, значит X и Y зависимы. Но cov(X, Y ) = E(X 3 ) − EX E(X 2 ). Так как распределение X симметрично, EX 3 = 0. EX = 0, Следовательно, cov(X, Y ) = 0. 117
28.4 Коэффициент корреляции Определение 28.2. Пусть DX > 0, DY > 0. Тогда коэффициентом корреляции случайных величин X, Y называется число cov(X, Y ) √ ρ(X, Y ) = √ . DX DY Иногда пишут просто ρX,Y . 28.5 Свойства коэффициента корреляции Теорема 28.2. Пусть DX > 0, DY > 0. Тогда: 1) −1 ≤ ρ(X, Y ) ≤ 1; 2) ρ(X, Y ) = ρ(Y, X); 3) если X и Y независимы, то ρ(X, Y ) = 0; 4) ρ(X, Y ) = ±1 тогда и только тогда, когда почти наверное Y = aX + b с некоторыми константами a, b, причем знак ρ совпадает со знаком a. Доказательство. 1. Рассмотрим центрированные величины e = X − EX, X Ye = Y − EY. Тогда e Ye ). cov(X, Y ) = E(X По неравенству Коши–Буняковского p p √ √ 2 e e e |E(X Y )| ≤ EX EYe 2 = DX DY . √ √ Деля на DX DY , получаем |ρ(X, Y )| ≤ 1. 2. Следует из симметрии ковариации. 3. Если X и Y независимы, то cov(X, Y ) = 0, значит ρ(X, Y ) = 0. 4. Равенство в неравенстве Коши–Буняковского достигается тогда и только тогда, e почти наверное, то есть когда Ye = cX Y − EY = c(X − EX) почти наверное. Переписывая, Y = cX + (EY − c EX). Итак, Y = aX + b почти наверное. Если a > 0, то ρ = 1; если a < 0, то ρ = −1. 118
28.6 Геометрический смысл Рассмотрим пространство случайных величин с конечным вторым моментом и введем на центрированных величинах скалярное произведение ⟨U, V ⟩ = E(U V ). Тогда ∥U ∥ = √ EU 2 . Для центрированных величин e = X − EX, X Ye = Y − EY имеем √ e Ye ⟩, cov(X, Y ) = ⟨X, √ e DX = ∥X∥, DY = ∥Ye ∥. Следовательно, ρ(X, Y ) = e Ye ⟩ ⟨X, . e Ye ∥ ∥X∥∥ Замечание 28.2. Это в точности косинус угла между центрированными случайными величинами: e Ye ). ρ(X, Y ) = cos ∠(X, Поэтому: • ρ = 1 означает совпадение направлений; • ρ = −1 означает противоположные направления; • ρ = 0 означает ортогональность в среднем квадратичном смысле. 28.7 Ковариационная матрица Определение 28.3. Для случайного вектора X = (X1 , . . . , Xn ) матрица n Σ = cov(Xi , Xj ) i,j=1 называется ковариационной матрицей. Утверждение 28.2. Ковариационная матрица симметрична и неотрицательно определена. Доказательство. Симметрия следует из того, что cov(Xi , Xj ) = cov(Xj , Xi ). Пусть c = (c1 , . . . , cn )T ∈ Rn . Тогда cT Σc = n X ci cj cov(Xi , Xj ) = D i,j=1 n X i=1 Значит, матрица неотрицательно определена. 119 ! ci X i ≥ 0.
29 29.1 Билет 25. Характеристическая функция случайной величины Определение Определение 29.1. Характеристической функцией случайной величины X называется функция φX (t) = EeitX , t ∈ R. Так как |eitX | = 1, характеристическая функция определена для любой случайной величины. 29.2 Представление через распределение Если FX — функция распределения X, то Z φX (t) = eitx dFX (x). R Если X дискретна: X φX (t) = eitxk P(X = xk ). k Если X имеет плотность fX : Z ∞ eitx fX (x) dx. φX (t) = −∞ 29.3 Основные свойства Теорема 29.1. Для любой случайной величины X характеристическая функция φX обладает свойствами: 1) φX (0) = 1; 2) |φX (t)| ≤ 1 для всех t; 3) φX (−t) = φX (t); 4) φX равномерно непрерывна на R; 5) если Y = aX + b, то φY (t) = eitb φX (at); 6) если X и Y независимы, то φX+Y (t) = φX (t)φY (t). 120
Доказательство. 1. φX (0) = Eei·0·X = E1 = 1. 2. По неравенству для модуля математического ожидания |φX (t)| = |EeitX | ≤ E|eitX | = E1 = 1. 3. φX (−t) = Ee−itX = EeitX = EeitX = φX (t). 4. Для h → 0 Отсюда  φX (t + h) − φX (t) = E eitX (eihX − 1) . |φX (t + h) − φX (t)| ≤ E|eihX − 1|. Подынтегральная функция стремится к нулю почти наверное и ограничена числом 2. По теореме Лебега о мажорируемой сходимости E|eihX − 1| → 0. Значит, sup |φX (t + h) − φX (t)| → 0, t то есть φX равномерно непрерывна. 5. φY (t) = Eeit(aX+b) = eitb Eei(at)X = eitb φX (at). 6. Если X и Y независимы, то независимы и функции eitX , eitY , поэтому  φX+Y (t) = Eeit(X+Y ) = E eitX eitY = EeitX EeitY = φX (t)φY (t). 29.4 Моменты и производные характеристической функции Теорема 29.2. Если E|X|n < ∞, то характеристическая функция n раз дифференцируема и  (k) φX (t) = E (iX)k eitX , k = 1, . . . , n. В частности, (k) φX (0) = ik EX k . Доказательство. Рассмотрим сначала случай k = 1. Формально d itX e = iXeitX . dt Чтобы можно было перенести производную под знак ожидания, достаточно существования E|X| < ∞. Тогда по теореме о дифференцировании под знаком интеграла φ′X (t) = E(iXeitX ). Повторяя рассуждение, получаем (k) φX (t) = E((iX)k eitX ) при условии E|X|k < ∞. Подставляя t = 0, имеем (k) φX (0) = E(iX)k = ik EX k . 121
Следствие 29.1. Если существует EX, то EX = Если существует EX 2 , то 29.5 φ′X (0) . i EX 2 = −φ′′X (0). Характеристические функции основных распределений Бернулли Если X ∼ Bern(p), то φX (t) = EeitX = q + peit , q = 1 − p. Пуассон Если X ∼ Pois(λ), то φX (t) = ∞ X k itk −λ λ e e k=0 k! −λ =e ∞ X (λeit )k k=0 k!  = exp λ(eit − 1) . Нормальное распределение Если X ∼ N (a, σ 2 ), то   σ 2 t2 . φX (t) = exp ita − 2 Замечание 29.1. Именно это свойство делает нормальный закон особенно удобным для работы со свертками. 29.6 Единственность Теорема 29.3. Характеристическая функция однозначно определяет распределение случайной величины. Замечание 29.2. Обычно этот факт выводится из формулы обращения. На экзамене его удобно знать как фундаментальное свойство: равенство характеристических функций влечет равенство распределений. 122
29.7 Формула обращения Теорема 29.4 (формулировка без доказательства). Пусть X имеет характеристическую функцию φX . Тогда в точках непрерывности функции распределения верна формула обращения Леви: Z T −ita e − e−itb 1 φX (t) dt. FX (b) − FX (a) = lim T →∞ 2π −T it Теорема 29.5 (частный случай без доказательства). Если X имеет плотность fX , а φX ∈ L1 (R), то Z ∞ 1 fX (x) = e−itx φX (t) dt. 2π −∞ 29.8 Предельные теоремы для характеристических функций Теорема 29.6 (необходимая часть теоремы непрерывности Леви, без доказательства). Если d Xn → − X, то для каждого t ∈ R φXn (t) → φX (t). Теорема 29.7 (достаточная часть теоремы непрерывности Леви, без доказательства). Пусть характеристические функции φXn (t) сходятся поточечно к функции φ(t), причем φ непрерывна в нуле. Тогда φ является характеристической функцией некоторой случайной величины X, и d Xn → − X. Замечание 29.3. Эти теоремы являются основным инструментом доказательства центральной предельной теоремы и многих других предельных результатов. 29.9 Полезные следствия • Если распределения Xn сходятся по распределению, то их характеристические функции сходятся поточечно. • Если удалось вычислить предел характеристических функций и распознать его как характеристическую функцию известного распределения, то найден предел по распределению. • Суммы независимых случайных величин удобно изучать именно через произведение характеристических функций. 123
30 Короткий список формул для повторения Pois(λ1 ) ∗ Pois(λ2 ) = Pois(λ1 + λ2 ) Exp(λ) ∗ Exp(λ) имеет плотность f (t) = λ2 te−λt 1[0,∞) (t) N (a1 , σ12 ) ∗ N (a2 , σ22 ) = N (a1 + a2 , σ12 + σ22 ) FX (x1 , . . . , xn ) = P(X1 ≤ x1 , . . . , Xn ≤ xn )  P X ∈ (a, b] = ∆(a,b] FX ∂n fX (x1 , . . . , xn ) = FX (x1 , . . . , xn ) (если существует плотность) ∂x1 · · · ∂xn X1 , . . . , Xn независимы ⇐⇒ FX1 ,...,Xn (x1 , . . . , xn ) = n Y FXk (xk ) k=1 X1 , . . . , Xn независимы и имеют плотности ⇐⇒ f (x1 , . . . , xn ) = n Y k=1 Z ∞ fX (x) = fX,Y (x, y) dy −∞ cov(X, Y ) = E(XY ) − EX EY cov(X, Y ) √ ρ(X, Y ) = √ DX DY |ρ(X, Y )| ≤ 1 φX (t) = EeitX φX+Y (t) = φX (t)φY (t) при независимости φaX+b (t) = eitb φX (at) (k) φX (0) = ik EX k при существовании момента порядка k   σ 2 t2 φN (a,σ2 ) (t) = exp ita − 2 Z T −ita 1 e − e−itb FX (b) − FX (a) = lim φX (t) dt T →∞ 2π −T it 124 fk (xk )
[12pt,a4paper]article [T2A]fontenc [utf8]inputenc [russian]babel amsmath,amssymb,amsthm,mathtools geometry enumitem bm mathrsfs margin=2.2cm Определение[section] Пример[section] Замечание[section] Теорема[section] Утверждение[section] Лемма[section] Следствие[section] Var Cov sgnsgn Med plim Подробные билеты 26–30 по теории вероятностей и математической статистике с доказательствами, выводами и основными формулами Содержание 31 31.1 Билет 26. Нормированные и центрированные случайные величины. Центральная предельная теорема Центрирование Определение 31.1. Пусть случайная величина X имеет конечное математическое ожидание EX. Тогда центрированной случайной величиной, соответствующей X, называется величина e = X − EX. X Утверждение 31.1. Центрированная случайная величина имеет нулевое математическое ожидание: e = 0. EX Доказательство. По линейности математического ожидания e = E(X − EX) = EX − EX = 0. EX Утверждение 31.2. Если DX < ∞, то e = DX. DX Доказательство. Так как добавление константы не меняет дисперсию, то D(X − EX) = DX. Иначе можно прямо вычислить: e = E(X e − EX) e 2 = EX e 2 = E(X − EX)2 = DX. DX 125
31.2 Нормирование Определение 31.2. Пусть DX > 0. Тогда нормированной случайной величиной, соответствующей X, называется величина X − EX . X∗ = √ DX Утверждение 31.3. Нормированная случайная величина имеет нулевое математическое ожидание и единичную дисперсию: EX ∗ = 0, DX ∗ = 1. Доказательство. Сначала X − EX 1 EX ∗ = E √ =√ E(X − EX) = 0. DX DX Далее ∗ DX = D  X − EX √ DX  = 1 DX D(X − EX) = = 1. DX DX Замечание 31.1. Центрирование убирает сдвиг, а нормирование одновременно убирает сдвиг и приводит масштаб разброса к единице. 31.3 Нормирование суммы независимых случайных величин Пусть Sn = X1 + · · · + Xn , где X1 , . . . , Xn независимы, одинаково распределены, и DX1 = σ 2 > 0. EX1 = µ, Тогда DSn = nσ 2 . ESn = nµ, Соответствующая нормированная сумма имеет вид Sn − nµ √ . Zn = σ n 31.4 Почему возникает именно такое нормирование Утверждение 31.4. При указанных условиях EZn = 0, DZn = 1. Доказательство. По линейности EZn = Далее  DZn = D ESn − nµ √ = 0. σ n Sn − nµ √ σ n  = 1 nσ 2 DS = = 1. n σ2n σ2n Замечание 31.2. Именно √ поэтому в центральной предельной теореме сумма центрируется на nµ и делится на σ n: тогда получаем последовательность случайных величин одного масштаба. 126
31.5 Центральная предельная теорема Теорема 31.1 (Линденберга–Леви). Пусть случайные величины X1 , X2 , . . . независимы и одинаково распределены, причем DX1 = σ 2 ∈ (0, ∞). EX1 = µ, Тогда X1 + · · · + Xn − nµ d √ → − N (0, 1), σ n n → ∞. Замечание 31.3. Это означает, что распределение нормированной суммы при больших n близко к стандартному нормальному распределению. 31.6 Доказательство через характеристические функции Доказательство. Рассмотрим центрированную и нормированную величину Yk = Xk − µ . σ Тогда случайные величины Yk независимы, одинаково распределены и удовлетворяют условиям EYk = 0, DYk = 1. Теперь Y1 + · · · + Yn X1 + · · · + Xn − nµ √ √ = . σ n n Поэтому достаточно доказать, что Y1 + · · · + Yn d √ → − N (0, 1). n Обозначим через φ(t) характеристическую функцию Y1 : φ(t) = EeitY1 . Так как EY1 = 0 и EY12 = 1, разложение в нуле имеет вид φ(t) = 1 − t2 + o(t2 ), 2 t → 0. Рассмотрим характеристическую функцию суммы Zn = Y1 + · · · + Yn √ . n По независимости     n n Y t t φZn (t) = = φ √ . φ √ n n k=1 √ Подставляем асимптотику при u = t/ n:     t t2 1 φ √ =1− +o . 2n n n 127
Тогда  φZn (t) = t2 +o 1− 2n Используем стандартный предел  an  n 1+ → ea n Получаем  n 1 . n если an → a. 2 /2 φZn (t) → e−t Но e−t . 2 /2 — характеристическая функция стандартного нормального распределения N (0, 1). По теореме непрерывности Леви d Zn → − N (0, 1). Что и требовалось доказать. 31.7 Форма для выборочного среднего Пусть Xn = X1 + · · · + Xn . n Тогда ЦПТ можно переписать в виде √ n(X n − µ) d → − N (0, 1). σ Доказательство. Действительно,  √ Sn √ n n −µ n(X n − µ) Sn − nµ √ . = = σ σ σ n Остальное следует из уже доказанной формы ЦПТ. 31.8 Смысл центральной предельной теоремы • Независимо от точного распределения слагаемых, при больших n сумма после правильного центрирования и нормирования становится почти нормальной. • Именно поэтому нормальное распределение возникает в огромном числе практических задач. • Теорема требует конечности дисперсии; без этого возможны иные предельные законы. 128
32 Билет 27. Семиинварианты, моменты Сенатова, асимптотические разложения 32.1 Производящая функция моментов и кумулянтная функция Определение 32.1. Пусть для случайной величины X существует математическое ожидание MX (t) = EetX в некоторой окрестности нуля. Тогда MX (t) называется производящей функцией моментов. Определение 32.2. Функция KX (t) = ln MX (t) = ln EetX называется кумулянтной функцией случайной величины X. 32.2 Семиинварианты Определение 32.3. Семиинвариантами (или кумулянтами) случайной величины X называются коэффициенты разложения функции KX (t) в ряд Тейлора в нуле: KX (t) = ∞ X κr r=1 То есть r! tr . (r) κr = KX (0). Замечание 32.1. Термин “семиинварианты” связан с тем, что эти величины хорошо ведут себя при сдвигах и суммировании независимых случайных величин. 32.3 Первые семиинварианты через обычные моменты Обозначим mr = EX r . Тогда первые кумулянты выражаются так: κ1 = EX, κ2 = DX, κ3 = E(X − EX)3 , κ4 = E(X − EX)4 − 3(DX)2 . 129
32.4 Вывод первых формул Пусть MX (t) = 1 + m1 t + m2 2 m3 3 m4 4 t + t + t + ··· 2! 3! 4! Тогда KX (t) = ln MX (t). Используя разложение ln(1 + u) = u − u2 u3 u4 + − + ··· , 2 3 4 можно получить выражения κr через обычные моменты. Утверждение 32.1. Первые два кумулянта равны κ2 = m2 − m21 . κ1 = m1 , Доказательство. Положим u = m1 t + m2 2 t + O(t3 ). 2 Тогда KX (t) = u − Подставляя, KX (t) = m1 t + m2 2 m21 2 t − t + O(t3 ). 2 2 Следовательно, KX (t) = κ1 t + где κ1 = m1 , Но 32.5 u2 + O(t3 ). 2 κ2 2 t + O(t3 ), 2 κ2 = m2 − m21 . m2 − m21 = DX. Свойства семиинвариантов Теорема 32.1. Пусть случайные величины X и Y независимы. Тогда: 1) KX+Y (t) = KX (t) + KY (t); 2) для всех r ≥ 1 κr (X + Y ) = κr (X) + κr (Y ); 3) при сдвиге κ1 (X + c) = κ1 (X) + c, а для всех r ≥ 2 κr (X + c) = κr (X); 130
4) при умножении на константу κr (aX) = ar κr (X). Доказательство. 1. По независимости MX+Y (t) = Eet(X+Y ) = E(etX etY ) = EetX EetY = MX (t)MY (t). Берем логарифм: KX+Y (t) = ln MX+Y (t) = ln MX (t) + ln MY (t) = KX (t) + KY (t). 2. Разлагаем обе части в ряд по степеням t и сравниваем коэффициенты. 3. Имеем MX+c (t) = Eet(X+c) = etc MX (t), поэтому KX+c (t) = tc + KX (t). Отсюда видно, что только первый кумулянт изменяется на c, а все высшие остаются теми же. 4. MaX (t) = EetaX = MX (at), следовательно, KaX (t) = KX (at). Подставляя разложение KX (u) = ∞ X κr (X) r! r=1 при u = at, получаем KaX (t) = ∞ X ar κr (X) r! r=1 Значит, 32.6 ur tr . κr (aX) = ar κr (X). Семиинварианты нормального распределения Утверждение 32.2. Если X ∼ N (µ, σ 2 ), то κ1 = µ, κ2 = σ 2 , κr = 0 для всех r ≥ 3. Доказательство. Для нормального распределения   σ 2 t2 MX (t) = exp µt + . 2 Следовательно, σ 2 t2 . 2 В этом разложении нет степеней tr при r ≥ 3, значит KX (t) = µt + r ≥ 3. κr = 0, 131
32.7 Моменты Сенатова Определение 32.4. В курсах по асимптотическим разложениям часто вводят моменты Сенатова как специальные комбинации центральных моментов или кумулянтов, удобные при разложениях характеристических функций и распределений нормированных сумм. Замечание 32.2. На практике в экзаменационных ответах обычно достаточно понимать, что моменты Сенатова строятся из высших моментов/кумулянтов и используются как коэффициенты в асимптотических поправках к нормальному приближению. 32.8 Разложение характеристической функции через кумулянты Если у случайной величины X существуют нужные моменты, то ее характеристическая функция удовлетворяет ∞ X κr (it)r . ln φX (t) = r! r=1 Следовательно, φX (t) = exp ∞ X κr r=1 32.9 r! ! (it)r . Асимптотические разложения для нормированных сумм Пусть X1 , X2 , . . . — независимые одинаково распределенные случайные величины, EX1 = 0, DX1 = 1, и существуют моменты нужных порядков. Рассмотрим сумму Sn = X1 + · · · + Xn √ . n Тогда  ln φSn (t) = n ln φX1 t √ n  . Если u2 κ3 κ4 ln φX1 (u) = − + (iu)3 + (iu)4 + · · · , 2 3! 4! √ то после подстановки u = t/ n получаем ln φSn (t) = − t2 κ3 (it)3 κ4 (it)4 √ + + + ··· 2 6 n 24 n Отсюда видно, что нормальное приближение является первым членом, а следующие члены дают поправки порядка n−1/2 , n−1 и т.д. 132
32.10 Смысл асимптотических разложений • Центральная предельная теорема дает только главный член приближения. • Асимптотические разложения уточняют нормальное приближение. • Коэффициенты этих поправок выражаются через высшие кумулянты, а значит и через моменты распределения слагаемых. 32.11 Что важно помнить на экзамене • Семиинварианты — это коэффициенты логарифма производящей функции моментов. • Они аддитивны для независимых сумм. • Для нормального закона все кумулянты начиная с третьего равны нулю. • Именно поэтому нормальный закон является “базовой точкой” асимптотических разложений. 33 33.1 Билет 28. Сходимости случайных величин и связи между ними Сходимость по вероятности Определение 33.1. Говорят, что последовательность случайных величин Xn сходится по вероятности к случайной величине X, если для любого ε > 0 P(|Xn − X| > ε) → 0, Обозначение: n → ∞. P Xn → − X. 33.2 Сходимость почти наверное Определение 33.2. Говорят, что Xn сходится почти наверное к X, если P ({ω : Xn (ω) → X(ω)}) = 1. Обозначение: п.н. Xn −−→ X. 33.3 Сходимость по распределению Определение 33.3. Говорят, что Xn сходится по распределению к X, если для всех точек непрерывности функции распределения FX FXn (x) → FX (x). Обозначение: d Xn → − X. 133
33.4 Сходимость в среднем порядка p Определение 33.4. Пусть p > 0. Говорят, что Xn сходится к X в среднем порядка p, если E|Xn − X|p → 0. Обозначение: Lp Xn −→ X. Часто отдельно выделяют случай p = 1 и p = 2. 33.5 Связь: почти наверное ⇒ по вероятности Теорема 33.1. Если п.н. Xn −−→ X, то P Xn → − X. Доказательство. Зафиксируем ε > 0. Рассмотрим события An = {|Xn − X| > ε}. Из почти-верной сходимости следует, что для почти всех ω неравенство |Xn (ω) − X(ω)| > ε может выполняться лишь конечное число раз. То есть P(An бесконечно часто) = 0. Но тогда P ∞ [ ! Ak → 0. k=n Поскольку An ⊂ ∞ [ Ak , k=n получаем P(An ) ≤ P ∞ [ ! Ak → 0. k=n Значит, P(|Xn − X| > ε) → 0. 134
33.6 Связь: по вероятности ⇒ по распределению Теорема 33.2. Если P Xn → − X, то d Xn → − X. Доказательство. Пусть x — точка непрерывности FX . Возьмем ε > 0. Тогда {Xn ≤ x} ⊂ {X ≤ x + ε} ∪ {|Xn − X| > ε}. Следовательно, FXn (x) = P(Xn ≤ x) ≤ P(X ≤ x + ε) + P(|Xn − X| > ε). То есть lim sup FXn (x) ≤ FX (x + ε). n→∞ Аналогично, {X ≤ x − ε} ⊂ {Xn ≤ x} ∪ {|Xn − X| > ε}, поэтому FX (x − ε) ≤ lim inf FXn (x). n→∞ Итак, FX (x − ε) ≤ lim inf FXn (x) ≤ lim sup FXn (x) ≤ FX (x + ε). n→∞ n→∞ Переходя к пределу при ε ↓ 0 и используя непрерывность FX в точке x, получаем FXn (x) → FX (x). 33.7 Связь: в среднем порядка p ⇒ по вероятности Теорема 33.3. Если Lp Xn −→ X для некоторого p > 0, то P Xn → − X. Доказательство. Для любого ε > 0 по неравенству Маркова P(|Xn − X| > ε) = P(|Xn − X|p > εp ) ≤ Правая часть стремится к нулю по условию. Значит, P Xn → − X. 135 E|Xn − X|p . εp
33.8 Подпоследовательность при сходимости по вероятности Теорема 33.4. Если P Xn → − X, то из (Xn ) можно выбрать подпоследовательность (Xnk ), такую что п.н. Xnk −−→ X. Доказательство. Для каждого k выберем nk так, чтобы  P |Xnk − X| > 1/k < 2−k . Это можно сделать, так как Xn → − X. Рассмотрим события Ak = {|Xnk − X| > 1/k}. P Тогда ∞ X P(Ak ) < ∞. k=1 По лемме Бореля–Кантелли P(Ak бесконечно часто) = 0. Значит, почти наверное начиная с некоторого номера |Xnk − X| ≤ 1 . k Отсюда следует Xnk → X почти наверное. 33.9 Связь с константой Теорема 33.5. Если d Xn → − c к константе c, то P Xn → − c. Доказательство. Зафиксируем ε > 0. Тогда P(|Xn − c| > ε) = 1 − P(c − ε ≤ Xn ≤ c + ε). Так как распределение константы c имеет скачок в точке c, а в точках c − ε и c + ε функция распределения непрерывна, из сходимости по распределению следует P(c − ε ≤ Xn ≤ c + ε) → 1. Следовательно, P(|Xn − c| > ε) → 0. 136
33.10 Что неверно в общем случае • Из сходимости по распределению не всегда следует сходимость по вероятности. • Из сходимости по вероятности не всегда следует почти-верная сходимость всей последовательности. • Из сходимости по вероятности не всегда следует сходимость в среднем. 33.11 Иерархия сходимостей Lp Xn −→ X P =⇒ п.н. Xn −−→ X Xn → − X =⇒ =⇒ Xn → − X. d Xn → − X. P Кроме того, d Xn → − c 34 34.1 =⇒ P Xn → − c. Билет 29. Задачи статистики. Выборочная вероятность и выборочная функция распределения Общая задача статистики Определение 34.1. В математической статистике предполагается, что имеется неизвестное распределение генеральной совокупности, а наблюдаемыми являются результаты выборки X1 , . . . , X n . Обычно предполагают, что X1 , . . . , X n — независимые одинаково распределенные случайные величины. Основные задачи статистики: • оценивание неизвестных параметров; • проверка гипотез; • построение доверительных интервалов; • восстановление свойств распределения по выборке. 137
34.2 Выборочная вероятность Пусть A — некоторое борелевское множество. Для выборки X1 , . . . , X n введем индикаторы Ik = 1{Xk ∈A} , k = 1, . . . , n. Тогда (Ik ) — независимые одинаково распределенные случайные величины Бернулли с параметром p = P(X1 ∈ A). Определение 34.2. Выборочной вероятностью события A называется величина n n 1X 1X pbn (A) = Ik = 1{Xk ∈A} . n k=1 n k=1 Замечание 34.1. Это просто относительная частота попаданий наблюдений в множество A. 34.3 Математическое ожидание и дисперсия выборочной вероятности Утверждение 34.1. Если p = P(X1 ∈ A), то Eb pn (A) = p, Db pn (A) = p(1 − p) . n Доказательство. Так как n 1X pbn (A) = Ik , n k=1 то EIk = p, n np 1X Eb pn (A) = EIk = = p. n k=1 n Далее, DIk = p(1 − p). По независимости Db pn (A) = D n 1X Ik n k=1 ! n 1 X np(1 − p) p(1 − p) = 2 DIk = = . 2 n k=1 n n 138
34.4 Сходимость выборочной вероятности по вероятности Теорема 34.1. Для любого борелевского множества A P pbn (A) → − P(X1 ∈ A). Доказательство. По неравенству Чебышева для любого ε > 0 Db pn (A) p(1 − p) = → 0. ε2 nε2 P (|b pn (A) − p| > ε) ≤ Следовательно, P pbn (A) → − p. 34.5 Сходимость выборочной вероятности почти наверное Теорема 34.2. Для любого борелевского множества A п.н. pbn (A) −−→ P(X1 ∈ A). Доказательство. Это прямое следствие усиленного закона больших чисел, примененного к последовательности индикаторов I1 , I2 , . . . Так как E|I1 | < ∞, то n 1X п.н. Ik −−→ EI1 = p. n k=1 34.6 Выборочная функция распределения Определение 34.3. Выборочной функцией распределения (эмпирической функцией распределения) называется функция n 1X 1{Xk ≤x} , Fn (x) = n k=1 x ∈ R. Замечание 34.2. Для каждого фиксированного x это выборочная вероятность события (−∞, x]. 34.7 Свойства выборочной функции распределения Утверждение 34.2. Для каждого ω функция Fn (·, ω): 1) неубывает; 2) правосторонне непрерывна; 139
3) удовлетворяет lim Fn (x) = 0, lim Fn (x) = 1. x→−∞ x→+∞ Доказательство. Для фиксированной реализации выборки x1 , . . . , x n имеем n 1X Fn (x) = 1{xk ≤x} . n k=1 Каждое слагаемое есть ступенчатая неубывающая и правосторонне непрерывная функция по x. Их среднее сохраняет эти свойства. При x → −∞ все индикаторы равны нулю, а при x → +∞ все индикаторы равны единице, откуда и следуют пределы. 34.8 Математическое ожидание и дисперсия Fn (x) Утверждение 34.3. Для каждого фиксированного x EFn (x) = F (x), DFn (x) = F (x)(1 − F (x)) , n где F — теоретическая функция распределения. Доказательство. Это частный случай предыдущих формул для множества A = (−∞, x]. Тогда p = P(X1 ≤ x) = F (x), а  Fn (x) = pbn (−∞, x] . 34.9 Сходимость Fn (x) по вероятности Теорема 34.3. Для каждого фиксированного x ∈ R P Fn (x) → − F (x). Доказательство. Снова это частный случай сходимости выборочной вероятности:  Fn (x) = pbn (−∞, x] . Следовательно, P Fn (x) → − F (x). 140
34.10 Сходимость Fn (x) почти наверное Теорема 34.4. Для каждого фиксированного x ∈ R п.н. Fn (x) −−→ F (x). Доказательство. Опять это частный случай почти-верной сходимости выборочной вероятности. 34.11 Замечание о равномерной сходимости Замечание 34.3. Более сильный результат — теорема Гливенко–Кантелли: п.н. sup |Fn (x) − F (x)| −−→ 0. x∈R В данной программе здесь требуется знать по крайней мере поточечные сходимости по вероятности и почти наверное. 35 35.1 Билет 30. Оценки математического ожидания и дисперсии. Несмещенность, состоятельность, теорема Слуцкого Оценка параметра Определение 35.1. Пусть распределение зависит от неизвестного параметра θ. Оценкой параметра θ называется измеримая функция от выборки θbn = θbn (X1 , . . . , Xn ). 35.2 Выборочное среднее как оценка математического ожидания Определение 35.2. Выборочным средним называется величина n 1X Xn = Xk . n k=1 Пусть DX1 = σ 2 < ∞. EX1 = µ, Утверждение 35.1. Выборочное среднее является несмещенной оценкой математического ожидания: EX n = µ. Доказательство. По линейности математического ожидания n 1X nµ EX n = EXk = = µ. n k=1 n 141
Утверждение 35.2. Дисперсия выборочного среднего равна DX n = σ2 . n Доказательство. По независимости n DX n = D 1X Xk n k=1 ! n 1 X nσ 2 σ2 = 2 DXk = 2 = . n k=1 n n Теорема 35.1. Выборочное среднее является состоятельной оценкой µ: P Xn → − µ. Доказательство. По неравенству Чебышева P(|X n − µ| > ε) ≤ 35.3 DX n σ2 = → 0. ε2 nε2 Оценки дисперсии при известном математическом ожидании Пусть математическое ожидание µ известно. Определение 35.3. Тогда естественная оценка дисперсии имеет вид n σ b2µ,n 1X (Xk − µ)2 . = n k=1 Утверждение 35.3. Оценка σ b2µ,n является несмещенной: Eb σ 2µ,n = σ 2 . Доказательство. По линейности n Eb σ 2µ,n 35.4 1X nσ 2 = E(Xk − µ)2 = = σ2. n k=1 n Оценки дисперсии при неизвестном математическом ожидании Если µ неизвестно, его заменяют выборочным средним. Определение 35.4. Выборочной дисперсией часто называют величину n s2n 1X = (Xk − X n )2 . n k=1 142
Утверждение 35.4. Справедливо разложение n X 2 (Xk − X n ) = k=1 n X (Xk − µ)2 − n(X n − µ)2 . k=1 Доказательство. Представим Xk − X n = (Xk − µ) − (X n − µ). Тогда (Xk − X n )2 = (Xk − µ)2 − 2(Xk − µ)(X n − µ) + (X n − µ)2 . Суммируя по k, получаем n X 2 (Xk − X n ) = n X 2 (Xk − µ) − 2(X n − µ) k=1 k=1 Но n X (Xk − µ) + n(X n − µ)2 . k=1 n X (Xk − µ) = n(X n − µ). k=1 Поэтому то есть n X 2 (Xk − X n ) = k=1 n X (Xk − µ)2 − 2n(X n − µ)2 + n(X n − µ)2 , k=1 n X 2 (Xk − X n ) = n X (Xk − µ)2 − n(X n − µ)2 . k=1 k=1 Утверждение 35.5. Для величины n s2n 1X (Xk − X n )2 = n k=1 выполнено n−1 2 σ . n Доказательство. Берем математическое ожидание от тождества: Es2n = n n X X 2 E (Xk − X n ) = E (Xk − µ)2 − nE(X n − µ)2 . k=1 k=1 Первая часть равна nσ 2 . Вторая: nE(X n − µ)2 = nDX n = n · Следовательно, E n X σ2 = σ2. n (Xk − X n )2 = (n − 1)σ 2 . k=1 Делим на n: Es2n = n−1 2 σ . n 143
Определение 35.5. Исправленной выборочной дисперсией называется величина n Sn2 1 X = (Xk − X n )2 . n − 1 k=1 Утверждение 35.6. Исправленная выборочная дисперсия является несмещенной оценкой: ESn2 = σ 2 . Доказательство. Из предыдущего результата E n X (Xk − X n )2 = (n − 1)σ 2 . k=1 Следовательно, ESn2 35.5 n X 1 = E (Xk − X n )2 = σ 2 . n − 1 k=1 Отличие оценки дисперсии при известном и неизвестном математическом ожидании • Если µ известно, делим на n: n 1X (Xk − µ)2 . n k=1 • Если µ неизвестно и заменяется на X n , то для несмещенности нужно делить на n − 1: n 1 X (Xk − X n )2 . n − 1 k=1 Замечание 35.1. Потеря одной степени свободы связана с тем, что среднее X n уже оценено по той же выборке. 35.6 Несмещенность Определение 35.6. Оценка θbn параметра θ называется несмещенной, если Eθbn = θ. 35.7 Состоятельность Определение 35.7. Оценка θbn называется состоятельной, если P θbn → − θ, n → ∞. 144
35.8 Состоятельность выборочной дисперсии Теорема 35.2. Если EX12 < ∞, то P s2n → − σ2 P Sn2 → − σ2. и Доказательство. Используем тождество n s2n = 1X (Xk − µ)2 − (X n − µ)2 . n k=1 По закону больших чисел n 1X P (Xk − µ)2 → − E(X1 − µ)2 = σ 2 . n k=1 Также P Xn → − µ, следовательно, P − 0. (X n − µ)2 → Значит, P s2n → − σ2. Далее n 2 s . n−1 n Sn2 = Так как n → 1, n−1 то из теоремы Слуцкого следует P Sn2 → − σ2. 35.9 Теорема Слуцкого Теорема 35.3 (Слуцкого). Пусть d P Xn → − X, Yn → − c, где c — константа. Тогда: 1) d Xn + Y n → − X + c; 2) d Xn Yn → − cX; 3) если c ̸= 0, то Xn d X → − . Yn c Замечание 35.2. В данной программе обычно достаточно формулировки. Полное доказательство часто не требуется. 145
35.10 Состоятельность выборочных моментных характеристик Пусть ar = EX1r существует. Тогда выборочным начальным моментом порядка r называется n b ar,n 1X r = X . n k=1 k Теорема 35.4. Если E|X1 |r < ∞, то P b ar,n → − ar . Доказательство. Применяем закон больших чисел к случайным величинам Yk = Xkr . Так как то E|Yk | = E|Xk |r < ∞, n 1X P Yk → − EY1 = ar . n k=1 То есть P b ar,n → − ar . 35.11 Состоятельность центральных моментов Пусть µr = E(X1 − µ)r . Естественная выборочная оценка: n µ br,n = 1X (Xk − X n )r . n k=1 Теорема 35.5. Если существуют моменты нужных порядков, то P µ br,n → − µr . Замечание 35.3. Строгое доказательство удобно строить через: 1) состоятельность выборочных начальных моментов; 2) представление центрального момента как полинома от начальных моментов и µ; 3) применение теоремы Слуцкого и непрерывности полиномиальных функций. 146
35.12 Состоятельность асимметрии и эксцесса Пусть µ3 γ1 = 3/2 µ2 , γ2 = µ4 − 3. µ22 Тогда естественные выборочные аналоги: γ b1,n = µ b3,n , 3/2 µ b2,n γ b2,n = µ b4,n − 3. µ b22,n Теорема 35.6. Если существуют соответствующие моменты и µ2 > 0, то P P γ b1,n → − γ1 , γ b2,n → − γ2 . Доказательство. Мы уже знаем, что P P µ b2,n → − µ2 , P µ b3,n → − µ3 , Поскольку функции µ b4,n → − µ4 . y −3 x2 непрерывны при x > 0, по теореме Слуцкого получаем требуемые сходимости. (x, y) 7→ 36 y x3/2 , (x, y) 7→ Короткий список формул для повторения e = X − EX X (центрирование) X − EX X∗ = √ DX (нормирование) X1 + · · · + Xn − nµ d √ → − N (0, 1) σ n (ЦПТ) KX (t) = ln EetX KX (t) = ∞ X κr r=1 r! tr (семиинварианты) κ1 = EX, κ2 = DX п.н. P Lp P P d Xn −−→ X =⇒ Xn → − X Xn −→ X =⇒ Xn → − X Xn → − X =⇒ Xn → − X d P Xn → − c =⇒ Xn → − c 147
n 1X pbn (A) = 1{Xk ∈A} n k=1 Eb pn (A) = p, Db pn (A) = p(1 − p) n n 1X Fn (x) = 1{Xk ≤x} n k=1 EFn (x) = F (x), DFn (x) = F (x)(1 − F (x)) n n 1X Xk n k=1 Xn = EX n = µ, DX n = σ2 n n σ b2µ,n 1X (Xk − µ)2 = n k=1 (если µ известно) n s2n 1X = (Xk − X n )2 n k=1 Es2n = n−1 2 σ n n Sn2 1 X (Xk − X n )2 = n − 1 k=1 ESn2 = σ 2 d Xn → − X, d P d Yn → − c =⇒ Xn + Yn → − X + c, Xn Yn → − cX [12pt,a4paper]article [T2A]fontenc [utf8]inputenc [russian]babel amsmath,amssymb,amsthm,mathtools geometry enumitem bm mathrsfs margin=2.2cm Определение[section] Пример[section] Замечание[section] Теорема[section] Утверждение[section] Лемма[section] Следствие[section] Var Cov Med sgnsgn arg max arg min Подробные билеты 31–35 по теории вероятностей и математической статистике с доказательствами, выводами и основными формулами Содержание 148
37 37.1 Билет 31. Метод моментов Идея метода Пусть распределение выборки зависит от неизвестного параметра θ = (θ1 , . . . , θm ). Метод моментов состоит в том, чтобы приравнять теоретические моменты распределения их выборочным аналогам. Определение 37.1. Пусть ak (θ) = Eθ X k , k = 1, . . . , m, — теоретические начальные моменты, зависящие от параметра θ. Тогда оценкой метода моментов называется решение системы n 1X k ak (θ) = X , n i=1 i k = 1, . . . , m. Замечание 37.1. Если параметр один, то обычно достаточно одного момента. Если параметров несколько, берут столько же уравнений, сколько неизвестных параметров. 37.2 Выборочные моменты Определение 37.2. Выборочным начальным моментом порядка k называется n 1X k b ak = X . n i=1 i Если существует момент E|X|k < ∞, то по закону больших чисел P b ak → − EX k . 37.3 Общая схема метода моментов Пусть имеется параметрическая модель {Pθ , θ ∈ Θ}. Алгоритм: 1) выписать теоретические моменты a1 (θ), . . . , am (θ); 2) вычислить выборочные моменты b a1 , . . . , b am ; 3) решить систему ak (θ) = b ak , k = 1, . . . , m; 4) полученное решение принять за оценку параметра. 149
37.4 Почему метод разумен Утверждение 37.1. Если для каждого k = 1, . . . , m P b ak → − ak (θ0 ), а отображение θ 7→ (a1 (θ), . . . , am (θ)) обратимо и обратное отображение непрерывно в точке (a1 (θ0 ), . . . , am (θ0 )), то оценка метода моментов состоятельна: P θbn → − θ0 . Доказательство. По условию P (b a1 , . . . , b am ) → − (a1 (θ0 ), . . . , am (θ0 )). Так как θbn = g(b a1 , . . . , b am ), где g — непрерывное обратное отображение, то по теореме о непрерывном отображении P θbn → − g(a1 (θ0 ), . . . , am (θ0 )) = θ0 . 37.5 Пример 1. Схема Бернулли Пусть X1 , . . . , Xn ∼ Bern(p). Тогда EX1 = p. Приравниваем первый теоретический момент выборочному: n 1X Xi . p= n i=1 Получаем оценку метода моментов: pbMM = X. Замечание 37.2. В схеме Бернулли оценка метода моментов совпадает с выборочной вероятностью успеха. 37.6 Пример 2. Распределение Пуассона Пусть X1 , . . . , Xn ∼ Pois(λ). Тогда EX1 = λ. Значит, bMM = X. λ 150
37.7 Пример 3. Экспоненциальное распределение Пусть X1 , . . . , Xn ∼ Exp(λ), Приравниваем: 1 . λ 1 = X. λ Следовательно, 37.8 EX1 = bMM = 1 . λ X Пример 4. Равномерное распределение на [0, θ] Пусть X1 , . . . , Xn ∼ U [0, θ], Тогда θ > 0. θ EX1 = . 2 Из уравнения θ =X 2 получаем оценку θbMM = 2X. 37.9 Пример 5. Нормальное распределение Пусть X1 , . . . , Xn ∼ N (a, σ 2 ), где неизвестны оба параметра a, σ 2 . Теоретические начальные моменты: EX12 = a2 + σ 2 . EX1 = a, Приравниваем: n 1X a= Xi = X, n i=1 n 1X 2 a +σ = X . n i=1 i 2 2 Подставляя a = X, получаем n 2 σ bMM Так как то 1X 2 2 = Xi − X . n i=1 n n 1X 2 1X 2 Xi − X = (Xi − X)2 , n i=1 n i=1 n b aMM = X, 2 σ bMM 1X = (Xi − X)2 . n i=1 151
Вывод тождества. Распишем: n n  1X 1 X 2 2 (Xi − X)2 = Xi − 2Xi X + X . n i=1 n i=1 Тогда n n n 1X 1X 2 1X 2 (Xi − X)2 = Xi − 2X · Xi + X . n i=1 n i=1 n i=1 Но n 1X Xi = X, n i=1 поэтому n n 1X 1X 2 2 (Xi − X)2 = X −X . n i=1 n i=1 i 37.10 Достоинства и недостатки метода моментов Плюсы: • метод часто очень прост вычислительно; • не требует максимизации сложных функций; • часто дает явную формулу оценки. Минусы: • оценка может оказаться неэффективной; • иногда система моментных уравнений не имеет решения или имеет несколько решений; • метод неприменим, если нужные моменты не существуют. 38 38.1 Билет 32. Квантили, выборочные квантили, медиана Квантиль Определение 38.1. Пусть F — функция распределения случайной величины X, и p ∈ (0, 1). p-квантилью распределения называется число qp = inf{x ∈ R : F (x) ≥ p}. Замечание 38.1. Если F строго возрастает и непрерывна, то qp определяется из уравнения F (qp ) = p. 152
38.2 Медиана Определение 38.2. Медианой случайной величины называется квантиль уровня 1 p= . 2 То есть m = q1/2 . Замечание 38.2. Для медианы выполняются соотношения 1 P(X ≤ m) ≥ , 2 38.3 1 P(X ≥ m) ≥ . 2 Квартили, интерквартильный размах, децили, процентили Определение 38.3. • Первая квартиль: Q1 = q1/4 . • Вторая квартиль: Q2 = q1/2 = (X). • Третья квартиль: Q3 = q3/4 . • Интерквартильный размах: IQR = Q3 − Q1 . • Децили: Dk = qk/10 , k = 1, . . . , 9. Pk = qk/100 , k = 1, . . . , 99. • Процентили: 38.4 Аналогия медианы и размаха математическому ожиданию и дисперсии Замечание 38.3. Математическое ожидание и дисперсия описывают положение центра и разброс распределения через моменты. Медиана и интерквартильный размах играют похожую роль, но определяются через квантили. Замечание 38.4. Главное отличие состоит в устойчивости: • математическое ожидание и дисперсия чувствительны к выбросам; • медиана и интерквартильный размах гораздо более устойчивы. 153
38.5 Почему метод моментов неприменим при отсутствии моментов Утверждение 38.1. Если у распределения не существует нужных моментов, метод моментов неприменим. Доказательство. Метод моментов строится из уравнений вида Eθ X k = b ak . Если величина Eθ X k не существует, то само уравнение метода моментов не определено. Следовательно, оценку этим методом построить нельзя. Пример 38.1. Для стандартного распределения Коши математическое ожидание не существует. Поэтому уже первый момент нельзя использовать, и метод моментов в обычном виде неприменим. 38.6 Выборочные квантили Пусть X(1) ≤ X(2) ≤ · · · ≤ X(n) — вариационный ряд. Определение 38.4. Выборочной p-квантилью называют квантиль эмпирической функции распределения: qbp = inf{x : Fn (x) ≥ p}, где n 1X 1{Xi ≤x} . Fn (x) = n i=1 Утверждение 38.2. Для k = min{j : j/n ≥ p} = ⌈np⌉ имеем qbp = X(k) . Доказательство. Эмпирическая функция распределения Fn возрастает скачками величины 1/n в точках X(1) , . . . , X(n) . При этом k k , Fn (x) < для x < X(k) достаточно близких к X(k) . n n Минимальный индекс k, при котором Fn (X(k) ) = k ≥ p, n и дает точку, где эмпирическая функция впервые достигает уровня p. Значит, qbp = X(k) . 154
38.7 Выборочная медиана Определение 38.5. Выборочной медианой называется выборочная квантиль уровня 1/2: m b = qb1/2 . Обычные формы записи: • если n = 2r − 1 нечетно, то m b = X(r) ; • если n = 2r четно, то часто берут X(r) + X(r+1) 2 или один из центральных порядковых членов. m b = 38.8 Состоятельность выборочной квантили Теорема 38.1. Пусть qp — единственная p-квантиль распределения F , и F непрерывна в точке qp . Тогда P qbp → − qp . Доказательство. Пусть ε > 0. По определению квантили и единственности F (qp − ε) < p < F (qp + ε). Так как P P Fn (qp − ε) → − F (qp − ε), Fn (qp + ε) → − F (qp + ε), то вероятности событий Fn (qp − ε) < p и Fn (qp + ε) ≥ p стремятся к 1. А это означает, что с вероятностью, стремящейся к 1, qp − ε < qbp ≤ qp + ε. Следовательно, P(|b qp − qp | > ε) → 0. То есть P qbp → − qp . 38.9 Асимптотическая нормальность выборочной квантили Теорема 38.2 (формулировка). Пусть qp — единственная p-квантиль, функция распределения F имеет в точке qp непрерывную плотность f , причем f (qp ) > 0. Тогда √ d  n (b qp − q p ) → − N p(1 − p) 0, f (qp )2  . Замечание 38.5. В вашей программе для этой теоремы достаточно формулировки. Полное доказательство обычно не требуется. 155
38.10 Пример: оценка параметра сдвига у распределения Коши Пусть X1 , . . . , X n — выборка из распределения Коши со сдвигом a и известным масштабом 1: f (x; a) = 1 . π 1 + (x − a)2 Утверждение 38.3. Медиана этого распределения равна a. Доказательство. Функция распределения имеет вид F (x) = 1 1 + arctan(x − a). 2 π F (a) = 1 1 1 + arctan 0 = . 2 π 2 Подставим x = a: Значит, a = q1/2 . То есть a есть медиана распределения. Следствие 38.1. Естественной оценкой параметра сдвига a является выборочная медиана: b a = m. b Замечание 38.6. Этот пример особенно важен, потому что у распределения Коши не существует математического ожидания. Поэтому использовать метод моментов нельзя, а квантильные оценки остаются корректными. 39 39.1 Билет 33. Распределения χ2, Стьюдента и Фишера Распределение χ2 Определение 39.1. Если Z1 , . . . , Zn — независимые стандартные нормальные случайные величины, то случайная величина U = Z12 + · · · + Zn2 имеет распределение χ2 с n степенями свободы. Пишут: U ∼ χ2n . 156
39.2 Характеристическая функция и производящая функция моментов Утверждение 39.1. Если U ∼ χ2n , то производящая функция моментов равна 1 t< . 2 MU (t) = EetU = (1 − 2t)−n/2 , Доказательство. Сначала рассмотрим одну величину Z ∼ N (0, 1). Тогда Ee tZ 2 1 =√ 2π ∞ Z e tz 2 −z 2 /2 e −∞ При t < 1/2 имеем Z ∞ −az 2 e 1 dz = √ 2π r dz = −∞ Значит, Ee Теперь, поскольку tZ 2 1 =√ 2π r π , a Z ∞ −∞ a > 0. π 1 =√ . 1/2 − t 1 − 2t U = Z12 + · · · + Zn2 и величины Zi2 независимы, получаем MU (t) = n Y 2 EetZi = (1 − 2t)−n/2 . i=1 39.3 Математическое ожидание и дисперсия Утверждение 39.2. Если U ∼ χ2n , то EU = n, DU = 2n. Доказательство. Используем производящую функцию моментов: MU (t) = (1 − 2t)−n/2 . Тогда поэтому Далее MU′ (t) = n(1 − 2t)−n/2−1 , EU = MU′ (0) = n. MU′′ (t) = n(n + 2)(1 − 2t)−n/2−2 , 157 2 e−(1/2−t)z dz.
следовательно, Значит, 39.4 EU 2 = MU′′ (0) = n(n + 2). DU = EU 2 − (EU )2 = n(n + 2) − n2 = 2n. Плотность распределения χ2 Утверждение 39.3. Плотность распределения χ2n имеет вид fU (u) = 1 2n/2 Γ(n/2) un/2−1 e−u/2 , u > 0. Замечание 39.1. То есть распределение χ2n является гамма-распределением с параметрами n/2 и 2. 39.5 Распределение Стьюдента Определение 39.2. Пусть U ∼ χ2n , Z ∼ N (0, 1), причем Z и U независимы. Тогда случайная величина Z T =p U/n имеет распределение Стьюдента с n степенями свободы. Пишут: T ∼ tn . 39.6 Основные свойства распределения Стьюдента Утверждение 39.4. Распределение Стьюдента симметрично относительно нуля. Доказательство. Величина Z симметрична относительно нуля, а знаменатель p U/n всегда положителен и не зависит от Z. Поэтому d T = −T. Утверждение 39.5. Если T ∼ tn , то: 1) при n > 1 ET = 0; 2) при n > 2 DT = n . n−2 Замечание 39.2. Эти формулы обычно приводят без полного доказательства. 158
39.7 Плотность распределения Стьюдента Утверждение 39.6. Плотность распределения tn имеет вид   −(n+1)/2 Γ n+1 t2 2  1+ fT (t) = √ , t ∈ R. n nπ Γ n2 39.8 Распределение Фишера Определение 39.3. Пусть U ∼ χ2m , V ∼ χ2n , причем U и V независимы. Тогда случайная величина F = U/m V /n имеет распределение Фишера с m и n степенями свободы. Пишут: F ∼ Fm,n . 39.9 Свойства распределения Фишера Утверждение 39.7. Если F ∼ Fm,n , то 1 ∼ Fn,m . F Доказательство. По определению F = Тогда U/m . V /n 1 V /n = . F U/m Но V ∼ χ2n , U ∼ χ2m , и они независимы. Следовательно, 1 ∼ Fn,m . F Утверждение 39.8. Если n > 2, то EF = n . n−2 Замечание 39.3. Дисперсия распределения Фишера существует при n > 4 и равна DF = 2n2 (m + n − 2) . m(n − 2)2 (n − 4) 159
39.10 Где возникают эти распределения • χ2 возникает при сумме квадратов независимых стандартных нормальных величин; • распределение Стьюдента возникает при стандартизации нормального среднего с неизвестной дисперсией; • распределение Фишера возникает при сравнении двух независимых оценок дисперсии. 40 40.1 Билет 34. Доверительные интервалы. Лемма и теорема Фишера Доверительный интервал Определение 40.1. Пусть θ — неизвестный параметр. Случайный интервал ( L(X1 , . . . , Xn ), U (X1 , . . . , Xn ) ) называется доверительным интервалом уровня доверия 1 − α, если  Pθ L ≤ θ ≤ U = 1 − α для всех допустимых θ или для рассматриваемого класса θ. 40.2 Лемма Фишера Лемма 40.1 (Фишера). Пусть Z1 , . . . , Zn — независимые стандартные нормальные случайные величины, и A — ортогональная матрица порядка n. Если Y = AZ, Z = (Z1 , . . . , Zn )T , то случайные величины Y1 , . . . , Y n тоже независимы и имеют распределение N (0, 1). Доказательство. Так как Z — стандартный гауссов вектор в Rn , его характеристическая функция равна   1 T φZ (t) = exp − t t . 2 Для Y = AZ получаем φY (t) = Ee itT Y Так как A ортогональна, itT AZ = Ee i(AT t)T Z = Ee   1 T T T = exp − (A t) (A t) . 2 (AT t)T (AT t) = tT AAT t = tT t. 160
Следовательно,   1 T φY (t) = exp − t t . 2 Это характеристическая функция стандартного гауссова вектора с независимыми координатами. Значит, Y1 , . . . , Y n независимы и Yk ∼ N (0, 1). 40.3 Теорема Фишера для нормальной выборки Пусть X1 , . . . , X n — независимые N (µ, σ 2 ) случайные величины. Теорема 40.1 (Фишера). Для нормальной выборки справедливо: 1)   σ2 X ∼ N µ, ; n 2) n 1 X (Xi − X)2 ∼ χ2n−1 ; σ 2 i=1 3) случайные величины X и n X (Xi − X)2 i=1 независимы; 4) X −µ √ ∼ tn−1 , S/ n n 1 X S = (Xi − X)2 . n − 1 i=1 2 Доказательство. Стандартизируем выборку: Zi = Xi − µ , σ i = 1, . . . , n. Тогда Z1 , . . . , Zn независимы и Zi ∼ N (0, 1). Возьмем ортогональную матрицу A, у которой первая строка равна   1 1 √ ,..., √ . n n 161
Положим Y = AZ. По лемме Фишера координаты Y1 , . . . , Yn независимы и стандартно нормальны. Первая координата: √ n 1 X n(X − µ) Zi = Y1 = √ . σ n i=1 Значит,  σ2 . X ∼ N µ, n Далее, так как ортогональное преобразование сохраняет сумму квадратов, n n X X 2 Zi = Yi2 .  i=1 Но n X Zi2 = i=1 i=1 n 1 X (Xi − µ)2 . σ 2 i=1 С другой стороны, стандартное разложение дает n n X X (Xi − µ)2 = (Xi − X)2 + n(X − µ)2 . i=1 Делим на σ : i=1 2 n X Zi2 i=1 n n(X − µ)2 1 X . = 2 (Xi − X)2 + σ i=1 σ2 Но n(X − µ)2 = Y12 . 2 σ Следовательно, n X Yi2 i=2 n 1 X (Xi − X)2 . = 2 σ i=1 Так как Y2 , . . . , Yn независимы и стандартно нормальны, то n X Yi2 ∼ χ2n−1 . i=2 Получаем n 1 X (Xi − X)2 ∼ χ2n−1 . 2 σ i=1 Независимость X и суммы квадратов отклонений от среднего следует из независимости Y1 и n X Yi2 , i=2 поскольку первая величина зависит только от Y1 , а вторая — только от Y2 , . . . , Yn . Наконец, √ X −µ √ =q S/ n 1 n−1 · 1 σ2 n(X−µ) σ Y1 = p Pn . ( i=2 Yi2 ) /(n − 1) 2 (X − X) i i=1 Pn По определению это распределение Стьюдента tn−1 . 162
40.4 Точный доверительный интервал для математического ожидания при известной дисперсии Пусть σ 2 известно, а X1 , . . . , Xn ∼ N (µ, σ 2 ). Тогда Обозначим через z1−α/2 X −µ √ ∼ N (0, 1). σ/ n квантиль стандартного нормального распределения: P(−z1−α/2 ≤ Z ≤ z1−α/2 ) = 1 − α. Тогда  X −µ √ ≤ z1−α/2 = 1 − α. P −z1−α/2 ≤ σ/ n Решая неравенство относительно µ, получаем доверительный интервал:   σ σ µ ∈ X − z1−α/2 √ , X + z1−α/2 √ . n n  40.5 Точный доверительный интервал для математического ожидания при неизвестной дисперсии Если σ 2 неизвестно, то по теореме Фишера X −µ √ ∼ tn−1 . S/ n Пусть tn−1,1−α/2 — квантиль распределения Стьюдента:  P −tn−1,1−α/2 ≤ T ≤ tn−1,1−α/2 = 1 − α. Тогда 40.6  S S µ ∈ X − tn−1,1−α/2 √ , X + tn−1,1−α/2 √ . n n  Точный доверительный интервал для дисперсии при известном математическом ожидании Пусть µ известно. Тогда n 1 X (Xi − µ)2 ∼ χ2n . 2 σ i=1 Обозначим квантили распределения χ2n через χ2n,γ , Тогда P χ2n,α/2 P(χ2n ≤ χ2n,γ ) = γ. n 1 X ≤ 2 (Xi − µ)2 ≤ χ2n,1−α/2 σ i=1 ! = 1 − α. Решая относительно σ 2 , получаем "P # Pn n 2 2 (X − µ) (X − µ) i i i=1 i=1 σ2 ∈ , . χ2n,1−α/2 χ2n,α/2 163
40.7 Точный доверительный интервал для дисперсии при неизвестном математическом ожидании Если µ неизвестно, то по теореме Фишера (n − 1)S 2 ∼ χ2n−1 . σ2 Следовательно,   (n − 1)S 2 2 2 ≤ χn−1,1−α/2 = 1 − α, P χn−1,α/2 ≤ σ2 и потому 40.8 # 2 2 (n − 1)S (n − 1)S . , σ2 ∈ χ2n−1,1−α/2 χ2n−1,α/2 " Точный прогнозный интервал для нового наблюдения в нормальном случае Пусть Xn+1 ∼ N (µ, σ 2 ) независима от выборки X1 , . . . , X n . Тогда  Xn+1 − X ∼ N   1 0, σ 1 + . n 2 Кроме того, Xn+1 − X независима от S 2 . Поэтому Xn+1 − X p ∼ tn−1 . S 1 + 1/n Отсюда точный прогнозный интервал уровня 1 − α: " # r r 1 1 Xn+1 ∈ X − tn−1,1−α/2 S 1 + , X + tn−1,1−α/2 S 1 + . n n 40.9 Асимптотический доверительный интервал для параметра p в схеме Бернулли Пусть X1 , . . . , Xn ∼ Bern(p), pb = X. Тогда по центральной предельной теореме √ n(b p − p) d p → − N (0, 1). p(1 − p) Заменяя неизвестный p в знаменателе на pb и применяя теорему Слуцкого, получаем асимптотически √ n(b p − p) p ≈ N (0, 1). pb(1 − pb) 164
Отсюда асимптотический доверительный интервал: # " r r pb(1 − pb) pb(1 − pb) , pb + z1−α/2 . p ∈ pb − z1−α/2 n n 41 41.1 Билет 35. Метод максимального правдоподобия Функция правдоподобия Определение 41.1. Пусть X1 , . . . , X n — выборка из распределения, зависящего от параметра θ. Функцией правдоподобия называется функция параметра L(θ) = L(θ; x1 , . . . , xn ), которая, в дискретном случае, равна вероятности наблюденной выборки, а в абсолютно непрерывном случае — значению совместной плотности выборки как функции параметра. Если наблюдения независимы и имеют плотность f (x; θ), то L(θ) = n Y f (xi ; θ). i=1 Если наблюдения независимы и имеют вероятности p(x; θ), то L(θ) = n Y p(xi ; θ). i=1 41.2 Оценка максимального правдоподобия Определение 41.2. Оценкой максимального правдоподобия (ОМП) называется значение параметра θbML ∈θ∈Θ L(θ). Замечание 41.1. Поскольку логарифм монотонно возрастает, часто удобнее максимизировать логарифмическую функцию правдоподобия ℓ(θ) = ln L(θ). 41.3 Условие первого порядка Если ℓ(θ) дифференцируема и максимум достигается во внутренней точке, то обычно ищут решение уравнения ℓ′ (θ) = 0. Затем проверяют, что найденная точка действительно дает максимум. 165
41.4 Свойство инвариантности ОМП Теорема 41.1. Если θbML — ОМП для параметра θ, а g — функция, то оценкой максимального правдоподобия для параметра η = g(θ) служит g(θbML ), если g инъективна на области параметров или максимум корректно переносится по прообразам. Доказательство. Пусть η = g(θ). Тогда правдоподобие как функция η определяется через соответствующие значения θ. Так как максимум исходного правдоподобия достигается при θ = θbML , то максимум по параметру η достигается при η = g(θbML ). Идея проста: сначала выбирается наиболее правдоподобное значение θ, а затем к нему применяется функция g. 41.5 Пример 1. Схема Бернулли Пусть X1 , . . . , Xn ∼ Bern(p), Тогда p ∈ (0, 1). P(Xi = xi ) = pxi (1 − p)1−xi , Следовательно, L(p) = n Y P pxi (1 − p)1−xi = p xi ∈ {0, 1}. xi (1 − p)n− P xi . i=1 Логарифм: ℓ(p) = X  xi ln p + n − Дифференцируем: X ℓ (p) =  xi ln(1 − p). P xi n − xi − . p 1−p P ′ Приравниваем к нулю:  P P xi n − xi = . p 1−p После преобразований получаем n 1X p= xi = x. n i=1 Следовательно, pbML = X. 166
41.6 Пример 2. Распределение Пуассона Пусть X1 , . . . , Xn ∼ Pois(λ), Тогда L(λ) = n Y −λ λ e xi xi ! i=1 Логарифм: ℓ(λ) = −nλ + X λ > 0. −nλ =e λ P xi n Y 1 . x ! i i=1 n  X xi ln λ − ln(xi !). i=1 Дифференцируем: P ′ ℓ (λ) = −n + Отсюда xi . λ n X bML = 1 λ Xi = X. n i=1 Проверка второго порядка: P ′′ ℓ (λ) = − xi λ2 < 0, поэтому это действительно максимум. 41.7 Пример 3. Экспоненциальное распределение Пусть X1 , . . . , Xn ∼ Exp(λ), Плотность: λ > 0. f (x; λ) = λe−λx 1[0,∞) (x). Если все xi ≥ 0, то L(λ) = n Y λe−λxi = λn e−λ P i=1 Логарифм: ℓ(λ) = n ln λ − λ Дифференцируем: ℓ′ (λ) = Приравниваем к нулю: Так как это максимум. X xi . n X − xi . λ bML = Pn = 1 . λ xi X ℓ′′ (λ) = − n < 0, λ2 167 xi .
41.8 Пример 4. Равномерное распределение на [0, θ] Пусть X1 , . . . , Xn ∼ U [0, θ], θ > 0. Плотность: 1 f (x; θ) = 1[0,θ] (x). θ Тогда функция правдоподобия равна L(θ) = n Y 1 i=1 Иначе говоря, θ 1{0≤xi ≤θ} = θ−n 1{θ≥max xi } . ( θ−n , θ ≥ X(n) , L(θ) = 0, θ < X(n) . На промежутке [X(n) , ∞) функция θ−n убывает. Поэтому максимум достигается при наименьшем допустимом θ: θbML = X(n) = max(X1 , . . . , Xn ). 41.9 Пример 5. Нормальное распределение при известной дисперсии Пусть X1 , . . . , Xn ∼ N (µ, σ 2 ), где σ 2 известно, а µ неизвестно. Плотность:   1 (x − µ)2 f (x; µ) = √ exp − . 2σ 2 σ 2π Тогда  L(µ) = 1 √ σ 2π n ! n 1 X exp − 2 (xi − µ)2 . 2σ i=1 Максимизация правдоподобия эквивалентна минимизации суммы n X (xi − µ)2 . i=1 Утверждение 41.1. Функция n X Q(µ) = (xi − µ)2 i=1 минимальна при µ = x. 168
Доказательство. Раскрываем: Q(µ) = X x2i − 2µ X xi + nµ2 . Это квадратный трехчлен по µ с положительным коэффициентом при µ2 , поэтому минимум достигается в вершине параболы: P xi µ= = x. n Следовательно, µ bML = X. 41.10 Пример 6. Нормальное распределение при неизвестных µ и σ2 Пусть Тогда Логарифм: X1 , . . . , Xn ∼ N (µ, σ 2 ), σ 2 > 0. ! n X 1 L(µ, σ 2 ) = (2πσ 2 )−n/2 exp − 2 (xi − µ)2 . 2σ i=1 n n 1 X n 2 ℓ(µ, σ ) = − ln(2π) − ln σ − 2 (xi − µ)2 . 2 2 2σ i=1 2 Сначала максимизируем по µ. Как и раньше, это дает µ bML = X. Подставляем: n n n 1 X 2 (xi − x)2 . ℓ(X, σ ) = − ln(2π) − ln σ − 2 2 2 2σ i=1 2 Дифференцируем по σ 2 : n ∂ℓ n 1 X =− 2 + (xi − x)2 . ∂σ 2 2σ 2(σ 2 )2 i=1 Приравнивая к нулю, получаем 2 −nσ + n X (xi − x)2 = 0, i=1 то есть n 1X σb2 ML = (Xi − X)2 . n i=1 Замечание 41.2. Это не исправленная выборочная дисперсия, а именно деление на n, а не на n − 1. 169
41.11 Свойства ОМП • ОМП часто имеет хороший асимптотический смысл: состоятельность, асимптотическую нормальность и асимптотическую эффективность. • Во многих простых моделях ОМП совпадает с хорошо знакомыми статистиками. • В некоторых моделях максимум достигается на границе области параметров. 41.12 Сравнение метода моментов и метода максимального правдоподобия • Метод моментов проще вычислительно. • Метод максимального правдоподобия обычно дает более сильные асимптотические свойства. • Иногда обе оценки совпадают, например в схемах Бернулли, Пуассона и для экспоненциального распределения. 42 Короткий список формул для повторения n 1X k ak (θ) = X n i=1 i (метод моментов) pbMM = X для Bern(p) bMM = X λ для Pois(λ) bMM = 1 λ X для Exp(λ) θbMM = 2X для U [0, θ] qp = inf{x : F (x) ≥ p} (X) = q1/2 , Q1 = q1/4 , (квантиль) Q3 = q3/4 , IQR = Q3 − Q1 qbp = inf{x : Fn (x) ≥ p} = X(⌈np⌉) √ d n (b qp − q p ) → − N U= n X  p(1 − p) 0, f (qp )2 Zi2 ∼ χ2n i=1 170 
Z T =p ∼ tn U/n F = U/m ∼ Fm,n V /n X −µ √ ∼ N (0, 1) σ/ n X −µ √ ∼ tn−1 S/ n (n − 1)S 2 ∼ χ2n−1 2 σ   σ σ µ ∈ X − z1−α/2 √ , X + z1−α/2 √ n n   S S µ ∈ X − tn−1,1−α/2 √ , X + tn−1,1−α/2 √ n n " # (n − 1)S 2 (n − 1)S 2 σ2 ∈ , χ2n−1,1−α/2 χ2n−1,α/2 L(θ) = n Y или f (xi ; θ) L(θ) = i=1 n Y p(xi ; θ) i=1 θbML ∈θ L(θ) pbML = X для Bern(p) bML = X λ для Pois(λ) bML = 1 λ X для Exp(λ) для U [0, θ] θbML = X(n) n µ bML = X, 1X σb2 ML = (Xi − X)2 n i=1 для N (µ, σ 2 ) [12pt,a4paper]article [T2A]fontenc [utf8]inputenc [russian]babel amsmath,amssymb,amsthm,mathtools geometry enumitem bm mathrsfs array margin=2.2cm Определение[section] Пример[section] Замечание[section] Теорема[section] Утверждение[section] Лемма[section] Следствие[section] Var Cov arg max arg min Подробные билеты 36–41 по теории вероятностей и математической статистике с доказательствами, выводами и основными формулами 171
Содержание 43 43.1 Билет 36. Эффективность оценок. Информация Фишера. Теорема Рао–Фреше–Крамера Несмещенные оценки Определение 43.1. Пусть распределение выборки зависит от параметра θ ∈ Θ, а b 1 , . . . , Xn ) θb = θ(X — оценка параметра θ. Оценка называется несмещенной, если для всех θ ∈ Θ. Eθ θb = θ 43.2 Эффективность оценки Определение 43.2. Пусть θb — несмещенная оценка параметра θ. Ее дисперсия Dθ θb характеризует точность оценки. Несмещенная оценка называется эффективной, если она имеет наименьшую возможную дисперсию среди всех несмещенных оценок данного параметра. Замечание 43.1. На практике обычно сравнивают дисперсию оценки с нижней границей Рао–Фреше–Крамера. Если несмещенная оценка достигает этой границы, ее называют эффективной. 43.3 Функция правдоподобия и логарифмическая производная Пусть X1 , . . . , X n — выборка из семейства распределений с плотностью или вероятностью f (x; θ). Тогда функция правдоподобия равна L(θ) = n Y f (Xi ; θ), i=1 а логарифмическая функция правдоподобия: ℓ(θ) = ln L(θ) = n X ln f (Xi ; θ). i=1 Определение 43.3. Величина ∂ ℓ(θ) ∂θ называется скоростью или скором (score function). U (θ) = 172
43.4 Информация Фишера Определение 43.4. Информацией Фишера в одной наблюдаемой случайной величине называется величина  2 ∂ I1 (θ) = Eθ ln f (X; θ) , ∂θ если соответствующие производные и ожидания существуют. Для выборки объема n:  In (θ) = Eθ ∂ ℓ(θ) ∂θ 2 . Утверждение 43.1. Если выполнены стандартные условия регулярности, то Eθ ∂ ln f (X; θ) = 0 ∂θ и ∂2 I1 (θ) = −Eθ 2 ln f (X; θ). ∂θ Доказательство. Используем тот факт, что Z f (x; θ) dx = 1. Дифференцируем по θ: Z Но ∂ f (x; θ) dx = 0. ∂θ ∂ ∂ f (x; θ) = f (x; θ) ln f (x; θ). ∂θ ∂θ Z ∂ f (x; θ) ln f (x; θ) dx = 0, ∂θ Следовательно, то есть ∂ ln f (X; θ) = 0. ∂θ Теперь продифференцируем это равенство еще раз: Z ∂ ∂ f (x; θ) ln f (x; θ) dx. 0= ∂θ ∂θ Eθ Раскрывая производную под знаком интеграла, получаем  Z  ∂f ∂ ∂2 0= ln f + f 2 ln f dx. ∂θ ∂θ ∂θ Так как то ∂f ∂ =f ln f, ∂θ ∂θ 2 Z  Z ∂ ∂2 0= f ln f dx + f 2 ln f dx. ∂θ ∂θ Значит,  Eθ 2 ∂ ∂2 ln f (X; θ) = −Eθ 2 ln f (X; θ). ∂θ ∂θ 173
43.5 Аддитивность информации Фишера Утверждение 43.2. Если X1 , . . . , X n независимы и одинаково распределены, то In (θ) = nI1 (θ). Доказательство. Имеем ℓ(θ) = n X ln f (Xi ; θ), i=1 поэтому ′ Un (θ) = ℓ (θ) = n X Ui (θ), i=1 где Ui (θ) = ∂ ln f (Xi ; θ). ∂θ Тогда In (θ) = Eθ Un (θ)2 = Eθ n X !2 Ui (θ) . i=1 Раскрываем квадрат: In (θ) = n X X EUi (θ)2 + 2 i=1  E Ui (θ)Uj (θ) . 1≤i<j≤n Из независимости и равенства EUi (θ) = 0 получаем E(Ui Uj ) = EUi EUj = 0. Следовательно, In (θ) = n X I1 (θ) = nI1 (θ). i=1 43.6 Теорема Рао–Фреше–Крамера Теорема 43.1 (неравенство Рао–Фреше–Крамера). Пусть θb — несмещенная оценка параметра θ, и выполнены условия регулярности, позволяющие дифференцировать под знаком интеграла. Тогда 1 Dθ θb ≥ . In (θ) Доказательство. Так как Eθ θb = θ, то d b Eθ θ = 1. dθ 174
Перепишем ожидание через плотность выборки fn (x; θ): Z b θ(x)f n (x; θ) dx = θ. Дифференцируем: Z Используем равенство Тогда ∂ b θ(x) fn (x; θ) dx = 1. ∂θ ∂ ∂ fn = fn ln fn . ∂θ ∂θ Z ∂ b θ(x)f ln fn (x; θ) dx = 1. n (x; θ) ∂θ То есть h i Eθ θb Un (θ) = 1. Но Eθ Un (θ) = 0. Следовательно, h i Eθ (θb − θ)Un (θ) = 1. Применим неравенство Коши–Буняковского: 12 ≤ Eθ (θb − θ)2 · Eθ Un (θ)2 . То есть 1 ≤ Dθ θb · In (θ). Отсюда Dθ θb ≥ 43.7 1 . In (θ) Условие равенства Утверждение 43.3. Равенство в неравенстве Рао–Фреше–Крамера достигается тогда и только тогда, когда почти наверное θb − θ = c(θ) Un (θ) для некоторой функции c(θ). Замечание 43.2. Это условие возникает из условия равенства в неравенстве Коши– Буняковского. 175
43.8 Пример 1. Бернулли Пусть Тогда X1 , . . . , Xn ∼ Bern(p), p ∈ (0, 1). f (x; p) = px (1 − p)1−x , x ∈ {0, 1}. Логарифм: ln f (x; p) = x ln p + (1 − x) ln(1 − p). Следовательно, x 1−x ∂ ln f (x; p) = − . ∂p p 1−p Вычислим информацию Фишера:  I1 (p) = E X 1−X − p 1−p 2 . Поскольку X ∈ {0, 1}, имеем:  1, X = 1, X 1−X p − = − 1 , X = 0. p 1−p 1−p Значит, I1 (p) = p · 1 1 1 1 1 + (1 − p) · = + = . p2 (1 − p)2 p 1−p p(1 − p) Следовательно, n . p(1 − p) In (p) = Граница Крамера–Рао: Db p≥ p(1 − p) . n Для выборочного среднего n 1X X= Xi n i=1 имеем EX = p, DX = p(1 − p) . n Значит, X эффективна. 43.9 Пример 2. Пуассон Пусть X1 , . . . , Xn ∼ Pois(λ), Тогда f (x; λ) = e−λ λx , x! 176 λ > 0. x = 0, 1, 2, . . .
и ln f (x; λ) = −λ + x ln λ − ln(x!). Отсюда x ∂ ln f (x; λ) = −1 + . ∂λ λ Следовательно,  2 X I1 (λ) = E −1 + . λ Заметим, что −1 + поэтому X X −λ = , λ λ I1 (λ) = λ 1 DX = 2 = . 2 λ λ λ In (λ) = n , λ Значит, b≥ Dλ λ . n DX = λ . n Для выборочного среднего X имеем EX = λ, Следовательно, X эффективна. 43.10 Пример 3. Нормальное распределение с известной дисперсией Пусть X1 , . . . , Xn ∼ N (µ, σ 2 ), где σ 2 известно, а µ неизвестно. Тогда   (x − µ)2 1 f (x; µ) = √ exp − . 2σ 2 σ 2π Логарифм: ln f (x; µ) = const − Поэтому (x − µ)2 . 2σ 2 ∂ x−µ ln f (x; µ) = . ∂µ σ2 Следовательно,  I1 (µ) = E X −µ σ2 2 Значит, In (µ) = 177 = n . σ2 DX 1 = . σ4 σ2
Граница: Db µ≥ σ2 . n У выборочного среднего X дисперсия равна DX = σ2 , n поэтому X эффективна. 43.11 Итог по билету • Информация Фишера измеряет, насколько сильно распределение зависит от параметра. • Чем больше информация Фишера, тем меньше возможная дисперсия несмещенной оценки. • Граница Крамера–Рао дает фундаментальное ограничение на точность несмещенного оценивания. 44 44.1 Билет 37. Метод наименьших квадратов. Линейная регрессия Идея метода наименьших квадратов Определение 44.1. Пусть наблюдаются пары (x1 , y1 ), . . . , (xn , yn ), и предполагается, что между x и y существует функциональная зависимость с параметрами. Метод наименьших квадратов состоит в выборе параметров, минимизирующих сумму квадратов отклонений наблюдений от модели. 44.2 Простейшая линейная регрессия Рассматривается модель Yi = a + bxi + εi , i = 1, . . . , n, где • xi — известные числа; • a, b — неизвестные параметры; • εi — случайные ошибки. Определение 44.2. Оценками МНК параметров a, b называются значения b a, bb, минимизирующие функцию n X Q(a, b) = (yi − a − bxi )2 . i=1 178
44.3 Вывод нормальных уравнений Теорема 44.1. Точка минимума функции Q(a, b) = n X (yi − a − bxi )2 i=1 удовлетворяет системе ∂Q = 0, ∂a то есть ∂Q = 0, ∂b n X (yi − a − bxi ) = 0, i=1 n X xi (yi − a − bxi ) = 0. i=1 Эти уравнения называются нормальными уравнениями. Доказательство. Функция Q(a, b) дифференцируема, а так как это квадратичная функция с положительно определенной квадратичной частью при ненулевом разбросе xi , ее минимум находится из условий первого порядка. Вычислим производные: n X ∂Q = −2 (yi − a − bxi ), ∂a i=1 n X ∂Q = −2 xi (yi − a − bxi ). ∂b i=1 Приравнивая их нулю, получаем систему нормальных уравнений. 44.4 Явные формулы для коэффициентов Обозначим n n 1X x= xi , n i=1 1X y= yi . n i=1 Теорема 44.2. Если n X (xi − x)2 > 0, i=1 то оценки МНК имеют вид bb = Pn (x − x)(yi − y) i=1 Pn i , 2 i=1 (xi − x) b a = y − bb x. Доказательство. Из первого нормального уравнения n X (yi − a − bxi ) = 0 i=1 179
получаем na + b n X xi = n X i=1 yi , i=1 то есть a = y − bx. Подставим это во второе уравнение: n X  xi yi − (y − bx) − bxi = 0. i=1 После раскрытия скобок: n X xi (yi − y) + bx i=1 n X xi − b i=1 Так как n X n X x2i = 0. i=1 xi = nx, i=1 получаем n X xi (yi − y) − b i=1 n X ! x2i − nx2 = 0. i=1 Следовательно, Pn xi (yi − y) bb = Pi=1 n 2 . 2 i=1 xi − nx Остается заметить, что n X xi (yi − y) = i=1 а n X (xi − x)(yi − y), i=1 n X x2i 2 − nx = i=1 n X (xi − x)2 . i=1 Получаем формулу для bb. Затем b a = y − bb x. 44.5 Ортогональные свойства остатков Определим остатки: ei = yi − b a − bbxi . Утверждение 44.1. Для оценок МНК выполнено n X ei = 0, n X i=1 xi ei = 0. i=1 Доказательство. Это просто нормальные уравнения, записанные для b a, bb. 180
Следствие 44.1. Прямая МНК проходит через точку (x, y). Доказательство. Из формулы b a = y − bb x получаем y=b a + bb x. Это и означает, что точка (x, y) лежит на прямой регрессии. 44.6 Стохастическая интерпретация Пусть Yi = a + bxi + εi , где Eεi = 0, Dεi = σ 2 , (εi , εj ) = 0 (i ̸= j). Утверждение 44.2. Тогда Ebb = b, Eb a = a. Доказательство. Используем представление Yi = a + bxi + εi . Тогда Y = a + bx + ε. Подставляя в формулу для bb, получаем  P bb = (xi − x)P(a + bxi + εi ) − Y . (xi − x)2 Константа a сокращается, а член с b дает P (xi − x)2 bP = b. (xi − x)2 Остается P bb = b + P(xi − x)εi . (xi − x)2 Так как Eεi = 0, имеем Ebb = b. Далее b a = Y − bb x. Берем ожидание: Eb a = (a + bx) − bx = a. 181
44.7 Связь с максимальным правдоподобием Утверждение 44.3. Если ошибки εi независимы и εi ∼ N (0, σ 2 ), то оценки МНК совпадают с оценками максимального правдоподобия для a, b. Доказательство. Плотность выборки (Y1 , . . . , Yn ) как функция параметров a, b пропорциональна ! n 1 X (yi − a − bxi )2 . exp − 2 2σ i=1 Максимизация правдоподобия по a, b эквивалентна минимизации суммы n X (yi − a − bxi )2 . i=1 Это и есть задача МНК. 44.8 Итог по билету • МНК выбирает параметры, минимизирующие сумму квадратов ошибок. • Для линейной регрессии коэффициенты находятся из нормальных уравнений. • При нормальных ошибках МНК и ММП совпадают. 45 45.1 Билет 38. Статистические гипотезы. Ошибки. Уровень значимости. Мощность. Критерий отношения правдоподобия Статистические гипотезы Определение 45.1. Статистической гипотезой называется предположение о виде распределения наблюдений или о значении его параметров. Определение 45.2. Основная гипотеза обозначается H0 , альтернативная гипотеза — H1 . Примеры: H0 : µ = µ0 , H1 : µ ̸= µ0 ; H0 : p = p0 , H1 : p > p0 . 182
45.2 Критерий и статистика критерия Определение 45.3. Статистическим критерием называется правило, которое по выборке решает, отвергать H0 или нет. Определение 45.4. Статистикой критерия называется функция выборки T = T (X1 , . . . , Xn ), по значению которой принимается решение. 45.3 Критическая область Определение 45.5. Критической областью называется множество значений выборки или статистики, при попадании в которое основная гипотеза отвергается. Если критическая область обозначена через W , то правило имеет вид: если T ∈ W, то H0 отвергается. 45.4 Ошибки первого и второго рода Определение 45.6. Ошибка первого рода — отвергнуть H0 , когда она верна. Определение 45.7. Ошибка второго рода — не отвергнуть H0 , когда верна альтернатива H1 . Если критическая область равна W , то: α(θ) = Pθ (T ∈ W ), θ ∈ Θ0 , — вероятность ошибки первого рода при параметрах из H0 , а β(θ) = Pθ (T ∈ / W ), θ ∈ Θ1 , — вероятность ошибки второго рода. 45.5 Уровень значимости Определение 45.8. Уровнем значимости критерия называется число α = sup Pθ (T ∈ W ). θ∈Θ0 Замечание 45.1. Обычно сначала фиксируют допустимый уровень значимости α, а затем среди критериев этого уровня выбирают наиболее мощный или удобный. 45.6 Мощность критерия Определение 45.9. Функцией мощности критерия называется функция π(θ) = Pθ (T ∈ W ). Замечание 45.2. На множестве параметров альтернативы Θ1 функция мощности показывает вероятность правильно отвергнуть H0 . Она связана с ошибкой второго рода формулой π(θ) = 1 − β(θ), θ ∈ Θ1 . 183
45.7 Критерий отношения правдоподобия Пусть функция правдоподобия равна L(θ) = L(θ; X1 , . . . , Xn ). Определение 45.10. Статистикой отношения правдоподобия называется величина supθ∈Θ0 L(θ) Λ(X) = . supθ∈Θ L(θ) Замечание 45.3. Всегда 0 ≤ Λ(X) ≤ 1. Если значение Λ(X) маленькое, это означает, что данные намного лучше объясняются всей моделью, чем только гипотезой H0 . 45.8 Общий вид критерия отношения правдоподобия Определение 45.11. Критерием отношения правдоподобия называется критерий, отвергающий H0 при малых значениях Λ(X). То есть критическая область имеет вид W = {Λ(X) ≤ c}, где константа c выбирается из условия уровня значимости. 45.9 Почему нужно отвергать при малых значениях Λ Утверждение 45.1. Если Λ(X) = supθ∈Θ0 L(θ) supθ∈Θ L(θ) мало, то данные плохо согласуются с H0 по сравнению с полной моделью. Доказательство. Числитель есть наилучшее правдоподобие, достижимое при условии H0 , а знаменатель — наилучшее правдоподобие вообще. Если отношение близко к 1, то ограничение θ ∈ Θ0 почти не ухудшает правдоподобие. Если же отношение мало, то вне Θ0 можно добиться существенно большего правдоподобия, следовательно, H0 плохо описывает наблюдения. 45.10 Замечание о наиболее мощных критериях Замечание 45.4. Для простых гипотез H0 и H1 фундаментален критерий Неймана– Пирсона: наиболее мощный критерий уровня α строится по отношению правдоподобий. Критерий отношения правдоподобия является естественным обобщением этой идеи на составные гипотезы. 184
45.11 Итог по билету • При проверке гипотез всегда есть компромисс между ошибками первого и второго рода. • Уровень значимости контролирует риск ложного отклонения H0 . • Мощность описывает способность критерия обнаружить альтернативу. • Критерий отношения правдоподобия сравнивает, насколько хорошо данные объясняются при H0 и в полной модели. 46 46.1 Билет 39. Проверка гипотез в нормальном случае и в схеме Бернулли Проверка гипотезы о математическом ожидании при известной дисперсии Пусть X1 , . . . , Xn ∼ N (µ, σ 2 ), где σ 2 известно. Проверяется гипотеза H0 : µ = µ0 . Тогда при H0 Z= X − µ0 √ ∼ N (0, 1). σ/ n Двусторонняя альтернатива H1 : µ ̸= µ0 . Критическая область уровня α: |Z| > z1−α/2 . Доказательство. Так как при H0 Z ∼ N (0, 1), то PH0 (|Z| > z1−α/2 ) = α. Следовательно, такой критерий имеет уровень значимости α. 185
Односторонние альтернативы Для H1 : µ > µ0 критическая область: Z > z1−α . Для H1 : µ < µ0 критическая область: Z < zα . 46.2 Проверка гипотезы о математическом ожидании при неизвестной дисперсии Пусть X1 , . . . , Xn ∼ N (µ, σ 2 ), где σ 2 неизвестно. Проверяется H0 : µ = µ0 . По теореме Фишера: X − µ0 √ ∼ tn−1 , T = S/ n n 1 X S = (Xi − X)2 . n − 1 i=1 2 Двусторонняя альтернатива H1 : µ ̸= µ0 . Критическая область: |T | > tn−1,1−α/2 . Доказательство. При H0 T ∼ tn−1 , поэтому  PH0 |T | > tn−1,1−α/2 = α. Односторонние альтернативы Для H1 : µ > µ0 критическая область: T > tn−1,1−α . Для H1 : µ < µ0 критическая область: T < −tn−1,1−α . 186
46.3 Проверка гипотезы о дисперсии при известном математическом ожидании Пусть X1 , . . . , Xn ∼ N (µ, σ 2 ), и µ известно. Проверяется H0 : σ 2 = σ02 . Тогда статистика n 1 X (Xi − µ)2 σ02 i=1 U= при H0 имеет распределение U ∼ χ2n . Двусторонняя альтернатива H1 : σ 2 ̸= σ02 . Критическая область: или U > χ2n,1−α/2 . U < χ2n,α/2 Доказательство. При H0 U ∼ χ2n . По определению квантилей  α P U < χ2n,α/2 = , 2  α P U > χ2n,1−α/2 = . 2 Суммируя, получаем уровень α. Односторонние альтернативы Для критическая область: Для критическая область: H1 : σ 2 > σ02 U > χ2n,1−α . H1 : σ 2 < σ02 U < χ2n,α . 187
46.4 Проверка гипотезы о дисперсии при неизвестном математическом ожидании Пусть X1 , . . . , Xn ∼ N (µ, σ 2 ), где µ неизвестно. Проверяется H0 : σ 2 = σ02 . Тогда статистика (n − 1)S 2 σ02 U= при H0 имеет распределение U ∼ χ2n−1 . Соответственно: • при H1 : σ 2 ̸= σ02 критическая область: или U > χ2n−1,1−α/2 ; U < χ2n−1,α/2 • при H1 : σ 2 > σ02 критическая область: U > χ2n−1,1−α ; • при H1 : σ 2 < σ02 критическая область: 46.5 U < χ2n−1,α . Проверка гипотезы о параметре p в схеме Бернулли Пусть X1 , . . . , Xn ∼ Bern(p), Sn = X1 + · · · + Xn . Проверяется H0 : p = p0 . Точный критерий При H0 Sn ∼ Bin(n, p0 ). • Для двусторонней альтернативы H1 : p ̸= p0 критическая область выбирается по хвостам биномиального распределения: Sn ≤ c1 или Sn ≥ c2 , где c1 , c2 подбираются так, чтобы уровень был не больше α. 188
• Для H1 : p > p0 критическая область: Sn ≥ c, где PH0 (Sn ≥ c) ≤ α. • Для H1 : p < p0 критическая область: Sn ≤ c, где PH0 (Sn ≤ c) ≤ α. Асимптотический критерий Если n велико, используют статистику pb − p0 , Z=p p0 (1 − p0 )/n pb = Sn . n По центральной предельной теореме при H0 Z ≈ N (0, 1). Далее критические области строятся так же, как в нормальном случае. 47 Билет 40. Проверка гипотез о равенстве параметров в двух выборках 47.1 Равенство математических ожиданий двух нормальных выборок при известных дисперсиях Пусть X1 , . . . , Xn ∼ N (µ1 , σ12 ), Y1 , . . . , Ym ∼ N (µ2 , σ22 ), выборки независимы, а σ12 , σ22 известны. Проверяется H0 : µ1 = µ2 . Тогда   σ12 σ22 . X − Y ∼ N µ1 − µ 2 , + n m При H0 X −Y Z=p 2 ∼ N (0, 1). σ1 /n + σ22 /m 189
Двусторонняя альтернатива H1 : µ1 ̸= µ2 . Критическая область: |Z| > z1−α/2 . 47.2 Пусть Равенство математических ожиданий двух нормальных выборок при неизвестных, но равных дисперсиях X1 , . . . , Xn ∼ N (µ1 , σ 2 ), Y1 , . . . , Ym ∼ N (µ2 , σ 2 ), выборки независимы, σ 2 неизвестно. Проверяется H0 : µ1 = µ2 . Введем объединенную оценку дисперсии: Sp2 где 2 (n − 1)SX + (m − 1)SY2 = , n+m−2 n 2 SX m 1 X (Xi − X)2 , = n − 1 i=1 SY2 1 X = (Yj − Y )2 . m − 1 j=1 Теорема 47.1. При H0 статистика T = X −Y p Sp 1/n + 1/m имеет распределение T ∼ tn+m−2 . Замечание 47.1. Это двухвыборочный критерий Стьюдента с объединенной дисперсией. Критическая область для двусторонней альтернативы: |T | > tn+m−2,1−α/2 . 47.3 Пусть Проверка гипотезы о равенстве дисперсий двух нормальных выборок X1 , . . . , Xn ∼ N (µ1 , σ12 ), Y1 , . . . , Ym ∼ N (µ2 , σ22 ), выборки независимы, µ1 , µ2 неизвестны. Проверяется H0 : σ12 = σ22 . Тогда по теореме Фишера 2 (n − 1)SX ∼ χ2n−1 , σ12 (m − 1)SY2 ∼ χ2m−1 , σ22 и эти величины независимы. Следовательно, при H0 F = 2 SX ∼ Fn−1,m−1 . SY2 190
Двусторонняя альтернатива H1 : σ12 ̸= σ22 . Критическая область: right или F > Fn−1,m−1; 1−α/2 . left F < Fn−1,m−1; α/2 Чаще записывают через верхние квантили: F < 47.4 1 Fm−1,n−1; 1−α/2 или F > Fn−1,m−1; 1−α/2 . Проверка гипотезы о равенстве параметров p1 и p2 в двух схемах Бернулли Пусть X1 , . . . , Xn ∼ Bern(p1 ), Y1 , . . . , Ym ∼ Bern(p2 ), выборки независимы. Проверяется H0 : p1 = p2 . Обозначим n m 1X Xi , pb1 = n i=1 1 X pb2 = Yj . m j=1 Под H0 общий параметр p оценивается объединенной частотой: Pm Pn j=1 Yj i=1 Xi + pb = . n+m Утверждение 47.1. Асимптотически при H0 Z=q pb1 − pb2 pb(1 − pb) 1 n + 1 m  ≈ N (0, 1). Доказательство. Под H0 имеем p1 = p2 = p. По центральной предельной теореме  pb1 − pb2 ≈ N  0, p(1 − p) 1 1 + n m  . Замена неизвестного p на состоятельную оценку pb допустима по теореме Слуцкого. Для двусторонней альтернативы H1 : p1 ̸= p2 критическая область: |Z| > z1−α/2 . 191
48 48.1 Билет 41. Критерий согласия Пирсона Задача согласия Пусть имеются наблюдения X1 , . . . , X n и нужно проверить гипотезу H0 : распределение выборки принадлежит заданному семейству или 48.2 H0 : распределение имеет конкретные вероятности по группам. Группировка данных Пусть пространство наблюдений разбито на k попарно непересекающихся групп: A1 ∪ · · · ∪ Ak = ΩX . A1 , . . . , A k , Обозначим наблюденные частоты: νj = n X 1{Xi ∈Aj } , j = 1, . . . , k. i=1 Тогда k X νj = n. j=1 Если при H0 pj = P(X ∈ Aj ), j = 1, . . . , k, то ожидаемые частоты равны npj . 48.3 Статистика Пирсона Определение 48.1. Статистикой критерия согласия Пирсона называется величина k X (νj − npj )2 . χ2obs = np j j=1 Замечание 48.1. Иногда ее обозначают просто X2 48.4 или χ2 . Смысл статистики Утверждение 48.1. Если наблюденные частоты νj близки к ожидаемым npj , то статистика Пирсона мала. Если различие велико, статистика Пирсона велика. Замечание 48.2. Именно поэтому гипотеза H0 отвергается при больших значениях статистики Пирсона. 192
48.5 Асимптотическое распределение статистики Теорема 48.1 (Пирсона). Если гипотеза H0 верна, все вероятности pj > 0, ожидаемые частоты не слишком малы, и параметры не оцениваются по данным, то при больших n χ2obs ≈ χ2k−1 . Замечание 48.3. Если в гипотезе присутствует r неизвестных параметров, которые предварительно оцениваются по выборке, то число степеней свободы уменьшается на r: χ2obs ≈ χ2k−1−r . 48.6 Почему число степеней свободы равно k − 1 Утверждение 48.2. При фиксированной сумме частот ν1 + · · · + νk = n между k частотами имеется одна линейная связь, поэтому число независимых отклонений равно k − 1. Доказательство. Из равенства k X νj = n j=1 следует, что после задания первых k − 1 частот последняя определяется автоматически: νk = n − k−1 X νj . j=1 Значит, свободно изменяться могут только k − 1 величин. 48.7 Правило критерия Для уровня значимости α гипотеза H0 отвергается, если χ2obs > χ2k−1−r; 1−α , где χ2k−1−r; 1−α — квантиль уровня 1 − α распределения χ2 с k − 1 − r степенями свободы. 48.8 Стандартный алгоритм применения критерия 1) Выбрать группы A1 , . . . , Ak . 2) Вычислить наблюденные частоты ν1 , . . . , νk . 3) При H0 найти теоретические вероятности p1 , . . . , pk . 4) Найти ожидаемые частоты np1 , . . . , npk . 193
5) Вычислить статистику χ2obs = k X (νj − npj )2 . np j j=1 6) Сравнить ее с критическим значением χ2k−1−r; 1−α . 48.9 Когда критерий применять нельзя или нужно применять осторожно • Если некоторые ожидаемые частоты слишком малы, асимптотическое приближение ухудшается. • Обычно рекомендуют, чтобы все npj были не слишком малы; на практике часто используют правило npj ≥ 5. • Если это условие нарушается, соседние группы объединяют. 48.10 Пример: проверка гипотезы о равномерности по конечному числу групп Пусть имеется k групп и гипотеза H0 : p1 = · · · = pk = Тогда npj = 1 . k n , k и статистика Пирсона принимает вид χ2obs При больших n и верной H0 48.11 k X νj − nk = n/k j=1 2 . χ2obs ≈ χ2k−1 . Итог по билету • Критерий Пирсона сравнивает наблюденные и ожидаемые частоты. • Чем сильнее наблюдаемые частоты отклоняются от ожидаемых, тем больше статистика. • В пределе статистика имеет распределение χ2 с числом степеней свободы, равным количеству независимых отклонений. 194
49 Короткий список формул для повторения  I1 (θ) = Eθ 2 ∂ ∂2 ln f (X; θ) = −Eθ 2 ln f (X; θ) ∂θ ∂θ для i.i.d. выборки In (θ) = nI1 (θ) Dθ θb ≥ 1 In (θ) Q(a, b) = (Рао–Фреше–Крамер) n X (МНК) (yi − a − bxi )2 i=1 P − x)(yi − y) bb = (x Pi , (xi − x)2 b a = y − bb x (уровень значимости) α = sup Pθ (T ∈ W ) θ∈Θ0 (мощность) π(θ) = Pθ (T ∈ W ) Λ(X) = supθ∈Θ0 L(θ) supθ∈Θ L(θ) Z= X − µ0 √ ∼ N (0, 1) σ/ n T = X − µ0 √ ∼ tn−1 S/ n U= (отношение правдоподобия) при H0 : µ = µ0 , σ 2 известно при H0 : µ = µ0 , σ 2 неизвестно (n − 1)S 2 ∼ χ2n−1 σ02 при H0 : σ 2 = σ02 X −Y ∼ N (0, 1) Z=p 2 σ1 /n + σ22 /m T = X −Y p ∼ tn+m−2 Sp 1/n + 1/m при равных неизвестных дисперсиях 2 SX F = 2 ∼ Fn−1,m−1 SY Z=q pb1 − pb2 pb(1 − pb) 1 n + χ2obs 1 m при H0 : µ1 = µ2 при H0 : σ12 = σ22  ≈ N (0, 1) при H0 : p1 = p2 k X (νj − npj )2 = npj j=1 χ2obs ≈ χ2k−1−r в критерии Пирсона 195