Текст
                    Школа
Опойцева
Начала матанализа
Элементы теории
вероятностей
старшие классы
URSS

Школа Опойцева Начала матанализа Элементы теории вероятностей старшие классы МОСКВА URSS
ББК 22.161 22.171 22.1о Опойцев Валерий Иванович Школа Опойцева: Начала матанализа. Элементы теории вероятностей (старшие классы). — М.: ЛЕНАНД, 2017. — 240 с. Коротко, просто и ясно излагаются начала математического анализа и теории вероятностей. Охват материала немного шире, чем предусматривает школьная программа. Но это позволяет создать цельную картину и способствует пониманию начал высшей математики. Курс может быть использован: (i) для обычных и ускоренных занятий в старших классах; (ii) для повторения пройденного и упущенного; (iii) для самообразования. Полезное для себя найдут также учителя и родители. Текст сопровождается видеолекциями на oschool.ru и на youtube.com Графическое оформление Марины Павликовской ООО «ЛЕНАНД». 117312, г. Москва, пр-т Шестидесятилетия Октября, д. НА, стр. И. Формат 60x90/16. Печ. л. 15. Зак. № 3479. Отпечатано с готового оригинал-макета в ООО «Печатное дело». 142300, МО, г. Чехов, ул. Полиграфистов, д. 1. ISBN 978-5-9710-4111-5 © ЛЕНАНД, 2016 21334 ID 222190 9 785971 041115 НАУЧНАЯ И УЧЕБНАЯ ЛИТЕРАТУРА р E-mail: URSS@URSS.ru zfcx Каталог изданий в Интернете: Ф http://URSS.ru v Тел./факс (многоканальный): URSS + 7 (499) 724 25 45 Все права защищены. Никакая часть настоящей книги не может быть воспроизведена или передана в какой бы то ни было форме и какими бы то ни было средствами, будь то элек- тронные или механические, включая фотокопирование и запись на магнитный носитель, а также размещение в Интернете, если на то нет письменного разрешения владельца.
Оглавление Предисловие 7 Часть I МАТЕМАТИЧЕСКИЙ АНАЛИЗ Глава 1. Дифференцирование 11 1.1. Производная — это скорость......... 11 1.2. Как быть с отстающими.............. 14 1.3. Правила дифференцирования.......... 19 1.4. Производная степенной функции...... 23 1.5. Производные синуса и косинуса...... 24 1.6. Об интуитивных представлениях ..... 26 1.7. Производная у = ах................. 27 1.8. Производная у = loga х............. 28 1.9. Геометрическая картина............. 29 1.10. Дифференциалы .................... 31 1.11. Как работают производные......... 32 Глава 2. Интегрирование 37 2.1. Галопом по Европам................. 37 2.2. Первообразная...................... 38 2.3. Определённый интеграл.............. 40
4 Оглавление 2.4. Взаимосвязь интегралов................ 42 2.5. Прикладные задачи..................... 43 2.6. Несобственные интегралы............... 48 Глава 3. Функции и пределы 54 3.1. Предел последовательности............. 54 3.2. Лемма о трёх собачках................. 58 3.3. Монотонные последовательности......... 59 3.4. Число е............................... 60 3.5. Предел функции ....................... 62 3.6. Непрерывные функции................... 65 3.7. Числовые ряды......................... 66 Глава 4. Задачи и дополнения 72 4.1. Техника дифференцирования............. 72 4.2. Универсальный фокус................... 75 4.3. Порядок роста и убывания.............. 76 4.4. Ещё раз о дифференциалах.............. 77 4.5. О производной функции у = хх.......... 79 4.6. Две задачи............................ 80 4.7. Замечания об интеграле................ 81 4.8. Техника интегрирования................ 82 4.9. Пределы и производные................. 86 4.10. Монотонные функции .................. 88 4.11. Выпуклость и оптимизация............. 90 Глава 5. Горизонты и перспективы 94 5.1. О фактах для наблюдения............... 94 5.2. Кульминационный момент................ 96 5.3. Омуты дифференцирования............... 97 5.4. Дифференциальные уравнения............101 5.5. Вещественные числа Дедекинда .........107 5.6. Частные производные .................. ПО 5.7. Градиент............................. 112 5.8. Теорема о среднем ....................115
Оглавление 5 Часть II ТЕОРИЯ ВЕРОЯТНОСТЕЙ Глава 6. Основные понятия 119 6.1. Что такое вероятность? ............. 119 6.2. Комбинации событий.................. 122 6.3. Парадокс Кардано.................... 123 6.4. Таблетка от заблуждений............. 125 6.5. Частотная идеология................. 127 6.6. Где истоки случайности?............. 128 6.7. Условная вероятность ............... 128 6.8. Формула Байеса...................... 131 6.9. Независимость....................... 133 6.10. Независимые испытания.............. 134 Глава 7. Случайные величины 137 7.1. Случайные величины и матожидание .... 137 7.2. Страхование......................... 140 7.3. Петербургский парадокс.............. 141 7.4. Континуальные пространства.......... 142 7.5. Плотности распределения............. 143 7.6. Парадокс транзитивности............. 145 7.7. Нормальный закон распределения.......147 7.8. Векторные случайные величины........ 148 7.9. Дисперсия и корреляция.............. 150 Глава 8. Большие числа 153 8.1. Закон больших чисел................. 153 8.2. Вероятность уклонения .............. 155 8.3. Биномиальное распределение.......... 158 8.4. Случайное блуждание................. 161 Глава 9. Теория информации 164 9.1. Энтропия, или неопределённость...... 164 9.2. Количество информации............... 167 9.3. Энтропия источника.................. 170 9.4. Пропускная способность канала....... 172
6 Оглавление 9.5. Кодирование в отсутствие помех...... 172 9.6. Оптимальное кодирование............. 174 9.7. О нетривиальных кодах................176 9.8. Борьба с помехами................... 178 Глава 10. Статистика 181 10.1. О задачах практики ................. 181 10.2. Как смотреть на статистику...........183 10.3. Магистрали теории................... 185 10.4. Оценки средних показателей ..........186 10.5. Доверительные интервалы..............188 10.6. Как устроена жизнь ................. 189 10.7. Коварство средних показателей........191 Глава 11. Комментарии и дополнения 194 11.1. Функции случайных величин............194 11.2. Условные плотности ................. 195 11.3. Неравенства......................... 198 11.4. Подоплёка нормального закона.........199 11.5. Пуассоновские потоки ................202 11.6. Сходимость в ТВ......................204 11.7. Задачи и нюансы......................207 Глава 12. Короткие справки 210 12.1. Интегралы и производные..............210 12.2. Функции и пределы....................213 12.3. Вероятности..........................215 12.4. Случайные величины...................217 12.5. Тригонометрические формулы...........219 12.6. Комбинаторика........................224 12.7. Кое-что из алгебры...................226 Обозначения 233 Предметный указатель 236
Предисловие Пока кошка с привязанным к спине бутербродом, маслом вверх, не упадёт с балкона — противоречия не возникает. Высшая математика1 намного проще элементарной. Потому что развивается вдоль магистралей, тогда как эле- ментарная — мечется в джунглях. По крайней мере, вновь входящие будут приятно удивлены наличием внутренней логики и прозрачностью целей. Ш-АА подразумевает далее учебник «Школа Опойцева: Арифметика и алгебра, 6 - 11»; Ш-Тр - «Школа Опойцева: Тригонометрия, старшие классы» Какие-то нюансы более естественно ложатся в видео-формат, поэтому есть резон обратиться к сайту «ШКОЛА ОПОЙЦЕВА» — oschool.ru, где имеется видео-сопровождение учебников данной серии. 1 К которой относятся матанализ и теория вероятностей.

Часть I МАТЕМАТИЧЕСКИЙ АНАЛИЗ
Час, затраченный на понимание, экономит год жизни. Математический анализ — проходит красной нитью че- рез всю высшую математику и блистает фейерверком в лю- бом физико-техническом маневрировании. п Объём матанализа в школьной программе выбран таким, чтобы помучить аудиторию определениями, но не подпу- стить к инструментам, доставляющим удовольствие. Здесь этот перекос частично выправляется. Первые две главы со- ответствуют стандартной программе. Далее изложение раз- вивается по второму витку спирали, добавляя некоторые факты и толкования, от чего можно, конечно, воздержать- ся, опасаясь «как бы не выучить что-нибудь лишнее». Но «лишнее» часто помогает достичь критической массы и со- здать целостную картину, после чего становится легче жить и дышать. Так что выбирайте сами.
Глава 1 Дифференцирование В чём же там дело? Заключать договор о приобретении кота в мешке никто не хочет. Принимаясь за но- вую дисциплину, полезно знать, стоит ли игра свеч. По крайней мере желательно по- лучить внятные ответы на три вопроса: (i) о чём речь, (И) чего можно ожидать, (Hi) сколько времени и нервов потребуется. 1.1. Производная — это скорость Допустим, имеется некоторая зависимость игрек от икс, т. е. rv какая-то функция у — В качестве f(x) возьмём пока зависимость пути от времени: точка А движется по кривой '"'О А и проходит путь S(t) за время t. Жирный шрифт в формулах ничего не означает и используется лишь для привлечения внимания.
12 Глава 1. Дифференцирование Определение. Производная S(t) (эс с точкой) функции S(t) в точке t определяется как предел1 S(t + At)-S(t) . -----—----------> S(t) ПРИ At —► 0. Числитель (1.1) — это путь AS(t) = S(t-|-At) — S(t), А. n AS(t) пройденный за время At. Отношение же —д^ 7 представляет собой, по определению, среднюю скорость2 * * * * на отрезке [t, t + At]. „ А. AS(t) При уменьшении At до нуля —д^ 7 переходит в мгновенную скорость S(t), каковая и является производной S(t) в точке t. Для обозначения производной S(t) применяется также и другая символика: // ч dS S (t) равно как и но именно «точка сверху» чаще всего используется для обо- значения производной по времени. В сказанном выше есть зажим, который необходимо быст- рее освободить. Привязка изложения к тандему «путь—время» 1 До поры до времени мы опираемся на интуитивное понимание предела. Жирный шрифт в формулах используется для контраста. 2 Именно так определяется средняя скорость, как путь, делённый на затраченное время. Кстати, её можно вычислять окольным путём, не зная ни того, ни другого. Скажем, Соломон Пипеткин из А в В бе- жал со скоростью Vj, а обратно шёл пешком со скоростью V2. Для опре- деления его средней скорости приходится исхитряться. Пусть АВ = L. Тогда время движения из А в В равно у- = , из В в А - у- = Т2. Средняя скорость: v 2L с р Д + Т2 Ц + К ’ Неизвестное расстояние L растворилось как утренний туман.
1.1. Производная — это скорость 13 совсем необязательна. В случае функции у = f(x) производ- ная /'(ж) определяется тем же механизмом (1.1). Запишем это, освобождаясь от временной интерпретации, в форме f (ж) = hm ----------------------- Дж->0 Дж (1-2) Здесь тоже естественно говорить об /'(#) как о скорости изменения функции /(гг). Например, производная площади круга тгг2 в соответствии с (1-2) равна 7г(г 4- Дг)2 — 7ГГ2 Jim ------------——— = lim (2тгг 4- тгДг) = 2тгг, (1-3) Дг—+0 Дг Дг—>0 т. е. Олина окружносгпи является производной площади кру- га^ а значит (мгновенной) скоростью изменения площади при изменении радиуса. Действительно, возрастание г на Дг увеличивает площадь круга на площадь серого кольца (1.4), равную приблизительно 2тггДг. откуда в пределе и возникает (тгг2)' — 2тгг. Из очевидного отметим 3, а также (const)' = 0, т. е. производная константы равна нулю. (1.5) потому что если /(гг) = с. то f(x 4- Д.т) — f(x) = 0. 3 3 Поскольку —- = 1.
14 Глава 1. Дифференцирование Выкладка (1.3) заодно демонстрирует, что определение производной (1.2) инструментально эффективно4. По край- ней мере в случае квадратичной функции /(ж) = ах2 в два счёта получается /'(ж) — 2ах, и также легко (ж3/ = Зж2, и вообще (хп)' = пжп-1 — для обоснования чего надо лишь вспомнить бином Ньютона (имеет смысл поупражняться). Ненамного сложнее инструмент (1.2) управляется с другими стандартными функциями, но об этом чуть позже. Заметим, наконец, что производная x(t) функции x(t) — это снова функция, её можно опять продифференцировать — и это будет вторая производная, x(t), «икс с двумя точка- ми» (ускорение). Наряду с x(t) используются также обозна- чения x"(t) и Дифференцируя /(ж) далее, можно по- лучить третью, сотую и вообще какую угодно производную, п-я производная обозначается как f^n\x), используется так- же запись 1.2. Как быть с отстающими Линию изложения самое время было бы продолжить, но необходимо временно притормозить, дабы позаботиться об отстающих. В принципе, избранный стиль освещения пред- мета статистически оптимален. В том смысле, что для боль- шинства предпочтительны темповые объяснения, придер- 4 Поначалу ведь можно было подумать, что рецепт (1.2) платони- ческий. Формально конструктивен, но на деле сталкивается с непре- одолимыми препятствиями.
1.2. Как быть с отстающими 15 живающиеся фарватера и избегающие мелких реверансов. Но устройство психики бывает различно. В Ш-АА мы говори- ли о делении любой аудитории на три категории: А схватывают на лету, В ежеминутно переосмысливают, а С ничего не понима- ют, как ни объясняй. При этом, как ни странно, гениальные ре- шения впоследствии чаще рождаются в недрах С. Однако учить их трудно5, и они в общественном сознании нередко попадают в категорию «дебилов». Разумеется, внешняя схожесть есть, как у проводов под напряжением и без. Поэтому глядя на С свысока, не забывайте, что из них потом такие Ломоносовы получаются, что группа А кусает локти по поводу своих школьных успехов. Учитывать интересы группы С, тем не менее, необходимо. Хорошего выхода из положения, правда, нет. Приходится вда- ваться в тонкости. При том что восточная неторопливость ухо- дит из нашей жизни, и на мелочи у людей сил не остаётся, а без них многое не ясно. Искал, скажем, человек принцессу, переби- рая негожие варианты, — и было не до скрупулёзных определе- ний скорости и функции. В итоге ему, из-за слабости кругозора, рассказывая про Фому, надобно напоминать о Ерёме. То есть 5 «На краю диапазона С пребывает тот, кого стандартными мето- дами учить невозможно. В чистом виде — это уникум, гений. Ни одну строчку он не может дочитать до конца, потому что спотыкается на каждом слове. Слова завораживают и уносят в другой мир. Верблюдов до сих пор не видел, хотя пять раз бывал в зоопарке. Но так выходило, что всё внимание перехватывали воробьи на входе» (Ш-АА).
16 Глава 1. Дифференцирование всё объяснять — издалека. Из того «далека», каковое у каждого своё. Поэтому всем сразу не угодишь. Варианты переливания из пустого в порожнее требуется подбирать индивидуально. Вот один из них на тему S(t). Пусть точка движется с постоянной скоростью V и за время t проходит путь S — V • t. График пути — прямая: (1-6) Отсчёт пройденного пути в момент t — 0 мог бы начинаться из положения S = So, и тогда путь как функция времени задавался бы по-прежнему линейной связью s = s0 + vt, что лишь сдвинуло бы прямую (1.6) вверх или вниз на So. Коэффициент наклона прямой остался бы прежний, tg а = V. Если бы движение на разных участках происходило с разными (но постоянными) скоростями, график движения
1.2. Как быть с отстающими 17 был бы кусочно-линейным, рис. (1.7), (1.7) причём эти постоянные скорости определялись бы как У = (1.8) ^2 ^1 при условии, что моменты времени £,, t2 принадлежат одно- му и тому же диапазону постоянства скорости6. Если бы скорость непрерывно менялась, ломаная (1.7) превратилась бы в гладкую кривую типа (1.9), S (1-9) а (1.8) выражало бы среднюю скорость. И начни мы прибли- жать t2 к tj, что записывают как t2 —> , средняя скорость в пределе перешла бы в мгновенную скорость в точке , Ж) Ж) „ри (110) С2 6 На [а,/3] график S(t) монотонно убывает, что отвечает движению «обратно» — скорость отрицательна. На [Д7] график S(t) монотонно возрастает, что отвечает движению с положительной скоростью.
18 Глава 1. Дифференцирование Сказанное кого-то может подтолкнуть к пониманию. Ибо непонимание порождается иногда ничтожными причинами психологического толка. Замена слова вдруг озаряет голо- воломку. Если туман не проходит — идите по второму кру- гу7. Но, так или иначе, определение производной надо обя- зательно добить до конца, чтобы потом не аукалось. Далее. Логика изложения подталкивает к монотонному движению в гору, глядя с которой потом можно будет по- нять, стоило ли идти. Аудитория хочет видеть перспективы, но путь к смотровой площадке пролегает через аппаратные дебри, соваться куда пока нет стимула. Начинать, тем не менее, можно с авансов, рисуя перспективы в духе обзора. Обзоры в образовании — незаменимая вещь, обязательная. Почему же, как думаете, школа идёт другим путём? Потому что хочет экзаменовать. А какой спрос с того, кому нечто показано с высоты птичьего полёта? Спрашивать можно не о журавле в небе, а о синице в руках. Обзор ученик услышал, и тот превратился у него в мечту. Его теперь не предъявишь. А таблицу умножения демон- стрируй сколько угодно раз любой проверяющей комиссии. И всё же мы отложим авансы на потом. В конце концов, жела- ющие могут временно пропустить следующие несколько параграфов, 1 Не грех заглянуть в другие книжки, посмотреть видеолекции, спросить у младшего брата, соседа, да хоть случайного прохожего. Чаще спрашивайте, и Вас фортуна начнёт продвигать в дамки.
1.3. Правила дифференцирования 19 сразу переходя к сладкому. А к аппаратным премудростям допусти- мо вернуться позже, когда фундаментальная роль производных для блага цивилизации будет осознана или хотя бы заподозрена. 1.3. Правила дифференцирования Взятие производной называют дифференцированием. Дифференцируя х2, см. (1.3), получаем (ж2/ = 2х. Мы ещё отмечали х' = 1 , а также (const)' = 0. Чтобы сии факты не остались разовыми успехами, нужны правила дифферен- цирования, в некотором роде автоматизирующие процесс и позволяющие комбинировать добытое. Такие правила есть: «производная суммы равна сумме производных» и другие. Выводом этих правил мы пока и займёмся. Если известна производная fr(x) функции /(ж), то для у = cf(x), с — константа, можно сразу написать , т. е. умножение функции на константу умножает на ту же константу и производную. у' = cf'(x) ◄ Доказательство просто до неприличия: с/(ж + Дж) - с/(ж) _ /(ж + Дж) - /(ж) , Дж ~С Ах • Например, (Зж2)' = 6ж, (2ж)7 = 2.
20 Глава 1. Дифференцирование Производная суммы равна сумме производных: (J + g)' = f' + д'- (i-u) Дх + Дж) + Дх + Дж) - /(ж) - д(ж) = Дж Дх + Дж) - /(ж) д(ж + Дж) - д(ж) , Дж Дж 9 • (ж2 — 5ж)' — 2ж — 5. Производная произведения равна (fg)' = f'g + fg'- (1-12) ◄ Пусть у = f • g, а Д/, Др — обозначают приращения функций, например, Д/ = f(x + Дж) — /(ж). Тогда = Ит (/ + Д/)(д + Дд)-/-д = у Дж—>0 Дж = lim Дх—>0 д/ Дж , f A.g Af '9 + /'Дх + ДД^9 что и даёт (1.12), поскольку А/ Дж -г, д', ^-Лд^Д-Лд^О. Дж у Дж • (ж3)' = (ж2 • ж)' = 2ж • ж + ж2 • 1 = Зж2.
1.3. Правила дифференцирования 21 Дифференцирование сложной функции* Ж У = f (»(«)) -> у' = f • У- (1-13) Здесь f дифференцируется «по своему аргументу, т. е. по д(х)»- Пусть у = (З.т)2. Полагаем д(х) = Зх, /(•) = (-)2. Дифференцирование квадрата (по Зх) даёт 2 • Зж, а (Зх)' — 3, поэтому yf = 18х. ◄ Доказательство (1.13) занимает одну строчку8 9, , = Ию Ля + А») - /(а). Л» = {,. , Дх—*0 А.<7 Дх &9 Мы тут, правда, пользуемся интуитивно естественным правилом « предел произведения равен произведению пределов», которое формально требует обоснования, см. главу 3. Такое «забегание вперёд» с педаго- гической точки зрения имеет определённые преимущества. Понятно, что цепное правило дифференцирования сложной функ- ции можно индуктивно продолжить y = f(g(h(x))) => у' = f'a-g'h-h'x (1.14) и так далее. Нижний индекс в (1.14) подчёркивает (напоминает), по какому аргументу производится дифференцирование. 8 Сложную функцию /(д(х)) называют ещё композицией функций. 9 Напоминаем, Д/у = д(х 4- Дх) — д(х).
22 Глава 1. Дифференцирование Производная обратной функции. Если для у = /(ж) определена обратная функция х = f 1(у), то10 1 х = — у У (1-15) что легко получается11 предельным переходом в очевидном /\ qp 1 равенстве — = Производная частного у = 'г, f(x). в(х) Нт /(Ж + Аж) /(Ж) Лх-^о д(х + Да;) д(х) = /(ж + Дж)д(ж) - Дх)д(х + Аж) = д(х + Дж)з(ж) = Д/ОМж) - /(ж)Дд(ж) ; f'-g-f-g' д(х + Дж)Дж) д2 При первом знакомстве с предметом обоснование правил (1.15), (1.16) — имеет смысл «пропустить мимо ушей». Во всяком большом деле нужна постепенность. Свой темп. Да- же курица, убегая от петуха, думает: не слишком ли быстро я бегу. А уж нам с вами надрываться тем более нечего. Все- му своё время. Книжка пишется шаг за шагом, но читать 10 Ещё раз обратите внимание на использование нижнего индекса, который указывает, по какому аргументу производится дифференци- рование. Это удобный приём, широко используемый в анализе. 11 Мы избегаем «разжевывания», которое создаёт иллюзию исчер- пывающего объяснения, но топит суть в трясине деталей. Данный поворот труден психологически и преодолевать его надо самостоя- тельно.
1.4. Производная степенной функции 23 её надо по диагонали, в несколько проходов. Местами с чув- ством невыученных уроков, но так лучше усваивается. 1.4. Производная степенной функции Производная степенной функции ственном Л е К равна У = хх при любом веще- (хх)' = XXх-1. (1.17) Пока мы знакомы с частными случаями (1.17), (ж°)Л = 0, ж' = 1, (ж2)7 = 2х. На основе использованной в п. 1.3 идеи, что (ж3)' = (ж2 • ж)' = 2ж • х + ж2 • 1 = Зж2, (1.17) легко доказать по индукции12 для любого натурального Л € N. А пользуясь (1.16) для производной частного, получаем (k eN): т. е. (1.17) верно при любом целом Л 6 Z. Теперь перейдём к рациональным Л. Сначала пусть Л= /ceN. К Тут мы воспользуемся (1.15). Итак, у = \fx = х^к х = ук <-> Ху = кук~1. 12 О методе математической индукции см. Ш-АА.
24 Глава 1. Дифференцирование Поэтому ?/ = — = 1 = 1 = 1т(1/М-1 Ух < А:/’1 кДД к Таким образом, (1.17) верно при любом Л = Наконец, используя правило (1.13) дифференцирования сложной функции, получаем Р_ (ж₽/ч) = ((</®)р)' = р(^Д)р~1 • (tfx)' = , т. е. (1.17) верно при любом рациональном Л 6 Q. Верно и при любом вещественном Л € R, но это мы оставим до главы 4. Вот несколько частных случаев (1.17): const' = О, ж' = 1. 1.5. Производные синуса и косинуса Далее нам потребуется предел: (1.18) ◄ Легко видеть, что площадь /\ОАС меньше площади сектора О АС, которая меньше площади /\ОВС, т. е. i В2 sin ж < -В2 ж < 2 2 2 6 откуда sin х cos х <------< 1, х что и даёт (1.18), поскольку cos х 1 поджимает снизу. ►
1.5. Производные синуса и косинуса 25 У В случае у = sinх имеем13 14. sm(x + Дж) — sinz hm ------------------- Дх-^о Дж lim cos Дж—>0 Дж\ 8ш(Дж/2) ~Т) (Дж/2) = cos ж с учётом (1.18). Исходя из формулы приведения (Ш-Тр) (7Г \ -----XI 2 у и опираясь на правило дифференцирования сложной функции (1.13), 14 получаем производную косинуса : (cosх)' = (sin0(a:))0 • О'х(х) = — соб0(ж) = — sinж. В итоге (sin ж)' = cos ж, (cos ж)7 = — sin ж. (1.19) У пражнения* Вычислить производные тангенса и котангенса по формуле произ- водной отношения двух функций (1.16), (tg®)' = ---1=2—, COS ж (ctg®)' = — 1 • 2 ’ sin Ж а производные обратных тригонометрических функций15 — по фор- муле производной для обратной функции (1.15), (агсзшж)' = Л 1 , (агссозж)' =---------,.- ——, (arctg®)' = 2 (arcctg)' - - 2 2. .L X J- "Т“ X (1-20) (1-21) 13 Пользуясь формулой разности синусов (см. Ш-Тр). 14 Для лучшей обозримости выкладки полагаем — х = 0(ж). 15 Это упражнение для отчаянных. Оно фактически пустяковое, см. главу 4, но в голове плохо укладывается.
26 Глава 1. Дифференцирование 1.6. Об интуитивных представлениях На интуитивных представлениях можно уехать весьма да- леко, и этим целесообразно пользоваться. Разумеется, опора на интуицию сопряжена с риском забраться куда-нибудь не туда. Но это не страшно и даже полезно. Плохо — попасть «не туда» и там остаться. А если вляпаться, но потом вы- браться, отряхнуться — так на ошибках и учатся. И ошиб- ки необходимы, как болезни для здоровья. Потому что при движении исключительно правильным путём не работает обратная связь, без которой обучение неполноценно16. Выше мы быстро двигались благодаря всяким умолчани- ям. Пределы, непрерывные функции — всё это принято долго мусолить, прежде чем двинуться с места. Но в данном слу- чае интуиция даёт в основном верные заключения. Поэто- му некоторое время вполне можно обходиться без строгих определений и обоснований. При переходе к изучению более тонких вопросов интуиция терпит фиаско, и тогда уже пере- ключение на формализованный подход не воспринимается аудиторией в штыки. А пока 2х + Аж 2ж 7 +Аж Т при Ах 0; или среднестатистически представляется как нечто известное с рождения. Другое дело, что встречаются неочевидные ситуации типа п 1 или 1 2 при п —> оо, к которым не ясно как подступиться, но этим займёмся в главе 3. 16 Рельефно не воспринимается, не ценится, быстро забывается.
1.7. Производная у = ax 27 Здесь же отметим пока знаменитое число е = 2, 718..., опреде- ляемое как предел (подробности в разделе 3.4.) при п (1-22) На фоне (1.22) интуитивно ясно, что при х —> оо, равно как 1 (1 + х)х —> е при ж —> 0. В мироустройстве константа е — 2, 718..., пожалуй, более значима, чем тг. Даже логарифмы In х = loge х по основанию е, называемые натуральными, оказываются по- пулярнее десятичных. 1.7. Производная у = ах Производная показательной функции равна, как оказывает- ся, ей самой с точностью до поправочного множителя In а: (ах)' = ах • In а. (1.23) В частности, = е (1.24) поскольку, само собой, Ine = 1. Именно (1.24) -- есть та самая главная причина, которая ставит е в разряд важнейших констант. Принципиальная роль показательной функции в «устройстве Вселенной» — это уже другой вопрос, см. далее хождение вокруг да около дифференциальных уравнений. Из приведённых формул яс- но, например, что дифференциальному уравнению у' = ку
28 Глава 1. Дифференцирование удовлетворяет функция у = екх. Аналогичным образом е появляется при решении любых линейных дифференциаль- ных уравнений, которыми описывается большинство при- кладных задач в физике, биологии, экономике и других об- ластях. Функцию ех называют также экспонентой. Вместо ех иногда используют обозначение ехрж ◄ Для у = ех имеем ж+Дх _ х Ах _ -I у' = lim -----------= lira еж---------= ех, Дж—>0 А X Ах—>0 А х поскольку еТ — 1 ------------------------------> 1 при т —> 0, что следует из ет — 1 a 1 1 1 т 1п(1+<?) 111(1 + In е где ет — 1 — а. ► Заметим, (1.23) легко вытекает из (1.24), поскольку а — elnrt, (axY = (еж1по)' = (еж1па) • In а. 1.8. Производная у = loga® Функции у = 1пх и х = ev взаимообратны. Поэтому про- изводная натурального логарифма определяется формулой
1.9. Геометрическая картина 29 производной обратной функции (1.15): /II1 1 Ух = -Г = е. (In ж) = —. (1.25) у «Д/ X Поскольку17 logax = то (logQ х)' = 1 х Ina (1.26) Упражнение. (1п|®|)' = —, оо, 1.9. Геометрическая картина Напомним, производная f(x) в точке х — это предел /'(*) = lim /(ж + Дж) - /(ж) Дх->0 Дж (1-27) если таковой существует. На картинке ситуация выглядит так: 17 Что получается по формуле перехода к другому основанию, см. Ш-АА, глава 8. Мы указываем главу, а не формулу (8.9), пото- му что отсутствие формулы на положенном месте в индивидуальных закромах — это симптом, заболевание — «логарифмы», с каковыми необходимо, отложив другие дела, срочно заново ознакомиться. Это как раз та болевая точка, ликвидация которой подтверждает сентен- цию: час, затраченный на понимание, экономит год жизни.
30 Глава 1. Дифференцирование Касательная к графику у = f(x) в точке А тем точнее прибли- жает дугу АД чем меньше Аж. Разумеется, так будет, когда всё хорошо, т. е. существует предел (1.27). Тогда при уменьшении D Т~\ Ах вертикальная прямая CD движется влево, а —> 0, что и является эквивалентом существования предела (1.27), который, как видно из рисунка, равен — tg т. е. производная чис- ленно равна тангенсу угла наклона касательной к гра- фику f(x) в точке х: f'(x) = tgy>. (1.29) Рисунок (1.28) показывает, что приращение функции А/(ж) = f(x + Дж) — /(ж) распадается на две составляющих: линейная часть прира- щения ВС — f'(x) • Ах и нелинейная — BD — о(Дж), т. е. Д/(ж) = /'(ж) • Дж + о(Дж), (1.30) что называют формулой приращения18, каковая играет боль- шую роль в прикладных исследованиях, а действующее ли- цо «о-малое» — очень часто используется и крайне удобно. Что такое о-малое? Это любая функция, удовлетворя- ющая условию о(Дж) ------ —> О, если Дж 0. (1.31) Дж Разумеется, аргумент функции о(«) может обозначаться как угодно. Примеры-упражнения: Зя2 - 4х3 = о(ж), у4/3 = о(г/), y/z = o(v<z). 18 Не надо путать с формулой конечного приращения (4.7).
1.10. Дифференциалы 31 Вокруг (1.30), (1.31) имеет смысл некоторое время по- топтаться. Удобнее всего это делать в формате устного диа- лога. Текстовое переливание из пустого в порожнее даёт в основном отрицательный результат. Поэтому чтобы «не на- вредить», мы лишь обращаем внимание на важность поня- тий (1.30), (1.31). Потом это будет постепенно проявляться. 1.10. Дифференциалы Если в формуле приращения (1.30) игнорировать нелиней- ную часть, то остаётся лишь равенство с точностью до о(-), Д/(т) = f'(x) Ах, что принято записывать в форме df = /'(^) • dx, (1-32) где «дельты» заменяет буква d. И эти линейные приращения df, dx принято называть дифференциалами. В отличие от «дельт» (Д/, Ах), над которыми витал дух «очень маленьких величин», df, dx — это линейные прира- щения, которые могут принимать любые численные зна- чения. Поэтому с ними можно обращаться как с числами: делить, умножать, сокращать. Разделив, например, (1.32) на dx, получаем что объясняет популярное (и полезное) обозначение произ- водной в виде отношения дифференциалов. Возмож- ность обращаться с как с обыкновенной дробью порож- дает массу удобств. Например, df dx df dx dt dt
32 Глава 1. Дифференцирование 1.11. Как работают производные Догадаться о большом позволяют маленькие примеры. Задача. В треугольнике АВС точки В и С неподвижны, А движется горизонтально в направлении С со скоростью х. (1.33) Определить соотношение скоростей х и у. Что быстрее убы- вает, катет или гипотенуза? ◄ В силу у(€) = у/x2(t) + h2 имеем19 2хх 2\/ж2 + h2 откуда У х = ------ COS(^ (1.34) Результат не так очевиден, как задним числом кажется. В П1-Тр рассматривалась следующая содержательная ситуация на тему (1.33). Лебёдка, расположенная на высоком берегу, под- тягивает к берегу лодку, вытягивая верёвку со скоростью V. (1.35) С какой скоростью х лодка плывёт к берегу? Обычно V ошибочно раскладывают на составляющие по образцу (1.35), получая х = V cos ср . Раскладывать надо, наоборот, 19 Равные функции имеют равные производные.
1.11. Как работают производные 33 скорость лодки ж, как на рис. (1.36): (1.36) В итоге (правильное решение) V х = ----- cos ср сопоставьте с (1.34), что у многих вызывает головокружение20. Это хорошая задача для тренировки физического чутья и адекватного восприятия действительности. По крайней мере она даёт повод задуматься о бдительности при разложении сил и скоростей. О методе Ньютона. Для вычисления корня х* уравнения f(x) = 0 широко используется итерационный метод Ньютона. Для n-го приближения хп вычисляется f(xn), затем к графику функции, рис. (1.37), в точке А = {хп, f(xn)} проводится каса- тельная до пересечения с осью иксов в точке хп^. Далее повторяется всё сначала. И так раз за разом. В естественных 20 Особенно если учесть, что для определения горизонтальной силы, действующей на лодку, натяжение верёвки надо раскладывать по типу (1.35).
34 Глава 1. Дифференцирование 21 условиях алгоритм сходится к решению, хп —> х* при п —> ос. Но как процесс описать формулами? Компьютер же не будет касательные проводить циркулем и линейкой. Без производных здесь не обойтись. Касательная в точке А — есть прямая у = кх + Ь, у которой к = ff(xn), а b определяется условием f(xn) = ff(xn)xn + Ь, см. рис. (1.37). Тем самым полностью определено уравнение касательной у — кх + Ь. (1.38) Полагая в (1.38) у = 0 и решая уравнение 0 = кхп+\ +Ь, находим точку пересечения касательной с осью иксов. В результате хп+1 =хп- -ц—(1.39) что представляет собой формульную запись описанной выше гео- метрической процедуры. В случае f(x) = х2 — 2, f'(x) = (х2 — 2)' = 2т, проце- дура (1.39) вычисляет \/2, давая последовательно Хп+i = ^хп Ч . (1.40) z хп Интересно, что дюжина итераций (1.40), начиная, допустим, с хо = 1, даёт тысячу (!) верных знаков после запятой. Так что мир, оказывается, стоит не на трёх китах, а на диф- ференциальном исчислении. Оптимизация. Рекламировать дифференциальное исчисле- ние обычно начинают с использования следующего результата. * 21 Либо независимо от начального приближения т0, либо когда х0 принадлежит некоторой окрестности х*.
1.11. Как работают производные 35 Теорема Ферма. Пусть f(x) в точке х = а дифференци- 22 руема и принимает локально максимальное значение , т. е. f(a,) f(x) для всех х из достаточно малой окрестности точ- ки а. Тогда I f'(a) = О . ◄ В предположении противного, f'(a) 0, например, f'(a) > О, линейная (самая большая при малом Дж) часть приращения, см. (1.30), f'(a)Ax > 0 при Дж > 0, т. е. /(а+Дж) > /(а) при достаточно малых Дж > 0, что противоречит наличию локального максимума в а. ► Причина /х(а) = О в положении максимума понятна и с другого угла зрения. При движении геометрической точки в по- ложении максимального её удаления она останавливается, что- бы двинуться обратно, — скорость обнуляется. Очевидно также, что касательная к графику в точке локального макси- мума — горизонтальна22 23, т. е. tgy? = /'(a) = О. Производная функции у = ж2 + рх + q, равная у' = 2х + р, обнуляется при х = —2. Это и есть положение минимума па- раболы. Подстановка в у = х2 + рх + q даёт значение самого минимума Утгп — 2 Р, ~Р2 + '1</ Р 2 22 Или локально минимальное, т. е. f(a) /(ж) для всех х из до- статочно малой окрестности точки а. 23 Обратное, разумеется, неверно. У ж3 производная (Зж2) в нуле — нуль, но максимума нет. В нуле у ж3 точка перегиба.
36 Глава 1. Дифференцирование Тут, конечно, мы никакого открытия не совершили, но метод работает в любой другой ситуации. Например, у = ж3 + х2 — 2х + q => у' = Зх2 + 2х — 2 = 0. Решая квадратное уравнение, получаем положения минимума и 7 1 максимума хт = — х2 = рис. (1.41), которые от q не зависят. При изменении q график целиком смещается вверх-вниз. (1-41) Упражнения Найти положение локального максимума у функции: • у = In ж — ж2, х2 — 2х + q' • Какой прямоугольник при заданном периметре имеет наи- большую площадь?
Глава 2 Интегрирование Так это совсем просто! Конечно, пожарив рыбу, развернуть процесс в обратном направлении — невозможно. Одна- ко некоторые операции — обратимы. Классиче- ский пример: выдавливание пасты из тюбика. Обратная манипуляция в таких случаях намного сложнее. Подобных пар и в математике много. Синус — арксинус, экспонента — логарифм. Вы- дающийся экспонат: производная — интеграл. 2.1. Галопом по Европам Знание, к которому тянутся — благо, которое насаждает- ся — наказание. Поэтому лучше не учить, чем учить насиль- но. Причём диапазон «не учить» довольно широк. В него укладывается даже отклик на предложение описать инте- гралы в двух словах1. 1 Лев Толстой на просьбу пересказать «Анну Каренину» в двух словах, как известно, ответил, что не писал бы роман, если бы мог выразить это в двух словах. Ему неохота было, видимо, вступать в контакт. Потому что, если не закусывать удила, то объяснению в двух словах поддаётся практически всё.
38 Глава 2. Интегрирование — Если дифференцирование — это взятие производной, то интегрирование — обратная операция. — То есть? — Ес- ли F'(x) = f(x), то F(x) — интеграл, или первообразная /(ж), Пишут F(x) = J f(x)dx. — Всё? — Отчасти. Есть ещё определённый интеграл ь J f(x)dx = F(b) - F(a), а который «неожиданно» оказывается равным площади под графиком /(ж) на [а, Ь]. — Теперь всё? — Теперь всё. — А почему «площади под графиком»? — И тут при- ходится раскручивать второй виток спирали, рассказывая чуть подробнее, примерно как далее. Потом — третий... Так что выкладывать все козыри — не надо торопиться. Да и фрагментарных объяснений — не стоит бояться. 2.2. Первообразная Операция, обратная дифференцированию, называется интегрированием. Функцию F(x) — такую, что F'(^) = f&), равносильно dF(x) = f(x)dx называют первообразной /(ж), или интегралом от У (ж). Если Ff(x) = то и [F(#) + С]' = /(ж), поскольку произ- водная константы С равна нулю. Поэтому первообразная опре- деляется с точностью до константы, т. е. F(x) + C — тоже перво- образная /(ж). Совокупность всех первообразных называют
2.2. Первообразная 39 неопределённым интегралом и обозначают как (2-1) Под знаком интеграла J в (2.1) стоит дифференциал перво- образной, f(x)dx = dF(x), т. е. J dF(x) = F(x). Поскольку, например, rising = (sin x)fdx = cos xdx, 2 TO cos xdx = dsinx = sin ж. Таблица производных элементарных функций легко транс- формируется в таблицу неопределённых интегралов. xxdx = А / —1. exdx = ех, axdx = ах/ In а, = arcsinx, = arctga;. а > 0, а 7^ 1. И далее по списку. Какую-то часть интегралов полезно иметь в голове, дабы не ходить то и дело к симпатичной соседке за справкой. На случай, если соседка тоже не знает, небольшая таблица интегралов есть в «Короткой справке». 2 Константу С в ситуациях типа f cos xdx = sin я: + С мы везде опускаем. Это сберегает много деревьев.
40 Глава 2. Интегрирование Простейшие свойства первообразной легко следуют из свойств производных. af(x)dx — a J f(x)dx; 2.3. Определённый интеграл К необходимости изучения первообразных приводит, в какой- то мере неожиданно, совсем другая задача. Задача определе- ния площади под графиком функции у = f(x). Естественное решение опирается на аппроксимационную идею. Отрезок [а, 6] разбивается на п сегментов длины Дж^, где Хо = а, хп — Ь, рис. (2.3). На каждом г-м отрезке выбирает- ся произвольная точка и рассматривается сумма а = + + Ж_1)Джп_!. (2.2) Предел суммы (2.2), если таковой существует* 3 и не за- висит от разбиения [а, 6] и выбора точек при стремле- ь 3 Если функция /(.?') непрерывна на [а, Ь], то интеграл j f(x)dx а существует.
2.3. Определённый интеграл 41 huu к нулю максимальной длины Дж, — называют опре- делённым интегралом f(x) от а до b и обозначают ь У f(x)dx. а Аддитивность интеграла Ь с Ь У f(x)dx = У f(x)dx + У f(x)dx (2.4) а а с вытекает из определения. Кроме того, Ь а У f(x)dx = — У f(x)dx, а Ъ потому что в (2.2) = ^+1 — и при смене направления — знак меняется. Поэтому с в (2.4) не обязано принадлежать [а, Ь]. В ту же копилку: (?.) (г-) V W У f(x)dx - У f(x)dx = и и
42 Глава 2. Интегрирование 2.4. Взаимосвязь интегралов Если рассмотреть интеграл Ф<х) = / как функцию верхнего предела, то ДФ = Ф(ж + Дж) — Ф(ж) = = у f(t)dt = /«) Дж + о(Дж), X что приводит к Ф'(ж) = /(ж) , т. е. Ф — первообразная. Таким образом, площадь Ф(х) под графиком у = f(x) - это первообразная функции f(x). Изменение точки от- счёта а добавляет к Ф(т) некоторую константу. От любой другой первообразной F(x) функция Ф(ж) отличается на по- стоянную величину, поэтому всегда4 Ф(Ь) - Ф(а) = F(b) - что численно равно площади под графиком у = f(x) на [а, 6]. Если f(x) на [а, 6] меняет знак, то из построения опре- делённого интеграла ясно, что площади фигур между гра- фиком и осью иксов засчитываются со знаком «плюс» там, где /(ж) > 0, и со знаком «минус» там, где /(ж) < 0. 4 Широко распространено обозначение Г(Ь) — F(a) = Г(Ж) .
2.5. Прикладные задачи 2.5. Прикладные задачи 43 Длины, площади • Площадь под синусоидой I sin х dx = — cos х = — COS 7Г + COS 0 = 2. • Формула Стирлинга. Сумма In n! = In 1 + • • • + In п равна сумме площадей заштрихованных прямоугольников, 1п4 1пЗ 1п2 и может быть приближённо заменена площадью под кривой In х. Поэтому In n! ~ J In х dx = ж In х — х i ~ In т. е. п! ~ (п/е)п. Прибавление площадей выступающих над кривой In ж треугольников приводит к более точному ре- зультату
44 Глава 2. Интегрирование • Площадь круга радиуса R можно вычислять как сумму площадей тонких колец радиуса г и толщины Дг. В свою очередь площадь кольца в первом приближении рав- на 2тгг • Дг. Это определяет дифференциал площади круга dS = 2кг dr при разбиении на кольцевые слои, что в итоге позволяет вычислить площадь круга Sr — / 2кг dr = 7Г/?2. Пример рассматривается не в качестве изобретения вело- сипеда, а как образец для подражания, демонстрирующий стереотип использования симметрии задачи. Интегралы от плотности • Масса тела равна плотности, умноженной на объём. Если плотность не постоянна, то выручают определённые интегралы. Объём разбивается на фрагменты A Vi, в пре- делах которых плотность р(х) приблизительно постоян- на, и масса приближённо определяется суммой типа m ~ р(£1)АИ) + • • • + р(£п-1)ДК, (2-5) см. (2.2). В пределе (2.5) переходит в определённый ин- теграл I p(x)dV по объёму V, что несколько выходит
2.5. Прикладные задачи 45 за рамки предыдущего рассмотрения. Но о подоплёке здесь легко догадаться, особенно если опереться на прозрачную ситуацию прямолинейного стержня переменной плотно- сти р(х), где масса стержня определяется как ь р(х) Ь—* т = У p(x)dx. (2.6) а Интегрирование соответствующих плотностей по типу (2.6) используется для определения различных величин: за- рядов, вероятностей (см. главу 7) и т. п. Физические задачи • В момент t = 0 двигатель лодки выключается. Ка- кое расстояние лодка пройдет по инерции, если скорость в момент выключения была vq, а сила сопротивления воды пропорциональна скорости (F = —/Зи)? Интегрирование уравнения движения dv а т— = -fiv dt даёт v т J т Константа определяется из условия г(0) = го- В итоге -Аг = v^e т
46 Глава 2. Интегрирование Окончательно5, 00 ——/ SmaX = J Vdt = -V-^e ™ VQm 0 У пражнения • Натяжение F пружины, растянутой на величину х, равно F = кх. Чему при этом равна П ( кх2 \ /I \ потенциальная энергия пружины? I 1 1) • Пусть Т обозначает температуру тела, находящегося в среде с температурой Tq. Как будет проходить процесс нагрева- ния или охлаждения? Поведение T(f) в целом определяется на основе естественной гипотезы: скорость Т изменения Т про- порциональна разности температур Tq — Т, t = А(7Ь - Г), где А > 0 — коэффициент пропорциональности. Для определе- • Реактивное движение. В неподвижной системе коорди- нат в некоторый момент масса ракеты равна М, скорость — v. 5 Интегралы на бесконечном интервале типа / рассматриваются в следующем разделе. Однако сообразить, что это такое, полезно «до того». Встречая что-либо новое, вообще полезно «раскинуть мозгами», прежде чем лезть в энциклопедию. Тогда постепенно вырабатывается умение жить без поводыря.
2.5. Прикладные задачи 47 Через малый промежуток времени At скорость ракеты увели- чится на Аг, масса уменьшится на AM, причём AM будет иметь некоторую скорость V. ◄ Закон сохранения количества движения Mv = (М - AM)(v + Аг) + AM • V после деления на AM и перехода к пределу при AM —> 0 при- водит к , r dv * т т dM М-— -h Vg = 0, или dv = -Vg——, dM у УМ где Vg = V — v — скорость истечения газов. Интегрирование последнего уравнения даёт - —V^lnM + C. Константа С определяется, например, из условия М = Мо при Л ” 1 v = 0, что дает v = VQ In —— у М откуда следует формула Циолков- ского ^0 _ v/vg М • Веревка длины I перекинута че- рез неподвижный блок, по которому скользит без трения. В начале один из свисающих концов длиннее другого на h. Найти х в момент t. ◄ При плотности веревки (на единицу длины) q вес длины х будет Qgx, а масса всей веревки pl. Закон движения Ньютона принимает вид 71.. pl-x = pgx, т. е. х Z
48 Глава 2. Интегрирование Подстановка х = eXt приводит, с учётом начальных условий т(0) = h, i(0) — 0, к результату 2.6. Несобственные интегралы Бесконечный промежуток. Понятие определённого ин- ь теграла J f(x)dx естественным образом обобщается на слу- чай неограниченного промежутка [а, 6]. Пусть /(ж) опреде- лена на [а, оо) и интегрируема на любом отрезке [а, А] С [а, оо), тогда: Несобственный интеграл функции /(ж) от а до оо определяется как предел (конечный или бесконечный) (2-7) Если предел конечен, то говорят, что интеграл (2.7) схо- дится. Если бесконечен, то — расходится. Аналогично определяется интеграл (2-8) Наконец, если существуют оба интеграла (2.7) и (2.8), то а 'х.
2.6. Несобственные интегралы 49 Примеры в случае р = 1 А 1 • При р ф 1 В результате при А —> сю имеем если 0 < р 1 и оо [ dx 1 /I \ J^ = —f “Л“Р> L IW 1 dx 1 Ах2 = arctg х • По закону гравитационного притяжения вес mg тела мас- сы m равен6 где М — масса Земли, Rq — радиус Земли. Если потенциальную энергию бесконечно удалённого от Зем- ли тела считать нулевой, tz(oo) = 0, то, интегрируя работу Fdr по удалению тела в бесконечность, получаем R /см Mm u(R) = / Fdr = —у----- оо Mm =-^- 6 Хотя закон тяготения Ньютона декларирует (2.9) для точечных масс, он справедлив и в случае притяжения однородных шаров.
50 Глава 2. Интегрирование Вторая космическая скорость Гоо (позволяющая улететь в бесконечность) определяется из условия zt(oo) — — 7 Mm Ro ^oo 2 • Работа газа при расширении от объёма Vo до Ц равна Допустим, газ расширяется адиабатически (без теплообмена с окружающей средой) до бесконечности. Какая работа будет про- изведена? При адиабатическом расширении взаимосвязь давления с объ- ёмом определяется законом Пуассона pVk = const, к — Cpjcv, т. е. pVk — PoVq- Следовательно, потенциальная энергия газа, заключённого в объ- ём Vo ПРИ давлении ро, равна max °[PoVfdv= pXvi-a- Vk 1 - к Po Vq к — 1' Vo • При вращении графика кривой у = в диапазоне (1,оо) вокруг оси х образуется тело вращения (2.10), (2.10)
2.6. Несобственные интегралы 51 объём которого равен Г irdx V= = что получается как результат предельного суммирования объ- ёмов колец радиуса у — 1 и толщины Аз? (AV = тп/2Ая:). Интересно, что объём тела ограничен, но вертикальное плос- кое сечение, проходящее через ось ж, имеет бесконечную площадь Факт лежит в основе парадокса маляра7. В данном контексте имеет смысл упомянуть про интегралы от неограниченных функций. Пусть функция f(x) определена на [а, Ь), интегрируема на любом отрезке [а, с] С [а, Ь) и уходит в бесконечность при х —> —> Ь — 0, т. е. при х стремящемся к Ь слева. Тогда несобствен- ный интеграл / f(x)dx определяется как предел (конечный или бесконечный) с—+Ь—О (2-11) Как и прежде, если предел конечен, то говорят, что интеграл (2.11) сходится. Если бесконечен, то — расходится. 7 См. oschool.ru.
52 Глава 2. Интегрирование В указанных условиях точку b называют особой. Из контек- ста ясно, что представляет собой несобственный интеграл, если особой является точка а, обе точки а и 6, некоторая точка внутри отрезка [а, Ь]. Примеры • При р ф 1 Г dx хх~р 1 J хр 1 - р с с в случае р — 1 1 7 dx J T = lnl1' с В результате при с —> 0 + 0 имеем [ dx 1 / —77 = еслиО < р < 1 J Хр р - 1 0 L — — In с. [ dx / — = оо, если р 1. J хр 0 1 j \nxdx = 0 1 Г dx J \/1-х2 7г/2 J tgxdx - 0 1 : Т1ПТ — X = —1. 0 7Г = arcsin 1 — arcsin 0 = —. 2 тг/2 f d cos х = — = — In COS X = oo. J cos a? о
2.6. Несобственные интегралы 53
Глава 3 Функции и пределы Наступает момент подробностей. Переход к пределу — важнейший матема- тический инструмент. Производные, интегралы, длины, объёмы, — получаются предельным пере- ходом. На первых порах интуитивные представ- ления здесь позволяют обходиться без формаль- ностей, — и мы этим пользовались на виражах предыдущих глав. Однако пора всмотреться. 3.1. Предел последовательности Числовая последовательность ап — это функция целочис- ленного аргумента. Например, 1 ап = п; 2п — 3 + 1 Иногда, чтобы подчеркнуть, что речь идёт не об п-м члене, а о всей последовательности, пишут {а^}, но чаще употреб- ляют просто ап, возлагая понимание на контекст.
3.1. Предел последовательности 55 Тему приходится начинать с самого трудного. Потому что, странным образом, понятие предела плохо укладыва- ется в голове. Интуитивно всё ясно вроде бы, начинаешь формализовать — ускользает. Но тут важно добиться побе- ды, и это потом спасает от потери времени при попытках разобраться снова и снова. Определение. Числовая последовательность ап схо- дится при п —> оо к пределу а, пишут ап —> а, равносильно lim ап = а, П—>ОС если по любому е > 0 можно указать такое N, что |ап — а| < г для всех п > N. Трудность усвоения этой дефиниции в некотором роде ле- гендарна и больше связана с психологией, чем с математикой. Устранить психологический барьер помогает взгляд на ситуацию с другого ракурса. Определение эквивалентное. Последовательность ап при п —* оо сходится к пределу а, если неравенство |ап - о| < £ при любом £ > 0 может нарушаться лишь конечное число раз. Другими словами, ап не разрешается выпрыгивать из
56 Глава 3. Функции и пределы любой фиксированной е-окрестности сколько угодно раз1. в-окрестностью точки а называется интервал (а — е, а + е). Всякая теория в начале пути проходит через какие-ни- будь банальности, которые всё же настраивают в резонанс и поэтому заслуживают некоторого внимания. • Если ап —> а, Ьп —> b, и все ап < Ьп, то а < Ь. Здесь и далее «для всех п» и «п —> ос» подразумеваются. • Если ап —> а, Ьп —> Ь, то: С1п “I- ► CL “I- Ъ, и при условии bn, Ь 0. 1 Докажите эквивалентность определений, и психологические за- труднения уйдут с вашего пути. Задайтесь вопросом: «Что недопу- стимо с точки зрения исходного определения?» Ответ прост: нельзя разрешать выпрыгивать ап из любой заданной е-окрестности сколько угодно раз. Значит, какую е-окрестность ни взять, ап обязана с некото- рого момента в ней оставаться, начиная с какого-то момента N. Но это и есть первое определение.
3.1. Предел последовательности 57 ◄ Пусть дано любое е > 0. Когда все an принадлежат J -окрест- ности точки а для n > Ni, все bn — ^^-окрестности точки b для п > IVjj, тогда все an + bn находятся в г-окрестности точки a + b для n > max(Ni, N2). ► Остальные свойства доказываются аналогично. Такие рассуждения мало кому нравятся, но подобному формализму надо потихоньку учиться, чтобы уметь рабо- тать не только топором, но и скальпелем. Числовую последовательность, стремящуюся к нулю, ап —* 0, называют бесконечно малой величиной. Термин неудобный. Потому что последовательность — не величина, а функция. Но терминологические накладки неизбежны. По всей видимости, ап называли поначалу «пе- ременной величиной», затем укоротили — до «величины», в результате чего мы теперь испытываем неудобства, а учи- тельствующий состав лишний повод для торжества. Последовательность ап при п —> оо, говорят, расхо- дится, и пишут ап —> оо, если по любому М > 0 можно указать такое N, что |an| > М для всех п > N. (3.1) В случае (3.1) говорят также о сходимости ап к беско- нечному пределу. При этом расходящиеся последователь- ности называют бесконечно большими величинами, дабы непосвящённых окончательно запутать.
58 Глава 3. Функции и пределы 3.2. Лемма о трёх собачках Если an < bn < сп и «крайние» последовательности ап, Сп сходятся к одному и тому же пределу, то к этому же пределу сходится и Ъп. Результат называют леммой о трёх собачках. Факт интуитивно естественный, но где интуиция черпает аргу- менты? Легитимность обеспечивается ссылками на нечто регламентированное, подобное уголовному кодексу. Итак: ◄ Если ап, сп сходятся к одному и тому же пределу то с какого-то момента они все попадают в е-окрестность С,, и Ьп, зажатое между ап, и сп, попадает в ту же е-окрестность. Вот и все доказательство2. ► Вот как это работает. В разложении п = [1 + (у/п — 1)]п по формуле бинома Ньютона возьмём лишь одно слагаемое C2(^/n — I)2, получится неравенство откуда 0< (^/п-1)2 < что по лемме о трёх собачках даёт • Учитывая предыдущий результат и непрерывность функ- ции loga® при х = 1 (см. далее), получаем 2 Не пытайтесь здесь «объяснять анекдот» — утоните.
3.3. Монотонные последовательности 59 • В данном примере обыгрывается лишь 1 —» 0 и опять-таки с опережением событий непрерывность функции \/1 + х в нуле: Упражнения Плавать, — по книгам не научишься. Приходится лезть в воду. С математикой — такая же история. Доказать: 2; прадикалов nsin — —> 1. п 3.3. Монотонные последовательности Кое-что очевидное противится обоснованию — и это всегда «звоночек». Вроде бы яснее ясного, но аргументировать не удаётся. Чаще всего это свидетельствует об аномалии, через которую можно выйти в новое пространство. Но для завое- вания неведомой территории надо, конечно, потрудиться. Лемма Вейерштрасса. Если последовательность ап Q монотонно возрастает и ограничена сверху — т. е. суще- ствуют такие М и N, что ап < М при любом п > N, — то она сходится, ап а < оо. 3 Не убывает, т. е. ап+1 > ап.
60 Глава 3. Функции и пределы Это как раз пример нетривиального результата, простого в использовании и очевидного интуитивно. Насчёт очевид- ности интуиция заблуждается. Обоснование леммы упира- ется в теорию вещественных чисел, каковая является креп- ким орешком. В зависимости от уровня строгости построе- ния вещественной прямой — соответствующий окрас при- обретает и лемма Вейерштрасса. Строгий вариант рассмат- ривается в главе 5. Наивный вариант, дескать, « веществен- ные числа — это десятичные дроби» — логически несосто- ятелен, но он приемлем, см. Ш-АА, на первом этапе осво- ения пределов. Сначала надо освоиться «приблизительно». Потом можно будет вернуться назад. ◄ На территории десятичных дробей у растущей и ограни- ченной последовательности с увеличением п перестаёт меняться все большее число знаков после запятой4. Это последовательно определяет бесконечную дробь а, которая и является пределом ап, ибо ап может отличаться от а лишь в более и более высоких разрядах по мере увеличения п, т. е. ап — а —> 0. ► 3.4. Число е Посмотрим, каковы возможности инструмента. Знаменитое число е = 2, 71... определяется как предел (3.2) 4 Стабилизация десятичных знаков имеет место в условиях моно- тонного роста ап. У сходящейся последовательности ап = 1+(—1/10)п все десятичные знаки «прыгают» все время.
3.4. Число е 61 ◄ Покажем, что последовательность хп - тонно возрастает и ограничена. В разложении муле бинома Ньютона к-й член п МОНО- ПО фор- Сп (-Y=• • б - — \п J к\ \ nJ \ nJ очевидно, растет при увеличении п (для фиксированного к). Кро- ме того, с увеличением прастет число членов разложения Поэтому хп монотонно возрастает. А из ограниченность хп, поскольку тт вытекает к'. ^^1 + 1 + ^ + --- + ^<2 + | + --- + ^т<3. Следовательно, лемма Вейерштрасса гарантирует сходимость хп к некоторому числу (3.2), каковое «неожиданно» оказывается одним из столпов мироздания, см. п. 1.7, а также п. 5.4. ► Отбрасывая часть слагаемых в разложении Хп 1- к — 1 п при к п имеем неравенство fc- 1\ n J 1 1 - переходя к пределу в которому при п ос и фиксированном к, получаем оценку _ 1 1 1 O +l! + 2!+‘" + fc!~yfe’
62 Глава 3. Функции и пределы а поскольку ещё и хп < уп, то лемма о трёх собачках приводит к другой полезной формуле для числа е, 3.5. Предел функции Далее рассматриваются функции у = /(ж), сопоставляющие вещественным значениям х вещественные значения у. Число А называют пределом функции /(т) при х —+ а, /(ж) -»• А при х а пишут также lim /(ж) = А, если по любому £ > 0 можно указать такое 5, что О < |т — а| < 5 влечёт за собой |/(т) - Л| < £. В случае х —> оо, конец определения таков: если по любому в > 0 можно указать такое М > 0, что |/(т) — Л| < £ для любого х > М, см. рис. (3.3). (3.3) В связи с переходом от дискретного аргумента п к непре- рывному х ситуация, конечно, меняется. Главным образом
3.5. Предел функции 63 это связано с возможностью стремления х к конечному пре- делу, что в случае дискретного аргумента — бессмысленно. Данное определение lim /(ж) — А — это та самая дефиниция х— на (е, 6)-языке, которая плохо укладывается в голове. Лучшее средство для преодоления барьера — переиначьте определение сто раз, переосмыслите, выверните наизнанку. Не бросайте кру- тить педали — и второе дыхание придёт. Эквивалентное определение. Число А называется пределом функции f(x) при х а, если /Ы -> А для любой последовательности хп —> а (хп а). ◄ Доказательство эквивалентности как будто совсем просто. Следование второго из первого очевидно. Обратное легко уста- навливается от противного. Что означает нарушение f(x) —> Л? При некотором е не найдется нужного 5. Другими словами, для любой последовательности 6п —* 0 существуют такие хп, что |f (жп) - Д| > е, 0 < |жп - а| < 5п, (3.4) но это как раз противоречит второму определению. ► Приведённое рассуждение завуалированно использует самоочевиДнУю вроде бы аксиому выбора: «в любом се- мействе множеств в каждом множестве можно вы- брать по элементу». Говорить, казалось бы, не о чем. Но из этой аксиомы следуют такие удивительные вещи, Иг которые затягивают математику в трясину «несуразно- стей», см. парадокс Банаха—Тарского на oschool.ru. Определение непрерывности с помощью хп полезно на практике. Например, если существование предела установ- лено, то для его нахождения достаточно определить предел f(x) для какой-нибудь одной подпоследовательности хп.
64 Глава 3. Функции и пределы У пражнения • При а; —> оо -----> оо, X • Если f(x) —> А, д(х) —> В /(ж) + д(х) А + В, при х а (или х оо), то -> уА, f(x)g(x) -> АВ u'f(x)/g(x) —> А/В при условии д(х),В 0. Справедливы и другие аналоги утверждений о пределах чис- ловых последовательностей. Теорема о трёх собачках, например. Существование предела для ограниченной и монотонной f(x) то- же имеет место, но его формулировку приходится уточнять5. Од- нако в целом никаких особых трудностей здесь не возникает. • Поскольку, скорее всего, Вы уже забыли подробности доказа- тельства (1.18), попытайтесь обосновать sinrr 1 п -------> 1 при х —> 0 х с чистого листа. Функция f(x) в случае /(а?) —> 0 называется бесконеч- но малой, в случае | f (х) | —> ос — бесконечно большой. Если f(x) —> 0, д(х) —> 0, и f(x)/g(x) —> 0, то говорят, что f име- ет более высокий порядок малости по сравнению с д, и пишут f = о(д), читая «f есть о-малое от д». Например, х2 = о(х) при х —> 0, (х — 5)4/3 = о(х — 5) при х —> 5. 5 Необходимо ввести понятия пределов слева/справа, или сни- зу/сверху, когда х приближается к а снизу, х Т а, или сверху, х | а.
3.6. Непрерывные функции 65 3.6. Непрерывные функции Функция f(x) называется непрерывной в точке Хо, если /(®) f(x0) при х —> Хо . Функцию, непрерывную в любой точке [а, Ь], называют непрерывной на [а, Ь\. Дабы «чувствовать берега», сразу полезно взглянуть на раз- рывные функции. Разрывы могут выглядеть, например, так: Возможны и более экзотические варианты в диапазоне от у = sin до функции, которая в рациональных точках равна нулю, в ир- рациональных — единице. На (е, 8}-языке определение непрерывной функции звучит более неприступно6: Функция f(x) непрерывна в точке xq в томм случае, если по любому е > 0 можно указать такое 5, что |/(а?) — /(а?о)| < £ при условии \х — жо| < & Теорема. Непрерывная на [а, Ь] функция ограничена снизу и свер- ху и достигает минимального и максимального значения. > 6 И в голове среднестатистического студента не укладывается, см. oschool.ru.
66 Глава 3. Функции и пределы 1. 2. 3. 4. 5. Факты для наблюдения7 „ ах - 1 , lim------— ma (a > 0). х—>0 х lim = д (Д > 0). ж—>0 X / x\n lim (14— I — ex. n-^oo \ nJ lim rrsin* = l. ж—>0 / \ n ,. ( X . , X\ lim cos —h A sin — I = e . n^oo \ П nJ 3.7. Числовые ряды* Особое положение в анализе занимают последовательности Ап — + ’ • • + (3-5) называемые частичными суммами бесконечных рядов (3.6) Конечный или бесконечный предел А частичной суммы (3.5) определяют как сумму ряда (3.6). Ряд, имеющий конечную (бес- конечную) сумму, называют сходящимся (расходящимся). 7 Бывает приятно смотреть из окна поезда на проплывающие ми- мо пейзажи и разные разности, в том числе неведомые. В математике также полезно наблюдать неизведанные формулы и примеры. Это со- здаёт фон и ощущение среды. Не говоря о зарождении мотивов.
3.7. Числовые ряды* 67 Примеры • Сумма бесконечной геометрической прогрессии (П1-АА) l + q + g2 + --- = |q| < 1. • Вещественное число в десятичной записи <21 <12 ао, ахй2 • • • = ад + — + —к + • • • • 10 Ю • Часто встречается гармонический ряд, . 111 /о 1 + - + -Н---h - Ч-— оо. (3.7) Л о п (\ п 1 + 1 1 < е после ло- гарифмирования даёт п In ^1 + jQ <1, откуда — > In ( 1 -Ь — | = ln(n + 1) — Inn. п \ nJ Суммирование п первых таких неравенств приводит к Дп = 1 + - + - + -- -Ч— > ln(n + 1), Zu П что влечёт за собой расходимость последовательности hn. ► Бесконечные ряды представляют собой эквивалентный язык для изучения последовательностей и пределов. Дей- ствительно, сходимость ряда означает сходимость частич- ных сумм Ап. Обратно, сходимость любой последователь- ности Ьп равносильна сходимости ряда bi + (&2 ~ bi) + • • • + (bn — bn_i) + ....
68 Глава 3. Функции и пределы Отметим два простых факта8. 1. Сходящиеся ряды можно почленно складывать, вы- читать и умножать на константу. 2. Если ряд (3.5) сходится, то ап —> 0. Интересно, что последнее утверждение на миг ставит в ту- пик. ◄ Когда все ап > 0, результат очевиден. Заминка возникает в общем случае, правда, на секунду. Последовательности Ап и An-i по условию сходятся к одному и тому же пределу. Поэтому — Ап Ап_ 1 > 0. ► Многие результаты в теории числовых рядов представ- ляют собой несложные переформулировки известных фак- тов из теории пределов. «Снять маску» обычно нетрудно. 1. Когда все ап 0, ряд а± + а2 + ... сходится, если его частичные суммы Ап ограничены сверху. 2. Теорема сравнения положительных рядов (А) : ai + а2 + ..., (-В) : bi + &2 + • • • • Если, начиная с некоторого п, ап < Ъп либо , а ряд О"п (В) сходится, то и ряд (А) сходится. Если (А) расходится, то и (В) расходите^. Пример. Д, < сходится, поскольку при п 2. Но оо ряд2^) 8 В справедливости которых полезно убедиться. 9 Ряд (В) называют мажорирующим рядом для (А).
3.7. Числовые ряды* 69 тт 1 Поэтому сходится и ряд > —, причем здесь неожиданно всплы- о п п=2 вает число тг, Ь п2 ~ 6 ’ п—1 но это уже факт из другой оперы. 3. Если т21 имеет конечный строго положительный предел, On то оба положительных ряда (А) и (В) сходятся или расходятся одновременно. • В общем случае ряд (3.6) называют абсолютно сходя- щимся, если сходится ряд |ai| + |«2| + • • • абсолютных величин. Любой абсолютно сходящийся ряд сходится. • Любой знакопеременный ряд ao-aiH------Ь(-1)пап + ... (все ап > 0) при условии монотонного стремления ап к нулю — сходится. По- этому не сходящийся абсолютно ряд 1 — i + ~ . сходится. Zi о ◄ Частичные суммы Мк — — а*) + (аз - 04) Н-h (a2t-i — a2fc) монотонно возрастают, поскольку все скобки положительны из- за монотонности убывания ап, и ограниченны, ^2fc = aj — (a2 — аз)---(a2fe_2 — a2fc_i) — a2fc < ai. Поэтому A2fc ->• А. Но тогда и 42fc+1 = A2fe + a2fc+i —> A ► Приведем два признака сходимости положительных ря- дов, накрывающих 90% практических ситуаций. 3.7.1 Признак Коши. Ряд (3.6) сходится, если \/ап ► a < 1, и расходится, если а > 1.
70 Глава 3. Функции и пределы ◄ Для достаточно малого е > 0 — такого, что a 4- е < 1, — начиная с некоторого n — N, будет an (а 4- е)п. Поэтому ряд (2) мажорируется сходящимся рядом оо ]Г(а + е)п. ► 3.7.2 Признак Даламбера. Ряд (3.6) сходится, если ----------------------------> а < 1, а если а > 1, — расходится10. Примеры 1- Ряд 00 1 11 £^ = 1 + 2? + F + --- (3'8) П=1 сходится при s > 1 и расходится при s 1. Расходимость (3.8) при s = l уже была установлена. Отсюда тем более следует рас- ходимость (3.8) при s < 1. Установим сходимость при s > 1. Очевидно, 1 1 1-11 _________I |_ ... □ < 2К < (2fe + l)s (2fc + 2)s_________________________(2fc+1)s_(2fc+1)s_2fc(s-1)’ Поэтому ОО 1 ОО 1 nS < oKs-L) ’ 71=1 k=0 а мажорирующий ряд справа сходится, ибо представляет сумму бесконечно убывающей геометрической прогрессии со знамена- телем 1/2S“X. ОО / 2. Ряд In ( 1 4- — \ п 71 х при любом х > 0 расходится, поскольку 1п ( 1 + — V п 1 п 10 Доказательство аналогично предыдущему.
3.7. Числовые ряды* 71 При изучении пределов и числовых рядов довольно ча- сто оказывается полезным следующий результат. 3.7.3 Теорема Штольца. Если последовательность уп монотонно возрастает и уп-^+оо, то обе последователь- ности хп хп Хп—1 — и ---------------- Уп Уп Уп— 1 имеют одинаковый предел (либо обе расходятся). тд .. Хп ос Инструмент заточен на неопределенности — типа —. Уп ос Теорема Штольца особенно хорошо работает в ситуациях типа следующей: 4- • • • + ап если ап —> а, то-------------------> а. п Результат получается «сам собой», если положить хп 4~ • • • 4- аП1 уп п. У пражнения lfc + 2fc н-----h nk 1 2. lini --------j—j----------= ------ n-xx) k 4- 1 / nr~ . n/T\ n 3. lim I a ----------- I = Vab (a, b > 0). n—>oo \ 2 / oo 4. В случае an —> a > 0 ряд сходится при |жр< n xn 5. Ряд — сходится при любом х (воспользуйтесь при- п знаком Даламбера).
Глава 4 Задачи и дополнения Нельзя ли обойтись без этих хлопот!? От непонимания и растерянности спасает практика. Решение задач и анализ примеров — постепенно ликвидируют психологический дис- комфорт и внутреннее напряжение, освобождая организм для великих дел. 4.1. Техника дифференцирования Решать задачи надо, не дожидаясь, пока определения и вся- кие там правила не просигнализируют, что окончательно устроились в голове. Начинать имеет смысл с рутины, диф- ференцируя что-нибудь типа _ о Зх — 1 . • ох — 2х; • ; • sin х In х. Такого сорта примерами не хочется загромождать обзор. Великое их множество можно найти в задачниках, а лучше
4.1. Техника дифференцирования 73 всего — у себя в голове. Потому что здесь ничего особенно не надо подгадывать. Берёте функции от фонаря и пробу- ете дифференцировать. Не исключены, конечно, сюрпризы вроде у = Xх, где с ходу не ясно, как быть (см. далее). Имеет смысл поиграться и с самими инструментами диффе- ренцирования. Скажем, на производную частного (1.16), можно взглянуть как на производную произведения f и И с учётом — получить в итоге ту же формулу (1.16), \g) g2 Особого внимания заслуживает формула производной обрат- ной функции (1.15), xfy = Д-. «Особого» — не по причине чрез- Ух вычайной важности, а из-за психологической неудобоваримости. Дело в том, что человек мыслит в «обратном направлении» все- гда хуже. Набивший оскомину пример тюбика, из которого вы- давить пасту легче, чем загнать её обратно, образно отражает положение дел. Именно в связи с трудностями манипулирова- . , ,1 ния обратными функциями использование правила ху = — ча- Ух сто вызывает затруднения. Осваивать такие вещи лучше всего на примерах.
74 Глава 4. Задачи и дополнения Определим производную арксинуса, опираясь на производ- ную синуса, (sin ж)' = cos х. Пусть у = sin ж, х = arcsin?/. Тогда ' - - 1 _ 1 _ 1 Ух cos х \/1 — sin2 х у/1 — у2 что даёт необходимый результат. При желании буквы ж, у теперь можно поменять местами, (arcsine)' =---- \/1 — X2 Пытаясь достичь критической массы, есть резон вернуться к упражнениям (1.20), (1.21), а также пересмотреть заново трюк вывода производной (д/ж) в разделе 1.4. Наиболее важно и полезно для практики, конечно, пра- вило дифференцирования сложной функции (1.13). Чему равна производная (д/1 + sin я) ? Сначала дифференцируем по 1 + sin х — получаем —=Х===? затем 1 + sin х диффе- 2v 1 + sin х ренцируем по х — получаем cos х. В итоге (дтsin я cos х 2-y/l + sin ж Проверьте: • ^(х2 — 1)5] = 5 (х2 — 1)4 • 2х; • (In sin а?)7 = ctgrr там, где sinx>0; а / arcsine___ arcsinx Что касается дифференцирования «проблематичной» функ- ции у = Xх, то надо лишь заметить, что Xх = exhix, и про- блема сводится к дифференцированию сложной функции (тжУ = (еж1пж)' = еж1па:(1 + Inz) = жх(1 + 1пт). (4.1)
4.2. Универсальный фокус 75 4.2. Универсальный фокус Довольно часто переменная х в запись конкретной функции /(ж) входит несколько раз. Например, т I 9 % е 1пх; х + х ; -. X + 1 В этом случае производную можно вычислять по правилу Г№ = Г,Ю + ГУО+ + №), (4.2) где f'(x) обозначает производную /(ж) по J-му х в записи1 /(ж). При этом, дифференцируя /(ж) по j-му х, остальные иксы надо считать константами. Вот как это работает. Дифференцируя /(ж)р(ж), сначала берём производную по ж, входящему в /(ж), аргумент р(ж) пока фиксирован, — получаем /'(ж)д(ж). Затем дифферен- цируем f(x)g(x) по ж, входящему в д(ж), аргумент /(ж) фик- сируем, — получаем /(ж)^/(ж). В итоге получается формула (1.12), производная произведения, (fa)' = fa + fa’ Дифференцируя Xх по иксу в основании, имеем2 ж-жх-1 = = хх, а по иксу в показателе — получаем3 хх - In ж. В резуль- тате (хХ)' = Xх + Xх In ж, что совпадает с (4.1). 1 Пронумеровать иксы мысленно можно в произвольном порядке. 2 См. (4.6). 3 По формуле (1.23), (а®/ = ах In а.
76 Глава 4. Задачи и дополнения Получите из (4.2) формулу производной суммы функций*. Обоснуйте в качестве упражнения правило (4.2). 4.3. Порядок роста и убывания Об о-малых и порядках малости мы уже говорили по ходу дела. Кстати, многократное упоминание чего-нибудь «по ходу дела» — наиболее эффективный способ освоения любого инструмента. Тогда как фокусировка внимания и охи-ахи — чаще всего мешают. Но в книгах этим всё же при- ходится пользоваться. Вот и здесь мы выделяем параграф для пустякового понятия порядка роста. Но это катего- рия мышления (!), которая удобна, ей часто пользуются, и она должна укорениться, дабы проще было читать книжки и пускать пыль в глаза окружающим. Итак, пусть функции а(х) и (3(х) таковы, что4 5 Тогда говорят, что се(х) имеет более высокий порядок мало- сти, чем /3(т) (при х —» и). В этом случае говорят также, что порядок убывания а(х) выше, чем /3(х), либо порядок роста (}(х) выше, чем <т(х). На этом языке о(Дх) — вели- чина более высокого порядка малости чем Дх. Напомним, 4 Не забудьте, что дифференцируя по одному иксу, другие надо считать фиксированными (постоянными). 5 Вариант о = оо не исключается.
4.4. Ещё раз о дифференциалах* 77 о-малое, как стенографический трюк, определяется усло- вием —» 0 при £ —» 0. (4.4) С точки зрения (4.4) полезно обдумать, что такое о(ж), о(т3), о(ж2 — 1), 4.4. Ещё раз о дифференциалах* С дифференциалами в начале пути любой «путешествен- ник» оказывается в положении цугцванга. Краткое описа- ние в разделе 1.10, конечно, не даёт полного удовлетворе- ния. Но любые пояснения на первых порах, как показывает опыт, лишь ухудшают положение. Потому что разъяснять там особенно нечего, а всякие попытки «разжевать анекдот» провокационно намекают на несуществующие глубины. Всё, что здесь требуется, — это время и практика. Надо повозиться с дифференциалами, и чувство недопонимания постепенно уйдёт. Итак, ещё раз. Соотношение df = f'(x) dx (4.5) дифференциалов df, dx описывает взаимосвязь линейных при- ращений (функции и аргумента), т. е. представляет собой равен- ство приращений с точностью до нелинейных добавок, о-малых6. 6 Поскольку роль о-малых сводится таким образом к нулю, диф- ференциалы могут принимать любые значения, т. е. это уже не «ма- ленькие дельта». И с ними можно обращаться как с числами: делить, умножать, сокращать.
78 Глава 4. Задачи и дополнения Ситуацию (4.5) описывает следующее геометрическое пред- ставление. Функция у = f(x) в окрестности точки х аппроксими- руется линейным приближением s = где г и s обозначают линейные приращения вдоль осей х, у. Обозначая г через dx, s — через dy, имеем (4.5). На рисунке линейная аппроксимация у = f(x) представляет собой прямую KL, касающуюся графика f(x) в точке А и описываемую линей- ной функцией df = • dx в координатах {dx,dy} с началом отсчёта в точке А. Выгоды использования дифференциалов выявляются шаг за шагом при освоении аппарата вплоть до верхних эта- жей матанализа. Немалый урожай можно собрать и на пер- вом витке спирали. Например, при работе с приращения- ми функций приходится использовать приближённые ра- венства Д?/ « /'(гс)Дж, подразумевая Д/(а?) = f'(x) • A# + о(Дя) и таская из строчки в строчку хвосты нелинейных добавок о(-). Понятие дифференциала освобождает от этих неудобств, позволяя писать для линейных частей прираще- ний абсолютно строгие равенства. Это особенно удобно в бо- лее сложных ситуациях. Например, для у — f(x)g(x) имеем dy = df g + f dg,
4.5. О производной функции у — хх 79 что получается умножением формулы производной произ- ведения двух функций на dx. Сюда же можно добавить d(f + g) = df + dg, d(Xf) = Xdf. Не говоря о возможности обращаться с df/dx как с обыкно- венной дробью, что даёт массу преимуществ. Например, в случае /[#(£)] сразу получается формула дифференцирова- ния сложной функции: df dx df dx dt dt При параметрическом задании кривой х = у>(т), у = ^>(т) производную у'х с помощью дифференциалов можно вычислить, не восстанавливая зависимости у(х): dy y'Tdr ^'(т) Vх dx xfTdr <^(т) Подобные «пустячки» пускают анализ в другое русло. Диф- ференциалы шаг за шагом обретают другой облик. Становится ясно, что линейные аппроксимации функций представляют со- бой удобную и продуктивную категорию мышления, позволяю- щую оставлять за бортом анализа вериги нелинейных добавок. 4.5. О производной функции у = хх Факт = Ххх 1 (4.6) мы обосновали в разделе 1.4 только для рациональных А. ,В слу- чае у = хх с произвольным А О возни чуть больше. ◄ Сначала установим вспомогательный факт
80 Глава 4. Задачи и дополнения Вводя новую переменную s = (l + t)A — 1 (очевидно, s —> 0 при t —» 0) и логарифмируя равенство (1 + t)x = 1 4- s, имеем A ln(l + t) = 1п(1 4- s), откуда (1 4- t)x - 1 _ s _ s 1п(1 4- t) > t t ln(l 4- a) t в силу того, что (при t —> 0) ln(14-t) _ z. _ ——- = ln(l + t) —> Ine = 1. Теперь легко получаем нужный результат, 4.6. Две задачи • Пусть дифференцируема на [а,Ь\ и = f(b)- Тогда есть точка £ 6 [а, Ь], в которой ff(g) = 0. Это так называемая теорема Ролля.
4.7. Замечания об интеграле* 81 ◄ Доказательство совсем просто. Из /(а) = /(b) вытека- ет, что f(x) на [а, Ь] имеет или минимум, или максимум. Далее решает ссылка на теорему Ферма. ► • Теорема Лагранжа. Пусть /(ж) дифференцируема на [а, Ь]. Тогда существует точка £ G [а, Ь], в которой7 /(\ {(а)=т т.е. |/(Ь)-Ла) = /'(е)(Ь-а).| (4.7) ◄ Для доказательства вводится вспомогательная функция си(ж) = /(ж) — &ж, которая при к = • д удовлетворяет условию Да) = До). Доказательство завершает применение к си (ж) теоремы Ролля. Для некоторого £ G [а, Ь] будет а/(£) = /'(£) — к = 0. ► 4.7. Замечания об интеграле* В дефиниции определённого интеграла (п. 2.3) слишком много «если». Поэтому для построения интеграла используют другую конструкцию. На каждом промежутке [жг,Жг+1] берутся точная нижняя mi и точная верхняя Mi границы /(ж) и вводятся в рас- смотрение две суммы Дарбу (нижняя и верхняя): п—1 п—1 S = ^2 ТП^ДЖг, S = &Xi. i=0 i—0 7 Формулу (4.7) в рамке называют формулой конечного прира- щения.
82 Глава 4. Задачи и дополнения В силу тг М{ имеем s a S. Поэтому для суще- ствования предела ст достаточно, чтобы суммы Дарбу сходились к одному пределу, т. е. S - s 0. Общий предел s и S, если таковой существует, и называют опре- делённым интегралом. Оба определения эквивалентны, но вто- рое легче проверять. При этом в случае существования инте- ь грала j f(x)dx в указанном смысле функция /(ж) называется а интегрируемой по Риману, а сам интеграл — интегралом Римана. 4 .7.1 Теорема. Если функция f(x) непрерывна на [а, Ь], то ин- ь теграл f(x)dx существует. > а 4.8. Техника интегрирования Замена переменной. Ретроспективно оглядываясь на диф- ференцирование, легко выделить в ремесле взятия производ- ных две составляющих. Во-первых, нужно знать или иметь перед глазами таблицу производных простейших функций. Во-вторых, нужно уметь комбинировать элементы табли- цы, опираясь на свойства производных: производная сум- мы, произведения, частного, композиции функций. Со взятием неопределённых интегралов — такая же ис- тория. «Таблица», собственно, та же самая, разве что вывер- нутая наизнанку. Да и «приёмы комбинирования» те же, но
4.8. Техника интегрирования 83 «киноплёнка» крутится в обратном направлении. Впечат- ления, соответственно, другие. Пересматривать приходится заново. • Интегрирование, как и дифференцирование, — линей- ная операция, т. е. если F(x) — первообразная функции /(ж), a G(x) — первообразная д(ж), то [а/(т) + fig(x)\dx = aF(x) + (3G(x) при любых a, (3 € R. • Широко распространены переходы к интегрированию по другой переменной, в основе которых лежит формула (I. ) У* f(9(x\)g'(x)dx = Г(^(т)), (4.8) где F(g) — первообразная f(g). Равенство (4.8) представляет собой опять-таки «вывер- нутое наизнанку» правило дифференцирования сложной функции. Дифференцируя в (4.8) F(g(rc)), получаем Fg(g(x))g\x) = f(g(x))g’(x), т. е. как раз подынтегральное выражение. Фокус практического использования формулы (4.8) для У <p(x)dx заключается в изобретении представления 9?(ж) = /(^(ж))У(ж) с функцией f, первообразная которой известна или легко вычисляется. Часто это получается само собой.
84 Глава 4. Задачи и дополнения • Например, sin3 х cos xdx = [ sin3a? d sin x — sin4 x J 4 или 2xdx 1 + x4 9 = arctgrr . За кадром-то здесь фигурирует замена х2 = t, далее берётся ин- Г dt теграл J - - -2 ? после чего исполняется возврат к переменной х. Понятно, что сию кухню проще держать в голове, не оставляя следов. • Замена, конечно, не всегда сама напрашивается. Иногда приходится повозиться. Не так легко, например, додуматься, что задачу интегрирования / —. решает замена t = д/1 + х2 + х. J Vl + x2 Возведение t — х = д/1 + х2 в квадрат даёт /2 _ 1 у-------- f2 _1_ I /2 I х = -____- л/l 4- .Т 1 dx - + dt 2t , V1 +Х 2t ’ 2t2 ' откуда [ 2 = [ 7 =ln|t| =1п|\/1 + Ж2+х|. j у 1 + X2 J £ Последний пример демонстрирует, что трюк (4.8) может быть лишь элементом более сложных манипуляций. • Если F(x) — первообразная /(ж), то J f(ax + b)dx ~ J f(ax + tyd(ax + b) = -F(ax + b).
4.8. Техника интегрирования 85 Интегрирование по частям. Обращение правила диф- ференцирования произведения приводит к формуле инте- грирования по частям UV (4.9) проверяемой дифференцированием с учётом (uv)' = u'v + Uv'. Диапазон применения (4.9) весьма широк. Осваивать ин- струмент надо на примерах xd In х — х = x dx = x In x — x\ xd sin x = xsinx— — rrsinrr+cosa;. Возможны и более крутые виражи • / excosxdx= / e^dsina; = e^sina; — ex sin x + cos x = ex sin x + ex cos x — откуда 2 В том же духе: a2 — x2dx = х\/ о? — х2 а2 — х2 2 2 2 : — х — а - —......-dx = \/ о? — X2 9 f dx а / /......... J \/а2 — х2 откуда 2 а2 — х2 dx = у/ а2 — х2 + arcsin —. 2 2 а — х
86 Глава 4. Задачи и дополнения Всё это к существу интегрирования имеет весьма от- далённое отношение. В основном это касается жонглирова- ния и комбинирования простых фактов, что широко рас- пространено во всех сферах деятельности. Часть населения устремляется к задачам олимпиадного уровня, но и в рядо- вых ситуациях необходима определённая ловкость. Следующий пример несколько сложнее. Г dx f d(x/2) _ Г cos(;r/2) d(x/2) _ J sinx J sin(a;/2) cos(z/2) J sin(x/2) cos2 (.г/2) f dtg(x/2) . x He следует забывать, что некоторые интегралы не выража- ются через элементарные функции8, например, /sinх 1 f dx 4.9. Пределы и производные* Производные, будучи сами предельными понятиями, доволь- но эффективно помогают вычислять пределы с различными неопределённостями. у*(т) • Когда ищется предел отношения ——, стремящихся к нулю функций (при х —> а), говорят о неопределённости Если при 8 Тогда как дифференцирование не выводит из области элементар- ных функций.
4.9. Пределы и производные* 87 этом существуют конечные производные f'(a), д'(а), то /(х) — — а) + о(х — а), д(х) = д'{а)(х — а) + о(х — а), поскольку /(а) = д(а) = 0. Поэтому /(ж) _ /'(«)+ А . о(х -а) / \ /? \ । л ? где А О? д(х) д (а)+ А х — а что, при условии либо f(a) ф 0, либо У (а) 0, влечёт за собой справедливость правила Лопиталя: ит АЕ) = № х-^а д(х) д'(а) В случае f'(a) 0, д'(а) — 0 предел бесконечен. Идея Лопиталя работает и в более широких условиях. Если / и д в точке а обращаются в нуль вместе со своими к — 1 произ- водными, a fk(a) (или дк(а\) — первая ненулевая производная, то ряды Тейлора f и д начинаются с к-х членов. Поэтому lim /Ы = лм x->ag(i) д^к\а) Случай бесконечного а не исключается. Надо лишь отношение производных заменить их пределом9, lim я—>оо Лж) lim я—>оо Правило Лопиталя работает и в случае неопределённостей —. • Если —> оо и существует предел отношения J Л {, то r /(*) г Ш lim = lim . х-^а д(х) х-^а д (х) 9 Разумеется в предположении, что он существует.
88 Глава 4, Задачи и дополнения На практике встречаются неопределённости и других видов, но они легко сводятся к уже рассмотренным. Скажем, 0-ос мож- но заменить на 0/(1/оо) = 0/0. В ситуациях «0°, сю0, 1°°» выру- чает логарифмирование. Примеры г (ж2-^)' • 2ж“2^_о * 1т^х л/^-i -11т^1 (т^-1)' -hm^1 i -3- 2у/х • Во многих случаях наиболее эффективно непосредственное использование формулы Тейлора (5.1). Например, х — sin х пт---------------------у ж—>0 xZ 1п(1 + х) - х + —- 4.10. Монотонные функции Соображения монотонности выглядят заурядно, но удиви- тельно, что они иногда эффектно решают трудные задачи. Напомним. Если из и > v следует /(ад) /(ж), то гово- рят, что /(ж) монотонно возрастает, если же f(u) > f(v), то /(ж) строго возрастает. Наконец, если f(u) /(ж), то /(ж) — монотонно убывает (f(u) < f(v) — строго убывает). Геометрически и физически очевидно: функция f(x) монотонно растет на [а, 6], если f'(x) 0 на [а, Ь], и убывает — если f'(x) С 0. Результат прозрачный. Скорость изменения положитель- на — функция растет, отрицательна — убывает. Строго по-
4.10. Монотонные функции 89 ложительна — строго растет и т. д. Но во избежание ано- малий (см. п. 5.3) мы везде предполагаем непрерывность производной на рассматриваемых участках. Круги по воде от монотонности расходятся во многих направлениях, но общие выводы в основном не выглядят многозначительно. Например: «Если f(0) 0 и fix') 0 для всех х О, (4.10) то f(x) 0 при любом х О». На уровне общей схемы факт (4.10) вроде бы не стоит даже упоми- нания. На практике, однако, — хорошо работает. Докажем, например, неравенство sin а; > х — ж3/6 при х 0. 2 Дифференцируя, имеем cos х > 1 — %-. Далее тот же рецепт можно Л применить ещё раз. Новое дифференцирование даёт — sin х —х, т. е. х sin х. Кому известно такое неравенство, на этом заканчивает. Ко- му неизвестно, может снова повторить тот же трюк, получая 1 > cos ж, что уже известно всем. Теперь движение в обратном порядке (разуме- ется, с проверкой на каждом шаге соответствующего неравенства в нуле) решает исходную задачу. Докажите дифференцированием неравенство ctg 2х — ctg х + 1 < 0 при 0 < х < —. (г-) Другой простой тезис «Если f(x)=0, то f(x) = const» — (4.11)
90 Глава 4. Задачи и дополнения также может приносить плоды. Дело в том, что для какого- нибудь сложно доказуемого тождества f(x) = g(x) проверка ff(x) = gf(x) может оказаться совсем лёгкой. Тогда остаётся убедиться лишь в равенстве /(0) = д(0) — и задача решена. Например, / • V 1 1 (arcsma? + arccos.7:) = --. = 0, V 1 — х2 yl — х2 откуда следует arcsin х + arccosa; = const, подстановка куда х = 0 показывает: 7Г arcsm х + arccos х = —. Но это, конечно, изобретение велосипеда. Вот более осмысленный пример. Доказать тождество • 9 / \ . о (ТТ sm — 4- х — sin — — х \8 / \8 sin 2х х/2 (4-12) ◄ Дифференцируя (4.12), получаем тождество10 (7Г Л \ . / 7Г \ /х — + 2х + sm — — 2х \ = v 2 cos 2х. 4 / \ 4 / (4.13) Равенство (4.12) выполняется при х = а значит, и при любом х. ► о 4.11. Выпуклость и оптимизация Характер роста функции h(x) играет важную роль во мно- гих задачах. В случае h'(d) = 0, например, полезно выяс- нить поведение производной h! (ж) в окрестности точки а. 10 Тождественность (4.13) ясна из sin(ct+/?)+sin(a:—/3) = 2 sin a cos /3.
4.11. Выпуклость и оптимизация 91 Если h'(a) = 0 и сле- ва от а производная положи- тельна, справа — отрицатель- на, то у /г(т) в a — мак- симум, рис. справа. Поэто- му функция h'lyc) в точке a убывает, а значит её произ- водная, т. е. вторая производ- ная, /г"(а) < 0. Таким об- разом /г"(а) < 0 при условии Л'(а) = 0 является достаточ- ным условием максимума. Понятно, если в ситуации h!(a) — 0, наоборот, h"(a) > 0 , то в а — минимум. А если Ь."(а) = 0 , то а перегиба, рис. (4.14). точка В случае квадратного многочлена /(а?) = рх2 + qx + г критическая точка находится в одно касание: /'(ж) = 2рх + q = 0 -♦ х = -£-. 2р Достигается там максимум или минимум — определяется знаком второй производной, каковая у квадратного много- члена вообще не зависит от х, /"(*) = 2р.
92 Глава 4. Задачи и дополнения Но f'(x) = 0 является лишь необходимым условием оптимума, но не достаточным11. У /(а;) = х3 производная /'(0) = 0, но в нуле у х3 — точка перегиба. Ещё полезная категория мышления — выпуклость. Функцию называют выпуклой, когда её график выглядит, как на рис. (4.15) слева, и вогнутой — в случае, изображен- ном на рис. (4.15) справа. (4.15) Выпуклая функция с увеличением х растет все быстрее, т. е. скорость f'(x) возрастает (ускорение f"(x) положительно). Во- гнутая функция, наоборот, с увеличением х растет медленнее. Из (4.15) геометрически ясно, что вертикальный луч, идущий вверх из любой точки с G [а, 6], пересекает сначала график /(ж), потом отрезок АВ, что можно записать как /(pa + qb) р/(а) + qf(b) при любых неотрицательных р и q, удовлетворяющих усло- вию p+q = 1. Это называют неравенством Йенсена и обыч- но принимают за определение выпуклой функции, а моно- тонность производной12 уже выводят как следствие. 11 Тогда как «/'(я:) = 0 плюс f"(x) < 0» — это уже необходимое и достаточное условие максимума. 12 Которая означает либо f"(x) > 0, либо /"(х) 0 — там, где /(ж) вогнута или выпукла.
4.11. Выпуклость и оптимизация 93 Стандартное определение выпуклости исходит из друго- го источника. Геометрическая фигура выпукла, если вместе с любыми двумя точками содержит отрезок их соединяющий, см. Ш-АА. При этом функцию называют выпуклой, если она имеет выпуклый надграфик, представляющий собой множество точек (х,у), удовлетворяющих неравенству у f(x).
Глава 5 Горизонты и перспективы Нет трудных задач, есть плохие точки зрения. При изучении предмета планку имеет смысл поднимать на такую высоту, начиная с которой можно легко двигаться дальше. Или лучше ска- зать по-другому. Необходимо осваивать критиче- скую массу фактов, способную далее расти само- стоятельно в благоприятных условиях. 9 5.1. О фактах для наблюдения На любую изучаемую дисциплину принято смотреть как на совокупность инструментов, каковые надо освоить, да- бы использовать себе во благо. Несмотря на внешнюю ло- гичность, такой вульгарно прагматический подход не очень продуктивен. Потому что живой процесс от мёртвого от- личается массой нюансов. Мотивы, обертоны, излишества, послеобеденные ракурсы. Да всего и не перечислишь.
5.1. О фактах для наблюдения 95 А если себя узко ограничивать, возникает отвращение. Ну, не хочется дифференцировать, и весь сказ. Поэтому на- до подключать вторичные факторы. Сами по себе, может быть, бесполезные, но обладающие некоторой притягатель- ной силой. Которые чем-то таким аукаются типа изящества или загадочного аромата, что-то такое неопределённо обе- щают, будто бы. И здесь не надо ничего специально подби- рать и подстраивать. Достаточно смотреть широко раскры- тыми глазами при отсутствии ограничений обзора. Короче говоря, в обучении нельзя замыкаться в чисто утилитарных рамках. Это учим, дескать, для такой-то надобности, а это обходим стороной, ибо — не пригодится. Самое ценное во Вселенной как раз то, что никогда не пона- добится, но без него невозможно обойтись. Поскольку Оно создаёт настроение, импульс, потенциал. Если сказанное за- землить, то в учении, упаси бог, ограничиваться правилами, формулами, выводами. Гораздо важнее виды, панорамы; об- зоры, эскизы, впечатления. И в данной главе кое-что из этой оперы представлено. Причём это не инструменты, каковы- ми надо овладеть, а фрагменты виртуального мира мате- матики, глядя на которые, мы запускаем в себе какие-то неведомые процессы.
96 Глава 5. Горизонты и перспективы 5.2. Кульминационный момент Кульминационным моментом дифференциального исчисле- ния обычно представляется следующий факт. Формула Тейлора. Пусть функция f(x) дифференци- руема п + 1 раз в некоторой окрестности точки а. Тогда для х, достаточно близких к а справедлива формула = f(d) + —- «) + • • • fn(a) • • • +-(ж — a)n + о((ж — a)n). (5.1) n! Если функция f(x) бесконечное число раз дифференци- руема, скажем, в нуле, то велик соблазн представить её в виде бесконечного ряда Тейлора f'(0) fn(0) f (х) = ДО) + ’’х + • • • + + .... (5.2) 1! ni Вопрос в том, имеет ли смысл равенство (5.2). Оценки мало- сти «хвоста» ряда Тейлора (остаточного члена) f(x) — Рп(х) ничего не дают. Качество приближения f(x) полиномом Рп(х) улучшается с ростом п, но окрестность, где это происходит, может уменьшаться до нуля. Поэтому для знака равенства в (5.2) нет оснований. Ряд Тейлора мо- жет расходиться или сходиться к другой функции. Тем не менее для многих функций представление (5.2) справедливо, причём не в малой окрестности, а на довольно широких областях и даже на всей числовой прямой. Напри-
5.3. Омуты дифференцирования 97 мер, представления х3 х2п+1 sin® = х--------!-••• + (—1)п------------h • • 3! к 7 (2п + 1)! х2 х4 COSX = 1--------1----- 2! 4! (-1)" х2п (Щ! справедливы при любом х G R. Глядя на эти ряды, как гласит легенда, Эйлер открыл свою знаменитую формулу1 егх = cos х + i • sin х. (5-3) В теории функций комплексного переменного (ТФКП) устанавливается, что многие ряды Тейлора элементарных функций сходятся в обширных областях. 5.3. Омуты дифференцирования В фарватере матанализа всё безоблачно, и потому теряется бдительность, а предпринимаемые упредительные меры в рассуждениях кажутся излишними. Однако когда плывёшь по течению в окружении теорем, необходимо чувствовать берега. То есть иметь представление, что там, за пределами оговоренных условий. Куда можно угодить, делая шаг в сто- рону. Поэтому примеры и контрпримеры не менее важны, чем теоремы. Ещё важнее понимать, обеспечивают ли «оговоренные условия» безопасность «рейса». Исключены ли аномалии. Не могут ли хлынуть в пробоину определений какие-нибудь несуразности. Дело в том, что некоторые предположения 1 О комплексных числах см. Ш-АА и Ш-Тр.
98 Глава 5. Горизонты и перспективы теорем, находясь в тени, кажутся несущественными, и вы- воды мерещатся справедливыми без них. Тогда и возникает потребность в контрпримерах. Ловушка непрерывности. Всякое определение мини- рует математику. Казалось бы, что может быть проще и естественнее понятия непрерывной функции. Но в расще- лину соответствующего определения просачиваются много- численные уродцы. Первые признаки того, что непрерывность вмещает в се- бя всякую чертовщину, возникают довольно просто. График везде непрерывной2 функции у = х sin 1 невозможно нари- совать, а график непрерывной в нуле функции /(ж) = < О, ж, если х рационально, если х иррационально всюду дыряв. Ещё экзотичнее функция Римана /(*) = < 1 п’ О, если х = — п если х и дробь несократима, (5.4) иррационально. В подобное загодя трудно поверить. Ибо можно ли зара- нее вообразить функцию непрерывную в иррациональных и разрывную в рациональных точках. В Ш-МА рассматриваются также более каверзные при- меры (кривая Пеано, Канторова лестница). А вот совсем уникальный экспонат. • Знаменитый пример Брауэра. Зададимся дурацким на вид вопросом. Могут ли на плоскости три области иметь об- щую границу? Не общий участок — а одну и ту же границу. Похоже на бред, но ответ — положительный. 2 Здесь и далее подразумевается непрерывное доопределение функ- ций с «выколотыми точками».
5.3. Омуты дифференцирования 99 Идея конструкции довольно проста. Пусть в море С есть ост- ров, на острове два озера, А и В. На сухопутной части острова выделим г-сеть3 S£. Затем от каждого озера и от моря к каждой точке S£ пророем канал, не доводя его до этой точки на рассто- яние В духе рисунка (5.5) справа. На оставшуюся часть суши поместим |-сеть и к точкам S£/2 про- роем каналы, не доходящие до точек сети на Потом накроем сушу |-сетью и так далее. Понятно, что в пределе области А, В, С разрастутся до областей А°°, В°°, С°° с общей границей Г. Граница Г — это все, что останется от суши. А если изначально взять остров с миллионом озер — получится пример миллиона областей с общей границей. Такую галиматью возникает соблазн объявить фантасмаго- рией ума. Дескать, чего не бывает в больном воображении. Тем более удивительно, что картина нескольких областей с общей границей встречается не только в фантазиях, но и на практике. Итерационная процедура ~3 - 1 zk 3z£ (5-6) на комплексной плоскости вычисляет корень кубический из еди- ницы, каковых имеется три, 1, —1+гл/З 2 — 1 — гл/3 2 (5-7) 3 Эпсилон-сетью множества X называют такое его подмножество Se, что для любого х G X можно указать s е удалённое от х не более чем на v.
100 Глава 5. Горизонты и перспективы и есть, соответственно, три области притяжения А, В, С. Про- цесс (5.6) сходится к одному из корней (5.7) в зависимости от того, какой области принадлежит zq. Пусть Гд, Г#, Гс обозна- чают границы областей А, В, С. Невероятно, но факт: Гд = Гв = Гс, (!) т. е. области притяжения имеют одну и ту же границу. Дифференцируемость обычно возбуждает представ- ления о гладкости функции с различными вариантами ил- люзий. Вот несколько примеров, сдерживающих игру вооб- ражения. • Производная везде дифференцируемой функции /(ж) = х2 sin —, (5.8) равная нулю при х — 0 и f'(x) = 2х sin----cos — при х 0, х х разрывна в точке х — 0. Пример (5.8) задаёт эталон возможных неприятностей в диф- ференциальном исчислении. При выборе в качестве мишени точ- ки х = 0 ядром замысла обычно является произведение двух функций, одна из которых подходящим образом обнуляется в нуле, а другая, типа sin^, быстро колеблется, «ускоряясь» по мере приближения к х = 0. Если частоты колебаний не хватает, то вместо sin~ берется что-нибудь вроде sin(l/a?fc). Возникаю- щий ассортимент довольно широк. • Везде дифференцируемая функция f(x) = х2 sin —%
5.4. Дифференциальные уравнения 101 имеет неограниченную разрывную в нуле производную, 12 1 /'(0) = 0 и ff(x) = 2х sin —~-cos -к при х / 0. х х х • Функция /(ж) = х + ж2 sin —2 X имеет производную /'(0) = 1, но не монотонна в окрестности нуля. • Функция /(ж) = 2ж2 -I- ж2 sin -^2 ж имеет в нуле строгий минимум и равную нулю производную, но её производная в сколь угодно малой окрестности нуля прини- мает как положительные, так и отрицательные значения, сколь угодно большие по модулю. Такие примеры способствуют поддержанию бдительно- сти, демонстрируя возможные аномалии на интуитивно яс- ных путях. Кое-кто поговаривает, конечно, о чрезмерной либеральности определения производной, которое считает дифференцируемыми в нуле функции типа ж2 sin 1. Дескать, х скверная природа таких функций портит столбовую дорогу матанализа компрометирующими закоулками. Но избежать противоречий и нестыковок в любой системе принципиаль- но невозможно. Попробуйте идеально согласовать частно- сти в рамках гражданского или уголовного права. 5.4. Дифференциальные уравнения Дифф-уравнения — это, конечно, отдельная дисциплина. Красивая, ёмкая, просто так не подступишься. Но заглянуть в щелочку имеет смысл, поскольку это обширная территория, на которой эффективно работает матанализ. Не говоря о том, что на дифурах стоит вся физика.
102 Глава 5. Горизонты и перспективы Так же как 10х — 5 является уравнением с решением х = 1g 5, так и х = <£>(£) — уравнение, решением которого слу- жит неопределённый интеграл4 x(t) = I + С. Это, конечно, крайний вариант дифф-уравнения. Вообще дифференциальными уравнениями называют любые соотно- шения между производными различных порядков. Вот ещё простенький вариант дифура5 х = кх, (5-9) описывающего динамику роста численности x(t) популяции (акул, например). Скорость роста х пропорциональна числу особей рассматриваемого вида — естественное предположе- ние до некоторых пор6. Непосредственное интегрирование (5.9), правда, не про- ходит. Но тут выручает представление производной в виде отношения дифференциалов х = Тогда (5.9), записан- ное в виде — кх, преобразуется в = kdt, что уже поддаётся интегрированию: => In х — kt + С => x(f) = x(0)ekt, 4 Константу С обычно выбирают из условия ж(0) = Хо, в связи с t чем обычно сразу пишут x(t) = ж(0) + J f(s)ds. о 5 Наряду с «дифференциальными уравнениями» мы используем также их жаргонные эквиваленты. 6 В отсутствие эффектов насыщения, связанных с ограниченно- стью ресурсов, загрязнением среды и т. п.
5.4. Дифференциальные уравнения 103 где константа интегрирования С, о наличии которой надо вовремя вспоминать, выбрана из условия ес = ж(0). Довольно часто встречаются уравнения, в которых фи- гурируют производные не только первого порядка, но и вто- рого. Например, тх + (Зх + кх = 0. (5.10) Такими уравнениями описываются все основные физиче- ские законы. Например, закон Ньютона, тх = F, равносильно mv — F, (5.11) описывающий динамику координаты х(к) или скорости v(t). Разумеется, в (5.11) необходимо указать, как сила F за- висит от x(t) и/или скорости х(к) = v(t). В частности, «маятник на пру- жине» движется в соответствии с урав- нением тх + кх = 0, где к — коэффициент упругости пружины, т — масса грузика. Крутильные колебания описыва- ет такое же уравнение 1ф+ J<p = 0, I — момент инерции диска, J<p — крутя- щий момент стержня.
104 Глава 5. Горизонты и перспективы В эту же компанию попадает и колебательный контур, представля- ющий собой электрический маятник. Уравнение колебаний снова имеет тот же вид, Lq + — 0, С/ названия коэффициентов другие: q — электрический заряд, L — индуктивность, С - емкость. Место «возвращающей о силы» занимает электрическое напряжение При возникновении в ситуации тх + кх — 0 вязкого тре- ния (пропорционального скорости) возвращающая сила пре- вращается в F — —кх — /Эх, и уравнение движения перехо- дит в (5.10). Так что спрос на решение дифференциальных уравнений широк и многообразен. И речь не только о напра- шивающемся расширении списка задач механического тол- ка. Дифф-уравнениями описываются модели электродина- мики, диффузии, распространения волн и эпидемий, гидро- и аэродинамики. Конечно, возникает вопрос, откуда у дифференциальных описаний всепроникающая сила? Секрет прост. Процессы, разворачивающиеся во времени, не укладываются в голо- ве целиком — одномоментно. О движении астероидов или
5.4. Дифференциальные уравнения 105 об остывании утюга человеку, как и Создателю, легче су- дить «здесь и сейчас», в каждый данный момент, в каждой данной точке. Масса на ускорение равна силе — тут и воз- никает дифур, а уж траектория x(t) на всей оси времени — получается в результате решения. Тогда как Кеплеру было намного труднее, он судил о траекториях планет целиком, и его законы7 отдавали мистикой, ибо причины были не ясны. Пару слов, конечно, надо сказать о решении дифферен- циальных уравнений. Возьмём простой, но практически важ- ный вариант уравнения х + и2 х = 0, (5-12) описывающего колебания различных маятников. Общим решением (5.12) служит8 x(t) = Asin(cut + 5), где А — амплитуда, 5 — сдвиг по фазе, ш — круговая часто- та. Задание начальных условий ж(0), ±(0) определяет значения констант A, S. При наличии вязкого трения решение уравнения (5.10), перепишем его в виде х + 7± + ш2х = 0, (513) 7 Подогнанные под астрономические наблюдения Тихо Браге. 8 Легко проверяется дифференцированием.
106 Глава 5. Горизонты и перспективы сопряжено с некоторыми проблемами. Обойтись тригоно- метрическими функциями в случае (5.13) уже не удаётся. Трение влечёт за собой энергетические потери, и колебания должны затухать. В качестве решения напрашивается экс- понента ext. Поскольку дифференцирование ext даёт (eAt)' = Xext, подстановка ext в (5.13) приводит к (Л2 + 7А + o/2)eAt = 0. Поэтому, если А — корень уравнения А2 + 7А + cj2 = 0, (5.14) то ext удовлетворяет (5.13). Поэтому общее решение имеет вид x(t) = cieAlt + c2eX2t, где Ai, А2 — корни (5.14). Но в данном случае корни Ai, А2 заведомо не могут быть действительными9. А в случае комплексных корней Ai, А2 возникает впечатление, что на- шла коса на камень. Но тревога оказывается ложной. Бо- лее того, все разрешается наилучшим образом — эффектив- но и просто. Если eXt удовлетворяет уравнению (5.13) при Ai,2 = а ± i(3, то уравнению (5.13) удовлетворяет как дей- ствительная часть функции10 ea±i/3 _ e<*t(cos ± j sin (3t), так и мнимая. Поэтому все действительные решения урав- нения (5.13) исчерпываются семейством x(f) = eQt(ci cos (3t + C2 sin (3t). 9 Ибо при действительных Ai, A2 решение x(t) = cieXlt + С2вА2* не будет колебательным. 10 См. формулу Эйлера (5.3).
5.5. Вещественные числа Дедекинда 107 5.5. Вещественные числа Дедекинда Закрома математики делятся на две части. Одна часть — это арсенал инструментов, т. е. аппаратных штучек, исполь- зуемых «каждый день». Другая — состоит из фрагментов фундамента, т. е. из того, что требуется один раз11. Сдела- ли, скажем, теорию вещественных чисел, убедились, что там всё в порядке, — и забыли. Далее на оную теорию мож- но просто опираться. При этом образ вещественного числа может быть любым удобным и необязательно логически без- упречным. Такова была позиция: «Вещественные числа — это бесконечные десятичные дроби», (5.15) которой до сих пор придерживаются в школе12, см. Ш-АА. Беда с тезисом (5.15) заключается в том, что он не дожи- мается до логически состоятельной теории. Здесь не очень подходящее место входить в детали, но если говорить о глав- ном, то основная неприятность заключена в порочном кру- ге. Для аккуратного определения бесконечных десятичных дробей требуется понятие предела, которому требуется опо- ра на уже готовую теорию вещественных чисел. Выход из положения — теория Дедекинда — рассматривается ниже. Но при этом надо отдавать себе отчёт, что эта теория не по- может решать какие-то практические задачи. Если у Вас затруд- нения, скажем, с логарифмами, то Дедекинд не сдвинет ситуацию с мёртвой точки. Он лишь гарантирует, что вещественная пря- мая может быть определена непротиворечиво, и потому все Ваши 11 Циники считают «ни разу» — и они по-своему правы. 12 И (5.15) вполне пригодна как точка опоры. Так же, как принци- пиально неверная модель атома Резерфорда, до сих пор помогающая думать о микромире.
108 Глава 5. Горизонты и перспективы арифметические фокусы и предельные переходы на R имеют под собой законные основания. О чём он (Дедекинд^ мог бы, конечно, просто сообщить, не обременяя нас своими рассуждениями. Но нам (может быть, не всем) интересно также, как математика выпутывается из сложных положений. Не исключено, что это поможет нам когда- нибудь разрешить противоречия, в дебатах с соседями. Итак, теория Дедекинда, которая строит удобную иг- ровую площадку (вещественную прямую) для матанализа. Стартовым трамплином служат рациональные числа с опре- делёнными арифметическими операциями. Непустое множество А рациональных чисел d(A) назовём се- чением Дедекинда при выполнении двух условий: (i) В А нет наибольшего числа. (ii) Если а е А, /3 < а и /3 — рациональное число, то /3 е А. Называть сечением множество, разумеется, противоестественно. Но дело в том, что мы хотим поймать журавля в небе, имея в ру- ках синицу. Если бы речь шла о множестве А рациональных х < 3, то на роль сечения годилось бы число 3. Однако в случае «х2 < 5» указать сечением \/5 нет возможности, поскольку игра начинается в отсутствие иррациональных чисел. Поэтому в роли сечения оказыва- ется само множество А, что режет слух, но таковы стартовые условия. Подготавливая почву для сечений стать числами, надо опре- делить для них понятия больше, меньше, равенства, суммы и т. д. Это делается совсем легко, но скучно. Например, неравенству d(A) < d(B) приходится сопоставить13 строгое включение: А С В. 13 Чтобы не нарушить уже имеющиеся неравенства для рациональ- ных чисел.
5.5. Вещественные числа Дедекинда 109 Сумме d(A) + d(B) — сечение множества А + В, состоящего из рациональных чисел а + /3, где a 6 А, /3 G В. Чтобы такие определения имели смысл, надо проверить стандартные условия, которым они обязаны удовлетворять. Скажем, отношение нера- венства должно быть транзитивно: а < /3, /3 < 7 => a < у. В данном случае это обеспечивается транзитивностью строгого включения для множеств: АсВ,ВсС=>АсС. Так же лег- ко проверяются обычные свойства сложения для сечений. И так далее. Короче, все это рутинная работа, которая заканчивается определением на сечениях обычных числовых операций. После этого термин «сечение» приравнивается термину «веществен- ное число». Рациональные сечения (множество элементов х < а, где а рационально) оказываются рациональными числами. Все другие сечения называются — иррациональными. Особо выделяются понятия инфимума и супремума. Пусть множество М ограничено снизу. Определим множество Г ниж- них граней М как множество таких рациональных 7, что 7 < т для любого рационального т G М. Легко убедиться, что Г яв- ляется сечением. Число d(T) называется точной нижней гранью множества М и обозначается inf М. Если М не ограничено снизу, то по- лагают inf М — — ос. Аналогично определяется точная верхняя грань sup М. Остаётся главный вопрос «о полноте вещественной прямой». Рациональные числа не исчерпывали всех точек. Хватит ли для «сплошного заполнения» дедекиндовых сечений? Рациональным последовательностям ап теперь есть «куда сходиться». Но не по- требуется ли новое пополнение для иррациональных ап ? Не по- явятся ли «новые числа», если сечения производить уже с помо- щью вещественных множеств А, удовлетворяющих тем же усло- виям (i), (ii)? Не появятся.
110 Глава 5. Горизонты и перспективы Основная теорема Дедекинда. Любое сечение в области вещественных чисел является вещественным числом. ◄ Доказательство совсем просто. Пусть сечение определяется мно- жеством А вещественных чисел. Пусть Аг — множество всех рацио- нальных чисел из А. Вещественное число supAr определяет сечение А как множество чисел х < sup Аг. ► Теперь лемма Вейерштрасса14, п. 3.3, получает строгое обоснование. ◄ У ограниченного множества {ап} «у Дедекинда» есть супремум а = sup{an} < ос. Из монотонного возрастания ап теперь следует ап —> а. Всё. ► Далее лемма Вейерштрасса по- рождает цепную реакцию возникновения удобных инструментов в теории пределов, см. Ш-МА. 5.6. Частные производные Площадь прямоугольника S = l-h зависит и от длины, и от ширины, т. е. S — функция двух переменных или, другими словами, векторного аргумента. Бывают и более громоздкие ситуации: z = /(«) = /(Т1,...,ЖП). Дабы не рябило в глазах, ограничимся рассмотрением функ- ции двух переменных и = f(x,y). Определение. Частной производной функции и = f(x, у) по х в точке (х, у) называется предел у) f (®+ А х, у) - /(ж, у) -------- = lim дх------ю д х 14 Если последовательность ап монотонно возрастает и ограниче- на сверху, то она сходится, ап —* а < оо.
5.6. Частные производные 111 Эквивалентное обозначение и' X ди дх' Аналогично определяется и'у. Таким образом, частная производная — ото обыкновенная производная по выбранной переменной, когда другие переменные фиксированы. Само по себе частное дифференцирование ничего нового по сравне- нию с обычным дифференцированием не представляет. Но одновременное манипулирование всеми производными по- рождает новые эффекты, см. далее. Примеры 2 ди 2 ди • и = ху => — = у , -х- = 2жу; дх ду • P = R^ => Рт = ^ Pv = -R^', • х = sin(wt + у>) => x't = ш cos(ivt + <p), x’v = cos(wi + <p). Роль и специфика частных производных выявляется, ко- гда речь заходит о полном приращении функции Ьи = f(x+ Дт,у+ Ду) — f(x,y). Очевидно, _ f(x+ Ах, у+ Ду) - f(x,y+ by) f(x,y+by)-f(x,y) U — X "i Д 'Ll• Дж Д у откуда ясно, что Au = fx(x,y+ Ay) Ах + о(Ах) + fy(x,y) Ay + о(Ду) и, как следствие, (5.16) но тут во избежание конфузов имеет смысл предположить непрерыв- ность^ производных f'xy fy в окрестности (ж,?/). 1 5 Требование непрерывности частных производных, вообще говоря, не обязательно. Но, так или иначе, просто наличия производных, как в одномерном случае, уже недостаточно. bu = fx(x,y) Ах + fy(x,y) Ау + о(у/ах2+ Ау2),
112 Глава 5. Горизонты и перспективы Определение. Функция и = f(x,y), полное приращение которой представимо в виде (5.16), называется дифференцируемой в точке (х,у), а линейную часть приращения (5.16) называют полным диф- ференциалом и записывают в виде du = fx(x, y)dx + f'y(x, y)dy. (5-17) Правила частного дифференцирования обычны. Производная сум- мы равна сумме производных и т. д. Обратить внимание стоит на дифференцирование сложной функции. Здесь может возникать ситу- ация изменения размерности. Например, функция двух переменных и = f(x,y) может рассматриваться на параметрически заданной кри- вой {x(t), y(t)} как функция одной переменной t. После перехода к пределу в An f(x+ А х, у+ А у) — /(х, у+ А у) А х At Ах At + f(x,y+ by) — Ay A у At получаем u't = f'xx't+f'vy'~ Выкладка (5.18) вскрывает подноготную универсального фокуса (4.2). (5.18) 5.7. Градиент Изучение функций нескольких переменных на базе покоординатного описания — это рытье котлована зубочисткой. Внутреннюю механику пространства п измерений определяют укрупненные понятия, деталь- ное разглядывание которых не позволяет видеть панораму. С коорди- натных представлений можно начинать, но затем надо подниматься на уровень укрупненного (векторного) манипулирования. Производная функции z = вдоль направления единичного вектора s — равна z's = z'q = У + dSy) = + ^sy. (5.19)
5.7. Градиент 113 Вектор называют градиентом функции f. Для градиента использу- ют также обозначение V/ (читается «набла эф»). Из (5.19) следует, что производную по направлению з можно запи- сать как скалярное произведение z's = s- grad/. (5.20) Максимум (5.20), в силу s grad/ = cosy? • ||grad/||, до- стигается, когда ip = 0, т. е. единичный вектор s совпадает по направлению с градиентом и равен соответственно || V/||. Таким образом, градиент V/ — это вектор скорости макси- мального роста функции f. Следовательно, в каждой точке поверхности f(x,y) = const градиент V/ перпендикулярен этой поверхности (направлен по нормали). Таким образом, касательная плоскость — проходящая через точку {хо, уо} — к линиям постоянного уровня функции и = f(x,y) описы- вается уравнением (на рис. (5.21) это пунктирная прямая) df, , df, х „ ^-(т - т0) + ~д~(у - Уо) = 0. дх ду
114 Глава 5. Горизонты и перспективы (5.21) Если интерес представляет касательная плоскость к по- верхности графика функции u = f(x,y), то это сводится к предыдущему случаю рассмотрением функции v = и— —f(x, у) трех переменных. Ее градиент 1-^ ’ дх’ ЯД ду ) Поэтому касательная плоскость к поверхности и = f(x, у) в точке {«о,жо,т/о} определяется уравнением df, ч Of, и~и° = ~ + ~ у°^ Отталкиваясь от двумерного случая, легко записать ка- сательные плоскости в общем случае и = /(ж), х G Rn. При- чем по упомянутым в начале раздела причинам делать это надо в векторных обозначениях. Уравнение касательной плоскости в Rn к поверхности постоянного уровня в точке Xq: Vf(x) (я - то) = 0. Уравнение касательной плоскости в Rn+1 к поверхности графика и = /(т) в точке {«о,То}5 мо — /(то): и - и0 = V/(t) (л - Л0).
5.8. Теорема о среднем 115 Для обживания территории Rn очень полезно перепи- сать формулы предыдущего раздела в векторном виде. На- пример, формула конечного приращения в векторных обо- значениях приобретает вид Ди = V/(x)- Дж + о(|| Дт||). 5.8. Теорема о среднем Применение теоремы Лагранжа (4.7) к функции скалярно- го аргумента ^(т) = f(x + r(y-x)) даёт (Д1) - 9?(о) = <р'(е) = = ' (у ~ г где z = х + 0(у — х) при некотором 0 6 (0,1). Таким образом, f(y) - f(x) = Vf(z) (у - х).

Часть II ТЕОРИЯ ВЕРОЯТНОСТЕЙ
Учись так, будто жить тебе предстоит вечно; живи так, словно умереть тебе предстоит завтра. О. Бисмарк Некоторые учебники наводят тень на плетень, объясняя, что такое точка в геометрии и сила в физике. Там и там необхо- димо сразу сказать: геометрия не знает, что такое точка, физи- ка — что такое сила. Дескать, это первичные неопределяемые понятия, обладающие такими-то свойствами. И тогда обе дисци- плины, не сопровождаемые чувством непонимания «о чём речь», легче осваиваются. С теорией вероятностей (теорвер, ТВ) похожая история. С той разницей, что до поры до времени некому было сказать великим математикам: мол, никто не знает, что такое вероят- ность. И они (великие Паскаль, Ферма, Гюйгенс и др.) думали, что кто-то знает, и потому в средние века таких дел наворотили, что мистические круги по воде до сих пор расходятся. В 1929 году А. Н. Колмогоров всем сообщил, что «никто не знает» — в результате чего у математического сообщества упала пелена с глаз, и ТВ из полуоккультного учения очень быстро была пе- рестроена в блестящую научную дисциплину. Кто думает, что насчёт «никто не знает» мы шутим, см. далее.
Глава 6 Основные понятия Аномалия — наиболее информативная часть явления. 6.1. Что такое вероятность? Никто не знает, — утверждал Колмогоров, и это была са- мая продуктивная точка зрения со времён зарождения ТВ. Как геометрия Евклида не определяет точек и прямых, тео- рия вероятностей обходит стороной вопрос, что такое ве- роятность элементарного события. Число из [0,1]. Первич- ное понятие, априори заданное. Вероятности сложных собы- тий — другое дело. Этим, собственно, и занимается теория.
120 Глава 6. Основные понятия Игровая площадка теории вероятностей, как её определял Колмогоров, очень проста. Рассматривается конечное или бесконечное множество Q — {wi, О>2,--}, называемое пространством элементарных событий, на котором задана функция р(щ1), принимающая значе- ния из [0,1] и удовлетворяющая условию нормировки £р(^г) = 1- Значения считаются вероятностями элементарных событий а>г- Множества А С назы- вают событиями и определяют их вероятности как Р(А) = £ (6-1) В случае Р(А) = 1 событие А называется достоверным, в случае Р(А) = 0 — невозможным. Вот и весь фундамент, упрощённо говоря1. Разумеется, модель (6.1) необходимо научиться привязывать к реально- сти, к конкретным задачам. • Какова вероятность, что при бросании шестигранной кости выпадет нечётное число очков? 1 В аксиоматику Колмогорова входит кое-что ещё, о чём речь далее.
6.1. Что такое вероятность? 121 ◄ Вероятности выпадения различных граней у шестигранной ко- сти одинаковы, т. е. все р(с^) = g в силу — 1- Событие А в данном случае состоит в выпадении любого числа очков из трёх воз- можных (благоприятных) {1, 3, 5}. Поэтому лч 1 1 1 1 я + я + л — о о о о 2 P(ab) = gg. В том числе Р(35) • Кость бросается два раза. Какова вероятность, что при первом бросании выпадет три очка, а при втором — пять? ◄ Сколько есть различных пар ab, если и а, и b могут принимать независимо шесть значений {1, 2, 3, 4, 5, 6}? Очевидно, 6 х 6 = 36, и все они равновероятны, и потому вероятность любой конкретной пары _ 1 . 36* • Из колоды вытаскивается 1 карт. Какова вероятность, что среди них ровно 3 короля и 2 дамы? ◄ Подтягивание задачи к общей схеме в данном случае совсем просто. Различные способы выбора 7 карт из 36 естественно считать равновероятными элементарными событиями, т. е. p((jJ = 777-, где С36 -2 = 777---777 число сочетании* из п элементов по т элементов. kl(n — k)l Число различных выборов, удовлетворяющих условиям задачи, 636262 равно 6464628. Искомая вероятность есть 44 28. ► С36 • При размещении к шаров по 365 ячейкам вероятность того, что \ все шары попадут в разные ячейки, равна < ) 365fc \ * 2 О комбинаторных понятиях см. раздел 12.6.
122 Глава 6. Основные понятия В задачах, где элементарные события равновероятны, Р(А) всегда равно числу вариантов, составляющих А, делённому на число всех вариантов: . . _ число благоприятных вариантов . . число всех вариантов На первый взгляд, суть дела тривиальна. Однако не все так просто, как поначалу кажется. 6.2. Комбинации событий Объединение и пересечение событий. Объединением, или суммой событий., Аи В называют событие, состоящее в наступлении хотя бы одного из событий А, В, и обозначают как Ли В или А + В. Первое обозначение прямо указывает, какое множество в ш отвечает сумме событий. Пересечением.) или произведением событий, А и В назы- вают событие, состоящее в совместном наступлении А, В, и обозначают как А А В или АВ. Очевидно, Р(А + В) = Р(А) + Р(В) - Р(АВ), (6.3) поскольку при суммировании ш, по А и В элементарные со- бытия из пересечения АВ считаются два раза, поэтому один раз Р(АВ) приходится вычесть. Если события несовмести- мы, т. е. не пересекаются, то Р(А + В) = Р(А) + Р(В).
6.3. Парадокс Кардано 123 Формулы типа (6.3) становятся совершенно прозрачны при исполь- зовании рисунков объединения и пересечения множеств. Опробовать рецепт можно на проверке равенства Р(А+В+С) = Р(А)+Р(В)+Р(С)-Р(АВ)-Р(АС)-Р(ВС)+Р(АВС). Параллели логических высказываний с операциями над множе- ствами используются достаточно широко. Событию «не Л» отвечает дополнение А множества А в од а разность А \ В, или А — В, интер- претируется как наступление А, но не В. Наконец, симметрическая разность А А В = (A U В) \ (А П В) обозначает событие, состоящее в наступлении одного из А, В, но не двух вместе. Пустое множество 0, считается, принадлежит и и сим- волизирует невозможное событие. При этом Р(0) = 0. С учётом нор- мировки Р(о>) — 1, очевидно, Р(А) + Р(А) = 1. Перечисленные действия над событиями в совокупности с формулами вычисления вероятностей позволяют решать многие задачи, не спускаясь на уровень рассмотрения про- странства элементарных событий. Это экономит усилия, но иногда затрудняет ориентацию. Полной группой событий называется совокупность со- бытий, таких что в результате испытания происходит хотя бы одно из них. 6.3. Парадокс Кардано При бросании двух игральных костей сумма выпавших чисел получа- ется равной — как для 9, так и для 10 — в двух вариантах: сумма 9 о (3,6) (4,5), " сумма 10 о (4,6) (5,5).
124 Глава 6. Основные понятия Но вывод о равенстве вероятностей этих событий — ошибочен. Число способов получения сумм 9 и 10 на самом деле разное: сумма 9 о (3,6) (6,3) (4,5) (5,4), сумма 10 о (4,6) (6,4) (5,5). Таким образом, из 36 возможных пар чисел 4 пары дают в сумме 9, и только 3 — 10. Вероятности соответственно равны 4/36 и 3/36, что подтверждает эксперимент0. На данном примере становится понятно, что в подборе пространства ш элементарных событий имеется определённый произвол. Первый вариант — это 36 равновероятных упо- рядоченных пар (г, у). Второй вариант ш — это неупорядо- ченные пары (21 пара), но тогда они не равновероятны, — и в этом аккуратно надо разобраться. Задача выглядит то простой, то сложной. Начинаешь присматриваться, и ум за- ходит за разум. Недаром в такого рода задачах ошибались в том числе великие Лейбниц и Даламбер. Путаницу в задаче создаёт независимость суммы от пе- рестановки слагаемых. При последовательном выбрасыва- нии костей — сначала первая, потом вторая — проблемы не возникает. Но кости можно выбрасывать одновременно, они падают вместе, и первая от второй не отличается. Но то- гда различных вариантов имеется только 21 — 6 вариантов (г, г), каждый выпадает с вероятностью и 15 вариантов OU п (г / у) — у каждого вероятность ОО 3 При достаточно большом количестве бросаний двух костей ча- стоты, с которыми в сумме выпадают 9 и 10, стремятся к указанным вероятностям.
125 6.4. Таблетка от заблуждений 6.4. Таблетка от заблуждений Парадоксы в теории вероятностей и вообще задачи, в ко- торых ошибки напрашиваются, ценнее задач, где ошибить- ся трудно. «Ценнее» — потому что они дают представление о берегах, в которых зажато русло ТВ. А решая задачи, оставаться в фарватере не всегда удаётся. Шаг влево, шаг вправо — и Вы уже на берегу, в джунглях, где стандартные правила плохо работают и надо соображать самостоятельно. При этом важно не уклоняться от неудобных вопросов. Вернёмся к задаче о размещении к шаров по 365 ячей- кам, которая в разделе 6.1 сопровождалась вопросом, но от- вет «вероятность того, что все шары попадут в разные Ак ячейки, равна » — был, вообще говоря, очевиден. 365* ◄ Выбрать первую ячейку есть 365 способов. Выбирая вторую ячейку (для второго шара), имеем 364 возможности. Поэтому две раз- ных ячейки можно выбрать 365 х 364 способами. На каждый такой способ есть 363 способа выбрать третью ячейку и т. д. Повторяя рас- суждение fc-раз, получаем число благоприятных способов: Д*65 = 365(365 - 1) • • • (365 - k + 1). Делим на число всех способов 365fe, см. (6.2), — и дело, как говорится, в шляпе. При этом мы занимались фактически не вероятностями, а вспоминали комбинаторику. ► Таким образом, задача не стоит выеденного яйца. Но тут приходит дядя Вася и задаёт убийственный вопрос. А почему число благоприятных способов Ад65, а не Почему, подсчитывая число вариантов размещения шаров
126 Глава 6. Основные понятия по ячейкам4, мы ячейки выбираем последовательно? Тогда, конечно, Аз65. Но давайте просто выберем к разных ячеек. Сколько благоприятных вариантов имеется? С^65! Причём правильным выглядит именно По- тому что «история последовательного выбора» не играет роли. Разные варианты выбора харак- теризуются тем, какие именно к ячеек оказа- лись выбранными, неважно, в каком порядке. От таких вопросов нередко зажмуриваются. Уворачива- ются всеми правдами и неправдами. Поскольку выходит, что движемся мы не по той магистрали. Или ответ 365 неправильный? Да нет, правильный. И в этом надо хорошо разобраться, чтобы изжить почву для заблуждений. Причиной сомнений выше послужило непонимание того факта, что для решения любой вероятностной задачи на- до сначала выбрать вероятностную модель. Первоначаль- но таковой было: последовательно, берём шар и равнове- роятно помещаем его в свободную ячейку. Тогда действи- тельно: число благоприятных способов Дзб5, всех — 365\ Можно взять другую модель. Выбираем равновероятно к разных ячеек из 365, число благоприятных способов Сзб5. А всех? Теперь-то все способы надо считать по другому. Да ещё выбор необходимо организовать так, чтобы все вариан- ты были равновероятны. Не очень удобная задача —- ни дна ему ни покрышки этому «дяде Васе». Получйться-то теперь 365^ всех вариантов должно , чтобы итоговый результат не изменился. Так что число благоприятных способов нельзя определять в отрыве от модели. 4 При котором все шары попадают в разные ячейки.
6.5. Частотная идеология 127 А какова вероятность того, что при случайном размещении к шаров по 365 ячейкам хотя бы два шара попадут в одну ячейку? Очевидно, Ак ^365 365fc (6-4) Популярная трактовка (6.4): вероятность того, что в группе из к человек найдут- ся хотя бы двое, родившихся в один день года. При к — 40 эта вероятность равна приблизительно 0, 98. (’ 6.5. Частотная идеология О вероятностях изначально говорили в связи с проведением случайных опытов (экспериментов), типа бросания монеты. Вероятность Р(А) события А определялась как предел ^Р^Р(А) при Л^-^оо, (6.5) где N общее число опытов, a N(A) число опытов, в которых наступило событие А. Долгое время устойчивость частот в смысле (6.5) бы- ла первична по отношению к понятию вероятности, и это в какой-то мере удовлетворяло спрос на понимание причин. Случившаяся затем метаморфоза изменила точку зрения £ на противоположную , но не ликвидировала выгод прежне- го взгляда — ибо сходимость (6.5) превратилась в теорему (см. закон больших чисел, п. 8.2) и осталась в арсенале. * 5 Танцевать стали от вероятностей элементарных событий, кото- рые брались «с потолка».
128 Глава 6. Основные понятия 6.6. Где истоки случайности? Вместе с тем с самого начала необходимо сказать о наличии логических трудностей — не в ТВ, но в непосредственной близости. Пусть речь идет о бросании монеты. Равенство вероятностей выпадения герба и решётки «вытекает», с од- ной стороны, из отсутствия оснований отдать предпочте- ние какой-либо альтернативе, с другой — из наблюдения за длинными сериями бросаний. Казалось бы, аргументов хватает. Тем не менее бросание монеты — хотя и сложная, но поддающаяся расчёту меха- ническая задача. По крайней мере, можно сконструировать высокоточный автомат, который почти всегда будет бросать монету гербом вверх. Почему же человек, действуя спон- танно, бросает «как надо»? Становится ясно, что источник случайности находится не в монете, а в человеке. Следую- щий вопрос ведет дальше, и причинно следственная цепоч- ка петляет по таким закоулкам Вселенной, что проблема по большому счёту остается нерешённой. 6.7. Условная вероятность Задача. В коробке ш лежат 400 шаров: 100 чёрных, 300 белых. Из них 20 чёрных и 40 белых — свинцовые, остальные — деревянные, рис. (6.6). Случайно вытаски- ваем шар6, он оказывается свинцовым (тяжёлый), какова тогда вероятность, что он чёрный? 6 Шары выбираются равновероятно, все p(wt) = ттгл-
6.7. Условная вероятность 129 ◄ Выбор свинцового шара назовём событием Л, выбор чёрного — событием В. Наша задача — определение так называемой условной ве- роятности P(JB|A) наступления события В при условии наступления А. Если А произошло, то ситуация в объемлющем ящике нас уже не 90 1 касается. В А всего 60 шаров, из них 20 чёрных — Р(В|А) = ~ = g. При этом можно заметить, и в этом полезно убедиться, что р(лв) _ 20/400 - 1 » k 1 ' Р(А) 60/400 3’ • Если вытаскивается чёрный шар, то вероятность, что он свинцо- вый, равна Р(А|В) = (6-6) Итак, безотносительно к рассмотренной задаче, вероят- ность Р(В|А) наступления В при условии наступления со- бытия А — называют условной. Из всех шг G А входят в В лишь i<jj, принадлежащие пе- ресечению АВ. Они-то и определяют Р(В|4). И если бы А было нормировано7, то Р(В|А) равнялось бы Р(АВ). Нор- мировка8 А корректирует результат очевидным образом: Р(В|А) = Р(АВ) W’ (6-7) что служит определением условной вероятности Р(В|А) наступления В при условии наступления А, разумеется, в предположении9 Р(Л) 0. 7 Т. е. 52 = 1 8 Поскольку Р(^г) — ^(А),то Для нормировки А надо все p(aji), WjEA G А разделить на Р(А). 9 В случае Р(А) = 0 событие А «никогда» не наступает. Наступает с вероятностью нуль.
130 Глава 6. Основные понятия Перезапись (6.7) в форме Р(4В) = Р(Л)Р(В|Л) (6.8) называют формулой умножения вероятностей. Формулы типа (6.7), (6.8) позволяют часто не опускаться на уро- вень пространства элементарных событий, а жонглировать вероят- ностями на более высоких этажах абстракции. Простой пример. Допустим, по статистике джентльмен не женится до 22 лет с вероятностью Р(А) = 0,9, а до 30 — с веро- ятностью Р(В) = 0,2. Какова вероятность, что добрый молодец, не женившийся до 22-х, останется холостяком до 30-ти? ◄ В одно касание: р(м = = 2^ = ? Р(й|'4' Р(Л) 0.9 9’ поскольку в данной ситуации, очевидно, Р(В) = Р(АВ) = 0,2. ► Вот другая задача, где Вам предлагается осознать, что речь идёт об условной вероятности, хотя решение обходится без употребления самого термина. Задача. Имеется три картонки. На одной с обеих сторон нари- сована буква X, на другой — У. На третьей картонке с одной сторо- ны X, с другой — У. Одна из картонок выбирается наугад и кладется на стол. На видимой стороне картонки — буква X. Какова вероят- ность, что на другой стороне тоже X ? ◄ «Одна вторая» — ошибочно отвечает интуиция, и причина за- блуждения далеко не очевидна. Дело в том, что картонка не только случайно выбирается, но и случайно укладывается на одну из сторон. Поэтому логика здесь такая. Всего имеется шесть нарисованных букв, из них три буквы X — две на картонке XX и одна на ХУ. Букву X из XX вытащить в два раза более вероятно, чем из XY. Получается, о вероятность того, что на столе лежит картонка XX, равна ► О
6.8. Формула Байеса 131 Другое дело, если бы тому, кто вытаскивает картонку из мешка, вменялось в обязанность рассмотреть оную с двух сторон и положить иксом вверх. При наличии такой возможности ответ был бы i. Но это другая задача10. 6.8. Формула Байеса Разбиение Q на полную группу несовместимых, т. е. попар- но непересекающихся, событий Ai,... ,Ап позволяет любое событие В записать в виде В = В Ai + • • • + ВАп, откуда Р(В) = P(BAi) + • • • + Р(ВАП), и в силу (6.8) — получается формула полной вероятности: (6.9) Пусть Р(А), Р(-В) > 0. Из Р(АВ) = Р(А|В)Р(В) = Р(В|А)Р(А) вытекает >> «» - р®г’ «- что после учёта (6.9) приводит к формуле Байеса11 Р(В|Л)Р(Л) £Р(В|Л)Р(Л)’ к которая позволяет легко решать задачи следующего типа. 10 Человек нередко, читая книгу, видит фигу. Важное умение — понимать, о чём речь, вопрос, задача. 11 Если в сценарии участвует только два события, то и (6.10) назы- вают формулой Байеса. Р(В) = P^IAJP^) + • • • + P(B|An)P(An).
132 Глава 6. Основные понятия Задача. В красном мешке — 3 белых шара, 2 чёрных; в синем — 1 белых шаров, 9 чёрных. Вовочку попросили сходить в сарай и при- нести один шар из одного из мешков. Он принёс белый. Какова веро- ятность, что это шар из синего мешка? ◄ Задача, между прочим, плохо поставлена, но об этом чуть позже. Производя расчёт по формуле (6.10), т. е. где С — синий, Б — белый, имеем 7 10 Р(Б|С) = -, Р(Б)_-. Но чему равна вероятность Р(С)? Это и есть пробел в условии задачи. Если мешок выбирался наугад (равновероятно), то Р(С) = i. Если же пропорционально количеству шаров в мешке, тогда Р(С) = что было бы логично при видоизменении условия. Например, так. Шары в красном мешке помечаются буквой К, в синем — буквой С, после чего ссыпаются в одну ёмкость, из которой потом достаются равновероятно. Вопрос приобретает форму: какова вероятность, что шар помечен буквой С? ► Несмотря на простоту и эффективность в сфере своей ком- петенции, формула Байеса имеет подмоченную репутацию из-за некорректного употребления. Дело в том, что (6.11) часто сопровождается следующей интерпретацией. Если Aj это гипотезы с априорными вероятностями Р(Л7), то при наступлении события В в результате эксперимента — фор- мула определяет апостериорные вероятности P(Aj|B). Зву- чит красиво, но что такое «априорные вероятности» как не степень уверенности, не имеющая к теории вероятностей никакого отношения.
6.9. Независимость 133 6.9. Независимость О независимости событий в Поднебесной речь заходит обыч- но, когда нет взаимного влияния. В теории вероятностей та- кого сорта явления тоже встречаются, см. следующий раз- дел, но главный феномен независимости в ТВ имеет совершенно другую природу. События А и В называют независимыми, если Р(В|Л) = Р(В), (6-12) и формула умножения вероятностей (6.8) переходит в Р(АВ) = Р(А)Р(В), (6.13) т. е. вероятность произведения равна произведению вероятностей. Это обычно принимают за определение независимости, но условие (6.12), эквивалентное12 (6.13), луч- ше отвечает содержательному восприятию феномена. В силу (6.12) данные о наступлении А не влияют на веро- ятность В, т. е. доля пересечения АВ в множестве А равна доле В в Q. Иными словами, всё дело в пропорциях. Здесь полезно вернуться к примеру (6.6), где никакой независимости между Ли В не было. Но стоит немного из- менить соотношения, рис. (6.14), (6-14) 12 Из (6.13) следует как (6.13), так и Р(А|В) = Р(А).
134 Глава 6. Основные понятия т. е. свинцовых белых шаров в А не 40, а 60, как события А и В становятся независимыми: 20 _ 100 80 400 “ 400'400’ т. е. Р(АВ) = Р(А)Р(В). 6.10. Независимые испытания Если событие А состоялось, это означает реализацию какого- то элементарного события u>i G А. То есть Шг, образу- ющие Q, — это всегда возможные исходы испытания (опы- та, эксперимента). Таким образом, если вероятностная мо- дель (случайный механизм) описана и готова к запуску, то пространство элементарных событий автоматически опре- делено. Может показаться, что мы ломимся в открытую дверь, но тут к исходным понятиям имеет смысл время от времени возвращаться, пока всё не утрясётся. Итак, если случайное испытание произошло, по воле Рока или по нашему щелчку, «выстрел» прозвучал — исто- рия закончилась. В следующий раз эксперимент будет по- вторяться с чистого листа, независимо от предыстории. Размышлять об этом принято на простой модели бро- сания монеты, порождающей цепочки «герб — решетка»: ГРГГР... Если при выпадении герба писать единицу, ре- шётки — нуль, модель будет генерировать случайные « 01» -последовательности13: 10 110... (6.15) 13 При этом можно говорить о генерации двоичных чисел 0,10110....
6.10. Независимые испытания 135 И что бы ни выпало на предыдущем шаге, это не вли- яет на то, герб или решётка выпадет на этот раз. Поэтому если в модели однократного бросания симметричной моне- ты обе стороны выпадают равновероятно (с вероятностями 1/2), то герб выпадет с вероятностью 50 процентов14 даже в том случае, когда до этого он выпадал сто раз подряд. О такой независимости в ТВ часто говорят, пускаясь в переливание из пустого в порожнее. Дело в том, что с независимостью падения монеты от предыдущего бросания человек обычно соглашается, но последовательности (6.15) длины, скажем, 10, состоящие из одних единиц, ему кажутся намного менее вероятными, чем те, у которых число единиц и нулей примерно одинаково. Но это уже нелогично. Если монета каждый раз падает на одну из сторон с вероятностью 1/2, то любая последова- / \ п тельность (6.15) длины п имеет вероятность pn = ( 1 ) • И когда человек вспоминает, что «бомба в ту же воронку второй раз не падает», с тем же успехом можно сказать, что бомба не падает в ту яму, которую вы заранее выбираете. Как ни странно, в этих трёх соснах блуждают иногда и грамотные люди. Вот показательный пример из Википедии15. «Парадокс закономерности — наблюдение, заключающееся в том, что большинство людей, увидев явную закономерность в результа- тах серии испытаний (например, выпадение 10 раз подряд одного и того же исхода из двух равновероятных), будут склонны считать, что испытания не являются случайными, потому что появление этой последовательности в случайных испытаниях является мало- вероятным событием. Однако появление любой другой последователь- 14 В монографической литературе, застёгнутой на все пуговицы, о вероятностях в процентах не принято говорить, но в принципе это вполне допустимо. Процент — это одна сотая доля чего-то, например, единицы. И тогда р = 50% эквивалентно р = 1. 15 На момент написания данного текста, 29.09.2016.
136 Глава 6. Основные понятия ности из 10 значений в независимых случайных испытаниях с равно- вероятными исходами является настолько же маловероятным ». И далее (в сокращённом пересказе): Парадокс иллюстрирует иг- ра с двумя участниками. Первый подбрасывает монету 50 раз и за- писывает результаты бросаний в виде «01»-последовательности А. Другую «01»-последовательность В такой же длины берёт от фо- наря. Оказалось, в А нули с единицами более-менее перемешаны, а в В выписаны одни единицы. Второй участник должен угадать после предъявления, какая последовательность отражает результат бро- сания монеты. Парадокс, дескать, заключается в том, что многие люди уверены, что, выбрав лист с последовательностью А, второй участник может значительно увеличить свои шансы на успех, в то время как на самом деле для идеальной монеты вероятность пра- вильного ответа в любом случае составит 1/2. Фантастика! В огороде бузина, в Киеве — дядька. Разумеется, все «01»-последовательности длины 50 возможны и все имеют одну и ту же вероятность (1/2)50. Поэтому, конечно, последовательность В не менее вероятна, чем любая конкретная А. И тут возникает впечатление в пользу парадокса.
Глава 7 Случайные величины Прежде я говорил вам всё, а теперь ничего от вас не скрываю. Бомарше Простота базовой модели теории вероятностей (пространство элементарных событий ш с заданны- ми на нём вероятностями) нелегко далась истори- чески, и она нелегко достигается по сей день, ибо многие задачи к каноническому виду сводятся с боль- шим трудом. Это, конечно, не удивительно. Очень простая схема, но в неё укладывается всё разнооб- разие вероятностных задач. Поэтому для освоения ТВ необходимо развитие навыков решения задач. 7.1. Случайные величины и матожидание Элементарным событием ojj в вероятностной модели содер- жательно может быть что угодно. Попадание снаряда в ми- шень; выбор жены, страны. Но чаще всего, и удобнее, го-
138 Глава 7. Случайные величины ворить об исходе случайного эксперимента как о появлении того или иного числа. Иногда оно само так получается, а иногда удобства можно обеспечить, сопоставив числа собы- тиям Примером может служить функция, принимающая значения 1 или 0 при выпадении герба или решётки. В подобных ситуациях числовую функцию Х(ш), задан- ную на Q, называют случайной величиной (с.в.). А если осо- бо не умничать, то сами элементарные события ау, можно считать числами. Либо наоборот, числа X — элементарны- ми событиями1. Среднее значение тх = Е (X), Е(Х)= £х(о,)Р(о>) (7-1) называют матожиданием2 с.в. X(cj), а Е — оператором математи- ческого ожидания3. Математическое ожидание функции-индикатора ХА (tu) множества А, ( 1, если ш Е А; ( 0, если ы А, равно, очевидно, вероятности Р(А). Вариант «не особо умничая» воспринимается проще, и на него лучше всего ориентироваться. Пусть случайная ве- личина X принимает случайные значения Xi с вероятностя- ми pi. Тогда матожидание тх = Е (X) равно тх = Е (X) = XiPi. (7-2) Праздничный вариант (7.1) забываем «как страшный сон». Шутка, конечно. Но в (7.1) действительно многовато дей- ствующих лиц. 1 Конечно, у тех, кто умничает, есть свои резоны. Но у нас свои. 2 Математическим ожиданием. 3 Ничего хитрого тут нет. Чистая условность, Е — эдакая функция, которая, действуя на с.в. Х(о>), даёт среднее значение X.
7.1. Случайные величины и матожидание 139 Случайная величина X, принимающая значение = 3 с вероят- ностью | и х2 = 2 с вероятностью в соответствии с (7.2) имеет матожидание 16 15 тх — 3-^+2- — — —. При бесконечном Q число слагаемых в (7.2) бесконечно. Скажем, X принимает значения 1, i 1 А,... с вероятностями 1 1 А,... В 2 4 о 2 4 о этом случае тх даёт суммирование бесконечной прогрессии 111 3 Шх~ 2 + ? + ? + ‘”“4- Обратим внимание, что заглавные буквы X, Y — мы используем для обозначения случайных величин, а соответ- ствующие прописные х, у — для обозначения принимаемых численных значений в результате испытаний. Напомним также, что жирный шрифт в формулах ничего не означает и используется лишь для привлечения внимания. Матожидание представляет собой весьма важную ха- рактеристику случайной величины. Очевидно, Е (аХ + /?У) = аЕ (X) + /ЗЕ (У), что называют линейностью оператора Е. Матожидание — эффективный инструмент, но им надо знать, где пользоваться. Общепринято думать, например, что в лотерею играть неразумно, поскольку матожидание выигрыша меньше стоимости билета. В результате покупать лотерейные билеты приходится, оглядываясь по сторонам. При этом подсознательно все понимают, что конечный денежный выигрыш может иметь бесконечную ценность. Покупка дома, переезд, лечение, образование. Да мало ли что ещё меняет судьбу и потому в деньгах не измеряется, хотя нуждается в той или иной стартовой сумме. Почему же за «три копейки» не купить шанс? Взвешивание здесь только вредит. Но авторитет иероглифов формул и таин- ственной терминологии создаёт гипнотизирующий мираж.
140 Глава 7. Случайные величины 7.2. Страхование Матожидание освещает многие магистральные пути, но ме- стами путает карты — в частности, в задачах страхования. Допустим, клиент страхует собственность на сумму X. Стра- ховой взнос равен уХ, вероятность потери собственности р. Матожидание суммы потерь равно рХ, поэтому страхо- вая компания будет «в плюсе» лишь при условии уХ > рХ, т. е. 7 > р . При этом использование среднего компанией логично, поскольку она имеет дело с массой кли- ентов — и картина в целом определяется действием закона больших чисел, п. 8.1. Но клиент-то в среднем проигрывает, рХ < уХ\ Поэтому, мол, «клиента дурят». Однако для индивидуального клиента картина совершен- но иная. Массовость ситуации его не касается. Небеса под- брасывают «его монету» один раз — и усреднять нечего. При этом ситуации возможны разные и могут определяться факторами, лежащими за пределами исходного описания. Возможная целесообразность страхования для клиента, как правило, опирается на очень простое соображение: субъек- тивная ценность страхуемой собственности может быть гораздо выше её рыночной стоимости X. Возьмите крайний случай. Пусть речь идет о страхо- вании автомобиля, субъективная ценность которого может быть бесконечной в следующем смысле. Потеря автомаши- ны (из-за отсутствия денег на покупку новой) может быть связана с потерей работы, здоровья, любимой девушки.
7.3. Петербургский парадокс 141 Таким образом «в случае чего» клиент теряет жизненно важные точки опоры. Поэтому для него целесообразна лю- бая посильная плата уХ за страховку. В этом, собственно, и заключена суть — в расхождении стоимости и рыночной цены. Бывает, например, недвижи- мость ничего не даёт кроме головной боли. Продать жалко, а толку — чуть. Страховка неразумна. 7.3. Петербургский парадокс Вот ещё одно недоразумение, в рамках которого было сло- мано немало копий при участии великих математиков. Яб- локом раздора стала простая на вид игра. Если герб при бросании монеты выпадает в первый раз в n-й попытке — участнику игры выплачивается 2П рублей. Всё. Матожидание выигрыша, 2-| + 4-| + ... + 2П~ + ... = 1 + 1 + ... т: бесконечно. Поэтому с точки зрения ТВ (будто бы) за уча- стие в игре денег можно заплатить сколько угодно — казино в любом случае проиграет. Хороший пример на тему того, как респектабельная тео- рия направляет ход мыслей не в то русло, тогда как реаль- ная задача не стоит выеденного яйца. Казино проигрывает в среднем, но игра-то одноразовая! Средние значения про- дуктивно работают в других ситуациях, но не здесь. Рассмотрим упрощённый аналог. Монета бросается один раз и падает плашмя с вероятностью 1 — 2-100. Выигрыш при этом — нулевой. На ребро монета становится с веро- ятностью 2-100, и тогда выигрыш равен 2300 рублей. Мато- жидание выигрыша равно 2200. Но, очевидно, даже рубль
142 Глава 7. Случайные величины за участие в игре платить глупо. Потому что событие, име- ющее вероятность 2-100, «никогда» не случается, и какая разница, сколько за него обещано. Использование матожи- дания оказывается просто не к месту. 7.4. Континуальные пространства Пространство элементарных событий Q часто имеет конти- нуальную природу. Это может быть вещественная прямая или отрезок. За кадром здесь находятся вполне естествен- ные задачи. Вот два рядовых примера. • Стержень АВ длины I А <2 в ломается в точках Р и Q на три куска. Какова вероятность того, что из них можно сложить треугольник? ◄ В случае х — АР, у = PQ возможность сложить треугольник описывается неравенствами которым на рисунке удовлетворяют внутренние точки треугольника EFG. Если все точки {х, у} равновероятны, то искомая вероятность р _ SbEFG _ 1 Sujcd 4 • Во время боя в течение часа в корабль попадает два снаряда. Для заделки одной пробоины требуется 15 минут. Если пробоина ещё не заделана, а в корабль попадает вто- рой снаряд, то корабль тонет. Какова вероятность пото- пить корабль?
7.5. Плотности распределения 143 ◄ Если времена попадания снарядов t\ и ^2 равномерно распределены по квадра- ту S размера 60 мин х 60 мин, то иско- мую вероятность даёт отношение площади тёмного многоугольника {1*1 - м < 15}рр к площади светлого квадрата S. ► 7.5. Плотности распределения Итак, когда каждому элементарному событию a>i сопутству- ет появление числа Xi, мы, «не особо умничая», элементар- ными событиями называем сами числа Xi, возникающие с вероятностями р^, удовлетворяющими условию нормировки Е =1 (7-3) по всем i Проблема заключается в том, как быть, когда случай- ная величина принимает любые вещественные значения, а не дискретные Х{? С пространством элементарных собы- тий — особых проблем нет. Это может быть вся веществен- ная прямая R или какое-то её подмножество. Но как при- писать вероятности элементам х G R? Напрашивается ис- пользование понятия плотности, как при определении мас- сы стержня (2.6). С той лишь разницей, что в отличие от вычисления массы а_________Ь х Р(х) а плотность вероятности р(х) обязана при интегрировании по всем возможным событиям давать единицу, У p(x)dx = 1, (7.4) что является непрерывным аналогом условия (7.3).
144 Глава 7. Случайные величины Вероятность попадания случайной величины в диапазон [а, 6] при этом равна ь Р([а,Ь]) = У p(x)dx, a а вероятность события {X < ж}, соответственно, х Ф(ж) = Р(Х < х) = У p(u)du. (7.5) —ОО При этом Ф(ж) называют функцией распределения с.в. X. Очевидно, функция Ф(ж) монотонно возрастает (не убывает) и lim Ф(ж) = 1, lim Ф(ж) = 0. Х—+ОО х—> — оо Из (7.5) следует х+Ьх Ф(ж+ Дж) — Ф(ж) — у* p(u)du = р(х) Дж + о(Дж), х откуда4 * * р(«) = Ф7(х). (7.6) Аналогом равновероятных элементарных событий служит ситуа- ция равномерной плотности: 1 b — а’ 0, ж G [а,5], ж [а, 5], 4 При описании плотностей можно использовать также 6-функции, что позволяет единообразно охватить дискретно и непрерывно распре- делённые случайные величины.
7.6. Парадокс транзитивности 145 которой соответствует функция распределения Ф(х) = / p(u)du = ------ I du = при х € [а, Ь]. Разумеется, Ф(ж) = 0 при х а и Ф(ж) = 1 при х Ь. При этом говорят о равномерном распределении X на [а, Ь]. Что касается математического ожидания, то mx = Е (X) = j xp(x)dx. R (7-7) То же самое, в силу (7.6), можно писать в виде тх = Е (X) = j xd&(x). R 7.6. Парадокс транзитивности Сравнивая случайные величины X и У, будем говорить «X больше Y по вероятности», если Р{Х > У} > Р{Х У}, т. е. вероятность неравенства X > У больше 1/2. Не так удивительно, но заслуживает упоминания, что из «U > V по вероятности», вообще говоря, не следует Е{Г} > E{V}.
146 Глава 7. Случайные величины Неравенства «по вероятности» обладают обманчивой видимостью. Вот довольно неожиданный пример. Пусть про- странство элементарных событий состоит из 6 точек, в кото- рых с,в. X, Y, Z, W с равной вероятностью 1/6 принимают значения согласно таблице5: х 6 6 2 2 2 2 Y 5 5 5 1 1 1 Z 4 4 4 4 0 0 W 3 3 3 3 3 3 1 2 Очевидно, X = 6 с вероятностью 3 = g- В этом случае 2 4 X > Y независимо от значения Y. С вероятностью | величина X равна 2. Тогда X > Y, если У = 1, что имеет вероятность Поэтому с учетом формул умножения 2^ V вероятностей и суммы непересекающихся событий итоговая вероятность неравенства X > Y равна 1 2 1 _ 2 3 + 3 ' 2 ~ 3‘ Аналогично подсчитывается, что У > Z, Z > W — с той о же вероятностью Получается цепочка неравенств О X > У > Z > W. Возможность W > X представляется в некотором роде ди- 9 кой. Тем не менее W > X с вероятностью # (!). О 5 Функция X, например, может быть реализована бросанием ше- стигранной кости, грани которой помечены цифрами {662222}.
7.7. Нормальный закон распределения 147 7.7. Нормальный закон распределения Случайные величины, с которыми приходится иметь дело на практике, чаще всего подчинены нормальному закону распределения, имеющему плотности вида Различия определяются двумя параметрами, матожида- нием тх и среднеквадратическим уклонением6 сгх с.в. от тх. Примеры графиков (7.8) изображены на рис. (7.9). (7.9) тх Таким образом, (7.8) — колоколообразная функция. Шири- на колокола регулируется параметром ах, ну а высота (мак- симум) меняется в связи с обязательностью условия норми- ровки (7.4). Для краткости речи иногда используют обозна- чение Х(тж,ст2). Например, Х(0,1) обозначает нормальное 6 Квадрат <7% называют дисперсией, см. далее.
148 Глава 7. Случайные величины распределение с нулевым матожиданием и единичной дис- персией. Функция распределения N(0,1) имеет вид Ф(ж) = е s2/2ds. (7.10) Нормальный закон проявляется в самых разных ситуа- циях. Скажем, при стрельбе из пушки по мишени, снаряды идут то влево, то вправо. Распределение, казалось бы, за- висит от многих факторов: ветер, звёзды, руки дрожат у артиллериста и т. и. Как ни удивительно, распределение ре- зультатов стрельбы у разных пушек, стрелков, в Васюках и на Аляске, — везде одинаковое, нормальное, отличать- ся могут только дисперсии. Загадка. Мистика. А если сю- да прибавить статистические данные по медицине, урожай- ности пшеницы, успеваемости, плодовитости мушек дрозо- фил. . .И везде плотность (7.8). Фантасмагория! Разумеется, тому должно быть объяснение. И оно есть, см. п. 11.4. 7.8. Векторные случайные величины Вернёмся пока к случайным величинам, принимающим дискрет- ные значения. Пусть имеется случайный вектор Z= {X,Y}, координаты которого {X, К} являются случайными величина- ми, принимающими значения {xi,yj} с вероятностями pij. При желании опереться на пример можно иметь в виду бросание двух игральных костей. На красной грани выпадает Xi очков, на синей — Уг. Дискретных позиций в других моделях мо- жет быть бесконечно много.
7.8. Векторные случайные величины 149 Короче, всё находится в рамках стандартной модели, и. 6.1, пространство элементарных событий образуют па- ры реализуемые с заданными вероятностями. Но специфика модели порождает дополнительные ракурсы. Двухиндексная нумерация, например, позволяет корот- ко описывать некоторые типы событий. Но главное — это удобный, хотя и частный вид независимости, каковая весь- ма широко распространена в ТВ. Очевидно, если {X, V} принимают значения {ж», yj} независимо друг от друга, то X = Xi осуществляется с какой-то своей вероятностью Pi, а У = yj — с вероятностью qj. Причём Pij — PiQjl (7.11) и представление (7.11) эквивалентно как раз независи- мости переменных. В соответствии с (6.7) имеем Р(Х = Xi\Y = Vj) = Р(Х = ж4,У = у,) Р(^ = Vj) PiQj Чз — Pi — Р(Х — Xi)i т. е. условная вероятность Р(Х = a?j|y = yj) равна без- условной Р(Х = Хг). А матожидание, скажем, произведения Е (ХУ) равно произведению матожиданий, Е(ХУ)=£ •^iVjPiQj — I iCiPi I * I УjQj I — * TTty (7.12) i,j \ г / \ j )
150 Глава 7. Случайные величины Если случайные величины {X, Y] принимают веществен- ные значения {ж, у}, то вместо Pij будем иметь плотность р(х,у), и в случае независимости X и Y Р(х,ц) = рх(х)рг(у), (7.13) как аналог (7.11), где рх(х) и pY(y) — плотности распре- деления с.в. X и Y. Аналогом (7.12) служит то же самое результирующее соотношение7 Е (ХУ) — тх • Шу, (7-14) т. е. на независимые величины оператор матожидания дей- ствует по отдельности. 7.9. Дисперсия и корреляция Величина D (X) = Е (X - тпх)2 называется дисперсией случайной величины X, где ах = у/ЩХ) — среднеквадратическое уклонение X от среднего значения. 7 С той лишь разницей, что в обосновании суммирование заменя- ется интегрированием.
7.9. Дисперсия и корреляция 151 • В силу линейности оператора усреднения Е: Е (X - тх)2 = Е (X2) - 2Е (Х)тх + m2 = Е (X2) - т2. (7.15) Поэтому дисперсия D (X) равна разности Е (X2) — т2, где Е (X2) так называемый второй момент8. • Если с.в. принимает лишь два значения, Xi = 1 с вероятностью р и Xi = 0 с вероятностью 1 — р, то в соответствии с (7.2), тх = 1 -р + 0- (1 -р) =р. а в соответствии с (7.15) Е(X2) = 1- р + 0-(1— р)=р => => D(X)=E(X2)-m2=p-p2=p(l-p).^ Для двух случайных величин X, Y рассматривают сме- шанные моменты Е (XnYm). Важную роль во многих си- туациях играет корреляция Rxy = Е [(X — mx)(Y — mv)] и коэффициент корреляции : Очевидно, Rxy = 0, если X и У независимы. Но корреляция может быть нулевой в случае зависимых X, У. 8 Вообще Е (Хп) именуется моментом n-го порядка случайной величины X, в соответствии с чем матожидание — первый момент.
152 Глава 7. Случайные величины Задача. Пусть X, Y имеют нулевые математические ожидания. Найдем приближение Y случайной величиной Z = аХ по квадратич- ному критерию: Е(У-аХ)2 — min. (7.16) Приравнивая нулю производную (7.16) по а, получаем 2Е{(У-аХ)Х} = 0, откуда а = Иху/ЩХ\ т. е. при ненулевой корреляции между X и У существует «линейная зависимость» вида У = аХ + W с ненулевым коэффициентом а и случайной величиной W некоррелированной с X, Rxw = 0. Практическое вычисление корреляций часто приводило к обнаружению «неожиданных» свя- зей мистического толка. При этом упускалось из вида, что причинная связь и функциональ- ная — разные вещи. Например, процессы, подвер- женные влиянию солнечной активности, в ре- зультате могут коррелировать друг с другом, а их функциональная связь может быть исполь- зована для прогноза, но не для объяснения. Пример. Случайные величины X и У = X2 — при равномерном распределении X в промежутке [—1,1] — связаны жёсткой функцио- нальной зависимостью, но их корреляция равна нулю, -1 поскольку линейная составляющая взаимосвязи отсутствует.
Глава 8 Большие числа Главное всегда за кадром. Рождение порядка из хаоса начинается с малого, со стабилизации средних значений. 8.1. Закон больших чисел Законами больших чисел называют различного типа утвер- ждения о поведении сумм вида 371 + • • • 4- хп п (8-1) при больших п, где х, — это либо реализации случайной величины X в последовательности независимых испытаний,
154 Глава 8. Большие числа либо реализации разных случайных величин Xi. При этом удобнее сразу говорить о случайной величине Sn _ Xi + • • • + Хп п п (8.2) Теорема ЗБЧ. Пусть некоррелированные с. в. Xi имеют (каждая) матожидание р и одну и ту же диспер- / с \ сию а2. Тогда Е I I = р, и среднеквадратическое укло- S 1 нение от матожидания стремится к нулю как f —1 О’2 D • = > 0 при п —► ос. (nJ п (8-3) Таким образом, случайная величина (8.2) при увеличе- нии п стабилизируется около своего матожидания. ◄ В силу некоррелированности, Е (Хг — /J,)(Xj — /1) = 0 при i j, имеем Q Бывает, полезно присмотреться к с.в. —Д=, которая растет в сред- уп нем пропорционально Цу/п, имея постоянную дисперсию <72. (24
8.2. Вероятность уклонения 155 8.2. Вероятность уклонения Установим предварительно неравенство Чебышева. Если 9?(ж) 0 — неубывающая при х е функция, то откуда1 —при условии 9?(е) / 0. (8.4) Выбор ф(х) — х2 и \Х — тх\ в качестве случайной вели- чины даёт неравенство Чебышёва: P(|X-mJ >с) ' (8.5) Из (8.5) следует, что оценка сверху среднеквадратического уклоне- ния влечёт за собой оценку сверху вероятности уклонения. Это позво- ляет переводить разговор из одной плоскости в другую — от моментов к вероятностям. 1 Поскольку jdF(x) = Р(Х е).
156 Глава 8. Большие числа В комбинации с теоремой предыдущего раздела неравен- ство Чебышева (8.5) приводит к другому варианту закона больших чисел. Теорема Ч. Пусть независимые2 случайные величины Xi имеют одно и то же матожидание /л и одну и ту же дисперсию о2. Тогда при любом е > 0 u п —> оо Рассмотренные варианты стабилизации среднего обычно характе- ризуются как слабый закон больших чисел, но он накрывает значи- тельную часть приложений и потому часто именуется просто законом Q больших чисел. В случае (8.6) говорят, что с.в. —сходится к р по (8-6) 2 Вместо «независимые» можно написать «некоррелированные», что усиливает теорему, поскольку некоррелированность вытекает из независимости. Но от этого обычно мало толку, поскольку независи- мость либо есть, и тогда она вытекает из «философских» соображе- ний, либо её нет — и тогда в отсутствие точной информации не ясно, как проверять некоррелированность.
8.2. Вероятность уклонения 157 Вариант (8.6) по сравнению с (8.3) позволяет говорить о стаби- лизации среднего в более удобном ключе. Из (8.6) следует, что при любом сколь угодно малом е > 0 доля реализаций (8.1), вылезающих из е-окрестности /z, стремится к нулю при п —> оо. Соответственно, ча- стотная трактовка вероятности (6.5) приобретает законную силу, что устанавливает связь между абстрактными моделями и статистически- ми экспериментами. Если в случайной «01»-последовательности единица (Xi = 1) по- 1 S является с вероятностью то вероятность уклонения среднего от матожидания 1 более чем на 0,1 не превосходит 25, поскольку в данном случае Предположения о том, что величины Xi имеют одинаковые мато- жидания и дисперсии, разумеется, необязательны. Тот же метод до- казательства работает и в более общих ситуациях. Например, при по- парной некоррелированности Xi,..., Хп и при условии П^оо п‘ где erf — дисперсия Х$, при любом е > 0 имеет место lim Р п—>ое Xi Н---F Хп pi + • • • + рп Е > — 0, Pi — матожидание X*. Задача. Источник генерирует последовательность (текст) дли- ны N из символов т типов ai,..., ат, которые генерируются с веро- ятностями pi,... )Рт- При достаточно большом N количество сим- волов i-го вида в сообщении с большой точностью равно Npi. ◄ Выберем некоторое i и введём случайную величину 1, если генерируется символ аг\ 0, в противном случае. I X I ... I X \ Тогда Е (X) = pi и Е ( —1 )= Pi- Далее остаётся сослаться на теорему Ч. ►
158 Глава 8. Большие числа 8.3. Биномиальное распределение Бросание монеты является прообразом многих содержатель- ных моделей. С некоторой натяжкой в «орлянку» играют все экономические субъекты: от крупных банков до физи- ческих лиц. Поэтому сопутствующая тематика важна в том числе для понимания экономической среды и собственной роли в будничном коловращении. Схема бросания монеты, порождающая цепочки «герб — решетка», ГРГГР ..., — занимает особое место среди веро- ятностных моделей. Как уже отмечалось, если при выпаде- нии герба писать единицу, решётки — нуль, модель будет генерировать случайные «01»-последовательности 10 110... (8.7) Допустим, в результате испытания единица появляется с вероятностью3 р G (0,1), нуль — с вероятностью q — 1 — р. Появление единицы именуют успехом. Проведение соответ- ствующих независимых испытаний называют схемой, или последовательностью испытаний Бернулли. Проблема на вид проста и заключается в том, как ведут себя индивидуальные «01»-последовательности (8.7). Дипло- матичный ответ «когда как» не отражает всю правду. Пер- вое впечатление о тривиальности поведения последователь- ностей (8.7) обманчиво. Среднее — нуль, дисперсия — одна четвертая. Но кое-что остаётся вне поля зрения. 3 При этом часто говорят об условном бросании несимметричной монеты. См. далее о реализующих эту идею урновых моделях.
8.3. Биномиальное распределение 159 В поведении случайных сумм Sn — Xi + • • • + Хп (8.8) есть общие далеко неочевидные закономерности. Некоторые ожидания рушатся, например, под давлением закона аркси- нуса, показывающего, что при игре в «орлянку» нет ника- кой тенденции к выравниванию периодов лидерства. Вни- мательно присматриваясь к объекту Sn, математики до- вольно быстро разобрались, что финтифлюшка (8.8) — это Клондайк для написания диссертаций. На вид (8.8) — про- ще пареной репы, но взмывает ввысь протуберанцами зага- док. Какие-то штрихи соответствующего толка упомянуты далее, но пока несколько слов о стартовом этапе. В силу независимости испытаний вероятности появления 1 или 0 перемножаются. Поэтому вероятность в п испытани- ях получить к единиц в каком-либо определенном порядке (и, соответственно, п—к нулей) — равна pkqn~k. А поскольку к единиц расположить в п разрядах можно числом спосо- бов Ск, то вероятность получить к единиц независимо от порядка их следования равна Рк = Ckpkq'-k (8.9)
160 Глава 8. Большие числа Набор (8.9) вероятностей {р0, — , рте} называют бино- миальным распределением (в серии испытаний длины п). Таким образом, биномиальное распределение имеет сумма (8.8) в оговоренных ранее обстоятельствах. При этом матожидание и дисперсия: E{Sn} = np, D{Sn} = np(l -р). Урновые модели. В качестве механизма организации последовательных испытаний Бернулли могут использовать- ся урновые модели. В урне находится к белых шаров и т к черных. Вероятность вытащить белый шар4 5 равна р = --, к + т т _ , черный — q = -------. Это дает готовый механизм обеспе- к Т тп к чения вероятности р = -----для замены кривой монеты. к + т Геометрическое распределение. В схеме Бернулли вероятность появления к нулей перед первым появлением единицы, очевидно, равна | рь = pg*" . Совокупность этих вероятностей (при к = 0,1,2,...) называют геометриче- ским распределением. Геометрическое распределение имеет случайная величина, равная числу испытаний до первого успеха — числу промахов до первого попадания или, ска- жем, числу балбесов, которых приходится перецеловать, пока не найдешь своего принца. Определённый интерес при этом имеют также матожидание и дисперсия: Е{Х) = 1 D{X} = 4 (?J = р р / 4 Встречаются модели с большим количеством цветов. По существу урновой является колода игральных карт с популярными задачами типа: «из колоды вытаскивается п карт — какова вероятность, что к из них одной масти?» 5 При условии Р(Х = х) = pqx.
8.4. Случайное блуждание* 161 За общими разговорами какие-то сюрпризы ускользают из поля зрения. Поэтому время от времени полезно задаваться конкретными вопросами. Тут, правда, на фоне обманчиво простых декораций аппа- ратные сложности иногда зашкаливают. Но у нас нет задачи освоения «высшего пилотажа». Нам достаточно посмотреть на «фигуры». При п бросаниях обычной монеты серия из гербов длины log2 п наблюдается с вероятностью, стремящейся к 1 при п —> ос. Для населения Европы — это, в основном, сюрприз. Для амери- канцев, конечно, сие не интересно, у них другие проблемы. Но уж если надо будет кому-то выдать «01»-последовательность длины 1000, то кому придёт в голову, что там должны быть чистые серии (только гербы или только решётки) длины 10? Из-за отсутствия таких серий (в том числе) сконструированные человеком последовательности обычно не проходят тест на случайное происхождение. Вот другой результат, не столь удивительный, но при поверхност- ном взгляде загадочный. На фоне обязательности длинных чистых серий средняя длина чистой серии, тем не менее, равна 2. Для лю- бой несимметричной монеты, выпадающей гербом с вероятностью р G (0,1), матожидание длины нечётных по числу бросаний серий равно а чётных — равно 2 независимо от р. 8.4. Случайное блуждание* То же самое последовательное бросание монеты можно ин- терпретировать как случайное блуждание либо частицы6, 6 Движущейся влево/вправо единичными шагами по целочислен- ным точкам действительной прямой.
162 Глава 8. Большие числа либо выигрыша/проигрыша. Для этого удобно рассматри- вать суммы 8п = Ял + • • • + Хп независимых с.в. Х^, X?,..., принимающих два значения (1 и —1) с вероятностями P{Xfe = l}=p, P{Xfe = —1} = 1 —р. Возврат частицы в начало координат равносилен, оче- видно, событию {£,, = 0}, что возможно лишь в чётные моменты п = 2к. Интуитивно ясно, что в случае р = 1 £ типичные траектории бесконечно много раз проходят через нуль, а в случае р / уходят в бесконечность. Усложним задачу и рассмотрим многомерное блуж- дание частицы по двумерной целочисленной решётке. Дви- жения влево/вправо и вверх/вниз независимы и происходят (каждое) с вероятностью р = 1. Вероятность возвращения 2^ в нуль через 2п шагов равна, очевидно, Р{5» = 0} = (8.10) Вопрос в том, конечное или бесконечное число раз про- цесс возвращается в начало координат? Тут как раз без «высшего пилотажа» не обойтись, но мы в дебри забираться
8.4. Случайное блуждание* 163 не собираемся. Ответ, тем не менее, дадим, скользнув заод- но по опорным точкам. Главную трудность позволяет пре- одолеть закон Колмогорова нуля или единицы, утверждаю- щий, что вероятность так называемых остаточных собы- тий7 равна либо нулю, либо единице. Здесь как раз тот самый случай. Но надо ещё из нуля и единицы выбрать что-либо одно. Это позволяет сделать расходимость ряда оо £ P{S2fc = 0} = оо (8.11) для последовательности вероятностей (8.10), что даёт возможность за- ключить (трясину деталей обходим стороной) о равенстве 1 искомой вероятности8. И это несколько неожиданно, поскольку обнуление ко- ординат теперь должно происходить одновременно. При трёхмерном блуждании P{S2fc = 0} = 7 1 \ 2fc“l 3 C2fc I 2 I fc-3/2, oo и тогда = 0} < оо, что принципиально меняет картину k=i асимптотического поведения. Вероятность возврата становится дроб- ной, а число возвращений на типичных траекториях конечным. Качественное отличие поведения случайных траекторий в раз- мерностях 2 и 3 до некоторой степени неожиданно и часто служит поводом для удивления и философствования. Циник бы, конечно, не преминул заметить, что с тем же успехом можно удивляться схо- димости ряда 52 п~2 и расходимости 5271-1 • Возражать по сути было бы трудно. Но удивление — очень ценная вещь. Лев Толстой жаловался: «Писать стало трудно — кончается энергия заблужде- ния». Заблуждаясь, иногда можно горы свернуть. Иной раз — не те, но кто точно знает, где они, ТЕ. 7 И то и другое (закон нуля или единицы и понятие остаточно- го события) — не такие уж сложные явления, но мы их не поясняем, ибо должны поставить себе рамки, чтобы текст не расползался. Но мы оставляем «улики» для тех, кто захочет провести собственное рассле- дование. Интернет по названиям позволяет восстановить всё осталь- ное, хотя мороки выходит больше, чем в уголовном сыске. 8 Бесконечного числа возвращений в начало координат.
Глава 9 Теория информации Заблуждаясь, можно горы свернуть. Иной раз — не те, но кто знает, где они, ТЕ. Информация как виртуальная часть мира со- единяет иллюзию с реальностью. Дух с мате- рией, воображение с плотью. Измеряя туман- ную неопределённость, она проникает в физику, уравнивая вымысел с явью. И кипят философские страсти, но пар не весь уходит в гудок. 9.1. Энтропия, или неопределённость Неопределённость Н при бросании m-гранной кости характеризует- ся наличием т возможностей. Интуитивно хотелось бы, чтобы при бросании двух костей, при котором число возможностей равно т2, неопределённость была вдвое больше, т. е. Н(т2) = 2Н(т), либо Н(тп) = Н(гп) + Н(п), если кости имеют разное число граней. Это легко достигается выбором логарифмической шкалы, т. е. Н(тп) = JClogm. (9-1) Таким образом, неопределённость Н, называемая энтропией, про- порциональна логарифму числа возможных равновероятных состо- яний. Выбор основания логарифма и коэффициента К определяют
9.1. Энтропия, или неопределённость 165 лишь единицу измерения энтропии. В классической теории информа- ции (ТИ) предпочитают простейший вариант (9.1): Н (m) = log2 тп. (9-2) Единица измерения энтропии в этом случае называется битом. Таким образом, бит соответствует неопределённости выбора из двух равновероятных возможностей (то ли нуль, то ли единица), log2 2 = 1. Двойка в основании логарифмов часто опускается1. Кости, ясно, ни при чём. То же самое получается в общем случае пространства Q, состоящего из т равновероятных элементарных событий ^все Pi = . Вместо костей ТИ обычно предпочитает другую содержательную модель. По- следовательно генерируются символы из алфавита Д — {щ, • • •, ат}. (9.3) Если речь идёт о выборе символа, то Q — {ai,..., ат}. В случае текстов пространство элементарных событий Q — это уже всевозможные тексты, скажем, длины N. Энтропия в том и другом случае определяется механизмом (9.2). Для текстов надо только т в (9.2) заменить на mN, получая H(mN) = log2 mN = N log2 m. 1 На территории теории информации.
166 Глава 9. Теория информации Но это всё работает лишь в ситуациях равновероятных возможностей. Определим теперь энтропию Н(ръ...,рт) в случае, когда источник генерирует символы (9.3) с разными вероятностями pi,... ◄ При достаточно большой длине N текста количество символов г-го вида в сообщении с любой наперёд желаемой точностью равно2 Npi. Количество М различных текстов из символов 02 • • • <12 • • • Npi Np2 Npm равно числу перестановок с повторениями (12.3). Поэтому3 N\ log2М = log2 (7Vpi)!(7Vp2)!...(7Vpm)! N log2 N - NPi 1оё2 NPi = = - У2 Npi log2 NPi + ZL Npi log2 N = ~N 57 log2 Pi- Это и есть энтропия сообщения длины N. После деления на N полу- чаем энтропию, приходящуюся на один символ4 *, Н(р!,...,рп) = -^Pilog2Pi. (9-4) 2 Что вытекает из закона больших чисел. См. задачу в разделе (8.2). 3 С учётом формулы Стирлинга (12.2) и условия = 1. 4 В (9.4) действует соглашение ных исходах, р = 1/т, получается О • log 0 = 0. При т равновероят- на, ... ,р) = Н(тп) — logm.
9.2. Количество информации 167 Формула (9.4) в данном контексте главная. Если ожидается со- общение длины N с частотностью символов то ситуация характеризуется неопределённостью NH. Приход безошибочного со- общения ликвидирует эту неопределённость, и в этом смысле пришед- шая информация равна NH. ◄ Подойдём к (9.4) другим путём. При независимой генерации символов (9.3) с вероятностями pi,... ,pm и количестве символов г-го вида в сообщении порядка Npi — вероятность любого отдельного со- общения равна Р = Р1Р1 Рырт, т. е. logp = N^pilogpi => (9-5) Иными словами, вероятности всех достаточно длинных сообщений равны р = 2~nh, а поскольку эти сообщения ещё и независимы, то их количество М = -, т. е. М = 2NH. Таким образом, энтропия по Р правилу М — 2NH определяет количество текстов, в которых буквы встречаются с «правильной» частотой. ► 9.2. Количество информации Когда в ожидаемом событии А, которому присуща неопре- делённость5 Я (А), реализуется конкретный вариант — эн- тропия Я(А) «вся сгорает» и поступившую информацию 7(A) естественно приравнять исчезнувшей неопределённости Я(А). Это, так сказать, стерильный вариант. Но жизнь слож- нее. Может поступить информация, уточняющая частоты Pi,... ,рт; исключающая определённые типы текстов; упо- требление нехороших слов и т. п. Как такую информацию 5 Чтобы говорить об энтропии Н(А) события А из некоторого Q, достаточно нормировать вероятности р^ в А, превращая тем самым А в пространство элементарных событий, для которого выполнено условие 22 Рг = 1-
168 Глава 9. Теория информации оценивать? Напрашивается заманчивая идея. Если инфор- мация I переводит нас из ситуации Г в ситуацию 0, то её количество /(Г,©) = Я(Г) -Я(0). (9.6) Конечно, тут мы слишком надуваем паруса фантазий. В недрах (9.6) много подводных течений и неуловимых интер- претаций. За всем не уследишь. Поэтому чтобы не угодить в эмпирей несбыточного, рассматривают обычно более при- землённые варианты. Скажем, Г — это событие, а В — опыт, позволяющий отсечь часть Г, оставив Г#. Тогда В относи- тельно Г содержит количество информации ЦГ,В) = Я(Г)-Я(Гв), причём, как правило, 1(Г, В) = Н(В). Избегая засорения пейзажа уточнениями и формулами, рассмотрим несколько задач/примеров. • Какое число вопросов при ответах «да — нет» необходимо для определения загаданного числа среди {1,..., п} ? ◄ Если все числа равновероятны, то деление группы {1,... , п} на две равные подгруппы чисел, каждый раз после ответа на вопрос «в какой из подгрупп загаданное число», — уменьшает число вариан- тов вдвое (считаем пока п — 2к). Каждый раз это даёт информацию6 log2 2 = 1, уменьшая на первом шаге исходную неопределённость log2 п до log2 п — log2 2, а после s таких шагов неопределённость уменьшится до log2 п — s log2 2 и станет 0 при условии s log2 п. Если п не является степенью двойки, то группы чисел не делятся ровно пополам, и это уменьшает информацию некоторых шагов. Но 6 Выбор одной из двух равновероятных априори подгрупп.
9.2. Количество информации 169 легко проверить, что итог не меняется — поскольку s log2 п выбира- ется целое. Задача становится прозрачной при фиктивном увеличении с самого начала п до ближайшего сверху числа вида 2т. ► • Среди п монет есть одна фальшивая, более лёгкая. Найти мини- мальное число взвешиваний на рычажных весах (позволяющих срав- нивать два веса), необходимое для определения фальшивой монеты в самом неблагоприятном случае. ◄ Любая из монет может равновероятно оказаться фальшивой, поэтому неопределённость равна Н(Г) = log2n. Пусть пока п = Зт. Разобьём монеты на три равные кучки, и любые две из них сравним по весу. Взвешивание (опыт В) может иметь три очевидных исхода. Лю- бой из них позволяет исключить две группы монет. Неопределённость Н(В) = log2 3. Информация к последовательных взвешиваний равна к log2 3. Для исчерпания исходной неопределённости log2 п необходимо к log2 3 log2 п, откуда к log3 п. Легко убедиться, что ответ остаётся верным и в том случае, когда п не является степенью тройки. ► Увеличивать количество задач здесь не имеет большого смысла. Проще пояснить общую идею. Пусть дано конечное пространство эле- ментарных событий Q = {сщ,... и заданы вероятности p(cuj. Если имеется в виду использование инструмента вопросов в тандеме с ответами «да — нет», то ситуация отличается от первой задачи фор- мально лишь отсутствием требования одинаковости всех р(а^). Для максимизации получаемой информации на каждом шаге на- до всякий раз оставшуюся часть от Q делить на две группы так, что- бы вес группы I был равен (или максимально близок) весу I
170 Глава 9. Теория информации группы II. Вот и вся хитрость. Но за кадром могут возникать н серьёзные технические сложности. Тем более, если вместо «да — нет» используются другие трюки типа рычажных весов. Коварства добавляет и некоторая запутанность описания множе- ства Q. Неудобства комбинаторных описаний Q играют роль не сами по себе, а в противостоянии с проводимыми опытами. Скажем, если во второй задаче неизвестно, легче или тяжелее фальшивая монета, то исходная неопределённость возрастает до log2 2п. Но естественный ответ к log3 2п уже не верен. Правильный ответ к log3(2n + 3), что не так уж сильно отличается от к log3 2п. То есть принцип решения вчерне работает. Но это довольно сложная задача, хорошо известная. Главная трудность здесь в определённом диссонансе между устрой- ством Q и спецификой использования рычажных весов. 9.3. Энтропия источника Если источник информации передаёт символ Ui с вероят- ностью (частотой) р^ то величина информации при по- ступлении ai принимается за — log2p*. Логика здесь такая. При частоте pi символ в сообщении приходится в сред- нем один раз на = - тактов (символов), неизвестно Pi на каком месте. Энтропия, в соответствии с (9.2), равна log2m* = — log2p^ Поступление а* на определённом месте ликвидирует эту неопределённость, естественно считать — за счёт поступления информации — log2p^. Матожидание информации либо её среднее значение (на один символ) при длительной работе источника будет равно I = что называют энтропией источника. Таким образом, информация и энтропия — это две сто- роны одного явления. Сколько поступает информации — на- столько убывает неопределённость. Чем больше энтропия источника (неопределённость его возможных сообщений),
9.3. Энтропия источника 171 тем больше информации при получении его конкретных сиг- налов. Источник, способный генерировать единственный сиг- нал, никакой информации не производит. Источник, пере- дающий только два сигнала «нуль/один», имеет единичную интенсивность (один бит на сигнал). Но при большой часто- те способен производить много бит в единицу времени. Сказанное представляет собой по сути ДНК-фундамент теории Шеннона, которую называют часто теорией инфор- мации, хотя она в сущности была теорией связи и ей остаётся. Дело в том, что в данной теории ни о каком содержательном понимании информации речь не идёт. В этом отношении предыдущий раздел является отступлением от генеральной линии «теории информации» — теории связи. У Шенно- на внимание сконцентрировано на чисто технической сто- роне дела. Сигналы, приёмники, передатчики, каналы свя- зи, кодирование, борьба с помехами. Сообщения рассматри- ваются с точки зрения используемого алфавита, частотно- сти символов, устойчивости к ошибкам. Всё это игнориру- ет смысловую часть информации, но выделяет очень важ- ную нишу проблем связи. Компьютер, например, состоит из различных блоков, непрерывно обменивающихся сигна- лами/сообщениями. И ему (компьютеру) всё равно, что про- исходит на верхнем уровне. Игра в «крестики-нолики», ски- тание по Интернету, оптимизация финансовой политики. Во чреве арифметического счёта во всех вариантах похожим образом мельтешат электроны, бегут импульсы. И от того, как бегут, зависит мощность, скорость, помехоустойчивость. Для безошибочности счёта не важно, какие содержательные задачи решаются. Важно, чтобы на микроуровне всё было в порядке. Этим и занимается «теория информации».
172 Глава 9. Теория информации 9.4. Пропускная способность канала Канал связи в схеме О ограничивает скорость передачи информации. В широко рас- пространенном случае, когда символов (сигналов) всего два и их длительности одинаковы, пропускная способность ка- нала С измеряется числом символов, способных пройти по каналу в единицу времени. В общем случае С — это максимальная информация, ко- торая может быть передана по каналу за одну секунду. Ес- ли, например, алфавит состоит из п букв и канал способен пропускать N букв в секунду (в точности или в среднем), то С = N log2 п. Природа ограничений может быть различная: скорость света, по- лоса пропускания частот, тактовая частота передатчика. Все это на- ходится за рамками теории информации, но иногда понимание среды, в которой решаются задачи, играет важную роль, ибо вне контекста чего-то не хватает. 9.5. Кодирование в отсутствие помех В общем случае кодирование представляет собой запись ис- ходной информации в любом другом алфавите по избран- ным правилам соответствия между группами символов. Системы передачи информации, как правило, использу- ют специальные символы, независимо от того, какого сор- та информация передаётся (аудио, видео, текстовая). Обще- принятый стандарт в цифровой технике: «01»-последовательности.
9.5. Кодирование в отсутствие помех 173 Буквам, командам, операциям сопоставляются различные последовательности вида 01... 101. Иначе говоря, все опи- сывается в двоичном коде — «01»-алфавите. Широко распространены: восьмибитовый7 код EBCDIC8 и семибитовый — ASCII9. Для русского текста семибитовой кодировки недостаточно — значительная часть двоичных комбинаций занята под латинские буквы и другие «надоб- ности». Это было причиной появления восьмибитовой коди- ровки КОИ-8, а потом Windows-кода 1251. Общепринято 8 бит (двоичных единиц) информации при- нимать за новую единицу измерения количества информа- ции — один байт. Более крупная единица измерения — ки- лобайт (1 Кбайт = 210 байт = 1024 байта)10. Допустим, источник генерирует буквы из некоторого алфа- вита и его энтропия равна Н (бит на символ), а канал связи пропускает С (бит в секунду). Утверждать, что по каналу в С среднем проходит — символов в секунду, конечно, нельзя — н потому что результат зависит от качества кодирования. Но С Н скорость кодированймГ. асимптотически достижима при оптимальном 7 Буквы и команды кодируются восьмизначным двоичным чис- лом — последовательностью из 8 символов 0 или 1. 8 Аббревиатура от Extended Binary Coded Decimal Interchange Code. 9 American Standards Committee for Information Interchange. 10 Стандартная шутка: начинающий программист думает, что в ки- лобайте 1000 байт, опытный — что в километре 1024 метра.
174 Глава 9. Теория информации Если появление п символов (букв) равновероятно, то в секунду, очевидно, может проходить максимальное количе- ство информации Дпах ~ С log2 П. При использовании алфавита из двух символов {0,1}, соот- ветственно, /тах = CIog2 2 = С бит/сек. Коэффициент избыточности сообщения определяется как Ап ах I 7 ’ 2 max где I — количество информации в сообщении, a /тах — мак- симально возможное количество информации в сообщении той же длины. Если символы не равновероятны, то на один символ в среднем приходится количество информации -^2pilog2Pi < log2 п, и в результате I < Ima.x- Подобное явление характерно для обычного текста — буквы (символы) появляются с различ- ными частотами. 9.6. Оптимальное кодирование Одно и то же сообщение можно закодировать различным образом. Поэтому возникает вопрос о наиболее выгодном способе кодирования. Естественное соображение: часто встречающимся сим- волам и словам исходного сообщения ставить в соответ- ствие короткие «01»-комбинации, редко встречающимся — длинные. Если удастся так закодировать сообщение, что символы 0 и 1 будут встречаться одинаково часто, то это и будет оптимальным кодом.
9.6. Оптимальное кодирование 175 Посмотрим, как это работает при кодировании русского алфави- та. Среднестатистическая частота появления букв в текстах различна: колеблется от ~ для буквы «ф» до ~ — для буквы «о». Оптимальную «игру» на длине кодовых комбинаций реализует код Шеннона—Фано. Буквы алфавита упорядочиваются по убыванию ча- стоты (вероятности) pi появления в тексте, после чего разбиваются на две группы. К первой относят первые к букв так, чтобы к п i=l i=k 1 2’ после чего первой группе символов ставится в соответствие символ О, второй — 1, и это определяет первый разряд кодового числа. Далее каждая группа снова делится на две приблизительно равновероятные подгруппы; первой подгруппе ставится в соответствие 0, второй — 1 и т. д. Группы с малым количеством букв быстро исчерпываются — и эти буквы в результате получают короткие коды. Легко убедиться, что в итоге кодовая запись достаточно длинного сообщения будет со- держать приблизительно одинаковое количество нулей и единиц, т. е. при любой частотности исходных символов частоты нулей и единиц двоичных кодов оказываются приблизительно равны друг другу. Информационная сторона оптимального кодирования до- вольно проста. Вернёмся к соотношению (9.5). Равноверо- ятные сообщения в количестве К = 2NH могут быть про- нумерованы в двоичной записи, для чего потребуется число разрядов log2 К = NH. Это и будет оптимальным двоичным кодом. В рамках вероятностной модели возможны все nN со- общений длины N (а не только К — 2NH}, но при боль- ших N можно считать, что «реальных» сообщений имеется всего 2NH . Остальными можно пренебречь — их суммар- ная вероятность близка к нулю. Поэтому маловероятные сообщения можно кодировать достаточно длинными «01»- последователыюстями. Из-за их маловероятности это в сред- нем почти не будет сказываться на скорости передачи ин- формации.
176 Глава 9. Теория информации Когда речь идет о минимуме числа разрядов в оптимальном коде, подразумевается, конечно, что алфавит задан. В алфа- вите из миллиона символов можно одним символом запи- сать любое из миллиона сообщений. Но тогда надо иметь си- стему связи, способную генерировать и передавать миллион разных символов. • При энтропии источника Н (бит на букву) и независимой ге- нерации букв оптимальное кодирование в среднем приводит к Н дво- ичным знакам на букву, Например, при бесхитростной нумерации букв русского алфавита в двоичной записи потребовалось бы 5 разрядов (25 — 32). С учетом частотности букв Н = — Pi iog2 Pi ~ 4,4. Поэтому в среднем доста- точно 4,4 знака на букву, что обеспечивает код Шеннона—Фано. • В задачах оптимального кодирования чаще всего идет речь о пе- рекодировании одних «01 ^последовательностей в другие. Пусть эн- тропия источника «01»-сообщений равна Н (бит на символ). Тогда длина п таких сообщений может быть уменьшена (за счёт кодиро- вания) до пН. (Р 9.7. О нетривиальных кодах Из предыдущего ясно, что при оптимальном кодировании необходимо отталкиваться от кодирования длинных сооб- щений. Не букв и даже не слов, а достаточно больших кус- ков текста. Тогда есть возможность достичь теоретического предела. Технически удобнее, разумеется, посимвольное ко- дирование, но о нём в распространённых ситуациях остаётся только мечтать. Рассмотрим, например, источник, генерирующий две буквы, А — с вероятностью р, и Б — с вероятностью 1 — р. Если р очень мало, то любое посимвольное кодирование далеко от оптимального. Асимп- тотически оптимален RLE-код11, суть которого состоит в сообщении длин серий повторяющейся буквы Б. 11 Аббревиатура от Run Length Encoding. Метод широко использу- ется при передаче растровых изображений.
9.7. О нетривиальных кодах 177 Примеры типа RLE-кода создают иллюзию, что пробле- ма кодирования тривиальна. На самом деле высокоэффек- тивные коды являются часто результатом крупных дости- жений, с которыми все имеют дело, работая на компьюте- ре и не подозревая о наукоёмкости различных архиваторов (ZIP, RAR и др.). Элементом многих таких программ яв- ляется знаменитый алгоритм Лемпеля—Зива, осуществля- ющий многоступенчатое кодирование. Идея вчерне выгля- дит примерно так. Сообщение просматривается с помощью скользящего словаря. Если в тексте появляется последова- тельность из двух ранее уже встречавшихся символов, то ей приписывается свой код, затем текст «прочесывается» на предмет повторяющихся комбинаций из большего коли- чества символов, и так — до исчерпания текста. Конечно, доведение идеи «до ума» сопряжено с преодолением мас- сы сложностей, но здесь не место вдаваться в подробности, поскольку это территория другой епархии. Однако взгляд через призму теории информации играет вдохновляющую роль. Очень интересны, например, методы MPEG (Moving Pictures Ex- perts Group), которые при кодировании используют прогноз динами- ки изображений (передаются только меняющиеся пиксели). В резуль- тате достигается сжатие в несколько десятков раз. Для сжатия дан- ных неподвижных изображений широко используются методы JPEG (Joint Photographic Expert Group), исключающие малосущественную для глаза информацию. Кстати, оптимальный код — это совсем не то, к чему надо стремиться во что бы то ни стало. Это лишь границы возможного, знание которых помогает идти своей дорогой.
178 Глава 9. Теория информации 9.8. Борьба с помехами При наличии шума в канале связи => выход Y выходной сигнал Y зависит от входа X и шума £. Если шум искажает в среднем 1% символов, то о любом приня- том символе нельзя сказать наверняка, правилен он или нет. Макси- мум возможного — утверждать их правильность с вероятностью 0,99. Но если речь идет о передаче осмысленного текста, то сообщение при 1% ошибок можно восстановить с высокой степенью надежности. По- нятно, что это возможно благодаря избыточности языка12. В общем случае проблема заключается в том, чтобы подобную избыточность организовать. Другими словами, бороться с шумом специальным ко- дированием. Разумеется, вероятность ошибки можно понизить за счёт многократного повторения каждого символа, но это слишком неэко- номно. Полезная информация, проходящая по шумящему кана- лу, определяется разностью I = Н(Х) - Я(Х|У) между уровнями неопределённости источника до и после приёма сигнала Y. В нешумящем канале условная энтропия H(X\Y) — 0, т. е. принятый сигнал однозначно определяет переданный. В общем случае H(X\Y) служит показателем того, насколько шумит канал. 12 Буквы в словах далеко не независимы — после гласной чаще сле- дует согласная, а шестая буква шестибуквенного слова определяется по пяти предыдущим едва ли не однозначно.
9.8. Борьба с помехами 179 *Если {?/i,..., уп} и {^1,..., хп} — возможные состояния случай- ных величин Y и X, то энтропия {У, X} по определению (9.4) равна H(Y,X) = -^PijlnPij, где Pij = P(yi,Xj) = Р{У = Pi,X = Xj}. При этом13 H(Y,X) = H(Y) + H(X\Y), (9.7) где Н(Х|У) = ^2р(г/г)Н(Х|у;); H(X\yt) = - ^P(xj\yi) log2p(^|pi). i j При вероятности ошибки 0,01 в случае равновероятной передачи источником двоичных символов 1 1 99 99 H(X\Y) = —— log —---------- log —— ~ 0,08 бит на символ. v 1 7 100 6 100 100 6 100 Поэтому при передаче по каналу 100 символов в секунду скорость пе- редачи информации равна 100 — 8 = 92 бита в секунду14. Ошибочно принимается лишь один бит из ста, но «потери» равны 8 битам из-за того, что неясно, какой символ принят неверно. Пропускная способность канала с шумом (по определе- нию Шеннона) — это максимальная скорость прохождения информации С = тах[Я(Х) - H(X\Y)] (бит в секунду), где максимум берется по всем возможным источникам ин- формации, а энтропия Н измеряется в битах в секунду. В примере с искажением 1% двоичных символов, если канал физически способен пропускать 100 бит/сек, — его 13 В силу p(yi,Xj) = p(yi)p(xj\yi). Для независимых {У,X} (9.7) пе- реходит в Н(У, X) = Н(У) 4- Я(Х). 14 При р = 1/2, очевидно, H(X\Y) = Н(Х), и скорость передачи информации нулевая, поскольку выходной сигнал не позволяет судить о входном.
180 Глава 9. Теория информации пропускная способность равна 92 бит/сек. Информацион- ные потери 8 бит приходятся на Н(Х\У), т. е. на шум. При наличии дополнительного корректирующего кана- ла, имеющего пропускную способность не меньше H(X\Y), при надлежащей кодировке возможен практически безоши- бочный прием сообщений (информация H(X)—H(X\Y) про- ходит по основному каналу). Но это, как правило, сопряже- но с большими хлопотами оптимального кодирования. Ре- альное кодирование больше ориентируется на удобство и простоту. Коды Хэмминга. Расстояние по Хэммингу h(A, В) между двоичными последовательностями одинаковой дли- ны определяется как число разрядов, в которых Л и В не совпадают. Например, Л(001,100) = 2. В случае, когда все расстояния между возможными сооб- щениями h(A, В) 2, — любая одиночная ошибка будет об- наружена, а в случае h(A, В) 3 — не только обнаружена, но и исправлена. Для исправления ошибочной последова- тельности С = 0100... 10 надо найти ближайшую к С разре- шенную последовательность А = 0101... 10, которая, в силу одиночности ошибки, находится на расстоянии h(A, С) = 1. Идеологическая ясность, разумеется, не устраняет практи- ческую задачу такого кодирования полезных сигналов, что- бы они были разнесены на заданное расстояние. «Зазор» Л(А, В) = 2 легко обеспечивается введением дополнитель- ного двоичного разряда, в который записывается 0 или 1 в зависимости от чётности или нечётности числа единиц в ко- дируемой двоичной последовательности. Большие «зазоры» обеспечиваются иными ухищрениями.
Глава 10 Статистика Если, решая задачи, соблюдать меру, статистика превращается в симпатичную науку. Компас теории вероятностей на практике часто находится в растерянности. И мы посте- пенно начинаем понимать, что компас может работать только с нашей помощью. 10.1. О задачах практики Теория оперирует вероятностями, практика — статистиче- скими данными, т. е. исходами опытов, будь то бросание ко- стей, количество аварий, смертей, выздоровлений, денег в казне и т. п. Умение делать выводы на базе таких данных — поднимает цивилизацию на щит, неумение — обрекает на блуждание впотьмах. • Из миллиона школьников опросили тысячу — 333 из них, надо же, хотят изучать китайский. Какой процент ки- тайских умонастроений в целом можно прогнозировать и с какой надежностью? Если выводы малоубедительны, сколь- ко человек надо было опросить, чтобы прогноз был точным? Как эту тысячу надо было выбирать?
182 Глава 10. Статистика • Как контролировать качество продукции, проверяя не- большую часть изделий? • В каких пропорциях шить ботинки всевозможных раз- меров? • В каких пропорциях требуются специалисты различ- ного профиля? Соответственно, в каких пропорциях специ- алистов готовить? То есть какие университеты, училища, курсы открывать/закрывать? • Куда в государстве уходят деньги? • Каков процент ДТП, пожаров, скептиков, оптимистов, умалишённых? • Сколько на микрорайон с таким-то населением тре- буется школ, детсадов, парикмахерских? И даже сколько сумасшедших домов?
10.2, Как смотреть на статистику 183 И ясно, всех не пересчитаешь, ни гениев, ни психов. Нуж- ны средние показатели. Нужны гарантии, что эти показате- ли дают правильные представления. Как температура1 2, ка- ковая есть средняя кинетическая энергия молекул, которые пляшут как хотят, а градусы Цельсия стоят как вкопанные. Причём эти средние показатели в статистике, которая изучает в основном явления и процессы в общественной 2 жизни , приходится вычислять по сокращенным програм- мам. Не будешь же вычислять параметры всей генераль- ной совокупности, т. е. всех объектов, относительно кото- рых ставится тот или иной вопрос. Как правило, приходится ограничиваться малой выборкой3, и тогда для установления параллелей4 приходится нырять в глубокие воды. 10.2. Как смотреть на статистику В жизни очень важно правильно позиционировать всё, что делается. В частности, преподавание статистики в школе. Чего мы хотим добиться? Без ответа на этот вопрос учителя и ученики не могут нормально учиться. Не определившись, 1 Не та, что «средняя по больнице». 2 Если говорить одним словом. А если покопаться, то здесь и социально-психологические настроения по разным поводам, и кон- троль за показателями здоровья и за ассортиментом заболеваний, и за эффективностью работы государственных органов, и за статьями расходов, и за всякой всячиной. 3 То есть частью генеральной совокупности, которая охватывается измерением, опросом. 4 Речь о «совпадении» характеристик у генеральной и выборочной совокупностей.
184 Глава 10. Статистика обе стороны не в состоянии правильно расставить акценты. Кто-то начинает обучать всерьёз, словно будущих специа- листов по статистике. Понимая задним умом, что толку не будет. Потому что такие специалисты даже после универси- тета хорошо умеют вешать лапшу на уши, но как доходит дело до реальных задач — теряются5. Поэтому на проблему необходимо смотреть без огульных претензий. Смотреть — как есть. Что полезного можно сде- лать по поводу статистики в школе? Реально — дать общее представление и заложить стартовый потенциал, который то ли постепенно сойдёт на нет, то ли «выстрелит» в буду- щем, если потребуется. А «общее представление» поможет более гармонично существовать в этом мире, где статисти- ческое переливание из пустого в порожнее стало элементом культурного времяпрепровождения. Поэтому если специа- листа выковать невозможно, то его и не надо ковать6. Такой подход сильно меняет требования к процессу и отношение к результату. Рассказывать теперь можно не так сильно напрягаясь из-за деталей. Оставляя хвосты. Напи- рая на общую картину. Никакую «таблицу умножения» здесь учить не надо, разве что «среднее арифметическое как мато- жидание». Остальное вскользь, осматриваясь по сторонам. То есть разговаривая в основном о том, «что останется, ко- гда всё забудется». А это и есть самое главное. 5 Ибо статистика обманчиво проста на вид, но без жизненного не даётся в руки, будь она неладна. 6 Причём не только в отношении статистики.
10.3. Магистрали теории 185 10.3. Магистрали теории Обычно утверждается, что основной моделью в статисти- ке служит многократная реализация xi,...,xn случайной величины X, называемая случайной выборкой. Для удоб- ства часто говорят о наборе независимых случайных вели- чин Xi,... ,Хп, каждая из которых распределена так же, как X. Любую функцию еп = еп(х1,...,хп) называют статистической характеристикой (с.х.), или статистикой. Определению обычно подлежат вероятности тех или иных событий, матожидания, дисперсии, корреля- ции и другие параметры случайных величин на базе ста- тистических характеристик. Например, оценку матожидания тх можно получить по реализа- X I • • • I X ции случайной величины @п = —1 —-, которая в данном слу- чае является одной из возможных с.х. для определения тх. На практике статистика имеет дело со статистически- ми данными: опросами, измерениями. Никаких вероятно- стей нет. Но каждый раз вводится гипотеза о вероятностной природе процессов, порождающих наблюдаемые результа- ты. Бросается ли монета или рассматривается 100 знаков после запятой в разложении числа тг — теория предполагает, что это есть 100-кратная реализация с.в. X, принимающей соответствующие значения. Или, скажем, изучение доли р отличников в школах Магадана. Теория подменяет реаль- ность совсем другой моделью, считая для каждого ученика вероятность быть отличником равной р.
186 Глава 10. Статистика В подоплёке здесь много интересных теоретических изыс- каний. В первую очередь, конечно, надо отметить взаимо- действие основной вероятностной модели с частотной идео- логией (глава 8). Но тут фигурирует и кое-что ещё, что мы вынуждены оставить за кадром, соблюдая чувство меры. Это главным образом рождение хаоса в недрах детерми- нированного поведения и, наоборот, консолидация хаоса в детерминированные формы. Первое впечатление, что с.х. малоинтересны до скуки, отчасти справедливо, но они далеко не всегда сводятся к примитивному усреднению, как в случае тх. Статистические характеристики Bn(Xi,..., Хп) встре- чаются более сложные. При этом хлопот добавляет необхо- димость привходящего анализа. Если, например, речь идет об оценке неизвестного параметра 0, характеризующего с.в. X, то оценка 0 на основе ©п называется состоятельной, ес- ли7 0П —> 0 при п —> оо. Из закона больших чисел вытека- ет состоятельность среднеарифметической оценки матожи- дания. В оценках есть также другой существенный аспект. Оценка 0 на основе Qn называется смещенной/несмещенной, если матожидание Е {0П} при любом п равно / не равно 0. 10.4. Оценки средних показателей Выборочное среднее с.в. X, 7 Последовательность с.в. @п сходится к детерминированной вели- р чине в по вероятности, пишут ©п —> 0, если для любого е > 0 Р(|0П — 0| > е) —> 0 при п оо, см. раздел 11.6.
10.4. Оценки средних показателей 187 где в наборе независимых случайных величин Хх,...,Хп каждая распределена так же как Л", — в силу Е {Л-} = тпх является несмещённой оценкой. К тому же. D {1} = —. п Это означает, что с ростом п оценка становится всё точнее и надёжнее. Что касается оценки дисперсии (Х1 - X)2 + • • • + (Хп - X)2 п (10.1) то она «неожиданно» оказывается смещённой, (Ь) Е{Д} = ^Г1. (10-2) Из (10.2) следует, что для получения несмещённой оценки вместо (10.1) надо пользоваться формулой А, № - X)2 + - - + (Х„ - ху п п-1 (10.3) ◄ Убедиться в справедливости (10.2) довольно легко. По ходу дела пользуемся трюком (7.15) и независимостью всех с.в. Xi. Е{Ьп} = Е i i с учётом, что все ЕХг = тх, EX2 = Dx + m2. ►
188 Глава 10. Статистика 10.5. Доверительные интервалы Сегмент, которому принадлежит оцениваемый параметр 0 с вероятностью 8, называют доверительным интервалом, 8 — коэффициентом доверия, а 1—8 — уровнем значимости. О справедливости условия р{\о-еп\<£}>8, означающего 0 G (0П — £, ©п + е) с вероятностью 8, можно судить с помощью неравенства Чебышева р{|«-е„| <Е) ГТ i i £ 1 — D (0П) Для этого надо задать коэффициент доверия о =- /1-5 откуда 5 = у £) (0 р что в итоге определяет доверительный интервал (0n — e, Qn + е). Строго говоря, здесь заложено противоречие, поскольку на прак- тике обычно имеется реализация выборки и более — ничего. Поэтому в получаемых неравенствах «неизвестное» оценивается через «неиз- вестное». Дисперсию D (Оп) приходится определять по той же самой выборке. Однако противоречие снимается, если оценки состоятельны. Тогда D (@п) определяется с небольшой ошибкой Д, и £ = +О(Д)’ т. е. влиянием ошибки при определении дисперсии можно пренебречь. 9
10.6. Как устроена жизнь 10.6. Как устроена жизнь 189 При необходимости проведения, скажем, опроса населения — чистый математик оказывается неподготовленным к реше- нию задачи, поскольку на практике существенную роль иг- рают «невероятностные» обстоятельства. Идет ли речь об опросе избирателей, о социологическом анкетировании или о медицинском обследовании — из гене- ральной совокупности необходимо выбрать некоторую до- лю элементов. Как это сделать? Простейший, казалось бы, вопрос, но на пути его решения очень много препятствий. Теоретически ситуация выглядит элементарно. Берется, например, полный список жителей города, — и из него равновероятно выбирает- ся какая-то часть населения. Конечно, сама организация случайного выбора — непростая штука, но основные трудности — в другом. Да- же общий список с адресами и телефонами может быть проблемой. Список надо достать, завести в память компьютера миллион адресов, обработать. Проблемы на этом не заканчиваются. После получения в результате случайного отбора списка фамилий приходится «бегать» за каждым респондентом и добиваться от него согласия ответить на вопросы. География случайного выбора может оказаться неудачной, проблема неответивших и т. п. Но самое главное — это качество выборки, которая должна быть представительной, или репрезентативной. Выборка обязана моде- лировать генеральную совокупность, в ней должны присутствовать те же основные признаки и в тех же пропорциях. Это очень труд- но обеспечить, причём не по «математическим» причинам. Необходи- мо на задачу широко смотреть. Любые перекосы тут обесценивают выводы. Известный исторический пример — неудачная попытка по- пулярного американского журнала предсказать результат президент- ских выборов в 1936 году. Опрос миллионов потенциальных избирате- лей привёл к ошибочному прогнозу. Тогда как специалисты-социологи,
190 Глава 10. Статистика опросив всего 4000 человек, правильно предсказали победу Рузвель- та. Одна из причин была в том, что журнал, рассылая открытки, брал адреса из телефонных справочников, а телефоны в то время могли позволить себе лишь состоятельные люди, которые в среднем были против Рузвельта. Но голосовали-то потом «все»! Короче гово- ря, для организации выборки нужна прозорливость и предусмотри- тельность. Определённую роль тут играют специальные методики. Например, стратифицированная выборка с предваритель- ным разбиением генеральной совокупности на группы по какому-либо признаку и последующим случайным отбором внутри групп. Интерес представляют также гнездовые тех- нологии^ в которых случайно выбирается несколько групп с поголовным опросом внутри каждой. Нельзя забывать также, что есть задачи, где статистика играет совсем другую роль. Оценка физических параметров на основе мно- гократных измерений, статистическая оптимизация моделей техноло- гических процессов и кое-что ещё, где измерения объективны и есть понимание изучаемых процессов. При этом извлечение максимума воз- можного во многих ситуациях принципиально. Ошибка статистиче- ской оценки доли поглощаемых нейтронов приводит к атомному взры- ву, а плохая обработка химических анализов поверхностных проб поч- вы влечёт за собой холостое бурение километровых скважин.
10.7. Коварство средних показателей 191 10.7. Коварство средних показателей В случае равновероятных возможностей математическое ожидание случайной величины — это обыкновенное среднее арифметическое. То есть средние показатели, мелькающие там и здесь, вещь привычная и вроде бы прозрачная. Тем не менее в поведении средних встречаются неожиданности. • Может ли средняя успеваемость в обоих классах А и В возрас- ти после перевода Гены Сосискина8 из А в В? ◄ Может. Вот простой численный пример. Л 1 + 4 + 5 + 10 с D 1 + 3 4 2 Если условный господин с успеваемостью 4 переводится из А в В, оба показателя возрастают, 1 + 5 + 10 1 1 + 3 + 4 2 А з - 5з’ в • 3 " 3' k Ситуация, конечно, банальна, но для интуиции «почему-то» неожи- данна. Потому что наблюдение «если в одном месте чего-то убыло, то в другом — прибыло» возводится интуицией в ранг обобщения, которое цитрамоном не лечится. И пример (10.4) целебной силой не обладает. Поскольку для Бегемотика он убедителен, но непонятен. Идеологи- ческой ясности нет. Мистика какая-то, чудо. Поэтому в такого рода ситуациях желательно указывать наглядную причину. На рис. (10.5) на АВ расположены различные точечные массы. Центр масс, расположенных в круге А, находится в точке х; для круга В — в точке у. Если грузик, находящийся в точке z, переместить из группы В в группу А, то оба центра масс сместятся вправо. Потому что в В исключена масса «ниже среднего», а в А появилась масса «выше среднего». Проанализируйте аналогично перенос w из А в В. ) 8 Подразумевается, что успеваемость каждого ученика характери- зуется средним балом.
192 Глава 10. Статистика Проиграв, не упусти урок, — это ещё не вся мудрость. Извлекать урок желательно из любого эпизода. В данном случае оба контрпримера (10.4) и (10.5) решают исходную задачу, но круги по воде от них расходятся совершенно раз- личным образом. От первого даже не расходятся. Второй — объясняет и указывает причину9. Первый сродни механиз- му в футляре, работает, но почему — не ясно. Второй — обнажён, доступен и подталкивает мысль к продуктивным обобщениям. Перлы статистики. Не слишком утрируя действительность, допустим, что медики провели эксперимент по оценке влияния сред- ства «чирике» на заболевание «чикс». Как это всегда делается, кон- трольной группе давали плацебо. Гипотетические данные по Калуге и Рязани приведены в таблицах. Калуга чирике плацебо помогло 10 1 безрезультатно 80 9 10 1 10 + 80 > 1 + 9’ Рязань чирике плацебо помогло 10 89 безрезультатно 0 1 10 89 0+ 10 > 1 + 89’ Объединение результатов рождает химеру. В Калуге и Рязани чи- рике эффективнее плацебо, в целом — наоборот. 9 Заодно всплывает больше, чем требовалось. Из (10.5) сразу ясно, что вместо среднего арифметического с тем же успехом можно гово- рить о средне-взвешенном с произвольными весами.
10.7. Коварство средних показателей 193 Калу га+Рязань чирике плацебо помогло 20 90 безрезультатно 80 10 20 90 20 + 80 < 10 + 90’ Самое неприятное, что такого рода статистика — в об- лике экономических показателей и рейтингов — сваливается иногда на нас со страниц вполне респектабельных газет.
Глава 11 Комментарии и дополнения* С любого освоенного пятачка что-то ещё видно за горизонтом. Если не видно, то мы в ловушке, в футляре. Не ясно, где во Вселенной находимся, и беспокойство по этому поводу не позволяет учиться, работать, жить. Так что с психологической точки зрения фон, декорации — должны присутствовать. Совер- шенно необязательно, чтобы отчётливые, ясные, понятные, но они должны быть, чтобы психике и е-миропониманию было на что опереться. 11.1. Функции случайных величин Если Y = f(X), где f — обычная детерминированная функ- ция, а X — случайная величина с плотностью р(ж), то сред- нее значение Y = /(X), очевидно, равно f(x)p(x)dx.
11.2. Условные плотности* 195 Аналогично, ау = D (У) = J №) “ my]1 2p(x)dx. R С плотностью распределения Y — f(X) возни немного больше. Из рис. (11.1) видно, что1 Р{у < < у + dy} = рх (f 1(у))|[/ Ч?/)]'! \dy\, откуда функция распределения у F(y) = Р{У < у} = I рДГ1(у))|[Г1(г/)]'|^, — оо а плотность2 — Py(y)=Px(f 1(у)]/|> (U-2) где индексы ж, у показывают, какие плотности имеются в виду. 11.2. Условные плотности* При известной функции распределения F(u,v) = P{U < u,V <v} 1 Необходимые оговорки очевидны и для краткости опущены. 2 Подразумевается, что у = f(x) — монотонная функция.
196 Глава 11. Комментарии и дополнения* случайного вектора X — {U, V} имеем Fu(u) = P{U < u} = Р{/7 < u, V < оо} = F(u, оо). Аналогично, Fv(v) = F(oo,v). С другой стороны, откуда Условные плотности. Если события А и В означают соответственно выполнение неравенств: х < X < х+ Ах, у <Y < у+ Ау, то при достаточно малых Джи А у: Р(АВ) « р(х,у) кх ку, Р(А) « р(х) кх, Р(В|А) « р(у|а:) ку. Подставляя эти равенства в формулу Р(5|А) = переходя к пределу при А х, А у —> 0, получаем Р(АВ) Р(Л) и (11-3) что определяет условную плотность вероятности р(у\х).
11.2. Условные плотности* 197 Для кого-то, возможно, легче заменить вероятност- ную интерпретацию механической. Суть дела от это- го не меняется. Пластинка L единичной массы имеет плотность р(х,у). Тогда Рх(х) = Уp(x,y)dy L есть плотность распределения массы по х, а р(?/|жо) — относительная плотность распределения массы в сече- нии х = х$. Точнее, плотность распределения в полосе Х$ < X < Жо+ Ах при нормировании массы полосы на единицу и Дж —> 0. С этим стоит немного повозиться, чтобы исходные по- нятия и тривиальные по сути соотношения не отвле- кали при рассмотрении более сложных ситуаций. Из (11.3) вытекает часто используемая формула Р(х,У~) = р(,у\х)р(х). (11.4) Понятно, что в (11.4) х и у можно поменять местами. Через условную плотность определяются любые услов- ные моменты, в том числе условное матожидание: Е(У|т) = / yp(y\x)dy. Условное матожидание представляет собой решение оптимизаци- онной задачи Е [У - yi(A')]2 —» min, (11.5)
198 Глава 11. Комментарии и дополнения* где минимум ищется по функции 99. Решением оказывается </>(*) = Е(У|ж), т. е. 99 (X) = Е (У |Х) представляет собой наилучшее среднеквадрати- ческое приближение зависимости У отХ, называемое регрессией. 11.3. Неравенства Ниже даны вероятностные аналоги классических неравенств Коши—Буняковского (Ш-АА-6.7) и Йенсена (Ш-АА-13.6). Неравенство Коши—Буняковского: Е (|ХУ|) < х/Е(Х2)Е(У2). (П-6) ◄ Из Е {(А|Х| - |У|)2} > 0 следует А2Е (X2) - 2АЕ (|ХУ|) + Е (У2) О, а положительность квадратного многочлена (от Л) влечёт за собой от- рицательность дискриминанта, что представляет собой доказываемое неравенство. ► Из (11.6) сразу вытекает, что коэффициент корреляции всегда по модулю меньше или равен единице. fl«' Неравенство Йенсена. Пусть — вогнутая функ- ция и матожидание Е(Л") существует. Тогда Е^(Х) < у>(ЕХ). (И-7)
11.4. Подоплёка нормального закона 199 ◄ Для вогнутой (выпуклой вверх) функции ¥>(?/)+ </(з/)(д-у). Матожидание этого неравенства при х = X, у — Е X даёт (11.7). ► 11.4. Подоплёка нормального закона Широкое распространение нормального закона3, п. 7.7, р<д=(п-8) V 27Г<72 естественно, требует объяснения. Происхождение (11.8) при- нято относить в основном на счёт предельных теорем о сум- мах независимых случайных величин. Речь о следующем. При делении на п сумма Sn — Xi + • • • + Хп сходится в том или ином смысле (см. раздел 11.6) к мато- жиданию д = E{Xfc}. Специальная «нормировка» Sn позволяет стабилизировать среднеквадратическое уклоне- ние Sn и под этим «микроскопом» детально изучать поведе- ние Sn. На этом пути устанавливается, что для независимых с.в., имеющие одинаковое распределение со средним ц = О и дисперсией о-2, плотности с.в. Sn/у/п сходятся к нормаль- ному закону (11.8). Мы здесь не уточняем детали и обходим стороной некоторые аппаратные сложности, которые на из- бранном этаже описания были бы неуместны. 3 Для простоты положено тх = 0.
200 Глава 11. Комментарии и дополнения* Таким образом, нормальный закон возникает в типич- ных сценариях, когда случайная величина получается в ре- зультате сложения большого числа случайных факторов. Но есть и другие причины, которые не менее важны. Как это часто бывает, многое становится ясным при помещении задачи в более широкий контекст. Рассмотрим случайный вектор х = {а?1,... ,хп} с независимыми координатами Xi и плотностью распределения р(ж), зависящей только от4 х2 + • • • + х2г, т. е. р(ж) = р(х? + • • • + я£). (П-9) Этих предположений достаточно, чтобы гарантировать нормальное распределение всех Хг. Обоснование просто и поучительно. Незави- симость координат означает р(х) = pi(^i). •. pn(#n), т. е. 1пр(ж) = InpiOrJ + ... + \npn(xn). (11.10) Сравнение (11.10) и (11.9) показывает, что функции 1пр(ж) и х2 — — х2 + ... + а?™ имеют одни и те же поверхности уровня, а это возмож- но, лишь когда их нормали (градиенты) коллинеарны (одинаково или противоположно направлены), т. е. V In р(х) = XV х2, что даёт п равенств Рг (ж) + 2Аа?г = 0, интегрирование которых приводит к \npi(xi) = —Хх2 + const, т. е. / \ —А'г2 Pi(Xi)=pie 4 Например, если xt — скорости молекул газа, то распределе- ние молекул по скоростям зависит только от энергии (температуры) Е — ^т(х2 + • • • + #2). Такое предположение делал Максвелл.
11.4. Подоплёка нормального закона 201 Константы А и pi определяются нормировкой и заданием, напри- мер, второго момента оо оо j Pie~Xx* dx = 1, f x2pie~Xx^ dxi = a2. — oo — oo Окончательно xr + . •. + xn p(x) = (2тг(Т2) 2e ^тгсг2 . (11-11) Философски настроенной части населения больше нравится интер- претация нормального закона как распределения, максимизирующего энтропию. Точнее говоря, N(m, ст2) есть решение оптимизационной за- дачи: оо Н = f р(х) In p(x)dx max — оо при ограничениях оо оо оо j p(x}dx = 1, j xp(x)dx — rn. x2p(x)dx = a2 + m2. — oo —oo —oo Инструменты для решения таких задач находятся у нас вне пре- делов досягаемости. Но нас пока интересует финишный результат, ка- ковым оказывается плотность, соответствующая К(т,ст2).
202 Глава 11. Комментарии и дополнения* 11.5. Пуассоновские потоки ТВ в некотором роде стоит на трёх китах, на трёх зако- нах распределения5: биномиальном (8.9), нормальном (7.8) и пуассоновском. По большому счёту два последних можно в некотором роде исключить, поскольку нормальное распре- деление и пуассоновское являются асимптотическими вари- антами биномиального. Распределение Пуассона, как и биномиальное, является дискретным и характеризуется вероятностями ак р(Х = Ч = -е- (А; = 0,1,...). (11.12) ОО Легко убедиться, что а = 52 кР(Х = к), т. е. параметр а есть к=0 матожидание с.в. X, распределённой по закону Пуассона. Дисперсия X тоже равна а. Закон рк = аке~а/к\ получается из биномиального, если п —> оо и при этом вероятность р меняется так, что рп —> а. В данном случае установить асимптотику намного проще, чем для нормального распределения. Хотя, конечно, не без хлопот. Любители покопаться в деталях могут получить удовольствие. ◄ Итак, Скрк(1 — р)п~к при условии р = а/п можно записать в виде Л П Л fe-1 г \ п/ к п к\ ц р) (l-p)fc 5 Широко распространённых. Что не исключает, разумеется, дру- гих вариантов.
11.5. Пуассоновские потоки 203 Закон Пуассона получается с учётом при п —> оо. ► Распределение (11.12) играет важную роль при изучении потоков событий. Последовательность событий, происходя- щих в случайные моменты времени, называют потоком со- бытий. Это один из мощных пластов вероятностных задач. Телефонные вызовы, аварии, обращения к оперативной па- мяти, заявки, посетители — список примеров практически неисчерпаем. Типичные потоки событий обладают следующими свойствами: • количества событий, поступающие на непересекающихся интер- валах времени, независимы как случайные величины; • вероятность поступления одного события за малый промежуток At зависит только от длины промежутка и равна Л At + o(At), где Л > 0, o(At) — бесконечно малая от At; • вероятность поступления более одного события за время At есть о-малое от At. Соответствующее распределение пуассоновским. вероятностей оказывается P{X^=j} = ^e~xt (J = 0,1,2,...), Л — средняя интенсивность поступления событий, Л = EX(t) t
204 Глава 11. Комментарии и дополнения* Временная интерпретация t, разумеется, необязательна. Речь может идти о распределении точек на любой числовой оси или даже в пространстве при тех же предположениях, в которых под Д< надо лишь понимать малые объёмы. Пример, Допустим, случайная величина £, равномерно распре- делённая на (0, Т), реализуется п раз, что приводит к появлению на промежутке п точек. Сколько точек попадает в область Qe (0,Г)? Конечно, это в чистом виде схема Бернулли с вероятностью попа- дания отдельной точки в Q, равной р = 1/Т, где I — длина (мера) Q. Вероятность попадания к точек в Q определяется биномиальным рас- пределением Скрк(1 — р)п~к,и далее проторенным выше путём можно переходить к распределению Пуассона. Для подсознания важна интерпретация этого пути в исходных тер- минах. Интервал (0, Г) и количество «бросаний» п увеличиваются со- гласованно, так чтобы среднее число точек на единицу длины сохраня- лось. Вот, собственно, и вся специфика предельного перехода. Значе- ния Тип увеличиваются в одинаковое число раз, и тогда предельное распределение числа «попаданий» в Q оказывается пуассоновским. 11.6. Сходимость в ТВ Сталкиваясь с некоторым понятием и привыкая к нему, мы нередко ассоциируем с существом дела второстепенную атри- бутику. Поэтому на одно и то же понятие полезно смотреть с разных точек зрения, в новых обстоятельствах и декора- циях. В этом отношении сходимость в теории вероятностей даёт значительный целебный эффект. Вот три основных ви- да вероятностной сходимости, которые отличаются друг от друга не только по форме, но и по сути.
11.6. Сходимость в ТВ 205 • Последовательность случайных величин Хп сходится р к с.в. X по вероятности, Хп —> X, если для любого е > 0 Р(|ХП — Х| > е) —> 0 при п —> оо. • Последовательность случайных величин Хп сходится к с.в. X в среднеквадратическом, Хп '> X, если Е(Хп-Х)2^0. • Последовательность случайных величин Хп сходит- ся к с.в. X почти наверное (синоним: «с вероятностью единица»), Хп п,н'> X, если6 Р{\Хк-Х\ < е, к п} —> 1 при п —> оо. Сходимость по вероятности из перечисленных разно- видностей самая слабая. Импликация «-^>» «—>» очевид- на, а неравенство Чебышева обеспечивает «-^» «-^*». Обратное в обоих случаях неверно. ◄ Например, последователь- ность независимых с.в. Хп при условии Р{ХП = 0} = 1 - -, Р{Х„ = n} = 1 п п сходится к нулю по вероятности7, но не сходится ни в среднем, ни по- чти наверное. Действительно, Е = п —> оо, а расходимость почти 6 Вспоминая, что с.в. Хп есть на самом деле функция Хп(ш), мож- но сказать так: Хп X, если Хп(ш) сходится к Х(ш) в обычном смысле почти для всех ш за исключением множества нулевой меры. 7 Поскольку Р(|Хп| > е) =--> 0 при любом е > 0.
206 Глава 11. Комментарии и дополнения* наверное следует из более высоких соображений, из так называемой леммы Бореля—Кантелли, поскольку8 ОО ОО 1 £p{|xfc|>e} = £- = oo. ► Стоящие за кадром общие причины достаточно очевид- ны. Если сходимость по вероятности означает стремление к нулю меры событий {|ХП| > е}, то для «и.н.»-сходимости требуется достаточно быстрое стремление к нулю этой меры. Понятно, что это разные ситуации. Для «с.к.»-сходимости само по себе стремление к нулю меры событий {|ХП| > е} вообще недостаточно, посколь- ку здесь вступает в игру другой фактор: значения Хп на «плохих траекториях». Поэтому, кстати, «с.к.»-сходимость не следует даже из «п.н.»-сходимости. Пример: Р{ХП = 0} = 1 - 1, Р{ХП = п} = ± Для «п.н.»-сходимости стремление к нулю Р{|ХП| > е} здесь достаточно быстрое, но Е Х% = 1-^0. С к Наконец, Хп ’> 0 в случае Р{ХП = 0} = 1 — —, Р{ХП = 1} = -, п п но Хп не сходится к нулю почти наверное. Так что: < ► => «—>». Других импликаций нет. 8 Мы это упоминаем как нечто смутно виднеющееся вдали.
11.7. Задачи и нюансы 207 Ещё одна «проблема». Случайная величина Хп, опреде- ляемая соотношениями Р{ХП = 0} = 1 - Р{ХП = п2} = - сходится к нулю по вероятности, Хп —> 0, но Е {Хп} —* оо. Так часто бывает в некоторых типах игр, в том чис- ле — биржевых. Ожидаемый выигрыш, как говорится, «вы- ше крыши», на деле — почти гарантированный проигрыш. 11.7. Задачи и нюансы • О причинах парадоксов в ТВ. По поводу избытка па- радоксов заметим следующее. При изучении случайных ве- личин играют роль два фактора: вероятности и значения X. Сознание же не приспособлено следить за двумя пара- метрами одновременно. В результате простейшие вопросы ставят в тупик. Допустим, Р{Х 0} = Р{У 0} 1/2, причем X uY независимы. Вытекает ли отсюда Р{Х + Y ^0}^1/2? Нет. Если X, Y независимо принимают значения {—1,2} с вероятностями 1/2, то Р{Х + Y 0} = 1/4. • Задача о выборе невесты в миниатюре служит об- разцом задач об оптимальных правилах остановки. Сцена- рий выглядит так. Потенциальному жениху приводят по-
208 Глава 11. Комментарии и дополнения* следовательно п девушек. В любой момент он может оста- новиться: «вот моя невеста» — но возможности вернуться к какому-либо предыдущему варианту нет. Как гантели полезны для упражнений, но не для созер- цания, так и эта задача. Думать можно над эквивалентным вариантом: последовательно просматривая числа в какой-то момент надо остановиться и выбрать (как мож- но большее). Среди стратегий «просматриваются первые m чисел, по- сле чего выбирается первое же, превосходящее все ..., £т» — максимальную вероятность выбрать наибольшее даёт т, ближайшее к —. (?) • Парадокс раздела ставки. В хаосе разнообразных идей и технических приемов здесь есть наезженные пути и ха- рактерные модели. Определённый интерес в этом отноше- нии представляет метод фиктивного погружения. Вот как он работает. Матч до 6 побед прекращен досрочно при счете 5:3. В какой пропорции разделить приз? Конечно, это не парадокс, а проблема. Проблема, а не задача, потому что вопрос надо ещё правильно поставить. Наиболее логичен был Ферма. ◄ Его идея — в гипотетическом продолжении игры тремя фик- тивными партиями (даже если некоторые из них окажутся лишними).
11.7. Задачи и нюансы 209 При равновероятности всех 8 исходов второй игрок выигрывает матч лишь в одном случае — если побеждает во всех трёх партиях; поэтому справедливая пропорция 7:1. ► • Погружение задачи в более широкий круг фиктивных ситуаций во многих случаях даёт выход из положения либо обеспечивает дополнительные удобства. Задача Банаха. В двух коробках имеется по п спичек. На каждом шаге наугад выбирается коробка и из нее уда- ляется одна спичка. Найти вероятность Pk того, что в момент окончания процесса, т. е. опустошения одной из коробок, в другой — остается к спичек. ◄ Если одна коробка пуста, а в другой — к спичек, это означает, что спички брались 2п — к раз, причем п раз из (теперь уже) пустой коробки. Поэтому pk = ► При необходимости изучать задачу в целом (распределение рь при разных к) возникает определённое неудобство, связанное с выбором пространства элементарных событий Q. Вариант опустошения одной из коробок в момент п + j происходит на фоне других вариантов, ко- торые из-за переменной длины имеют разные вероятности. В итоге получается порочный круг. Для решения задачи надо построить Q, для чего требуется указать вероятности, которые ищутся. Узел развязыва- ет добавление к настоящим — фиктивных спичек. Тогда в качестве Q можно рассматривать 22n+1 равновероятных вариантов длины 2n+ 1. Такой длины всегда хватает для опустошения одной из коробок.
Глава 12 Короткие справки Годы учат тому, чего не знают дни. Ральф Эмерсон Учебник учит тому, чего не знает справочник. 12.1. Интегралы и производные 01я At Производная константы равна нулю: У = cf{x) у' = cf'(x).
12.1. Интегралы и производные 211 Производная суммы равна сумме производных: (f + g)' = f' + gf- Производная произведения равна (fg)' = f'g + fg'- • Функцию F(x) — такую, что Ff(x) = /(ж), равносильно dF(x) = f(x)dx, называют первообразной /(ж), или интегралом от /(ж), и обозна- чают как F(x) = / f(x)dx. • Величину ь I f(x)dx = F(b) - F(a) а называют определённым интегралом1 f(x) от а до Ь, который ра- вен площади под графиком у = /(ж) на отрезке [а, Ь]. Если /(ж) на [а, Ь] 1 Исходное определение определённого интеграла конструируется по-другому, как предельная сумма, см. раздел 2.3.
212 Глава 12. Короткие справки меняет знак, то площади фигур между графиком и осью иксов засчи- тываются со знаком «плюс» там, где f(x) > 0, и со знаком «минус» там, где f(x) < 0. ь ь f(x)dx. ь ь ь у*[/(ж) ± g(x)]dx = У f(x)dx ± j CL CL CL g(x)dx. b c J f(x)dx = У f(x)dx + • Несобственный интеграл функции f(x) от а до oo определя- ется как предел (конечный или бесконечный) lim • Если предел конечен, то говорят, что интеграл сходится. Если бесконечен, то — расходится. если 0 < р С 1, еслир > 1. —-—, если 0 < р < 1 р-1 еслир 1. 7Г 2’ xdx — оо. 1 О
12.2. Функции и пределы 213 /(ж) с 0 X 1 X2 lx Xх ЛжЛ-1 у/х 1 y/x 1 X _ 1 x2 ех ex ах ax Ina In X 1 X loga^ 1 xlnrr sin х COS X tgz 1 cos2 X ctg X 1 sin2 x arcsin x 1 y/1 — X2 arccos x 1 y/1 — X2 arctg x 1 1 +x2 arcctg x 1 1 + x2 J kdx = kx I dx = х I xx dx = * , жА+1; A^-l J A + l f exdx = ex ~7 1 / axdx = -—; a > 0, a 1 J Ina cos xdx — sin x sin xdx = — cos x Их ----2 — arctg x ~T dx I —t== = arcsin x J Vl - X2___________ I tg xdx = — In | cos ж| / ctg xdx = In | sin a? | T dx / ---2~ =^x J COS X T dx / 2~ = -Ctgtf J sin X 12.2. Функции и пределы • Последовательность ап при п —> оо сходится к пределу а, если неравенство |^п а| £ при любом £ > 0 может нарушаться лишь конечное число раз. Дру- гими словами, ап не разрешается выпрыгивать из любой фиксиро- ванной е-окрестности сколько угодно раз. в-окрестностью точки а называется интервал (а — е, а + е).
214 Глава 12. Короткие справки • Если an —> a, bn —> b и все an < bn, mo2 a < b. • Если an —> a, bn —> b, mo: Un + bn —> a + 6, | 7«n 7«Г| CLnbn ab U —> § при условии Ьп, b/0. • Числовую последовательность, стремящуюся к нулю, ап —> О, называют бесконечно малой величиной. • Лемма о трёх собачках. Если ап < Ьп < сп и «крайние» последовательности ап, сп сходятся к одному и тому же пределу, то к этому же пределу сходится и Ьп. • Лемма Вейерштрасса. Если последовательность ап моно- тонно возрастает и ограничена сверху — т. е. существуют такие М и N, что ап < М при любом п > N, — то она сходится к неко- торому пределу, ап —> а < сю. • Знаменитое число е = 2,71... определяется как предел • Число А называют пределом функции f(x) при х —> а, f(x) -> А при х —> а пишут также lim f(x) = А, х—*а если по любому е > О можно указать такое б, что О < |ж — а| < б влечёт за собой |/(ж) - Л| < Е. 2 Здесь и далее «для всех п» и «п —> оо» подразумеваются.
12.3, Вероятности 215 В случае х -+ оо конец определения таков: если по любому е > О можно указать такое М > 0, что |/(ж) — А| < е для любого х > М. • Эквивалентное определение. Число А называется пределом функции f(x) при х —> а, если f(xn) -> А для любой последовательности хп а (хп ф а). • Функция f(x) в случае /(я) —> О называется бесконечно ма- лой, в случае |/(ж)| —> оо — бесконечно большой. • Если f(x) —> 0, д(х) —> 0 и f(x)/g(x) —> 0, то говорят, что f имеет более высокий порядок малости по сравнению с д, и пишут f = о(д), читая «f есть о-малое от д». • Функция f(x) называется непрерывной в точке х$, если f(x) —► /(«о) пРи х —+ Xq . Функцию, непрерывную в любой точке [а, Ь], называют непрерывной на [а, Ь]. • Теорема. Непрерывная на [а, Ь] функция ограничена снизу и сверху и достигает минимального и максимального значения. > 12.3. Вероятности • Множество Q = {а>1, сиг, • • • } называется пространством эле- ментарных событий, если на Q задана функция p(coi), прини- мающая значения из [0,1] и удовлетворяющая условию нормировки £р(шг) = 1. Значения p(&i) считаются вероятностями элемен- тарных событий Wi. Множества AQQ называются события- ми. Их вероятности определяются как Р(А) — 52 р(^г)« • В случае Р(А) = 1 событие А называется достоверным, в случае Р(А) = 0 — невозможным. • В задачах, где элементарные события равновероятны, Р(А) всегда равно числу вариантов, составляющих А, делённому на число всех вариантов: число благоприятных вариантов .P^TT-J число всех вариантов
216 Глава 12. Короткие справки • Объединением, или суммой событий А и В называют событие, состоящее в наступлении хотя бы одного из событий А, В и обознача- емое как A U В или А 4- В. • Пересечением, или произведением событий А и В называют со- бытие, состоящее в совместном наступлении А, В, и обозначаемое как А П В или АВ. Р(А + В) = Р(Л) + Р(В) - Р(АВ). • Вероятность Р(А) события А может быть определена как предел —> Р(А) при N —> оо, (12.1) где N — общее число опытов, a N(А) — число опытов, в которых насту- пило событие А. Частотное свойство (12.1) следует из закона больших чисел. • Вероятность Р(В|А) наступления В при условии наступления события А называют условной, откуда Р(АВ) = Р(А)Р(В|А) , что именуют формулой умножения вероятностей. • События А п В называют независимыми, если Р(В|А) = Р(В). Формула умножения вероятностей (6.8) для независимых событий переходит в Р(АВ) = Р(А)Р(В). • Формула Байеса Р(-Ш)= Л(В|л,)Р!Л)-- £Р(В|Л.)Р(Л.)
217 12.4. Случайные величины 12.4. Случайные величины • Числовую функцию Х(со), заданную на Q, называют случайной вели- чиной (с.в.). А если особо не умничать, то сами элементарные события cjj можно считать числами. Либо наоборот, числа X — элементарными событиями. • Среднее значение тх = Е (X), Е(Х)= £X(W)P(W) называют матожиданием с.в. Х(со), а Е — оператором математи- ческого ожидания. Математическое ожидание функции-индикатора ХА (со) множества А, 1, если со е А; О, если со А, равно вероятности Р(А). • Если случайная величина X принимает случайные значения xi с вероятностями рг, то матожидание тх = Е (X) равно Шх - Е (X) = 57 хгРг- • Вероятность попадания случайной величины, имеющей плот- ность распределения р(ж), в диапазон [а,Ь] равна Р([а, b]) = / p(x)dx. Вероятность события {X < х} равна Ф(х) = Р(Х < х) = / p(u)du. — оо При этом Ф(х) называют функцией распределения с.в. X.
218 Глава 12. Короткие справки тх = Е (X) = / xp(x)dx R тх = Е (X) = j xd&(x) R • Нормальный закон распределения: р(ж) = 1 (я? — Шд;)2 • Величина D (X) = Е (X - тпх)2 называется дисперсией случайной величины X, где ах = v'D (X) ' есть среднеквадратическое уклонение X от среднего значения. • Корреляция случайных величин X, Y определяется как Rxy = Е [(X - mx)(Y - my)]. Часто используется коэффициент корреляции: • Теорема ЗБЧ. Пусть некоррелированные с.в. Xi имеют (каждая) матожидание ц и одну и ту же дисперсию а2. Тогда Xi + • • • + Хп а и среднеквадратическое уклонение к нулю как от матожидания стремится
12.5. Тригонометрические формулы 219 Sn =------► О при п —» оо. п • Неравенство Чебышева: Р(|Х - тж| £) • Теорема Ч. Пусть независимые случайные величины Xi име- ют одно и то же матожидание р и одну и ту же дисперсию а2. Тогда при любом е > 0 и п —* оо • Пусть случайная «01 ^последовательность 10 110... появляется в результате последовательности испытаний, в которых единица появляется с вероятностью р 6 (0,1), нуль — с вероятно- стью q = 1 — р. Проведение соответствующих независимых испытаний называют схемой, или последовательностью испытаний Бернулли. При этом вероятность получить к единиц в последова- тельности длины п равна Pk = Ckpkqn~k Набор таких вероятностей {ро,... ,рп} называют биномиальным рас- пределением в серии испытаний длины п. 12.5. Тригонометрические формулы с^ж= а tga; =1 sin ж = — С
220 Глава 12. Короткие справки sin2 х + cos2 х — 1 tg х • ctg x = 1 tgx = sin ж ctg X = C9sx cos x1 sin X . 9 Cl Tl 'P = 1 _ tg2 X Dill JU 1 + Ctg' 2 x 1 + tg2 X 2 nr» 1 _ ctg2 X COS X 1 + tg2 X 1 + ctg X nr* — = 1 nr' i~ 0UC JU — COSCC X — cos ж’ sin X cos(a ± /3) = cos a cos (3 =p sin a sin (3 sin(a ± /3) = sin a cos /3 ± cos a sin /3 tg(q±/3) = tg(a±p; izptgatg/3 sin a cos — sin(Q: + ® + sin(Q ~ 7 costa — Z?) + costa + /3) cos a cos p =---*---^2------~ ~ ~ costa — /3) — costa + /3) sin a sin (3 =--*---s-----------— sin 2a = 2 sin a cos a cos 2a = cos2 a — sin2 a tg2a= 2tg^~ 1 - tg2 a cos2q= 1 + c2°s~^ sin2a = 1 ~ c2°s~^ Z X A~ V X — У cos x + cos у = 2 cos —2^ cos —2" x А- У ' x — у cos x — cos у = — 2 sin —2^ sin — • '• 7T~- x A- у x — у sin x + sin у — 2 sin —2^ cos —2~ ё : x — у x A~ у sin x — sin у = 2 sin —2^ cos — cos 3a = 4 cos3 a — 3 cos a
12.5. Тригонометрические формулы 221 =Fctgx, Формулы приведения = cos a?, cos ( ± x j = sin x = =Ftgz sin(7r ± x) = =psinx, cos(tf ± x) = — cos x tg(7T ± x) ~ ± tg X, Ctg(7T ± x) = ± ctg X sin ( ± x = — cos x, cos I ± x j = ± sin ж tg ( ±x j = Tctgar, ctg ( ± x = ± tgx Обратные тригонометрические cos x = 7 x = ± arccos 7 + 2kir, k G Z sin х = у х = (—l)k arcsin 7 + &тг, k G Z tg x = 7 => x — arctg 7 + At7t, k e Z Arcsine = (-l)fcarcsine + Аттг, k 6 Z Arccos v = ± arccos v + 2Zctt , k 6 Z Arctg v = arctg v + /с7г, k € Z Arcctg v = arcctg v + ктг, к € Z a sin x + b cos x = л/п2 + 62 sin(x + </?) Единичная окружность
222 Глава 12. Короткие справки
12.5. Тригонометрические формулы 223
224 Глава 12. Короткие справки 12.6. Комбинаторика Элементарная (но не всегда простая) часть теории вероятностей в зна- чительной мере опирается на комбинаторику. • Размещения. Число различных вариантов выбора (с учётом порядка) к предметов из п предметов ai, 02,..., ап равно — n(n — 1) • • • (п — & + !)• ◄ Есть п способов выбрать один предмет из п, т. е. А\ = п. На каждый выбор первого предмета приходится п — 1 возможностей вы- бора второго (из оставшихся n — 1 предметов) — поэтому А^ = n(n — 1). И так далее. ► • Перестановки. Число всевозможных перестановок п предметов ai,..., ап равно «эн факториал» n\ = 1 • 2 • • • п, что очевидно из п! = А™. По соображениям удобства принимается 0! = 1. Для оценки п! при больших п удобна формула Стирлинга (12-2)
12.6. Комбинаторика 225 • Сочетания. Если к предметов из ai,...,an выбираются без учёта порядка (складываются в мешок), то число различных вари- антов (число сочетаний из п по к) равно п к\(п-к)1' ◄ Всевозможные размещения получаются перестановками элемен- тов в сочетаниях. Поэтому Акп = Скк\, что даёт формулу для с учётом того, что = п!/(п — к)!. ► • Перестановки с повторениями. Пусть имеется п предметов к типов Q1 ‘ • ♦ Q1 в2 ' • • • • • Qfc • • • G>k, •) 721 4~ • • • 4~ Пк = П1 П2 Пк Число различных перестановок этих предметов равно Ti\ Р(П1,П2, • • • ,пк) = -;---г2------7- П1!п2! .. .71*! (12-3) < о люоои перестановке рассматриваемой совокупности предметов, ничего внешне не меняя, можно п\ элементов <21 переставить между собой 721! способами, 722 элементов — 722! способами, ..., 72^ эле- ментов ak — Пк\ способами. Поэтому 721 !т22! • • • 72^! перестановок из 72! — неотличимы друг от друга, что приводит к указанной формуле. В слове «абракадабра» 5 букв «а», 2 — «б», 2 — «р», 1 — «к», 1 — «д». Из такого набора букв можно сделать 11! Р(5’2’2,1>1)=5!2!2!= 83010 различных буквосочетаний. • Выбор из к типов. Имеется к типов предметов, каждый тип представлен бесконечным количеством экземпляров. Число различ- ных способов выбора г предметов в данном случае игк = кг.
226 Глава 12. Короткие справки 12.7. Кое-что из алгебры • Корни а\, х2 квадратного уравнения х2 +рх + q = 0 даются формулой3 -р± \/р2 - 4с/ 2 • Теорема Виета: Xi + х% = — р, х ia?2 = q. • Пример деления многочленов столбиком : х3 4- 2а;2 — х + 3 |я? — 1 х3 — х2 х2 + Зх + 2 За;2 — х За;2 — За; 2а; + 3 2а; — 2 5 (12-4) • Произведённое деление даёт тождество х3 + 2а;2 — х + 3 = (а; — 1)(а;2 + За; + 2) + 5. • В общем случае деление многочлена Рп(а:) = хп + ап-хх^1 Ч-1- а^х + а0 (12-5) на (х — с) даёт в частном некоторый многочлен <Qn-i(a;) и некоторое число R в остатке, т. е. Рп(х) \х - с * Qn-1(®) R что равносильно тождеству Рп(ж) = (т - c)Qn_i(rr) + R, (12-6) (12-7) 3 ах2 + Ьх + с — 0 => —?> ± у/b2 — 4ас Ж1’2 =---------Га--------
12.7. Кое-что из алгебры 227 R = Рп(с). полагая в котором х = с, получаем теорему Безу4: остаток R при делении Рп(х) на (х — с) равен Рп(с), т. е. Основное тождество для логарифмов: log0 be = loga b + loga c, loga bc = cloga b. Формула перехода к другому основанию: • Графики с модулями и = ж, —яг, если если х О, х < 0. 4 Следствия см. в п. 6.10 - Ш-АА.
228 Глава 12. Короткие справки • Графики функций вида х2 + ах 4-6 х2 + сх + d (12.8) Далее чёрные точки на оси х соответствуют корням знаменателя (12.8), белые — корням числителя. Как ни удивительно, вид графика (12.8) зависит от расположения только этих точек, см. Ш-АА.
12.7. Кое-что из алгебры 229
230 Глава 12, Короткие справки . х2 + ах 4-6 А для у =------—-— сх 4- а • Некоторые примеры:
12.7. Кое-что из алгебры 231
232 Глава 12. Короткие справки • Геометрическое место точек, удовлетворяющих соотношению к - у\ + |х + у| = 2:
Обозначения ◄ и ► — начало и конец рассуждения, темы, доказательства > — утверждение приводится без доказательства — предлагает проверить или доказать утверждение в качестве упражнения либо довести рассуждение до «логиче- ской точки» — предлагает обратить внимание п. — пункт либо раздел * — указывает на отступление от основной линии изложения ТВ — теория вероятностей с.в. — случайная величина ЗБЧ — Закон больших чисел А => В, или А —> В — из А следует В х 6 X — х принадлежит X X U К, X А У, X\Y — объединение, пересечение и разность множеств
234 Обозначения X CY - X подмножество У, в том числе имеется в виду возможность X С У, т. е. между X С У и X С У различия не делается ~ — отношение эквивалентности, определяемое контекстом 0 — пустое множество N — множество натуральных чисел {1,2,...} Q — множество рациональных чисел (дробей) R = (—ос, оо) — вещественная прямая R2 — плоскость, R3 — трёхмерное пространство С — комплексная плоскость (а, Ь) — интервал, множество точек х G R, удовлетворяющих неравенствам а < х < b [а, Ь] — сегмент, или отрезок, множество точек х 6 R, удо- влетворяющих неравенствам а < х b 3 — существует V — для всех i — мнимая единица, г2 = — 1 z = х + iy — комплексное число (КЧ) z = r(cos</> + zsin</?) — тригонометрическая запись КЧ х = {яд,..., хп} — вектор, Xi — его координаты df(x) з / \ д. — производная (скорость изменения по х) функции f(x) в точке х, эквивалентное обозначение: /7(я:)
Обозначения 235 х — для производной по времени вместо xf(t) чаще исполь- зуется т, а для второй производной х ди . , —----частная производная функции и по переменной х дх V f(x) — градиент функции f(x), т. е. вектор Г а/ а/1 [ dxi ’ ’ дхп) 1 который направлен по нормали к поверхности постоянного уровня функции /(ж) и численно равен скорости максимального роста f(x) в точке х Р(А) — вероятность события А Е(Х) — математическое ожидание случайной величины X D (X) = Е [X — Е (X)]2 — дисперсия случайной величины X = ^/D (X) — среднеквадратическая ошибка Х(тж,сг2) — нормальное распределение с матожиданием тх и дисперсией а%. Q — пространство элементарных событий
Предметный указатель 6-окрестность 56, 213 Абсолютно сходящийся ряд 69 аддитивность интеграла 41 амплитуда 105 Байт 173 бесконечно большая величина 57 — малая величина 57, 214 бесконечный предел 57 — ряд 66 биномиальное распределение 160, 219 бит 165 блуждание многомерное 162 больше по вероятности 145 Вогнутость 92 вторая производная 14 выборка 183 — репрезентативная 189 выпуклость 92 Гармонический ряд 67 генеральная совокупность 183 геометрическое распределение 160 градиент 113 Дисперсия 150, 218 дифференциал 31 дифференцирование 19 доверительный интервал 188 Задача Банаха 209 — о выборе невесты 207 закон больших чисел 153 — нуля или единицы 163 — Пуассона 203 Избыточность сообщения 174 интеграл 38, 211 — неопределённый 39 — несобственный 48, 212 — определённый 41, 211 — Римана 82 интегрирование 38 — по частям 85
Предметный указатель 237 инфимум 109 информации количество 168 испытание 134 Касательная плоскость 114 код RLE 176 — двоичный 173 — Хэмминга 180 — Шеннона—Фано 175 кодирование 172 композиция функций 21 корреляция 151, 218 коэффициент корреляции 151, 218 круговая частота 105 Лемма Вейерштрасса 59, 110, 214 — о трёх собачках 58 локальный максимум 35 Мажорирующий ряд 68 максимум 91 матожидание 138, 217 метод Ньютона 33 минимум 91 момент n-го порядка 151 монотонность 88 Надграфик 93 натуральный логарифм 27 независимость 149 независимые события 133, 216 неравенство Йенсена 92, 198 — Коши—Буняковского 198 — Чебышёва 155, 219 нормальное распределение 147 нормальный закон 147 О-малое 30, 77 объединение событий 122, 216 оператор математического ожидания 138, 217 опыт 134 основное тождество для логарифмов 227 оценка смещенная / несмещенная 186 — состоятельная 186 Парадокс Кардано 123 — петербургский 141 — раздела ставки 208 — транзитивности 145 первообразная 38, 211 пересечение событий 122, 216 перестановки 224 — с повторениями 225 плотность вероятности 143 — условная 196 полная группа событий 123 полный дифференциал 112 порядок малости 64, 76, 215 — роста 76 поток событий 203 правило Лопиталя 87 предел 55 — функции 62, 214 признак Даламбера 70 — Коши 69
238 Предметный указатель пример Брауэра 98 произведение событий 122, 216 производная 12, 29 — п-я 14 — обратной функции 22 - сложной функции 21 пропускная способность канала 172 пространство элементарных событий 120, 215 Равномерное распределение 145 размещения 224 распределение Пуассона 202 расходящаяся последовательность 57 регрессия 198 ряд Тейлора 96 С.в. 138, 217 сечение Дедекинда 108 случайная величина 138, 217 — выборка 185 случайное блуждание 161 событие 120, 215 — достоверное 120, 215 — невозможное 120, 215 события несовместимые 122 сочетания 225 среднее значение 138, 217 среднеквадратическое уклонение 151, 218 средняя скорость 12 статистическая характеристика 185 сумма Дарбу 81 — событий 122, 216 супремум 109 схема Бернулли 158, 219 сходимость 55 — в среднеквадратическом 205 — по вероятности 205 — почти наверное 205 — с вероятностью единица 205 Теорема Безу 227 — Виета 226 — Лагранжа 81, 115 — Ролля 80 — Ферма 35 — Штольца 71 теория Дедекинда 107 — информации 165 — связи 171 — Шеннона 171 точка перегиба 91 Урновые модели 160 уровень значимости 188 условная вероятность 128 — плотность вероятности 196 условное матожидание 197 Формула Байеса 131, 216 — конечного приращения 81 — полной вероятности 131 — Стирлинга 43, 224 — Тейлора 96 — умножения вероятностей 130, 216
Предметный указатель — Циолковского 47 — Эйлера 97 функция непрерывная 65, 215 — распределения 144, 217 — Римана 98 функция-индикатор 138, 217 Частичная сумма 66, 67 частная производная ПО число е 27, 60, 214 239 числовая последовательность 54, 55 Эксперимент 134 экспонента 28 элементарное событие 120, 215 энтропия 165 — источника 170 — условная 178
К. А. Лэзан. Новые пути ознакомления детей с математикой Предлагаемая читателю книга предназначена для того, чтобы познакомить ребенка с математикой, развить его интерес к ней с целью дальнейшего систематического изучения. В отличие от обычных сборников математиче- ских развлечений, где уже известные теории применяются к различным головоломкам, автор настоящей книги пользуется играми как педагогиче- ским средством, чтобы привлечь внимание ребенка и таким образом позна- комить его без принудительных усилий с первыми и самыми существенными математическими понятиями. Л. В. Тарасов • Книги для школьников. ..и не только Вселенная: В просторы космоса Настоящая учебно-популярная книга открывает любознательному читателю мир астрономии, включающий Солнце, Луну, планеты, кометы, звезды и созвездия. Автор показывает, как постепенно, с древнейших времен до наших дней, менялись пред- ставления людей об окружающем мире небесных тел и явлений. В интересной и доходчивой форме вводятся многие астрономические понятия, описываются раз- личные методы исследования Вселенной. Книга хорошо иллюстрирована и содер- жит богатый фактический материал. Все это позволяет читателю получить серьез- ную подготовку к последующему глубокому изучению астрономии. В глубины вещества: Живые клетки, молекулы, атомы Настоящая книга, представляющая собой учебно-популярное издание, открывает любознательному читателю мир вещества, или микромир, включающий как атомы и молекулы, так и элементарные системы, из которых состоит живое вещество — клетки. Автор показывает, как формировались и изменялись представления людей о «первоначалах», из которых построен весь окружающий нас мир и мы сами. В ин- тересной и доходчивой форме описываются свойства и применения наиболее из- вестных химических элементов, даются необходимые сведения из физики, химии, биологии, излагаются методы исследования материи. Книга хорошо иллюстриро- вана и содержит богатый фактический материал* . > ЖИВЫЕ МЖЛЕТКИ йлёкулы АТОМЫ атмосфера 'ГИДРОСФЕРА ЛИТОСФЕРА Земля — беспокойная планета: Атмосфера, гидросфера, литосфера Настоящая учебно-популярная книга открывает любознательному читателю мир природных сфер Земли — атмосферы, гидросферы, литосферы. В книге в интерес- ной и доходчивой форме описывается внутреннее строение земного шара. Читатель получит представление о полезных ископаемых, о внутренних силах Земли (движе- ние литосферных плит, вулканы, гейзеры, землетрясения), о внешних факторах (выветривание, течение рек, обвалы и оползни), создающих рельеф нашей планеты, о давлении и различных явлениях в воздушной оболочке Земли — атмосфере, о сти- хии океанских волн и течений, о глобусе и географической карте. Земля — БЕСПОКОИМАЯ
Валерий Иванович Опойцев — доктор физико-математических наук, профессор. Выделяется умением сложное объяснять просто. Широко известны его «Лекции по математике» (под псевдонимом В. Босс), читайте также идущую нарасхват популярную книгу В. Босс. «Интуиция и математика» Отзывы читателей: Чтобы усвоить предмет, надо освободить его от деталей, обнажить центральные конструкции. Эту тяжёлую работу автор берёт на себя. Содержание продумано и хорошо увязано. Доказательства ужаты до нескольких строчек. Виртуозное владение языком. Даётся то, чего недостаёт. Общая картина, мотивация, взаимосвязи. И самое главное — легкость вхождения в любую тему. Все книги проекта ШКОЛА ОПОЙЦЕВА сопровождаются видеолекциями на oschool.ru и на youtube.com Издательская группа л URSS\ Каталог изданий в Интернете: http://URSS.ru E-mail: URSS@URSS.ru 117335, Москва, Телефон / факс Нахимовский (многоканальный) проспект, 56 +7 (499) 724 25 45 Отзывы о настоящем издании, а также обнаруженные опечатки присылайте по адресу URSS@URSS.ru. Ваши замечания и предложения буду1 учтены и отражены на web-ci ранице згой книги на сайте http://URSS.ru