Текст
                    ЛЕКЦИИ ПО
ЖС
АТЕМАТИЧКГОЙ
ФИЗИКЕ
А. Пуанкаре
ТЕОРИЯ
ВЕРОЯТНОСТЕЙ


COURSE DE LA FACULTE DES SCIENCES DE PARIS COURS DE PHYSIQUE MATHEMATIQUE CALCUL DES PROBABILITES PAR H. POINCARE MEMBRE DE L’INSTITUT, REDACTION DE A. QUIQUET, ANCIEN ELEVE DE L’ECOLE NORMALE SUPERIEURE. PARIS, GAUTHIER-VILLARS, IMPRIMEUR-LIBRAIRE DU BUREAU DES LONGITUDES, DE L’ECOLE POLYTECHNIQUE. Quai des Grands-Augustins, 55 1912
А. Пуанкаре ТЕОРИЯ ВЕРОЯТНОСТЕЙ Перевод с французского В. В. Шуликовской Научный редактор А. В. Летчиков Редакция журнала «Регулярная и хаотическая динамика» Ижевск 1999
УДК 511.6 Пуанкаре А. Теория вероятностей. — Ижевск: Ижевская республиканс- кая типография, 1999, 280 с. Книга является одной из частей курса лекций А. Пуанкаре. В ней рассмотрены как общие основы теории вероятностей, так и нетрадиционные вопросы, которые практически не содержатся ни в одном курсе. Рассмотрены различные приложения к физи- ке, математике и механике. Книга полезна широкому кругу читателей — физикам, ма- тематикам, историкам науки. Оригинал-макет подготовлен в редакции журнала «Регулярная и хаотическая динамика» http://www.rcd.com.ru © Редакция журнала «Регулярная и хаотическая динамика», 1999
Содержание Предисловие редактора перевода .................... 6 Введение .......................................... 9 Глава 1. Определение вероятностей................. 25 Глава 2. Сложение и умножение вероятностей........ 33 Глава 3. Математическое ожидание.................. 50 Глава 4. Теорема Бернулли......................... 64 Глава 5. Применение формулы Стирлинга ............ 72 Глава 6. Закон Гаусса и повторение испытаний...... 90 Глава 7. Непрерывная вероятность.................. 99 Глава 8. Различные приложения.....................110 Глава 9. Условные вероятности.....................128 Глава 10. Теория ошибок и среднее арифметическое . . . 141 Глава 11. Обоснование закона Гаусса...............158 Глава 12. Ошибка при нахождении координат одной точки187 Глава 13. Метод наименьших квадратов..............194 Глава 14. Вычисление ошибок, которых следует избегать 210 Глава 15. Теория интерполяции.....................233 Глава 16. Различные вопросы.......................250 Примечания редактора .............................276
Предисловие редактора перевода Читателю предлагается перевод книги «Теория вероятностей» ве- ликого французского математика Анри Пуанкаре (1854-1912). Вышед- шая в свет в 1912 году, эта книга стала учебным пособием для многих математиков, а также специалистов в различных областях науки, ин- струментом исследований которых стали теоретико-вероятностные ме- тоды. Очевидно, что в двадцатом веке теория вероятностей существен- но продвинулась вперед как в научном, так и в методическом направ- лениях. Пожалуй, не имеет смысла перечислять огромное количество учебников, в которых изложены современные концепции теории веро- ятностей. В каждом из них можно найти точные определения и свой- ства математических понятий вероятности, случайной величины, ее числовых характеристик — математического ожидания и дисперсии. Однако, увлекаясь формально-логическим описанием понятий теории вероятностей, авторы книг забывают о природе появления случайнос- ти, о приложении тех теоретических результатов, которые ими получе- ны. В противоположность этим учебникам А. Пуанкаре в своей книге не дает точных определений некоторых понятий, оставляет без стро- гих доказательств некоторые результаты, останавливаясь в основном на их идейном обосновании и подтверждении в приложениях. Такой подход дает возможность изучения теории вероятностей, не требую- щего овладения тяжелым математическим аппаратом, что делает эту книгу доступной для достаточно широкого круга читателя. Не менее важными являются философские воззрения Анри Пуан- каре, изложенные во введении этой книги. Развитие теории вероятнос- тей как математической науки, изучающей закономерности случайных явлений, в конце девятнадцатого века было предопределено серьезны- ми требованиями со стороны естествознания и общественной практи- ки. У многих исследователей того времени возникал вопрос о фунда- ментальной натурфилософской роли теории вероятностей. Более того, признание объективности статистических закономерностей поднимало вопрос об изучении условий их возникновения. Подавляющее большин- ство ученых того времени исходили из лапласовской картины мира. Та-
Предисловие редактора перевода 7 ким образом, возникла потребность построения такой картины мира, в которой объективные статистические законы, математические поня- тия вероятности и случайной величины не противоречили бы основным принципам концепции лапласовского детерминизма. Решая эту задачу, А. Пуанкаре как философ твердо придерживает- ся детерминизма. Для него случай есть производная от неопределен- ности в силу ограниченности знания данных. Анализируя реальную практику науки, А. Пуанкаре выделяет три основные причины, которые требуют использование понятия объективной случайности. Во-первых, это ограниченная точность измерения, не дающая возможность точно угадать результат эксперимента в тех ситуациях, когда малые возму- щения вызывают большие следствия. Во-вторых, сложность построен- ной модели эксперимента, когда результат определяет такое большое количество различных причин, что исследователю становится невоз- можным достоверно определить его. В этом случае, упрощая модель, исследователь вносит неопределенность в эксперимент. В-третьих, то, что А. Пуанкаре называет «невежеством». Такого рода причины возни- кают в тех ситуациях, когда исследователь в силу ограниченности сво- их знаний не может предопределить результаты своего эксперимента. А. Пуанкаре считал, что его рассуждения обосновывают наличие слу- чайности в мире, в котором ничто не происходит произвольно, подчи- няясь действию однозначных законов. Он видел, что наука все больше обращается к вероятностно-статистическим идеям, при этом, не всту- пая в противоречие с представлениями об однозначной детерминиро- ванности явлений действительности. Понимая важность развития теории вероятностей как математи- ческой науки, А. Пуанкаре в своей книге привлекает глубокий анали- тический аппарат для решения задач. Здесь можно найти методы мо- ментов и характеристических функций при доказательстве централь- ной предельной теоремы, методы наименьших квадратов и наибольше- го правдоподобия при статистической оценке неизвестных параметров, вычисление вероятностей методом производящих функций. Стоит вы- делить оригинальное построение изложения материала в книге и боль- шое количество задач из других разделов математики таких, как тео- рия чисел, алгебра, математическая физика, небесная механика, функ- циональный анализ, дифференциальная геометрия. Конечно, всю книгу нельзя назвать легкой для чтения. Введение и первые несколько глав под силу прочитать любому интересующемуся
8 Предисловие редактора перевода теорией вероятностей читателю, поскольку они не содержат сколько- нибудь серьезного математического аппарата. Последующие главы бо- лее трудны для чтения и требуют знания основных понятий матема- тического анализа, в частности, дифференциального и интегрального исчислений. Велико было искушение для редактора дать историческую и научную оценку каждого факта, приведенного в книге. Однако в этом случае пришлось бы переписать всю книгу. Редактор и переводчик кни- ги решили отказаться от этого и в целом постарались сохранить стиль изложения А. Пуанкаре, чтобы читатель мог самостоятельно оценить изящность и верность рассуждений великого математика. Несомненно, эта книга откроет для многих читателей, в том числе и математиков, новый взгляд на теорию вероятностей, на ее историю и на роль А. Пуанкаре в ее развитии. А. В. Лётчиков
Введение1 I. Случай «Не будет ли чрезмерной смелостью рассуждать о законах случая? Не является ли случай противоположностью любого закона?» Так пи- шет Бертран в начале своей «Теории вероятностей». Вероятность про- тивоположна определенности; это то, о чем не знают; следовательно, может показаться, что вероятность нельзя вычислить. Вот как мини- мум одно очевидное противоречие, о котором уже много написано. Кроме того, что такое случай? Древние различали явления, кото- рые, по-видимому, повиновались гармоническим законам, установлен- ным единожды и навсегда, и явления, приписываемые случаю; именно те, которые нельзя было предвидеть, т. к. они не подчинялись никако- му закону. Ни в одной области точные законы не определяли всего, они лишь очерчивали пределы, в которых дозволялось пребывать случаю. В рамках этой концепции слово «случай» имело точный, объективный смысл: то, что являлось случаем для одного, оставалось случаем и для другого, и для обоих сразу. Но мы больше не придерживаемся этой концепции; мы сдела- лись абсолютными детерминистами, такими, которые, желая сохра- нить за человеком права свободного арбитра, позволяют детерминизму по меньшей мере безраздельно править в неорганическом мире. Любое явление, каким бы малым оно ни было, имеет причину, и бесконечно мощный разум, бесконечно хорошо знающий законы природы, смог бы предвидеть все, от начала веков. Если бы подобный разум существовал, мы не могли бы играть с ним ни в какую азартную игру, мы бы всегда проигрывали. Действительно, для него слово «случай» не имело бы смысла, точ- нее, случая не существовало бы. Только по причине нашей слабости и нашего невежества случай существует для нас. Даже если не поки- дать пределы нашего слабого человечества, то, что является случаем 1Это введение взято из главы «Случай» моей работы «Наука и метод» («Science et Methode», Flammarion). — Прим. авт.
10 Введение для невежды, уже не будет таковым для ученого. Случай — не более чем мера нашего невежества. Случайные явления — по определению те, чьих законов мы не знаем. Но будет ли это определение вполне удовлетворять нас? Когда пер- вые халдейские пастухи следили за движением звезд, они еще не были знакомы с законами астрономии; пришли ли они к выводу, что звезды движутся случайно? Если современный физик изучает новое явление и открывает соответствующий закон во вторник, сказал бы он в поне- дельник, что это явление случайно? Более того, предсказывая какое-то явление, не ссылаются ли часто на то, что Бертран называет законом случая? Например, в кинетической теории газа мы находим известные законы Мариотта и Гей-Люссака, обязанные гипотезе, что скорость молекул газа изменяется нерегулярно, т. е. случайно. Все физики гово- рят, что данные законы оказались бы куда сложнее, если бы скорости подчинялись бы какому-нибудь элементарно простому закону, если бы молекулы были, так сказать, организованы, если бы они подчинялись какой-нибудь дисциплине. Только благодаря случаю, только благодаря нашему невежеству мы можем установить эти законы; но если слово «случай» — лишь простой синоним невежества, то что это значит? Надо ли это понимать следующим образом? «Вы требуете от меня предсказать некоторые еще не произошедшие явления. Если бы, к несчастью, я знал их законы, то я не смог бы решить вашу задачу без неосуществимых вычислений, и мне пришлось бы отказать вам; но так как я имею счастье не знать их, я вам сейчас же отвечу. И, что самое необычное, мой ответ будет верен.» Итак, надо признать, что слово «случай» не совпадает с тем именем, которое мы даем нашему невежеству, что среди явлений, чьи причины нам неизвестны, мы должны различать явления случайные, о которых мы предварительно узнаем в теории вероятностей, и неслучайные, о которых мы не можем сказать ничего, т. к. мы еще не определили зако- ны, которые бы управляли ими. Очевидно, что для первых, собственно случайных явлений, сведения, поставляемые теорией вероятностей, не перестанут быть верными в тот день, когда мы лучше изучим явления. Директор страховой компании, занимающийся страхованием жиз- ни, не знает, когда умрет каждый из его клиентов, но он ведет расчеты на основе теории вероятностей и закона больших чисел, и не ошибает- ся, и успешно распределяет дивиденды среди своих акционеров. Эти дивиденды не исчезли бы, если бы однажды какой-нибудь слишком
Введение 11 проницательный и болтливый медик решил с ведома полиции проин- формировать директора о шансах на жизнь его застрахованных. Этот медик рассеял бы неведение директора, но не имел бы никакого влия- ния на дивиденды, которые, очевидно, не являются результатом этого неведения. II. Определение случая Чтобы найти наилучшее определение случая, мы рассмотрим не- которые события из тех, что принято считать случайными, события, к которым кажется применимой теория вероятностей; затем мы выяс- ним, каковы их общие свойства. Первый пример, который мы выберем, будет связан с неустойчи- вым равновесием; мы хорошо знаем, что если конус поставить на вер- шину, то он сразу же упадет, но мы не знаем, на какой бок; кажется, что это может решить только случай. Если бы конус был совершенно симметричным, если бы его ось была совершенно вертикальной, если бы он не подчинялся никакой другой силе, кроме силы тяжести, он бы вообще не упал. Но малейший дефект симметрии заставит его легко наклониться в одну или другую сторону, а как только конус наклонит- ся, он совершенно упадет на эту же сторону, как бы ни был мал этот наклон. Даже если симметрия совершенна, одно очень легкое колеба- ние, одно дуновение ветра сможет наклонить его на угол в несколько секунд; этого будет достаточно, чтобы вызвать падение, и направление падения совпадет с направлением начального отклонения. Очень мелкая, ускользающая от нас причина вызывает значитель- ное следствие, которое мы не можем не заметить; тогда мы говорим, что этим следствием мы обязаны случаю. Если бы мы точно знали за- коны природы и состояние Вселенной в начальный момент времени, мы бы могли точно предсказать состояние этой же самой Вселенной в позд- нейший момент. Но даже если бы законы природы больше не были се- кретом для нас, мы все равно не смогли бы знать состояние мира иначе, чем приблизительно. Если это позволяет нам предвидеть дальнейшую ситуацию с тем же самым приближением, мы получаем все, что нужно, и говорим, что данное явление было предвидено, что оно управляется некоторыми законами; но так бывает не всегда, может случиться, что небольшие различия в начальных условиях порождают очень большую разницу в конечных явлениях; маленькая ошибка в первых производит
12 Введение большую ошибку в последних. Предсказание становится невозможным, и мы имеем случайное событие. Наш второй пример будет очень похож на первый, мы позаимству- ем его из метеорологии. Почему метеорологам с таким трудом удается предсказать погоду более-менее точно? Почему нам кажется, что ливни и даже бури приходят случайно, так что многие люди находят совер- шенно естественным молиться о дожде или ясной погоде, в то время как они сочли бы смешным просить в молитве о затмении? Мы видим, что наибольшие потрясения происходят главным образом в тех облас- тях, где атмосфера находится в неустойчивом равновесии. Метеороло- ги хорошо знают, что это равновесие неустойчиво, что где-то должен возникнуть циклон, но они совершенно неспособны сказать, где имен- но; одной десятой градуса в какой-нибудь точке больше или меньше — и циклон разражается здесь, а не там, и производит опустошение в местности, которую должен был бы пощадить. Если бы мы вычислили эту десятую долю градуса, мы бы смогли узнать о циклоне заранее, но наблюдения не были ни достаточно точны, ни достаточно интенсив- ны, и из-за этого все кажется обязанным вмешательству случая. Здесь мы снова находим тот же контраст между мелкой, незаметной для на- блюдателя причиной и значительными следствиями, которые иногда оборачиваются ужасными бедствиями. Перейдем к другому примеру, к распределению малых планет в по- ясе зодиака. Значения их начальной долготы могли быть любыми, но их средние скорости были различны, и эти планеты находились в дви- жении настолько долго, что сейчас мы можем считать их распределен- ными вдоль зодиака случайно. Очень маленькие начальные различия в расстоянии до Солнца или в средних скоростях дали огромную разни- цу в их нынешней долготе; действительно, излишек в одну тысячную секунды при среднем перемещении за день даст одну секунду за три года, один градус за десять тысяч лет, полную окружность за три или четыре миллиона лет, а что будет по истечении времени, прошедшего с тех пор, как малые планеты оторвались от лапласова облака? Вот еще один пример малой причины и большого следствия, точнее, маленьких различий в причине и больших различий в следствии. Игра в рулетку уведет нас немного в сторону, т. к. она непохожа на предыдущий пример. Предположим, что стрелка, которую можно пово- рачивать вокруг некоторой оси, находится на циферблате, разделенном на 100 секторов, красных и черных попеременно. Если стрелка остана-
Введение 13 вливается на красном секторе, партия выиграна, если нет — проиграна. Очевидно, все зависит от начального импульса, который мы сообщим стрелке. Я предполагаю, что стрелка сделает 10 или 20 оборотов, но она может остановиться более или менее быстро в зависимости от того, толкнул я более или менее сильно. Достаточно, чтобы импульс изме- нился всего на одну или две тысячных, — и моя стрелка остановится на черном секторе, или на следующем, который окажется красным. Мус- кульное чувство не в состоянии оценить эти различия, они ускользнули бы даже от очень тонких инструментов. Итак, я не могу предвидеть, что сделает стрелка, которую я только что толкнул, вот почему мое сердце бьется, и я полагаюсь на случай. Разница в причине неощути- ма, а разница в следствии имеет для меня очень большое значение, т. к. речь идет обо всей моей ставке. III Поговорим теперь о других примерах, в которых появятся немно- го иные свойства. Займемся сначала кинетической теорией газа. Как следует представлять себе заполненный газом сосуд? Бесчисленные мо- лекулы, наделенные большими скоростями, пересекают его во всех на- правлениях; каждое мгновение они ударяются о стенку сосуда или друг о друга, и эти удары происходят при очень разных условиях. В таком случае нас особенно интересует не малость причин, а их сложность. Кроме того, здесь присутствует и первая особенность, она тоже играет важную роль. Если бы одна молекула отклонилась от своей траектории вправо или влево на очень маленькую величину, сравнимую с радиусом взаимодействия молекул газа, она бы избежала удара или испытала бы его в других условиях, и направление ее скорости после удара измени- лось бы на 90° или, возможно, 180°. И это еще не все. Мы только что видели, что достаточно отклонить молекулу на бесконечно малую величину до удара, чтобы после удара она отклонилась на величину конечную. Если же молекула испытывает два последовательных удара, то перед первым из них достаточно будет отклонить эту молекулу на бесконечно малую величину второго по- рядка, чтобы после первого столкновения мы имели бесконечно малую первого порядка, а после второго столкновения — конечную величину. Но молекула не подвергается всего лишь двум ударам, она испытыва- ет очень большое число ударов за секунду. И если после первого удара
14 Введение величина отклонения умножается на какое-то очень большое число А, то после п ударов она умножится на Ап; отклонение окажется очень большим не только из-за того, что А велико, т. е. из-за того, что малые причины приводят к большим следствиям, но и потому что показатель степени п велик, т. е. потому что удары очень многочисленны и причи- ны этого сложны. Перейдем ко второму примеру; почему во время ливня капли дож- дя кажутся нам распределенными случайно? Конечно, из-за сложности причин, определяющих их образование. Представим себе ионы, рассеян- ные в атмосфере; долгое время на них действуют постоянно меняющи- еся потоки воздуха, они вовлекаются в вихри очень малых размеров, и их конечное распределение не имеет ничего общего с начальным. Вдруг температура снижается, водяные пары конденсируются, и каждый из этих ионов становится центром одной дождевой капли. Для того чтобы знать, каким окажется распределение этих капель и сколько их упадет на каждую мостовую, мало изучить начальное распределение ионов, требуется подсчитать воздействия тысячи вихрей воздуха, мелких и капризных. Произойдет то же самое, если мы будем рассматривать частицы пыли, взвешенные в воде; сосуд полон течений, их законы нам неиз- вестны, мы знаем только то, что они очень сложны; в конце какого-то промежутка времени частицы будут распределены случайно, т. е. рав- номерно, по всему сосуду, причем именно из-за сложности этих тече- ний. Если бы все они повиновались какому-то простому закону, если бы, например, сосуд вращался и течения циркулировали бы вокруг его оси, описывая круги, то картина была бы совсем другой, т. к. каждая частица сохранила бы свою начальную высоту и начальное расстояние до оси вращения. Можно прийти к тому же результату для смеси двух жидкостей или двух тонко размолотых порошков. В качестве более грубого приме- ра мы можем рассмотреть то, что происходит при тасовании игральных карт. При каждом движении карты подвергаются некоторой переста- новке (аналогичной тем, которые составляют предмет теории подста- новок). Какая из этих перестановок осуществится? Я утверждаю, что вероятность, с которой должна произойти именно данная перестановка (например, такая, которая помещает на п-ое место карту, изначально занимавшую место </?(п)), эта вероятность зависит от привычек игро- ка. Но если игрок будет тасовать карты достаточно долго, произойдет
Введение 15 большое число последовательных перестановок; в итоге конечный по- рядок карт будет определяться только случаем; я хочу сказать, что все возможные порядки будут равновероятны. Такой результат возникает из-за большого числа последовательных перестановок, т. е. из-за слож- ности явления. Наконец, несколько слов о теории ошибок. Здесь причины и слож- ны, и многочисленны. Сколько ловушек подстерегает наблюдателя, да- же вооруженного наилучшими инструментами? Надо по возможности замечать наиболее грубые из этих ловушек и избегать их. К наиболее грубым относятся прежде всего те, которые порождают систематичес- кие ошибки. Но даже если мы допустим, что нам удалось избежать их, остается много мелких ловушек, которые, при скоплении их последст- вий, могут стать опасными. Именно отсюда проистекают случайные ошибки; мы приписываем их случаю, т. к. их причины слишком слож- ны. Здесь снова имеются малые причины, но каждая из них приводит лишь к незначительным следствиям; только из-за их объединения и из-за большого количества этих причин их следствия становятся угро- жающими. IV Можно принять еще и третью точку зрения, которая не так важ- на, как две предыдущие, и на которой я бы настаивал меньше. Когда мы стараемся предвидеть какое-то событие и изучаем все, предшест- вующее ему, мы должны исследовать предыдущую ситуацию; но мы не можем сделать это во всей Вселенной и удовлетворяемся знанием того, что происходит по соседству с тем местом, где должно случиться наше событие, или того, что, по-видимому, имеет какое-то отношение к этому событию. Исследование не может быть полным, здесь надо уметь выбирать. Однако может случиться так, что мы оставим в сто- роне обстоятельства, которые изначально покажутся нам совершенно чуждыми ожидаемому событию, которым мы никогда бы не подумали приписывать какое-то влияние на него и которые, между тем, вопреки всем ожиданиям, сыграют важную роль. Человек идет по улице по каким-то своим делам; кто-то, находя- щийся в курсе этих дел, мог бы сказать, по какой причине он вышел в этот час, почему он идет по улице. На крыше работает кровельщик; нанявший его предприниматель мог бы в определенной мере предви-
16 Введение деть то, что он сделает. Но прохожий почти не думает о кровельщике, как и кровельщик о прохожем; кажется, что они принадлежат двум со- вершенно чуждым друг другу мирам. И все-таки кровельщик роняет черепицу, которая убивает прохожего, и, не колеблясь, говорит, что это случай. Наша слабость не позволяет нам объять всю Вселенную полностью, мы вынуждены делить ее на части. Мы пытаемся сделать это как мож- но менее искусственно, и тем не менее время от времени случается, что две таких части взаимодействуют между собой. И тогда последствия этого взаимодействия кажутся нам обязанными случаю. Будет ли это третьим способом понять случай? Не всегда. В дейст- вительности он восходит к первому или второму способам. Всякий раз, когда два мира, в общем чужие друг для друга, воздействуют друг на друга некоторым образом, законы этого воздействия обязательно будут очень сложны; с другой стороны, хватило бы очень маленького измене- ния начальных условий в этих двух мирах, чтобы их взаимодействие вообще не имело места. Как мало бы потребовалось, чтобы прохожий прошел одной секундой позже или чтобы кровельщик уронил свою че- репицу секундой раньше! V. Законы случая Все вышесказанное еще не объясняет нам, почему случай подчи- няется каким-то законам. Достаточно ли нам найти незначительные или сложные причины, чтобы предвидеть если не то, каковы окажут- ся результаты в каждом случае, то, как минимум, каковы они будут в среднем? Чтобы ответить на этот вопрос, лучше всего вернуться к какому-нибудь примеру из рассмотренных ранее. Я начну с примера с рулеткой. Как уже было сказано, место, где остановится стрелка, будет зависеть от сообщенного ей начального им- пульса. С какой вероятностью данный импульс имеет ту или иную величину? Я ничего не знаю об этом, но для меня естественней всего допустить, что эта вероятность представляется непрерывной аналити- ческой функцией. Вероятность того, что импульс заключен между а и а + е будет, таким образом, практически равна вероятности того, что он заключен между а + е и а + 2е при условии, что е очень мало. Это об- щее свойство всех аналитических функций. Малые изменения функции пропорциональны малым изменениям переменной.
Введение 17 Но мы предположили, что очень малой разницы в импульсе бу- дет достаточно для изменения цвета сектора, на котором остановится стрелка. От а до а + е он красный, от а + е до а + 2s — черный; вероят- ность получить красный сектор совпадет с аналогичной вероятностью для следующего за ним черного; поэтому полная вероятность красного равна полной вероятности черного. В этой задаче нам должна быть задана аналитическая функция, представляющая собой вероятность определенного начального импуль- са. Но теорема останется верной, какой бы ни была эта функция, т. к. результат здесь зависит от общего свойства всех аналитических функ- ций. Это означает, что мы не нуждаемся ни в каких данных. Все, о чем мы говорили в случае с рулеткой, так же можно при- менить и к примеру с малыми планетами. Мы можем рассматривать зодиак как гигантскую рулетку, на которую Создатель бросил очень большое число маленьких шаров и сообщил им различные начальные импульсы, меняя их при этом по какому-то закону. Нынешнее распре- деление планет равномерно и не зависит от этого закона по тем же причинам, что и в предыдущем случае. Итак, понятно, почему проис- ходящее повинуется законам случая, когда маленькие различия в при- чинах достаточны для возникновения большой разницы в следствиях. Можно считать, что вероятности этих маленьких различий пропорцио- нальны самим различиям, и именно потому, что эти различия малы, а малые приращения непрерывной функции пропорциональны прираще- ниям аргумента. Перейдем к совершенно другому примеру, в котором повсюду воз- никает сложность причин; я предполагаю, что какой-то игрок тасует карты. Каждый раз он меняет порядок карт, а изменить его можно многими способами. Для простоты изложения рассмотрим только три карты. Карты, которые до перестановки занимали места 12 3 соответ- ственно, после перестановки смогут занять места 1 2 3, 2 3 1, 3 1 2, 3 2 1, 1 3 2, 2 1 3. Каждая из этих шести гипотез возможна, и они имеют вероятности Pi, Р2, Рз, Ра, Р5, Рв соответственно.
18 Введение Сумма этих шести чисел равна 1, и это все, что мы знаем; все шесть вероятностей, естественно, зависят от привычек игрока, с которыми мы незнакомы. При второй и следующих перестановках все начнется сначала, в тех же условиях; я хочу сказать, что Р4, например, всегда будет рав- на вероятности того, что три карты, занимавшие после n-й и перед (п + 1)-й перестановками места 12 3 соответственно, эти три карты займут места 3 2 1 после (п + 1)-й перестановки. И это правило будет верным для любого числа п, т. к. привычки игрока, его манера тасовать карты, останутся теми же. Но если количество перестановок очень велико, то карты, занимав- шие перед первой перестановкой места 12 3, после последней переста- новки смогут занять места 1 2 3, 2 3 1, 3 1 2, 3 2 1, 1 3 2, 2 1 3, и вероятность этих шести гипотез будет практически одной и той же и равной этот результат останется верным для любых pi, ... , р6, которые нам неизвестны. Большое число перестановок, т. е. сложность причин, приводит к равенству вероятностей. Точно так же можно рассуждать в случае, когда имеется более трех карт; но даже для трех карт рассуждения будут слишком сложны, и я удовольствуюсь случаем всего лишь двух карт1. У нас есть только две гипотезы 12, 2 1 с вероятностями pi и р2 = 1 — Pi- Пусть есть п перестановок; я выиг- рываю 1 франк, если в конце карты займут первоначальный порядок, и проигрываю 1 франк, если в конце они поменяются местами. Итак, мое математическое ожидание равно (Pi -Рг)”. Разность pi — р2, разумеется, меньше 1; таким образом, при очень больших п мое ожидание будет нулевым, и нам не нужно знать pi и р2, чтобы выяснить, что игра честная. И все-таки здесь имеется од- но исключение, когда одно из чисел pi и р2 равно 1, а второе нулю. Но 1 Более полные вычисления смотрите в главе «Различные вопросы». — Прим. авт.
Введение 19 этот случай невероятен, т. к. тогда наши начальные гипотезы были бы слишком просты. Эти соображения применимы не только к тасо- ванию карт, но и ко всем перемешиваниям порошков и жидкостей, и даже молекул в кинетической теории газа. Возвращаясь к этой теории, представим себе газ, чьи молекулы не могут сталкиваться друг с дру- гом, но отражаются при ударе от стенки сосуда, в который заключен газ. Если форма сосуда достаточно сложна, то распределение молекул и их скоростей скоро станет равномерным. Но этого не случится, если сосуд сферический или имеет форму прямоугольного параллелепипеда. Почему? Потому что в первом случае постоянным останется расстоя- ние от центра сферы до произвольной траектории; во втором случае постоянной будет абсолютная величина угла траектории со сторонами параллелепипеда. Итак, видно, что следует понимать под слишком простыми усло- виями; это условия, которые сохраняют что-то неизменным, позволя- ют существовать какому-то инварианту. Будут ли дифференциальные уравнения в какой-то задаче слишком просты для применения зако- нов случая? На первый взгляд этот вопрос кажется лишенным точного смысла; но теперь мы знаем, о чем речь. Уравнения слишком просты, если они что-то сохраняют, допускают одинаковый интеграл; понятно, что если какое-то начальное условие остается неизменным, то конечная ситуация уже не сможет не зависеть от начальной. Перейдем, наконец, к теории ошибок. Мы не знаем, из-за чего про- исходят случайные ошибки, и именно из-за нашего незнания мы знаем, что они будут подчиняться закону Гаусса. Таков парадокс. Его можно объяснить примерно так же, как в предыдущих случаях. Нам нужно знать только одно: что ошибки очень многочисленны, что они очень малы, что каждая из них может быть как отрицательной, так и поло- жительной. Какая кривая изображает вероятность каждой из них? Ни- чего не зная, мы предполагаем только то, что эта кривая симметрична. Тогда можно доказать, что итоговая ошибка подчиняется закону Гаус- са, и этот итоговый закон не зависит от неизвестных нам частных. Так еще раз простота результата порождается сложностью самих данных.
20 Введение VI Мы постарались дать определение случая, и теперь следует задать себе один вопрос. Если мы смогли определить случай, то будет ли он иметь объективный характер? Мы можем спрашивать себя об этом. Я говорил о причинах очень малых или очень сложных. Но разве очень малое для одного не может быть большим для другого и то, что кажется очень сложным одному, не может показаться простым другому? Частично я уже ответил на этот вопрос, т. к. выше было совершенно точно указано, в каком случае дифференциальные уравнения становятся слишком просты для приме- нения законов случая. Но эту проблему следует изучить немного более подробно, т. к. здесь можно принять еще и другие точки зрения. Что означает выражение «слишком мало»? Для того, чтобы понять это, достаточно сослаться на слова, сказанные выше. Различие очень мало, интервал очень мал, когда в пределах этого интервала вероят- ность остается практически постоянной. А почему эта вероятность должна рассматриваться как постоянная на данном интервале? Потому что мы допускаем, что вероятностный закон представлен непрерывной кривой, и не только непрерывной в аналитическом смысле слова, но и практически непрерывной, как уже объяснялось выше. Это означа- ет, что у кривой не только нет точек разрыва, у нее также не будет слишком крутых или слишком резких подъемов и спадов. Но что позволяет нам выдвигать такую гипотезу? Как было ска- зано выше, причина в том, что от начала веков в мире есть сложные законы, не прекращающие действовать все еще в одном и том же на- правлении, и эти законы постоянно заставляют мир двигаться к одно- образию, так что он никогда бы не смог вернуться назад. Вот почему постепенно понижаются подъемы и уменьшаются спады, и из-за этого наши вероятностные кривые возрастают и убывают очень медленно. За миллиарды миллиардов веков будет сделан еще один шаг к единооб- разию, и интервалы возрастания и убывания кривой растянутся еще в десять раз: средний участок нашей кривой станет в десять раз больше. И тогда та длина, которая не кажется нам очень малой, т. к. на нашей кривой дугу такой длины нельзя считать прямолинейной, в ту эпоху станет, наоборот, рассматриваться как очень маленькая, т. к. крутизна подъема уменьшится в десять раз и дугу такой длины можно будет
Введение 21 практически заменить прямой линией. Итак, слова об очень малом остаются относительными; но они от- носительны не для одного и того же человека, а для современного со- стояния мира. Эти слова существенно изменятся, когда мир станет еще более однообразным, так что все еще больше смешается. Но тогда, без сомнения, люди не смогут больше жить, им придется освободить место для других существ; должен ли я сказать, лучших или худших? В том смысле, что наш критерий остается верным для всех людей, он остается объективным. С другой стороны, что означает выражение «очень сложное»? Я уже дал одно решение этой проблемы, то, на которое я сослался в начале на- шего параграфа, но есть и другие. Мы говорили, что из-за сложных при- чин возникает все более и более тесное перемешивание, но через какое время это перемешивание удовлетворит нас? Когда накопится доста- точно сложностей? Когда карты будут достаточно перетасованы? Если мы смешиваем два порошка, белый и голубой, то наступает момент, когда цвет смеси нам кажется одинаковым, но это происходит из-за несовершенства наших чувств; цвет уже кажется одинаковым дально- зоркому, т. к. он вынужден смотреть издалека, но он все еще неодинаков для близорукого. И когда цвет станет одним и тем же для всех взгля- дов, предел еще можно будет отодвинуть с помощью инструментов. Ни у одного человека нет шансов различить бесконечное разнообразие, ко- торое, если права кинетическая теория, скрывается под однообразной внешностью газа. Однако, если принять идеи Гуи о броуновском дви- жении, не окажется ли, что микроскоп способен продемонстрировать нам что-то аналогичное? Этот новый критерий так же относителен, как и первый, и если он сохраняет объективный характер, то от того, что все люди имеют прак- тически одни и те же органы чувств, а возможности их инструментов ограничены, да и используются они не иначе как в исключительных случаях. VII. Вероятность в гуманитарных науках То же самое происходит и в гуманитарных науках, особенно в ис- тории. Историк вынужден делать выбор между событиями изучаемой эпохи; он рассказывает только о тех из них, которые кажутся ему наи- более важными. Так, например, он довольствуется изложением лишь
22 Введение наиболее значительных событий XVI века и самых заметных фактов из истории XVII века. Если первых оказывается достаточно для объ- яснения вторых, говорят, что эти события «соответствуют законам ис- тории». Но если причиной какого-то крупного события XVII века ока- зывается мелкое проишествие XVI века, о котором не сообщил ни один историк, которым пренебрег весь мир, тогда говорят, что это собы- тие обязано своим происхождением случаю; слово «случай» имеет тот же смысл, что и в точных науках; оно означает, что малые причины произвели большое следствие. Самый большой случай — это рождение какого-нибудь великого человека. Только случайно может произойти встреча двух половых кле- ток разного пола, содержащих, каждая со своей стороны, в точности те таинственные элементы, чье взаимодействие должно произвести гения. Все согласны, что эти элементы являются очень редкими, а их встреча должна быть еще более редкой. Как мало требуется для того, чтобы отклонить несущий эти элементы сперматозоид с его пути; достаточно отклонить его на десятую долю миллиметра — и Наполеон не родился бы, и судьбы континента были бы иными. Ни один пример не может лучше заставить нас понять настоящий характер случая. Еще одно слово о парадоксах, возникающих при применении тео- рии вероятностей в гуманитарных науках. Было доказано, что ни одна палата никогда не содержала ни одного депутата от оппозиции или, по крайней мере, такое событие было бы настолько невероятным, что можно было бы не колеблясь ставить на обратное и спорить на миллион против одного су. Кондорсе постарался вычислить, сколько понадобится присяжных для того, чтобы судебные ошибки сделались практически невозможными. Если бы результаты этого вычисления были исполь- зованы, мы бы, конечно, испытали то же разочарование, которое ждет нас в споре, когда мы доверяемся подсчетам, говорящим, что оппозиция никогда не имеет своих представителей в палате. Законы случая неприменимы к таким вопросам. Даже если право- судие не всегда совершается по достойным мотивам, то оно хотя бы не доверяет методу Бридуа; возможно, напрасно, т. к. лишь случайные судебные ошибки могли бы защитить нас от системы Кондорсе. Что здесь можно сказать? Мы склонны приписывать случаю собы- тия этой природы, т. к. их причины темны; но это не настоящий случай. Конечно, причины неизвестны нам и даже сложны, но они сложны недо- статочно, т. к. сохраняют кое-что неизменным; мы видели, что именно
Введение 23 это отличает «слишком простые» причины. Когда люди сталкиваются друг с другом, они уже не ведут себя случайно и независимо друг от друга; они воздействуют друг на друга. Многочисленные причины при- ходят в действие, беспокоят людей, увлекают их направо и налево, но есть вещь, которую эти причины не могут разрушить, это наши при- вычки Панургова стада1. Они сохраняются в неизменности. VIII. Различные размышления Может возникнуть и много других вопросов; я бы хотел затро- нуть некоторые из них, прежде чем выделить те, которыми я займусь более подробно. Когда мы констатируем какой-то простой результат, например, находим круглое число, мы говорим, что подобный резуль- тат не может быть случайным, и пытаемся объяснить его причины неслучайным образом. Действительно, существует лишь очень слабая вероятность, что среди 10 000 чисел случай выберет круглое, например, 10 000; это всего лишь один шанс из 10 000. Но имеется не более одного шанса из 10 000 выбрать другое, не важно какое число; однако такой результат не удивит нас и не отнимет желания приписать его случаю; только из-за того, что он кажется менее поразительным. Будет ли это просто нашей иллюзией, или есть примеры, когда та- кой способ вйдения оправдан? Надо надеяться, что да, т. к. иначе все научные исследования стали бы невозможными. Что мы делаем, когда хотим проверить какую-нибудь гипотезу? Мы не можем проконтроли- ровать все ее следствия, т. к. их будет бесконечно много; мы удовлетво- ряемся проверкой только некоторых из них, и, если это нам удается, мы объявляем, что гипотеза подтвердилась, т. к. такой успех нельзя объяснить случаем. И этот способ лежит в основе всех рассуждений. Сейчас я не смогу полностью обосновать его, т. к. это заняло бы у меня слишком много времени; но я могу, по меньшей мере, сказать следу- ющее: у нас есть две гипотезы, т. к. наш результат может иметь либо одну простую причину, либо совокупность сложных, которые мы на- зываем случаем. Мы считаем естественным предполагать, что первая гипотеза должна приводить к простому результату, и если мы получа- ем простой результат, например, круглое число, то нам кажется более 1Толпа бессмысленных подражателей (из романа Ф. Рабле «Гаргантюа и Пантаг- рюэль»), — Прим, перев.
24 Введение правдоподобным приписать его простой причине, которая приводит к этому результату почти точно, чем случаю, который может дать нам его только с одним шансом из 10 000; но в действительности у простой причины не больше шансов привести к этому результату. В дальнейшем мы увидим, почему в таблице логарифмов десятич- ные знаки кажутся распределенными соответственно законам случая. Тот же вопрос можно задать о десятичных знаках числа тг. Но этот случай будет более тонким. Допустим, мы знаем, что число тг находится между 3 и 4, и рас- сматриваем первые п десятичных знаков; возьмем целую часть чис- ла 10"(тг — 3), она лежит между 0 и 10"; из 10" целых чисел, заклю- ченных в этих пределах, выбираем случайным образом одно; находим, сколько у него будет цифр 7 и 5 и насколько первое число превышает второе. Пусть это превышение равно е. Предположим, что среди на- ших 10" чисел есть N таких, у которых отношение меньше е. Закон больших чисел говорит нам, что N -10“" стремится к 1, ког- да п бесконечно растет. Итак, если мы выбираем число, лежащее в этих пределах случайно, то вероятность того, что превышение е и все анало- гичные превышения будут сравнительно малы, т. е. вероятность того, что десятичные знаки будут распределены равномерно, случайным об- разом, окажется очень близка к вероятности достоверного события. Но почему мы имеем право рассуждать так, как если бы число тг выбиралось случайно? Если бы вместо тг мы рассмотрели простую ра- циональную дробь, чья запись в десятичной форме порождает перио- дическую дробь, то результат вовсе бы не был верен. По-видимому, число тг кажется нам выбранным случайно, т. к. его происхождение сложно, и мы бессознательно рассуждаем об этом чис- ле так же, как о следствиях, возникающих из совокупности сложных причин.
Глава 1 Определение вероятностей 1. Почти невозможно дать удовлетворительное определение веро- ятности. Обычно говорят, что вероятность события равна отношению числа исходов, благоприятных для этого события, к числу всех возмож- ных исходов. Так, если первое число равно п, а второе N, то вероятность будет равна в известных случаях это определение не вызывает никаких сложностей. Вероятность вытащить короля из колоды в 32 карты рав- на 2 * 4/32, т. к. полное число всех возможных исходов, т. е. карт, равно 32, и среди этих карт есть четыре короля; получается, что N = 32, п = = 4. Когда бросают кость, вероятность получить 4 равна т. к. N = 6 и п = 1, потому что кость имеет шесть граней, из которых только одна содержит 4. Из урны, содержащей п белых и р черных шаров, вытаски- вают один шар; вероятность того, что он окажется белым, равна п п + р' 2. Рассмотрим немного более сложный пример. Две урны, нераз- личимые внешне, содержат: первая — п белых и р черных, вторая — п' белых и р' черных шаров. Пусть надо вытащить один шар; спрашива- ется, какова вероятность вытащить белый. Можно было бы сказать, что общее число исходов равно п + п' + р + р', а вероятность равна ----+ п------. В то же время можно сказать, что сначала могут пред- п + п + р + р ставиться два исхода, т. е. выбор первой или второй урны; вероятность 1 1 предпочесть первую урну равна -, вторую — тоже т. к. имеется столько же шансов протянуть руку к одной урне, как и ко второй. Ес- —v—; аналогичная вероят- п +р ли я опустил руку в первую урну, то вероятность того, что, выбрав первую урну, я вытащу белый шар, равна « 1 Т) ность для второй урны равна - • — L п + р
26 Глава 1 Сумма • —у-----Н 1 • ——- и будет правильной оценкой требуе- 2 п+ р 1 п -\-р мой вероятности, и две найденные оценки совпадут только в частном случае, когда —у— = ——-, т. е. Откуда вытекает это рас- П+р п + р р р хождение? Дело в том, что п + п' + р + р' исходов не будут одинаково вероятны. Так, предположим, что в первой урне шаров в два раза больше: п' +р' = +р). Вероятность того, что я выну один данный шар из этой урны, рав- на ; а вероятность вынуть его из второй урны будет равна п^_ Таким образом, в определение вероятности надо добавить: при условии, что все исходы одинаково правдоподобны^1). Приведем два других примера, принадлежащих Бертрану. 3. Задача о трех шкатулках. В каждой из трех одинаковых шкатулок А, В, С есть по два ящичка, а и /3; каждый ящичек в шка- тулке А содержит золотую монету, в В — серебрянную, а в С один из ящиков содержит золотую монету, другой — серебряную: АВС а золото серебро золото [3 золото серебро серебро Чему равна вероятность того, что, открыв случайным образом один из шести ящиков, мы найдем золотую монету? Шесть исхо- дов Аа, А[3, Ва, В(3, Са, С[3 будут равновероятны; из этих шести ис- ходов три: Аа, А[3 и С а — благоприятны для обнаружения золотой монеты. Итак, вероятность равна Если мы выбираем одну из шкатулок случайно, то вероятность выбрать С совпадет с |. Я открываю наугад одну из шкатулок и нахожу там золотую мо- нету; какова вероятность того, что вторая монета будет серебряной? Мне попалась либо шкатулка С, либо шкатулка А; в первом случае вторая монета будет серебряной, во втором — золотой. Кажется, что вероятность равна i. Но это заключение неверно.
Определение вероятностей 27 Перед тем как открыть шкатулку, я знал, что найду золотую или серебряную монету с одинаковой вероятностью, т. е. с вероятностью |; между тем я могу найти золотую монету в трех случаях, Аа, А0, Са, и из этих трех исходов лишь один С а благоприятствует обнаружению серебряной монеты во втором ящике. Когда мы в первый раз оценили вероятность как два рассмотрен- ных исхода не были равновероятны: исход А соответствовал Аа и А0 и был вдвое вероятнее, чем исход С, который соответствовал только Са. 4. Задача об игре в шары. Два одинаково искусных игрока, Пьер и Поль, играют в шары; Пьер должен бросить два шара, Поль — один, и победит тот из них, чей шар окажется ближе всего к цели. Чему равна вероятность того, что выиграет Поль? Пусть А и В — шары Пьера, С — шар Поля; если упорядочить шары по их близости к цели, то мы получим шесть возможных событий: ABC, ВСА, CAB, АСВ, СВА, ВАС. Эти шесть событий равновероятны; количество событий, обеспечиваю- щих победу Пьера, равно четырем, два события обеспечивают победу Поля; итак, Поль выигрывает с вероятностью |. Можно было бы рассуждать иначе: шар Пьера А может оказаться дальше от цели, чем С, или наоборот. А > С или А < С. То же верно для шара В: В > С В < С. Итак, возможны четыре случая: А > С и В > С, А < С и В > С, А> С и В < С, А < С и В < С. Только один исход, первый, благоприятен для Поля, т. к. его шар в этом случае ближе к цели, чем А и В; вероятность получается равной
28 Глава 1 Но эти четыре исхода не равновероятны. А > С и В > С соответствуют двум сочетаниям А < С и В > С соответствуют одному сочетанию А > С и В < С соответствуют одному сочетанию А < С и В < С соответствуют двум сочетаниям С АВ, СВА, АСВ, ВСА, АВС, ВАС. 5. Таким образом, полное определение вероятности включает в себя некоторое заявление о принципах, по которым распознаются все равновероятные исходы. Математическое определение здесь невозмож- но; нам придется в каждом случае заключить некоторое соглашение и заявлять, что мы будем рассматривать какие-то исходы как равно- вероятные. Эти соглашения не будут совершенно произвольными, но они ускользают от математического ума, и математик не должен их изучать, после того как они уже приняты. Следовательно, всякая вероятностная задача решается в два эта- па: первый, так сказать, метафизический, обосновывает то или иное соглашение; второй, математический, применяет к этим соглашениям какие-то численные законы^2). 6. Мы будем группировать вопросы, которыми собираемся зани- маться, по-разному в зависимости от разных точек зрения; сначала рассмотрим все вопросы с точки зрения возможных исходов. К первой группе мы отнесем все те задачи, где число возможных исходов конечно и не превышает определенные пределы; это задачи об азартных играх и простые задачи комбинаторного анализа. Ко второй группе относятся задачи, в которых число исходов оста- ется конечным, но становится очень большим; здесь можно получить лишь приближенные оценки вероятности, используя закон больших чи- сел, теорему Бернулли и т. д. Эти задачи составляют предмет статис- тики. В третьей категории число возможных исходов бесконечно. Так, если мы бросаем иглу на листок бумаги, на котором начерче- ны параллельные линии, то вероятность, с который игла пересечет одну из этих линий, зависит от бесконечного числа возможных исходов. Именно в этом последнем случае особенно важно очень тщательно определить предварительные соглашения. Пусть, например, известно, что дробное или иррациональное чис- ло х заключено между 0 и 1, и требуется узнать вероятность того,
Определение вероятностей 29 что х лежит между Ои количество возможных исходов бесконечно. Хочется сказать, что эта вероятность равна однако точно так же 1 можно сказать, что если 0 < х < то его квадрат, обозначим его у, 1 лежит между 0 и i. Если х2 = у, а х лежит между 0 и 1, то получаем, что 0 < у < 1. Благоприятными будут все случаи, когда 0 < у < если мы поде- лим интервал, заключенный между 0 и 1, на четыре равные части, то вероятность того, что у лежит между 0 и будет равна 4 1 4 Однако было бы грубой ошибкой оценивать в ± вероятность того, что х лежит между 0 и Действительно, в первый раз мы считали равновероятными две гипотезы: Хо < X < Хо + Е И Я?1 < X < Я?1 + Е, где е — одно и то же: во второй раз мы считали равновероятными гипотезы 2 - 2 - 2 , 2-2-2, Xq < X < Xq + Е И Х^ < X < Х^ + Е, и эти два соглашения противоречат друг другу. Здесь х — произвольная константа; выше, в задаче о бросании иг- лы, имелись три произвольные константы: координаты середины иглы и ее направление. В других вероятностных задачах еще больше произ- вольных констант или даже произвольных законов. Например, функ- ция у = f(x) может казаться более вероятной, чем другая такая же функция; это происходит при интерполяции. Такие задачи мы отнесем к четвертой группе^3). 7. Примем другую точку зрения. Вопрос о вероятности возникает только из-за нашего невежества: если бы у нас были все данные о проблеме, то не имело бы места ничего, кроме определенности. С другой стороны, наше невежество не должно быть полным, иначе мы бы вообще не смогли ничего оценить. Поэтому можно классифицировать вероятностные задачи в зависимости от того, больше или меньше глубина нашего невежества. Например, вероятность того, что шестой десятичный знак произ- вольного числа из таблицы логарифмов равен шести, a priori совпадает 1 с в действительности все условия в этой задаче определены, и если
30 Глава 1 бы мы хотели потратить время на подсчеты, мы бы узнали эту веро- ятность точно. То же самое получается при интерполяции, вычислении интегралов по методу Котеса или Гаусса и т. д. В физических задачах наше невежество становится больше; речь идет о предвидении события, т. е. о каком-то будущем явлении, кото- рое, с одной стороны, зависит от явления предыдущего, с другой сторо- ны, — от закона, объединяющего предыдущие с последующим. Может случится так, что мы знаем этот закон, но не предыдущее явление; с какой вероятностью произойдет последующее? Допустим, например, что мы знаем закон движения молекул; если бы мы точно знали их начальное расположение, мы бы смогли сказать, где они будут находиться в данный момент; вероятность, с которой эти молекулы займут определенное конечное положение, будет зависеть от вероятности, которую мы по договоренности припишем той или иной начальной позиции. В каждом случае необходима какая-то отдельная гипотеза. Так, когда ищут вероятность того, что кометы имеют эллиптичес- кие орбиты, надо заключить соглашение, предполагать, что на большом расстоянии от Солнца эти небесные тела распределены в пространстве равномерно, так же как и направления их скоростей. Другой аналогичный вопрос: будут ли случайны пробелы, возни- кающие в ряду малых планет? Их начальное расположение опять неиз- вестно, но астроном знает закон их движения. Какие соглашения отно- сительно их начальных позиций следует выбрать в этом случае? Сложно сделать это, не впадая в произвол. Однако есть гипотезы, которые кажутся совершенно невероятными: нельзя допустить, что на- чальные скорости таковы, что все орбиты имеют один и тот же экс- центриситет. С другой стороны, может случиться так, что какие-то результаты окажутся в определенной мере независимыми от принятого закона, со- единяющего предыдущее с последующим. Рассмотрим очень большое число малых планет с различными средними скоростями; их радиус- векторы, длйны, начальные скорости распределены по какому-то за- кону. Через очень большой промежуток времени эти малые планеты распределятся равномерно по всем долготам. Их число будет одинако- вым в равных секторах.
Определение вероятностей 31 8. Наконец, может случиться так, что в других задачах наше не- вежество окажется еще большим, и сам закон ускользнет от нас. В этом случае определить вероятность практически невозможно. Если, напри- мер, х — неизвестная функция от t, то мы не знаем точно, какую вероятность надо изначально приписать величине я?о, чтобы найти ti X (It. to Тогда мы часто позволяем себе положиться на некоторое смутное чувство, которое очень сильно в нас; мы не умеем оправдать его, но без него в любом случае невозможна никакая наука. Самые точные законы возникают из отдельных экспериментов, чьи результаты следует обоб- щать. Когда Кеплер выводил свои законы из наблюдений Тихо Браге, кто-нибудь мог возразить ему: «Тихо Браге не всегда смотрел на небо, не могло ли случится так, что, когда он его не наблюдал, закон, который вы ищете, изменялся?» Конечно, Кеплер нашел бы это возражение смешным, он бы отве- тил: «Эта гипотеза совершенно неправдоподобна». Тем самым он бы ап- пелировал к этому плохо определенному чувству вероятности. 9. Задачи на условную вероятность1 будут более тонкими, чем задачи о вероятности следствий. Когда мы только что решали задачу об урне, мы знали, что в ней было п белых и р черных шаров; когда мы искали вероятность вы- тащить белый шар, причина была известна: причиной была урна с п белыми и р черными шарами. Но можно поставить обратную задачу, когда я знаю, что в урне всего п + р шаров, но не знаю, как они распределены. Я вытаскиваю черный шар; чему равна вероятность того, что черных шаров больше, чем белых? Это и есть условная вероятность. Мы постоянно проводим параллели с физикой; законы известны нам только по их следствиям, которые мы наблюдаем. Пытаться вы- вести из следствий законы, касающиеся причин, и означает решить задачу на условные вероятности. 1В оригинале используется термин Probabilete des causes, т. е. вероятность при- чин. — Прим, перев.
32 Глава 1 10. Не настаивая больше на метафизической стороне вероятност- ных вопросов, с единственной целью побудить к размышлениям на эту тему, я замечу еще, что вероятность может быть субъективной. Можно иметь какие-то личные основания верить, что одна гипотеза вероятнее другой. Вероятность может быть объективной, например, в статистике, когда ищут вероятное число людей, которые умрут в течение года; однако это число немного скачет. В каких пределах наши предвидения подтверждаются? И почему? Это немного таинственно, недоступно математику. Как бы то ни было, в математическом изложении теории вероят- ностей я буду придерживаться порядка, обозначенного выше. Я начну с задач, в которых число возможных исходов конечно; за- тем, в случае очень большого числа исходов, я изучу теорему Бернулли и ее следствия, условные вероятности, задачи, где возникают произ- вольные константы; в предположении, что число исходов бесконечно, я изложу теорию ошибок, очень важный раздел; наконец, я покажу, как можно находить законы, т. е. произвольные функции.
Глава 2 Сложение и умножение вероятностей 11. Вычисление вероятностей основывается на двух теоремах: те- ореме сложения вероятностей и теореме умножения вероятностей. Имея два события А и В, можно ставить различные вероятност- ные задачи в зависимости от того, сколько событий должно произойти: одно, оба или ни одного. Либо А и В происходят оба — гипотеза, которую я назову АВ. Либо А происходит, В нет — гипотеза, которую я назову АВ'. Либо А не происходит, В происходит — гипотеза, которую я назо- ву А'В. Либо ни А, ни В не происходят — гипотеза, которую я назову А'В'. Предполагаем, что АВ реализуется в а различных исходах, АВ' реализуется в /3 различных исходах, А'В реализуется в 7 различных исходах, А'В' реализуется в 6 различных исходах. Общее число возмож- ных исходов равно а + [3 + 7 + заранее предполагается, что исходы равновероятны. Рассмотрим различные вероятности. Вероятность того, что А про- изойдет, равна а + /3 Pi =-----д-------(Л) а + [3 + 7 + 6 где благоприятны исходы АВ и АВ'. Вероятность того, что В произойдет, равна а + 7 а + [3 + 7 + (В) а вероятность того, что произойдет как минимум одно из двух событий, равна а + /3 + 7 а + (3 + 7 + (Л или В)
34 Глава 2 где благоприятны три первых исхода ЛВ, АВ' и А'В. Вероятность того, что оба события произойдут, равна /'4 = . г,а.——~v G4 и В) а + р + 7 + 6 где благоприятна только одна гипотеза АВ. Еще мы должны рассмот- реть вероятность того, что А произойдет, если произошло В: 1Г = (А’ если В)- В не произошло, равна (Л, если В'), Мы заранее знаем, что В произошло, поэтому число возможных исходов сократилось, как и число благоприятных. Вероятность того, что А произойдет, если Рб = /3 + 6' где (3 + 6 — число возможных исходов. Вероятность того, что В произойдет, если произошло Л, равна = Де- (в- “™ Л) Вероятность того, что В произойдет, если известно, что А не про- изошло, равна Р8 = 7 (В, если Л') 7 + о 12. Вышеупомянутые теоремы сводятся к простым тождествам. Рассмотрим pi, р2, рз, Ра- Имеем Pi +Р2 = Рз + Р4, о О: + 7 Pi = аА/З + у + б = а + 7 ' а +/3 + 7 + <5 = Р2 'Р5' аналогично р± = pi рт- Итак, сумма вероятностей того, что произойдет Л, и того, что про- изойдет В, равна сумме вероятностей того, что произойдет хотя бы одно из них, и того, что оба они произойдут: (Л) + (В) = (Л или В) + (Л и В)1. 1Здесь и далее имеется в виду сумма и умножение соответствующих формул.
Сложение и умножение вероятностей 35 Вероятность того, что А и В оба произойдут, равна вероятности того, что произойдет В, умноженной на вероятность того, что произой- дет А, когда известно, что В произошло. Или, наоборот, она равна вероятности того, что А произойдет, ум- ноженной на вероятность того, что В произойдет в предположении, что должно произойти А (А и В) = (В) • (Л, если В) = (Л) • (В, если Л). 13. Предположим, в частности, что а = 0, откуда р4 = 0; тогда Pi +Р2 = Рз- Когда два события не могут произойти одновременно, вероятнос- ти Л и В дают в сумме вероятность того, что какое-то одно из них произойдет. Так, когда событие может произойти двумя разными способами, причем эти два способа не могут встретится одновременно, вероят- ность наступления данного события равна сумме вероятности того, что оно произойдет первым способом, и того, что оно произойдет вторым способом. Это и есть теорема сложения вероятностей. 14. Может случиться, что р$ = р±. Тогда а + 7 а + /3 + 7 + откуда а + 7 _ а + /3 + 7 + J а а + (3 а + /3 _ 7 + J а ~ у а _ 7 [3 6'
36 Глава 2 Когда выполняется это последнее условие, имеем /7 = ps; так же pi = рв, если поменять местами а с [3 и 7 с кроме того, р2 = = р7, так как /7 меняется на р2, а р$ на р?-, и аналогично р2 = р». Итак, Р1=Р5=Рв, P2=P7=PS- Иначе говоря, вероятность того, что А произойдет, остается одинако- вой, известно ли, что В произошло, или известно, что В не произошло; другими словами, вероятность А не зависит от В. Говорят, что эти два события независимы. Из р5 = pi получаем Р4 = Pi -Р2', вероятность того, что оба независимых события произойдут, равна про- изведению вероятностей каждого из них. Это теорема об умножении вероятностей. 15. Из колоды в 32 карты одновременно вытаскивают 2 штуки. Вероятность того, что первая карта — король, равна _ 1 Pi 8, вероятность того, что вторая карта — король, равна 1 Р2 = 8; вероятность того, что обе вытащенные карты — короли, равна 4x3 Р4 “ 32 х 31 ’ Среди всех размещений карт по две, то есть 32 х 31, ищем те, которые благоприятствуют нашему событию: их будет 4x3, так как в колоде 4 короля, и из них можно сформировать столько же размещений по 2, сколько из 4 букв. Вероятность того, что среди 2 карт будет как минимум один король, равна РЗ = Pl + Р2 - Pl = 8 х 31 - 12 32 х 31 Нельзя говорить, что вероятность наличия хотя бы одного короля равна удвоенной вероятности того, что есть один король.
Сложение и умножение вероятностей 37 Урна содержит К шаров, занумерованных от 1 до К. Если искать вероятность появления № 1 при одновременном доставании двух ша- ров, то № 1 может стоять либо на первом шаре, либо на втором; эти два события несовместны и полная вероятность равна , 2 Pi +Р2 = от- вернемся к королям из колоды карт. Будут ли наши события не- зависимы? Неверно, что Р4 = pi Р2', но Р4 = pi • рч. Обращаясь к значению р7, видим, что если первое событие А про- изошло, то остаются только 3 короля и 31 карта, и вероятность наступ- ления В равна Итак, 4x3 Р4 ~ 32 х 31 ’ Другой пример независимых событий: я бросаю две игральные кос- ти; какова вероятность того, что на каждой выпадет 6? Вероятность того, что на первой выпадет 6, равна |. Вероятность того, что на второй выпадет 6, равна |. Вероятность того, что на обеих выпадет 6, равна так как эти два события независимы. 16. Условие независимости не всегда так же очевидно, и теорему умножения можно применить неправильно, что и случается довольно часто. Допустим, я ищу закон распределения попаданий при стрельбе из пистолета; у меня нет данных ни о стрелке, ни о пистолете. Получается вопрос в стиле: «Каков возраст капитана?» Тем не менее возьмем две оси координат с началом в центре ми- шени: пусть х и у — прямоугольные, арии — полярные координаты точки М. Задача остается неопределенной, даже если мы считаем вероят- ность попаданий одинаковой во всех направлениях. Вероятность того, что М находится в малом элементе поверхнос- ти da, можно обозначить как /(ж, у) da.
38 Глава 2 Следует определить /(х; у); чтобы вероятность оставалась одина- ковой во всех направлениях, эта функция должна зависеть от р; тогда эта вероятность запишется как /(р) da. Найдем вероятность того, что абсцисса точки попадания лежит между х и х + dx; она представляется как <р(х) dx. Так же вероятность того, что ордината точки попадания лежит между у и у + dy, представляется как №) dy. Но чтобы вероятность оставалась одной и той же во всех направле- ниях, следует предположить, что <р и ф равны; тогда во втором случае имеем tp(y) dy. Теперь проведем неправильное рассуждение: найдем вероятность того, что М находится в малом прямоугольнике со сторонами dx и dy. Должны одновременно произойти два события: 1° абсцисса лежит между х и х + dx-, 2° ордината лежит между у и у + dy. В силу теоремы об умножении вероятностей искомая вероятность будет <р(.У) dxdy. С другой стороны, эта вероятность выражается через f(p) da; итак, имеем = f(p)- Возьмем производные от логарифмов обеих частей по перемен- ной х, помня, что р2 = х2 + у2; получим _ Шх Лр) р' Итак, Ш X (р(х) p-f(pY и, аналогично, у<р(у} p-f(p)'
Сложение и умножение вероятностей 39 Левые части каждого из этих уравнений зависят от х и у соответ- ственно; они равны между собой, следовательно, это константы. </(^) _ Г / \ — ^5 X • (р(х) ln<£(x) = —Н In С, hx2 <р(х) = С • е 2 . Это рассуждение неверно: мы применили теорему об умножении вероятностей, то есть предположили, что события независимы; иначе говоря, положение пули относительно оси абсцисс не зависит от ее по- ложения относительно оси ординат. Опишем четыре одинаковых относительно da области вокруг четы- рех вершин А, В, С, D прямоугольника со сторонами, параллельными осям координат. Назовем а, [3, у, 6 соответствующие вероятности того, что М попадет в каждый из этих элементов поверхности. Я предположил, что ордината пули была одинакова для В и D, расположенных на параллели к оси ОХ, что ее абсцисса одинакова для А и В, расположенных на одной параллели к оси Оу; иначе говоря, что т? = -X? но эта гипотеза совершенно беспочвенна^4). р о 17. Максвелл допустил ту же ошибку в теории газа. Рассмотрим газ, образованный очень большим количеством молекул, наделенных разными скоростями; как будут распределены эти скорости у разных молекул? Выберем трехмерную прямоугольную систему координат и помес- тим в ее начало вектор, представляющий полярный радиус, широту и долготу скорости молекулы. Оценим вероятность того, что конечная точка М этого вектора находится в малом элементе объема dr. Если я естественным образом предполагаю, что скорости практи- чески одинаковы во всех направлениях, то эта вероятность будет пред- ставляться как /(г) dr. Вероятность того, что первая координата лежит между х и х + dx, запишется как (р(х) dx; вероятность того, что вторая координата лежит
40 Глава 2 между у и у + dy, запишется как </?(у) dy, вероятность того, что третья координата лежит между z и z + dz, запишется как <p(z) dz. Вероятность того, что М находится в малом параллелепипеде со сторонами, параллельными осям координат, равна f(r)dxdydz. Если бы теорема об умножении вероятностей была применима, мы бы сразу получили /(г) = (p(x)(p(y)(p(z), а это неправильно. 18. Задача о выборах. Эта задача допускает изящное решение, принадлежащее г. Андре. Имеются два кандидата, А и В; хорошо осве- домленный избиратель заранее знает, что А будет иметь т, а В — п голосов, где т больше п. Требуется найти вероятность того, что А бу- дет иметь большинство в течение всей процедуры подсчета бюллетеней. Чтобы оценить число возможных исходов, заметим, что т бюлле- теней А и п бюллетеней В могут появляться в таком количестве разных порядков, сколько есть перестановок с повторениями из т букв А и п букв В, то есть (т + и)! ml п! Я разделю возможные исходы на три группы. В первую я помещу те исходы, когда А имеет большинство в нача- ле и сохраняет его все время, пусть здесь имеется Ni благоприятных исходов. Во вторую группу я помещу все исходы, когда первый бюллетень принадлежит В-, то есть А теряет большинство в начале; здесь ЛГ2 бла- гоприятных исходов. В третью я помещу все исходы, когда А имеет большинство в на- чале, но затем теряет его, чтобы восстановить к концу; здесь Лгз бла- гоприятных исходов. Имеем -/Vi + Л^2 + Нз — (m + п) ml nl ’ то есть надо подсчитать —--------—. TVi + 2V2 + № Оцениваем Ns: первый вскрытый бюллетень подан за В-, уберем его, и останется т бюллетеней А и (п — 1) бюллетеней В. Число воз-
Сложение и умножение вероятностей 41 можных исходов равно (т + п — 1)! т\ (п — 1)! что дает нам величину N2- Я хочу показать, что Лгз = .Уг- Лемма 1. * Предположим, что на выборах голоса разделились по- ровну: подано q бюллетеней за А и q — за В. Допустим также, что в начале А имеет большинство голосов и сохраняет его до последнего бюллетеня, а потом теряет, так как в конце голоса делятся поровну, последний бюллетень, таким образом, содержит имя В. Будем вскры- вать их в обратном порядке, тогда В потеряет большинство только с последним бюллетенем. В какой-то определенный момент голосования вскрыто а бюллете- ней А и Ь бюллетеней В и известно, что а > Ь, так как большинство голосов у А. Остается вскрыть q — a бюллетеней А и q — Ь бюллетеней В. При обратном порядке голосование уже показало бы, что q — b > q — а, т. е. у В было бы большинство. Доказав лемму, вернемся к нашей задаче. Рассмотрим комбинацию а из третьей группы: ААВАВ^ВАВАА. (а) Здесь А имеет преимущество вплоть до черты, затем, со следую- щим бюллетенем, теряет его в первый раз. Пусть слева от черты у А есть q, у В есть q — 1 бюллетеней, т. е. всего 2q — 1 бюллетеней. Рассмотрим другую комбинацию, которую назовем производной от а: ВАВАА\ААВАВ. Она получается, если взять из а последовательно бюллетени с местами 2q, 2q + 1, 2q + 2, ... , т + п, 1, 2, ... , 2q — 1, т. е. перенести налево от черты то, что было справа, и наоборот.
42 Глава 2 Если 2д-й бюллетень будет по определению первым, где А потеря- ет большинство, то каждая комбинация а будет иметь единственную производную комбинацию. Теперь рассмотрим комбинацию /3 из второй группы; она начина- ется с В: ВАВАААВА-, (13) к концу большинство имеет А. Образуем комбинацию (З1 следующим способом: сначала первый бюллетень с именем В, затем последний бюллетень из (3, затем пред- последний и т. д., то есть бюллетени (3 в обратном порядке вплоть до второго: ВАВАААВА-, (/3') Ясно, что сперва В имеет большинство голосов, но к концу теряет его. Предположим, что 2р-й бюллетень в первый раз отнимает его у В большинство. В нашем примере он второй по счету. Комбинация (3' слу- жит для определения числа р: в нашем примере это единица. Бюллетень, занимающий в (3' 2р-е место, в (3 занимает (т + п + + 2 — 2р)-е место. Я помещу в (3 черту перед членом, занимающим это место: ВАВАААВ\А. (13) Рассмотрим, наконец, следующую комбинацию, которую я обозна- чу 7 и назову производной от /3; я начну с бюллетеней, стоявших справа от черты (в примере он только один), а затем возьму те, что были слева: А\ВАВАААВ. (7) Бюллетени (3 взяты в порядке т + п + 2 — 2р, ... , т + п, 1, 2, ... , т + п — 2р, т + п + 1 — 2р. Я заявляю, что эта производная всегда принадлежит к третьей группе. Во-вторых, (т + п + 2 — 2р)-й бюллетень должен быть А, т. к. в (3' он отнимет у В большинство; итак, 7 начинается с А. Кандидат А не будет все время сохранять большинство. Действи- тельно, первые 2р бюллетеней 7 — это первые 2р бюллетеней (3', взятые
Сложение и умножение вероятностей 43 в обратном порядке; а согласно предположению, после вскрытия этих 2р бюллетеней оба кандидата имеют равное число голосов. Итак, в 7 кандидат А теряет большинство, и 7 принадлежит к третьей группе. Таким образом, каждая комбинация из второй группы имеет, при- чем единственную, производную, принадлежащую к третьей группе. Я заявляю, что если для какой-то комбинации а из третьей группы я образую ее производную /3, а затем — производную от /3, то я вернусь к а. Покажем, что два соответствует р в /3. Действительно, образуем /3': ВВАВАА\ААВА. (/3') Если я беру 2д первых бюллетеней из /3', то это в точности 2q первых бюллетеней из а, вскрытых в обратном порядке, и по лемме В потеряет большинство только к концу; с другой стороны, мы знаем, что в /3' кандидат В потеряет большинство только с 2р-ым бюллетенем; итак, Р = Q, и производная от /3 будет а. Если я составляю комбинацию /3, я получаю из нее производную 7; этой же производной от /3 будет а. Можно сказать, что комбинации второй группы сопряжены с ком- бинациями из третьей так, что каждая комбинация будет производной от своей сопряженной из другой группы. Итак, Лгз = Ад: ЛГ2 + ЗУз — 2 • (т + п — 1)! ml (п — 1)! ’ АА + ЗУ~з _ 2п М + ЛА + 3V3 ~~ т + п' Это вероятность того, что А не всегда имеет большинство, а 3Vi _ _ 2п _ т-п Nr + N2 + N3 ~ т + п ~ т + п'
44 Глава 2 19. Задача об игральных костях. Бросают п костей и спра- шивают, какова вероятность того, что общее число очков равно К. Предположим сначала, что костей только две; для каждой из них возможны шесть разных исходов, а вместе они дадут тридцать шесть комбинаций: 1 1 12 2 1 1 3 2 2 3 1 1 4 2 3 3 2 1 5 2 4 • • 1 6 2 5 • • 2 6 • • Из этих комбинаций: одна соответствует числу К = 2, 2 соответствуют числу К = 3, 3 соответствуют числу К = 4, 1 соответствует числу К = 12. Вероятность получить 2 равна о Вероятность получить 3 равна —, О Вероятность получить 4 равна Займемся общей задачей об п костях, здесь полное число воз- можных исходов 6"; действительно, пусть а±, «2, • • • , ап — одна из комбинаций, каждое из чисел а может принимать шесть значений: 1, 2, 3, ... , 6; тогда искомое число — это количество сочетаний с по- вторениями из 6 букв по п, то есть 6". Общее число очков должно равняться изначально заданному К, ОД + СИ2 + . . . + СИп — К. Рассмотрим один из 6" возможных исходов и поставим ему в со- ответствие одночлен /"' • /"'2 •... • 1\
Сложение и умножение вероятностей 45 Составим из этих одночленов сумму П, меняя ах, а2, , ап от 1 до 6. п = £^ что можно переписать как П = (ti + + ... + i®)(i2 + ^2 4" • • • 4" ^2) • • • (^n + ^2 4" • • • 4" £«)• Это произведение n сомножителей; полагаем в нем ti — ^2 — • • • — tn — t. Одночлен примет вид £Q:i+Q:'2 + --- + C>'n _ j-K а многочлен П вырождается в (t + tn + + Пусть N — число благоприятных исходов; имеем N одночленов, равных tK, и их сумма равна NtK, и, если составить сумму ^NtK по всем возможным значениям К, то ^2 NtK = П. Искомая вероятность равна Величину N легко сосчитать. Это п-я степень суммы членов геометрической прогрессии: / 7 \ п П=(^у) = (f-f7)” • (1 (t — tr)n и (1 — t)~n можно разложить по формуле бинома; найдя про- изведение двух разложений, я получу коэффициент при tK, то есть N. Вернемся к случаю двух костей. Получаем (7 — t7)2(l — i)-2 и (i - t7)2 = t2 - 2i8 + i14, (1 — i)-2 = 1 + 2i + 3£2 + . • • • 1Метод вычисления вероятностей таким образом сейчас известен как метод про- извольных функций.
46 Глава 2 Оценим коэффициент при tK в произведении этих двух разложе- ний. Во-первых, К не превосходит 12; затем мы рассмотрим два случая: когда число очков лежит от 2 до 7 и когда оно лежит от 8 до 12. Если число К равно, самое большее, 7, т. е. К 7, то в первом раз- ложении не надо брать ни t8, ни £14, и придется рассматривать только t2 + 2/3 + З/4 + ... + 6i7. Итак, для значений 2, 3, 4, ... , 7 величина N соответственно рав- на 1, 2, 3, ... , 6. Если К равно или превосходит 8, то не надо рассматривать i14, и придется сосчитать только £2(l + 2f + ...)-2i8(l + 2£+ ...). Коэффициент при !к в первом одночлене будет К — 1. Коэффициент при t8 во втором одночлене будет — 2; при t9 — 4; и т. д.; при tK — 2(К — 7). Итак, N = К - 1 - 2{К - 7) = 13 - К. Для п > 2 выражения окажутся сложнее. 20. Задача о лотерее. В урне имеется // шаров, занумерован- ных от 1 до //: из них достают п штук; какова вероятность того, что среди них будет К заранее отмеченных шаров? Пусть п извлеченных шаров имеют разные номера, принимающие значения от 1 до //. Если порядок извлечения шаров учитывается, то возможные исхо- ды совпадают по количеству с размещениями из // букв по п: Г'- (ц - п)Г Когда остается ц — i + 1 шаров, у каждого из них столько же шан- сов быть извлеченным из урны, как и у других; мы предполагаем все выборки равновероятными. Если не учитывать порядок, то число возможных исходов не пре- восходит числа сочетаний из ц букв по п, г'- (ц — п)! п!
Сложение и умножение вероятностей 47 Я больше не считаю разными гипотезы, которые отличаются толь- ко порядком извлечения шаров. Будут ли все сочетания, как и размеще- ния, равновероятны? Да, т. к. каждому соответствует п! размещений. Число благоприятных исходов равно числу тех сочетаний, в кото- рые входят К отмеченных шаров; за их вычетом в урне остается ц — — К шаров. Тогда число благоприятных исходов равно числу сочетаний из ц — К букв по п — К: (в-ку. (ц — n)l (и — /Г)! Вероятность получить К отмеченных номеров в лотерее равна, та- ким образом, (// — К)\п! д! (n-K)l' 21. Задача об игре с выходящим. Три игрока А, В, С игра- ют по следующим правилам: А и В играют вместе; С не играет. Проиг- равший выходит и его замещает С. После каждой партии проигравшего вновь заменяют. Игра заканчивается, когда один игрок выигрывает два раза подряд. Естественно предположить, что игра азартная, и вероятность вы- играть партию равна | для каждого игрока. Например, можно получить: 1-я партия АВ; А выиграл; 2-я партия АС; если А выиграл, он победил; если С выиграл, воз- вращается В; 3-я партия ВС; если С выиграл, он победитель; если В выиграл, возвращается А; 4-я партия В А; и так далее. Допустим, что А выиграл первую партию. Требуется найти веро- ятность победы для каждого из игроков. Пусть эти вероятности рав- ны х, у, z для А, В, С соответственно. Сначала возможны две гипотезы. Если А выигрывает вторую пар- тию, он победит, и вероятности победы для трех игроков станут 1,0,0. Если А проигрывает, он уступает место С, В находится в услови- ях А, С — в условиях В; вероятности станут z, х, у. Применим теоремы сложения и умножения вероятностей.
48 Глава 2 Игрок А может победить при двух гипотезах, исключающих друг друга: 1° выиграв рассматриваемую партию; 2° проиграв ее. Итак, вероятность победы для А x=^xl + ^xz. Игрок В может победить только одним способом: А проигрывает рассматриваемую партию, и затем В становится победителем. у=&- Аналогично для С вероятность будет * = к Отсюда х = у = |; z = |. Заметим, что х + у + z = 1; когда есть много возможных событий, и таких, что одно и только одно из них непременно наступит, сумма их вероятностей равна 1, но здесь мы не имеем в точности этот слу- чай, т. к. партия может продолжаться бесконечно. Здесь наша сумма равна 1, потому что вероятность бесконечно долгой партии равна 0. Мы предположили, что А выиграл первую партию. Перейдем к на- чалу игры; перед первой партией С вне игры. Есть две гипотезы: выиграет А или выиграет В. Если А, то В выходит, С вступает в игру, и вероятности для каж- дого игрока станут 4. 1. 2 7’ 7’ 7’ 14 2 Если выиграет В, они станут -, -. Игрок А может победить, хоть выиграв первую партию, хоть про- играв. Вероятность первой гипотезы получается умножением вероят- ности для А выиграть первую партию и вероятности победить после этого, то есть I I,, ± х Вероятность второй гипотезы аналогично рав-
49 Сложение и умножение вероятностей Теперь складываем вероятности: Для А, | х | х | Для В точно также, Д-; ’14’ Для С, без дальнейших вычислений,
Глава 3 Математическое ожидание 22. Пусть в какой-то определенный момент игры игрок имеет вероятность выиграть, равную р; ставка равна а. По определению математическое ожидание равно ра. Принято счи- тать, что если а — проигрыш, то ра отрицательно. Если разные гипотезы с соответствующими вероятностями рх, Р2, ... , рп приводят к выигрышам ai, а2, , ап соответственно, то определением математического ожидания будет сумма Pi«i + р2а2 + ... + рпап- Игра справедливая, когда математическое ожидание одинаково для всех игроков. Чтобы упростить решение некоторых вопросов, часто договарива- ются о введении фиктивных игроков, и оценивают их математическое ожидание. Пусть есть два события, А и В. Вероятность наступления А равна р±. Вероятность наступления В равна р2- Вероятность наступления А или В равна рз. Вероятность наступления А и В равна р^. Здесь Pi +Р2 = Рз +Р4- Если эти два события несовместны, получим р4 = 0, т. е. теорему о сложении вероятностей; но я буду предполагать, что это не так. Пусть выигрыш составляет 1 франк, если происходит А; точно также 1 франк, если происходит В. Полное математическое ожидание при рассмотрении этих двух со- бытий будет pi = р2- Итак, совместны события или нет, полное математическое ожида- ние будет суммой частичных.
Математическое ожидание 51 Если бы произошли оба события, игрок бы получил 2 франка. Более сложный случай: возможно определенное количество собы- тий Ai, А2, ... , Aq-, вероятность того, что At произойдет, равна pi, ве- роятность того, что одновременно произойдут А, и А/., равна р^, ве- роятность того, что одновременно произойдут Aj, Aj и А/., равна рц^. Игроку обещают заплатить 1 франк за каждое произошедшее собы- тие; если их будет п, он получит п франков. Его полное математическое ожидание будет суммой тех, которые обеспечены каждым событием, т.е. ^Pi- Пусть ему обещают столько франков, сколько будет сочетаний по два в ряду событий. Если происходят 2 события, он получает 1 франк; если происходят 3 события А, В, С, — 3 франка, т. к. есть три сочета- ет-. е/ - „ п • (п ~ 1) , ния АВ, ВС, С А ; если п событии----—------ франков. Когда происходят два события Aj и А/., эта комбинация обеспечи- вает ему 1 франк, математическое ожидание равно pik, а полное мате- матическое ожидание — Если происходят п событий и игроку дают 1 франк за группу из п(п — 1)(п — 2) трех, он получит ——---------- франков, и его математическое ожида- ние будет 52 Теперь будем играть по следующим правилам: я плачу 1 франк за про- изошедшее событие; игрок платит мне 1 франк за сочетание двух со- бытий; я ему плачу 1 франк за сочетание трех событий; он мне — 1 франк за сочетание четырех событий и т. д. События... 1, 2, 3, ... Выигрыш игрока 1, —1, 1, —1, ... Его полный выигрыш п(п — 1) п(п — 1)(п — 2) а = П 1АГ~ + 1-2-3 ’' ’ ’ гВ подлиннике стояли ошибочные формулы: п(п - 1)(п - 2) y- ------> и ---------1 2 з----2^~ ПР11М- Ред.
52 Глава 3 если осуществляется п событий. Если п = 0, а = 0. В общем случае получаем , , , »(»-!) п(п-1)(п-2) 1-а = 1-п+ ----------Р2ТЗ----+ ••• = (!-!) • Итак, при п > 0 а = 1. Таким образом, когда ни одно событие не происходит, игрок не получает ничего, когда событий п, он всегда получает 1 франк. Его математическое ожидание Р = ^Pi - ^Pik + ^Pijk ~ Теперь можно сформулировать обобщение теоремы сложения вероят- ностей: вероятность того, что произойдет хотя бы одно событие, равна ^Pi - ^Pik + ^Pijk ~ 23. Задача о совпадении. В урне есть // шаров, занумерован- ных от 1 до д; я вытаскиваю их один за другим, пока урна не опустеет. Совпадение происходит, если в г-й раз я вытаскиваю шар с номером г. Найдем вероятность того, что будет как минимум одно совпадение. Во-первых, вероятность совпадения в г-й раз равна Действи- м тельно, исходов будет столько же, сколько есть перестановок из /г букв, т. е. /г! Сколько из них благоприятных? Это те, у которых г-й шар стоит на г-м месте; здесь я могу переставлять ц — 1 остальных шаров, значит, будет (д — 1)! благоприятных исходов. Вероятность равна Ищем вероятность совпадения в г-й и fc-й раз. Два шара занимают определенное место: если мы переставляем ц — 2 других, то видим, что число благоприятных исходов равно (// — 2)!; вероятность равна Pik = 7 7V- д(д - 1)
Математическое ожидание 53 Аналогично Pijk = /z(/z — 1) (/z — 2) ’ Все pi равны; всего может быть р совпадений, поэтому = 1. Чтобы вычислить замечаем, что возможное количество м(м-1) двойных совпадении равно — ~ 1) _ V" _ 1 11 2 ’ Pt& — / a Pik — 1*2* Аналогично р(р - 1)(// - 2)(/z - 2) у-, 1 1-2-3 Pijk - 2^Piik “ 1.2 -3' Если я обещаю игроку столько франков, сколько произошло прос- тых совпадений, его математическое ожидание будет 1; оно будет рав- но если он получит 1 франк за сочетание двух совпадении; если он получит 1 франк за сочетание трех совпадений, и т. д. А с какой веро- ятностью произойдет хотя бы одно совпадение? Это то, что мы только что называли Р. последний член соответствует случаю р одновременных совпадений. Слагаемые в Р — это р первых членов в разложении 1 — е-1, а этот ряд сходится с большой скоростью. Погрешность настолько же мала, насколько велико р, и для р = 20 она меньше 1 20!’ т. е. несущественна. Искомая вероятность равна 1 — е 24. Вероятные значения. Пусть pi — вероятность того, что какая-то данная величина а равна а±. Пусть р2 — вероятность того, что эта величина а равна аг-
54 Глава 3 Пусть рп — вероятность того, что эта величина а равна ап. Вероятное значение1 а равно по определению fliP2 + а2р2 + • • • + апрп; это математическое ожидание игрока, которому обещали сумму, рав- ную а. Вероятное значение а2 ни в коем случае не совпадает с квадра- том вероятного значения а. По определению вероятное значение а2 рав- но тогда как квадрат вероятного значения а равен . Пусть b — вероятное значение для а2, с — для а. Имеем b - С2 = Y^Pi , Т. К. YsPi = 1- Мы перепишем правую часть с помощью тождества £х2-£х'2- (£хх')2 = 1£(ху'-ух')2, где все У — это X, взятые с другими индексами. Полагаем X = y/Pi, X = • у/pi, откуда XX' = diPi и 52 х2 = Ех'2 = Следовательно, ь - С2 = | ^2(y/piaky/p^ - y/pkaiy/pl)2, С — 2 > PiPk • 1 Везде дальше под вероятным значением А. Пуанкаре понимает математическое ожидание величины а. — Прим. ред.
Математическое ожидание 55 Числа pi и pk положительны, поэтому Ь — с2 больше нуля и вероят- ное значение квадрата а всегда больше квадрата вероятного значения а, исключая случай = о;. т. е. когда а может принимать только одно значение. Ясно, что вероятное значение суммы двух выражений равно сумме вероятных значений этих выражений. Напротив, вероятное значение произведения двух выражений, вообще говоря, не равно произведению их вероятных значений. Все, что мы только что говорили о вероятном значении квадрата, вполне это доказывает. Пусть, однако, f и </? — две не зависящие друг от друга функции. Пусть pi — вероятность того, что ./' = ,/'г- a — того, что tp = tpk- Так как эти две функции независимы, вероятность того, что f = = fi и одновременно </? = <рь, будет ptqk, в силу теоремы об умножении вероятностей. Тогда вероятное значение произведения ftp равно ^PiqkfiPk = то есть произведению вероятных значений f и tpS6'1 25. Пусть игроку обещают (как обычно, вынимая без возвраще- ния шары из урны, содержащей // шаров) платить 1 франк за каждый (локальный) максимум в списке, который получится, если записывать номера шаров в порядке их появления. Чему равно математическое ожидание? Предположим, максимум есть на i-м шаге; мы вытащили три шара, а, Ъ, с, (г — 1)-й, г-й, (г + 1)-й, и, т. к. это максимум, а < Ь > с. Есть р\ возможных исходов. Не трогая остальные шары, я пе- реставляю а, Ь, с между собой; возможны 6 комбинаций, из которых две, а, Ь, с и с, 6. а, будут благоприятны. В этой группе вероятность максимума равна, таким образом, и! 3 Между тем есть таких групп, соответствующих г-му шагу, и для ° 1 этого шага математическое ожидание равно Полное математическое ожидание будет суммой частичных; с дру- гой стороны, если нет специальной договоренности, а я ее не предпола- гаю, ни первый, ни последний шаг не могут привести к выплате. Итак, полное математическое ожидание равно .
56 Глава 3 26. Пусть у каждого из п игроков есть игральная кость и каждый делает ставку в 1 франк; тот, кому выпадает самое большое число очков, заберет п франков; и если самое большое число выпадет у нескольких игроков, они поделят банк между собой. Пусть у первого игрока А выпало К очков; каково в этот момент его математическое ожидание? Вероятность того, что у какого-то другого определенного игрока выпало К очков, равна меньше, чем К очков, выпало с вероятнос- К - 1 ° тью —-—. о Какова вероятность того, что А делит банк с i — 1 данным игро- ком? Эти i — 1 игроков должны иметь К очков, п — i остальных — меньше, чем К. Искомая вероятность равна произведению вероятнос- тей, на 6 J Итак, вероятность того, что А делит банк с i — 1 данным игроком равна ---------. Из г — 1 можно составить столько же групп, сколько 6 (п- 1)! есть сочетаний из п — 1 буквы по i — 1, т. е. -—' —-. “ ’ (г - 1)!(п - г)! Каждое из этих сочетаний дает игроку А найденную выше веро- ятность, а соответствующий выигрыш равен математическое ожи- дание А равно (п-1)! . (^~1)и~‘ . п = ТУ! . (К - I)”"» (г — 1)!(п — г)! б"-1 i г!(п — г)! б"-1 Следует найти сумму этих математических ожиданий от г = 1 до i = п, в последнем случае банк делится поровну между всеми. Так как i'.(n - iY. б”-1 есть разложение бинома (1 + (Л~ - 1))» 6n-i за исключением члена, соответствующего i = 0, т. е. (К— 1)" 6»-1 матема-
Математическое ожидание 57 тическое ожидание равно Кп - (К - 1)" б"”1 ’ 27. Санкт-Петербургский парадокс. Теория математическо- го ожидания привела к возникновению этого знаменитого парадокса. Поль бросает монету; если выпадает орел, он платит Пьеру 1 франк и партия заканчивается; если решка, монету бросают снова. Если во вто- рой раз выпадает орел, Пьер получает 2 франка и партия заканчивает- ся; если решка — начинается снова. В третий раз либо Пьер получит 4 франка, либо партия продолжится, и т. д. Если решка выпадает п раз подряд, а в (п+ 1)-й раз будет орел, Поль платит 2" франков. Какую сумму должен отдать Пьер Полю в начале игры, чтобы игра была справедливой? Иначе говоря, каково математическое ожидание выигрыша Пьера? Вероятность вь, „едения орле в „ервь.И ре, ревне 1 соответствуй щее ожидание тоже Вероятность выпадения решки в первый раз, а орла — во второй 1 Л равна произведению вероятностей, т. е. т. к. это независимые собы- 1 1 тия. Математическое ожидание равно х 2 = -. 1 1 В третий раз оно равно ± х 4 = о 2 В n-Й раз----С- х 2" = 1. 1 2П+1 2 Все члены ряда равны |; математическое ожидание выигрыша Пье- ра бесконечно: он никогда не оплатит слишком дорогое право на участие в игре. Этот парадокс старались объяснить разными способами. Говори- ли, что Поль не бесконечно богат: пусть, например, его состояние боль- ше 2Р, но меньше 2₽+1; если в (р+1)-й раз выпадает орел, Поль должен 2Р франков и сможет заплатить; но если орел выпадет в следующий раз, Поль будет должен 2₽+1 франков и окажется банкротом. Итак, Пьер может получить только 2Р франков; его математическое ожидание ста- новится 1 + 1 х 2 + 1 х 4 + ... + -L • 2" + -• 2" + -L • 2" + ...
58 Глава 3 Ряд превращается в 1 + 1+...+ 1 + 1 + 1+._ • 2 -г 2 + 2 + 4 + 8 ’ 1 1 р + 1 слагаемых превращаются в остальные дают в сумме мате- матическое ожидание будет равно Р+ 1 1 Р+ 2 2 + 2 2 Если состояние Поля равно, например, одному миллиарду, можно 32 считать р = 30, и математическое ожидание Пьера будет = 16. Видно, что оно заметно уменьшилось. Еще можно сказать, что удовольствие выиграть 1000 франков боль- ше для того, у кого пока ничего нет, чем для миллионера; что удовольст- вие удвоить состояние не зависит от размеров состояния. Если кто-то обладает состоянием х, удовольствие от выигрыша суммы h измеряется как Математическое ожидание заменяется на моральное. Если — вероятность получить выигрыш h, то моральное ожи- дание равно Е, х + h Ph log— ИЛИ 1 ! X +1 , 1 , ж + 2, , 1 , ж + 2п, 2 log + 4 log + • • • + ^+11о" х + • • • для Санкт-Петербургского парадокса. Это ряд, очевидно, сходится. 28. Разорение игрока. Два игрока, у одного из которых, А, есть т франков, а у другого, В, — п франков, играют партию на 1 франк и продолжают игру, пока один из них не разорится. Вероятность наступления этого события будет функцией от т и п, т. е. п), и если сумма состояний, т + п = з, — константа, то </? будет функцией от s и п, т. е. от п. Назовем <р(п) вероятность того, что в конце концов разорится В-, здесь мы будем предполагать, что условия игры неспра- ведливы.
Математическое ожидание 59 Если А в каждой партии выигрывает с вероятностью р, то В — с вероятностью 1 — р. Пусть начинается новая партия. Имеются две гипотезы: выигры- вает А, и у В останется (n — 1) франк; выиграет В, и у него будет (п+1) франк. Функция <р(п) выражает вероятность того, что В, проиграв эту партию, в конце разорится, т. е. р • <р(п — 1), а также вероятность того, что В, выиграв эту же самую партию, все равно под конец разорится, т.е. (1 — р) • ip{n + 1). <р(п) = р • <р(п - 1) + (1 - р) • <р(п + 1). (I) Это рекурентное соотношение и служит для определения <р(п). Кро- ме того, надо знать граничные условия. Если п = 0, то В уже разорен; если п = з, т = 0, то у А ничего нет. Итак, <р(0) = 1, <p(s) = 0. 29. Решим более общее рекурентное уравнение Ак ср(п + К) + Afc_i • <р(п + К - 1) + ... + Ах • <p(n + 1) + 40 • <р(п) = 0, где все А — постоянные коэффициенты. Это уравнение в конечных разностях, линейное, с постоянными коэффициентами, по решению на- поминающее линейные дифференциальные уравнения с постоянными коэффициентами. Предположим, что найдено К решений <pi(n), <р2(п), ... , <р/г(п) та- ких, что 52 Ач ’ + ?) = °- Q Еще одно решение получим, положив <р(п) = «1<Р1(п) + а2 • ^г(п) + • • • + ак(рк(п). Действительно, умножим предыдущую на «j и суммируем по- лученные выражения по г. 52 <+ 52 = 52 а? 52ai + •?)= °- i q q i
60 Глава 3 Если </?i, </?2, • • • , Гк линейно независимы, их линейная комбинация будет общим решением. Действительно, предположим, что это не так, тогда = «1 • </?i + а2г>2 + • • • + ак • ipk + ф. Я хочу выбрать ai, «2, • • • , ctk так, чтобы выполнялась следующая система: </?(0) = «1 • </?1 (0) + «2^2(0) + ... + «*• </?fe(0), </?(!) = ai • </?i(1) + «2^2(1) + • • • + ак • </?fe(l), Ч>(К - 1) = «1 • Г1(К - 1) + а2(р2(К - 1) + ... + ак • ipk(K - 1), Эти К линейных уравнений однозначно определяют «1, а2,... , ак при условии, что определитель системы отличен от нуля, что име- ет место, когда </?i, (р2, ... , <рк линейно независимы. В этом случае V’(O) = V’(l) = • • • = ф(К — 1) = 0, а также верно следующее соотноше- ние: Ак ф(п + К) + Лй_1 • ф(п + К - 1) + ... + + 1) + Аоф(п) = 0. Если п = 0, все члены, кроме Ак"ф(К), обнуляются; тогда ф(К) — нуль. Если п = 1, ф(К + 1) — нуль, и т. д. Итак, ф(п) тождественный нуль, и </?(п) сводится к + + а2</?2 + • • • + ctkipk. Значит, достаточно знать К линейно независимых частных интегралов, чтобы найти общий. Для нахождения К линейно независимых интегралов я пола- гаю = (Зп. Тогда Ак /Зп+К + АК-1 r+7f-1 + • • • + Л • /Г = О ИЛИ Ак(Зк + Лл-_ | • (Зк + ... + Ло = О, откуда имеем К частных значений (3 и, следовательно, К частных ин- тегралов. Существует исключение — случай, когда уравнение относитель- но (3 имеет кратные корни, например, двукратный корень (3± = 02;
Математическое ожидание 61 меняя коэффициенты непрерывным образом, мы действительно можем получить два равных корня. Тогда у нас больше не будет К решений. дп _ лп Пусть /ЗР и /?2 — решения; Pl — Р2 — их линейная комбинация и, следовательно, тоже решение. Когда (3± стремится к (З2, предел, по соображениям непрерывности, все еще будет решением. Этот предел получается дифференцированием по /31 обоих членов отношения, что дает ; тогда п (Зп~1 или, если угодно, п (Зп будет новым реше- нием. При трехкратном корне получим, кроме того, п2 • /З™ и т. д. 30. Применим это правило к нашей задаче, т. е. к уравнению (I) параграфа 28. Полагаем </?(п) = /3”; получается (Зп = р • /Зга-1 + (1 - р) • /Зга+1 или /3 =р+ (1 -р)/32. Это уравнение второго порядка имеет очевидный корень /3=1; п другой корень равен ; именно это значение мы будем в дальнейшем называть /3. Два решения /3" и 1 дают общее решение Граничные условия задают нам произвольные константы: 1 = а + Ь, О = a/3s + 6; откуда а = -I 1 д 1-/3' -(3s l-ps ip(n) (Зп - (3s 1-(3s </?(п) = а • (Зп + Ь. и Это выражение не определено при /3 = 1.
62 Глава 3 Когда (3 = 1, р = i; игра будет справедливой. Здесь мы найдем значение </?(п) по правилу Лопиталя: /х п- (Зп 1 - s (3s 1 s-n mi ”(n) = —-,.,3- = — = Необходимо рассмотреть три случая. 1° (3 > 1. Игра выгодна для А, р > 1 — р, = (3s ~(Зп (3s -I ' 2° (3 = 1. Игра справедливая, р = 1 — р, s — п S (р(п) = 3° /3 < 1. Игра выгодна для В, р < 1 — р, = (Зп - (3s I-(3s Вероятность разорения В равна (3‘ -{Зп [3‘ -1 ' Чтобы найти вероятность разорения А, меняем местами р и 1— р; (3 меняется на 1 а п на т. Отсюда находим р (3~s - (3~т b~s -I ’ то есть 1 ~(Зп 1 - (3s' 31. Сумма двух вероятностей (Зп - (3s 1-(Зп (3s - 1 + 1 -/3s °В этом случае 1 является корнем уравнения кратности 2.
Математическое ожидание 63 равна единице, что не было очевидно a priori. Действительно, вероят- ность того, что партия продолжается бесконечно долгое время, может быть положительна. Предположим, что s очень велико. Когда (3 > 1, (3s очень велико и будет главным членом в предел </?(п) равен 1. При (3 = 1 ее предел тоже 1. При (3 < 1 (3s стремится к 0 при возрастании s, и предел равен (Зп. Заключение. Итак, если s велико, а п конечно, мы наверняка разоримся при справедливой или выгодной для противника игре. Но если игра выгодна для нас, вероятность разорения тем меньше, чем больше наше состояние. Профессиональный игрок, банкир, играет с целым светом, т. е. с бесконечно богатым противником, но условия игры обеспечивают ему преимущество. Напротив, вкладчик, который будет играть бесконечно, наверняка разорится. 32. Ж. Бертран вычислил вероятный момент его разорения. Для банкира (3 < 1, вероятность банкротства равна (Зп; (3 — это соотношение шансов, благоприятных для вкладчика, к шансам банкира; предположим, (3 = ||, т.е. (3 = 1 - Пусть п — состояние банкира, если за единицу принять ставку в каждой партии; для этой ставки имеется максимум, поэтому для п тоже есть определенный максимум; пусть п = 1000. Вероятность банкротства равна или близка к е-50, очень малой величине. На этом мы закончим изучение примеров, возникающих в простых задачах комбинаторного анализа.
Глава 4 Теорема Бернулли 33. Теперь мы займемся вопросами, связанными с формулой Стирлинга, теоремой Бернулли и вероятностями событий, возникаю- щих при повторении испытаний. Предположим, что два противоположных события А и В имеют вероятности р и q соответственно. При каждом испытании обязательно происходит одно из них, и они не могут произойти одновременно; итак, р + q = 1, сумма вероятностей равна вероятности достоверного события. Испытание повторяют т раз; в каждом испытании происходит од- но из двух событий. Так, при бросании кости событием А может быть 1 5 выпадение 6, событием В — любого другого числа очков; р = A; q = А. Событие А, как и В, произойдет какое-то определенное число раз. Нас интересует вероятность того, что А произойдет а, В — т — а раз. Предполагаем, что вероятность остается одной и той же при каж- дом испытании. Для игральной кости вероятность получить 6 очков всегда равна Напротив, для колоды в 32 карты вероятность выта- 1 4 3 щить короля равна - при первом испытании, или при втором, в о 31 31 зависимости от того, вытащили короля в первый раз или нет. 34. Сначала найдем вероятность того, что события следуют в каком-то определенном порядке ААВААВВАВ; вероятности каждого из событий будут ppqppqqpq,
Теорема Бернулли 65 а произведение вероятностей — вероятность того, что эти события про- исходят одновременно,— равна Р5 • Q4- В общем, вероятность того, что в определенной последовательности произойдут а событий А и т — а событий В, равна ра .qm~a Она не зависит от порядка наступления событий. 35. Если нужно, чтобы т испытаний, взятых в каком угодно по- рядке, приводили к а событиям А и т — а событиям В, то в силу прави- ла сложения вероятностей искомая вероятность будет суммой стольких слагаемых, равных ра -qm~a, сколько есть перестановок с повторением из а букв А и т — а букв В; это число равно т! а! (т — а)! Вероятность того, что события наступят в каком угодно порядке, равна это один из членов разложения (р + q)m. Если я просуммирую все выражения, которые можно получить, полагая а равным 0, 1, ... , т, я найду 52 = (р+= L Сумма вероятностей всех возможных исходов должна равняться единице, так как достоверно известно, что один и только один из этих исходов произойдет. 36. Которая из этих вероятностей будет самой большой? Я буду вычислять отношение последующего члена к предыдущему; ,, . . — ____Ш_______ . „а+1 т-а-1 “+1“ (а + 1)! (ш — а — 1)! Р Q ua+i _ а! (m-а)! _х _ т - а Р и« ~ (а + 1)1 (т — а — l)lP ' Q ~a+l'V
66 Глаза Так же можно заменить а на а — 1: иа _ т - а + 1 _ Р Ua—1 Q Q Для того чтобы иа было максимальным из всех вероятностей, не- обходимо, чтобы > 'U'a— 1* Итак, иа+1 , иа . -J Ua Ua-! > > то есть т — а Р -I т — а + 1 Р а + 1 ’ q < 1 и о q > 1ф Эти неравенства можно переписать как (т — а)р < (а + 1)д и (т — а + 1)р > aq, тр — ар < aq + q и тр — ар + р > aq. Так как ар + aq = а(р + q) = а, получаем тр < а + q и тр > а — р. Мы приходим к неравенствам тр + р > а > тр — q. Отсюда находим верхний и нижний пределы а. Разница между ними равна р + q = 1; значит, а лежит между двумя числами, вообще говоря, дробными, которые отличаются на единицу, и, так как а — целое число, эти два предела полностью определяют его. Исключение составляет случай целого тр + р\ тогда тр — q тоже целое. Здесь возможны колебания при выборе а, так как два последо- вательных члена в разложении (р + q)m равны между собой. Если т очень велико, отношение лежит между р + и р — -L; / fL HI П1 то есть близко к р. Это одна из формулировок теоремы Бернулли. Если я выбрал а так, чтобы иа было как можно большим, отноше- ние количества событий А к количеству событий В будет почти совпа- дать с отношением р и q.
Теорема Бернулли 67 37. Какова вероятность того, что а удалено от тр на расстоя- ние hl Пусть а — тр = h. Я называю h уклонением и буду искать вероятное значение его абсолютной величины, так же как и вероятное значение его квадрата. Займемся оценкой вероятного значения h, вероятного значения \h\ —модуля h — и вероятного значения h2. Я буду рассматривать вероятное значение какой-то величины М т. е. 52 М • иа. вторая часть равенства — многочлен с целыми коэффициентами, одно- родный, имеющий степень т относительно р и q; я обозначу его F{p; q). Попытаемся выразить вероятное значение произведения Ма, т. е. V М a „ т'—-ра qm~a. а'.(т — ск)! Мы перешли от одного выражения к другому, умножая на а все слагаемые; дифференцируя ра • qm~a по р, мы бы имели а -р01-1 • qm~a-, итак, вероятное значение Ма равно р dF dp Числа р и q не будут независимы, так как их сумма равна 1. Мы взяли производную так, словно они независимы, ведь мы дифференци- ровали по р, считая q константой. Более того, М может зависеть от р, потому что h зависит от р. Я избегаю этой путаницы следующим образом. Вместо р и q я ввожу две вспомогательные переменные, х и у, и рассматриваю функцию F(x, у) = Ум т' ха • ут~а. а! \т — а)! 1Величина М зависит от а. — Прим. ред.
68 Глаза Даже если М зависит от р. я не заменяю р и q на х и у; тогда вероятное значение М равно F(p; q), а равно х • —. ах Мы заменим х и у на р и q после дифференцирования. 38. Применим предыдущие рассуждения к нашей задаче. Пусть сначала М = 1; г(х, = Е ,/т! ут~а = +уГ-, а! (т — а)! если теперь х = р, у = то F(p, q) = (p + q)m = 1, и действительно, вероятное значение единицы равно 1. Чтобы найти вероятное значение а, я дифференцирую F(x, у) по х и умножаю на х, что дает мне тх • (ж + у)™-1; затем я полагаю х = р, у = q. Вероятное значение а равно тр. Чтобы найти вероятное значение а2, я дифференцирую член тх • (я? + 2/)т-1 по х, затем умножаю на х; это дает мне сначала т(х + у)т 1 + т(т — 1)ж(х + у)т 2 затем тх(х + 2/)т-1 + т(т - 1)х2(х + у)т~2. Полагая х = р и у = q, получаю выражение для вероятного значе- о ния а : 2 2 2 тр + т р — тр . Найдем теперь вероятные значения h и h2. Вероятное значение h равно вероятному значению а минус вероятное значение тр, т. е. тр — тр = 0. Итак, вероятное значение уклонения равно 0. Величина h2 равна h2 = а2 — 2тра + т2р2;
Теорема Бернулли 69 тогда ее вероятное значение будет равно (тр — т2р2 — тр2} — 2тр тр + т2р2, или тр(1 — р), то есть mpq. Вероятное значение квадрата h равно mpq. Заодно мы убедились, что оно больше квадрата вероятного значе- ния h, равного нулю. 39. Перейдем к вероятному значению модуля h-, найдем сначала, каким будет математическое ожидание для игрока, которому платят единичную сумму, если уклонение положительно, и 0, если оно отри- цательно1. В сумме иа надо ограничиваться теми слагаемыми, чье укло- нение положительно. Пусть up — последний член 52иа, для которого уклонение положительно; имеем /3 > тр и (3 — 1 < тр, и математическое ожидание для нашего игрока будет равно Р™ + mpm-lq+ ^ + т! /з. т-р /31 (т-р)'.1 4 ’ то есть F(p- q), если положить F(x, у)=хт + ^х”1-1 ^/3 . ..т-р (З'.(т-[ЗУ У Если теперь предположить, что игроку предложили сумму а, его математическое ожидание будет х (заменяем х = р, у = q после ах дифференцирования). Наконец, вероятное значение функции,равной h для h > 0 и 0 для h < 0, будет математическим ожиданием для игрока, которому предлагают а — тр, если а > тр-, т. е. х • - mpF. ах 'Фактически здесь вычисляется математическое ожидание индикатора события, состоящего в том, что уклонение положительно. — Прим. ред.
70 Глава 1^. Функция F — однородный многочлен степени т от х и у; тогда тр — xdF. ydF_ ~Х dx+V dy' Вышеупомянутое математическое ожидание превращается в dF dF dF х----рх —--ру — dx dx dy или dF dF Х^~УР1у' если заменить x = p, у = q после дифференцирования. Имеем сначала dF dx dF\ . dy J ’ с другой стороны, = m • xm-1 + m(m - l)xm~2 • у + ... + д|/ w! dx /3Um-/3y. ^Г = т- xm~l + m(m - l)xm~2 -y+... dy В сумме на одно слагаемое больше, это последнее слагаемое и .у ту .зтр представляет собой —-----—, оно равно dx dy m\ (31 (m — /3)! • • о™-'В 9 • — Р Ч р‘ Итак, мы получаем математическое ожидание нашего игрока: г' 5 = я,, т, '’ /3!(т-/3)! р р'.(т-р)'. Это произведение (3q и U0, последнего слагаемого, соответствую- щего положительному уклонению.
Теорема Бернулли 71 40. Пусть игроку предлагают сумму, равную абсолютной величи- не уклонения: пусть Е — его математическое ожидание при условии, что ему должны платить только за положительное уклонение, Е' — при условии, что ему должны платить только за отрицательное уклонение. Вероятное значение h равно Е — Е'. Так как вероятное значение h равно нулю, то Е - Е' = О, и вероятное значение |Л| равно 2Е. 41. Итак, вероятное значение уклонения h, взятого с учетом зна- ка, равно нулю; вероятное значение h2 равно mpq, для \h\ оно равно 2Е или (3\ (т - ру. Величина (3 соответствует последнему слагаемому, чье уклонение положительно, она мало отличается от тр. Это выражение можно приблизительно оценить как 2mpq т' pr • qm р (З'(т- (3)1 Оно гораздо больше всех остальных, но, вообще говоря, довольно MQJIO. Вероятное значение \h\ намного меньше mpq. Согласно уже сделан- ному замечанию, квадрат вероятного значения |Л| меньше вероятного значения h2: вероятное значение |Л| достоверно меньше, чем ^/mpq.
Глава 5 Применение формулы Стирлинга 42. Сейчас я покажу, как можно найти приблизительное значение максимального слагаемого иа, вероятное значение |/i| и т. д. Вычисление этих приблизительных величин связано с формулой Стирлинга. Имеем °? п! = / хп • е~п dx = Г(п + 1), о то есть функцию Эйлера; этот интеграл сохраняет смысл и при поло- жительном, но нецелом п. Если положить Г(п + 1) = пп • е~п • \/2^,1 то отношение левой части равенства к правой стремится к единице, когда п неограниченно возрастает. Я не буду приводить доказательства в общем случае и ограничусь тем, что касается целого п. Формула Стирлинга служит для вычисления факториала целого числа п! = пп • е~п это асимптотическая формула. Абсолютная погрешность, которую до- пускают, беря правую часть равенства вместо левой, неограниченно возрастает вместе с п, но относительная погрешность стремится к ну- лю. Из этого следует, что абсолютная погрешность логарифма от п! стремится к 0. Сначала я могу написать п! = ппе~пу/п • F(n); 1 Равенство в этой формуле понимается как эквивалентность правой и левой час- тей при п —> +оо.
Применение формулы Стирлинга 73 я покажу, что F(n) стремится к конечному пределу С при бесконечно большом п; так что п! = С • ппе~пл/п. 43. Рассмотрим произведение F(2) F(3) F(n + 1) F(l) ’ F(2)’’’ F(n) Это бесконечное произведение сходится, или, что то же самое, ряд с общим членом . F(n + 1) „ х log---—------сходящийся . F(n) Имеем (n+l)-+1 -e-^^m-F^ + l), (п + 1)! F(n + 1) F(n) F(n + 1) F(n) (n + 1)! nne "\/n nl (n + l)ra+1 •е-^+^лЛт’ __n =r( n (n+ip+! Vn+1 F(n + 1) 1 — (n + • log(l + Правая часть преобразуется в ряд с помощью разложения log(l+x): 1 (П+2)(тг 2п2 + Зп3 ИЛИ 1-1 + X_J_+ _X + J__ 2п Зп2 2п + 4п2 то есть 12п2 'Здесь и далее рассматривается только функция натурального логарифма. — Прим. ред.
74 Глава 5 Если я назову ип первый член этого последнего ряда, Un ~ 12п2’ то limn2wra = По признаку Гаусса ряд сходится. 44. Остается вычислить величину С. Воспользуемся формулой Валлиса: л- _ 2 2 4 4 2п 2п 2 - 1 ’ 3'3'5 ' ' 2n - 1 ’ 2n + 1 ’ отсюда следует, что при п, больших любой наперед заданной величины, /тг _ _________________________2•4 •... • 2п____ V 2 ” 1 • 3 •... (2п - 1)х/2п + 1’ В числителе стоят первые п четных чисел, в знаменателе — пер- вые п нечетных; я умножаю верх и низ на 2 • 4 • ... • 2п; получается (2 • 4 •... • 2п)2 _ 22га • (п!)2 (2п)!\/2п + 1 ” (2п)!\/2п + 1' При бесконечно больших п эта дробь имеет своим пределом Если мы заменим здесь факториалы их приблизительными значениями при очень больших п, то дробь превратится в 22” • п2п е~2п С2 п (2п)2п е~2п С V^n V^n + l или п2 2п(2п + 1) ’ и, когда п неограниченно растет, станет равной Этот предел должен совпадать с предыдущим, отсюда С = V2^.
Применение формулы Стирлинга 75 45. Асимптотическая оценка иа. Мы уже видели, что когда два противоположных события, А и В, имеют вероятности р и q соот- ветственно, такие, что р + q = 1, вероятность того, что из т событий произойдут а равных А и т — а равных В, будет Вычисляем приблизительное значение иа, предполагая т очень большим, и, более того, а = тр + Ху/т, где Число Ху/т очень велико, если т очень велико, но мы будем счи- тать А конечным, и, следовательно, очень малой — относительную по- грешность, когда вместо а берется тр-, то есть близко к 1, В качестве следствия имеем т — а = mq — Ху/т, так как р + q = 1. В выражении иа я заменяю каждый факториал его значением, вы- численным с помощью формулы Стирлинга: тт е - т у/2тттра qm~a аа е-“\/27га(т — а)т~а • е~(т~а'1 у/2тг(т — а) mmpaqm~a I — ип = ---------------. /---. аа • (т — а)т “ у 2тга(т — а) Объединяем члены с показателем а и с показателем т — а: )т — а ___________ / т у 2тга(т — а)
76 Глава 5 Между тем т _ _____________т__________ а(т — а) (тр + Ху/т) (mq — Ху/т) ’ стремится к единице, как и пределом т 2тг тр mq тп — а mq , корень, входящий в иа, имеет или ^/2тг mpq Мы можем записать 1 1 1 1 а / х п m — а log иа = log - «log ™ - (т - a) log у/2тг mpq У или log иа = log - {тр + Ху/т) log (14--— - y/27vmpq \ р/т/ — {mq — Ху/т) log (1--. \ qy/mj При очень большом т мы можем разложить логарифмы от 14— \ ру/т и от 1---по формуле разложения log(l 4- ж). Итак, qy/m {тр + Ху/т) log ( 1 4-) \ ру/т) становится {тр 4- Ху/т) | Н - • • • ] • \Ру/т 2р т Ар my/т ] Сейчас я ищу асимптотическую оценку иа, т. е. такую величину, чтобы отношение иа к этой величине стремилось к 1, когда т неограничен- но возрастает; тогда в предыдущем произведении я смогу пренебречь всеми членами, стремящимися к 0 и содержащими т или у/m в знаме- нателе. Останется \2 \2 \2 Ху/т - т— 4- или Ху/т+£~- 2р Р 2р
Применение формулы Стирлинга 77 Отсюда я выведу значение произведения (mq — Ху/т) log ( 1 — меняя в предыдущем результате А на —А, р на q; сумма этих произве- дений равна / \2 \ / \2\ ( Ху/т + — ) + ( — Ху/т + — ) \ 2р J \ 2qJ А2 /1 1 \ А2 или — - + - , то есть —. 2 \Р ЧJ 2pq Итак, 1 А2 log“« = 1оё /Q - у2тг mpq ^PQ Заменяя логарифмы самими числами, получаем приблизительное значение иа: е 2рч . • у2тг mpq Когда т бесконечно растет, отношение иа к предыдущему выра- жению стремится к единице. 46. Сначала я прослежу, что происходит с максимальным членом. Максимальное иа получается, если придать а значение, мало от- личающееся от тр-, итак, А равно нулю, и значение максимального вы- ражения будет 1 у/2тг mpq Это выражение убывает при росте т. Нельзя считать, что при бес- конечно больших т искомая вероятность приближается к вероятности достоверного события; напротив, она стремится к нулю. Это и есть теорема Бернулли, формулировку которой мы сейчас уточним. 47. Какова вероятность того, что А заключено между А и А + dXl Я считаю dX очень малым; однако dXy/m — целое число, что озна- чает, что А имеет порядок . у/т Если я придаю А очень малое приращение, значение экспоненты не изменится и иа будет практически константой.
78 Глава 5 Искомая вероятность — это сумма членов, у которых а меняется от а до а + К, а и а + К определяются как а = тр + А\/т, а + К = тр + (А + dX)y/m, то есть К = dXy/m. Число а должно находиться в таких пределах, чтобы то есть должно равняться одному из чисел + 1, ос + 2, ,.. , ос + К, Сумма вероятностей будет равна tza_|_i иа-1-2 иа+к- Есть К слагаемых, практически равных иа; искомая вероятность равна _ л'2 К е . у/2к mpq заменяя К на dX^/rn, получим dXe у/2тг mpq 48. Пусть = дующего выражения: тогда мы возвращаемся к рассмотрению еле- h- dx е 1,2x2 л/тг Это выражение представляет собой вероятность того, что некая величина х лежит между х и х + dx-, вероятность того, что она лежит между хд и я?1, будет равна h- dx е 1,2x2 л/л7
Применение формулы Стирлинга 79 соответственно, вероятность того, что х меняется от — оо до +оо, равна h dx • е h х л/тг Обозначая hx = у, превращаем этот последний интеграл в Это известный интеграл, чья величина равна 1. 49. Остановимся на некоторых следствиях этих вычислений. Ве- роятность того, что А лежит между —оо и +оо, равна 1, что кажется тавтологией. Но это заключение не было таким уж очевидным: фор- мула, которой мы пользовались, была приближенной и верной только при А малых по сравнению с у/т- Пусть сначала а = тр + Ху/т; вероятность того, что А лежит между Ао и Ai, стремится, согласно предыдущим рассуждениям, к А1 Л2 dXe~^i y/2irpq Ao когда т неограниченно растет. С другой стороны, если Ао и Ai беско- нечно удалены друг от друга, интеграл стремится к единице. Теперь считаем а > тр(1 — е) и а < тр(1 + е). Пусть F(e, т) — вероятность того, что так оно и есть. Я заявляю, что для любого данного е могу взять т настолько большим, чтобы
80 Глава 5 разность 1 — F(e, т) была меньше заданной величины г). Выбираем сначала число Л настолько большое, чтобы разность dX -а! —• е 2,рч \/2тгpq была меньше, чем Это возможно, т. к. интеграл стремится к 1 при бесконечно больших Л. Я возьму т настолько большим, 1° чтобы Л < еру/т, откуда 2° чтобы разность 2. 2’ что возможно, т. к. для фиксированного Л предел вероятности при т = ос представляется через интеграл Итак, получим 1 — F(e, т) < тр Иначе говоря, вероятность того, что а будет находиться меж- ду тр(1 — е) и тр(1 + е), как бы мало ни было е, стремится к единице, когда т бесконечно растет^.
Применение формулы Стирлинга 81 50. Можно спросить, каково вероятное значение ж”, равное по определению +оо у* hxn dxc-h2x2 Если п нечетно, этот интеграл равен нулю. Если п четно, он совпадает с Мы нашли вероятное значение абсолютной величины уклонения; найдем вероятное значение абсолютной величины ж”, то есть |ж”|. Это Функция под знаком J четная; тогда этот интеграл равен 2 51. Итак, во всех случаях мы возвращаемся к одному и тому же интегралу, а сам он сводится к интегралам Эйлера. Считаем >2 2 h х = у, откуда hdx = ^У~2 dy. Вышеуказанный интеграл превращается в +оо г [ 1 dyy~z - у J % о
82 Глава 5 или Это интеграл Эйлера: г(ч±) hn-y/ir ' Если п четно и равно 2/г, то /п + 1\ „ (1 , \ (1\ ц—;=Г(2+^=ГЫ 13 ( _ 1\ 2 ’ 2 ’ ’ V1 2/ ’ и, так как (D х/тг, Г вероятное значение |®”| равно j_ 1 • 3 •... • (2// - 1) hn ' 2м Если п нечетно и равно 2// + 1, вероятное значение |®”| равно Г(//+ 1) Нпу/тг ИЛИ hny/Tv' Полагаем п = 0; вероятное значение Полагаем п = 2; вероятное значение |1| равно 1. И равно Мы нашли вероятное значение (а — тр)2 и получили mpq. Теперь мы найдем вероятное значение Л2, т.е. квадрата от а — тр т
Применение формулы Стирлинга 83 оно должно совпадать с pq. Это проверяется без труда, т. к. 7i2 = — 2pg- Вероятное значение |ж| равно 1 Лд/тГ Мы знаем вероятное значение |а — тр\; это произведение 2mpq и максимального члена суммы ^иа, то есть 2mpqua, где а мало отли- чается от тр. Чтобы найти этот максимальный член, достаточно положить Л = 0; получаем 1 д/2тг mpq Итак, вероятное значение |а — тр\ равно y/2mpq то есть ---—— 2mpq д/2тг mpq Отсюда выводится вероятное значение |А|: деля на д/m, находим 52. Мы нашли асимптотическую оценку члена считая а = тр + Лд/m, т очень велико. Эта асимптотическая оценка иа равна -А2 д/2тг mpq
84 Глава 5 Теперь будем искать асимптотическую оценку иа для а = те. Сравнивая два выражения для а, получаем Л = (е — р)у/т. Возникает искушение принять за асимптотическую оценку выра- жение т(е—р)2 е ^/2тг mpq но это выражение не будет точным. Точное значение иа равно Если тиа очень велики, асимптотическое выражение иа равно ______________rnme~mV27rm________________ а“ • е-“-\/27га(т — а)т~ае~^т~°^ д/2тг(т — а) Отношение этих двух выражений для иа стремится к единице всег- да, когда т и т — а неограниченно растут, а а = ет, где е стремится к конечной величине. Я хочу упростить асимптотическое выражение иа: _____тт______ I т а т-а аа(т — а)т~а у 2тга(т — а) Пусть а = ет; я полагаю т — а = е'т, откуда е' = 1 — е. Асимптотическое выражение принимает вид _____тт_______ (те)™ (те')™' /----1--meqms' V 2тг тее
Применение формулы Стирлинга 85 и, так как тт = тте mms , Пусть 53. Я заявляю, что А всегда меньше 1. Оставляя в и е' константа- ми, я буду изменять р и q, сохраняя связывающее их соотношение р + + Ч = 1- Чему равен максимум А? Этот максимум достигается, когда ps-qs максимально, т. е. когда р и q пропорциональны своим степеням: р = ч_ = р + д = х £ s' S + s' Итак, максимум достигается при Р = е, Ч = е', и тогда А = 1. Следующее рассуждение позволит нам лучше понять поведение А. 54. Я буду считать р и q константами и менять е и s'. Для этого я рассмотрю 10gl =el°Sp + e/1°S д’- Пак изменяется это число? Возьмем его полный дифференциал de • log | + de' • log + de + de'; он должен обратиться в нуль в точке максимума. Но е и в' не являются независимыми переменными. Имеем de + de' = 0.
86 Глава 5 Отсюда lo«| = l°g^. е _ е[_ _ е + е' _ Р Ч p+q Максимум достигается при е = р, е' = q и этот максимум равен еди- нице. Как меняется А? При е = О А равно </: при е = 1 А равно р; таким образом, А начинает возрастать с q, при в = р достигает 1, а затем убывает до р. 55. Формула, дающая приблизительную оценку п!, имеет вид п\ = пп • е~п • у/п • F(n). Функция F(n) стремится к пределу х/2тг при неограниченно расту- щем п, а (п + 1)! = (n + l)n+1e-(n+1) + 1). Отсюда получается F(n+1) (nV ПГ F(n) \n + 1J у n + Г F(n + 1) / / i\ 10g “F(n)~ = 1 " + 2) 10g t1 + • Хочется знать, возрастает или убывает F(n) при росте п, т. е. будет логарифм в левой части положительным или отрицательным. Я делю правую часть на п + остается 1 - 1о8 (? + I) • п + Я полагаю п = | и рассматриваю функцию ‘/’(ж) = 1 - log(l + ®), .7- 1 2
Применение формулы Стирлинга 87 то есть <р(х) = 1Г+2 “М1 + ж)- Положительно или отрицательно у(ж)? Переменная х меняется от О до 1. При х = О ^(0) = 0; при X = 1 99(1) = I -log2. о Так как log2 = 0,69... , отрицательно. Надо выяснить, обращает- ся ли в нуль производная // ч _ 4 1 _ 4(ж + 1) - (ж + 2)2 Ж ~(ж+2)2 1 + х~ (ж + 1)(ж + 2)2 Знаменатель всегда положителен, числитель равен —ж2. Итак, <р'(ж) всегда отрицательна, следовательно, у>(ж) убывает; значит, у>(ж) оста- ется отрицательной и F(n + 1) < F(n). Если п = 1, то п! = 1 и 1 = e-1F(l), то есть F(l) = е. Также известно, что F(oa) = уТтг. Величина F(n) всегда убывает, но это убывание не очень велико, т. к. е = 2,8 ... , а уТтг = 2,5 ... 56. Займемся описанием величины иа, и = тт а. т-а I т F(.m) а аа(т — а)т~а у а(т — a) F(a) • F(m — а) Речь идет о поиске верхнего предела этого выражения. Во-первых, F(m) < F(m — а),
88 Глава 5 откуда F(m) F(a)F(m — а) 1 F(a)' Но само —меньше, чем 1 : асимптотическая оценка иа и есть его F(a) верхний предел. 57. Какова вероятность того, что а меньше, чем ет? Эта вероят- ность, обозначим ее П, равна П — Uq + Ui + . . . + Up, где [3 < ет, [3 + 1 Ji ет. Я предполагаю е < р. Пусть сначала [3 + 1 = ет-, ид, Ui, ... , up возрастают. П < W/3-i-i • ((3 + 1). У нас есть верхний предел up+i; итак, если [3 + 1 = ет, то Атет д/2тг тее' или Пусть теперь Тогда Л™а/£п1 П < ——------. л/2тге' [3 + 1 > ет. П<И/3(/3+1). Ищем верхний предел up; я полагаю А = <^(£).
Применение формулы Стирлинга 89 Если бы равнялось е, получилось бы т т 2я/3(т — fi) Между тем А — это функция от е, растущая при росте е вплоть до е = = р,и <^(е) > Речь идет о верхнем пределе, поэтому U/з < Ат т 2тг/3(т — /3) Кроме того, /3 превосходит ет — 1, /3 > етп — 1, т — /3 > е'т — 1. и0 < Ат Тогда ___________________ _________т________ 2тг(етп — 1)( efm — 1)’ Чтобы вернуться к вероятности П, меньшей wg • (/3 + 1), заметим, что /3+1 само меньше гт + 1; мы приходим, наконец, к формуле, немного более сложной, чем для целого ет: если ет целое, то П < Ат тт^Лт (£т + 1)2"г если гт нецелое, то 11 < Amt ------------------. у 2тг(ет — 1)(е m — 1) Итак: вероятность того, что а меньше ет, если е меньше р, никогда не превосходит одной из только что вычисленных величин. Данная вероятность стремится к нулю, когда т бесконечно растет, при условии, что е < р. Это теорема Бернулли, которую можно сформу- лировать по-другому: вероятность того, что а лежит между тр(1 — в) и тр(1 + в), стремится к единице, если в постоянно, а т растет.
Глава 6 Закон Гаусса и повторение испытаний 58. Мы положили а = тр + Хл/т и нашли вероятность того, что Л лежит между двумя пределами Ло и Ai; эта вероятность при очень больших т представляется следующим интегралом: Ai Г I 1 _ а! ч / 4 п----е 2ря dX. J V Ао Теперь мы готовы исследовать, что происходит, когда вероятность того, что х лежит между я?о ИЖ1, представляется интегралом: Хо Для краткости я буду называть вероятностный закон нормальным, если значение вероятности представлено данным интегралом. Я предполагаю, что х положительно; вероятность этого равна то есть Если я рассматриваю I ^e~h^dX, О
Закон Гаусса и повторение испытаний 91 то этот интеграл будет постоянно расти, когда жо менятся от 0 до +оо, потому что все его элементы положительны. В частности, он достигает значения 4 Величина Жо, при которой интеграл равен называется вероят- ным уклонением. Модуль |ж| достигает и не достигает этой величины с одинаковой вероятностью. Число Жо пропорционально а его точную величину можно найти в таблицах значений данного интеграла. Пусть ж — некоторая величина с нормальным вероятностным за- коном. Вероятное значение |ж| равно 1 hy/iv Вероятное значение ж2 равно 1 2h2' Вероятностный закон ах также нормален. Пусть ах = х'; вероят- ностный закон ж' равен / -f^-e-b^dx', J а^/т? хо и достаточно положить h' = Вероятное значение квадрата ах равно 27г2' 59. Предположим, что для ж вероятность находиться между жо и жх выражена интегралом Ж1 , 2 2 — h х dx,
92 Глава 6 а для у вероятность находиться между уо и yi выражена интегралом У1 J dy. Уо Предположим, кроме того, что величины х и у независимы; это условие можно переформулировать следующим образом: вероятность того, что первая из них лежит между хо и х± не зависит от вероятности того, что вторая из них лежит между у0 и у±. Вероятное значение х2 равно у у2 оно равно —Ц. 2h2 2h' С какой вероятностью точка с координатами х и у окажется внут- ри некоторой области? Займемся сначала случаем прямоугольной области. Вероятность того, что (ж, у) попадет внутрь прямоугольника, т. е. что одновременно выполняются две системы неравенств х0 < х < жх, Уо < У < У1, представляется следующим двойным интегралом, взятым по всему прямоугольнику: Ц hhLe-nv-^dxdy. Если область произвольная, я разделяю ее на бесконечно малые прямоугольники. Полная вероятность будет суммой двойных интегра- лов, взятых по этим элементарным прямоугольникам; в конечном счете она совпадет с двойным интегралом, взятым по всем элементам облас- ти. 60. Теперь предполагаем, что X + у = Z. Вероятность того, что z лежит между z и z + dz, совпадает с веро- ятностью того, что точка (ж, у) заключена между двумя бесконечно близкими параллельными прямыми; искомая вероятность будет равна вероятности попасть в эту бесконечно малую область. Я хочу разбить данную бесконечно малую область на части.
Закон Гаусса и повторение испытаний 93 Для этого я разделю ось абсцисс на бесконечно много частей и в точках деления проведу параллели к оси ординат; так я получу бес- конечно много малых параллелограммов; какова площадь одного из них, ABCD1 Точки А и В удовлетворяют уравнению х + у = z; координаты А равны х и z — х, координаты В равны x + dx и z — х — dx. Точки С и D удовлетворяют уравнению х + у = z + dz; координаты D — х и z + dz — x; координаты С — x + dx и z + dz — х — dx. Площадь параллелограмма равна dxdz. Двойной интеграл будет суммой интегралов, взятых по каждому параллелограмму: dxdz^e-^-n'2^-^2. При первом интегрировании у и z считаются константами, а х меняется от — оо до +оо. Интеграл равен +оо dz^f- J e-h2x2-h'2(z-x}2 dx.
94 Глава 6 Полагаем Р = h2x2 + h,2(x- z)2, то есть Р = (h2 + h,2)x2 - 2h'2xz + h'2z2 ИЛИ P = (ax — b)2 + c, где a=Vh2+h'2, h h'2z b=—’ c = h'2 z2 — b2. Мы будем оценивать e~p dx или е-(аж-ь)2-С(/ж. Пусть ах — b = этот интеграл равен наконец, т. к. £ вместе с х меняется от — оо до +оо, получим Искомая вероятность того, что z лежит между z и z + dz, равна dzhbL. е_ гг 0, С другой стороны, м2 „2 Н'4г2 h2h,2z2 с — п z 9 9 • h2 + h'2 h2 + h'2
Закон Гаусса и повторение испытаний 95 Итак, требуемая вероятность равна j h2h'2 . е * h'2+h'2 y/h? + h'2 Вероятностный закон нормален^8). Вероятное значение z2 или (х + у)2 будет равно —-— -----— или , 2 ( h2h'2 A 2/' 27г'2 \Л2 + h'2J то есть вероятное значение (х+у)2 — это сумма вероятных значений х2 и у2. Вероятное значения 2ху здесь действительно равно нулю, но мы бы не получили этого a priori, если бы вероятностный закон не был нормальным. Данное элегантное рассуждение принадлежит г. Д’Оканю. 61. Задача о повторении испытаний. Есть два противопо- ложных события, Л и В, с вероятностями р и q соответственно. Пусть, например, урна содержит р белых и v черных шаров, — — v ~ р + v’ Q ~ р + iT из нее вытаскивают очень большое число шаров, равное т, каждый раз возвращая вынутый шар в урну. Если вытащено а белых шаров, то, по теореме Бернулли, скорее всего мало отличается от единицы. Вероятное значение А2 будет равно pq.1 Изменим немного условия так, чтобы не один только случай опре- делял наступление событий. Рассмотрим две урны, первая содержит р белых и v черных шаров, вторая — р' белых и v' черных, и догово- римся вытаскивать шары по очереди то из одной урны, то из другой. 1 LX Hhp ‘Здесь, как и ранее, А = --—— есть уклонение. — Прим. ред. у/т
96 Глава 6 После очень большого числа попыток, равного т. будут вынуты а бе- лых и (т — а) черных шаров. Итак, будет очень близко к р, которое здесь равно 1 Г 1 г' 2 // + 2 ц' -р и' Но сохранится ли закон уклонений? В данном случае это невозможно. Предположим, что в первой урне есть только белые, во второй — только черные шары: мы вытащим у белых и у черных шаров. Тог- да будет равно |, а уклонение — нулю, причем р тоже равно Вероятное значение Л2 — нуль; а должно быть равно i, т. к. Мы видим, что уклонение не сохраняется. 62. Я хочу показать, что при вмешательстве какой-то другой при- чины, кроме случая, вероятное уклонение (или вероятное значение Л2) будет меньше, чем если бы действовал один только случай. Пусть т испытаний образуют две категории, в одной [Зт, в дру- гой [З'т испытаний, и /3 + /3' = 1. Предполагаем, что два события А и В имеют, соответственно, ве- роятности р и q в первой категрии, р' и q' во второй. Событие А присутствует а раз в первой категории, а' раз во вто- рой; событие В присутствует [Зт — а и [З'т — а' раз. Полное число испытаний, благоприятных для А, равно а + а'; а очень близко к [Зтр, а а' — к [З'тр'-, @а и —- очень мало уклоня- ются от единицы; а + а' очень близко к (Зтр + [З'тр', т. е. уклонение имеет порядок \/т, и эта серия событий будет очень похожа на ту, что появляется при простом повторении испытаний, где вероятности А и В были бы [Зр + [З'р' и (3q + [3'q' соответственно.
Закон Гаусса и повторение испытаний 97 Ищем законы уклонений. Я хочу положить а = [Зтр + Ад/[Зт, а' = Дтр + А'д/(З'т. При полном испытании выполнялось бы равенство: а + а' = тДр + Др/ + Х"у/т, где [Зр + Др' — вероятность А во всей серии испытаний. Составим вероятные значения Л2, А'2, Л"2, которые обозначим (Л2), (А'2), (А"2). Получаем (A2)=pg, (A'2)=pV, а так же, если бы действовал только случай, (Х"2) = Др + Др/ДЧ + ДД/ Ищем настоящее значение (А"2). Имеем А" д/т = Ху/ (Зт + ХЗ у/ Дт или X" = ХД/+ Х'ДД. Два события являются независимыми: вероятность того, что А заключено в двух данных пределах, не зависит от вероятности того, что А' заключено в двух данных пределах. Вероятностные законы ХуДЗ и Х'у/Д нормальны, и вероятный закон их суммы ХуДЗ + Х'у/Д тоже будет нормальным. Вероятное значение А"2 будет равно (А"2) = /3(А2) + /3'(А'2) = (3pq + Др'Д Это и есть выражение для вероятного значения квадрата уклонения. Сравниваем две найденные величины; их разность равна Др + (3'p')((3q + Д q') - (J3pq + Др'/) или, если вспомнить, что (3 + Д = 1, Др + Др'/fiq + Д<Д - Дру + Др'/)Д + Д),
98 Глава 6 то есть W(pq' + p'q-pq-p'q') ИЛИ Но р-р' = q-q'- Тогда рассмотренная разность положительна, и (А"2)<(/Зр + /ЗУ)(/Зд + А')- Это свойство используется в статистике. Пусть результаты наблю- дений собраны в таблицу, и хочется узнать, случайны различия в на- блюдениях или здесь действует не только случай. Для какого-то определенного количества наблюдений сравнивают отношение числа наступлений события А и события В. Пусть N и N' — полное количество наступлений А и В, тогда р = q=^^- Р N + N 4 N + JV' Теперь разделим таблицу на несколько серий; в каждой из них полное число испытаний равно т, и а = рт + Ху/т — число исходов, благоприятных для А. Для каждой серии вычисляет- ся А; затем находится среднее арифметическое для А2; если это среднее равно pq, то действует только случай; если оно меньше pq, то действует не зависящая от случая причина.
Глава 7 Непрерывная вероятность 63. Парадокс Бертрана. До сих пор, даже если нам приходи- лось иметь дело с очень большим числом возможных исходов, это число оставалось конечным. Иногда мы рассматривали предельные переходы и заменяли ^2 на /• Теперь мы займемся задачами, в которых число возможных исхо- дов становится бесконечным. Требуется дать точное определение этих исходов, и парадокс Бер- трана предоставляет нам прекрасное свидетельство того, какого рода ошибки могут возникнуть в этих задачах; речь идет о следующем во- просе. С какой вероятностью хорда некоей дан- ной окружности будет больше стороны пра- В / вильного треугольника, вписанного в эту s' окружность? / /\\ Ж. Бертран решает эту задачу двумя / /а способами и получает совершенно противопо- С)^'а>—------- ложные результаты. \ / Пусть АВ — хорда; возьмем за едини- \ / цу радиус О А-, полярные координаты точки А будут 1 и W. Пусть а — угол АОМ, ОМ — перпенди- Рис. 3 куляр, восставленный из центра хорды, Р — точка пересечения этого перпендикуляра с кривой, а М — середина хорды. Угол РОх или в, равен а + щ. 64. Первое рассуждение. Неважно, на каком участке окруж- ности находится точка А. Вероятность того, что а> лежит между и Щ1, пропорциональна разности . Зафиксировав точку А, мож- но провести хорду во всех возможных направлениях, т. е., выбрав А, я могу придать а все возможные значения от 0 до
100 Глава 7 Вероятность того, что а будет находиться между и «1, пропор- циональна од — «'о. Если бы АВ была стороной вписанного равносторон- него треугольника, то а было бы равно 60°. Так как а может принять любое из значений от 0° до 90°, вероят- ность того, что хорда окажется больше стороны треугольника, равна 90° - 60° = 1 90°-0° 3’ 65. Второе рассуждение. Хорду можно провести в каком угодно направлении. Вероятность того, что 0 лежит между во и в±, пропорциональна в\ — во- Однажды зафиксировав это направление, я провожу ОР: отре- зок АВ будет определен, когда я выберу точку М, т. е. расстоя- ние ОМ = р = cos а. Расстояние р может принимать любое значение от 0 до 1; следует считать, что вероятность попасть в промежуток от ро до р± попорцио- нэльнэ р\ Ро* Хорда больше стороны треугольника, если ОМ лежит от 0 до |. Итак, вероятность равна Откуда берется это противоречие? В этих двух случаях мы при- нимаем разные гипотезы; мы определили вероятность двумя разными способами. 66. Пусть в общем случае требуется определить вероятность того, что какое-то число х лежит между х(1 и xi; в принципе, мы можем сказать, что ничего о нем не знаем. Эта вероятность должна зависеть от Жц и xi, т.е. она будет какой- нибудь функцией вида P(xq, жх). Если мы ищем вероятность того, что х лежит между хо и ж2, а Я?о < Ж1 < ж2, то в силу принципа сложения вероятностей эта вероятность равна Р(ж0, Х2) = Р(х0, Ж1) + Р(ж1; х2). Если ж2 = Ж1 + dx,
Непрерывная вероятность 101 то имеем Р(ж0, ж2) - Р(х0, Ж1) = Р(ж1, Xi + dxi). Эта вероятность будет бесконечно мала и после деления на dxt будет зависеть только от х±. Итак, во всех случаях получаем Х1 Хо Но нам неизвестна природа <р(х), эта функция остается произвольной; мы должны задать ее изначально по особой, имеющей какой-то смысл договоренности. Точно так же вероятность того, что точка (ж, у) лежит внутри данной области, равна /y)dxdy, где двойной интеграл берется по всей области, но <р(х, у) нам неизвест- на. Математик не имеет преимуществ при выборе этой гипотезы; но как только гипотеза выбрана, он должен внимательно следить, чтобы не принять другую, ей противоречащую. 67. Мы можем иметь много параметров х±, ж2, ... , хр. Интеграл порядка р, У я?2, ... , хр) dxi dx2 dxp, будет задавать вероятность того, что параметры х удовлетворяют не- которым условиям, если функция <р определена-, надо всего лишь взять интеграл по всем значениям х, удовлетворяющим данным условиям. Но это определение имеет смысл, только когда функция <р задана по какой-то предварительной договоренности. Предположим, что делается замена переменных xi, ж2, ... , хр на yi, у2, ... , ур; интеграл преобразуется в г а(я?1, ж2,..., хр) / ------------с dyt dy2... dyp J O(yi, y2, . . • , УР) с помощью якобиана, или функционального определителя х по у.
102 Глава 7 Этот новый интеграл полностью определен; интегрирование прово- дится по тем у, которые соответствуют прежним ж; они будут извест- ны, т. к. мы знаем соотношения, связывающие х и у. 68. Применим все вышесказанное к парадоксу Бертрана. В первом случае переменными были ш и а, во втором — вир. В первый раз вероятность того, что iv попало в промежуток от wq до wi, была пропорциональна wi — ш(): вероятность того, что а лежит от <>-() до «1, была пропорциональна <>-, — а0. Эта вероятность представлялась как интеграл Jу* div da, взятый по всем парам значений iv и а, удовлетворявшим требуемым условиям. Во второй раз мы предположили, что вир могут принимать все возможные значения с одинаковой вероятностью, и мы представили искомую вероятность как УУ de dp. Как мы уже непосредственно установили, эти две гипотезы не сов- падают. Ищем якобиан; имеем dp = — sin a da, d3 = div + da. Определитель 0 —sin a 1 1 равен sin a. Итак, второй интеграл равен УУ sin a div da и не совпадает с первым. 69. Другой пример. Рассмотрим на чертеже прямую АВ; ее тангенциальные координаты равны и |. Будем искать вероятность
Непрерывная вероятность 103 того, что эта прямая займет какое-то определенное положение. Вероят- ность того, что аиЬ принимают все значения в определенных пределах, может быть, по первому соглашению, представлена как Jу* da db, где b = a tgw, если ш — угол между АВ и АО. Точно так же можно сказать, что ш принимает все возможные значения; от- куда вероятность равна j‘j‘ da dev. Эти два интеграла не одно и то же, и второе соглашение, которое при поверх- ностном изучении могло бы показаться таким же обоснованным, как и первое, тельно, якобиан равен а 9 ’ cos о; npoTHBopenil^'eM'y; действи- f [ dadb = f f —— da div J J J J cos2 iv 70. Задача о разрезании палки. Палку длины 1 делят на три части х, у, z. X + у + Z = 1. Мы допускаем, что для х вероятность попасть в промежуток от х до х+ + dx по определению пропорциональна dx-, для промежутка от Хц до х^ она будет пропорциональна х^ — Xq. Точно так же для у вероятность попасть в промежуток от уо до ух будет по определению пропорциональна у, — уо- Тогда вероятность того, что х и у удовлетворяют определенным условиям, выражается через интеграл УУ dx dy, взятый по всем значениям х и у, удовлетворяющим этим условиям.
104 Глава 7 Аналогично можно было бы предположить, что эта вероятность равна или так как в качестве переменных можно взять х и z или у и z. Здесь все три определения эквивалентны; имеем 0(ж, у)’ а функциональный определитель в точности равен 1, т. к. Z = 1 — х — у. 71. Какова вероятность того, что х, у и z образуют треугольник? Нарисуем равносторонний треугольник с высотой 1: из точки М, внутренней для этого треугольника, опускаем перпендикуляры к трем сторонам. Полученная таким образом сумма их длин будет равна высо- те треугольника, т. е. 1; они будут соответствовать трем частям палки, т. е. х, у, z. Точку М можно рассматривать как определяющую способ деления палки: какова вероятность того, что эта точка попадет внутрь какой-то определенной области? Рис. 5 Вероятность того, что х лежит между х и x+dx, а у лежит между у и у + dy, пропорциональна dxdy. Точка М будет лежать между двумя
Непрерывная вероятность 105 прямыми, параллельными ВС, проведенными на расстояниях х и x + dx от ВС, и двумя прямыми, параллельными к АС, лежащими на рассто- яниях у и у + dy от АС. Построенный таким образом параллелограмм имеет углы 60° и 120°, а его площадь равна dx dy sin 60° ’ В этом случае вероятность будет пропорциональна площади парал- лелограмма; и вообще она будет пропорциональна площади рассмотрен- ной области. Так как точка М должна лежать внутри треугольника АВС, ве- роятность того, что М попадет внутрь какой-то определенной области, будет равна отношению площадей этой области и всего треугольника. Соединим прямыми точки А', В' и С — сере- дины сторон треугольника. Для того чтобы из х, у и z можно было составить треугольник, М долж- / \ на лежать внутри А'В'С; если точка М лежит на г</ \ r' одной из сторон А'В'С, выполняется одно из еле- / \ дующих уравнений: / \ , , , В А' С z = х + у, х = у + z, у = z + х; г .1 г,. Рис. 7 если точка М находится вне АВС, одна из трех величин х, у, z больше суммы двух других. Вероятность того, что из х, у, z можно составить треугольник, равна i. 72. Задача о бросании иглы. На листе бумаги нарисовано не- которое количество параллельных прямых, отстоящих друг от друга на одинаковое расстояние; это общее расстояние равно d, и на бумагу случайным образом бросают иглу, чья длина тоже равна d. С какой вероятностью эта игла пересекает одну из прямых? Можно поставить и более общую задачу. Зафиксированы две координатные оси OX, OY и фигура F, непо- движно соединенная с этими осями. Пусть, с другой стороны, есть подвижные оси ОХ и OY и фигу- ра Fi постоянной формы, но неподвижно соединенная с этими осями и перемещающаяся вместе с ними. Определяем положение подвижной фигуры по отношению к неподвижным осям.
106 Глава 7 Рис. 9 Пусть М — одна из ее точек, МР — прямая, проходящая через М и неподвижно соединенная с фигурой F±- достаточно определить поло- жение МР по отношению к XOY. Это положение определено коорди- натами х, у точки М и углом ш между МР и ОХ. Вероятность того, что F удовлетворяет некоторым условиям, про- порциональна III dxdy dw. Чтобы обосновать это определение, я покажу, что оно сохраняет-
Непрерывная вероятность 107 ся, если взять другую точку М' на подвижной фигуре и другую пря- мую М'Р'. Прямая М'Р' будет соединена с МР. Пусть I — длина ММ', а — угол ММ' с МР, а [3 — угол меж- ду М'Р' и MP: I, а, [3 — константы. Прямая М'Р' определена относительно системы координат XOY координатами х', у' точки М' и углом ш' между М'Р' и осью ОХ. Если по первому определению вероятность того, что подвижная фигура удовлетворяет некоторым условиям, равна J’J’J’ dxdydoj, то эта вероятность также будет равна /// dx' dy' doj'. Действительно, якобиан равен единице; имеем отображение х' = х + I cos(w + а), у' = у + I sin(w + а), ш' = w + [3, д(х', у', ш') и якобиан ——---------— равен с/(ж, у, ш) 10—1 sin(w + а) 0 1 I cos(w + а) 0 0 1 то есть 1. Итак, вероятностный закон одинаков, каким бы ни был выбор пря- мой МР. 73. Если я рассматриваю две фигуры <р, <р', равные между собой и соединенные с подвижными осями координат, то вероятность того, что <р' удовлетворяет каким-то условиям, совпадает с вероятностью того, что <р удовлетворяет тем же условиям. Рассмотрим прямую МР, соединенную с <р и другую прямую, М'Р', чье расположение относи- тельно <р' совпадает с расположением МР относительно пусть х, у, ш, с одной стороны, и х', у', ш', с другой стороны, — величины, определя- ющие положение этих двух прямых.
108 Глава 7 Тогда и положение фигуры <р определено / /с помощью х, у и ш, а фигуры р' — с по- I ч / мощью х', у', ш'. Для того чтобы р удовле- ✓— творяла каким-то условиям, х, у, w должны / (р' удовлетворять каким-то неравенствам. Для I того чтобы у>' удовлетворяла тем же услови- \ М Р ям, ж', у', ш' должны удовлетворять тем же \ неравенствам. При разнице в обозначениях J мы, тем не менее, получим один и тот же ин- теграл. Рис. 10 Итак, значение вероятности одинаково в обоих случаях. 74. Требуется найти вероятность, с которой ограниченный отре- зок МР пересекает параллельные прямые в задаче о бросании иглы. Если второй отрезок М'Р', той же длины, неподвижно соединен с МР, то вероятность пересечения с параллелями будет для него той же самой. Если вместо МР рассмотреть вдвое больший отрезок MQ, то ве- роятность удвоится^9), т. к. этот отрезок состоит из двух частей, рав- ных МР, назовем их MN и NQ, где N — середина MQ. Предположим, игроку обещают столько франков, сколько точек пе- ресечения с параллельными прямыми1 будет у отрезка. Математичес- кое ожидание при игре с MQ будет равно удвоенному ожиданию при игре с MN, т. к. оно совпадет с суммой ожидания для MN и ожидания для NQ. В общем, оно будет пропорционально длине отрезка. Если NQ не будет продолжением MN, математическое ожидание все равно удвоится. Итак, математическое ожидание пропорциональ- но общей длине линии, прямая она или ломаная, или, если пойти еще дальше, какую бы форму она не имела. Если обещано столько франков, сколько точек пересечения имеет с параллельными прямыми какая-то кривая, математическое ожидание будет также пропорционально длине этой кривой. Если кривая — это окружность диаметра d, то ее длина будет рав- на Trd; в этом случае всегда есть две точки пересечения и математи- ческое ожидание равно 2. Для кривой длины s это ожидание будет ДЛЯ прямой ДЛИНЫ d ---- 1Можно договориться, что если один из концов MN попадает на прямую, это считается полупересечением. — Прим. авт.
Непрерывная вероятность 109 75. Вернемся к парадоксу Бертрана, связанному с вероятностью того, что хорда некоторой окружности будет меньше стороны вписан- ного в нее правильного треугольника. Проведем окружность С", концентрическую к первой, С, так, что- бы радиус С был в два раза меньше. Случайным образом помещаем на чертеж отрезок. Если мы примем соглашения, сделанные только что в задаче о бросании иглы, то будет ли вероятность зависеть от новой, третьей гипотезы, или от одной из двух, изученных ранее? Я могу считать отрезок фиксированным, а окружности — подвиж- ными. Вероятность того, что одна из окружностей пересекает отрезок, пропорциональна ее длине; тогда вероятность того, что С пересека- ет отрезок, равна отношению длин двух окружностей, т. е. Так мы возвращаемся к одной из гипотез Бертрана.
Глава 8 Различные приложения 76. Рассмотрим еще одну задачу, аналогичную задаче о бросании иглы. На сфере S нарисована подвижная фигура; какова вероятность то- го, что эта фигура удовлетворяет некоторым условиям1? Во-первых, как определить ее расположение? Пусть ро — начальное, р, — конечное положение подвижной фигу- ры; из ро в pi можно перейти с помощью подходящего поворота, опре- деленного осью и углом вращения. Пусть а, /3, 7 — направляющие косинусы оси, а 20 — угол враще- ния; полагаем A = cos0, p = asin0, v = /3sin0, p = 7sin0 и считаем A, p, v, p переменными. Они связаны соотношением л 2 । 2 I 2 । 2 i X + p + P + p = 1. Это соотношение сохраняется, если поменять знаки у А, р, /л р, и нам достаточно знать любые три из этих величин. Пусть вероятность представляется с помощью тройного интеграла /dp dv dp точно также ее можно записать через /dX du dp 13десь и далее рассматривается сфера радиуса 1. — Прим. ред.
Различные приложения 111 Действительно, найдем якобиан этих новых переменных А, 7у, р по старым, т. е. р, тл р, считая А определенной как функцию от р, v. р. XdX = —р dp — v dv — р dp. Якобиан равен _v _р XXX О 1 о 0 0 1 Итак, при замене переменных первый из тройных интегралов с точностью до знака переходит во второй после умножения на д. Сле- довательно, dp dv dp f dp dv dp И J ~T~ дадут одинаковое определение вероятности. Это определение можно об- основать следующим образом: рассмотрим сферу 2,2,2 -I X + у + Z = 1. Предполагаем, что для произвольной точки сферы вероятность по- пасть внутрь некоторой сферической области пропорциональна площа- ди этой области. Данная площадь совпадает с интегралом /dx dy f dx dy cos n£ J Z где cosnS — третий направляющий косинус нормали к сфере в данной точке. В нашей задаче мы приняли совершенно аналогичную гипотезу, т. к. Az + /г + + р = 1 было бы уравнением сферы в четырехмерном пространстве 77. Предварительно я займусь начальным положением pg. Пово- рот А, р, v, р зависит не только от pi, но и от выбора начального поло- жения. Я хочу показать, что вероятность останется прежней, если вместо начальной позиции ро рассмотреть другую, р'о.
112 Глава 8 Поворот от р'о к pi определяется с помощью А', р', у', р', а вероят- ность — через Г dp' dv' dp' J V ’ Я заявляю, что она будет пропорциональна предыдущей. Пусть I, т, п, г определяют поворот от р'о к рд, тогда пово- рот А', р', у', р' будет результатом двух других. Формулы композиции поворотов известны: А' = XI — pm — уп — рг, р' = Am + pl — уг + рп, у' = Хп + рг + у1 — рт, р = Хг — рп + fm + pl. Теперь нужно вычислить якобиан А', р', у', р' по А, р, у, р. Я по- лагаю <т = У А2 + р2 + />2 + р2. В нашей задаче а = 1, но в принципе я могу придать А, р, у, р любые значения. Аналогично У = УА'2+р'2 + р'2+р'2. Каковы бы ни были эти величины, имеем а' = ay/l2 + т2 + п2 + г2, и если I, т, п, г — данные константы, то а' = <т. Требуется вычислить д{р', у', Р') д(р, у, р) при условии <т = 1, т. е. др' др' др' др ду др ди' ду' ду' др ду др др' др' др' др ду др
Различные приложения 113 Но я хочу довести число переменных до 4 рассматривать, с одной сто- роны, <т, р, v, р, с другой стороны, <т', р', v', р'. Так как <т' = <т, частные производные от <т будут 1, 0, 0, 0: 1 0 0 0 др' др' др' др' да др dv др ди1 dv' dv' dv' да др dv др др' дР' др' др' да др dv др Это тот же самый определитель, т. е. теперь можно написать, что д(р', у', р') д(р, и, р) д(а, р', и', р') д(а', р, v, р) д(а, р', у', р') . д(Х', р', г/, р') . д(Х, р, и, р) д(Х', р’, и', р') d(X,p,v,p) д(а, р, v, р)' Вычислим по очереди три последних определителя. Первый равен да' да' да' да' дх' 0 др' 1 dv' 0 дР' 0 0 0 1 0 дХ' а' 0 0 0 1 Второй равен 1 —т —п —г т 1 —г 1 п //2 । 2 । 2 । 2\2 1 = (1 т п + Г ) = 1 п г —т г —п т 1 Третий равен д(Х, р, у, р) = 1 = JL = а д(а, р, 1з, р) д(а, р, 1з, р) X X д(Х, р, 1з, р)
114 Глава 8 Итак, произведение всех трех равно и интеграл Л Г dp' dv' dp' J V превращается в /dp du dp A' ' A или /dp dy dp Следовательно, вероятность остается одной и той же, каким бы ни было начальное положение. 78. Требуется найти вероятность того, что наша фигура ро удов- летворяет некоторым условиям. Если рассмотреть другую фигуру р'о, равную первой и неподвижно соединенную с ней, то можно точно также потребовать, чтобы эта вто- рая фигура удовлетворяла каким-то условиям. Пусть тогда А, р, v, р — параметры вращения, переводящего ро в pi, а А', р', v', р' — парамет- ры вращения, переводящего pg в pi. Вероятность того, что р0 перейдет в pi, удовлетворяющую каким-то условиям, представляется как /dp dv dp где параметры А, р, у, р должны удовлетворять некоторым неравенст- вам. Вероятность того, что р'о переходит в pi, удовлетворяющую тем же условиям, представляется как Г dp' dv' dp' J V ’ где A', p', v', p' должны удовлетворять тем же неравенствам. Интегра- лы, отличающиеся только обозначениями, равны, и вероятность оста- ется прежней. Итак, вероятности того, что две подвижные фигуры, равные и со- единенные друг с другом, удовлетворяют одному и тому же условию, равны между собой.
Различные приложения 115 79. Выберем другое рассуждение, без А, /;. /л р. Я определяю положение точки М подвижной фигуры ее координа- тами ж, у, z, а положение дуги большой окружности МР — углом со, который МР образует с МА, если МА — дуга большой окружности, проходящей через фиксированную точку А. Вероятность запишется как где ф — функция от х, у, z и со. Взяв dxdy = z da, где da — элемент поверхности сферы, получаем интеграл У Qdadco. Этот интеграл нужно взять по всем а — элементам поверхности сферы — и по всем значениям угла со, удовлетворяющим данным усло- виям. Возвращаясь к переменным х и у, запишем dx dy , *^dco. 80. Я заявляю, что вид Ф остается неизменным, каким бы ни было положение точки А. Рассмотрим другую фиксированную точку, В, и пусть со' — угол между МР и МВ, [5 — угол между МВ и МА. со' = со + [3. Вместо х, у, со сделаем переменными х, у, со'. Функциональный опреде- д(х, у, со') литель —-------- равен д(х. у, со) 10 0 0 10 д/3 д(3 дх ду
116 Глава 8 ХР' 81. Функция Ф не зависит от ш. / ^-Р Действительно, рассмотрим другую дугу большой / / окружности, МР', и пусть са' — угол между МР' и МА, Г/ а — угол между МР' и МР. ш" = ш+а. в Вероятностный закон не изменится. Интеграл Рис. 11 У Ф da div выражает вероятность того, что МР удовлетворяет некоторым усло- виям. Интеграл У Ф da div" будет выражать вероятность того, что МР' удовлетворяют тем же са- мым условиям. Эти две вероятности должны совпадать, значит, Ф не будет зависеть от ш. 82. Более того, Ф не зависит от х и у. s' Действительно, пусть da и da' — два / до элемента поверхности сферы, равные меж- / dcrGK. \ ду собой. Пусть I, т, п, г — параметры вра- / Г® \ щения, переводящего da в da'. Пусть так- Р' I же А, р, v, р — параметры вращения, пере- I / / водящего подвижную фигуру в такое по- \ da' / ложение, чтобы М оказалась внутри da, \ А / а А', р', и', р' — параметры вращения, пе- х. s/ реводящего М внутрь da'. Пусть, кроме того, х, у — координаты рис 12 центра масс da, а х', у' — центра масс da'. Параметры А', р', и', р' будут линейны- ми функциями от переменных А, р, v, р, с одной стороны, и I, т, п, г — с другой стороны; действительно, для доказательства этого факта надо всего лишь обратиться к формуле композиции вращений, приведенной выше. Между тем, как и раньше, мы имеем /dp dv dp f dp' dv' dp' ~^~ = J V ’
Различные приложения 117 df dp Вероятность того, что М лежит внутри dcr, равна 2тг dw J Ф da = 2тгФ(ж, у) da = о параметры А, р, /л р должны удовлетворять неравенствам, выража- ющим тот факт, что соответствующее вращение перемещает М внутрь da; интеграл берется по всем значениям параметров, удовле- творяющим этим условиям. Вероятность того, что М лежит внутри da', равна о ж/ / м .1 ! f dp' du' dp' 2тгФ(я? , у ) da = / Итак, Ф(х, у) da = Ф« у') da' или, так как da = da' Ф(ж, у) = Ф(ж', у'), интеграл брался по всем значениям р', v', р' таким, чтобы враще- ние А', р!, v', р' переводило М внутрь da'; или, что то же самое, таким, чтобы вращение А, р, /л р переводило М внутрь da. 83. Мы записали вероятностный закон в другой форме, но такое определение вероятности будет совпадать с прежним, когда мы брали в качестве переменных А, р, /л р. В итоге вероятность того, что М попа- дет внутрь некоторой области da, и, в то же время, МР образует с МА угол ш, равна Ф da dw, где Ф — константа, которую надо определить. Возьмем интеграл по всем элементам сферы; угол ш меняется от О до 2тг, а <т — от 0 до 4тг. Значение интеграла будет равно 4тгФ х 2тг = 8тг2Ф; но это вероятность, которая должна совпадать с 1. Итак, Ф = — 8тг2 /da du f dx dy dw 2 или / —— ---------искомый вероятностный закон.
118 Глава 8 84. Пусть на сфере есть неподвижная и движущая кривые; игроку обещают столько франков, сколько найдется точек пересечения; каково математическое ожидание игрока? Оно пропорционально произведению длин кривых. 85. Если рассмотреть подвижную фигуру ср и две фиксирован- ные, и </9г, то вероятность того, что </9 займет заданное положение относительно </9i, совпадет с вероятностью того, что ср займет то же положение относительно ср2. Иначе говоря, пусть A, //. /л р определяют поворот, переводящий </9i в какое-то положение ср'; введем новые переменные А', р', и', р', опре- деляющие поворот, который переводит <р2 в то же положение ср'; мы обнаружим, что вероятностные законы одинаковы, и получим, как и выше, /dp dv dp _ f dp' dv' dp' ~^~ = J V ’ Поворот A', p', v', p' — результат двух других, \,p,v,p и l,m, n,r; этот последний, переводящий </9г в <£>i, можно считать заданным, и вы- числение функционального определителя р, v, р по р', v', р' проводится также, как и в предыдущий раз. Установив это, я откажусь от параметров А, р, v, р, чья геомет- рическая интерпретация довольно сложна, и мы вернемся к перемен- ным х, у и щ из параграфа 79. 86. Пусть М — точка подвижной фигуры на сферической поверх- ности, имеющая координаты ж, у, z; а МР — дуга большой окружнос- ти, принадлежащая подвижной фигуре и составляющая угол ш с дугой другой большой окружности, МА, проходящей через другую фиксиро- ванную точку А. 1° С какой вероятностью М лежит внутри da, когда щ меняется от 0 до 2тг? Эта вероятность равна /da dco _ dff^ 8тг2 ~~ 4тг' 2° С какой вероятностью подвижная окружность на сфере пересе- чется с фиксированной? Пусть Р — полюс фиксированной окружности, А — точка пересе- чения с плоскостью чертежа, а 0 — угол РОА.
Различные приложения 119 Пусть Р', А', О' —аналогичные характеристики подвижной окруж- ности. Пусть <р — угол POP'. Необходимое и достаточное условие пересечения — одновременное выполнение неравенств < 0 + 0', ip > 0 - О' в предположении, что 0 > О'. Обозначим ВСВ'С область, в которой должен находиться по- люс Р' подвижной окружности; в проекции на плоскость чертежа две малые окружности, ограничивающие эту область, превращаются в от- резки ВВ',СС'-, угол РОВ будет равен 0 — О', угол РОС — 0 + 0'. Искомая вероятность будет пропорциональна высоте be = ОЬ — Ос = cos(# — О') — cos(0 + О'), be = 2sin#sin#'. 87. Можно сформулировать и более общую задачу. Пусть даны: 1° п дуг фиксированных больших окружностей, ci, сг, ... , с„; все дуги равны между собой и имеют длину /; 2° п' дуг подвижных больших окружностей, с'1; с'2, ... , с'п той же длины I, соединенных друг с другом. Я ищу точки пересечения подвижных дуг с неподвижными и обе- щаю заплатить столько франков, сколько есть точек пересечения. Математическое ожидание игрока будет пропорционально произ- ведению пп'.
120 Глава 8 Как только что было показано, вероятность пересечения с'х с ci совпадает с такой же вероятностью для с'2 и ci, и т. д. Точно также она остается неизменной для и с2 и т. д. Математическое ожидание составит столько франков, сколько со- четаний можно образовать из первых п дуг с п' вторыми. Предположим также, что длина этих последних равна I' и отлична от Г. математичес- кое ожидание будет равно пп'П'. Если рассматривать две ломаные линии, составленные из дуг боль- ших окружностей, то математическое ожидание по-прежнему будет пропорционально их длинам, т. к. если удвоить один из элементов, то соответствующее математическое ожидание тоже удвоится. При предельном переходе этот вывод все еще будет верным, и вооб- ще математическое ожидание будет пропорционально s и s' — длинам кривых. Пусть оно равно Kss'. Ищем константу К. Возьмем две больших окружности: их длина одинакова и рав- на 2тг, они пересекаются в двух точках; математическое ожидание рав- но К х 4тг2 и, т. к. оно равно 2, Для произвольных окружностей математическое ожидание рав- но Если окружности пересекаются, то точек пересечения будет 2тг две1. Между тем s = 2jrsinff, s' = 27rsin0'. Ожидание равно 2тг sin в х 2тг sin в' „ л л/ -----------------= 2тг sin в sin в . 2тг2 Выше мы получили тот же результат другим способом. 1 Вероятность того, что окружности касаются (т. е. имеют одну точку пересече- ния), равна нулю. — Прим. ред.
Различные приложения 121 88. Пусть на небесной сфере случайным образом размещены N звезд. Будем платить игроку один франк за каждую пару звезд р и р' такую, что угловое расстояние между ними меньше 7. Каково матема- тическое ожидание игрока? Пусть звезда р' должна попасть внутрь некоторой области. Поверх- 2 "У ность этой области будет пропорциональна sin Для 7 = тг эта поверх- ность совпадет со всей сферой. Итак, вероятность равна ™ ... lY(lV-l) Так как всего звезд 7V, они могут образовать ----- пар. Математи- ческое ожидание равно - 1) . 27 2 ’ Sm 2 ’ 89. Рассмотрим механическую систему, чьи уравнения имеют га- мильтонов вид; п переменных, , хп, определяют положение системы; еще п переменных, yi, У2? • • • , Уп — ее скорости. Пусть задана функция F, зависящая от х и у; уравнения имеют вид1 dxj = d£\ dyj = dF dt dyt ’ dt dx{ Нам известна F, т. e. закон движения, но неизвестны начальные условия. Обозначим х®, • • • , и у®, у$, ... , у„ значения переменных в момент t = 0. Какова вероятность того, что эти переменные имеют какие-то определенные значения в данный момент tl Если мне дан вероятностный закон, по которому переменные при- нимают вышеуказанные начальные значения, задача становится одно- значно определенной. Я предполагаю, что этот вероятностный закон для начальных значений задан. гТакую функцию принято называть гамильтонианом. — Прим. ред.
122 Глава 8 90. Я считаю, что вероятность пропорциональна интегралу К dx® dx% ... dy® dy2 • • • d.y®. где К — некоторая константа. Можно предположить, что о начальных величинах ничего неиз- вестно; допустим, мы знаем только, что F лежит между Fi и Гг! так как функция F = const будет интегралом уравнения движения (пер- вый интеграл движения), F останется между Fi и F2, если начальное значение F лежало в этих пределах. Предыдущий интеграл, взятый по всем значениям переменных, удовлетворяющим неравенствам Fi < F < F2, будет равен 1. Если вероятностный закон верен для начальных значений перемен- ных, он будет верен и для их конечных значений. Достаточно знать, что функциональный определитель конечных значений по начальным равен единице. Пусть х', ... , у', ... — значения х, ... , у, ... в момент t'; х, ... , у, ... — их значения в момент t. Достаточно доказать наше предложение только для близких t и t'. Пусть t = t + в. Для простоты я рассмотрю случай двух переменных х и двух у. I dxi dF Xi = xi + е-т- = xi + e-—, dt dyi x'2= x2 + dy2 и
Различные приложения 123 Функциональный определитель равен с d2F с d2F cd2F с d2F dxi dyi dx2 dyi dyf dxi dy2 d2F 1 ! c d2F C d2F Cd2p dxi dy2 dx2 dy2 dy2 dyi dyi cd2F c d2 F T c d2 F c d2 F dx2i dxi dx2 dxi dyi dxi dy2 d2F cd2F c d2F j _ c d2 F dx2 dxi dx2 dx2 dxi dx2 dy2 Я буду раскладывать его, пренебрегая квадратом е. Все элемен- ты определителя, кроме диагональных, — бесконечно малые первого порядка. Поэтому как минимум второй порядок будут иметь все сла- гаемые, кроме входящих в d2F \ Л , „ d2F \ Л „ d2F \ Л „ d2F \ ------- I I 1 + €------ I I 1 — S------- I I 1 — 6------ I dyi J \ dx2 dy2 J \ dxi dyi J \ dx2 dy2 J или (PF \ dxi dyi J 1_£2 ( d2F A \ dx2 dy2 J то есть определитель равен 1 с точностью до е2. 91. Из всего предыдущего вытекает, что нужно уделить очень большое внимание выбору подходящего вероятностного закона. Вероятность того, что х лежит между Хц и Xi, выражается через интеграл У <р(х) dx; х0 при нахождении вероятностного закона нам придется выдвигать раз- личные гипотезы о виде функции (р, но мы всегда будем считать ее непрерывной. В общем случае вероятность того, что х удовлетворяет какому- то заданному условию, будет зависеть от выбора ср; однако, это про- исходит не всегда, и решение некоторых задач не зависит от выбора вероятностного закона.
124 Глава 8 Пример 1. Вероятность того, что х иррационально, всегда будет равна 1, как бы ни была выбрана непрерывная функция <р, а вероятность рационального х всегда будет бесконечно малой. 92. Пример 2. Барабан разделен на очень много равных частей, попеременно черных и красных; будем вращать его с большой скорос- тью. Когда он остановится, одна из частей окажется напротив фикси- рованной стрелки: с какой вероятностью эта часть будет красной или черной? Рис. 15 Для полного решения задачи требуется знать произвольную функ- цию р; решение будет зависеть от импульса, начальной угловой ско- рости. Вероятность того, что эта скорость попадет в интервал от wq до wi, равна У <р(ш) dw, CUQ где функция <р совершенно неизвестна. С другой стороны, полный угол поворота барабана равен 0. Веро- ятность того, что в лежит между во и равна в1 /т во вв. Мы точно так же ничего не знаем о f(Q). Тем не менее вероятность
Различные приложения 125 того, что нужный участок будет красным, всегда очень близка к таким образом она не зависит от /. Я предполагаю, что каждому делению на барабане соответствует угол е; разделим ось абсцисс на части, равные е, а в точках деления проведем вертикальные прямые до пересечения с кривой y = fW- Так как в точках деления цвет меняется, я заштрихую области, соот- ветствующие, например, красным делениям. Искомая вероятность равна отношению заштрихованной площади к полной. Какова ни была форма кривой, при бесконечно растущем числе делений это отношение будет стремится к Действительно, пусть А — максимальный угол, на который может повернуться барабан, т. е. О < А. Пусть функция /(0) непрерывна и дифференцируема. Пусть, кроме того, ее производная не превышает некоторого максимума М: \Г(0)\<м. Я делю А на п равных частей; пусть е — одна из них. Имеем Рассмотрим две соседние области: разность их площадей меньше, чем е(/ч — /А), где // и р' обозначают соответственно максимум и ми- нимум на этом интервале. Но (ц — ц!) меньше, чем 2Ме: разность двух площадей меньше, чем 2Ме2. Так как заштрихованных областей мы найдем разность пло- щади двух полных областей, если умножим результат на что даст нам Ме2п или МАе. Разность площади двух областей стремится к нулю вместе с е, и - 1 вероятность оказывается равной Если бы мы совершенно ничего не знали про или /, мы бы ничего не смогли вычислить; предпринимать вычисления можно только при наличии некоторых сведений о них. Но здесь нам оказалось достаточно знать, что у / есть ограниченная производная.
126 Глава 8 93. Пример 3. Рассмотрим большое число планет с практичес- ки круговыми орбитами. Пусть а — средняя скорость одной из этих планет, b — ее долгота в данный момент времени, который мы будем считать начальным. В момент t ее долгота равна I = at + b. Пусть вероятность того, что а и b удовлетворяют определенным усло- виям, равна У р(а, b) da db. Я заявляю, что в конце очень большого промежутка времени планеты будут одинаково распределены по всем знакам Зодиака. Таким образом, вероятность того, что I лежит в данных пределах, не будет зависеть от р. Ищем вероятное значение функции е™г: если т отлично от ну- ля, вероятное значение будет стремиться к нулю при неограниченном возрастании I. Это вероятное значение можно записать как Уе’то(а*+ь)^(а, b) dadb. Интегрируя по частям, получаем / im(at+b) Г Г im(at+b) ——-—р db — I I ——--------— da db. imt J J imt da Если мы только предположим, что р непрерывна, оба верхних выраже- ния будут стремиться к нулю. Я хочу найти вероятное значение какой-нибудь периодической функции /(/). Формула Фурье дает нам /(Z) = £Ame™z. Вероятное значение каждого из членов этого ряда, исключая констан- ту Aq, равно 0. Итак, вероятное значение /(/) равно 2тг Ao = i^ldl- о
Различные приложения 127 Предположим, что О < l0 < ?i < 2тг; вероятность того, что I лежит между Iq и Zi, равна h «о li — Iq 2тг Это вероятное значение функции f(l), равной 1, если I лежит между /о и ?i, и 0 иначе. При каких угодно t и <р вероятность будет практически пропор- циональна li — Iq; распределение планет будет равномерным.
Глава 9 Условные вероятности 94. Теперь мы займемся вопросами, связанными с так называе- мой условной вероятностью. До сих пор мы решали задачи следующего содержания: если извест- но, что действует такая-то причина, то какова вероятность такого-то следствия? Существуют обратные задачи: если известно, что произошло такое- то следствие, какова вероятность того, что действовала такая-то при- чина? Эти задачи схожи с задачей о двух урнах, в первой из которых белых шаров намного больше, чем во второй: известно, что вынули белый шар, но неизвестно, из какой урны; гораздо больше оснований считать, что урна была первой, а не второй. Чтобы дать более точные определения, необходимо принять особое соглашение, как в начале обсуждения любого вероятностного вопроса. Когда число возможных исходов сравнивают с числом благоприят- ных, надо следить, чтобы все исходы были равновероятны. Соглашение, основанное на равной вероятности каких-то исходов, всегда остается в довольно большой степени произвольным. Из колоды в 32 карты вытащили карту, известно, что это картинка; какова вероятность того, что это король? До того как событие произошло, вероятность равнялась отноше- , 4 1 нию числа королей к общему числу возможных исходов, т. е. или ±. 32 о После того как событие произошло, число благоприятных исходов по прежнему 4; число возможных исходов меньше, оно равно количеству картинок, т. е. 12. Вероятность стала или |; она увеличилась. 95. Формула Байеса. Пусть на событие могут повлиять п раз- ных причин, Ci, (?2, ... , Сп\ вероятность того, что причина (7j, если в событии участвовала она, приведет к исходу А, равна Pi.
Условные вероятности 129 Если бы мы знали, что воздействует именно Сд, мы бы могли утверждать, что вероятность А равна pi. Предполагается, что две причины не могут действовать одновре- менно. До того как событие произошло, каждая из этих причин a priori имела какую-то вероятность, которую я считаю известной: для Ci эта вероятность равнялась Wj. Случилось событие А: какова вероятность того, что это следствие причины Ci? Занумеруем все возможные и вероятные исходы и для наглядности рассмотрим конкретный пример. Пусть в каждой из М урн есть Q шаров; всего MQ шаров или MQ возможных исходов, которые я считаю равновероятными. Урны делятся на группы Ci, С2, • • • , Сп. Урн вида Сд будет ш^М; вида Сг — ... ; вида Сп — йпМ. A priori вероятность того, что воздействовать будет причина Сп, равна йп М _ _ М В урнах лежат белые или черные шары. Пусть, например, собы- тие А наступает, если вынут белый шар. Вероятность вынуть белый шар из урн первого вида равна pi. В урнах вида Ci лежит piQ белых шаров; в урнах вида С2 —P2Q, ... , в урнах вида Сп — pnQ. Вынули белый шар; требуется найти вероятность того, что вы- бранная урна имела вид Ci- Число благоприятных исходов равно числу белых шаров в урнах вида Ci, т. е. WiPiMQ. Полное число всех возможных исходов совпадает с числом всех ша- ров, т. е. W1P1MQ + W2P2MQ + ... + wnpnMQ. Отношение этих двух чисел и будет, по определению, искомой вероят- ностью _________&iPi_________ &1Р1 + U2P2 + • • • + UnPn ’ 96. Итак, можно сказать: вероятность того, что действовала при- чина Ci, после того как, подействовав, она привела к событию А, равна произведению вероятностей.
130 Глава 9 Во-первых, причина Ct должна действовать, а вероятность этого a priori равна затем, воздействовав, она приводит к событию А с вероятностью pi. Произведение вероятностей равно CoiPi. Но вопрос поставлен иначе. Требуется, чтобы событие произошло, и только затем оно должно быть приписано причине С;. Это снова произведение вероятностей. Вероятность того, что событие происходит, равна W1P1 + Ш2Р2 + • • • + wnpn; пусть (если известно, что событие произошло) вероятность того, что оно — результат причины Ci, равна х, тогда произведение вероятнос- тей того, что событие произошло, и того, что оно — результат причи- ны Ci, равно х (wipi + W2P2 + • • • + w„p„), откуда = __________&iPi_________ OJ1P1 + &2Р2 + . . . + й>пРп Или иначе, возьмем формулу (В)(А, если В) = (А)(В, если А), приведенную в параграфе 12. Пишем (Ci)(A, если Ci) = (А) (С,, если А). (Ci) — вероятность причины a priori, когда неизвестно, произошло ли следствие А; это ш,. (А, если Ci) — вероятность следствия, если известно, что дейст- вовала причина Ср, это pi. (Ci, если А) — вероятность причины a posteriori, когда известно, что А произошло; это х. Вероятность (А) — константа, не зависящая от С;. Предыдущее равенство показывает, что (Ci, если А) пропорцио- нально произведению (Cj)(A, если Ci); т. е. х пропорционально PiCoi.
Условные вероятности 131 97. Пусть в начале игры противник тянет карту и вытаскивает короля; какова вероятность того, что это шулер? Пусть — априорная вероятность того, что это не шулер; й? — что шулер. В первом случае вероятность вытащить короля равна О во втором — 1. A posteriori вероятность того, что мы имеем дело с шулером, равна йч . _ T + W2 Если предположить, что й>2 = й>1, т. е. мы ничего не знаем о чест- ности противника, вероятность равна |. Это очень большое число. К счастью, в большинстве случаев можно a priori считать, что W2 < W1- 98. В одной урне, чье содержимое неизвестно, лежит N шаров; мы вынимаем шар /л раз, каждый раз возвращая вынутый шар в урну, и нам попадаются только белые шары. Какова вероятность того, что в урне п белых шаров? Пусть й>п — априорная вероятность того, что в урне п белых шаров, а рп — вероятность того, что вытащили /л белых. Когда /л шаров вынуто, вероятность того, что в урне содержится п белых шаров, задается вышеуказанной формулой, и после сокращения / I на множитель (I , общий для обеих частей дроби, она равна ______________________________ -1^ + wi •г^ + .-. + шх - Ж’ 99. Требуется знать a priori числа шх, , шц, о которых мож- но выдвигать множество гипотез. Предположим, например, что любой состав шаров в урне равнове- роятен, т. е. все равны. Каждое из них совпадет с 1 w + r т. к. сущест- вует N + 1 возможность, включая случай, когда нет ни одного белого
132 Глава 9 шара. Предыдущая дробь превращается в ________п;|______ IM + 2М + ... + Ж ’ Во второй раз предположим, что в урну последовательно кладет- ся N шаров, одни белые, другие черные, и каждый раз цвет определя- ется жребием. Вероятность положить белый шар каждый раз равна |, а вероят- ность того, что в конце п из N шаров в урне будут белыми, оценивается по формуле где надо положить т = N, а = п, р = q = ^, что дает /1^ п\ (N — п)! \2/ Так, йп — априорная вероятность того, что в урне было п белых ша- ров, — будет пропорциональна биномиальному коэффициенту, а в вы- ражении апостериорной вероятности того же события нам придется приравнивать все w к этим различным коэффициентам: и, = Nl п n'.(N-n)'.' 100. Результат будет совершенно не похож на предыдущий. Пусть N очень велико; 1'' + 2'' + • • + Ж' — многочлен от N степени /х+1, в котором я могу оставить только член ДГА" + 1 с наибольшей степенью, ——-. Тогда при первой гипотезе вероятность станет + 1) 7VM+1
Условные вероятности 133 и, например, при // 2 она равна Зп2 № ’ При второй гипотезе оценим сперва ш,,??'. если ц по-прежнему рав- но 2. • п' 2 2 N\ Шп'п =п ----------м- nl (7V —та)! Затем оценим знаменатель wi • Iм + • 2м + ... + шдг • Ж. Для этого оценим выражение 1 -г е • И- е • “г ♦ • ♦ “г е • это не что иное, как разложение (1 + еж)Лг. Я дважды дифференцирую по х: I2 • ех • о>1 + 22 • е2х • + ... + №• eNx • wN. Чтобы найти искомый знаменатель при ц, = 2, достаточно положить х = 0. Итак, этот знаменатель равен удвоенному коэффициенту при х2 в разложении (1 + ex)N по степеням ж; ограничимся членами второго порядка: / 2Vv / 2 (1 + ех)п = Ь + х + ) =2ЛЧ1+| + ^г то есть 9ЛГ 1 Nx ~ т-2 Nx2 1 “Г о “Г 0 Ал ~Г . В скобках слагаемым со старшей степенью числа N будет ^-х2. Иско- О мый знаменатель приблизительно равен удвоенному значению т. е 2n 2N2. 9,v В2 2 ”8"’
134 Глава 9 Таким образом, при второй гипотезе вероятность того, что в урне лежат п белых шаров, равна IV! ' п2 . 1 n'.(N — п)! N2 2n~2' она оказывается гораздо меньше, чем при первой гипотезе. Действительно, доказывая теорему Бернулли, мы видели, что . X п! (IV — п)! 2ЛГ очень мало, за исключением случая, когда п и N — п практически рав- ны р и q, т. е. 1. 101. Два игрока в шахматы сыграли п + т партий: первый вы- играл п, второй — т раз. Если п > т, то следует предположить, что первый игрок сильнее. При розыгрыше новой партии у первого игрока шансов выиграть больше. Кто-то, хорошо знающий игроков, мог бы представить вероятность выигрыша для первого игрока числом р. Но я, который никогда не ви- дел игру этих партнеров, ничего не знаю о р; я попытаюсь найти р теоретически. Вероятность того, что р лежит между ро и pi, можно представить как pi f(j>) dp, Ро где функция /(р) неизвестна. Вероятность того, что р лежит между р и р + dp равна а priori /(р) dp; она соответствует Вероятности pi соответствует выражение В данном случае причиной будет тот факт, что первый игрок выигры- вает с вероятностью р.
Условные вероятности 135 Вероятность того, что первый игрок выиграет п партий, если р — вероятность выиграть каждую из п + т партий равна Чему равна a posteriori вероятность того, что р лежит между р и p+dp? Здесь CoiPi, если заменить q на 1 — р, будет равно | 77 -L ту! 11 р"(1-рГ 7 /'f(p)dp. п\ ml Сумма ujipi равна i /(т) ТП ’ р"(1-рГ , /7(р)Ф; п\ т\ о этот интеграл надо взять от 0 до 1, т. к. вероятность р, очевидно, лежит в этих пределах. За недостатком сведений обычно выдвигают гипотезу, что /(р) = 1. Тогда интеграл оценивается очень просто: он принимает вид ^7^' [Pn(l-P')mdp. n'.m'.J о Его можно свести к интегралу Эйлера первого рода: В(п + 1, т + 1) Г(п + 1) • Г(т + 1) Г(п + т + 2) здесь все Г-функции — факториалы, и это выражение — не что иное, как п! т! (п + т + 1)! Тогда интеграл, соответствующий сумме всех шгрг попросту ра- вен п , и апостериорная вероятность того, что р лежит между р и р + dp, равна , . , (п + т + 1)! <р(р) dp = -------:----:----р (1 - ») dp. п! ml
136 Глава 9 102. Какой станет вероятность того, что этот игрок выиграет следующую партию? Теперь ее легко найти. Вероятность того, что р лежит между р и р + dp, равна (р(р) dp-, если это условие выполнено, то вероятность выиграть следующую партию равна р-, в силу правила умножения вероятностей объединение этих двух условий имеет веро- ятность рр(р) dp. Проинтегрируем данное выражение от 0 до 1: 1 / P<p(p)dp. о Если заменить ее значением, получится (,, + ”‘ + 1)! fp^-prdp. п'. т! J о Это снова интеграл Эйлера, и мы приходим к выражению (n + m + 1)! (n + l)!m! п!т! (п + т + 2)! или п +1 п + т + 2' Если бы я применил то же рассуждение к азартной игре, я не имел бы права считать f(p) = 1. Действительно, a priori р должно совпадать с Тогда f(p) должна быть бесконечной при р = 103. Пусть N — количество всех малых планет-, среди них есть определенное число М известных. В течение года наблюдают п планет, т из которых известны. Требуется найти вероятное значение N. Это значение не должно сильно отличаться от но такой оценки недостаточно: надо учесть возможную разницу между настоящим и вероятным числом планет. Мы будем действовать так: в первую очередь предположим, что нам известна вероятность, с которой в течение года можно наблюдать реально существующую планету; пусть эта вероятность равна р-, до- пустим, что она одинакова для известных и неизвестных планет.
Условные вероятности 137 Так как мы наблюдали п планет, вероятное значение N должно, на первый взгляд, совпадать с 11; но невозможно, чтобы это совпадение было совершенно точным: числа 1, 2, ... , N имеют собственные ве- роятности, которые я назову a>i, а>2, ••• , <^n, и вероятное значение N равно CU1 + 2<х>2 + . . + NcOn- Если предполагать, что р дано, а все числа 1, 2, ... , N равноверо- п + q ятны, мы придем, как будет показано, к вероятному значению — Решив этот первый вопрос, займемся другой задачей; мы предпо- ложили, что р известно, теперь откажемся от этого допущения и опре- делим вероятное значение N как функцию т и М, что даст нам ре- зультат, очень близкий к как мы и предвидели выше. 104. Итак, я назову шдг априорную вероятность того, что коли- чество планет равно N; Pn — вероятность того, что в год наблюдают п планет, если всего их N. Апостериорная вероятность — это условная вероятность; она вы- ражается как &N Pn ^2<^nPn В качестве первой гипотезы насчет й> предположим, что все они равны; предыдущая формула упрощается: Pn 'Epn' Чтобы вычислить р^, применим теорему о повторении испытаний. Ве- роятность того, что из N планет за год наблюдают п равна — АП „п . „N-n Pn — илт х.Р Q , nl(JN — П)'. если р — вероятность наблюдать любую реально существующую пла- нету; q — вероятность не наблюдать ее. Здесь п — постоянная величина; это наименьшее возможное N. Пусть N неограниченно растет, Едг п + 1 п (п + 1)(п + 2) 2 pn = р + —fq +----------------р q + • • • = = рга(1 - a)-(n+1) =F(p, q).
138 Глава 9 Если я воспользуюсь соотношением р = 1 — q, то = рп • £-("+!) = 1. Если гипотеза об ш верна, то вероятность того, что всего есть N планет, равна р Pn. 105. Вероятное значение N равно S3 NPn Немного проще будет найти вероятное значение N — п, т. е. £(n - n)pN 1l,Pn Пусть Л - М . nl(N — п)! ’ тогда ^Pn = ^Арп qN~n, ^2^ - n)pN = ^Арп -(N - n)qN~n. Для оценки второго члена достаточно продифференцировать q) по q и результат умножить на q: q^=pnq(n + 1^1_q)-(n+2). после дифференцирования заменим 1 — q на р. Остается (п + 1)<7 р2 В силу предыдущих рассуждений, это выражение равно £/lpn(jV — — n)qN~n. Так как, с другой стороны, 52^ =
Условные вероятности 139 вероятное значение N — п равно (n+ 1)д Р2 1 Р (п + 1)<? Р Следовательно, вероятное значение N равно (n + l)g n+q -I- Т) — р-----------------р ’ Эта величина мало отличается от как и предполагалось. Действи- тельно, п + q _ п + 1 п р ~ р 106. Теперь будем считать р неизвестным; допустим, нам хочется узнать, с какой вероятностью р лежит между р и р + dp. Априорная вероятность этого события, Wj, будет равна w, = /(р) dp, где /(р) — неизвестная функция от р. Пусть pi — вероятность того, что при определенном р происходит данное событие, т. е. из М планет наблюдают т. Pi = Ml~т М — т т! (М — т)! Все возможные значения р лежат от 0 до 1. Тогда ^iPi Y^iPi ---pmqM mf(p)dp ml (M — my ,,.У!-fpmqM~mf(p) dp ml (M — my q Каково вероятное значение 2V? Умножим числитель на п + q р и проин-
140 Глава 9 тегрируем от 0 до 1. Вероятное значение N равно f pmqM~m'?-^-f(p') dp N = -------------------. 1 fpmqM~mf(p)dp 0 Результат зависит от f(p)', предположим, что эта функция равна 1, а п + q п + 1 также заменим —на —--------1. JP 1 — J Г ч “р ]у = °-----------------2--------- 1 fpmqM~mdp О 1 (п + 1) f pm-'LqM-m dp N = ------?--------------1. 1 0 Положим N = (n + l)J-l, где J — отношение двух эйлеровых интегралов. Г(т) • Г(М — т + 1) Г(М + 1) _ Г(М + 2)Г(ш) ” Г(т + 1) • Г(7И - т + 1) ” Г(М + 1)Г(ш + 1) ’ Г(7И+ 2) Т_ М + 1 J т ' и, следовательно, (п + 1)(М + 1) 7V т 1. Эта величина очень близка к ^1, как мы и заявляли заранее.
Глава 10 Теория ошибок и среднее арифметическое 107. Я предполагаю, что произведены различные измерения Xi, Х2 •> • • • , Хп одной и той же величины; с какой вероятностью ее настоящее значение лежит между z и z + dzl Следует ввести закон распределения ошибок. Я предположу, что истинное значение измеряемой величины равно z; какова вероятность того, что результат наблюдения попадет в интервал от я?х до я?х + dx±? В любом случае я могу представить эту вероятность как dx± -<p(xi, z). Если мы договорились принять это выражение за закон распре- деления ошибок, то с какой вероятностью z попадет в интервал от z до z + dz'. Эта задача на условные вероятности, и мы будем вычислять ^iPi Здесь uji — априорная вероятность того, что z лежит между z и z + dz-, эта вероятность представляется как <jJi = 4[>(z) dz, где — какая-то функция, зависящая от наших сведений о z. Чис- ло Pi — это вероятность того, что для наблюдаемой величины, равной z, результаты наблюдений попадут в интервалы от я?х до ./д + dx±, от х^ до я?2 + dx2, ... , от хп до хп + dxn. Вероятности этих событий равны dxi • 9?(я?х, z), dx2 • 9?(я?2, z), ... , dxn • <р(хп, z) соответственно.
142 Глава 10 Но pi — вероятность одновременного наступления этих событий; так как все они независимы, pi равна произведению вероятностей Pi = dxi • dx2 ... dxntp(xi, z)ip(x2, z)... <p(xn, z). Числитель искомой апостериорной вероятности равен dz dxi dx2 ... dxn z)ip(x2, z)... ip(xn, z). Чтобы найти знаменатель надо проинтегрировать это вы- ражение по z. При делении константы dx^ dx2 .. ,dxn исчезнут, и оста- нется dz z)ip(x2, z)... <p(xn, z) +oo f dz • ip(z)tp(xi, z)cp(x2, z). ..ip(xn, z) 108. Этот результат нам мало что дал бы, если бы у нас не было никаких данных о <р и ip. Но насчет р была выдвинута гипотеза, которая называется законом распределения ошибок. Этот закон не получают с помощью строгих рассуждений; дока- зательства, которые можно было бы привести, окажутся, кроме всего прочего, грубыми; некоторые опираются на утверждение, что вероят- ность уклонения пропорциональна самому уклонению. Тем не менее все верят в этот закон. Как мне однажды сказал г. Липпманн, потому что экспериментаторы думают, что это математическое утверждение, а математики — что это результат экспериментов. Вот как пришел к этому закону Гаусс. Когда мы ищем, какое значение лучше всего придать z, нам ни- чего не остается, кроме как взять среднее от я?х, х2, ... , хп, конечно, если нет никаких соображений для обоснования другого выбора. Тогда нужен закон распределения ошибок, соответствующий этому правилу. Гаусс ищет, какой должна быть р, чтобы среднее значение оказалось наиболее вероятным. 109. Если dz — константа, вероятность того, что z лежит в ин- тегрвале dz, равна tp(z)(p(xi, z)ip(x2, z)... р(хп, z) dz Наиболее вероятным значением будет то, при котором эта функция достигает максимума. Предположим, что максимум достигается при среднем z.
Теория ошибок и среднее арифметическое 143 Сначала Гаусс приравнивает ф к 1, затем полагает, что z) имеет вид ip(z — on). Какой тогда должна быть функция <£, чтобы мак- симум <p(z - x-L)(p(z - х2)... (p(z ~ хп) достигался при данном zt Приравняем к нулю логарифмическую про- изводную предыдущего выражения по z: - я?1) <p'(z - х2) <p'(z - хп) _ 0 (p(z - хф) tp(z - х2) ip(z-Xn) Я обозначу <f>'(z-X1) --------г = F{X1). 4>(Z - Xi) Уравнение, которое надо проверить, превратится в F(xi) + F(xi) + ... + F(xn) = 0. Это условие должно выполняться всякий раз, когда Ж1 + Х2 + ... + хп = nz. Я придам xi, х2, , хп приращения dxi, dx2, ... , dxn; если z остает- ся константой, сумма всех х должна тоже остаться константой, и мы получаем F'(x,x}dxx + F'(x2)dx2 + ... + F'(xn)dxn = 0, dxi + dx2 + ... + dxn = 0. Эти два уравнения должны быть равносильны, откуда Г'(ж1) = F'(x2) = ... = F'(xn), то есть F'(xi) — константа, которую я обозначу а. F(xi) = a(z — Xi) + b, и (1(Z — Ti log ip(z - Ж1) = --S-----h b(z - Ж1) + C.
144 Глава 10 Определим константы а, 6. с. Г(ж1) + Г(ж2) + ... + F(xn') = 57 а(^ - xi) + nb = О, Я?1 + Я?2 + ... + хп - nz = - 57(^ - Ж1) = 0. Так как эти два уравнения должны быть равносильны, получаем 6 = 0, и можно написать, что a(z — Ж1)2 ip(z — Xi) = ес • е 2 ; с находится из условия +оо У <p(z — я?1) dxi = 1. Считая —а = 2h, z- хг = у, находим Ау) = 110. Ж. Бертран выдвигает следующие возражения. Функция (р взята в виде tp(z — xi), тогда как на самом деле она должна быть tp(z, Xi). Более того, мы предположили, что t(>(z) = 1, а этого нельзя утверждать a priori. Другое возражение: будет ли среднее наиболее вероятным значе- нием или вероятным значением? Это не одно и то же. Предположим, что какая-то величина х может принять значения 1, 2, ... , п — 1 или п, и каждое из них имеет вероятность Pl, Р2, • • • , Рп,
Теория ошибок и среднее арифметическое 145 так что Р1 +Р2 +••• +рп = 1. Вероятное значение х по определению равно X = Р1 + 2р2 + • • + прп. Наиболее вероятное значение х будет соответствовать максималь- ному из чисел р. В случае задачи об ошибках вероятное значение z совпадет с отно- шением + оо f dz • z • tl>(z)(p(xi, z)tp(x2, z)... <p(xn, z) +oo f dz • i/>(z)(p(x!, z)ip(x2, z) . ..ip(xn, z) Бертран говорит, что Гаусс должен был искать функцию р не из условия, что среднее будет наиболее вероятным значением z, а из усло- вия, что среднее будет вероятным значением z. 111. Можно попытаться избавиться от принятых нами гипотез, что z) имеет форму ip(z — Ж1), а равно 1; можно спросить какой вид нужно придать этим двум функциям, чтобы среднее ариф- метическое я?1, я?2, ... , хп было наиболее вероятным значением z. Иначе говоря, при этом среднем арифметическом должен дости- гаться максимум V>(z)</?(xi, z)<p(x2, z). ..<р(хп, z).(12) В точке максимума логарифмическая производная равна нулю, т. е., если обозначить —-------- = F(xi, z), 9?(я?1, z) Ф’И _ ФИ ДОЛЖНО выполняться F(xi, z) + F(x2, z) + ... + F(xn, z) + x = 0.
146 Глава 10 Этому равенству должно удовлетворять значение z, определенное из уравнения Х1 + Ж2 + ... + хп = nz. Я придам я?1, я?2, ... , хп приращения dxt. dx2, • • , dxn. Я предпо- лагаю, что z не меняется и последнее равенство по-прежнему верно; тогда х — константа, и dF(xi) dF(x2) dF(xn) —------dxi -I--------dx2 + • • • -I-з---dxn dx± dx2 dxn dx± + dx,2 + ... + dxn = 0. 0, Это имеет место только при dF(xi) dF(x2) dx± dx,2 dF (xn) dxn Итак, dF_ = A, dX1 где А' зависит только от z; и F = A'x! + В', В1 тоже зависит только от z. Необходимое нам условие принимает вид А'(ж1 + Х2 + • + Хп) + пВ1 + х = 0, то есть п(А' z + В') + х = 0. Это равенство должно быть верным, какими бы ни были z и п; тогда X = о, то есть 4[>(z) — константа, и A'z + В' = 0. Вот какими стали бы рассуждения Гаусса, если бы мы захотели провести их, принимая во внимание первое замечание Бертрана.
Теория ошибок и среднее арифметическое 147 112. Из F(a?i, z) = A'xi + В' легко вывести, что logi/?(xi, z) = Ах! + В + log6*(xi). Здесь log#(a?i) является функцией только от х^; А и В — функции от z, причем производные А' и В' таковы, что A'z+B' = 0. Итак, <р(ж1, z) = 0{xr)eAxi+B. Таким был бы результат, если не накладывать других условий, кроме постулата Гаусса о среднем значении. В формуле участвуют две произвольные функции, в и А; В связано с А некоторым соотношением. 113. Гауссу было сделано и другое замечание. Величина, которую надо было принять за z, не наиболее вероятное значение, а вероятное значение. Действительно, наиболее вероятное значение — это то, кото- рое соответствует самому большому р; оно может отличаться от всех других, тогда как эти другие могут быть очень близки между собой и очень мало отличаться от истинного. Они не влияют на наиболее ве- роятное значение, но вносят наибольший вклад в вероятное значение, равное по определению Я?1Р1 + Х2р2 + • • • + хпрп. Вероятное значение z равно +оо j ztl>(z)(p(xi, z)<p(x2, z)... <p(xn, z) dz +oo J z)tp(x2, z)... <p(xn, z) dz (Две величины под знаком J" отличаются только множителем z в чис- лителе.) Надо выбрать ф и р так, чтобы это вероятное значение было сред- ним:
148 Глава 10 114. Я предположу, что р наблюдений дали результат xi; р дру- гих — результат х2; ... ; наконец, р последних — результат хп. Число р везде одно и то же, я считаю его очень большим. В двух интегралах будет р множителей, равных <^(xi, z), р множи- телей, равных 9?(я?2, z), ... , р множителей, равных tp(xn, z). Я обозначу Ф = 9?(я?1, z)<p(x2, z). ..ip(xn, z). Речь идет о проверке равенства +оо J z'ij;(z)<\>p d:z -ОО _ Я?1 + Я?2 + . . . + Хп +оо “ П f igz)$pdz Это равенство должно иметь место при сколь угодно большом р. Если бы вместо двух f мы имели отношение двух ^2, нам бы при- шлось рассмотреть дробь aiXf + а2Хр + ... + апХр Ь\ Хр + Ь2ХР + ... + ЬпХр где Xi, Х2, ... , Хп были бы функциями от я?х, х2, ... , хп, а ai, а2, ... , ап, b2, ... , bn — функциями от z. Я считаю все величины X положительными. Каков предел это- го отношения, когда р бесконечно растет? Пусть Xi — наибольшее из всех X: пределом будет Действительно, это соотношение можно записать как Al Все дроби меньше 1, кроме одной, той, что соответствут к = i. Итак, X-i когда р бесконечно растет, данное отношение имеет своим пределом щ
Теория ошибок и среднее арифметическое 149 Распространим этот результат на интегралы У ipi(z)<bp dz и У tp2(z)$p dz; Здесь <pi(z) играет ту же роль, что ai, <p2(z) — ту же, что bi. Каким будет предел отношения этих интегралов? Пусть Zi, — величина, при которой Ф достигает максимума. Предел будет равен ^i(zq) ^2(^0)’ то есть zptKzo) _ i’(zo') Z°' Это zq и должно совпадать со средним арифметическим. 115. Мы возвращаемся к предыдущему вопросу: Ф должна дости- гать максимума, когда z равна среднему арифметическому. Мы знаем, при каких условиях это имеет место: <р(Х1, z) = е(Х1)еАх1+в, где А' и В' — производные функций А и В по z — связаны соотноше- нием A!z +В' = 0. Когда предполагается, что р зависит только от разности z — я?1, ее логарифмическая производная по z, А'Х1+В', должна иметь первую степень относительно z — xi; тогда ^(z-xj = CeA'(z~x^\ Здесь А' и С = #(я?1) — константы. В общем случае, когда не предполагается, что р зависит только от z — Xi, в <р(Х1, z) остается определить три функции: во-первых, i/>(z), которую теперь нельзя объявить константой, как было сделано при вы- числении наиболее вероятного значения; во-вторых, #(xi), в третьих, А. Что касается В, то есть соотношение, связывающее его с А.
150 Глава 10 116. Займемся немного более полным определением этих произ- вольных функций. Я предположу, что р наблюдений дают результат х±; их среднее арифметическое будет х±; тогда Ф = в(Х1)еАх1+в, и должно выполняться равенство У ztl)(z)$p dz = Ж1 -ф(^)Фр dz-, откуда 0- Это соотношение должно быть верным, какими бы ни были р и х±. Число вр можно было вынести из-под знака /, т. к. оно не содер- жит z, и мы не сможем определить в с помощью этого равенства. 117. Ищем i/>(z). Мы знаем, что Axi + В — функция от z, дости- гающая максимума при z = х±; пусть этот максимум равен и2. Я могу положить Axi + В = и® — и2; где и вещественнозначно. Так же Z Х1 — интеграл, который всегда положителен и обращается в нуль только о при z — xi; тогда я смогу считать его равным v , откуда Axi + В = Ug — и2, (z — Xi)i/>(z) dz = 2v dv. Чтобы окончательно определить а и ®, надо уточнить их знак, т. к. пока мы определили только и2 и v2. Мы будем считать и и v положитель- ными, если z больше я?х, и отрицательными иначе; итак, и и v всегда одного знака. Кроме того, ид = А(ж1) • xi + B(a:i).
Теория ошибок и среднее арифметическое 151 Наш интеграл с точностью до константы равен У 2vdve~pu\ Я могу считать, что v выражается как функция от и, 2v dv = /(u) dw, и тогда У /(M)e“p“2 du должен быть равен нулю при всех р, если пределы интегрирования рав- ны — оо и +оо. 118. Это может случиться, только когда f(u) — нечетная функ- ция. Меняя и на —и, получим У f{-u)e~pu2du = О, откуда У [/(«) + f(-u)\e~pu2 du = 0. Это соотношение верно при сколь угодно больших р. Если f(u) нечетно, то /(«) + /(-«) = о. Если f(u) не является нечетной, я разложу ее в ряд по возрастающим степеням и. Интеграл не сможет равняться 0 при любом р. Действи- тельно, f(u) + /(-и) = аи2п + [Зи2п+2 + ... Я положу «VT> = С; интеграл превратится в с (аеп, реп+2, \ J [ рп + Р-+1 + Jе „г
152 Глава 10 и он должен быть тождественно равен нулю. Если мы умножим все на р"+5, первое слагаемое не будет содер- жать р, а другие будут; интеграл с множителем, близким к рп+?, при очень больших р почти совпадет с +оо а У e~^£.2nd£., а это не нуль. Итак, /(и) должна быть нечетной функцией от и. 119. Мы полагали (z — o?i)'0(z) dz = f(u) du. Дифференцируем, считая x константой, другое уравнение для и: Axi + В = и® — и2; получаем dz(A'xi + В') = —2udu; или, помня о соотношении Az + В' = О, А'ж1 + В' = А'я?1 — A’ z = — A(z — xi). Итак, A(z — Xi) dz = 2и du, откуда У’ОО = Ж) А 2и ‘ . /(w) V’('z) Функция —— четная, значит, не должна меняться при замене и на — и. Между тем — функция не от и, а от z, не зависящая от х; я заявляю, что она должна вырождаться в константу. Действительно, я рассмотрю два каких-то значения z, равных Zi и Z2, при которых А и В равны Ai и Bi, А^ и В^ соответственно; я выберу я?1 так, что Д-ixi + В\ = А^Х2 + В?,', значение и$ — и2 будет одним и тем же при Zi и z^.
Теория ошибок и среднее арифметическое 153 f(u) 2 Тогда которая зависит только от и , тоже будет одинаковой, и V’(zi) = У’(^) A'(^i) “ A'(z2y Следовательно, — константа. 120. Таким образом, наиболее общий способ удовлетворить пос- тулату Гаусса (измененному согласно возражению Ж. Бертрана насчет того, что среднее совпадает с вероятным значением) приводит к <p(Xl, z) =0(X1)e-^^z-x^dz. 121. Рассмотрим Я?1 + Х2 + . . . + п где П = il>(z)(p(X1, z)(p(X2, z)... <р(Хп, z)dz. Я заявляю, что этот интеграл равен нулю, т. е. среднее равно вероят- ному значению. Я обозначу Ж1 + Ж2 + ... + и ^(Ж1, з)^(ж2, z) . ..ip(Xn, z) = 6*(xi)6*(x2).. .0(Xn)ep. Показатель p можно записать как р= - tKz)[(z - Х1) + (z - Х2) + ... + (z - x„)] dz, то есть / р = —п I Tp(z)(z — Х) dz. Теперь остается показать, что нулю равен следующий интеграл: ^(Ж1)0(х2).. .ff(Xn)(z - X)^(z)e-n^(z)(z~x)dzdz.
154 Глава 10 Если мы положим „ / (z — х)ффф dz = и2, откуда (z — х)ф(Ф) dz = 2w du, то данный интеграл примет вид 20(х1)0(хг) ... 0(хп) У ие~пи du. Он равен нулю, если и изменяется от —оо до +оо. 122. Итак, функция (р зависит от ф, a ф зависит от сведений, которые мы можем иметь a priori о поведении z. Кроме того, (р зависит от умения наблюдателя и априорной веро- ятности его ошибки. Нет никаких оснований считать, что эти две априорные вероят- ности зависят друг от друга. Следовательно, единственной разумной гипотезой при нахождении закона Гаусса будет предположить, что ф = = 1. 123. Остается #(xi). Ничто не заставляет считать эту функцию равной 1. Например, известно, что некоторые наблюдения, вроде аст- рономических или меридиональных, подвержены особым ошибкам, ко- торые называются десятичными. Когда измеряют какую-то величину, когда снимают показания приборов, результат оценивается до какого-то порядка, и найденное число будет самым близким, с точностью до этого порядка, к величине, которую хотели узнать. Между тем замечено, что каждый наблюдатель кажется располо- женным к каким-то конкретным десятичным знакам; этот факт можно выразить аналитически, сказав, что 0(хф) периодично и достигает мак- симума на этих десятичных знаках. 124. Какое мнение теперь должно сложиться о постулате Гаусса? Сказать, что он принят всеми, не значит обосновать его, т. к. может оказаться, что ни у кого нет достаточных сведений о том, что такое закон распределения ошибок. Если бы мы применили те же рассуждения к z2, 2 _ Х^ + Х^ + . . + Х^ Z п ,
Теория ошибок и среднее арифметическое 155 то приемлемое значение z было бы + Я?2 + . . . + Такое может случиться в серии измерений квадрата неизвестной ве- личины, а по постулату Гаусса надо брать среднее из п найденных с помощью наблюдений величин. Ж. Бертран приводит пример со стрелкой, показывающей квадрат измеряемого угла. Должен ли он брать среднее по показаниям стрелки, т. е. среднее квадратов углов, или надо взять среднее самих углов? Ни одно из этих решений не было бы разумным. При измерении каждого угла совершаются две ошибки: 1° ошибка в показаниях прибора, и вероятная ошибка в показаниях прибора была бы равна среднему значению угла; 2° ошибка отсчета, а вероятная ошибка отсчета была бы равна сред- нему значению квадрата угла. 125. Теперь правило среднего кажется лишенным смысла. Однако почему же оно почти никогда не подводит нас? Почему брать среднее оказывается правильным? Прежде всего потому, что ошибки очень ма- лы. Если вместо z я измеряю f(z) и применяю к f(z) постулат Гаусса, /(ж1) +/(х2) + ...+/W то из-за того, что х± очень близко к z, я получу /(Ж1)/(^:) + (я?1 - z)f'(z); то же для Ж2, ... , хп. Отсюда я выведу то есть - Z} = О ИЛИ nz = Я?1 + Я?2 + . . . + Хп. Итак, мы приходим к одному и тому же результату, измеряем ли мы непосредственно величину z или какую-нибудь функцию f(z) от этой величины.
156 Глава 10 126. С другой стороны, будет ли правильно ограничиваться на- хождением среднего? Будет ли этот принцип неоспорим? Если в п наблюдениях п — 1 результатов оказались очень близ- ки друг к другу, а n-й очень далек от них, следует ли брать среднее? Результат бы очень отличался от центра тяжести первых п — 1 наблюде- ний, п — 1 хороших наблюдений. Какие-то экспериментаторы получили отклонение в п-й раз: это, можно сказать, случай, это плохой результат. Но тогда мы возьмем величину, которая уже не будет средней; нашлись основания отбросить постулат. Когда принимается закон Гаусса, вероятная ошибка в среднем рав- на ~^=; так что при увеличении числа наблюдений мы будем получать уп все большую точность. Однако, измеряя один метр миллион миллионов раз без верньера1, мы никогда не оценим его с точностью до милли- метра, до микрона. Впрочем, это объяснимо: при наблюдении очень малых величин нельзя отвечать ни за что; у гипотезы, что ошибка лежит в промежут- ке от 0 до 1 микрона нет никаких преимуществ перед гипотезой, что ошибка лежит в промежутке от 1 до 2 микронов. 127. В XI главе я, кроме того, установлю следующую теорему: Когда берется среднее, квадрат допущенной ошибки равен XI + х2 + + Хп п Гаусс показывает, что вероятное значение этого выражения стре- мится к нулю, когда п неограниченно возрастает, каков бы ни был закон распределения ошибок. Этот факт обосновывает выбор среднего: оно становится все более и более вероятным по мере роста п, не будучи самым вероятным. Но этот способ оправдать выбор среднего независимо от закона рас- пределения ошибок, является, так сказать, опровержением рассуждений Гаусса, изложенных выше, т. к. эти рассуждения должны были устано- вить, что какой-то очень частный закон — единственный, способный оправдать одинаковое использование среднего на практике. 1 Верньер — механическое устройство, позволяющее осуществлять точную на- стройку измерительных приборов. — Прим. ред.
Теория ошибок и среднее арифметическое 157 Достаточно странно, что этим опровержением мы обязаны самому Гауссу.
Глава 11 Обоснование закона Гаусса 128. Мы будем рассуждать в следующем порядке: 1° найдем, как записывается вероятное значение р-й степени ошиб- ки, если верен закон Гаусса; 2° покажем, что такое выражение вероятного значения существует только для этого закона; 3° найдем выражение вероятного значения для произвольного ве- роятностного закона; 4° снова найдем это выражение в случае, когда результирующая ошибка равна сумме многих частичных ошибок, не зависящих друг от Друга; 5° найдем, каким станет это выражение, когда частичные ошибки очень многочисленны и очень малы; 6° получив то же выражение, что и для закона Гаусса, сделаем вы- вод, что закон Гаусса должен быть верен всякий раз, когда результи- рующая ошибка складывается из очень малых, очень многочисленных и независимых частичных; 7° получим тот же результат другим способом. 129. Пусть измеряется величина z. Вероятность того, что резуль- тат измерения лежит между я?1 и + dx±. можно представить как z) dxi. Как уже было сказано, Гаусс предполагает, что р зависит только от z — xj_; тогда вероятность будет равна ip(z — xi)dx^-, более того, он предполагает, что систематических ошибок нет, т. е. р — четная функ- ция и не меняется при замене xi — z на z — xi- Пусть yi — ошибка; У1 = Ж1 - z.
Обоснование закона Гаусса 159 Вероятность равна 92(2/1 )dt/i- Нам надо будет рассмотреть вероятное значение yi и, в более общем случае, yf; оно будет равно У <Г(У1)У1 dyi- Так как ср — четная функция, этот интеграл равен нулю при нечет- ных р. 130. Можно сделать два наблюдения, yi и у2, и рассматривать ве- роятное значение какой-нибудь функции от yi и у2, например, у™1?/™2. Пусть 92(2/1) — вероятность того, что первая ошибка лежит меж- ду 2/1 и 2/1 + dyij </2(2/2) — вероятность того, что вторая ошибка лежит между 2/2 и 2/2 + dy2. Вероятное значение у™1 у™2 по определению равно У! dyi dy2, интегралы по 2/1 и по у2 взяты от —оо до +оо. Так как функция под знаком ff равна произведению функции от ?/| на функцию от 2/2, а все пределы интегрирования постоянны, наш двой- ной интеграл будет произведением двух простых: У y™v(yi)dyi У y™<p(y2)dy2. Равенство интегралов показывает, что вероятное значение произведе- ния равно произведению вероятных значений. Конечно при этом два множителя должны быть различны: вероят- ное значение 2/1, например, не будет квадратом вероятного значения у?; но вероятное значение у^у^ равно произведению вероятных значении у{ И 2/2- 131. Пусть т2 — нуль. В интеграле У 4>(.y2)dy2
160 Глава 11 мы должны получить единичное вероятное значение, т. е. 1; между тем очевидно, что +оо / р(У2) dy2 = 1, так как этот интеграл выражает вероятность того, что у2 лежит меж- ду —с» и +оо, т. е. вероятность достоверного события. 132. Если произведено много наблюдений yi, у2, ... , уп, то веро- ятное значение какой-то функции ф от этих наблюдений равно / г(У1)г(У2) ...<р(уп)ф(У1, У2, ••• , yn^dy! dy2...dyn. Если функция ф нечетна, симметричные части интеграла будут попар- но равны и противоположны по знаку; такой интеграл равен нулю. 133. Я возвращаюсь к гипотезе Гаусса: ^) = у|е-^2. Тогда вероятное значение у2Р+1 равно нулю; ищем вероятное значе- ние у2р; по определению это I yie~hp2у2рdy. Сначала заметим, что +оо ,- I ^e~hp2dy = l ИЛИ У e~hy dy = д/тг • h~ 2. Я дифференцирую это равенство р раз по h:
Обоснование закона Гаусса 161 Знак «—» повторяется р раз справа и слева; следовательно, он исчезает: С другой стороны, 2 • 4 • 6 ... 2р = 2Р-pl, I e~hy2y2pdy = Вероятное значение у2р есть произведение этого интеграла и итак, hp pl 22р ’ 134. Этот результат получен при гипотезе Гаусса: ^) = <Де-^2; возникает вопрос: будет ли закон Гаусса единственным, дающим такой результат? Да, он единственен. Ищем вероятное значение е-п(уо-у)2 _ По определению оно равно j ^e~hy2е~п(-у°-у)2dy. Этот интеграл можно вычислить непосредственно; также можно разло- жить е~п<СУа~у>> в ряд, сходящийся при всех значениях у, е-п(ао-а)2 = ^Арур. Отсюда / y/le-hy2e-n^-y^dy = ^A2p^.
162 Глава 11 Точно также и для другой функции р J' p(y)e-n^~^dy = ^A2p^. По нашей гипотезе средние значения у2р одинаковы в обоих слу- чаях. Тогда отношение двух интегралов равно 1. Так как это отношение остается одним и тем же, каким бы ни было п, воспользуемся доказанной теоремой. Предел отношения f fi(y)pn (У) dy J fa(y)pn(У) dy при бесконечно больших п равен /1(Уо) если в пределах интегрирования <р(у) достигает максимума при у = у$. В нашем случае e~n('v°~v'* достигает максимума при у = т/q; предел отношения двух интегралов равен Р(Уо) Так как это отношение всегда остается равным 1, где уо было взято совершенно произвольно, т. е. закон Гаусса — единст- венный, при котором вероятное значение у2р совпадает с приведенным выше/13) 135. Предположим, что имеется какой-то закон распределения ошибок. Пусть было сделано п наблюдений, которые дали п индивидуаль- ных ошибок т/i, у2, ... , уп. Возьмем среднее от этих наблюдений: мы допускаем ошибку, равную среднему от индивидуальных ошибок: У1+У2+ ••+Уп п
Обоснование закона Гаусса 163 Гаусс предполагал вычислять вероятное значение квадрата этой ошибки; по определению это интеграл , ч 2 У • • Г^Уп} у1 +У2 и ' + Уи ) dyi dy2 dyn- Я разложу квадрат: ( У1+У2 + --- + уп\2 = £ ?/1 2 £ г/x ?/2 I п ) п2 п2 Искомое вероятное значение равно £t/i 2£]л]/2 п2 п2 Вероятное значение произведения У1У2 равно ху2; так как функции у± и у2 нечетны, у\ и у2 равны нулю. Остается У1 + У2 + + Уп п Интеграл сводится к сумме п интегралов; но в каждом из них участвует одна и та же функция г(у1)г(у2) умноженная на у2 dyi, или у2 dy2, ... , или у2 dyn. Это один и тот же интеграл с точностью до обозначений. В итоге вероятное значение квадрата ошибки равно -9 -9 nyj = у{ п п Таким образом, вероятное значение квадрата допущенной ошибки равно квадрату вероятного значения индивидуальной ошибки, делен- ному на п. Этого свойства достаточно для обоснования метода средних; это свойство выполнено, каким бы ни был закон распределения ошибок. В любом случае, как мы видели в предыдущей главе, только для закона Гаусса среднее будет наиболее вероятной величиной. Для любого другого вероятностного закона среднее будет все более и более вероятным, когда наблюдений проводится все больше и больше, но оно так и не станет наиболее вероятным значением.
164 Глава 11 136. Ищем вероятное значение / . \ 2р+1 ( У1+У2+--- + Уп\ \ п J ’ это нечетная функция, которую мы возводим в нечетную степень: ве- роятное значение должно равняться нулю. Ищем вероятное значение (\ 2р У1+У2+---+Уп\ П J По формуле, обобщающей формулу бинома, (У1+У2 + ...+ Уп}2р = £ , У' а .уГуГ ---у^, где «1 + «2 + • • • + «м = 2р. Надо взять среднее значение каждого слагаемого и разделить его на п2р. Среднее значение выражений, у которых один из показателей а нечет- ный, равно нулю. Для того чтобы это выражение оказалось отличным от нуля, все показатели должны быть четными. 137. В качестве примера возьмем (У1 +У2 +--- + уп)4- Все а могут быть четными только в двух случаях: 1° «1 = 4, остальные нули; 2° «1 = «2 = 2, что приводит к сумме £ 2/1 + 6 £ 2/12/2 + Я. Здесь R — сумма членов с нулевым средним значением; коэффициент при равен = 6. Рассмотрим еще (У1 + У2 + • • + Уп)6- Все а могут быть четными только в трех случаях:
Обоснование закона Гаусса 165 Г «1 = 6; 2° = 4, а.2 = 2; 3° <>1 = <>2 — <тз — 2. Если R — сумма членов с нулевым средним значением, то (У1 + У2 + • • • + у,,)6 = 52 У1 + I5 52 у1у2 + 99 52 У1УзУз + R- Коэффициент при Xj/i'yf Равен = 15; коэффициент при ^у^у^Уз раВеН Лй = 9°- Условимся обозначать Мр среднее значение yf. Во-первых, среднее значение (ух + Уг + • • • + уи)4 равно (ух + У2 + • • • + Уп)4 = пМ4 + 6П'Г'2 1^М22. Действительно, в У1 все члены имеют одно и то же среднее значение, а их п штук; в ^у^у^ все члены также имеют одинаковое среднее, и п(п — 1) их —- штук. Среднее значение (ух + Уг + • • • + Уп)6 будет равно ___________________ 77, Г 77, _______________________ 1 f 77, _ 2 (,У1 + У2 + + Уп)6 = пМ6 + 15п(п - 1)М4М2 + 90-6-------М3. В ^2у4у2 столько слагаемых, сколько есть размещений из п букв по 2; тогда коэффициент при М4М2 равен 15n(n — 1). 138. Можно продолжить вычисления для других значений 2 у; вы- ражения станут все более и более сложными. Примем во внимание, что п очень велико; в правой части будут слагаемые с щ п , п и т. д. При приближенных вычислениях можно рассматривать только сла- гаемые с самой высокой степенью п. Для 2р = 4 это Зп2М2; для 2р = 6 это 15п3М2. Итак, средняя ошибка У1 + У2 + • • • + Уп У= -------п--------’
166 Глава 11 возведенная в четвертую степень, имеет вероятное значение у4 = 3 для шестой степени получаем Найдем это вероятное значение в общем случае: (yi +У2 + • + Уп)2р = 52 Во второй переставляются только индексы при у. Сохраним лишь те слагаемые, у которых все а четны; вероятное значение остальных равно нулю. Получаем (У1 + У2 + + Уп)2р = 52 i i ' . .Ма . ад! 0.2'. ... (Тд! Действительно, у всех слагаемых во второй ^2, одно и то же вероятное значение. Пусть N — их количество; оценива- ем N. 139. Сначала я предположу, что «1 = «2- Если мы поменяем мес- тами у, и у2, получим то же самое слагаемое. Если бы мы учитывали порядок, то у нас было бы столько слагаемых, сколько есть размеще- ний по 2 из [1 букв, выбранных из п букв у±, y-j. ... , уп’, тогда бы наши слагаемые повторялись. Если бы все [1 показателей были различны, то N было бы равно числу размещений из п букв по и, т. е. -—п~ . («-W! Я считаю /zi показателей равными а±, //2 равными «2, • • • , Р/; рав- ными ak", кроме того, я считаю, что а±, «2, • • • , cik различны, и /«1 + /«2 + • • • + Дй — Д.
Обоснование закона Гаусса 167 Я рассматриваю одно из размещений с такими показателями; я каким- то образом меняю местами /41 букв с показателем а±, //2 букв с показа- телем «2, ••• , ГО: букв с показателем а/.. Соответствующее слагаемое не меняется; следовательно, одно и то же слагаемое повторяется в /ц! • /z2! • • • • • /л*! размещениях. Тогда (п - /л)!/41! -/42! •• /4ft!’ N = п(п-1)...(п-/1 + 1) /41! •/42! • • • • • /4fe! Значит, N — многочлен степени /4 от п. Наибольшее значение, которое может принять /4, равно р. Действительно, «1 + «2 + • • • + Ыц = 2р. Все а четны, и максимальное значение /4 соответствует набору «1 = а2 = • • • = скц = 2. Итак, среди N есть только одно слагаемое степени р относительно п; при нашем порядке аппроксимации мы должны сохранить только его. Для этого слагаемого N равно N _ п(п-1)...(п-р + 1) р! Действительно, если все а совпадают, получается, что все • • • ,pk сводятся к /41 = /4 = р, /42 = • • • = рк = 0. В записи числа N слагаемое с пр равно пр pl ’
168 Глава 11 140. С другой стороны, ах, «2, • •••'>//, равны 2, и Ма. = Ма., = ... = Ма = М2, ci 1 ci 2 cl р л, где М2 — вероятное значение квадрата индивидуальной ошибки, у%. Итак, вероятное значение (yi + у2 + ... + уп)2р равно ;---:----:--:---_ (2Р)! пр П/ГР \У1 + У2 + • • • + Уп)2р — 2Р ’ Вероятное значение у2р найдем, разделив все на п2р: — (2Р)!^М2У У р\2р \ п J ' Сравниваем с результатом, полученным для закона Гаусса; должно вы- полняться равенство / X V (М2\р \2hJ \ п / или h = 2М2 Только закон Гаусса приводит к этому выражению вероятного зна- чения ошибки. Если заранее знать, что систематических ошибок нет и произво- дится очень много наблюдений, то, взяв их среднее, получим ошибку, вероятность которой подчиняется закону Гаусса. Ошибка, допущенная при использовании инструментов, является результатом очень большого числа малых ошибок, не зависящих друг от друга, таких, что вклад каждой из них в конечное значение очень мал; результирующая ошибка подчиняется закону Гаусса^14). 141. Поставим задачу по-другому. В наблюдениях допущено несколько индивидуальных ошибок, yi, У2-, • • • , Уп- не зависящих друг от друга; полная ошибка равна У = У1 +У2 + ••• + Уп- Предположим сначала, что все эти ошибки подчиняются одному и тому же закону, и систематических среди них нет. Получаем ту же самую задачу.
Обоснование закона Гаусса 169 Вероятное значение у2р+1 будет нулем. В параграфе 136 мы оценили вероятное значение У1+У2+---+Уп п 2р Здесь мы будем искать вероятное значение (.У1 + У2 + • • • + уп)2р- Вероятность того, что гц лежит между двумя данными числами а и fl. то есть r(yi) dyt, согласно гипотезе, одинакова для ?/i, У2, ♦. ♦ , уп> Нам достаточно умножить полученный для вероятного значения (.У1 +У2 + ... + уп)2р результат, т. е. (2р)! (MzY pl у 2п J ’ на п2р, чтобы получить вероятное значение у2р У р! { 2 J и, полагая «Мг = М, У2р = pl (М2\Р \ 2 / Таким образом, вид этого выражения остается прежним, и, рас- суждая как раньше, приходим к выводу, что вероятность, с которой полная ошибка у лежит в данных пределах, вновь подчиняется закону Гаусса.
170 Глава 11 142. Это рассуждение все еще не будет удовлетворительным, т. к. мало правдоподобно, что все индивидуальные ошибки подчинены одно- му закону. Предположим, что это не так, но все индивидуальные ошиб- ки имеют практически одинаковый порядок малости, и вклад каждой из них в полную ошибку очень мал; пусть /з / ¥’i(//i) dyi — вероятность того, что yi лежит между а и /3; £ / ¥’2(2/2) dy2 — вероятность того, что у? лежит между а и /3; /з / Гп(Уп) dyn — вероятность того, что уп лежит между а и /3; Я предполагаю, что все y>i, — четные функции, иначе говоря, что систематических ошибок нет. Я возьму М — сумму средних значений квадратов ошибок, yl + Й + ... + у2п = М. Если бы все частичные ошибки подчинялись одному вероятност- ному закону, величина М2 для у2, у2, , у2 была бы одной и той же, а сумма М была бы равна Г1М2. Я ограничусь вычислениями, соответствующими нескольким пер- вым степеням у. Предполагая, что все ошибки подчинены одному закону, мы нашли, что средняя величина для у2 равна М; для у4, ЗМ2; для у6, 15М3 ... Проведем те же вычисления, считая законы разными для разных индивидуальных ошибок. Я замечаю, что вероятное значение произве- дения у™У2 — это вероятное значение у™, умноженное на вероятное значение у£. Действительно, вероятное значение произведения у™У2 представляется как УУ Р1(У1)ч>2(У2)у™У2 dyi dy2, а произведение вероятных значений у™ и у£ представляется как / Pi(yi)y™dyi / Г2МУ2 dy2-
Обоснование закона Гаусса 171 Значит, эта теорема будет верна, как и в предыдущем случае; если т нечетно, вероятное значение равно нулю. Надо отметить, что разница заключается в том, что вероятные значения у™, у™, ... , у™ больше не равны между собой. Заметим также, что величины , Гп имеют одинаковый порядок. 143. Ищем среднее значение у2. Имеем У2 = + 2ХЛ1У2’ Итак, у2 = 52^ +252^г; последнее слагаемое исчезает; остается у2 = 52^1- Для среднего значения у4 находим у4 = 52^ +6 52 у^ мы отбросили члены с четными показателями. Второе слагаемое будет гораздо больше первого: первая состоит „ п(п-1) 2 из п членов, вторая \ — из ----; это числа порядка п п п соот- ветственно; первая сумма пренебрежимо мала по сравнению со второй. Различные члены этих двух J2, между тем, по гипотезе, очень малы и практически одного и того же порядка. С другой стороны, М2 =Е^1)2+2Е^2 или зм2 = з^(у12)2 + 6^^^. Первое слагаемое по-прежнему пренебрежимо мало по сравнению со вторым, а второе одинаково в обоих выражениях. Итак, учитывая, что вычисления производятся приближенно, по- лучим у4 = ЗМ2.
172 Глава 11 Для среднего значения у6 имеем У6 = 12 + 15 12 У1У1 + 90 12 У1У2Уз- С другой стороны, найдем 15М3: 15М3 = 15 ^(у?)3 +45^2(^)2Й + 90^у1у1у1. Сравниваем две правые части. В первой есть п членов, во вто- рои > , — п(п — 1), в третьей >, их -±23------’ ЭТИ числа имеют порядки п, п2, п3, и первые две пренебрежимо малы по сравнению с третьей. Выражение, которым нельзя пренебречь, одинаково, поэтому у4 = 15М3. 144. Итак, мы предполагаем, что конечная ошибка является ре- зультатом очень большого числа частичных, не зависящих друг от дру- га, среди которых нет систематических; предполагаем также, что вклад каждой из этих ошибок, имеющих практически один и тот же порядок, в полную ошибку очень мал. В этом случае результирующая ошибка практически подчиняется закону Гаусса. Таково, как мне кажется, наилучшее основание для применения закона Гаусса. Характеристические функции. — Я назову характеристической функцией f(a) вероятное значение еах\ таким образом, это /(«) = 12ре“ж’ если величина х дискретна и принимает только конечное число значе- ний, и /(а) = У" <р(х)еах dx, если х меняется непрерывно, а представляет ее вероятностный закон. Понятно, что 2 3 /(а) = 1 + ^(Ж) + -«-(Ж2) + (.г3) + ... , XI 1 ' A X • Ai * О
Обоснование закона Гаусса 173 где (жр) обозначено вероятное значение хр. Видно, что /(0) = 1. Характеристической функции достаточно для определения вероят- ностного закона. Действительно, по формуле Фурье имеем •lax dx, ~lax da. Если две величины х и у независимы, a f(a), /i(a) — соответству- ющие характеристические функции, то характеристической функцией для х + у будет произведение /(a)/i (а). Действительно, как мы ви- дели в параграфе 130, вероятное значение произведения еа^х+у^ равно произведению вероятных значений еах и еау. Для закона Гаусса ¥>(*) = e~hx2 легко найдем а2 f(a) = eih . Предположим, что две независимые величины х и у подчиняются за- кону Гаусса, одна с константой h, другая — с h'; соответствующие характеристические функции будут е g 4/i Характеристическая функция для х + у будет их произведением e4h" , где 1 h" h + h!' Тогда сумма х + у тоже подчиняется закону Гаусса с константой Д"; это теорема г. Д’Оканя, доказанная в параграфе 60. Предполагаем теперь, что результирующая ошибка равна сумме большого числа частичных, очень малых и независимых. Пусть /1(а), /2(а), • • • , fn(ct) — соответствующие характеристические функции.
174 Глава 11 Каждая из них имеет вид /я(а) = efiia+f32a2+fi3aS+-. При этом ошибка очень мала, и коэффициенты /3 очень быстро убывают. Характеристическая функция, соответствующая результирующей ошибке, равна произведению /1(а), /2(а), ... , /„(а), то есть У2 /31+а2 £ /Зг+а3 £ /Зз + ... Ошибки не носят систематического характера, и £/3i = o. С другой стороны, коэффициенты /3 убывают очень быстро, поэто- му £/Зз, £/34 и т. д. пренебрежимо малы по сравнению с £/32, и остается е“2£/32, что соответствует характеристической функции гауссовского закона^15} 145. Закон Гаусса можно проверить a posteriori, используя теоре- му Бернулли. Если какое-то испытание может привести к появлению новых со- бытий, таких, что только одно из них происходит за один раз, и если это испытание повторяется очень много раз, то частота каждого из произо- шедших событий будет практически пропорциональна его вероятности. Величина z измеряется много раз; результаты равны жх, ж2,... , хп, а ошибки — ух, у2, , уп. Если нам известна z, то нам известны ух, у2, ... , уп', если мы счи- таем, сколько ошибок лежит в двух данных пределах а и Ь, то это число пропорционально ь (fiMdyi. Можно построить кривую, соответствующую <р(ух). Разделим ось абсцисс на некоторое число частей, равных а: каждый из этих малых
Обоснование закона Гаусса 175 интервалов достаточно велик, чтобы число ошибок, попавших в этот ин- тервал, было велико; в середине интервала проведем ординату, равную числу ошибок. Если закон Гаусса верен, то полученная кривая имеет уравнение у = ^e~hx2- Эта кривая симметрична относительно оси ординат; ось абсцисс явля- ется ее асимптотой. Оказывается, этот результат подтверждается. Например, Бессель смог представить именно в таком виде результаты очень большого чис- ла наблюдений за отклонением звезды, выполненных Брэдли. 146. Можно также не находить кривую, а проверять закон Гаусса с помощью вычислений. Заметим в первую очередь, что не зная истинного значения изме- ряемой величины, можно принять за него среднее значение наблюде- ний. Проверяем с помощью подсчетов: согласно закону Гаусса, вероят- ное значение у2р должно равняться у р\22р hp' для у2р имеем
176 Глава 11 Исключаем h: Следует проверить, что это соотношение выполняется. Мы знаем все допущенные ошибки у±, у?, ... , уп. Выражение ?/, ,2Р ц2Р -I- п2р уУ1 + У1 + • • • + Уп -I- n2q 4- -I- n2q \У1 + У1 + ••• + Уп должно быть равно (2р)! р! (2g)! ’ g! и проверка этого соотношения осуществляется точно так же. Можно еще рассмотреть у2р+1. Вероятное значение будет равно ну- лю, если брать у вместе с его знаком. Если рассматривать только абсо- лютную величину, то по закону Гаусса вероятным значением будет 2 I ^y2p+1e~hy2 dy, О этот эйлеров интеграл не равен нулю. Если брать у вместе со знаком, получится dy, равный нулю.
Обоснование закона Гаусса 177 147. Исключения из закона Гаусса. До сих пор я приводил аргументы в пользу закона Гаусса, следствия из которого мы только что получили. Однако может случиться, что источник этих следствий не так уж хорош. Не стоит испытывать какое-то суеверное чувство перед методом наименьших квадратов, к которому нас приводит закон Гаусса. Мы видели, что иногда бывают основания отказаться от этого закона. Действительно, мы предполагали, что систематических ошибок нет, а они есть всегда. С другой стороны, мы видели, что часто приходится отказываться от поиска среднего, и, например, отбрасывать одно наблюдение, чрез- мерно отличающееся от других. Такого бы не было, если бы закон Га- усса всегда был верен. Итак, в некоторых случаях могут найтись априорные основания отказаться от закона Гаусса. О чем это говорит? Почему мы отбрасы- ваем наблюдение, непохожее на другие? Потому что предполагаем, что оно связано с грубой ошибкой, произошедшей случайно. То есть мы не считаем a priori грубую ошибку совершенно невероятной, какой она была бы по закону Гаусса. 148. Остановимся на некоторых деталях. В определенных случа- ях можно предполагать, что полная ошибка складывается из двух час- тичных; первая из них — результат накопления большого числа очень малых ошибок, она подчиняется закону Гаусса; вторая — грубая ошиб- ка, чья вероятность, правда, очень мала, но чья величина может быть очень заметной. Именно это могло бы произойти, например, если по недосмотру пренебречь какой-то существенной предосторожностью, какой-то не- обходимой регулировкой прибора, так и не узнав об этом. Вот одна из гипотез, в которой нет ничего неразумного. Пусть тогда У = У1+У2 полная ошибка, yi и у-> — две частичные. Тогда подчиняется закону Гаусса, а функция определяющая вероятностный закон, равна ”<»’=У!8-4 соответствующая характеристическая функция равна е4/г.
178 Глава 11 Что касается ошибки у?, она может быть равна 0, +к и — к, соот- ветствующие вероятности этих трех ошибок равны 1 — 2s, е и е; соот- ветствующая характеристическая функция — 1 — 2s + s(eak + е~ак), а характеристическая функция полной ошибки будет произведением а2 с 477 [1 - 2s + е(еак + е~ак')]. Что касается функции <р(у), она равна [(1 - 2e)e~hy2 + £(e~h(y-k^ + е"'4^)2)] . Предположим теперь, что мы бы хотели найти вероятное значение измеряемой величины z, п наблюдений над которой дали результа- ты жх, жг, • • • , хп. Мы знаем, что все зависит от произведения <Р(Ж1 - £)<£>(ж2 - z)... ср(хп - z); когда у функции ср три слагаемых, у этого произведения их Зп; для искомого вероятного значения найдем1 в числителе и знаменателе по Зп членов; кроме того, Х1 + + • • • + хп #1 + #2 + • • • + Z2 х ; @ z* = --------п-------+ к---------п------- = — + к^Г ’ числа в могут принять значения 0, 1, и —1; поскольку всего чисел в будет п. а каждое может иметь три значения, получим Зп комбинаций. Затем имеем / \SI»I № = (1 - 2е)" ^2- \ 1 — ££ } 13десь суммирование ведется по переменной 0. — Прим. ред.
Обоснование закона Гаусса 179 и аь = h ^2(ж, - zk - в{к)2. i Для простоты предположим, что было только три наблюдения с результатами 0, 0 и /г и будем пренебрегать квадратом J2; тогда веро- ятное значение станет | [1 - £(2е-2^ + е^)] +^£(2 + £-^), О о где /3 = если /3 велико, т. е. разница между несогласованным на- блюдением Хз = к и согласованными х± = жг = 0 велика по сравнению с точностью инструмента, то можно сделать так, что ее13 будет ко- 9 нечно , а затем, сохраняя только конечные величины, наити вероятное значение ^(1 -«+ о или, точнее, т. к. мы не можем больше пренебрегать квадратом £е^, 1 к 31+ ее^ Итак, это значение меньше среднего арифметического, т. е. мы должны приписать согласованным наблюдениям больший вес, чем несогласованному^16). Вообще, считается более естественным предпола- гать, что несогласованное наблюдение произошло из-за грубой ошибки второго рода, а не из-за ошибки первого рода, подчиненной закону Га- усса, т. к. очень неправдоподобно, чтобы эта последняя могла достигать таких больших значений. 149. Можно попробовать произвести подсчеты для других зако- нов; займемся сперва теми, где большие ошибки более вероятны, чем в законе Гаусса; например, можно взять , , 1 < X 1 -1x1 2Имеется в виду, что не будет ни бесконечно малым, ни бесконечно боль- шим. — Прим. ред.
180 Глава 11 Вычисления не представляют никакой трудности; пусть есть три на- блюдения Ж1 = Х2 и Хз > Х2, находим вероятное значение z для послед- него закона: Xi— Xs Ж1 + |л-е Л О \ о о / Ж1-ЖЗ 1 — |е А Для очень большого числа Хз оно вырождается в Х1 Н- о А, о что показывает, что при фиксированных Xi и Х2 вероятное значение z не растет бесконечно вместе с х%. Здесь снова вес несогласованного наблюдения меньше, чем у согласованных. Рассмотрим теперь закон, в котором большие ошибки еще менее правдоподобны, чем в законе Гаусса; пусть, например, <р(у) = Ke~hy4-, тогда можно найти, что вес несогласованного значения больше, чем со- гласованных. Сначала это кажется довольно парадоксальным. Но этот результат легко объяснить. Предположим, что произведены три наблю- дения 0, 0, к, к и среднее арифметическое равно а ошибки равны о к. к, 2к 3’3’ 3 Если бы мы взяли все три ошибки равнялись бы Вероятность ошибки очень быстро убывает вместе с ростом этой ошибки, и может 2А- случиться, что ошибка в настолько неправдоподобна, что ее мож- 3 1. но считать практически невозможной, тогда как ошибка остается приемлемой. Действительно,
Обоснование закона Гаусса 181 150. Какие изменения надо внести в закон Гаусса в этих послед- них случаях? Кривая которую мы ранее начертили, должна пройти выше, чем раньше, в об- ласти, удаленной от оси ординат. Другой пример; если бы закон Гаусса был верен, можно было бы, накопив достаточно наблюдений, получить сколь угодно большую точ- ность. Но в большинстве случаев возникает чувство, что это заблужде- ние. С метром, разделенным на миллиметры, мы никогда не сможем, как бы часто мы ни повторяли измерения, определить длину с точнос- тью до миллионной доли миллиметра. Как пришлось бы изменить кривую Гаусса, чтобы учесть этот факт? Наши попытки достичь бесконечной точности являются заблуж- дением, потому что у нас не больше шансов не ошибиться вообще, чем ошибиться только на один или два микрона. Тогда кривая должна содер- жать маленькую ступеньку, маленький горизонтальный отрезок у = = const вправо и влево от пересечения с осью ординат. Но подобная гипотеза все еще будет недостаточной для учета всех факторов. В рассуждениях параграфа 135 мы видели, что каков бы ни был закон распределения ошибок, если он имеет вид — z), вероятное значение квадрата ошибки, допущенной в среднем при п наблюдениях, стремится к нулю, когда п неограниченно растет. То же можно увидеть с помощью характеристических функций. Пусть F(a) — характерис- тическая функция, связанная с отдельным наблюдением; характерис- тической функцией среднего из п наблюдений будет Предположим, что F(a) — аналитическая и F(a) = 1 + + Ага2 + ... Пусть также ошибки не имеют систематического характера, т. е. Ах = 0; тогда logF(a) = В2а2 + В3а3 + ... , откуда
182 Глава 11 и предел1 ьф®]” = »- что показывает, что ошибка равна нулю. На самом деле можно было бы предположить, что F(a) не анали- тическая, и взять, например, F(a) = Отсюда бы получилось так что средняя ошибка не стремилась бы к нулю; этой гипотезе соот- ветствует вероятностный закон со следующей функцией: т(у) = .(17) 71 1 + у2 Какой недостаток в рассуждениях параграфа 135 возникает в этом слу- чае? Согласно этим рассуждениям, вероятное значение квадрата сред- ней ошибки в п раз меньше, чем вероятное значение квадрата ошибки при отдельном наблюдении. Рассуждение остается верным, но здесь это последнее вероятное значение, представленное интегралом +оо 1 [ у2 dy 71-L1+у2’ бесконечно. Данное решение — не то, которое мы ищем. Мы бы не увидели, что ошибка в среднем стремится к нулю, если бы функция <р(у) не стремилась к нулю быстрее, чем -Д при больших у, т. е. если бы очень У большие ошибки не были очень маловероятными. Но если мы можем рассчитывать только на инструмент, дающий бесконечное приближение при условии достаточного повторения наблю- дений, то виноваты в этом не очень большие ошибки, а наоборот, очень малые; здравый смысл вполне доказывает это. 1При п —> +оо. — Прим. ред.
Обоснование закона Гаусса 183 151. Итак, надо допустить, что функция ср имеет вид не cp(xi — — z), а z). Предположим, например, что прибор имеет деления, и мы можем оценить их десятые доли; вообще-то мы записываем целое число десятых: сотые или тысячные могут появиться в записях лишь случайно. Предположим, что ошибка может возникнуть только при чте- нии результата; возьмем за единицу десятую часть деления, чтобы Х{ всегда было целым. Мы можем допустить, например, что если z лежит между р — е и р + е (р целое), то мы, конечно, запишем xi = р; а если z лежит между р + е и р + 1 - г, мы с вероятностью | запишем xi = р, и с вероятностью | — Х{ = р + 1. Если z лежит между р+е и р+1— е, и мы производим п наблюдений, то мы п1 раз напишем р и п" раз — р + 1; отношение п' и п" к стремится к 1 при росте числа наблюдений; среднее п’р + п"(р + 1) п стремится к р + а никак не к z. Можно прийти к аналогичным результатам с аналогичными и бо- лее сложными законами, если вероятность написать р меняется непре- рывным образом вместе с z, но не является линейной функцией от z—p-, правдоподобней всего то, что кривая, соответствующая этой вероят- ности, образует ступеньки, как это было в только что рассмотренном частном примере; пусть, наконец, ошибка отсчета имеет одну из этих особенностей, превосходит ошибки, проистекающие из других источ- ников, и подчиняется закону Гаусса. Если <p(xi, z) зависит не только от разности yi = Х{— z, то вероят- ное значение ошибки, равное ypp(xi, z) dyi зависит только от z. Оно может не быть нулем, даже если сама ошибка не имеет систематического характера. Действительно, если это веро- ятное значение равно достаточно, чтобы интеграл +оо 9{z) dz
184 Глава 11 +оо (или лучше f dz, где ip{z) — априорная вероятность того, что z принимает данное значение), как в главе X, был равен нулю, и ошибку можно не называть систематической; но само 9(z) не должно быть тождественным нулем. Возьмем, например, гипотезу, изложен- ную выше, и предположим сверх того, что мы изначально знаем, что z лежит между р и р + 1; то есть 'ф(г) равно нулю, когда z не находится в этих пределах, и может считаться константой иначе. Тогда имеем 0(z)=p-e (p<z<p + e), ff(z)=p+^-s (р + s < z < р + 1 - s), 0(z)=p+l—e (p+ 1 — e < z < p+ 1). Легко видеть, что +oo р+1 У tp(z)0(z) dz = У 6{z) dz = 0. -сю р 152. Вернемся теперь к формуле из главы XI, которая давала нам вероятное значение квадрата ошибки, допущенной в среднем: £^1 2£j/H/2 п2 п2 ’ что можно еще записать как Эта формула существует, только когда вероятные значения у и у2, ошибки в отдельном наблюдении и ее квадрата, будут зависеть от z. Согласно предыдущим рассуждениям, У = может не быть нулем; первое слагаемое стремится к нулю, когда п неограниченно растет; но это неверно для второго слагаемого, которое стремится к e2(z), так что вероятное значение квадрата ошибки, до- пущенной в среднем, надо будет записать (не считая больше z равной
Обоснование закона Гаусса 185 какой-то конкретной величине) как +оо У" (P(z'yr(z)dz — интеграл, который не обращается в нуль, т. к. все элементы положи- тельны. Также можно было бы воспользоваться характеристической функ- цией, если записать ее как F(a, z) = еЛ«+/32«2+-; все Р зависят от z, и /31, где /31 — не что иное, как 0(z), может не совпа- дать с нулем. Для допущенной в среднем ошибки характеристическая функция равна и при очень больших п вырождается в е^а = 1 + /Зю + . Вероятные значения допущенной в среднем ошибки и ее квадрата равны /31 и /31 для какого-то частного значения z, а если не приписы- вать z частного значения, получим У /31 ip(z') dz = О, У /3f^(z) dz > 0. 153. Кроме того, в законе Гаусса предполагается, что ср зависит только от у, где у равно х — z, тогда как ср может быть функцией от х и от z. Например, чтобы учесть десятичную ошибку, мы могли взять р(у) = У> e-hy2e(x), где д(х) — периодическая функция от ж с периодом 1, достигающая максимума на десятичных знаках, которые нравятся некоторым наблю- дателям и все время попадают в их записи. С другой стороны, меньше
186 Глава 11 шансов совершить ошибку, если мы попадем точно на деление, имеюще- еся в приборе, чем если мы вынуждены добавлять более мелкие деления на глазок. Итак, h больше не будет константой, но функцией от ж с пе- риодом 1; точность будет выше, когда х — целое число, нежели иначе; если тот же наблюдатель очень хорошо оценивает десятичные доли, но не может найти другие десятичные знаки, 0(х) будет точный нуль при любом значении х, в записи которого есть только десятые доли.
Глава 12 Ошибка при нахождении координат одной точки 154. Задача об ошибках, допущенных при нахождении ко- ординат одной точки. Вместо измерения одной единственной ве- личины часто приходится измерять сразу несколько, две координаты звезды, например, и т. д. Я предполагаю, что для оценки положения одной точки на плоскос- ти сделано п измерений, и для двух прямоугольных координат х и у найдены величины Х1, У1, Я?2, У2, , Хп, уп Допущенные ошибки равны Х1 - х И У1 — у, Х2- х и У2~У, Хп-х и уп-у. Я обозначу X-L =ж + £1, У1 =у + ??1, Х2 = X + £2, У2 = У + ??2, Хп — X + уп — у + Т]П' Тогда допущенные ошибки равны 6 И Г]!, ^2 И Г]2, £п И Г]п.
188 Глава 12 155. Можно спросить, с какой вероятностью ошибки, допущенные при первом наблюдении, лежат между £i и £i + . гц и + dm. Пусть эта вероятность равна ^(£1, т№1 dr]i; Может оказаться, что <р зависит от х и у, но я предполагаю, что это не так и ср зависит только от ошибок. Эти ошибки могут быть независимы; тогда ср будет произведением двух других функций, а вероятность будет представляться как ^(6) • dm; но я все-таки предположу, что ошибка, допущенная в абсциссе, зависит от ошибки, допущенной в ординате. Рассуждение аналогично тому, что приводит Гаусс в случае одной переменной. Будем основываться на следующем постулате: если сдела- но столько-то измерений, и найденные точки отмечаются на плоскос- ти, то наиболее вероятным положением искомой точки будет центр масс всех этих точек в предположении, что их массы равны. 156. В примере Гаусса мы считали, что такая точка зрения обос- нована. Каков будет закон распределения ошибок, оправдывающий эту гипотезу? Ищем вероятность того, что координаты точки лежат между х и х + dx, у и у + dy. Это задача на условные вероятности, и нам надо искать Pi^i S P&i ' Величина — априорная вероятность того, что координаты лежат между х и х + dx, у и у + dy; представим ее как Wi = ф(х, у). Величина pi — вероятность того, что при воздействии данной причины происходит наблюдаемое явление: здесь наблюдаемым явлением будет то, что одни координаты лежат между жх и xi + dxi, х2 и x2 + dx2, хп и хп + dxn,
Ошибка при нахождении координат одной точки 189 другие — между У1 и yr+dyi, У2 и y2 + dy2, Уп и Уп Т dyn. Вероятность pi равна произведению вероятностей, соответствующих каждому из измерений Pi = ъМЬ, т)--- <Р(Фт Лп) dS^ dr)! d& dr)2 d£n dr]n Пусть П = y>(£i, Ы • • • ‘Р^п, Оп)- Тогда РФФ 'EP&i будет 11 dx dy d(\ diji d^2 dr]2 d£n dr/,, J Лф dx dy d^i dr]i d^2 di]2 d^n drjn интеграл берется по x и у, остается Лф dx dy j Лф dx dy Знаменатель — константа, не зависящая от х и у; значит, вероятность пропорциональна числителю. 157. Каково наиболее вероятное значение? То, где числитель Лф достигает максимума. Но П = - X, У! - у)<р(х2 - X, У2 - уф <р(хп - X, уп - у). При каких значениях я? и у это произведение максимально? Согласно постулату, это среднее арифметическое Xi, х2,хп в качестве х и среднее арифметическое у±, у2, - • • , Уп в качестве у. Приравняем лога-
190 Глава 12 рифмические производные к следующим функциям: dp уГ = F(^, 771), dp d-ф d,= V’ dt[> dy -0 -j- — °О- Логарифмическая производная по х, которая должна обращаться в нуль в точке максимума, равна -F(6, - F(&, т)-...- Ftfn, rjn) +0 = 0, откуда F(£i, Vi) + F(&, г/2) + • • • + F(£n, т]п) = 9. Логарифмическое дифференцирование по у даст ^b(£i, ??1) + ^Ь(£г5 »?г) + • • • + Fo(^n, rjn) = в0. Эти два соотношения должны выполняться всякий раз, когда Ж1 + Ж2 + ... + хп = пх, У1 + У2 + + Уп = ny, то есть £1 + 5,2 + • • • + £,п = 0, т + т]2 + + т]п = о. 158. Речь идет об определении функций ср и ф так, чтобы эти две системы уравнений были совместны. Дифференцируем эти две системы, считая х и у постоянными и меняя £1, 771, £2, t]2, , £,т Лп- Производные от в и во в правой части равны нулю, т. к. в и во не зависят от этих величин. Я обозначу Fi и Ff следующие функции Fi = F&, Ff = F0(6, »?i). Первая система преобразуется в dFi + dF% + ... + dFn = 0, dF® + dF? + ... + dF® = 0,
Ошибка при нахождении координат одной точки 191 а вторая система — в db + db + • • • + d£n = 0, dr/° + dr]® + ... + dr]° = 0. Таковы две системы, которые должны быть эквивалентны. Два первых уравнения должны быть комбинацией двух последних; выполняется тождество dFi + dF2 + ... + dFn — = Ad£i + Bdrji + Adb + Bdrj2 + ... + Adb + Bdf]n. Приравниваем соответствующие коэффициенты: dFi _ dF2 _ = dFn dCi db ’ db dFi _ dF2 _ _ dFn drji df]2 df]n Здесь А должно зависеть только от Ci ищ, т. к. оно равно так же с dF2 оно зависит только от Ь и 772, т. к. оно равно . “52 Итак, А и В — константы: Fi — линейная функция Ь и 771. Так же и — линейная функиця Ь и 771. Добавим, что в пред- ставлении Fi как Fi = + Brji + С произвольная постоянная С равна нулю. Действительно, если я заменю F±, F2, ... , Fn их значениями, я по- лучу A(Ci + Сг + • • • + Сп) + В(г]1 + 772 + ... + ?7п) + пС — 0. Это уравнение должно быть верным всякий раз, когда С1 + Сг + • • • + Сп = о, т +112 + • • • + fin = 0. Итак, пС = в, и, т. к. в не зависит от тг, в = 0, С = 0.
192 Глава 12 Отсюда следует, что ф> константа. Чтобы теория Гаусса была применима, надо, чтобы a priori у нас не было никаких сведений о значении искомой величины. Точно так же получим Ff = D6 + Ет. Кроме того, В = D, т. к. dJi dFl a dFr dF" dm d^ в силу определения F и Fq. Наконец, приходим к log</? = А(^ + 2B£im + E'i7i + C, где G — константа, которую мы запишем как log//. Многочлен + 2В^т + Erft должен быть отрицательно опреде- ленным, т. к. бесконечно большая ошибка должна иметь нулевую веро- ятность; обозначим его — Р. log¥? = —P + logH; откуда ip = Не~р. Интеграл УУ Г d£i dm должен быть равен единице при всех возможных значениях хну. 159. Это рассуждение может стать объектом тех же возражений, что и рассуждение Гаусса. Если, несмотря на все возражения, мы принимаем закон Гаусса, то можно построить кривые Р = const, поместив начало в намеченную точку, т. е. очень близко к средней точ- ке. Ситуация похожа на задачу о стрельбе по мишени.
Ошибка при нахождении координат одной точки 193 Точки распределяются согласно обоб- / щенному закону Гаусса. Кривые Р = const будут концент- "-/к ) 2 рическими эллипсами с одинаковыми на- ( О/—------------------- правлениями осей. ( V/ s Рассмотрим один из этих эллипсов: я 1 проведу из О несколько прямых, которые / делят плоскость на сектора 1, 2, 3, 4. Пусть Si — внутренняя часть первого сектора, Si — его внешняя часть. Если на плоскости отмечено очень много точек, они распределяют- ся почти пропорционально их вероятностям. В si будет пх точек, в Si их будет Ni. Теорема, немедленно следующая из формулы предыдуще- го параграфа, такова: П1 _ п2 _ п3 _ п4 Ж ~ Ж ~ Ж ~ Ж' В каждом секторе отношение количества внутренних и внешних точек эллипса одинаково. 160. Если наблюдения независимы, то равно произведению двух функций. Тогда Р будет суммой двух функций, каждая из которых зависит от одной переменной; слагаемое с £ir]i исчезает. Это означает, что оси эллипсов параллельны осям координат. Для того чтобы разрыв между намеченной точкой и полученной в результате наблюдений не зависел от направления, эллипс должен выродиться в окружность. Еще можно будет считать независимыми ошибку в абсциссе и ошибку в радиус-векторе. Все сказанное выше явилось основанием для доказательства закона Гаусса. Эти вопросы уже упоминались в параграфе 16; они лишены смысла.
Глава 13 Метод наименьших квадратов 161. Метод наименьших квадратов служит для определения вели- чин ui, и2, ... , ир, если непосредственно их измерить нельзя, но можно найти какие-то функции zi, z2, • • • , zn от них: z\ = Fi(wi, и2, ... , ир), z2 = F2(wi, u2, ... , up), Zn = FntUi, U2, ... , Up). Пусть при измерении z±, z2, ... , zn n наблюдений дали результа- ты жх, х2, ... , хп; допущены какие-то ошибки. Для Zi ошибка yi равна Ui — Z^. Задачу можно поставить только для п > р, т. к. для п = р система уравнений дает единственное решение, а для п < р уравнений будет недостаточно, и задача окажется неопределенной. Для п > р уравнений больше, чем нужно: каковы тогда будут самые приемлемые величины, которые можно взять за и? Исключим р величин и; приходим к п — р уравнениям z2, ... , zn) = 0, i = 1, 2, ... , п -р. Это уравнения связи. Иногда выгоднее взять их в той форме, которая приведена выше. Иногда предпочтительнее выразить z как функции от и. Мы разберем примеры с первым и со вторым методом: первый бу- дет связан с планетами, второй — с задачей о триангуляции.
Метод наименьших квадратов 195 162. Первая часть метода наименьших квадратов, которым мы займемся прямо сейчас, это определение самых подходящих значений и. Во второй части мы будем изучать допущенные ошибки. По неизвестной причине величины и заключены в определенных пределах; наблюдаемые величины ж, тоже заключены в определенных пределах. Применим еще раз формулу Pi<^i 'EPi^i' где Cji — априорная вероятность того, что воздействует данная причи- на; здесь это означает, что величины и лежат между «1 ИИ1 + dui, и% и U2 + du2, ... , ир и ир + dup. Эту вероятность можно представить как ^(«1, и2, • • • , ир) dui du2 dup. Функция tp может иметь разный вид в зависимости от того, как мы a priori представляем себе величины и: здесь степень произвола очень велика. Величина р, равна вероятности того, что ж, лежит между ж, и Х{ + dx{, в предположении, что все и имеют те значения, которые мы им приписали; числа zi, Z2, ... , zn даны как функции от и, и вероят- ность допущенной в каждом из них ошибки будет соответственно <Р1 (У1) dyi = - zi) ЙЖ1, ¥2^2) dy2 = <р(х2 - z2) dx2, фп^Уп) dyn = <р(хп - zn) dxn. Искомая вероятность pi — та, с которой все эти обстоятельства проис- ходят одновременно; это произведение вероятностей: Pi = ф(У1)ф(У2) • • • ф(уп) dyi dy2... dyn. Я немного сокращу запись, полагая dui du2 ... dup = dw, а с другой стороны, У1(У1)ф2(У2) ••фп(уп) =П, dyi dy2 dyn = dxi dx2 dxn = duj'.
196 Глава 13 Тогда piW;: = Пт/> dw dw' и PiWt Пф dw dw' ^PiWi 52"^ dev dw' Интегрирование производится только no dw, поэтому dw' сокращается. Такова вероятность, которую надо знать, чтобы найти апостериор- ную вероятность того, что щ лежит между щ и щ + dui- Так как зна- менатель равен константе, эта вероятность пропорциональна П, т. е. функции от и, и ф dw, представляющей априорную вероятность; ф dw — тоже функция от и. 163. Чтобы получить наиболее вероятное значение величин и, на- до найти максимум Il^dw. Самой простой гипотезой насчет ф будет ф = 1: остается опреде- лить максимум П. Самой простой гипотезой насчет будет предположение, что ошиб- ки подчиняются закону Гаусса: Гк(.Ук) = Тогда Д _ (Je~(hiy'[+h-iy^ + ...+h„y'2n)^ Максимум достигается, когда выражение в скобках, т. е. ^1У1 + + • • • + hny^, минимально. Это известная функция от и; величины hi, h2- ... , hn представ- ляют собой веса наблюдений, и достигать минимума должна сумма квадратов допущенных ошибок, в которой каждый квадрат умножен на вес соответствующего наблюдения. 164. Можно было бы прийти к тому же результату без закона Гаусса, достаточно лишь предполагать случайные ошибки малыми, а систематические — нулевыми.
Метод наименьших квадратов 197 Действительно, предполагаем, что величины у очень малы; какой бы вид не имели функции у>, мы придем к какому-то аналогично- му выражению. Речь пойдет о достижении максимума произведением всех (fj. Я считаю (fi четными и раскладываю по формуле Тейлора logipi, меняя знак: -log^i(yi) = ai + 61У1 + С1У1 + ... , -log <£>2(3/2) = а2 + b2yf + С2У2 + ... , - log <£>„(?/„) = an + bnyl + cny„ + ... Сумма логарифмов с противоположным знаком должна быть минималь- ной, т. е. к минимуму стремится выражение 52 ai + Е Ь'У> + Е Ciyi + • • • Я дифференцирую по Uk- о к dyi . з ^Уг _ „ 2 / J biyi — H 4 у Ciyi — H ... — 0. duk duk Так как yi считаются очень малыми, высшими степенями можно пре- небречь, и все будет происходить так же, как если бы мы искали ми- нимум ^biy?. Итак, допуская, что закон Гаусса неверен, получим, что истинный вероятностный закон не очень отличается от него на нужном нам интервале. Одно из двух: либо наблюдения практически согласованы и, как мы только что видели, применйм метод наименьших квадратов, либо они не согласованы, и в этом случае данные наблюдения ничего не стоят, из них ничего нельзя вывести. 165. Тем не менее мы не смогли бы удовлетвориться предыду- щим рассуждением, т. к. то, что мы хотим получить, это вероятное значение и (а не наиболее вероятное значение). Если вероятность того, что х лежит между х и x+dx, равна <£>(ж) dx, то наиболее вероятным значением х будет то, где достигается макси- мум <£>(ж) dx. Вероятное значение х равно j х<р(х) dx.
198 Глава 13 Если вероятное значение и равно ио- то вероятное значение функ- ции z, Z = и2, о не совпадает с и^. Но если все z — линейные функции от и, их вероятные значения соответствуют вероятным значениям щ zi = Ai И1 + А2и2 + . . . + AipUp + Bi. Дифференциал CBdoj представляет собой вероятность того, что г-я ве- личина щ лежит между щ и щ + dui- Пусть — вероятное значение иь, u°k = J" CILuk dev. Вероятное значение zt, обозначим его z^, равно zp = у" CH(Ai1ui + A2it2 + ... + Aipup + Bi) dev или zf = Ai-^ 17П//1 dco-\-Aiz С7П1А2 dw-\~.. .-j-Aip 171 l//p dw-\-В; 1711 duj. и, т. к. j CBdaj равен вероятному значению единицы, т. е. 1, zp = А^и® + A{2U2 + ... + Aipu® + Bi. 166. С одной стороны, я буду считать ф константой; с другой сто- роны, я предположу, что закон распределения ошибок — гауссовский; наконец, что все z связаны с и линейными соотношениями. Я хочу установить, что вероятное значение и совпадает с тем, ко- торое дает метод наименьших квадратов. Произведение рфф достигает максимума, когда функция Р Р = Ml + /12У2 + • • • + hnll'n минимальна.
Метод наименьших квадратов 199 Пусть wSJ - • • • 1 ир — значения и, доставляющие минимум этому выражению. Они же будут, как мы сейчас увидим, вероятными значе- ниями соответствующих и. Имеем П = Се~р. Вероятное значение равно Г Hdw и = fHukdco J fndwUk fUdw Надо показать, что J II?//, dw k flldw то есть У П(и*. — и®) dw = 0. Имеем Ui — %i Zi'i где Xi известно, Zi имеет первую степень по и: тогда Р — многочлен второй степени по и. Многочлен Р достигает минимума, когда ui = и?, и2 = и°, ...uk=u°k, ... Это означает, что Р = Ро +Р2, где //> — однородный многочлен второй степени по (wi — w°), («2 — w°), • • • , (uk — w°), ..a po — значение минимума P. Мы хотим показать, что У Се~Рое~Р2(ик — dw = 0. Здесь Се~Рое~Р2 — четная функция от величин Си,; — w°); ик — — нечетная функция. Так как интеграл берется от — оо до +оо, он равен нулю. Итак, данные значения и будут не только наиболее вероятными, но и вероятными значениями.
200 Глава 13 167. Будет ли это верно в общем случае? Да, если измерения практически согласованы, ошибки малы и все происходит так же, как по закону Гаусса. Если область изменения и очень ограничена, мы можем рассмат- ривать z как линейные, какой бы вид не имели функции F. Из тех же самых соображений, что область, на которой могут ме- няться и, очень ограничена, функция ф, которая изначально была про- извольной, может считаться константой. Именно из-за всей совокупности этих обстоятельств метод наи- меньших квадратов может считаться применимым всякий раз, когда наблюдения практически согласованы и лишены систематических оши- бок. 168. Установив это, посмотрим, как должны проводиться вычис- ления. Мы знаем функции z от и: всего их р штук, а количество наблю- дений равно п и больше р; вместо Zi, Z2, ... , zn нам даны значения Я?1, Я?2, . . . , Хп. Уравнений больше, чем неизвестных; ищем наилучший способ при- близительно удовлетворить им. Первое приближение даст гц, иг, ... , ир. Предположим, его доста- точно, чтобы можно было пренебречь квадратом допущенной ошибки; пусть bi равно этому первому приближению для щ: Щ = bi + Vi. Если мы раскладываем Zi по возрастанию степеней vt, по формуле Тей- лора, и пренебрегаем квадратами V(, Zi = AiTvi + Ai2V2 + ... + Aipvp + Bi, то мы получим таким образом п уравнений, которые станут линейны- ми. Надо найти минимум суммы 52 hiyi = 52 hi^Zi ~ж*)2- Пишем, что р производных по р величинам Vi, ... , vp равны нулю: 52 hi(zi - хф^ = 0. dvk
Метод наименьших квадратов 201 Но dz; . =Aik- dvh остается ^4«/г (£« — 0. 169. Итак, мы пришли к следующему правилу. Ниже я записываю приблизительные уравнения: я?1 — Hi — AnVi + И.12^2 + ... + AipVp hiAn, Х2 — В2 = A21V1 + A22V2 + . . . + A2pVp /12^4.21, Хп Вп — Ani&i + Ап2^2 Т ... Т AnpVp hnAni- Эти уравнения не только приблизительны, но и несовместны, т. к. п > р. Я умножаю обе части первого из них на /г,1Лц; обе части второ- го — на Л.2^4-21; • • • ; обе части п-го — на hnAni и почленно складываю результаты. Так я получаю первое уравнение, линейное по х и и; я пользуюсь коэффициентами hlAifc^ ^2^4.2/г? *•* > ЬпАпкч где k = 1. Если я последовательно приравняю k к 2, ... , р, я получу новые серии коэффициентов /11Л12, /l2^22, , hnAn2, hiAip, /12^4.2/?? • • • , hnAnp, и, соответственно, p линейных уравнений для v. Решив эту систему, мы ответим на вопрос задачи. 170. Я проведу вычисления иначе. У меня есть п функций Zi от U2, . . , ир: Zi = Fi(wi, и2, ... , Up). Я могу исключить щ отсюда я получу п — р уравнений, являющихся уравнениями связи: Z2, , Zn) = 0, <£>2(^1, Z2, , Zn) = 0, <£>g(zi, z2, ... , Zn) = о,
202 Глава 13 где q = п — р. Я могу разложить все уравнения связи, пренебрегая членами вто- рого порядка по у, при условии, что наблюдения достаточно согласова- ны: АцУ1 + ^4-12?/2 + • • • + = -В1, ^4-21У1 + А22У2 + • • • + А2пУп = В2, Aqiyi + ^492?/2 + • • • + Aqnyn = Bq. Как лучше всего удовлетворить этим уравнениям связи? Устремив к минимуму 52 W- Итак, 52 hiVi dyi = °’ 171. Надо заметить, что dyi, dyz, , dyn не будут независимы- ми: они связаны соотношениями, которые можно получить, дифферен- цируя уравнения связи. Общий вид этих уравнений — А-кгУг — В kt откуда A-ki dyi — 0. Итак, соотношения, связывающие dyi, dy^ . • • , dyn, имеют вид Л-Ц &Уг — 0? 52^2» dyi = о, 52 dyi = 0; и 52 1г'У' dyi = 0 должно быть следствием этих q уравнений.
Метод наименьших квадратов 203 Мы должны получить (при неопределенных коэффициентах е) hiyi = £1Дц + £2^-2i + ... + eqAqi. Все е можно определить, подставив в уравнения связи значения yi как функции от е; первое уравнение превратится в "Т~ [fi’1^4-11 +£'2^4.21+- • -+SqAqi] + --^-[£iAi2+£2A22 + - • •+£'4^2] + - • • = 81, ftl 1I2 Таким образом получается q уравнений для определения е. Это второе решение задачи. 172. Возьмем две переменные и четыре наблюдения. Два уравне- ния связи равны Ayr + Ву2 + Су3 + 1)у\ = II. А'У1 + В'У2 + С'у3 + D'y4 = Н'. Я считаю веса одинаковыми: hi = h,2 = h3 = hi. yi = Aei + A'e2, У2 = Bei + B'£2i УЗ = Cei + C'£2i yi = Dei + D' 82, После подстановки у в уравнения связи получим уравнения для е: (52л2)е + (52лл/)£2 = н (^2 + (52^ )е2 = н - Из двух указанных методов один будет выгоднее другого в зависимости от обстоятельств. Трудность заключается в необходимости решать большое число ли- нейных уравнений; нашей целью будет по возможности уменьшить их количество. В первом способе имеется р уравнений, во втором их q = п — р. Итак, надо применять первый способ, если п больше, чем 2р, второй способ, если п меньше, чем 2р.
204 Глава 13 173. Мы попытались найти минимум hi^Zi х) ч где hi — вес наблюдения i. Можно свести задачу к случаю, когда все веса равны. Полагаем %i — у/hi — hiFi(ux, U24 • • • 5 ^р) и тогда hi(j%i хЛ) (yjhiZi yjhiXi) — (z$ Xi) , и надо искать минимум выражения такого же, как - Xi)2. 174. Мы видели, что вычисления можно было бы провести двумя способами. Приведем пример для каждого из них. Пример 1. Точку М наблюдают с нескольких позиций Si, S2, S3,..., их положение прекрасно известно; измеряют угол MS\ с
Метод наименьших квадратов 205 каким-то фиксированным направлением MSq, иначе говоря, ази- мут AfSi; допустим, это </?i; и так для всех MSi- Каково наиболее вероятное положение М после этих измерений? Пусть х, у — координаты М; ai, bi — координаты Sp, <pi — угол MSi с MSq, взятой в качестве оси абсцисс: . У ~bi Pi=^^~. Уравнения для ipi, вообще говоря, несов- местны, намеченные линии не проходят точ- но через М и образуют вокруг этой точки маленький многоугольник. Произвольная точка, взятая внутри этого многоугольника, будет первым при- ближением, Mq(xq, Уо)- Я полагаю Х = Х0+£, У = Уо + г), где ( и г] — очень малые величины. Пусть Pi = Pi + ^i. (В случае, изображенном на рис. 19, щ отрицательно.) Кроме того, о . Уо~ Щ Pi =arctg^— ^-0 Разложим ipi по возрастающим степеням £ и остановившись на чле- нах второго порядка: _ 0 , “П&о - di) ~^Уо - bi) Pi — Pi + 7 Ч2 , / ГТ2 • (я?о - ai)2 + (уо - bi)2 Пусть А =Уо ~ bi (я?0 - aj2 + (уо - bi)2’ jj __^0 (%i (я?о - a,i)2 + (уо - bi)2
206 Глава 13 Тогда uji = <pi - <£>? = + Bit]. Наблюдаемое значение <pi равно = Pi +?i- Здесь £i будет наблюдаемым значением щ,. Уравнения, полученные из наблюдений, будут следующими: 4“ В{Г]. Эти уравнения, вообще говоря, несовместны, т. к. наблюдения неточны; надо выбрать ( и г] так, чтобы + В{Г] - £i)2 была минимальна. Я дифференцирую по £ и ту. 52 + В{Г/ - £i) = 0, 52 Bi(Ai£ + BiT] - £i) = 0; откуда имеем два линейных уравнения для определения £ и гр £52Л2 + ^52ЛВ = 52Л£, е524в + ??5>2 = 5>е. 175. Пример 2. Предположим, что измерили девять углов: пусть Zi — истинные значения этих углов, х, — их наблюдаемые значе- ния, yi — ошибки. Представим, что эти девять углов связаны четырьмя уравнениями: Z1 + Z2 + Z3 = 7Г, Z\ + Z5 + ZG = 7Г, Zi + Z% + Zg = 7Г, ZS + Z4 + Z7 = 27Г
Метод наименьших квадратов 207 Если hi — очень малая величина, полученная из наблюдений и равная превышению суммы найденных углов над развернутым: Я?1 + Я?2 + Я?з = 7Г + hl, то У1 +У2 + Уз = hl. Так же У4 + Уз + Уб = h2, У7 + Ув +Уэ = h3. Четвертое уравнение связи выражает тот факт, что Уз +У4. + У7 = hi. Требуется определить все у так, чтобы сумма была минимальна. Я хочу ввести четыре вспомогательные величины Si, s2, -з- £4, со- ответствующие четырем величинам hi, h2, h3, hi. Так, для у3 я вос- пользуюсь коэффициентом при у3 в первом уравнении, где он равен 1, затем во втором и третьем, где он равен 0, затем в четвертом, где он равен 1: 2/2 = £1 + ^4- Так же находятся У1=У2= £1, Уб = Уб = £2, У8=Уэ = £з, У7 = £2 + £4- Чтобы определить е, я заменяю все у их значениями: Зё"1 -К €4 = hi, 3^2 + £i = h2, Звз + Si = /13, £1 + £2 + £3 + 3^4 = hi',
208 Глава 13 откуда 3(ei + £2 + £з) + 3^4 = hl + /l2 + ^3 и 6е4 = ЗЛ4 — hi — I13 — h3, и так далее. Здесь второй способ решения удобнее, чем первый. Есть девять углов и четыре уравнения связи, т. е. пять свободных переменных; мы свели задачу к четырем уравнениям с четырьмя неизвестными, а при первом способе нам бы пришлось решать пять уравнений с пятью не- известными. 176. Еще один пример. Пример 3. Наблюдали некоторое чис- ло точек Mi, М2, ... , Мп, не лежащих на одной прямой, хотя в дей- ствительности это должно выполняться. Какая прямая будет наиболее вероятной? Следует определить п новых точек, лежащих на одной прямой так, чтобы сумма квадратов ошибок была наименьшей. Ошибка будет двойной: в абсциссе и в ординате. Если я предположу, что вероятность ошибки в абсциссе будет совпадать с вероятностью ошибки в ординате, то сумма квадратов ошибок в абсциссе и в ординате будет суммой величин таких же, как мк2. В действительности нам нужны не точки Р,, а прямая D, проходящая через точки Р,: я заявляю, что MiPj должны быть перпендикулярны D. Пусть это не так, и этот перпендикуляр равен MiP[; заменяя MiPi на М,Р-. я уменьшаю сумму, которая должна достигать минимума, следовательно, она не была минимальной. Я больше не буду заниматься точками Р: я буду искать прямую такую, чтобы сумма квадратов расстояний от точек Mi до этой прямой была минимальна. Величина, стремящаяся к минимуму, — не что иное, как момент инерции точек относительно этой прямой, если считать, что каждая точка имеет массу, равную 1. Первым свойством прямой будет то, что она проходит через центр масс. Если поворачивать эту прямую, момент инерции, как извест- но, меняется по очень простому закону, приводящему к определению
Метод наименьших квадратов 209 эллипсоида инерции. Здесь этот эллипсоид был бы бесконечно сплю- щен, т. к. точки лежат на плоскости; таким образом, прямая совпадает с большой осью эллипса, в который вырождается эллипсоид. Кроме то- го, этот эллипс инерции будет очень вытянут, т. к. точки лежат почти на прямой линии. 177. В задаче об определении координат точки на плоскости веро- ятность ошибки в абсциссе может не совпадать с вероятностью ошибки в ординате. Кроме того, эти две ошибки могут не быть независимыми. Мы детально изучили этот вопрос в предыдущей главе. В случае с точкой на плоскости мы пришли к рассмотрению ряда малых эллипсов; вероятность того, что координаты точки лежат меж- ду х и х + dx, у и у + dy, выражается функцией ер dx dy, и многочлен второй степени Р, приравненный к константе, дает нам уравнение одного из этих эллипсов. Вернемся к точкам на прямой. Из точки Mi как центра я описываю эллипс, гомотетичный нор- мальному и касающийся D. Я составляю сумму квадратов больших осей эллипсов, описанных вокруг разных точек М, и пишу, что она минимальна. Этот случай легко сводится к предыдущему. С помощью томогра- фического преобразования эллипсы могут превратиться в окружности. Если, например, малая ось равна половине большой, умножаем все аб- сциссы на 2, и надо только найти момент инерции, как было только что сделано.
Глава 14 Вычисление ошибок, которых следует избегать 178. Пусть выполнен закон Гаусса. Несколько наблюдений дали нам в качестве результатов измерений я?х, я?2, ... , хп. Речь идет об оценке значения h и z\ все, что мы знаем, это Xi, ж2> ... , хп, а кроме того, мы допускаем, что закон распределения ошибок — гауссовский. Положим Xi - z = yi. Требуется знать вероятность, с которой z лежит между z и z + dz, a h в то же время лежит между h и h + dh. Это задача на условные вероятности: причины неизвестны, они совпадают с описанным выше двойным событием; следствие известно, это тот факт, что п наблюдений дали результаты х±, я?2, ... , хп. Если обозначить, как и раньше, ей* априорную вероятность рас- смотренной причины, и — вероятность события, которое происхо- дит, если допустить, что действует эта причина, то апостериорная ве- роятность причины будет равна &iPi Е ^iPi ' В наиболее общем виде ей, = V>(z, h) dz dh, мы не считаем, что ф = 1 и полагаем a priori, что искусство наблю- дателя должно влиять на вероятность, которую мы приписываем кон- станте h. Величина pi равна вероятности того, что наблюдения дали резуль- таты, заключенные между Жх и Жх + dxi, ж2 и я?2 + dx2, и хп и хп + dxn.
Вычисление ошибок, которых следует избегать 211 Полагаем П = у>(ж1 - z)p(x2 — z)... р(хп — z), где rtXi-z) = ^e-h(x’-^2-, тогда Pi = П dxi dx2 ... dxn, и ojtPi _ Пф dz dh dxi dx2 dxn 52 tdiPi j' Пт/> dz dh dxi dx2 ... dxn По x интегрирование не производится, поэтому соответствующие диф- ференциалы исчезают вверху и внизу. По z интеграл берется от —оо до Too, по h — от 0 до Too. 179. Можно записать где Р = (Ж1 - z)2 + (х2 - z)2 + ... + (хп - z)2. Здесь Р — многочлен второй степени по z, достигающий своего мини- мума при z, равном среднему арифметическому величин х\ обозначим этот минимум, который будет положительным, па2. Я полагаю + х2 + ... + хп У = 2---------п--------’ откуда dz = dy и Р = п(у2 + а2). Тогда &iPi становится h’se-^+^^dydh J е~п^у2+а2'1'ф dy dh По у, как и по z, интегрирование проводится от —оо до +оо.
212 Глава Ц 180. Ищем вероятность того, что h лежит между h и h + dh, а у принимает все возможные значения: + СЮ 2 2 dh f e~nh(y+а dy + 2 2 / dh / h%e~nh(y +“ ^dy 0 -oo Функция ф зависела от z и h; теперь она зависит от у и h. Сначала сузим задачу, считая все значения у равновероятными, т. е. ф — не зависящей от у. Имеем + оо +оо e~nh(y2 + a2) _ e~nha2 J' e~nhy2 _ e~nha2 Тогда вероятность, связанная только с h, станет п — 1 dh • h 2 е~пка2ф сю n— 1 / dh • h 2 e~nha2 ф о 181. Прежде всего, чему равно наиболее вероятное значение hl Ищем максимум числителя, т. к. вероятность пропорциональна ему. Этот числитель можно записать как dh^=(Vhe~ha2)n. Между тем, максимум выражения dh • Фп х f в общем случае имеет место, когда т + ^=». f ф f и, если п очень велико, членом у можно пренебречь; итак, максимум достигается одновременно с максимумом функции Ф.
Вычисление ошибок, которых следует избегать 213 Здесь Ф равна y/he~ha2; приравняем нулю логарифмическую про- изводную: 1 2 __ г» 2h~a “°’ Так получаем наиболее вероятное значение h. Можно заметить, что при очень большом количестве наблюдений произвольная функция ф не играет никакой роли. Это неудивительно: гипотеза, которую мы a priori основывали на большем или меньшем искусстве наблюдателя, меняется из-за большого числа проверенных нами результатов. 182. Каково вероятное значение hp‘! Это вероятное значение равно оо п— 1 J hp+~e~nha^dh О оо п~ 1 / h~e~nha^dh О или 7 hpf$n dh о 7 f$ndh о Мы знаем, к какому пределу стремится отношение этих интегралов, если п очень велико; этот предел равен ОМ _,Р f(h0) где ho — наиболее вероятное значение. Итак, вероятное значение hp равно hg. Этот вывод верен только при условии, что п очень велико, а р конечно. Полагаем ф = 1: мы приходим к интегралам Эйлера 0О п-1 г(у+^) о
214 Глава Ц Отношение асимптотических значений дает что совпадает с нашим результатом. Но если не считать р конечным, это рассуждение использовать нельзя. Пусть р очень велико, например, равно Г(2р) Г(Р) (па2) р = (2р)2ре~2ру/^р рре Ру/2тгр (2ра2)~р. Правая часть вырождается в 2ре рх/2(а2) р. Найдено совсем другое выражение для среднего значения hp; 183. Вероятность допущенной ошибки. Эта задача разделя- ется на три. 1° Можно попытаться вычислить вероятность a priori. Наблюдения еще не сделаны; известно только, что собираются про- вести п наблюдений и применить метод наименьших квадратов. Кроме того, нам известно искусство наблюдателя. 2° Совершенно другая задача появляется, если мы не знаем изна- чально, какое значение надо приписать константе, входящей в формулу Гаусса. Нам неизвестно искусство наблюдателя, но мы знаем результа- ты наблюдений. 3° Нам известно искусство наблюдателя и результаты наблюде- ний(18). 184. Первая задача. Результаты неизвестны, но известно ис- кусство наблюдателя. Тогда все веса считаются одинаковыми. Пусть будут допущены ошибки, равные у^, у%, ... , уп', х±, я?2, ... , хп — приближенные значения истинных величин zi, Z2, ... , zn. Их соединяют q = п — р уравнений связи: Ф;(21, Z2, , Zn) = 0. Если подставить вместо Zi, Z2, ... , zn величины on, x%, ... , хп, эти уравнения не будут выполняться, и мы получим (Я'Х ? Х2? . • . , Хп) — //;.
Вычисление ошибок, которых следует избегать 215 где очень мало. Я заменяю х/. на yk+Zk и раскладываю по возрастанию степеней у^, оставляя только члены первого порядка: А1У1 + • • • + Апуп — Для наглядности возьмем п = 3 и предположим, что есть два уравнения связи Aiyi + А2у2 + А3уз = н, В1У1 + В2У2 + В3уз = н'- Величины нИ I1' очень малы, но я не знаю их значений, т. к. наблюдения еще не проведены. Речь идет о вычислении поправок у[, которые надо сделать к наблюдаемым значениям хц очевидно, эти поправки зависят от н и ///. например, У1 = Кн, в')- Я не знаю вид функции 9, но могу разложить ее по степеням н и н' и, т. к. оба н очень малы, пренебречь их квадратами; я прихожу к системе у'1 = Хгн + А'1/Д У2 = А2/1 + Х'2н', Уз = АзМ + Ад//, в общем виде y'i = + А-м', где константы А еще надо найти. Гаусс определяет их так, чтобы веро- ятное значение для (у* — у9)2, т. е. для (.Vi XiH Х{Н) , было минимально. Если предположить, что изначально известно искусство наблюда- теля, но не результаты наблюдений, надо оценивать вероятное значе- ние. Если бы было известно и то, и другое, решение, вообще говоря, было бы иным.
216 Глава Ц 185. Чтобы как следует объяснить эту разницу, я изучу более простой случай: пусть несколько раз наблюдают одну и ту же вели- чину z. Из наблюдений берется среднее, что согласуется с методом наименьших квадратов. Ошибка, допущенная в среднем, будет равна 2/1 + 2/2 + • • • + Уп п Априорная вероятность ошибки, допущенной, например, при первом на- блюдении, будет равна <р{уф) dy^. Априорная вероятность того, что z лежит между z и z + dz, бу- дет i[)(z) dz. / \ 2 тт I У1+У? + + Уп\ Ищем вероятное значение I -----—------— I , когда результаты наблюдений неизвестны, но известна ф: Л = J ... JJ у +У2 n " + 2AJ рЫМуз) г(Уп) dy! dy2 ... dyn. Это первое вероятное значение. Если одновременно известны и искусство наблюдателя, и резуль- таты наблюдений, имеем второе, совсем другое вероятное значение: +^2 + ^(У1)^(у2)... dz f Г(У1)г(У2) • • • р(уп)ф(г) dz В первом случае мы имели дело с п независимыми переменны- ми yi, у2, ... уп, почему и интеграл был порядка п; во втором случае имелась только одна переменная z. Предположим, что вместо того чтобы применить правило среднего и, следовательно, придать z значение Ж1 + Х2 + • • • + Хп п берут другое значение Xj + Х2 + . . + Хп п
Вычисление ошибок, которых следует избегать 217 допущенная ошибка была бы равна У1 + У2 + • • • + Уп , п +е- Тогда при неизвестных результатах наблюдений мы бы нашли в ка- честве вероятного значения квадрата этой ошибки А =j.. УУ +г/2 + "' + гЛ1 + Д pty-^pty^. . чАуп) dy-L dy2 ... dyn, а в качестве вероятного значения того же квадрата при известных ре- зультатах — ПУ1+У2^п"' + Уп +е) р(У1}р(у2)...<p(yn)^(z)dz В = -------------------------------------------------. J ‘Дз/хМУг) • • • Ч>(.Уп)ф(у) dz Величина А достигает минимума при е = 0 всегда, когда функция ср четная. Напротив, для того чтобы В достигало своего минимума при е = О, должен быть верен закон Гаусса. В рассуждениях, которые мы воспроизвели в главе XI, парагра- фах 129 и далее, Гаусс принял первую точку зрения и показал, что правило среднего всегда обосновано. Он принял вторую точку зрения в рассуждениях, которые мы вос- произвели в главе X, параграфах 108 и далее, и показал, что это правило обосновано, только если верен закон Гаусса. 186. Вернемся к нашей задаче и постараемся определить Л. Надо устремить к минимуму выражение (У1 - Ai// - A'/z') . Здесь р и р' — линейные функции от у, итак, к минимуму стре- мится однородный многочлен второй степени по у^, у2, ... , уп- Согласно гипотезе, все веса равны. Пусть т2 — вероятное значе- ние у2, т2 также будет вероятным значением у% и у%. Если бы нам надо было сделать три наблюдения, мы бы не имели права заранее считать, что у\ больше у2 или уз.
218 Глава Ц Вероятное значение У1У2 совпадает с нулем: оно равно произведе- нию вероятных значений yi и у%, а вероятное значение yi равно нулю, т. к. систематических ошибок нет. Это рассуждение верно, т. к. резуль- таты наблюдений неизвестны, и оно не будет верным, если узнать их. Как найти вероятное значение многочлена? Заменяем все квадраты на т2, все двойные произведения — на 0. Если подставить вместо ц и ц' их выражения как функции от у, этот многочлен превратится в (У1 — АхЛхух — АхРхух)2 + ... ; коэффициент при у2 равен (AiЛх + АХВ — I)2; при у2 — (АхЛ2 + АХВ2)2; при у2 — (АХЛ3 + А'ХР3)2. --------------2 Итак, (ух — Ах/т — Ахд') равно А2 + РХАХ — I)2 + (А2А2 + В2А'х)2 + (А3А2 + Р3АХ)2]. Это и есть то выражение, которое должно достигать минимума. 187. Назовем это выражение т2Р: оно представляет собой вероят- ное значение квадрата ошибки (ух — у[)2, существующей после внесения поправки. Приравниваем к 0 две производные: dP _ dP _ п dAx dAx то есть Лх(Л.хА2 + РХАХ — I)2 + Л2(Л2А2 + Р2А'х)2 + Л3(Л3А2 + В3А'Х)2 = 0, и, симметрично, ВХ(ЛХА2 + РХАХ — I)2 + В2(Л2А2 + Р2А'х)2 + Р3(Л3А2 + Р3А'Х)2 = 0. Эта система переписывается как Ах 52 А2 + Ах 5? АВ = Их, Ах ^ЛР + А'Х J2 Р2 = Рх. Она линейна по Ах и Ах.
Вычисление ошибок, которых следует избегать 219 Я добавляю сюда уравнение, задающее у[: Л1/1 + А^д' = у[. Исключая Ai и А'15 получаем £А2 £В2 в' Ai У1 = 0. Отсюда находится у[ и, рассуждая точно также, можно было бы полу- чить у'2 и у'3. 188. Таковы поправки, которые надо внести в результаты наблю- дений, чтобы вероятное значение квадрата ошибки достигало миниму- ма. Эти поправки согласуются с методом наименьших квадратов. Действительно, у{, у2, у3 удовлетворяют уравнениям: 41У1 + А2У2 + Азу'з = /'• Biy[ + В2У2 + В3у3 = ///. Чтобы вычислить все у', надо устремить к минимуму сумму у?'. Итак, 52 yi dyi = °- С другой стороны, 52 Ai dy'i = о, 52 Bi dyi = °- Первое из этих уравнений должно быть следствием двух других; поэ- тому y'i = + е' Bi, откуда е 52 а2+е' 52АВ = /ч и, симметрично, е^2АВ + е'52в2 =^'-
220 Глава Ц Исключаем е и е' из этих трех уравнений: £А2 £В2 y'i Определитель совпадает с предыдущим. Таким образом, результат одинаков, применяется ли метод наи- меньших квадратов или поправка вносится так, чтобы после нее веро- ятное значение квадрата ошибки достигало минимума. 189. Теперь можно спросить, каково это минимальное значение: оно равно минимуму т2Р. Многочлен Р может быть представлен в очень простом виде. Делаем его однородным: Р = (AiAi + -ВХАХ — А")2 + (Д-2-^i + -ВгА^)2 + (Д.3А1 + -В3А1 — А")2 и применяем теорему об однородных функциях; имеем q т> dP \ । dP \ f । dP л и -1 — + ТТ7Л1 + ТТ77Л1- «А, </Aj dX" Но и — нули; А" = 1; остается dAi dXL <ур__ dP ~ </А',' P=^ = ^-AiX1-B1X'1. aAr Его произведение с т2 равно вероятному значению квадрата ошибки, возникающей после поправки. Когда количество наблюдений становится все больше и больше, ве- роятное значение квадрата ошибки убывает. 190. Введем третью величину и третье уравнение связи: С1У1 + С2У2 + СзУз + 647/4 = ц”. Только что мы устремляли к минимуму (yi - Ai// - Ai//')2; (1)
Вычисление ошибок, которых следует избегать 221 теперь — ----------------------2 (У1 - A1/Z - А'1М' - А'/д") . (2) Здесь больше неопределенности, т. к. добавляется А"; минимум выра- жения (2), очевидно, меньше, чем у выражения (1), т. к. достаточно положить А" = 0 в выражении (2), чтобы вернуться к выражению (1). 191. Идем дальше. Пусть у — действительно допущенная ошиб- ка. Если у' — поправка, то у — у' равна ошибке, возникающей после коррекции. Сумма ^2 У2 равна сумме квадратов допущенных ошибок; вероят- 2 ное значение этой суммы равно пт . Ищем вероятное значение суммы квадратов поправок, 52 У2', и ве“ ---------------------------------------------------------------2 роятное значение суммы квадратов ошибок после коррекции, 52 (У~У') • 192. Я замечаю, что у нас y'i = + А*//; то есть у' — линейная функция от обоих //. которые в свою очередь являются линейными функциями от у. Итак, у' — линейная функция от у. Эти функции у' не будут линейно независимы, т. к. их можно ли- нейно выразить через любые две из них — в нашем случае, а вообще — как функцию от стольких из них, сколько есть величин //. т. е. от п — — р штук, т. к. различных р будет столько же, сколько есть уравнений связи. Рассмотрим yi — у'р это тоже линейные функции от у, но тоже не линейно независимые; они связаны условиями Q/1 - yi) + А2(у2 - У2) + Л(Уз - Уз) = О, Bi(yi - у[) + В2(у2 - у2) + В3(у3 - у'3) = 0. У нас есть два линейных соотношения, а вообще их р. Итак, все у' выражаются линейно через п—р из них, а все у— у' — через р из них. 193. Я заявляю, что точно так же 52 ы = 52^2-
222 Глава Ц Действительно, y'i2 = еА + s'Bi, 52 Viy'i = £ 52 A,yi + e' 52 BiVi =e^ + e'p', 52 = £ 52 Aiy'i +e' 52 Biyi = £м+£,m'- Выполняется и другое тождество: 52 у2 = 52 у'2+ 52^“ у')2- Действительно, раскладывая 52(у — у')2, получим 52у2 = 52у'2 + 52у2 -2 52уу' + 52у'2 > что будет верно, т. к. в силу предыдущего тождества 52 у'2 “2 52уу> + 52 у'2 = °- 194. Ищем вероятное значение 52 У/2- Это квадратичная форма по у. Умножаем на т2 сумму коэффициентов, стоящих при квадратах, или иначе говоря, рассматриваем уравнение на S. Пусть F и F' — две квадратичные формы по п переменным; ес- ли S — константа, то F-SF' снова будет квадратичной по п переменным. Написав, что дискриминант равен нулю, получают уравнение по- рядка п, т. е. уравнение для S. Это уравнение имеет свойство не меняться при линейной замене переменных: оно инвариантно. Предположим теперь, что мы намерены вычислить вероятное зна- чение для квадратичной формы F; я беру F' = 52 У2 • Пишем, что дис- криминант от равен нулю. Сумма корней этого уравнения равна сумме коэффициентов при квадратах.
Вычисление ошибок, которых следует избегать 223 Пусть F = + А'у2 + А"Уз + 2-В?/2Уз + ЗВ'узУ! + 2B//yi?/2- Дискриминант равен А - S В” В' В" A' -S В В' В A” -S = О или -S3 + (А + А' + A")S2 + ... = О. Итак, сумма корней равна А+А' + А"; с другой стороны, если вероятное значение у2 равно т2, а для уру? оно равно 0, то вероятное значение F будет т2(А + А' + А"). Иначе говоря, следует составить форму F — S^y2, взять сумму корней уравнения на S и умножить ее на т2. 195. Применим это правило к квадратичной форме у2. Пусть форма ф = Е^'2-5Еу2 или, согласно параграфу 193, Ф = (1-5)£у'2 -S^y-y'Y- Составляем уравнение на S и ищем сумму корней. Величины у' линейно выражаются через п — р из них; У'2 рас- кладываются таким образом на сумму п — р квадратов, и если £ — линейные функции от у, то Е^'2 = й+ e22 + --- + eLP- Все у — у! выражаются через р из них, и если у — линейные функции от у, то Е(2/_2/')2 =??1 +??2 + .-. + Г]р- Полученные таким образом п линейных функций будут линейно неза- висимы. Действительно, заметим, что
224 Глава Ц Левая часть — сумма п квадратов 2 2 2 У1, У2, ••• Уп- дискриминант левой части равен 1. Правая часть не может иметь дис- криминантом 0. Итак, ф = (1-5)£с2-5£??2. Дискриминант равен (S' - 1)и-₽ • Sp = 0; п — р корней равны 1, р корней равны 0, сумма корней равна п — р. Вероятное значение 5Z У2 равно пт2-, по изложенному выше прави- лу вероятное значение у' будет равно 52 У'2 = (п-р)т2. Итак, ^{у-у')2 =рт2, то есть эта сумма равна разности двух других. В итоге: 1° вероятное значение суммы квадратов допущенных ошибок рав- о но пт , 2° вероятное значение суммы квадратов внесенных поправок рав- но (п — р)т2; 3° вероятное значение суммы квадратов ошибок после коррекции 9 равно рт . - 2 196. Вероятное значение меньше, чем вероятное значе- ние £у2. Это легко было предвидеть. Мы пытаемся определить поправки так, чтобы сумма их квадратов была минимальна: принцип тот же, что и в методе наименьших квадратов. Сейчас мы покажем, что если рассматривать ошибку, допущенную при наблюдении, то по мере увеличения числа наблюдений она стре- мится к нулю. Предположим, что число наблюдений постоянно растет; число р « 9 остается константой, как и рт, число слагаемых увеличивается; воз- можно, каждое из них постоянно убывает.
Вычисление ошибок, которых следует избегать 225 Если мы рассмотрим наименьшую из величин (у* — у'к)2, то она , « I""2 обязательно будет меньше, чем • Наблюдаем одну и ту же величину п раз; есть единственная неза- висимая переменная: р = 1, 52 (У - У')2 = гп2. У нас п слагаемых, п наблюдений сделаны в одинаковых условиях; итак, ________________________________ о <у-у,У2 = уг- 197. До сих пор мы предполагали, что известна точность наблю- дений, но сами они еще не проведены. Поставим задачу по-другому: о точности ничего не известно, но наблюдения уже проведены. Мы хотим вывести значение h или т2. Вот решение этой зада- чи. Все у известны; все у' найдены по методу наименьших квадратов. Сумма 52 У'2 известна. Я приравниваю значение этой суммы к вероятному значению, вы- численному a priori: Е,2 , \ 2 У = (п — р)т , О откуда нахожу т . 198. Ж. Бертран критиковал этот метод. Действительно, если бы мы использовали другое выражение, например, X у , то найденное зна- чение т не было бы тем же самым. Метод может показаться сомнитель- ным. Эта задача — задача на условные вероятности; применим соответ- ствующие правила вычислений. Требуется найти апостериорную вероятность того, что h лежит в определенных пределах. Эта вероятность равна Pi^i 'EPi^i' Здесь Wj — априорная вероятность причины, т. е. того, что h лежит между h и h + dh; pt — вероятность, с которой, если причина действо- вала, наблюдения дали результаты, заключенные между ./д и Xi + dxi, Х2 и Х2 + dx2, ... , хп и хп + dxn соответственно.
226 Глава Ц Ищем вероятное значение f(h) — какой-то функции от h; это ве- роятное значение равно ж = £ fWptUj 'EPi^i Замечаем, что результат будет зависеть от априорной вероятности; тог- да результат Гаусса уже не может быть совершенно точным. Если я определяю h из соотношения Ж = Ж то вероятное значение h будет зависеть от функции f. Если я ищу наиболее вероятное значение, происходит то же самое. Эту сложность можно обойти при одном условии: п должно быть очень велико. Множитель л; больше не будет оказывать большого вли- яния; так, для f(h) = /г" все методы приводят к одному результату, если число наблюдений п всегда очень велико. 199. Когда наблюдают какую-то величину z, и наблюдения дают результаты жх, жг, ... , хп, можно представить й, и /л, как z) dh dz, Pi = П dxi dx2 dxn. Апостериорная вероятность того, что h лежит между h и h + dh, az — между z и z + dz, равна z) dh dz dxi dx2 dxn f Htp(h, z) dh dz dxi dx2 dxn Дифференциалы dx± dx2 ... dxn сокращаются, а интеграл надо взять no h от 0 до +оо и по z от —оо до +ос. Представим, что вместо одной величины z их п: z\, Z2, ••• , zn, — и они зависят от р переменных «х, U2, ... , ир, а наблюдаемые значения этих z равны Жх, Жг, ... , жп; допущенные ошибки равны у±, 1/2, ... , уп-
Вычисление ошибок, которых следует избегать 227 Величина равна априорной вероятности причины; здесь это озна- чает, что h лежит между h и h + dh, tti лежит между Ui и Ui + dui, «2 — между «2 и и2 + du2', , uji = ф(Ъ,, ui, U2, ... , up) dh dui du2... dup. Величина pi — вероятность следствия в предположении, что действо- вала данная причина, Pi = П dxi dx2 dxn, где П= ^е~к^У2. Апостериорная вероятность равна ui, U2, ... , ир) dh dui du2 dup dx± dx2 dxn j Ity(h, ui, U2, ... , Up) dh dui du2... dup dxi dx2 .. dxn Интеграл берется no h от 0 до +оо, по всем и от —оо до +оо; что касается дифференциалов от х, они сокращаются, как и раньше. Итак, найденная вероятность записывается в виде dh dut du2 dup j dh dui du2 ... dup 200. Она зависит от функции ф. Эта функция совершенно произ- вольна и соответствует представлению, которое мы составляем a priori о значениях и, и точности, которую мы a priori приписываем наблюде- ниям; но ф не играет большой роли, если наблюдений много. Я хочу придать функции ф особый вид, предположив, что она не зависит от h. Эту точку зрения можно оправдать, говоря, что измерения дали всем и значения, очень близкие друг к другу; что они лежат на малом интервале, где z изменяется очень мало, если наблюдения согласованы. Вероятное значение h1' будет равно — J* ПфЬ" dh dui du2 dup hv — 7 • J Ilt/j dh dui du2 ... dup Эти два интеграла должны вычисляться так же: h меняется от О до +оо, а все и от —оо до +оо.
228 Глава Ц 201. Что такое 52 у2? Это функция от Xi, которые известны, и от Zi, которые зависят от и. По методу наименьших квадратов получают значение которое надо взять вместо ир, определенные таким образом величины и не точ- ны, но наиболее приемлемы, Ui = U° + Vi, где Vi очень мало. Все yi — функции от Vi, и их можно считать линейными, если пренебречь членами второго порядка. Многочлен Еу2=р имеет вторую степень по но он не однороден; он достигает миниму- ма, когда все Vi — нули. Уравнения F = o dvi ДОЛЖНЫ ВЫПОЛНЯТЬСЯ при нулевых Vi- Итак, Р включает члены только второго и нулевого порядка; чле- нов первого порядка нет. Р = Р0+Р2. Тогда Pq — минимум 52 У2, то- что мы назвали 52 У'2 > чье вероятное значение равно (п — р)т2. Таким образом, Ро очень велико, и вероят- ность того, что Pq велико, тем больше, чем больше произведено наблю- дений. Ро = (п—р)А, где А — некоторая константа. Многочлен Р2 получается при сложении друг с другом членов вто- рого порядка; их количество очень велико, оно равно п, и коэффициен- ты многочлена Рг имеют тот же порядок, что и п. Р-2 = (n—p)Q, где Q имеет один порядок с А.
Вычисление ошибок, которых следует избегать 229 Вероятное значение hv будет равно I v-h1' (| ) 2 е~к(п-р^А+^ dh dvr dv2... dvp fry—_____; У ф (^y e~h(n-p^A+Q)dh dV1 dv2... dvp интегрирование проводится no h от 0 до +оо и по всем v от —оо до +оо. 202. Первый интеграл связан с e-/i(n-p)A которое зависит от h, и с e~h(n-p)Q которое зависит от v. Внизу и вверху надо сосчитать Здесь Q — однородный многочлен второй степени от v; я полагаю = VjVh. Выражение hQ становится однородным многочленом второго порядка по со, который мы обозначим Q'. Интеграл превращается в У e~h<Jl~p')C* dco^ dco2 ... dcoph~2. Пределы интегрирования остаются прежними, и значение интеграла равно Bh~%, где В не зависит от h. Тогда J dh ^hvTr-Th^e-hA(n-P>B h" = --------------------- / dh^ir-^h^e-^^-^B о
230 Глава Ц или J ^h^e-b^-P^dh hr = -----------------• J* e-/i>l(n-p)dh О Я обозначу Ф = Vhe~hA, °f ^H'QP-Pdh ----------> J №n~Pdh о и формула будет зависеть от ф. 203. Если бы мы хотели решать задачу дальше, следовало бы ввести какую-нибудь гипотезу относительно ф. Однако, если предпо- ложить п — р очень большим, то вид функции ф не имеет значения. Когда есть / F$ndh fF^dh’ и п бесконечно растет, предел этого отношения равен F(ho) рфноу где ho — значение, при котором Ф достигает максимума. Итак, в нашем случае имеем ФЫ ’ то есть hr=h", где ho — значение, на котором Ф достигает максимума. При условии очень большого п вероятное значение hv больше не зависит от ф; вероятное значение h всегда равно ho, какой бы ни была ф. Это не будет верно, если не предполагать п очень большим.
Вычисление ошибок, которых следует избегать 231 Более того, п должно быть очень велико не только по абсолютной величине, но и по отношению к р, с одной стороны, и к р, с другой стороны. Так, если бы то надо было бы искать максимум не Ф, а ФЛ.2. 204. Если бы п было не очень велико, нам бы пришлось искать максимум ффп~р откуда если п велико, значение h очень близко к тому, на котором достигается максимум Ф(Н). Имеем п — р , _ 1 h° 2А ^у'2' так как 52 у'2 = этот результат сочетается с законом Гаусса, 52 У'2 = (п-р}т\ Вероятное значение квадрата ошибки 1 2/го’ откуда п — р 2 ho следовательно, п — р ho — ^у'2
232 Глава Ц и совпадает с предыдущим. Не следует придавать большое значение тому, что вместо п рас- п — р , 1 сматривалось п — р, т. к. п очень велико и —близко к 1. Итак, это правило обосновано, если число наблюдений очень ве- лико.
Глава 15 Теория интерполяции 205. Я хочу применить метод наименьших квадратов к новой задаче: поиску неизвестной функции /(ж). Мы измеряем некоторые значения этой функции. /(ai) = Ai, /(аг) = / (вп) — Ап. Строим кривую У = f(x); нам известны несколько ее точек. Через эти точки М±, М2, , Мп всегда можно провести некото- рую кривую, но такое решение не было бы наилучшим: нам надо про- вести кривую близко к этим точкам, но при этом как можно более гладко. Другой способ, так же как и геометрический, имеет определенную степень произвола: я хочу, чтобы моя кривая была как можно меньшей степени q, /(ж) = Со + Схж + ... + Cqx9; где q меньше, чем п — 1, т. к. если бы q было в точности равно п — 1, то функция бы полностью удовлетворяла всем условиям задачи. Какое значение приписать q‘! Это значение произвольно. Сначала его выбирают довольно малым, потом, если этого недостаточно, вводят еще одно слагаемое в правую часть и так далее. 206. Оставим в стороне этот метод проб и ошибок и считаем q выбранным. Мы определим коэффициенты многочлена так, чтобы £[Ж)-а]2
234 Глава 15 была минимальна. Функция /(ж) линейна по коэффициентам С. Я по- ложу F(x) = (ж — ях)(ж — аг) • • • (ж — ап). Наша задача связана с разложением в непрерывную дробь отношения F'(x) F(x) ’ Это разложение производится так, словно мы ищем наибольший общий делитель F и F'. Получаем последовательно F = QiF' + Ri, F' = Q2R1 + Й2, Ri = Q3R2 + Rsi Rn-з — Qn — lRn—2 4“ Rn-1, Rn—2 — QnRn — 1’ В последнем уравнении нет члена Rn, т. к. Rn = 0. В общем случае F имеет степень п, F' — степень п — 1, Ri — степень п — 2, Rp — степень п — р — 1, Rn-i — степень 0, и все Q — степень 1. Имеем F' F 1 Ri 1 Rn—2 _ 1 Rn-з Rn-i ’ Rn-2 Rn-i__ 1 Rn—2 Qn
Теория интерполяции 235 Итак, F' _ 1 207. Мы должны рассмотреть последовательные остатки, возни- кающие в этом разложении. Так как F-QrF' = Ru вместо F' - Q2Ri = Я2 я могу написать -Q2F + F\1 + Q1Q2)=R2. Если я полагаю 2Vi = 1, Di = Qi, я получу MF-DiF' = Я1. Если я полагаю N2 = — Q2, D2 = —(1 + QiQ2)5 я получу N2F - D2F' = R2. Теперь выразим точно так же произвольный остаток: NiF-DiF’^, Ni+iF — D{+iF' = Ri+i. Так как Ri = Qi+2^j_|-i + -Rj+2, Ri+2 = (NiF - DiF’) - Qi+2(Ni+1F - Di+1F'),
236 Глава 15 если я положу М+2 = М — Qi+2-M+l, Di+2 = — Qi+2D{+i, я получаю Ri+2 = M+2-F1 — Di+2F'. Из этих рекуррентных соотношений устанавливаем, что Ri, R2, . •. и Rn-2 имеют степени п — 2, п — 3, ... и 1 соответственно, a Rn-i равен кон- станте. Многочлен М имеет степень 0, М — степень 1, ... , М — степень i — 1. Легко видеть, что если это предположение верно для М и М+1, то оно верно и для М+2- Многочлен Dj имеет степень г. 208. Теперь я заявляю, что Ni и Di — это числитель и знаме- натель дроби порядка г. Рекуррентные соотношения делают этот факт очевидным; но заметить его можно и иначе. Я пишу последовательно: F = Q1F' + R1, F' = Q2R1 + Я2, Ri — 2 — QiRi-1 T Ri.' откуда я вывожу F' _ 1 Еще я могу записать следующее уравнение: NiF - DiF' =
Теория интерполяции 237 Предположим, нам хочется вычислить дробь Мне надо только сделать Я, = 0 в предыдущем равенстве, а также положить F = /3i, F' = оц, Pi = Qlai + R'l? = QiR'x + R'i^ все R превратились в R'. Так же вводим R' в рекуррентные соотноше- ния = Q3R2 + R3, Ri-2 — QiRi-1', здесь Ri равно нулю, Nj и Di те же, что и выше, NiPi — Didi = О, di _ Ni Pi DP Итак, — это г-я дробь. Какое отношение имеет эта дробь к предло- женной задаче? 209. Фундаментальное уравнение имеет вид: NiF - DiF' = Ri. Обратим внимание на степень всех многочленов. Вспоминаем, что Ni имеет степень г — 1; F — степень п: О, — степень г; F' — степень п — 1; Ri — степень п — 1 — i. Из фундаментального уравнения я вывожу, что DiF’ IP F 1 F'
238 Глава 15 Я умножаю обе части на жм: x>lDiF' - N.Ti> _ x>iRi р ~ 1 F ' Я собираюсь оценивать сумму вычетов справа и слева; замечаем сна- чала, что для этих вычислений нам надо принимать в расчет только две дроби, где F входит в знаменатель. Затем предположим, что в некоторой дробно-рациональной функ- ции степень числителя на единицу меньше, чем у знаменателя, напри- мер, Л"жи-1 + В"хп~2 + .... А'хп + В'жи-1 + ... ’ тогда эта дробь раскладывается в Е —+ Ег~^ + --- Если я умножу все на х, то при неограниченно растущем х сумма Е — х — а будет стремиться к Л, или сумме вычетов, а другие ^3 (то есть те, где х — а входит в знаменатель в степени большей, чем 1) обнуляются. Но X Р lim —— = 0 при х = оо, С/ если степень хР будет меньше, чем степень Q. Итак, сумма вычетов будет нулевой, если степень числителя меньше степени знаменателя больше, чем на единицу. Рассмотрим x^Rt F ’ знаменатель имеет степень п, числитель — степень п — 1 — г + ц. Если п — 1 — i + /1 < п — 1, то есть // < i, то сумма вычетов равна нулю. Таким образом, при ц, равном 0, 1, ..., i — 1 сумма вычетов равна нулю.
Теория интерполяции 239 210. Когда есть рациональная дробь у которой Q не имеет кратных корней и обращается в нуль при х = а, вычет при х = а равен Р(а) Возьмем в качестве а одно из значений, по которым мы вычисля- ем /(ж); вычет выражения x^DiF' F в точке а будет равен а"£>г(а)Г'(а) F'(a) или a^Di^a). Так, если только ц меньше г, то = 0, суммирование ведется по всем значениям а, 5 ^2 •)••••) Отсюда следует, что если Р — какой-то многочлен порядка i — 1, то '^Pi-1(a)Di(a) = 0. Возьмем Pi-i = Dk-, тогда ^Dk(a)Di(a) = 0. Это уравнение выполняется всегда, как только к меньше г. Но так как эти два индекса ничем не отличаются, данное уравнение будет также выполняться всякий раз, когда к отлично от i. Аналогичное свойство имеют многочлены Лежандра^19); для любых двух из них, ри, имеем +1 Vmvn dT = 0. -i
240 Глава 15 211. Мы хотим получить многочлен порядка q, меньшего, чем п — — 1, чьи коэффициенты были бы выбраны так, чтобы £[Л-Ж)]2 была минимальна. Если /(ж) — многочлен порядка q, его всегда можно записать в /(ж) = Со + C1D1 (ж) + С2Л2(ж) + ... + CqDq(x). Надо определить коэффициенты С так, чтобы достигала минимума сумма квадратов Е(Л - Со - СхЛх - С,/9, - ... - CqDq)\ 212. Раскладываем эту сумму. В первой строке мы запишем квадраты слагаемых: Е А2 + пС% + С? Е + С22 Е + • •• + Ся ЕDr Во второй строке запишем сумму удвоенных произведений: -2с0 Е А - 2С,1 Е ADi - • • • -2С- Е AD^ где ADi = AiDq(ai) + ... + AnDq(an). В третьей строке запишем сумму следующих членов 2СШ Е Di + 2CiC^ И DiDk* Но E-°i(«) = 0, Е DiDk = 0. Остаются первая и вторая строки. Кроме того, я могу сократить запись, полагая 1 = D0(x). Сумма, стремящаяся к минимуму, превращается в Ел2 + Е6'2Е/;2-2Е^Ел^-
Теория интерполяции 241 Я дифференцирую по С{ и делю на 2; приравняв к нулю производную по Ci, получаю С’ЕЛ«2 = ЕЛЛ’’ откуда находим следующее выражение для С;: р _ Е 1 ЕЛ2 ’ то есть _ AiDi(ai) + Аг-РДаг) + • + AnDi(an) (а1) + (аг) + • • • + Р$ (яп) Аналогия с другой задачей из анализа очевидна. Когда функция /(ж) хотят разложить в ряд по многочленам Ле- жандра, приходят к сумме /(ж) = 52 CiXi, где J f(x)Xi dx -1 /Х^ж -1 У нас соотношение того же рода, только вместо интегралов появляются суммы. 213. В чем преимущество многочленов Р? Допустим, кто-то попытался сначала представить результаты наблюдений с помощью многочлена степени q и нашел констан- ты Со, Ci, ... , Сд. Затем оказывается, что сумма квадратов допу- щенных ошибок недопустимая: тогда приходится продолжать реше- ние с многочленом степени q + 1. При обычных способах решения все надо начинать сначала; здесь, наоборот, надо только добавить член С9+1Р9+1(ж): предыдущие коэффициенты Со, С±, ... ,Cq не ме- няются, как можно видеть из выражения Ci-
242 Глава 15 214. Подобная задача возникает и тогда, когда просто хотят ин- терполировать функцию: почему в качестве решения обычно берется многочлен (п — 1)-го порядка? Пусть функция /(ж) голоморфна внутренности какого-то конту- ра, например, кругу. Значения, которые мы придаем переменным, очень малы по сравнению с радиусом круга. Когда переменная рав- на ai, аг, • • • , <1п, значение функции остается известным. Надо узнать значение функции для какой-то величины х внутри круга. Интеграл Г__________f(z)dz_______ J (z - x)(z - ax)(z - a2)... (z - an)’ взятый вдоль окружности, обращается в нуль. С другой стороны, ин- теграл J = 1 /________dz____________ ‘li-к J (z — x)(z — ai)(z — a2).. .(z — an) равен сумме вычетов функции f(z) в полюсах х, а±, а2, , ап, т.е. /(ж)+7(«1)+ (ж - Я1)(ж - а2)... (ж - ап) (ai - ж)(а1 - а2)... (ах - ап) Вообще, я назову pi многочлен, который получается, если убрать из (z — ж)(г — ax)(z — а2)... (z — ап) множитель z — Ui и заменить z на и,;. Я полагаю также F(x) = (ж — ах)(ж — а2)... (ж — ап). Тогда Т = /(ж) /(ах) /(аг) /(а») Г(ж) + Pl + Р2 + + рп откуда /(ж) = - > . —Pl— + JF(X)-
Теория интерполяции 243 215. Такова общая формула при интерполяции; справа участвуют 1° многочлен; 2° допущенная ошибка. Эта ошибка равна JF _ 1 Г f(x)dz X - tt! х — а2 х — ап 2гтг J z — х z — а± z — а2 ''' z — ап' Если R обозначает радиус сходимости, а х настолько близко к а±, что то каждый из множителей -—— меньше, чем i и под знаком f стоят п z — ai 2 J таких множителей. Итак, при очень больших п значение JF очень мало. Если бы радиус сходимости принимал какое-то определенное зна- чение только с некоторой вероятностью, мы бы имели вероятностную задачу. 216. Я предполагаю, что a priori известно, что функция /(ж) рас- кладывается в ряд в какой-то определенной области по возрастанию степеней х: f(x) = Ао + Aj_x + ... Мы ничего не знаем о коэффициентах А, кроме того, что вероятность, с которой один из них, Ai, находится в определенных пределах, у и y + dy, равна После п наблюдений мы знаем, что /(«1) = /(а2) = В2, f(an) = Вп. Мы ищем вероятное значение /(ж) при другом ж. Это тоже интерполяционная задача, с той разницей, что здесь ищется предельный многочлен.
244 Глава 15 Я спешу добавить, что рассматриваю этот вопрос как простое вы- числительное упражнение, т. к. я произвольно ввел закон Гаусса; иначе задача осталась бы неопределенной. 217. Мы должны найти бесконечное число коэффициентов А на- шей функции с помощью п наблюдений; здесь неизвестных больше, чем наблюдений, и мы можем руководствоваться лишь мыслью, что веро- ятностный закон задан a priori. Так мы подходим к еще большим обобщениям, чем те, что мы де- лали до сих пор, потому что теперь нам надо определить неизвестную функцию. Сначала я возьму только конечное число коэффициентов. 218. Вообще, пусть есть конечное число неизвестных, •> ^2 5 • * • 5 где р известно. Я предполагаю, что вероятность, с которой щ лежит между и и и + du, представляется законом Гаусса: ^e~hiU'2du. Вероятность того, что одно из и уклоняется от нуля, будет тем меньше, чем больше h. Мы знаем значения определенных функций от и, Xi, Х2, ... , Хп, причем наблюдения считаются совершенно точными. Величина п меньше р, неизвестных больше, чем наблюдений. Я предполагаю, что х — линейные функции от щ так же как в предыдущем примере все В были линейными функциями от А, и мы имели Вк = + AiUk + ... Тогда я полагаю y=Ckui + Ски2 + ... + C^Up. Наблюдения сообщили нам, что ук лежат между хк и ж/. + dxk. Найти и означает решить задачу на условные вероятности. Причиной будет тот
Теория интерполяции 245 факт, что все и лежат в определенных пределах; наблюдаемые следст- вия — это то, что все х лежат в определенных пределах. Здесь формула Pi^i Y,Pi^i будет упрощена. 219. Если значения всех и определены, то значения линейных функций хк тоже будут определены, и вероятность этих значений будет вероятностью достоверного события; в зависимости от того, попадают эти функции в пределы, заданные наблюдением, или нет, вероятность равна 1 или 0. Тогда формула апостериорной вероятности упрощается До E^i’ если заменить /л, на вероятность следствия при условии, что действует данная причина. Сумма E^i состоит из всех вероятностей, относящихся к значе- ниям и, согласующимся с наблюдениями; — априорная вероятность того, что различные величины и лежат в определенных пределах. При этом к-е неизвестное лежит между и,, и wj. + duk с вероятностью ^e~h^duk-, a Qi состоит из р аналогичных множителей: U>i = J 1 2'" Р e-(h^+h^ + ...+hpul)dui d d у 7ГР Р для краткости я буду писать Qi = П du± du2 ... dupy откуда Qi = У П dui du2 ... dup. Интегрировать надо по всем значениям и, согласующимся с наблюде- ниями, т. е. удовлетворяющим неравенствам xji < CfcUi -h CfaU2 + • • • + CfaUp Xfo + dxh.
246 Глава 15 Искомой вероятностью будет П dui du2 dup 52 f П dui du2 dup ’ когда все и удовлетворяют неравенствам, написанным выше. Иначе ве- роятность будет равна 0. 220. Если я ищу вероятное значение какой-то функции F от и, то — j РП dui du2 dup J П dwi du2 ... dup Преобразуем эти два интеграла. Имеем r-h < Ун < -тд + dx,h. Я хочу взять в качестве неизвестных yi, г/2, ... , уп и добавить р — п со- вершенно произвольных линейных функций от и, Zi, Z2, ... , zp-n. Вы- ражение П dui du2 dup превратится в ПЛ dyi dy2 ... dyp dzi dz2 dzp-n. Здесь A — функциональный определитель и по у и z; так как это ли- нейные функции, Д — константа. Получается — _ / f’n dyi dy2 • • • dyp dz! dz2 dzp-n J П dyi dy2 ... dyp dzi dz2 dzp-n Сначала мы должны интегрировать по у, например, yi будет меняться от Xi до Xi + dxi, т.е. очень мало; функция под знаком j останется практически константой, и можно будет записать, что _ dxi dx2 dxn j РП dzi dz2 dzp-n dxi dx2 dxn f П dzi dz2 dzp-n Дифференциалы от x исчезнут. И РП, и П — функции от z, и мы ин- тегрируем по z от —оо до +оо. Это произведение постоянного множителя на экспоненту — (h 114^-1-/12^2 + . ..+hpu^). показатель здесь — многочлен Р второго порядка, неоднородный по z.
Теория интерполяции 247 221. Считаем F линейной функцией от z. Ищем вероятное зна- чение F. Вероятные значения различных величин z получают, найдя те Zi, на которых достигается минимум показателя F; пусть zf — зна- чение Zi, при котором Р минимально. Тогда Р = Р2+Р0, где Pg — константа, а Р2 — однородный многочлен второй степени от разностей zi — z®. Интеграл У (zi - Zi )e~pdz1 dz2 ... dzp-n имеет подынтегральную функцию, нечетную по Z( — интегрируя от —оо до +оо, получаем, что значение этого интеграла равно нулю. Отсюда выводим, что если при замене Z( на z® функция F равна Fo, то У(F - F0')e~pdz1 dz2... dzp-n, взятый от —оо до -Too, равен нулю. Так же J\f - Го)П dz1 dz2 ... dzp-n = 0; а, следовательно, У Fn dzi dz2 ... dzp-n = Fo J П dz± dz2 ... dzp-n, то есть F = F0. Таким образом, вероятное значение F получается при замене Zi на зна- чения, доставляющие минимум многочлену Р. 222. Применим эти принципы к задаче, поставленной в парагра- фе 216. В случае с /(ж) наши неизвестные и равны А, и мы имеем Р = h0Ag + hiA^ -Т ... + hi А- + ... Надо найти минимум этого многочлена.
248 Глава 15 Надо сказать, что значения А произвольны, исключение составля- ют линейные соотношения, взятые из наблюдений f(ah) = Bh. Пишем, что Р минимально. Приращение dP должно равняться нулю, когда Ai возрастают на <7/1,: dP = ho /Io dAg 4- ... 4- h/А/ dA; 4-... = 0. Приращения dA(t. ... , dAj, ... связаны соотношением df(ak) = 0. Между тем /(ai), например, равно /(ai) — -Ао + Aiai + ... + А;а[ + ... Итак, dAg -|- ai dAi 4~... 4~ dAt 4-... — 0, dA0 4~ 0,2 dAi 4~... 4~ dA., 4-... — 0, dA0 -J- on dAt -J-... 4“ o^ dA$ 4- • • • — 0. 223. Чтобы P было минимально, первое уравнение, dP = 0, должно выполняться, какими бы ни были dA-, это первое уравнение должно быть следствием других п соотношений между dA. Пусть выбраны подходящие коэффициенты Ei, е2, ••• на кото- рые мы умножаем соответственно обе части каждого из этих п соот- ношений, hiAf = Eia| 4- £20.2 4- ••• 4- £по?п, i (ЖЯ1)1 (жа2)’ , , (хап)1 А{х =£1^—А- +£2^—L + ... + e„v . Щ ГЦ ibi Если я полагаю
Теория интерполяции 249 то коэффициент при в Дж) = будет равен <p(xai), и т. д. Окончательно получается /(ж) = £1у>(жах) + €2т(.ха2) + ... + еп<р(хап). Мы располагаем коэффициенты е так, чтобы удовлетворять наблюде- ниям, откуда и возникали п уравнений с п неизвестными. 224. Вид /(ж) зависит от h. Чтобы ряд, представляющий у>(ж), был сходящимся, надо, чтобы коэффициенты h возрастали с достаточной скоростью. Если имеем |ж| < р и \ah\ < р, то есть |жа/г| < р2, то ряд будет сходящимся, когда hi > р2г. В общем можно сказать, что вероятность, с которой последние ко- эффициенты при hi уклоняются от нуля, становится все меньше. Доста- точно предположить, что начиная с n-го слагаемого все h бесконечны. Тогда в <р(х) крайние члены с hn, hn+±... обнуляются, и у>(ж) будет многочленом порядка п.
Глава 16 Различные вопросы 225. Тасование карт. Во введении я занимался задачами, свя- занными с игроком, тасующим колоду карт. Почему, когда колода та- суется достаточно долго, мы допускаем, что все перестановки карт, т. е. все порядки, в которых могут располагаться карты, должны быть равновероятны? Этим вопросом мы займемся прямо сейчас. Пусть q — количество карт; пусть Si — какая-то перестановка, т. е. операция, переводящая на место а карту, которая до перестанов- ки занимала место /3; тогда а — определенная функция от /3. Полное число всех возможных перестановок равно q\ Найдется какой-то по- рядок карт, который мы будем считать нормальным и обозначим So; мы будем называть Si порядок, в котором располагаются карты, ес- ли, имев изначально нормальный порядок, они подвергались переста- новке Si- Таким образом, So представляет собой нормальный порядок и, одновременно, тождественную перестановку, которая не изменяет порядок карт. Если это установлено, то две последовательные переста- новки Si и Sj будут эквивалентны единственной перестановке Sk, что выражается соотношением SiSj = Sk. (1) Множество перестановок образует группу, когда произведение двух произвольных перестановок из этого множества вновь принад- лежит этому множеству. Итак, пусть So, Sx, ... , Sr - различные перестановки из группы G и соответствующие порядки карт. Допустим, мы знаем, что порядок карт в нашей колоде принадле- жит группе G, и различные перестановки из группы G имеют вероят- ности Ро, Р1, • • • 5 Рг
Различные вопросы 251 соответственно, такие, что Ро +Р1 + • • • +Рг = 1- Символически мы можем представить этот вероятностный закон с по- мощью гиперкомплексного числа. Известно, что можно задать гипер- комплексные числа в виде X = XqCq -|- Ж1С1 -|- . . . -|- ХГСГ, где все х — обычные величины, а все е — базисные единицы. Операции над этими гиперкомплексными числами проводятся по обычным прави- лам с той разницей, что умножение, которое остается дистрибутивным и ассоциативным, может не быть коммутативным. Вводя правила умножения, т. е. определяя произведение ejej двух произвольных базисных единиц, получают систему гиперкомплексных чисел. Мы определили гиперкомплексную систему, соответствующую на- шей G': каждой перестановке Si из этой группы мы сопоставим базис- ную единицу ер, и если верно уравнение (1): S±Sj = Sk, то мы догова- риваемся, что произведение ejej равно е/.. Это правило допустимо, т. к. операция ассоциативна. Итак, мы сможем символически представить рассмотренный ве- роятностный закон гиперкомплексным числом р = Роео + Р161 + ... + ргег. 226. У игрока, тасующего карты, есть какие-то привычки, так что при каждом движении он подвергает карты перестановке Si с ве- роятностью pi. Этот вероятностный закон, который нам, вообще гово- ря, неизвестен, символически представляется числом Р = ^р^ер Если тасование начинается с нормального порядка, то вероятность того, что после перестановки получится порядок Si, равна pi, так что вероят- ностный закон для различных порядков по-прежнему представляется символически с помощью Р. Если вместо нормального порядка Sq мы начнем с какого-то порядка Sj, то вероятностный закон будет представ- ляться как SjP. Если до перестановки вероятностный закон представ- лялся комплексным числом Q, то после перестановки он станет QP. Итак, если мы начинаем с нормального порядка и делаем п перестано- вок, то в конце вероятностный закон будет представляться гиперкомп- лексным числом Рп.
252 Глава 16 Мы хотим показать, что если п очень велико, то практически будет выполняться равенство Рп = г । (ео + ex + ... + ег), то есть все возможные порядки будут равновероятны. И этот результат не зависит от Р, т. е. от неизвестного закона, неизвестных привычек игрока. 227. Г. Картан ввел в теорию гиперкомплексных чисел понятие характеристического уравнения. Пусть А — данное гиперкомплексное число, X — неизвестное гиперкомплексное число, w — неизвестное обычное число; рассмотрим уравнение АХ = ыХ. (2) Обе его части — гиперкомплексные числа, и, приравнивая коэффици- енты при eg, ex, ... , ег, получаем г + 1 уравнение для г + 1 коэффи- циента Xi неизвестного гиперкомплексного числа Х\ с одной стороны, эти уравнения линейны по Х(, с другой стороны, по ш и г + 1 коэффи- циенту сц числа А. Итак, у нас г + 1 линейное уравнение с г + 1 неиз- вестным Xi- Пишем, что определитель Д этих уравнений равен нулю; получим алгебраическое уравнение (г + 1)-го порядка, которое опреде- ляет ш. По теореме о линейных подстановках каждому простому корню этого уравнения Д = 0 соответствует одно гиперкомплексное число X, удовлетворяющее (2). Двойному корню соответствуют два гиперкомп- лексных числа X и Xi такие, что АХ = шХ, AXi = wXi + siX. (2') Тройному корню — три числа Xi, Х2, Х3 такие, что АХ = соХ, АХ, = шХ± + siX, АХ2 = шХ2 + s2Xi (2") и так далее; все е — обычные постоянные числа, которые можно счи- тать равными 0 или 1. Замечаем, что если Si = е2 = 0, то А(АХ + AiXi + А2Х2) — w(AX + А1Х1 + А2Х2), каковы бы ни были константы A, Ai, А2 (можно условиться, что это обычные числа).
Различные вопросы 253 Если гиперкомплексные числа принадлежат некоторой группе, за- дача упрощается. Пусть X — какое-то гиперкомплексное число и etX = Y = очевидно, что все у — не что иное как ж, расположенные в другом порядке. То же самое происходит, если взять Xei = У; кроме того CqX = Xcq = X. так что уравнение (2) можно записать как (А — соед)Х = 0. 228. Я составляю характеристическое уравнение для числа Р: РХ = соХ и собираюсь показать сначала, что у него есть один корень, равный 1, а все остальные меньше 1 по абсолютной величине. Действительно, пусть РХ = ^2 2/гег! тогда Vi = ^Рк • Xh, индексы i, к и h связаны соотношением = е^, так что если я пишу Vi = ^PhiXh, то все — не что иное, как рь, взятые в другом порядке. Тогда урав- нение (2) даст нам 5 'jPhjXh — СОХ{. (3) Эти уравнения будут выполняться, если взять все xt равными между собой, откуда мы выводим, что 52 Ры = w- Но 52р/г*= 52рл = откуда со = 1; и это показывает, что есть один корень, равный 1.
254 Глава 16 В том, что касается других корней, уравнения (3) дадут нам 52 (4) или, т. к. все р действительны и положительны, 52^1^1 > Ы|ж;|. Сложим все эти неравенства; получится EE^i^i мЕ м- i h Но Phi = 1- i Значит, ЕЕ^ы = Е 1жлЬ i h откуда Еы м Е W’ откуда М 1. Итак, ни один корень не может быть больше 1 по абсолютной величине. Что и требовалось доказать. 229. Пусть ш — корень, отличный от 1; рассмотрим гиперкомп- лексное число, принадлежащее этому корню т. е., по терминологии, принятой г. Картаном, одно из чисел X, Х±, ..., таких, что РХ=шХ, РХ1 = wXi+Е1Х1, ... ; я заявляю, что для всех этих гиперкомплексных чисел Еж» = О- Действительно, заменяем во всех наших гиперкомплексных числах все базисные единицы на обыкновенную единицу; равенства, возможные
Различные вопросы 255 между этими гиперкомплексными числами, останутся верны. Если мы имеем Р — Pi^i •> X — Xi — ч то после подстановки эти гиперкомплексные числа превратятся в 52^ = 1, 52^, 52^ соответственно, и наши равенства примут вид 52®г = ^52ж^ 52^ = ^12^+£112жй следовательно, если ш не равно 1, то 52 х* = °’ 12 xi = °- 230. Мы сказали, что имеется один корень, равный 1; остается узнать, может ли здесь быть несколько корней с модулем 1, и, кроме того, будет ли 1 кратным корнем. Для того чтобы неравенство (4) пре- вратилось в равенство, надо, чтобы все xi имели одинаковый модуль, и, т. к. эти xt определены только отношениями друг к другу, мы можем предполагать, что все они действительны и положительны. Поскольку все р действительны и положительны, то же будет верно для ш, т. е. мы получим ш = 1. Пусть тогда Xj — наибольшее из всех хр, имеем 52^^.гГ/1 С 52^'.r7j = х:г это неравенство превращается в равенство, только когда все phj. кроме тех, что умножаются на :rfl. равные Xj, совпадают с нулем. Но уравне- ние (3) дает нам ^PhjXh = WXj = Xj. Отсюда мы должны сделать вывод, что Phj = 0, если х/, < Xj, и это показывает нам, что если ни одно из pi (и, следовательно, р^) не равно нулю, то все xi равны между собой.
256 Глава 16 Будем говорить, что перестановка St принадлежит классу С, ес- ли Xi равно Xj, т.е. наибольшему из всех х. С другой стороны, я буду говорить, что подстановка Sk принадле- жит множеству Е, если всегда, когда Sj принадлежит классу С, то же будет верно для sh = S^Sj. Необходимым условием того, что pk = Phj может не равняться нулю, будет принадлежность S/. множеству Е. Теперь я заявляю, что множество Е образует подгруппу в G. Дей- ствительно, если Sk и Sc принадлежат этому множеству, Sj принадле- жит С, только когда то же верно для S^1 Sj и S”1 • Sj. Но тогда то же самое должно выполняться для Sk^S^Sj) = (SA^Sj, что означает, что ScSk также принадлежат С. Итак, интересующее нас событие может произойти, только когда все pk — нули, кроме тех, которые соответствуют перестановкам из некоторой подгруппы; т. е. если бы заранее было известно, что игрок, тасующий карты, производит только перестановки, принадлежащие к этой подгруппе. Если оставить в стороне этот единственный исключительный слу- чай, уравнение РХ =Х может выполняться, только когда все х равны между собой. 231. Может существовать еще одна возможность; можно было бы предположить, что для некоторого гиперкомплексного числа X такого, что (5) X = eg + ei + ... + er и корень 1 — кратный. Но из уравнения (1) следует, что РпХ1 = Xi + ПЕ1Х. Коэффициенты в записи Х± и е±Х не зависят от п; коэффициенты Рп зависят от п, но они остаются действительными и положительными, и
Различные вопросы 257 их сумма все время равна 1, потому что Рп символически представляет вероятностный закон после п перестановок. Итак, коэффициенты РпХ остаются ограниченными. Наоборот, ко- эффициенты Xi+neiX будут многочленами первой степени от п; таким образом, они не могут быть ограниченными и уравнение (5) невозмож- но. Если мы возвращаемся к уравнению в виде РХ = шХ, то мы уже знаем, что со задается уравнением (п + 1)-го порядка, и кор- ню кратности // принадлежат ц различных гиперкомплексных чисел. Сумма всех кратностей равна г 4-1, и найдется г 4-1 гиперкомплексных чисел, принадлежащих разным корням, причем они будут линейно неза- висимы. Итак, произвольное гиперкомплексное число можно рассмат- ривать как линейную комбинацию чисел, принадлежащих различным корням. В нашем случае только одно число принадлежит корню 1, это во + 4- ... 4- ег; все остальные принадлежат корням меньшим 1 по абсолютной величи- не, и сумма коэффициентов каждого из этих гиперкомплексных чисел равна нулю. Отсюда следует, что любое гиперкомплексное число, у кото- рого сумма коэффициентов равна нулю, можно рассматривать как ли- нейную комбинацию гиперкомплексных чисел, принадлежащих корням, меньшим 1 по абсолютной величине. 232. Теперь рассмотрим корень со такой, что |щ| < 1; если этот корень кратный, мы имеем РХ = соХ, РХ± = coXr + EiX, РХ2 = соХ2 + e2Xi, ... , откуда легко выводим, что РпХ = сопХ, РпХ± = иопХ1 + пор-'е-ьХ, РпХ2 = сопХ2 + псоп~1е2Х1 + П(П~ ^con~2eie2X,
258 Глава 16 гр 77 77 — 1 J- J 77 — 2 Л 1ак как аг, пог , —-си , ... стремятся к нулю, когда п беско- нечно растет, можно видеть, что для произвольного комплексного чис- ла X, принадлежащего корню, меньшему 1 по абсолютной величине, получаем limFraX = 0 (п = оо). Но любое гиперкомплексное число, сумма коэффициентов которого рав- на нулю, является комбинацией чисел, принадлежащих корням, мень- шим 1. Значит, кроме того, получаем limFraX = 0 всякий раз, когда сумма коэффициентов X равна нулю. Если же, напротив, X принадлежит корню 1, т. е. если все его ко- эффициенты равны между собой, получаем РпХ = X. Если X — произвольное гиперкомплексное число, мы сможем положить X = SX0 + X', где S — сумма коэффициентов X, а Хо = —У-(ед + Ci + ... + ег) г + 1 и сумма коэффициентов X' равна нулю. Тогда получим limFraX = SX0. Теперь заметим, что Х0Х = ХХ0 = SXq. Действительно, имеем X = жгей Хо = г _|_ 1 ’ Х0Х = г _|_ 1 Xki ’ где Xkj = Xi если ejej = е/., или же 3
Различные вопросы 259 Но все Xkj, фигурирующие под знаком равны самим Xi, взятым в другом порядке, т. е. ' %kj — 3 откуда окончательно Х0Х = SX0 и lim(F" - Х0)Х = 0. Но X — произвольное гиперкомплексное число, тогда мы можем счи- тать X = во, откуда (Рп - Х0)Х = (Р" - Х0)е0 = Рп - Хо. Итак, остается limFra = Хо, что означает, что в пределе все вероятности, т. е. все коэффициенты гиперкомплексного числа Рп, символически представляющего вероят- ностный закон, будут равны. Именно это мы хотели доказать. Я сошлюсь на некоторые работы, связанные с гиперкомплексными числами и их отношением к группам. В первую очередь я называю рабо- ты г. Фробениуса, (Frobenius, Sitzungsberichte Берлинской Академии с 1896 по 1901 годы), а затем — статью г. Картана (Cartan, Sur les groupes bilineaires et les systemes de nombres complexes, Annales de la Faculte de Toulouse, t. XII). Я сам занимался этим вопросом и, в частности, поста- рался приблизиться к настоящим результатам этих двух выдающихся ученых в совершенно другом виде в работе «Sur ^integration algebrique des equations lineaires» (Journal de Liouville, 5е serie, t. IX). 233. Распределение десятичных знаков в числовой табли- це. Предположим, что в числовой таблице берется большое число по- следовательных логарифмов и рассматривается, например, третий по счету десятичный знак. Видно, что десять цифр 0, 1, 2, 3, ... , 9 бу- дут в этом списке распределены одинаково, а следовательно, вероят- ность того, что третий десятичный знак четен, равна |. Так заставля- ет думать непреодолимый инстинкт, а кроме того, это проверяется а posteriori. Можно ли объяснить этот факт?
260 Глава 16 Рассмотрим числа 10g О + 100 000 ) ’ где х принимает все целые значения от 1 до 100 000. Рассмотрим функ- цию F [log + 100000)] ’ где F{y) — функция, равная +1, если третий десятичный знак у четен, и —1, если он нечетен. Я собираюсь доказать, что среднее значение F(y) равно нулю или очень мало. Определив F(y), имеем F (у + 5Оо) = что показывает, что F(y) — функция периодическая с периодом ^Т_, как и функция sin(10007ry), которую мы сначала рассмотрим. Итак, мы должны оценить сумму 10 000 5 = 10000 52 sm [юООтгlog (1 + 100000)] • Х = 1 Заменим ее интегралом 10 000+% J= 10000 / sm [юООтг!og (1 + 100Ж000)] dx. У2 Сначала оценим разность S — J; воспользуемся формулой Тейлора <р(п + h) = <р(п) + hip'(п) + + dh) (0 < в < 1), откуда n+i I <р(х) dx = <р(п) + -^0'М, I LZi
Различные вопросы 261 где в' лежит между —1 и +1, а М — максимум |<£"(ж)| на рассмотрен- ном интервале. Если мы берем <р{х) = sin [10007Г log (1 + 100Ж000)] , считаем п = 1, 2, ... , 10 000 и складываем, то получается J-S = 120 000 52 в'М- Что такое М? Обозначим для краткости 10007Г log (1 + 100000) = у; юоооо = тогда ЮООтг 1 100 000 1 + z _ (ЮООл-)2 1 _ ЮООл- 1 (100000)2 (l + z)2 пу (100000)2 (l + z)2 откуда /I I /I , X (100)2 (100)2 • 1000 1000 и < 12 000' Теперь оценим верхний предел J. Пусть Z = 100^000’ а = 10007Г’ w = log(l + z), тогда J = 10 У svaaudz = IQ j" svaaueu du. Интегрирование по частям дает мне U1 J _ cos аиеи , f cos аи и j Ю “ а + J а е ам’ UQ J = ец° + eU1 f еи du 2eU1 10 ot + / a a * •Uo
262 Глава 16 Между тем „ио _ 1 । 1 „ui _ 1 । Ю ООО _ 1 1 200 000’ 100 000 ’ Итак, |j| < 2,2 < J_ 11 100тг 100’ или, сравнивая с пределом | J — S|, 1 100’ 234. Доказательство было приведено для очень частного приме- ра, но легко видеть его суть и, следовательно, применимость в общем случае. В действительности все было основано на трех фактах: 1° последовательные производные логарифма остаются конечными на рассмотренном интервале; 2° число а = ЮООтг очень велико; 3° очень большое в абсолютном смысле, оно очень мало по сравне- нию с числом 100 000, которое стоит в знаменателе выражения 10g С1 + 100 000 ) ’ Видно, что те же самые обстоятельства повторяются в большом числе аналогичных случаев, и те же самые рассуждения применимы ко всем непрерывным функциям. Пусть в еще более общей задаче надо оценить сумму S = /3£F[a^(/3x)], где а — очень большое число, F — ограниченная периодическая функ- ция, /3 — очень маленькое число, такое, что даже а/3 очень мало, а х принимает все целые значения от 1 до Сравним эту сумму с интег- ралом Как и выше, получается j - s = Д V о'м, 12
Различные вопросы 263 где М — максимум второй производной функции F[a p(z)] по ж; но эта вторая производная равна (a/3)2FV2 + a(32F'p", буквы со штрихами обозначают производные от F и р по их аргумен- там ар и [Зх соответственно. Видно, что если эти производные ограни- чены, J — S имеет порядок (а/3)2. Пусть теперь Ф(ы) — первообразная функция для F(u), так что F{u) = Ф'(м); интегрирование по частям даст нам J = [ Ф'(ар)^(1р = [ Ф^(1р, J y*’dp * adp a J d(fi2 что показывает, что J имеет порядок Итак, для применимости на- шего рассуждения достаточно, чтобы и (а/3)2 были очень малы. 235. Однако существуют еще две трудности. Не будет ли резуль- тат верен даже тогда, когда а[3 не очень мало, если малы [3 и Пусть, вместо того чтобы рассуждать о третьем десятичном знаке в таблице с 5 знаками, мы рассуждали о пятом, и вместо того чтобы взять а = ЮООтг, (3 = 100000, нам пришлось взять а = 100 0007г, (3 = 1001000, и а[3 уже не было очень мало. А между тем инстинкт, который по- буждал верить, что третий десятичный знак должен быть распределен равномерно, так же силен и в том, что касается пятого знака. В рассуждениях, связанных с оценкой J, не может быть сложнос- тей даже для не очень малого а(3; надо заняться только разностью J—S. С другой стороны, периодическая функция F, которую мы определили в начале этого исследования и которая возникает, когда хочется узнать распределение десятичных знаков в таблице логарифмов, эта функция,
264 Глава 16 которую мы заменили синусом, чтобы упростить вычисления, была равна ±1 в зависимости от того, оказывалась ли определенная цифра четной или нет. Итак, это была разрывная функция, и при вычисле- нии J — S мы не можем опираться на тот факт, что ее производные ограничены. Правда, можно было бы разложить эту периодическую функцию F в ряд Фурье и вернуться к синусам, к которым можно применить всё предшествующее; но в этом ряду для слагаемых высокого порядка а оказалось бы настолько велико, что произведение а[3 уже бы не было слишком мало; итак, мы бы вернулись к первой трудности. 236. Таким образом, приходится прибегнуть к другим соображе- ниям. Пусть F(x) — функция с ограниченными производными. Соста- вим таблицу, где х примет все значения, кратные ^qqqq- Возможно ли, что в этой таблице пятый десятичный знак всегда будет равен 0? Тогда окажется, что » )= п +£ 1ОООСГ 10000 ’ где v и п целые, а е < ^qq^qqq • Воспользуемся известной формулой F(x + 2h) + F(x) - 2F(x + h) = h2F"(x + 20h) (0 < 0 < 1). Придаем x значение, кратное и делаем 10000’ Пусть Hi и Ei, п-> и е2> пз и Ез — значения п и е, соответствующие X, х + h, х + 2h-, получаем h2 F" — П1 + П3 ~ 2n2 _ „ hF 10 000 + 1+ 3 2£2- Так как e меньше, чем Jqq^qqq; мы сможем положить El + Ез 2е2 100q00 ni + п3 - 2п2 = N, (0<1),
Различные вопросы 265 откуда F" = 10 000. Если ограниченная функция F" не имеет порядок 10 000, то должно выполняться N = 0, или же П1 + п3 = 2п2, то есть целые п, или числа, фигурирующие в нашей таблице, представ- ляются многочленом 1-й степени, или же все разности второго порядка в нашей таблице — нули. Это, очевидно, имеет место только в очень частном случае, и для большинства функций можно утверждать, что это не так. Таким образом, хотя я больше не настаиваю на этой точке зрения, видно, на чем можно основать теорию вероятностей распределения де- сятичных знаков в числовой таблице. 237. Смесь жидкостей. Я скажу только несколько слов о дру- гой проблеме очень большой важности; я не в состоянии разрешить ее. Рассмотрим жидкость, целиком заполняющую некоторый сосуд. Моле- кулы этой жидкости находятся в постоянном движении; законы этого движения известны, они выражаются дифференциальными уравнения- ми, которые я считаю заданными. Пусть х, у, z — координаты какой-то молекулы, компоненты ее скорости имеют вид dx __ у dy____.z dz г? — .А , ~г~ — 1 , —г~ — Zj . dt dt dt Если движение постоянно, то X, Y, Z — функции от координат х, у, z, не зависящие от времени t, и я предполагаю, что эти функции известны. Так как жидкость несжимаема, имеем соотношение dX dY dZ dx dy dz Если уравнение стенки сосуда — у, z) = 0, то для всех точек этой стенки получаем соотношение + Y^ + Z^~ dx dy dz
266 Глава 16 которое означает, что нормальная составляющая скорости равна нулю. Установив это, я предполагаю, что некоторые молекулы жидкости отличаются от других каким-то явным свойством, например, имеют розовый цвет, тогда как остальные бесцветны; но при этом они подчи- няются одному и тому же закону движения. Пусть в момент времени t = 0 молекулы розового цвета каким-то образом распределены в сосуде; опыт показывает нам, что через неко- торое время они полностью смешаются с остальными и будут распре- делены по сосуду равномерно. Рассмотрим в данном сосуде внутренний объем v: какое количест- во розовой жидкости заключено в этом объеме в произвольный мо- мент времени, или, если предпочесть другую формулировку, чему рав- на Р — вероятность того, что одна случайно взятая в нем молекула будет розовой? Если распределение равномерно, то эта вероятность бу- дет константой, каков бы ни был объем v, выбранный внутри сосуда. Если рассмотреть два объема и для которых эти вероятности равны Pi и Р2, и обозначить Р вероятность, относящуюся к полному объему г>1 + гъ. мы, очевидно, получим P(vi + «2) = P1V2 + А«2 и сможем написать, что для произвольного объема Pv = J pdr, где интеграл берется по всем элементам dr, принадлежащим объему v, ар — вероятность, относящаяся к объему dr. Эта вероятность р будет функцией от ж, у, z, t, определенной с по- мощью уравнения dp dt dp ydp „dp dx dy dz Тогда рассмотрим два произвольных объема v и v' и соответствующие вероятности р и р'; можно ли считать, что каково бы ни было началь- Р' ное распределение жидкости, т. е. значение р при t = 0, отношение стремится к 1, когда t неограниченно возрастает, и это происходит тем быстрее, чем больше объемы v и v' и чем проще их вид?
Различные вопросы 267 Если мы не можем утверждать этого, то можем ли мы по меньшей мере считать, что отношение fPdt О fP'dt о стремится к 1 при бесконечно большом Т? 238. Таков возникающий здесь вопрос, и этот вопрос еще не ре- шен; я хотел бы объяснить в нескольких словах, что делает его таким важным. Представим механическую систему в состоянии, определен- ном с помощью п координат q±, q?, ... , qn; ее скорость удовлетворяет уравнениям Гамильтона, dqj dF dpi dF dt dpt ’ dt dqt ’ Если T — кинетическая энергия, U — потенциальная, F = T + U — полная, то имеем pi = Рассмотрим <79. • • • , dn, Pi, Pi, , Pn dqt как координаты точки в 2п-мерном пространстве. Запишем уравнения Гамильтона в виде (Pll = Q.= dF dpj = р = dF dt 1 dpi, dt 1 dqi ’ Эти уравнения имеют тот же вид, что и уравнения движения нашей жидкости, т. к. они удовлетворяют соотношению у ^i + y^ = 0 dqi dpt аналогичному условию несжимаемости. Тогда мы должны изучать дви- жение жидкости в 2п-мерном сосуде. Какой бы ни была вероятность того или иного состояния системы в нулевой момент времени, не по- лучим ли мы равномерной вероятности для ее состояния в момент t, если t достаточно велико? Именно это утверждается в кинетической теории газа, в частнос- ти, когда хотят установить теорему Больцмана-Максвелла. И было бы очень полезно обосновать этот постулат.
268 Глава 16 239. В общем случае этот постулат должен быть верен, но он, разумеется, допускает и исключения. Если дифференциальные уравне- ния dx _ dy _ dz _ i, х ~ у ~ z ~ al имеют интеграл F(x, у, z) = const, где F симметричная однозначная функция, то интеграл Pv = j pdr, взятый по объему, ограниченному двумя поверхностями F(x, у, z) = a, F(x, у, z) = b. будет константой; тогда, если мы рассмотрим два одинаковых объема v и v', определенных неравенствами а < F < Ь, а' < F <Ь', соответственно, и назовем Р и Р' соответствующие вероятности, отно- Р' шение будет константой, не зависящей от времени, и, т. к. начальное значение этой константы произвольно, она не может стремиться к 1. Вот как в этом случае должен измениться наш постулат. Рассмот- рим объем, ограниченный двумя бесконечно близкими поверхностями а < F < а + da. Пусть V(a) da — этот объем, P{a)da — соответствующий интег- рал fpdr. Рассмотрим теперь два произвольных объема v' и v". Пусть Р' и Р" две соответствующие вероятности. Пусть объем V'(a) da — пере- сечение V(a) da и v', аналогично V”(a) da — пересечение V(a) da и ц"; при t = оо получаем pi fV'(a)da lim —- = —--------. P fV"(a)da
Различные вопросы 269 Другими словами, в каждом из бесконечно тонких слоев, определенных неравенствами а < F < а + da, вероятность в конце концов будет рас- пределена равномерно, но «плотность» этой конечной вероятности будет меняться от слоя к слою. Именно это происходит, когда уравнения Гамильтона допускают первый интеграл F = const. Но это не единственное возможное исклю- чение. Допустим, что у уравнений нет общего интеграла F = 0, т. е. из уравнения F = 0 следует, что dF . уdF . ydF dx dy dz Тогда замкнутая поверхность F = 0 разделит сосуд на две области; в каждой из них предельная вероятность распределяется равномерно, но ее плотность не будет одинаковой в этих двух областях. 240. Другое исключение. Чтобы лучше объяснить его, я начну с частного примера. Сначала я предположу, что есть интеграл F = = const, и поверхность F = 0 — это тор. Если бы постулат был верен, даже с дополнением, рассмотренным в предыдущий раз, то предельная вероятность должна была бы распределиться равномерно в бесконечно тонком слое, лежащем между двумя поверхностями F = 0 и F = е, где е очень мало. Чтобы представить положение точки на торе F = 0, мы воспользуемся двумя углами; один из них, <р, будет долготой, другой, ш, будет отсчитываться от меридионального сечения, и его можно было бы назвать широтой, если бы он не менялся от 0° до 360°, вместо того чтобы меняться от —90° до +90°. Пусть тогда $ = Ф, dt dt — дифференциальные уравнения движения, и предположим сначала, что Ф и !! — константы. Мы можем считать, что поверхность Fe вы- брана так, чтобы эти уравнения были совместимы с условием несжи- маемости (это сводится к предположению, что расстояние по нормали между двумя поверхностями F = 0 и F = е должно быть обратно расстоянию до оси вращения). Тогда мы получим р = рг, + Ф£, w = Wo + tit,
270 Глава 16 где уо 1Ш) — начальные значения и щ; при этих условиях вероятное значение выражения sin(n<£ + пы + Л). где тип — целые, a h — константа, будет равно Ро sin(m<p + пы + h) d<po dwo, где ро — известная функция, не зависящая от выбора р0 и ^’о- Это дает А 8т(тФ + nft)t + В соз(тФ + nQ)t, где cos . , , , Ро . (тро + пш0 + п) apo dwo- sin Очевидно, что это выражение колеблется, не стремясь ни к какому определенному пределу. Итак, в этом случае первый постулат неверен. Не так обстоит дело со вторым постулатом, относящимся к интегра- т лу j Р dt. Действительно, мы должны рассмотреть выражение о AB-f У ро sin(m<£ + пы + h) dpo dw0 о которое равно т т 8т(тФ + n£l)t dt + || У соб(тФ + n£l)t dt. о о Это выражение стремится к нулю, когда Т бесконечно растет, за ис- ключением случая нулевого тФ + nQ. Но тФ + пП может изначально равняться нулю, если Ф и !! рацио- нально соизмеримы друг с другом, и отношение равно — В этом случае траектория, описываемая молекулой жидкости, будет замкну- той кривой, имеющей уравнение F = 0, Fi = const; итак, здесь больше нет одного общего интеграла, их два, и мы возвра- щаемся к исключительному случаю в предыдущем примере.
Различные вопросы 271 Еще коэффициент тФ + пО, может обратиться в нуль, если Ф и !! рационально несоизмеримы, но т и п — нули. Пусть тогда О — не- которая периодическая функция от из и 99; рассмотрим ее вероятное значение 11(f) = У Род duo dtpo и интеграл т J=^l n(t) dt. о Мы можем разложить О в ряд Фурье. Каждому из членов этого ряда со- ответствует слагаемое из J. Согласно предыдущим рассуждениям, все члены J будут стремиться к нулю при очень большом Т, исключая член с m = п = 0, т. е. тот, который соответствует среднему значе- нию 0, постоянному члену ряда Фурье. Рассуждение, совершенно аналогичное приведенному в парагра- фе 239, может показать нам, что в этом случае вероятность, представ- ленная интегралом f Ф dt, распределена равномерно. 241. Очень существенно отдавать себе отчет в истинных причи- нах этого нового исключения, которое мы только что обозначили. Рас- смотрим одну из молекул нашей жидкости, занимающую в момент О точку Хо, уо, zq, а в момент t — точку х, у, z\ затем рассмотрим мо- лекулы, которые в момент 0 заполняют сферу радиуса е с центром в точке я?о, уо, Zq', в момент времени t они заполняют очень малый объ- ем; при бесконечно малом е этот объем будет подобен эллипсоиду с центром в точке х, у, z. Как будет вести себя этот эллипсоид при изменении t? В общем случае его оси станут все более и более разными, так что отношение этих осей стремится к бесконечности. Это существенно, для того что- бы постулат был верен; в приведенном исключительном случае это не так; если мы обозначим Xq, уо, zq начальные координаты молекулы и из точки Xq, уо, zq, как из центра, опишем сферу радиуса е, то эта сфера вырежет на поверхности тора область, которую можно считать кругом очень малого радиуса. При возрастании t эта область будет переме- щаться по поверхности тора, оставаясь похожей на малый эллипс; но легко понять, что сжатие этого эллипса, вместо того чтобы бесконечно расти, будет колебаться в каких-то пределах. Если бы мы на мгновение
272 Глава 16 рассмотрели ш и р как координаты точки на плоскости, мы бы полу- чили развертку тора; наш маленький эллипс был бы тогда представлен на плоскости другим маленьким эллипсом, который всегда оставался бы равен себе самому; если же мы возвращаемся к бесконечно малень- кому эллипсу на торе, то отношение его осей будет зависеть только от параллельного к тору радиуса, на котором находится его центр, иначе говоря, будет линейной функцией от cosw; это тоже периодическая по времени функция. 242. Рассмотрим теперь пример, в котором нет этого исключе- ния, но ограничимся только частным случаем. Вернемся к нашему то- ру F = 0 и нашим уравнениям = Ф, = Q, dt dt но пусть Ф и Q не будут константами; мы всегда сможем расположить поверхность F = е так, чтобы удовлетворить условию несжимаемости. Считаем, что Ф = аМ, О, = /ЗМ, где а и (3 — две константы с иррациональным отношением, а М — периодическая функция от р и ш, которая не обращается ни в нуль, ни в бесконечность. Мы сможем ввести вспомогательную переменную т такую, что откуда dp dr <^=[3, *L=M, dr dt р = ат + (рот, w = /3т + w0, f dr. J M' — функция от т, более того, это периодическая функция от ш0 и р0. Рассмотренная как функция от т, она раскладывается в тригонометри- ческий ряд вида A cos(7t + h) с нецелыми коэффициентами; именно эти функции г. Эсклангон назы- вает квазипериодическимщ отсюда получаем t — Аот + /(г, ш0, Ро),
Различные вопросы 273 где / — квазипериодическая функция, а следовательно (при определен- ных условиях), т = -у- + /i(i, шо, Т’о)- Яо где fi — квазипериодическая функция от t. Если бы Ад зависело от ш0 и (р0, анализ можно было бы осуществить без особых сложностей; но это не так. Ад — член, не зависящий от t, т. е. от а> и (р в разложении он не зависит ни от ни от (ро- Рассмотрим разность fl(t, + Е, + 7?) - fi(t, Шд, (ро), где е и г] очень малы; это еще одна квазипериодическая функция; ес- ли эта функция остается ограниченной, когда t меняется от —оо до + +оо, мы получаем результаты, аналогичные результатам предыдущего примера, и постулат не будет верен. Если, наоборот, эта квазиперио- дическая функция может стать больше любого предела (и я показал в Le Bulletin astronomique, Tome I, что существуют квазипериодические функции, для которых это выполнено), то постулат, вероятно, верен, но чтобы установить это, нам придется встретиться со всеми труднос- тями, связанными с теорией квазипериодических функций. Случилось бы тоже самое, если бы мы предположили, в более общем виде, Ф = а + еФх, Я = [3 + еПх, где а и [3 — константы, е — очень малая константа, Ф и Я — пери- одические функции от е и е. Тогда можно было бы интегрировать с помощью последовательных приближений, раскладывая в ряд по степе- ням е; получилось бы р = at + f{t, wg, (ро), = bt+ fi(t, w0, T’o), где а и b — константы, f и fi — функции, периодические no Wg и (ро и квазипериодические по t. Только в этом случае а и b снова не будут зависеть от wg и р0- так что мы столкнемся с теми же трудностями. 243. Трудности, которые мы встретили в этом, таком простом, примере, показывают, что нас будет ожидать в общем случае. Скажем
274 Глава 16 только несколько слов о методе рассуждений, которого можно было бы придерживаться. Разделим объем сосуда на очень большое число рав- ных объемов; пусть Vi, ц2, ... , vn — эти объемы; пусть pi — вероят- ность того, что молекула находится в объеме vp, пусть Xi, Х2 , • • • , Хп — п вспомогательных переменных; рассмотрим выражение Р = РГГЛ + Р2Х2 + . . . + рпХп. Пусть qik — вероятность, с которой молекула в момент времени t + т находится в объеме ж,, если известно, что в момент времени t она на- ходилась в объеме Vk- Тогда, если вероятностный закон в момент t представлен выражением Р, то в момент t + т он будет представляться выражением PS, в которое превратится Р после линейной замены S, т. е. когда ж/. заменяется на QlkXi + Q2k%2 + . . . + QnkXn- В момент времени t + 2т он будет представляться выражением PS2, в момент времени t+hr — PSh. Можно легко показать, что при бесконеч- но большом h вероятностный закон, представленный выражением PSh стремится к равномерному вероятностному закону. Но на это рассуждение имеется серьезное возражение. Мы не дока- зали, что вероятность, с которой молекула попадает в момент време- ни 1 + 2т в объем Vi, если в момент t + т она была в объеме щ., остается той же, было ли совершенно неизвестно, где она находилась в момент t, или же было известно, например, что она в этот момент находилась в объеме vi. Тем не менее, я счел необходимым привести это рассуждение, т. к. оно, несомненно, того же типа, к которому относятся многие рассуж- дения в кинетической теории газа, и в некоторых случаях они могут быть правдоподобны; так, когда рассматривают вероятность, с которой молекула газа отклоняется после соударения с другой молекулой, эта вероятность почти не зависит от предыдущих соударений, испытанных той же молекулой. Значительная часть трудностей исчезнет, если считать, что функ- ции X, Y, Z не полностью заданы, но зависят от какой-то функции от t
Различные вопросы 275 (или даже от многих функций), чье значение неизвестно, и мы не знаем ничего, кроме вероятности, с которой эта функция принимает значе- ние, лежащее в данных пределах, например, между а и а + da. Тогда можно было бы рассуждать почти так же, как мы делали это в случае с тасованием карт. Приведем пример из кинетической теории газа. Предположим, что молекулы газа заключены в сосуде, имеющем форму прямоугольного параллелепипеда, и могут ударяться о его стенки, но не могут испы- тывать соударений друг с другом. Если все они имеют одну и ту же скорость, то они не будут равномерно распределены в сосуде по исте- чении какого-то времени, если они не были равномерно распределены в момент времени t = 0. Напротив, это будет верно, если их скорость изменяется по какому-то вероятностному закону, например, по закону Максвелла, и этот вероятностный закон может быть любым.
Примечания редактора ^)(к стр. 26) Равновероятность всех исходов является главным условием классического определения вероятности, когда вероятность события равна отношению числа исходов, благоприятствующих этому событию, к числу всевозможных исходов. (2)(к стр. 28) Здесь А. Пуанкаре подчеркивает, что решение любой вероятностной задачи состоит из двух частей: первая — построение математической модели случайного эксперимента, вторая — вычис- ление вероятностей случайных событий с использованием математи- ческих формул. Следует заметить, что под построением математичес- кой модели сейчас понимается построение вероятностного простран- ства (П, Р), состоящего из пространства !! всевозможных исходов случайного эксперимента, множества SF случайных событий и опре- деленной на S числовой функции Р, называемой вероятностью собы- тия. При этом функция Р выбирается с условием, что вероятность случайного события тем больше, чем более вероятно, что это событие произойдет. Само вероятностное пространство (П, S', Р) и есть мате- матическая интерпретация изучаемого случайного явления. (3)(к стр. 55) Фактически А. Пуанкаре поделил все вероятностные пространства на четыре группы по числу исходов эксперимента. К первой группе он относит пространства с конечным числом ис- ходов, ко второй — пространства с бесконечным, но счетным множест- вом исходов, к третьей — с несчетным числом исходов, но с конечным числом размерностей («произвольных констант»). В том случае, ког- да исходом эксперимента является целая функция (бесконечномерное множество исходов), вероятностные задачи по Пуанкаре образуют чет- вертую группу. (4)(к стр. 39) Такое простое и изящное рассуждение А. Пуанкаре заключает неверным выводом. Выписав плотность распределения аб- сциссы попадания при стрельбе из пистолета в виде hx2 <р(ж) = Се 2 ,
Примечания редактора 277 он должен был найти, что М®2+?/2) hp2 f(x, у) = = С2е 2 = С2е 2 = f (р). Это и есть плотность двумерного гауссовского распределения. В главе 6 А. Пуанкаре доказывает, что координаты вектора с таким распреде- лением являются независимыми. Более того, нетрудно убедиться, что само распределение инвариантно относительно любого поворота плос- кости с центром в начале координат. Таким образом, предположение А. Пуанкаре о равновероятности попадания во всех направлениях вы- полнено и /(ж, у) и есть решение задачи. Известно, что гауссовское распределение является наиболее адекватным распределению попада- ний при стрельбе (как, впрочем, и распределению скоростей молекул газа — смотрите следующий параграф). Последнее подтверждает пра- вильность красивых рассуждений А. Пуанкаре. (5>(к стр. 49) Решая задачу об игре с выходящим, А. Пуанкаре фак- тически строит дерево игры. Сложность этой задачи состоит в том, что игра может продолжаться бесконечно, значит и количество исхо- дов этого эксперимента бесконечно. Однако, после каждой партии мы оказываемся в одном из конечного числа состояний игры. Таким обра- зом, А. Пуанкаре строит конечный граф игры и определяет вероятность перехода из каждого состояния в каждое. Выписав соответствующую систему уравнений, он находит вероят- ности достижения окончательных результатов. Такого рода случайные процессы известны сейчас как конечные цепи Маркова с поглощающи- ми состояниями. Вероятности поглощения в такой модели принято на- ходить методом, предложенным А. Пуанкаре для решения этой задачи. (к стр. 55) А. Пуанкаре не вводит понятие случайной величины, как это принято в современных учебниках по теории вероятностей. Однако он понимает важность рассмотрения функции от случая и ее числовых характеристик. Здесь и далее под понятием «функция» име- ется в виду функции от исходов случайного эксперимента. А. Пуанкаре не дает точного определения независимости функций от случая. Под независимостью функций следует понимать независимость любых слу- чайных событий, относящихся к этим функциям. (7)(к стр. 80) Фактически А. Пуанкаре доказал более сильный ре-
278 Примечания редактора зультат, чем сформулированный закон больших чисел, а именно, цен- тральную предельную теорему. (в)(к СТр. 95) А. Пуанкаре доказал устойчивость гауссовского (нор- мального) распределения, состоящую в том, что сумма независимых га- уссовских случайных величин имеет также гауссовское распределение, причем дисперсия суммы случайных величин равна сумме дисперсий. (9)(к стр. 108) Это верно только в том случае, если длина отрез- ка МР не превосходит расстояния между параллельными прямыми. Это можно понять из следующего простого рассуждения. Допустим, что утверждение А. Пуанкаре верно: вероятность пе- ресечения удваивается вместе с удвоением отрезка. Возьмем какой- нибудь отрезок длины I. Пусть вероятность пересечения с параллелями равна р > 0. Тогда вероятность пересечения для отрезка длины 21 рав- на 2р. Нетрудно по индукции показать, что для любого натурального п вероятность пересечения для отрезка длины 2п1 равна 2пр. Но для лю- бого р > 0 всегда можно найти такое п, что 2п > р. Это противоречит условию о том, что вероятность любого события не превосходит 1. Эта ошибка А. Пуанкаре при решении задачи о бросании иглы (в со- временной литературе она известна как задача Бюффона) основана на том, что вероятность пересечения иглой параллельных линий не явля- ется линейной функцией от длины иглы (в отличие от математического ожидания числа пересечений). Покажем это. Пусть расстояние между параллельными прямыми равно 2а, а дли- на иглы равна 21. Найдем вероятность р того, что игла пересечет какую- нибудь прямую. Рис. 1 Рис. 2
Примечания редактора 279 Предположим, что мы бросили иглу. Рассмотрим ближайшую от центра иглы А прямую. Проведем перпендикуляр из А на эту пря- мую. Точку пересечения прямой и перпендикуляра обозначим через Е. Пусть С — ближний конец иглы к прямой, a D — проекция точки С на перпендикуляр АЕ. Обозначим через ср угол между параллельной прямой и направлением иглы АС (см. рис. 1 и 2). Тогда положение иг- лы относительно ближайшей прямой полностью определяется длиной х отрезка АЕ и углом ср. При этом возможные значения ж от 0 до а, а возможные значения ср от 0 до тг. Другими словами, исходом наше- го эксперимента (бросание иглы) можно считать пару чисел (ж, ср) — точку прямоугольника со сторонами а и тг (см. рис. 3 и 4): !! = {(ж, ср), 0 ж а О С 73 < 7Г}- Площадь ,$'о равна тга. Найдем теперь фигуру G. соответствующую событию, состоящему в том, что игла пересечет ближайшую параллель. Как видно из рисун- ков 1 и 2, игла пересечет прямую, если AD АЕ. Выразим AD чере ср. Так как АС = I и sin ЛСД = sin 99, то из прямоугольного треугольни- ка ACD Ad = I sin ср. Поэтому G = {(ж, ср) Е $2: ж С I sin ср} — это фигура, ограниченная сверху синусоидой. Следует рассмотреть два случая. В первом случае I а (см. рис. 3). Тогда синусоида ж = /sinср не пересекает прямую ж = а. Нетрудно найти, что площадь фигуры G равна 7Г Sg = / I sintp dtp = — Z cos </?!□ = 21. 0
280 Примечания редактора Тогда вероятность р находится по формуле _ SG _ 21 Р Sn ~а' Как видно, вероятность будет линейной функцией от I, но только в том случае, когда I а и игла может пересечь не более одной линии. Если же I > а и игла может пересечь сразу две параллельные линии, синусоида х = I sin р выходит за пределы прямоугольника Q (см. рис. 4). Пусть = arcsin у. Тогда площадь фигуры G представля- ется в виде суммы Vo тг-vo Sg sm I sin p dip. о Vo тг-vo Первое и третье слагаемое равны Vo у" I sin р dp = 1(1 — cos ро) = I ^1 — о Второе слагаемое есть площадь прямоугольника со сторонами а и (тг — 2</?о)- Поэтому SG = 2l(l-Jl-^ \ V I Значит вероятность р равна SG P=S^ Полученная функция не является линейной по I, что опровергает утверждение А. Пуанкаре. (10)(к Стр. Ю8) Следует заметить, что в отличие от вероятности пересечения математическое ожидание числа пересечений есть линей- ная функция от длины отрезка. А. Пуанкаре очень изящно переходит от прямых к кривым. Затем в качестве эталона берется окружность
Примечания редактора 281 диаметра, равного расстоянию между прямыми. Как бы мы ни броса- ли такую окружность на плоскость, мы всегда будем иметь две точки пересечения с прямыми. Так как длина такой окружности равна ml, математическое ожидание т числа пересечений кривой длины s удов- летворяет пропорции ф = А, откуда т = 2 тга тга 2/ В частности, если мы бросаем иглу длины 21 и d = 2а, то т = В том случае, когда I а, число пересечений иглой прямых не может 2/ быть более одного. Поэтому р = т = а это и есть решение задачи Бюффона. Более простого и изящного решения этой задачи, пожалуй, придумать невозможно! (и) (к стр. 119) Здесь пропорциональность вероятности высоте, предложенная А. Пуанкаре, является спорной. Аналогично парадоксу Бертрана (см. параграф 63) можно предложить, что вероятность про- порциональна площади той области на сфере, куда должен попасть по- движный полюс Р', или даже объему части шара, находящейся между соответствующими плоскостями. Однако, предположение А. Пуанкаре существенно упрощает задачу и делает ее более естественной. (!2)(к стр. 145) Другими словами, А. Пуанкаре пытается прове- рить, при каких условиях на ср оценка максимального правдоподобия будет совпадать со средним арифметическим полученных измерений. Как видно, метод максимального правдоподобия обсуждается в книге достаточно тщательно. Выводы, сделанные в этой главе, являются су- щественными для понимания этого метода при оценке математического ожидания случайной величины по заданной выборке. (13)(к стр. 162) В частном случае для нормального распределения А. Пуанкаре решена задача, известная сейчас как проблема моментов. Она состоит в том, что можно ли по известным значениям моментов однозначно определить распределение случайной величины. Известно, что в некоторых случаях ответ на этот вопрос отрицательный. В общем случае эта проблема остается открытой. (14) (к стр. 168) Таким образом А. Пуанкаре доказал центральную предельную теорему (сходимость к гауссовскому закону) для сумм не- зависимых одинаково распределенных случайных величин, имеющих моменты всех порядков.
282 Примечания редактора (15)(к СТр |74) Приведенные рассуждения можно считать наброс- ком доказательства центральной предельной теоремы для независимых случайных величин, имеющих разное распределение. Метод, который здесь применяется, известен как метод характеристических функций. (16)(к стр. 179) А. Пуанкаре здесь предлагает производить так на- зываемое взвешенное сглаживание, тем самым разделяя ошибки перво- го и второго рода. (17) (к СТр_ 482) Такое распределение известно как распределение Коши. А. Пуанкаре привел его в качестве примера случайных величин, для которых центральная предельная теорема не выполнима. Действи- тельно, в силу формулы [г(£)]”=Г(а) имеем, что среднее арифметическое случайных величин, имеющих рас- пределение Коши, есть снова случайная величина, распределенная по Коши. И никакой сходимости к гауссовскому распределению здесь быть не может. (18) (к СТр. 214) Под вероятностью допущенной ошибки здесь следу- ет понимать ее вероятное значение. Вычисление вероятного значения ошибки А. Пуанкаре разделяет на три случая. Первый — это теорети- ческое вычисление. Второй — оценка по результатам наблюдений, ког- да дисперсия ошибки («искусство наблюдателя») неизвестна. Третий — это оценка по результатам наблюдений с заданной дисперсией. (19)(к стр. 239) Напомним, что многочленами Лежандра называют- ся многочлены, определяемые по формуле: ^) = -fer-А(^2-1)2" п\2п атп
Анри Пуанкаре Теория вероятностей Дизайнер В. В. Велъш Корректор Г. В. Гребнева Компьютерная подготовка И. В. Рылова А. В. Широбоков Компьютерная графика А. В. Широбоков Лицензия ЛУ №056 от 06.01.98. Подписано к печати 30.11.99. Формат 60 х 841/16. Печать офсетная. Усл.печ.л. 16,28. Уч. изд. л. 16,34. Гарнитура Computer Modern Roman. Бумага офсетная №1. Заказ №К178. Тираж ИЗО экз. Ижевская республиканская типография, 426057, г. Ижевск, ул. Пастухова, 13.