/
Текст
C.H.
•ЕРНШТЕЙН
ООБРАНИЕ
СОЧИНЕНИЙ
СОБРАНИЕ
СОЧИНЕНИЙ
IV
IV
АКАДЕМИЯ НАук СССР
С.Н.БЕРНШТЕЙН
СОБРАНИЕ
СОЧИНЕНИЙ
ТОМ
IV
ТЕОРИЯ
ВЕРОЯТНОСТЕЙ
МАТЕМАТИЧЕСКАЯ
СТАТИСТИКА
[1911-1946]
ИЗДАТЕЛЬ С ТВ О «1АУКА»
1 9 6 4
У. Д .К. 519.2 + 519.24
ИЗДАНИЕ ПОДГОТОВЛЕНО АВТОРОМ
ПРИ РЕДАКЦИОННОМ УЧАСТИИ
Н. И. АХИЕЗЕРА, А. Н. КОЛМОГОРОВА и И. Г. ПЕТРОВСКОГО
ОТ АВТОРА
В том IV собрания сочинений включена значительная часть моих
работ за 1911 — 1946 гг. по теории вероятностей и ее приложениям.
В основе этих моих исследований лежит аксиоматика, изложенная в
работе «Опыт аксиоматического обоснования теории вероятностей» [2].
Считаю приятным долгом выразить мою искреннюю признательность
А. Н. Колмогорову, И. Г. Петровскому, Н. И. Ахиезеру, В. Н. Блюмен-
фельду, В. С. Виденскому, О. В. Вискову, А. А. Петрову за участие в
редакционной работе и с особой благодарностью отметить помощь,
оказанную мне при подготовке к печати четвертого тома О. В. Сармановым.
С. Верпштейн
ОТ РЕДАКЦИИ
1. При цитировании работ автора, помещенных в данном томе, ссылки
на них даются указанием номера статьи в квадратных скобках (например
[3] - «О законе больших чисел»); в ссылках на статьи из предыдущих
томов добавляется указание на том (например, [8] (том III) — «Общий
метод решения задачи Дирихле»). Номер со звездочкой в круглых
скобках соответствует порядковому номеру в общем списке работ автора,
помещенном в конце первого тома.
2. При ссылках на комментарии указываются две цифры (например,
[14. 4] обозначает: четвертый пункт комментария к четырнадцатой статье
этого тома).
3. Сноски в тексте, обозначенные цифрами, соответствуют сноскам
оригинала. <Вое дополнительные сноски отмечаются звездочкой и имеют
примечание «Ред.» (т. е. редакция) или «Автор».
4. Буквой Ж обозначено математическое ожидание, т. е. Ж/(я)
означает математическое ожидание f(x).
5. Введено обозначение «Т. В.» — часто упоминаемый курс автора
«Теория вероятностей», изд. 4-е, М.- Л., 1946 г. (242*).
6. Ко всем заголовкам статей даны сноски, где приводятся
библиографические данные первоисточника.
1
О ПРИБЛИЖЕННОМ ВЫЧИСЛЕНИИ ВЕРОЯТНОСТЕЙ
ПРИ ПОМОЩИ ФОРМУЛЫ ЛАПЛАСА*
Во всех курсах теории вероятностей доказывается следующая теорема
Лапласа:
Если р есть вероятность события А в каждом опыте, то вероятность,
что число m появлений события Л в п опытах удовлетворяет неравенству
I пг — пр I <
имеет пределом
2 z
Ф («) = -=-С e-^dX,
Iя о
когда п бесконечно растет.
Из этого доказательства видно, что даже для сравнительно небольших
значений п указанная формула должна обладать значительной точностью,
но я нигде не встречал строгой оценки погрешности. Здесь я хочу в
известной мере заполнить этот пробел, ограничиваясь простым случаем,
1
когда р = — причем в общем случае доказательство аналогично, но
несколько более сложно. Для определенности я предположу, что число
опытов п нечетно
п = 2\i — \.
Ясно, что в таком случае вероятность равенства
т---Е
та же, что вероятность
т — — = —Е.
* Sur le calcul approche des probabilities par la formule de Laplace. чсСообщ. Харьк.
матем. об^а», серия 2, 12, 1911, 106-110 (32*).
5
Мы можем, следовательно, ограничиться предположением, что Е > 0.
Наименьшее положительное значение Е соответствует т = \i, при этом
2fx — 1 = J_
~~2 2
И
п вероятность, что число появлений события А будет в точности равно ц,
имеет значением
1 1-3---(2^-1)
Уд ~ 2" п 2 - 4 - - - 2|х •
Вообще, вероятность, что
равна
я 1
т ~ У = У + *'
г 1^+* , (ц-1)(ц-2)..-(ц-А)
iu+ft = -_ --Со. = Уц
2"
((1 + 1)(ц + 2)--•((* + *)
Следовательно,
1п/^.= 1п/д + [1п(ц- 1)-1в(|л + 1)] +
+ [1п(|г — 2)- 1п(|А + 2)] + • • • + Рп(ц - к) — ln((x + ft)] =
= In /д + In ( 1
In/ 1+ —
+
+ [ta(i_2)_b(, + l)]+...+[i.(i_l)_ta(i+±)]
Но А; всегда меньше, чем ц., так что
ft2
L,(l_*-)<_*
V м- / и-
Следовательно,
или
2|,i2 '
111 /ц+ft < In /ц
In /ц+А < In /^
In ( 1 + ± \ > k
/c2
6
M, 2\x
2k
2 *
JLl U JLX
A(& + 1)
М-
ft(A+l)
Рассмотрим затем сумму членов /ц+л, соответствующих всем
значениям /с, большим, чем некоторое ко,
2Ц-1
H-1
fe(fc+i)
1 ц-i V 2'
(I)
Но ясно, что
е 4ц е ц < — \ е ^ 4- e n
2
при всех значениях к > 1, и с другой стороны, вследствие убывания функ-
ции е ^ , имеем
Следовательно,
2 fe2
2 ч - • - / - 1 е » dk.
ц-1 уЛ+1-'2
1 ч 2 ' сю А-
Ao + i
fto + 1
и, наконец,
2u-l
оо /t=
S /™<^ J e * <**• (2)
m=ix+fto+l .
fec + i-
2
Произведя под знаком интеграла замену переменной л = ——, запи-
сываем неравенство (2) в виде:
2 Im<IJn$<r»dk, (3)
где
1
Z =
Ун
Известно, что произведение
- 1-3- •• <2|х — 1) ,■-
Рд = /,Уц = ^Г7Г2- ^
имеет пределом —-=-. Кроме того, стремясь к этому пределу, Рц остается
постоянно менее этого (предела:
7
Следовательно, неравенство (3) может быть преобразовано к виду
211-1
V. 1т<—--<\е-*йЪ. (4).
л Vox
|Л+Ао+1 ' 2
Отсюда вытекает, что
^+к° оо оо 1 °°
7 2 Уя J Уя -J Уя Jz
= ^. Г e-*'dX = —Ф(г).
Г" } 2
Благодаря симметрии, которая была отмечена вначале, получаем
также неравенство
ц-йо-1
2 л»>-|ф(*)-
|А-1
Следовательно,
71 , 1
h//io Ч \
S /m= S ^>Ф(г), (5)
И-hor-i я 1
о V о/
где
1 , 1
fto + у &о + —
Z =
/р.
Иными словами, вероятность того, что
i/Ч1
тп
-"2-|<2У-^-
9ля всех нечетных значений п, больше i, чем
2 z
<D(z) = -=-f e-*'dL
У* J
Таково точное неравенство, которым следует заменить предельную
формулу Лапласа, откуда видна также замечательная точность этой
классической формулы *. Так, например, в случае п = 199, полагая z = 2,25,
1 Не следует забывать, впрочем, что
1
~2
r-V^-
предполагается целым числом.
* При решении другой задачи ов статье [3] (том I, стр. 76) получек резервуар,
который в терминах теории вероятностей выражается следующим образом: Если
вероятность события равна 72, то при четном п вероятность, что число тп появлений
8
заключаем, что ( при р — - ] вероятность, что число т появлений
события Л заключено в пределах
122 ^ т ^ 77,
больше, чем Ф(2,25) = 0,0985373; между тем как, согласно формуле
Лапласа, ту же вероятность имеет неравенство
121,9 > m > 77,1,
т. е. неравенство
121 >w>78.
Вообще, из сопоставления нашего неравенства с формулой Лапласа
видно, что* максимальное отклонение, которое ( при р = —] Можно
гарантировать, отличается не более, чем на единицу от значения, получаемого
из формулы Лапласа.
события удовлетворяет неравенству
п
™ ~~ 2~ r^zo
Ут
больше, чем Ф (z0). (Автор.)
=^=
2
ОПЫТ АКСИОМАТИЧЕСКОГО ОБОСНОВАНИЯ
ТЕОРИИ ВЕРОЯТНОСТЕЙ *
L'esprit humain eprouve moins (de difficulties)
a se porter en avant, qu'a se replier sur lui-
meme. Laplace. Theorie analytique des pro-
babilites **.
Вычисление вероятностей опирается на несколько аксиом и
определений. Однако эти основные аксиомы обыкновенно не формулируются
достаточно отчетливо, и вместе с тем вопрос о том, какие допущения
необходимы и не находятся ли они в противоречии между собой, остается
открытым.
Само определение математической вероятности неявно содержит в себе
допущение\ эквивалентное, по существу, теореме сложения вероятностей,
которая некоторыми авторами2 принимается за аксиому. Поэтому я
считаю небесполезным изложить здесь свою попытку аксиоматического
обоснования теории вероятностей. Я буду стоять на чисто математической
точке зрения, требующей только точной исчерпывающей формулировки
независимых и не противоречащих друг другу правил, на основании
которых должны строиться все выводы теории вероятностей, как
абстрактной математической дисциплины. Разумеется, эти правила диктуются нам
стремлением возможно точно познать внешний мир. Но чтобы не
нарушать строго логического характера изложения, я предпочитаю лишь
в конце статьи, в особом добавлении, коснуться вопроса о философ-ском
и практическом значении принципов теории вероятностей.
* «Сообщ, Харьк. матем. об-ва», серия 2, 15, 1917, 209—274 (83*).
** Человеческий разум испытывает меньше (трудностей), продвигаясь вперед,
чем углубляясь в самого себя. Лаплас. Аналитическая теория вероятностей
(перевод).
1 См.: Лаплас. Опыт философии теории вероятностей. М., 1908, стр. 12.
2 Eohlraann. Technique de l'assurance sur la vie, Encyclopedic des sciences ma-
thematiques, t. I, vol. 4, 497.
10
Глава I
КОНЕЧНЫЕ СОВОКУПНОСТИ ПРЕДЛОЖЕНИЙ
§ 1. Предварительные определения и аксиомы
1. Равнозначные и неравнозначные предложения. Рассмотрим
конечную или бесконечную совокупность символов А, В, С л т. д. Эти символы
будем называть предложениями. Мы будем писать M = N (N = М),
и будем называть предложения М и N равнозначными, если условимся,
что при всех далее определенных действиях над нашими символами
всегда возможно символ М заменить через N, и наоборот. В частности,
если М = /V и М = L, то N = L.
Допустим, что не все данные предложения равнозначны, т. е. что
существуют два предложения А и В такие, что А Ф В. Если число
неравнозначных предложений конечно, то данную совокупность предложений
мы называем конечной. В противном случае, совокупность предложений
называется бесконечной.
В этой главе мы рассматриваем только конечные совокупности.
2. Аксиомы, характеризующие операцию (разделения), выражаемую
знаком «или».
a) Конструктивный принцип: если существуют (в данной
совокупности) предложение А и предложение В, то существует предложение
С = (А или В).
b) Коммутативный принцип: (Л или В) = (В или ^4).
c) Ассоциативный принцип: [А или (В или С)] = [(А или В) или С] =
= (А или В или С).
d) Принцип тождественности: (А или А) = А.
Применяя первые три принципа, мы можем вообще утверждать
существование вполне определенного предложения Н = (А или В или ... Е),
которое назовем объединением предложений А, 5, ..., Е. Каждое из пред-
ложений А, В, ..., Е называется частным случаем Н.
Следствие 1. Если у есть частный случай А, т. е. (х или у) = А,
то (А или у) = А.
В самом деле, из (х или у) = А заключаем, что
[х или (у или у)] = (А или г/),
откуда (х пли у) = (А или у) = А, ч. и т. д.
Следствие 2. Если у есть частный случай А, где А есть частный
случай В, то у есть частный случай В.
Следствие 3. Условие, необходимое и достаточное для того, чтобы
Н было объединением предложений А\, А2, ..., Ап, состоит в том, что
1) если для некоторого г (г = 1, 2, ..., п) имеем (At или т/) = Л,-, то
(Я или у) = Я, 2) если для всякого i (Ai или М) = Л/, то (Н или М) = М.
В самом деле, если Н = (Ai или Аг ... или Ап), то из (Ai или у) = А\
выводим немедленно Н = (Н или у), точно так же из (Ai или М) = М,
(Аг или М)= М ж т. д. находим [(Л4 или М) или (А2 илж М) или ... (А,
или М)] = М, откуда (Н или М) = М.
11
Допустим теперь, что кроме объединения Н существует
предложение #i, обладающее теми же двумя свойствами. В таком случае, так как
(Ai или -4,-)= Ai, для всякого i имеем
(Hi или Ai) = #1,
откуда
(Hi или Н) = Hi.
Но так как, с другой стороны, для всякого i (Ai или Н) = Я, то по второму
условию (Hi или Н) — Н\ следовательно, Hi = Я, ч. и т. д.
Следствие 4. Если А есть частный случай В, а В — частный
случай А, то А = В.
В самом деле, по условию, (А пли х) = Я, (В или у) = А.
Следовательно, по следствию 1, (А или В) = В = А, ч. и т. д.
Следствие 5. Всякое предложение равнозначно объединению всех
своих частных случаев.
3. Теорема существования достоверного (истинного) предложения.
В данной совокупности всегда существует предложение Q, обладающее
свойством, что, каково бы ни было предложение А,
(ЙилиЛ)=£2; (I)
предложение Q называется истинным или достоверным.
Действительно, составим объединение Q всех предложений
совокупности: согласно определению понятия объединения Q удовлетворяет
условию (I).
Данное определение истинного предложения означает, что утверждать
правильность истинного предложения >или другого — то же самое, что
утверждать истинное предложение.
Следствие 6. Все истинные предложения равнозначны.
4. Аксиома существования невозможного (ложного) предложения.
В данной совокупности существует предложение О, называемое ложным
или невозможным, удовлетворяющее условию, что для всякого А
(А или 0) = А. (II)
Таким образом, утверждение ложного предложения или предложения А
равнозначно утверждению А.
Следствие 7. Все ложные предложения равнозначны.
В самом деле, если О и О'— два ложных предложения, то
(О или (У) = О = О'.
Следствие 8. Истинное предложение не может быть равнозначно
ложному.
Действительно, если бы мы имели Q = О, то для всякого А (А или О) =
= (А или Q) = А = Q = О, т. е. все предложения совокупности были бы
равнозначны.
5. Совмещение предложений. Если даны два предложения А и Д то
всегда существует предложение х, удовлетворяющее условию, что
(х или А) = А, (х или В) = В; (III)
12
действительно, этому условию удовлетворяет во всяком случае
невозможное предложение О.
Предложения А и В называются несовместимыми, если О является
единственным предложением, удовлетворяющим условию (III).
Предложения А я В называются совместимыми, если, кроме О, есть другие
предложения, удовлетворяющие условию (III).
Всякое предложение х, удовлетворяющее (III), можно назвать частным
совместным случаем предложений А ж В.
Объединение Н всех частных совместных случаев А и В, т. е. всех
предложений х, удовлетворяющих условию (III), называется совмещением
предложений А ж В, что выражается символом Н — (А ж В). Формально
Н = (А ж В) определяется условиями: (Я или А) = А, (Я или В) = В,
причем, если (х или А) = А, (х или В) = В, то (х или Я) = Я.
Следствие 9. Операция (совмещения), выражаемая символом «и».
коммутативна: (А и В) = (В и А).
Следствие 10. Операция (совмещения), выражаемая символом «и»,
ассоциативна: [А ж (В и С)] = [(А и В) и С].
В самом деле, если z удовлетворяет условиям
(ъ или А) — A, (z или В) = В, (z или С) = С,
то это означает, что
[z или (А и В)] = (А и Я), (z или С) = С.
Поэтому объединением Я всех 2 будет
Н = [(АжВ) и С],
но таким же точно образом убеждаемся, что
Я = [А и (В и С)], ч. и т. д.
Следствие И. £Ъш (Л или В) = А, то (АжВ) = В,и наоборот.
Действительно, если (А или В) = А, то условия (z или Л) = Л,
(z или В) = Я, равнозначны условию (z или Я) = Я, поэтому (Л и Я) = В.
Обратно, если (А и Я) = Я, это означает, что равенство (2 или Я) = В
всегда имеет следствием (z или А) — А, т. е., в частности, (В или А) = А
Следствие 12. (Л и О) = О, (А ж Я) = 4.
Следствие 13. Операция, выражаемая символом «и», удовлетворяет
принципу тождественности: (А ж А) = А.
6. Ограничительный принцип (ограничительная аксиома). Всякий
частный случай (А или В) есть объединение некоторого частного случая А и
некоторого частного случая Я.
Первая теорема распределительности.
[А ж (В или С)] = [(А ж В) или (А и С)].
В самом деле, из равенств
[(А и Я) или Л] = А, [(А и С) или А) = Л
заключаем, что
{[(Л и Я) или (Л и С)] или Л} = А.
13
Точно так же из
[(А и В) тли В] = В, [(А ж С) или С] = С
выводим
{[(А и В) или (А а С)] или (В или С) ^ = (i? или С).
Таким образом, {(А и В) или (-4 и С)) есть совместный частный
случай предложения Л и предложения {В или С).
Теперь нужно еще показать, что и наоборот, если
(z или Л) = Л, [2 или (S или С)] = (В или С),
то
[z или [(Л и В) или (Л и С)]} = [(Л и 5) или (А и С)].
Для этого замечаем, что, на основании ограничительного принципа,
z = (х или у),
где х есть частный случай .В, а г/ — частный случай С Тогда (л или А) = Л,
(я или В) = 5, откуда
[я или (Л и В)] = (А и 5).
Точно так же
[у или (Л и С)] = (Л и С),
Следовательно,
{(я или у) или {(-4 и В) или (Л иС)]} = [(Л и В) или (А и С)],
т. е.
{z или [(Л и В) или (А и С)]} = [(А и В) или (Л и С)], ч. и т. д.
Вторая теорема распределительности,
[А или (ВяС)] = [(Л или В) и (Л или С)].
В самом деле,
[(А или В) и (А или С)] = {[(Л или В) и Л] или [(Л или В) иС]} =
=* {Л или [(Л или В) и СЦ ~ {Л или [(Л и С) или (В и С)]} =
= [Л или (В и С)], ч. и т. д.
7. Дуализм операций совмещения и объединения. Этими теоремами
вместе с принципами ассоциативности и коммутативности, относящимися
к операциям «или» и «и», исчерпываются все правила вычислений с этими
символами.
Важно отметить, что все правила, касающиеся совмещения
предложений (символа «и»), являются необходимым следствием правил,
относящихся к объединению предложений (символ «или»), При этом весьма
замечательным является наблюдаемый здесь дуализм: правила, относящиеся
к символам «или» и «и», совершенно тождественны, так что все формулы
остаются в силе, если эти символы взаимно переместить, при условии
одновременной взаимной замены невозможного предложения О и
истинного предложения Q.
14
Действительно, достаточно обозреть все вышеизложенное, чтобы
заметить, что единственная разница между правилами, определяющими
объединение предложений и пх совмещение, та, что (А и Q) = А.
(А и О) = О, между тем как (А или Q) = Q, {А пли О) = А.
8. Принцип (аксиома) единственности. Для завершения нашей
системы мы введем еще один принцип, лежащий в основе понятия отрицания.
Этому принципу, который мы назовем принципом единственности, можно
придать следующую форму:
Если предложение а совместимо со всеми предложениями
совокупности (кроме О), оно истинно: а = Q.
Определение отрицания. Объединение А всех несовместимых
с А предложений называется отрицанием А.
Следствие 14. Q — 0.
Следствие 15. О = Q.
Следствие 16. Если х = О, то х = Q.
Действительно, все предложения (кроме О) совместимы с х,
следовательно, на основании принципа единственности, х = Q.
Следствие 17. Если х = Q, то х = О.
В самом деле, так как Q есть объединение несовместимых с х
предложений, то и Q (вследствие ограничительного принципа) несовместимо
с х\ следовательно, х = О.
Назовем единственно возможными всякие несколько предложений,
объединение которых есть Q.
Теорема. Предложения А и А единственно возможны и
несовместимы, т. е. (А или А) = Q, (А и А) = О.
Действительно, всякое предложение есть либо частный случай Л,
;шбо совместимо с Л; поэтому, на основании принципа единственности3,
(А или А) = Q. С другой стороны, так как А есть объединение
несовместимых с А предложений, то (А и А) = О.
Теорема. Отрицание предложения А равнозначно А, т. е. А = А.
Для этого достаточно показать, что из условий
(А или В) = (At или £), (А и В) = (At и В)
вообще вытекает А = А{.
Действительно,
Ai = [Ai и (В или Ai)] = [At и (5 или А)] =
= [(At и В) или (Л4 и Л)] = [(А и В) или (At и А)] =
= [Л и (5 или 4i)]= [Л и (В или А)] = Л.
Определение. £с/ш (Л или В) = В, то объединение С всех
предложений, несовместимых с А и являющихся частными случаями В,
называется дополнением А до В. Таким образом, С = (В и Л). Обратно, А
есть дополнение С до В. Действительно, (А или С) = В, (А и С) = О.
3 Обратно, если мы примем, что (А или А) = Q, т; е. что предложение и его
отрицание единственно возможны, то отсюда вытекает принцип единственности.
Действительно, если а совместимо со всяким предложением (кроме О), то а = О,
откуда (а или О) = Q; следовательно, а= Q.
15
Если бы дополнением С до В было А\, то мы имели бы тоже (А\ или С) =
= 5, (Ai и С) = О, откуда А = Ль Поэтому А = (5 и С).
С л е д с т в и е 18. (Л и Б) = (Л или В).
Действительно,
{[(Л и В) или А] или В) = [(Q и 5) или £] = Q;
[(Л и В) и (Л или В)] = [(АпВ и Л) или (Л и 5 и 5)] = О.
9. Решение символических уравнений. Вышеизложенные принципы
позволяют решать или убеждать в неразрешимости соотношений между
предложениями, связанными при помощи символов «или» и «и».
Легко убедиться, что всякое выражение, в которое входят
предложения х и х, приводится, на основании предыдущих правил, к форме
[Л или {а и х) или (Ь и х)].
Мы называем символическим уравнением с одним неизвестным х
утверждение равнозначности двух выражений, из которых одно по
крайней мере зависит от х. Таким образом, всякое уравнение приводится к
виду
[А или (а и х) или (Ъ и х)] = [Л' или (а! и х) или (Ъ' и х)]. (1)
Это уравнение равнозначно, вообще, двум различным уравнениям,
которые должны быть одновременно удовлетворены:
{[Л или (а и х) или (Ь и х)] или [Л7 и (а? и х) и (&' и я)]} = Q (2)
и
{[Л или (а и я) или (Ь и х)] или [Л7 и (а' и я) и (Ь' и £)]} = Q, (2)
так как уравнение (2) выражает, что в уравнении (1) вторая часть есть
частный случай первой части; уравнение же (3) выражает, что первая
часть уравнения (1) есть частный случай второй части. При помощи
теоремы распределительности уравнение (2) преобразуем в
([Л или (А' и а' и Б')] или {[а или (А' и а')] и х} или
{[Ь или (А' и 5')] и х}) = Q. (2 bis)
Таким образом, каждое из уравнений (2) и (3) приведется к виду
[В или (С и х) или (D и х)] = Q, (4)
т. е.
[(В или С или D) и (5 или ж или D) и (5 или С или я)] = й,
откуда
(В или С или D) = Й, (5 или D или ж) = Й,
(В или С или я) = й. (5)
Равенство
(5 или С или Z>) = Й (6)
16
есть необходимое и достаточное условие* разрешимости уравнения (4).
Действительно, равенство
(В или D или х) = Q
означает, что
[х или (В и D)] = х. (7)
Точно так же равенство (В или С или х) = Q означает, что
[х или (В пли С)] = (В или С); (8)
но для одновременного осуществления (7) и (8) необходимо и достаточно,
чтобы
[(В и D) или (В или С)] = (£ или С);
т. е.
[5 или (В пли С)] = (5 пли С), (9)
что эквивалентно условию (6).
Если условие (9), эквивалентное условию (6), соблюдено, то
уравнения (7) и (8) означают, что х есть частный случай (В или С),
включающий в себя (В и D), т. е. общее решение уравнения (4) есть
*«{(5и25) или [(В или С) и 6]}, (10)
где 6 — произвольное предложение.
В частности, условие (6) соблюдено, если (В или D) = Q; тогда
уравнение (4) обращается в [В или (С и х) или я] = Q, имеющее решением
# = [(В или С) и 6].
Равенство (4) будет тождеством в том и только в том случае, когда
(В или D) = Q, (5 или С) = Q. Напротив, уравнение (4) допускает
только одно решение лишь при условии, что (В и D) = (В или С), откуда
В = О, С — D; таким образом, получим
Следствие 19. Уравнение
[(Сия) или (Сих)} = Й
имеет единственным решением х = С.
Мы не будем останавливаться на дальнейшем изложении применения
вышеуказанных правил символического счисления5. Для нас теперь более
важно перейти к доказательству независимости и отсутствия
противоречий между этими правилами.
4 Применяя это условие к данному уравнению (1), находим, чго для его
разрешимости необходимо и достаточно, чтобы были соблюдены условия:
{(А или а или Ъ) или [А' и (<Т или У)]} = Q,
{{Аг или а' или &') или [А и (а или b)]} = Q.
5 См. также: Schroder E. Vorlesungen uber die Algebra der Logik, Leipzig,
Bd. I, 1890; Bd. II, 1891; Bd. Ill, 1895.
2 с. Н. Бернштейн 17
§ 2. Непротиворечивость и независимость аксиом
10. Система чисел, соответствующая совокупности предложений. В
настоящей статье я не ставлю себе целью обоснование арифметики;
напротив, целое число и его основные свойства являются для нас здесь
простыми понятиями, лишенными противоречия. Поэтому для установления
непротиворечивости предлагаемой нами системы определений и аксиом
достаточно будет построить систему чисел, удовлетворяющих всем
аксиомам, а для доказательства независимости мы построим системы чисел,
удовлетворяющих одним аксиомам, но нарушающих другие.
С этой целью положим, что наши символы А, В, ... означают какие-
нибудь целые числа, знак равнозначности ( = ) означает равенство;
объединение (^4 или В) — общий наибольший (среди рассматриваемых чисел)
делитель чисел А и В. Из свойств наибольшего делителя вытекает, что
принципы ассоциативный, коммутативный и принцип тождественности
соблюдены. Ничто не мешает нам выбрать так наши числа, чтобы общий
делитель двух данных чисел всегда находился среди данных чисел:
например, 1, 2, 3; таким образом, мы осуществляем и конструктивный принцип.
Напротив, мы нарушим конструктивный принцип, если возьмем систему
чисел: 2, 3, 4. (сюда необходимо было бы прибавить число 1, если бы мы
хотели восстановить конструктивный принцип). Существование истинного
предложения, т. е. общего делителя всех данных чисел вытекает, как мы
видели, из конструктивного принципа6. Но существование ложного
предложения, налагает новое ограничение на нашу систему чисел, ибо ложному
предложению должно соответствовать "число, кратное воем данным; таким
образом, в системе чисел 1, 2, 3 мы не имеем числа, представляющего
ложное предложение, и для осуществления аксиомы существования ложного
предложения нужно добавить число 6 или любое число, кратное 6.
И. Независимость ограничительного принципа. Совмещению (А и В)
двух предложений соответствует наименьшее из чисел, кратных числам
А и 5, принадлежащих данной системе чисел. Ввиду существования
ложного предложения, т. е. числа, кратного всем данным числам, совмещение
(А и В) всегда существует в данной системе и удовлетворяет, как было
установлено, коммутативному и ассоциативному принципам. Но для
доказательства теорем дистрибутивности мы ввели еще одну аксиому иод
названием ограничительного принципа: если р есть частный случай (А или Б)т
то он должен быть объединением некоторого частного случая А с
некоторым частным случаем В. В нашей системе чисел этот принцип гласит:
если р есть число, кратное общему наибольшему делителю А и В, то оно
представляет собой общий наибольший делитель некоторых двух чисел,
соответственно кратных А и В.
Этому условию удовлетворит система чисел Р^Р22...РЛ Л, где р.
суть какие-нибудь простые числа, а показатели ki суть все целые
неотрицательные числа, не превышающие некоторых данных чисел с,-. Напро-
6 Можно было бы доказать, что и обратно, допущение существования истинного
предложения имеет следствием конструктивный принцип; поэтому в конечной
совокупности конструктивный принцип и аксиома существования истинного
предложения являются эквивалентными.
18
тив, если, например, мы возьмем систему, удовлетворяющую всем
предшествующим условиям, кроме последнего: 1, ри р2, ..., Рп, PiP2...p«,
где п > 3, то ограничительный принцип не будет соблюден, ибо общий
наибольший делитель pi и р% есть 1, но р-л не является общим наибольшим
делителем чисел вида Xipi и хор2, принадлежащих нашей системе.
12. Принцип единственности и совершенные совокупности. Остается,
наконец, рассмотреть принцип единственности, посредством которого мы
установили понятие отрицания. Для осуществления этого принципа
(выражающего, что 1 есть единственное число, имеющее со всяким
числом наименьшее кратное, отличное от общего кратного всех чисел]
вместе со всеми предыдущими необходимо и достаточно взять в
предшествующей системе чисел все сг- = 1. Действительно, наименьшее
кратное чисел N = paipQ2.. .рап и L = pk> рк*. ..pkn есть phlvh*...phn где hi
4 2 п 1 г г п ГI ^2 п ' ^
равно наибольшему из чисел а* и /с*. Наш принцип означает, что все
п п
сщ = 0, если из неравенств ^] (с,- — А:*) > 0 вытекает J] (с; — ^)> 0;
таким образом, он будет соблюден, если все с,- = 1, и не будет соблюден,
если хоть одно с* > 1. (Например, в системе 1, 2, 3, 4, 6, 12 принцип
единственности не соблюден. Предложение, соответствующее числу 2,
было бы совместимо со всеми предложениями, поэтому его отрицанием
служило бы только ложное предложение, и не будучи истинным, оно
обладало бы, однако, важнейшим атрибутом истинного предложения.)
Необходимо заметить, что ограничительный принцип также независим
и от принципа единственности, как это ввдно из примера: 1, Р\, рг, .. ., рПу
Р\Рг..-Рп, где принцип единственности, очевидно, осуществлен, между
тем как мы видели, что ограничительный принцип здесь нарушен.
Итак, мы видим, что принятые нами последовательно аксиомы
независимы и друг другу не противоречат, ибо системе предложений,
подчиненной им, соответствует система целых чисел, лишенных квадратных
делителей: 1, ри р2, ..., />л, Р&2, ..., Р\РгРь ..., Рфг •.. Ра,
представляющих всевозможные произведения из простых чисел pi, рг, .. ., Ри-
Совокупность предложений, удовлетворяющих всем нашим аксиомам,
мы назовем совершенной совокупностью, и только с такого рода
совокупностями мы и будем иметь дело в дальнейшем.
Примечание. Наше доказательство независимости аксиом, т. е.
невозможности получить последовательно вводимые аксиомы, как
следствие из остальных, не должно, мне кажется, вызвать никаких
принципиальных возражений. Вопрос о непротиворечивости аксиом, напротив, требует
разъяснения. Если мы берем, например, систему чисел 1, 2, 3, 5, 6, 10, 15,
30 и выражаем словесно все соотношения делимости между этими числами,
то, как можно проверить непосредственно, мы получаем ряд не
противоречащих друг другу словесных утверждений (т. е. мы не приходим к
равенствам неравных чисел), причем для нас не имеет значения смысл слов
«наименьшее кратное», «наибольший делитель» и те общие рассуждения,
из которых наши утверждения вытекают; важно лишь то, что мы имеем
здесь определенную систему объектов, взаимоотношения между которыми
удовлетворяют всем аксиомам. Таким образом, числа являются для нас
только удобным и наглядным приемом для осуществления системы симво-
19 2*
jtob, удовлетворяющих воем аксиомам. Чтобы убедиться в существовании
системы со сколь угодно большим числом предложений, нужно лишь
понятие о счете как взаимно однозначном соответствии между элементами двух
конечных совокупностей, и принцип математической индукции.
Следует также отметить независимость аксиом Ь, с, d. He останавливаясь на
этом вопросе, который для дальнейшего не имеет значения, ограничимся лишь
следующими указаниями. Принцип тождественности (d) в конечной совокупности
занимает особое место, потому что необходимо, чтобы всякая операция,
произведенная конечное число раз над каждым данным символом, снова возвращала нас
к тому же символу. Вследствие этого всегда возможно операцию «или» заменить
операцией («или»)п, т. е. повторением операции «или» п раз так, чтобы принцип
был соблюден. Это замечание в то же время дает возможность легко построить
систему чисел, для которых принцип (d) но соблюдается. Действительно, возьмем
числа 1, 2, —2, 3, —3, 6. Пусть операция «или» для положительных чисел
сохраняет прежнее значение; с другой стороны, если оба числа отрицательны, то
операция «или» приводит к их наибольшему делителю со знаком +, если же числа имеют
разные знаки, то наибольший делитель берется со знаком —, причем, так как
в нашей совокупности нет числа —1, мы условливаемся заменять —1 через +1.
Принцип тождественности при этом нарушается (—2 или —2) = 2, но все
остальные принципы соблюдены без противоречий. Разумеется, целый ряд теорем при
этом нарушается, и, в частности, из принципа единственности не вытекает уже
единственность отрицания всякого предложения.
§ 3. Структура и преобразование
конечных совершенных совокупностей предложений
13. Элементарные предложения. Всякое предложение совокупности,
отличное от (9, не имеющее .иных частных случаев, кроме себя и О,
называется элементарным предложением.
Следствие 1. В совершенной совокупности каждое предложение
имеет частным случаем по крайней мере одно элементарное предложение.
Действительно, воли А ={=0 пе элементарное предложение, то оно
имеет частный случай В фО, отличный от А; если В не элементарное
предложение, то оно имеет частный случай С, и т. д. Так как число
предложений ограничено, то таким путем мы должны, наконец, дойти
до элементарного предложения.
Следствие 2. Если в совершенной совокупности есть два
различных элементарных предложения, то они несовместимы.
Теорема. Всякое предложение (кроме О) представляет объединение
элементарных предложений.
В самом деле, если а есть элементарное предложение, являющееся
частным случаем некоторого предложения А, то А — (а или 4а), где Аа
есть дополнение а до А; если Аа — элементарное предложение, то для
А теорема справедлива; в противном случае Аа имеет элементарное
предложение р, и А = (а или р или Аа$), где Аа$ есть дополнение р
до Аа,; продолжая то же рассуждение, мы дойдем, наконец, до последнего
элементарного предложения А, так что А = (а или р или ... или А,), где
а, р, ..., X — элементарные предложения.
Следствие 3. Если в совокупности п элементарных предложений,
то общее число неравнозначных предложений равно 2п.
20
Действительно, если А содержит по крайней мере одно элементарное
предложение, не входящее в S, то А ф В. Следовательно, число
различных предложений (не считая О) равно С* + с\ + ... + С% = 2П — 1;
если же сюда присоединить О, то получим7 общее число предложений 2п.
Теорема. Существуют совершенные совокупности со всяким
числом п элементарных предложений.
В самом деле, если имеем невозможное предложение Own
несовместимых предложений: аи а2, ... , ап, то, составляя всевозможные
объединения по 2, по 3 и т. д., можем считать их предложениями, причем все
аксиомы тогда будут соблюдены; в частности, отрицание каждого есть
объединение из остальных данных предложений.
Примечание. Непосредственное введение элементарных
предложений могло бы упростить обоснование теории конечных совершенных
совокупностей; но такой порядок изложения, как будет видно из
дальнейшего, должен быть отвергнут, имея в диду бесконечные совокупности.
14. Разложение и соединение совершенных совокупностей. Если из
данной совершенной совокупности Н выделить какие-нибудь к
несовместимых и единственно возможных предложений Si, S2, ..., S& и их
всевозможные объединения, число которых (включая О и Q) равно 2\
то мы составим новую совершенную совокупность G, которую назовем
частью Я. Предложения Si? S2,..., Ви будут элементарными
предложениями G.
Возьмем какой-нибудь другой ряд несовместимых и единственно
возможных предложений S/, В2, ..., S/, из которых составим новую
совокупность Gi. Совокупности Gi и G называются связанными, если
существует по крайней мере одна пара предложений В\ и S/, несовместимых
между собой (S; и В/) — О. Напротив, если (S* и В/) ф О для всех
значений i и /, то совокупности Gi и G называются несвязанными или
отдельными.
Если в Н не входит иных предложений, кроме тех, которые получаются
от совмещения предложений совокупностей Gi и G, то совокупность Н
называется соединением совокупностей G (и Gi, Точно так же Н может
быть разложено и на 3, 4 и т. д. части, и Н будет называться
соединением этих частей.
Заметим, что совокупность Н может быть разложена на отдельные
(несвязанные) части тогда и только тогда, когда число п ее
элементарных предложений есть число не простое, а составное. Действительно,
если к элементарных предложений В{ совокупности G всегда совместимы
со всякими из I элементарных предложений В/ совокупности Gu то
(В{ и В/) составят Ы элементарных предложений соединения G и Gi.
Например, если (как при бросании игральной кости) мы имеем 6
элементарных предложений Аи А2, А3, Л4, Аь, Aq, to мы можем составить
две отдельные части: совокупность G, у которой элементарными
предложениями служат (Ai или А2), {А3 или Л4), {Аь или Ае), и совокупность
7 Можно условиться, для того чтобы не исключать ложного предложения,
говорить, что оно есть объединение из 0 элементарных предложений, т. е. ложное
предложение не содержит ни одного элементарного предложения.
21
Gi, для которой элементарными предложениями явятся (Ai или Аз или
Аъ) и (Л2 или А/, или А&). Если вместо Gi мы составили бы совокупность
G2 из предложений: (Ai или Л2 или Л3) и (А± или Л5 или Л6), то G и Gu
окажутся связанными, и их соединением будет не Я, а только часть Я,
у которой элементарными предложениями будут: (А\ или Л2), Л3, А±,
(Л5 или Л6).
Вообще, из двух совершенных совокупностей предложений G и Сп
можно составить совершенную совокупность Я, у которой элементарными
предложениями будут все совмещения (Яг- и Я/) элементарных
предложений Яг- совокупности G с элементарными предложениями В/
совокупности G\. При этом некоторые из предложений (Яг- и В/) могут быть
приняты равнозначными О; тогда совокупности G и G\ будут связаны;
необходимо только, чтобы по .крайней мере одно из совмещений (Яг- и В/),
содержащих определенное предложение Яг-, не было О, так же как и одно
совмещение, содержащее определенное Я/, ибо [(Я,- и Я/) или (Я* и В2)
или... (Вг и В{)} - Яг-.
Пусть, например, G составлено из трех элементарных предложений
Ви В2, Я3, a Gi — из трех предложений В/, Я/, В/; положим, что среди
совмещений этих предложений (#i и Я/) = О, (В2 и Я2') = О. Тогда
соединение Я совокупностей G и Gi будет составлено из семи остальных
(3-3 — 2) элементарных предложений, отличных от О.
Обозначая эти семь предложений через Ai = (Si и Я/), А2 =
= (Bt и Я3'), А3 = (Я2 и Я/), Л4 = (Я2 и Я3'), Л5 = (В3 и Я/), Л6 =
= (Я3 и Яг'), -47 = (Я3 и Я3'), видим, что элементами G служат: В{ =
= (ЛА или А2), Я2 = (Л3 или Л4), Я3 = (Л5 или Л6 или Л7); элементами же
Gi являются: Я/ = (Л3 или Л5), Я/ = (Л4 или Л6), Я3' = (Л2 или Л4
или Л7).
15. Преобразование совершенных совокупностей. Осуществление
предложения.
Теорема. Данная совершенная совокупность может быть
преобразована в новую совершенную совокупность предложений введением условия,
что определенное, не равнозначное О, предложение А = Q. Такое
преобразование называют осуществлением предложения А (или наступлением
события Л).
В самом деле, если Л = Q, то Л и все его частные случаи равнозначны
О; поэтому два предложения Я и С, бывшие взаимно дополнительными
до Л, делаются взаимными отрицаниями; следовательно, полученная
совокупность совершенна. Это преобразование было бы невозможно только,
если А = О, ибо тогда все предложения стали бы равнозначны одному
и тому же предложению О — Q, что противоречит сделанному в самом
начале допущению.
Это преобразование, очевидно, не обратимо, так как совокупность не
может быть лишена достоверного предложения Q.
Теорема. Всякое преобразование совокупности предложений,
заключающееся в введении условия А — Я, есть не что иное, как осуществление
некоторого предложения С. Это преобразование возможно тогда и только
тогда, когда А и В не служат взаимными отрицаниями.
22
В самом деле, для выполнения условия А = В необходимо л
достаточно (§ 1, следствие 19), чтобы
С = [(А и В) или (А и В)] = Q, ч. и т. д.
Замечание. Если при этом предложения А и В несовместимы, то
С = (А и В) = Q, т. е. ~А = ~В = Q; потому А = В = О.
Необходимо обратить внимание на существенную разницу между
соединением двух совокупностей и преобразованием, называемым
осуществлением. Соединение совокупностей (связанных или несвязанных)
не вводит никаких изменений в содержание данных предложений.
Напротив, осуществление предложения изменяет его содержание, а именно,
вводит новое условие равнозначности.
В случае связанных совокупностей связь между ними, выражающаяся
условиями вида {Bi и £//) = О, не должна иметь следствием, что какое-
нибудь из данных предложений В{ меняет содержание (поэтому
невозможно, чтобы (Bi и Ви) = 0, при всяком к). Установление условия
(В{ и Bh) = О можно, однако, также рассматривать, как преобразование
совокупности, полученной от соединения не связанных совокупностей.
Таким образом, та ил!П иная связь между соединяемыми совокупностями
приводит к различным по содержанию сложным совокупностям причем
первоначальные составные части у них одинаковы.
Глава II
ВЕРОЯТНОСТИ ПРЕДЛОЖЕНИЙ КОНЕЧНЫХ СОВОКУПНОСТЕЙ
§ 4. Аксиомы и основные теоремы теории вероятностей
16. Аксиомы. Как мы видели, равнозначные предложения могут быть
представлены одним и тем же символом или численным коэффициентом.
Таким образом, мы получили своего рода исчисление предложений,
которое может найти себе применение в чистой логике.
Основным новым допущением теории вероятностей является
положение, что один и тот же численный коэффициент, называемый
математической вероятностью, может быть иногда приписан и неравнозначным
предложениям. Этот коэффициент не должен изменяться от того, что мы
присоединяем к данной совокупности8 предложений другую совокупность.
Вероятности предложений данной совокупности могут изменяться только
при преобразовании совокупности, рассмотренном в § 3, состоящем в
осуществлении некоторого предложения.
Утверждение, что вероятность предложения А равна вероятности
предложения В (вер. А = вер. В), или, что А и В равновозможны, мы будем
выражать краткой формулой
Аа В,
KzAcsiBnAcsiC вытекает, следовательно, В сг>С.
8 Теория вероятностей рассматривает только совершенные совокупности
предложении.
23
Если А = В, то тем более А сг>В\ поэтому, в частности, все
достоверные предложения имеют одну и ту же вероятность (достоверность), все
невозможные предлоокепия также имеют одну и ту же вероятность
(невозможность) .
Совокупность предложений, в которой каждому предложению
приписана определенная математическая вероятность, называется арифметизо-
еанной. Если численный коэффициент, являющийся математической
вероятностью А, не равен численному коэффициенту — вероятности В, то
один из них больше другого, что мы, для краткости, будем выражать
неравенствами А > В или В > А.
Следующие аксиомы являются единственными правилами, которые
должны соблюдаться при арифметизации конечной совокупности
предложений.
Аксиома 1. (О достоверном предложении.) Если A =f=Q, то Й > А.
Следствие 1. Q > О.
Аксиома 2. (О несовместимых предложениях.) а) Если Ac^Ai4
Bcsz В^ и, кроме того, (А и В) = (А^ и 2?i) = О, то (А или В) оо (Ai или В\);
Ь) если же А с*> At, В > Ви то (А или В) > (Ai или Si).
Следствие 2. Если Аф О, то А > О.
В самом деле, (А или A) = Q, (А или 0) = А; но й > А, поэтому
А >0.
Следствие 3. Если А есть частный случай В, причем (А и В)фО,
то В>А.
Действительно, В = [А или (А и В)], А = (А или О), и так как
(А и£)> О, то В> А.
17- Независимость и непротиворечивость аксиом. Очевидно, эти
аксиомы не могут быть следствием ранее установленных предварительных
аксиом, так как ничто не мешало бы нам, например, принять, вопреки
аксиоме 1, все предложения равновозможными, или, напротив, только
одну пару неравнозначных предложений признать равновозможными (так,
что при Асъ А\, В = В\ будем иметь (А или В) 3g (A\ или В), вопреки
аксиоме 2). Покажем, что аксиома 1 не является также следствием из
обеих частей аксиомы 2. Для этого возьмем какую-нибудь совокупность,
составленную при помощи трех элементарных предложений а, Ь и с;
положим вероятности этих предложений соответственно равными 1, — 1,
—2, а невозможному предложению дадим вероятность 0. Мы получим
вполне определенные значения для вероятности каждого предложения
совокупности, если, соблюдая аксиому 2, допустим, в частности, что
вер. (А или В) = вер.А. + вер.Б, когда (А и В) = 0. При этом, окажется, что
(а или b)cs> 0, с оэ Й,вер. Q == вер. с = — 2, (а или с) с/эЬ,вер. (а или с) =
= вер. Ъ = — 1, вер. (Ь или с) = — 3. Ясно, что первая часть аксиомы 2
также не может быть следствием из аксиомы 1 и второй части аксиомы 2,
ибо из конечного числа неравенств нельзя получить равенства.
Но и вторая часть аксиомы 2 не является следствием аксиомы 1 и
первой части аксиомы 2. Действительно, возьмем какую-нибудь
совершенную совокупность, составленную из п элементарных предложений А\,
А%, .. . , Ап. Условимся считать их равновозможными; тотда
равновозможными будут также все их объединения по 2, и, вообще, все объединения,
24
составленные из к элементарных предложений, будут между собой раюно-
возможны. Это заключение вытекает только из аксиомы 2 (а). Допуская,
что соблюдается также аксиома 1, мы должны будем прибавить, что
объединение из к предложений не может быть равновозможпо объединению
из I предложений, если k=f=l. Всякая функция f(k), удовлетворяющая
условию, что f(k) 2g/(Z), если целые числа к и / не равны, и j{n) > f(k)
(/с = 7г — 1, . . ., 1, 0), может служить значением вероятности
объединения из к предложений. Мы можем допустить, например, не противореча
нашим допущениям, что /(1)< /(2)< ... < f{n — 1) < /(0)< /(//). Но в
таком случае не будет соблюдена аксиома 2(b), так как, в силу этой
последней аксиомы, мы должны были бы иметь (А^илъАъ) < (А\ или О) =
= Аи так как А-> < О (потому что /(1) < /(0)), а между тем /(2) > /(1),
т. е. (Ai или А2) > А1т
Напротив, если положим /(0) < /(1) < /(2) < ... < f(n), то окажутся
выполнены и аксиома 1 и обе части аксиомы 2. Отсюда заключаем, что
наши новые аксиомы не только независимы между собой, но и не
противоречат друг другу.
Из принятых нами аксиом вытекает следующая основная теорема
теории вероятностей.
18. Основная теорема. .Если предложение А есть объединение каких-
нибудь m предложений из некоторых несовместимых единственно
возможных и равновозможных предложений, а предложение В есть
объединение каких-нибудь Ш\ предложений из некоторых п\ несовместимых един-
^ m mi
ственно и равновозможных предложении, то А^о В, когда - - = —.
п п\
m m\ [х и.
В самом деле, пусть — = = —, где — есть несократимая дробь.
П П[ V V
В таком случае m = /cji, n = kv, rn\ = k\\i, щ = k\v, где к и к\ — целые
числа. Обозначим через ci, с2,.. ., ст,. . ., сп несовместимые единственно
и равновозможные предложения, из которых первые т имеют
-объединением А. Полагая, далее, d\ = (с\ или с^ или . . . ch), d2 — (Ck+\ пли . . . C2h)
и т. д., мы составим v несовместимых единственно и равновозможных
(аксиома 2(a) ) предложений du о\,..., dv, пр1гчем первые и, из них имеют
объединением А. Точно так же, обозначая через с/ с*', ..., с'п ,
несовместимые единственно и равновозможные предложения, из которых mi имеют
объединением В, составим v предложений d/, о\',... ,d'p,, несовместимых
единственно и 1равновозможных, из которых р. имеют объединением В.
Но ясно, что di cs> dh\ ибо, допустив, например, что di > d/, мы имели бы
вообще di < di, а потому, применяя аксиому 2(b),Q>Q, что
невозможно; таким образом, dicod/, d2co2/ и т. д., откуда (di или d2iLjiH... dH)co
со {di или dz или... d/), т.е.
4с^й,ч.ит. д.
19. Определение математической вероятности. Таким образом,
коэффициент, названный нами математической вероятностью А, вполне определен
т
дробью —, где п есть число единственно и «равновозможных нешвмести-
25
мых предложений, из которых т имеют объединением А. Этот коэффици-
т
ент является, следовательно, функцией —, которую обозначим чеоез
п
ср ( — ). Функция ф ( — I на основании предыдущего должна быть
возрастающей, и это необходимое условие вместе с тем и достаточно для
соблюдения всех принятых нами аксиом, лишь бы функция ф (— ) была
бы зафиксирована раз навсегда для всех совокупностей, которые могут
быть присоединены к данной. Так как возрастающую функцию ф (— ь
которую нужно зафиксировать, можно выбрать произвольно, то для нее
/ m \ m
принимают наиболее простое значение ф | —" ) — — , т. е. математической
\п ) п
m
вероятностью А называют —. Однако в согласии с основными аксиомами
п
пг2
мы с одинаковым правом могли бы также назвать вероятностью ——,
m
и т. д. Очевидно, что принятие того или иного >словесно1го онределе-
п — пг
тшя так же мало повлияло бы на выводы теории вероятностей, как
изменение единицы меры на выводы геометрии или механики. Изменилась бы
только форма теорем, а не их содержание; мы получили бы не новую
теорию вероятностей, а изложение той же теории в новой терминологии.
Таким образом, соглашение, которое мы вводим здесь, носит чисто
технический характер9, в противоположность основным аксиомам, принятым
выше, характеризующим сущность понятия вероятности: нарушение эгпх
основных аксиом, напротив, совершенно изменило бы содержание теории
вероятностей.
m
П р и мо ч а -н и е. Дробь , т. е. отношение числа благоприятных
п. — пг
m
п
случаев к числу неблагоприятных, или , т. е. отношение вероят-
п — m
п
ности предложения к вероятности его отрицания, можно было бы вместе
с Борелем (Le hasard, p. 58) назвать относительной вероятностью
предложения.
m
9 Если бы мы назвали вероятностью , то, например, в теореме Бернулли
п — тп
нужно было бы заменить отношение числа появлений события к общему числу
опытов отношением числа появлений к числу непоявлений. Соответствующее изменение
получила бы и формулировка теоремы сложения вероятностей: вероятность (Л или В)
Р + Pi + 2ppi
была бы равна не сумме вероятностей р 4- Pi, а выражению
1— PPt
2.6
Замечание. Заметим, что, присоединяя к данной совокупности
новую, мы всегда должны и можем так распределить в согласии с
аксиомами значения вероятностен вновь вводимых предложений, чтобы в
соединенной совокупности данные предложения сохранили ту же вероятность,
что ц в первоначалыгой. Действительно, пусть в данной совокупности
элементарные предложения Аи Л2, ..., Ап равновозможны;
следовательно, все предложения этой совокупности после выбора функции ф
имеют вполне определенные значения. Присоединим вторую совокупность,
построенную из элементарных предложений В{. В2,... , Bh. Условимся,
например, считать равновозможными в соединенной совокупности все
совмещения (Ai и Bj)\ в таком случае все предложения соединенной
совокупности при сохранении той же функции ф получат определенные
вероятности, причем всякое объединение вида (А\ или Аг ПЛИ . . . Ауп ), имевшее
/ m \
прежде вероятность, равную ф» — I, рассматриваемое как объединение
[(^i и Si) или (^i и В2) или .. . или (Ат и Bk)i должно получить вероят-
(km \ i m \
~— J = ф / •— \ т. е. не изменяет своего значения. При этом все
предложения Bj также 'окажутся равновозможными.
Таким образом, в данной совокупности предложений можно условиться
считать равновозможными любые несовместимые и единственно
возможные предложения А\, А2, .. ., А\. После такого соглашения определенные
значения получат вероятности тех и только тех предложений, которые
являются .объединениями предложений А\, А2, ..., Ah, или, иными словами,
которые входят в совокупность G, имеющую элементарными
предложениями Ли Аг, ..., Ak. После этого другую группу единственно возможных
и несовместимых предложений Si, В2, ..., Bi можно будет также принять за
равновозможные, если совокупность G\, составленная пз них, не связана
с совокупностью G и т. д.
Действительно, никакое предложение а (кроме Q) не является
одновременно объединением элементарных предложений G и G\. Если же а и (3
суть два несовместимые между собой предложения G, и ai и Pi — два
несовместимые предложения G\, то, благодаря принятому определению
вероятности, соглашение, что аоэ ai, p oo pi повлечет (а пли Р)о? (at или
Pi), и а с^аь Р > Pi повлечет (а пли p)>(ai или pi), т. е. наши аксиомы
не будут нарушены.
Что касается совмещений и объединений совместимых предложений,
то их вероятности не вполне определены, и для их определения нужно
будет новое соглашение, о котором речь будет впереди. Во всяком случае
выше была отмечена возможность такого соглашения.
20. Теорема сложения. Аксиома 2 (а) может быть формулирована
иначе: если р есть вероятность А, р± — вероятность В, то вероятность
(А или В) есть функция /(р, р^, при А и Б, иеоовхмеютимых можду собой.
[пг \
Вид функции /(р, pi) зависит от выбора функции ф ( —I; нетрудно
вывести общую связь между этими функциями, но после вышесказанного
27
/ m \ m
для нас вполне достаточно ограничиться случаем, когда ф — )= — , что
\ п ] п
приводит, как увидим, к /(p,Pi) = Р + Pi. Обратно, если бы мы
зафиксировали функцию /, которая в силу аксиом должна быть только
возрастающей, симметричной и удовлетворять уравнению /[р, / (pi, P2)] =
"= flPu /(P1P2)], мы бы получили соответствующую функцию ф, и, в част-
(т \ т
ности, из /(р, Р\) = р + Р\ можно было бы также вывести ф — 1 = —Я,
\ п / п
где Н — произвольное положительное число.
Теорема. Если два несовместимые предложения А и В имеют
соответственно вероятности р и pi, то предложение (А или В) имеет
вероятность р + р\.
Эта теорема доказывается обыкновенно * для случая, когда А и В
представляют несовместимые объединения единственно и равновозможных
несовместимых [предложений, т. е. для того случая, когда непосредственное
применение определения вероятности делает ее почти излишней. В
действительности же теорема важна именно в тех случаях, для которых она не
доказывается. Для полноты доказательства необходима только новая
ссылка на аксиому 2: на первую часть, если оба числа р и р\ рациональны,
и на вторую часть, если эти числа иррациональны.
В самом деле, допустим сначала, что числа р и р\ — рациональны, так
га Ш\
что р = —, Pi = . Если мы присоединим к нашей «совокупности какую-
П П\
нибудь совокупность, не связанную с ней ж содержащую пщ
равновозможных элементарных предложений, то предложение А', являющееся
объединением каких-нибудь тщ из этих элементарных предложений, будет иметь
тп\ т
ту же вероятность = — = р, что и А, предложение же В , являющееся
ПП\ П
объединением других 1G каких-нибудь т\п из элементарных предложений,
772-171 772-1
имеет ту же вероятность = = рй что В. В таком случае (А или
П\П Щ
В') будет объединением Ш\п + щтп из пп\ элементарных предложений,
Ш\П + П\Ш Ш\ Ш
а потому, согласно определению вероятности, = 1 =
ПЩ 711 П
= Pi + p будет вероятностью (А' или В'), и в силу аксиомы 2(a) будет
также вероятностью (А или В), ч. и т. д.
Положим теперь, что числа р и р\ (или только одно из них)
иррациональны. В таком случае число р является пределом рациональных чисел
Ai < Ао < ... < Тщ < ... ,и fLti > \i2 > .. . \in >... , а число pi — пределом
рациональных чисел h < ta <C ... < Хп ... и щ > |Я2 > .. • > Цп > .. • .
Обозначим через Ап некоторое предложение, имеющее вероятность Кп,
* См.: Марков А. А. Исчисление вероятностей. Изд. 3. СПб., 1913, стр. И и 172.
(Автор.)
10 Если бы р\ + р > 1, то ©место В' пришлю-сь бы взять предложение А', и,
таким образом, мы убедились бы в недопустимости такого предположения.
28
и через Вп — несовместимое с ним предложение, имеющее вероятность11
Хп. Тогда, благодаря аксиоме 2 (Ь), имеем (Ап или BV)<C(A или В), т. е.
Хп = Хп < вер. (А или В). Точно так же обозначаем через Ап и Вп пред-
ложения. имеющие соответственно вероятностями \in и \лп\ в гаком случае
получим, по той же аксиоме, вер. (А или В) <.\хп + \in. А поэтому, на
основании известной теоремы о пределах, находим вер. (А или В) = р + р{.
ч. и т. д.
21. Следствие. Из предыдущего вытекает, что условие, необходимое и
достаточное для того, чтобы числа р\, р2,... могли быть соответственными
вероятностями предложений А\, А^. . . данной конечной совокупности,
заключается в том, чтобы вероятность объединения двух или нескольких
несовместимых предложений была равна сумме вероятностей этих
последних, чтобы достоверное предложение имело вероятность 1 (а следовательно,
невозможное — вероятность 0), остальные же предложения —
вероятности, заключенные между 0 и 1 (0 < р < 1).
Отсюда следует, в частности, что если две совокупности G и G\ не
связаны, то вероятности, приписываемые предложениям (7, не связаны
логически с вероятностями предложений G\, т. е. арифметизация одной
совокупости не зависит от арифметизации другой. Напротив, если
совокупности G и G\ связаны, то предложениям G\ нельзя давать вполне
произвольные вероятности после того, как вероятности предложений G
установлены.
В некоторых случаях даются вероятности не всех предложений
совокупности. Тогда необходимо только, чтобы оставалась возможность
располагать неопределенными еще вероятностями так, чтобы соблюсти
указанное выше основное условие 12.
§ 5, Совмещение и осуществление предложений
22. Совмещение предложений. Очевидно, что вероятность (А ж В)
вообще не может быть определенной функцией вероятности А и
вероятности В; достаточно заметить, что если А л В несовместимы, то (А и В)
а О; напротив, если А = В, то (А и В) &оА. Единственное общее
положение, которое можно высказать, это то, что вер. (А и В) + вер. (А и В) =
= вер. А, а потому, в частности, вер. (А и В) <^вер. А.
Вообще, можно принять, что вер. {А и В) = Хрр\, где р и pi
представляют соответственно вероятности А и В, а X называется коэффициентом
совместимости А -с В. В частности, X = 0 в том случае, когда предложения
А ж В несовместимы.
11 Два таких предложения только в том случае но могут быть конструированы,
если Хп + Хп' > 1. Заменяя тогда предложение Вп через Ап (т. е. отрицание Ап), мы
нашли бы, применяя аксиому 2, что 'Дре-дложе'ние (А или В) имеет вероятность
больше единицы, т. е. больше Q, что противоречит аксиоме 1; следовательно, числа р и
pi не могут в этом случае быть вероятностями несовместимых предложений.
12 Заметим, что аксиомы 1 и 2 (Ь), вместе взятые, равнозначны следующей одной
аксиоме: неравенство А> В означает, что существует (или может быть
присоединено) предложение By. с/эВ, являющееся частным случаем А.
29
Допустим, что мы имеем арифметизованную совокупность,
составленную из элементарных предложений А\, A2j. . . , Ап, вероятности которых
pi, р2, . . . , рп удовлетворяют условию р\ + р2 + . . . + рп = 1. Присоединяя
к этой совокупности совокупность О, С, С, Q, в которой вер. С = р, вер. С =
= #(р + # = 1), мы арифметизуем соединенную совокупность, полагая
вер. (А\ и С) = ^iPip, вер. (Л2 и С) = Х2р2р,. • . , вер. (Л„ л С) = Хпр„р,
где
1
Р
И
hp\ + ^2Р2 + . . . + ХпРп = 1;
в таком случае
Вер. (Ai ИС)= Рг — ХгРг-р = рг(1 — А.,-р).
Поэтому, обозначая через \ii коэффициент совместимости At с С, имеем
MP + \nq = 1.
Обстоятельство, что данные совокупности не связаны между собой,
выражалось бы тем, что А; > 0, \ii > 0. Особого внимания заслуживает
случай, когда совокупности независимы.
23. Независимые предложения. Предложение А называется
независимым от Б, если коэффициент совместимости А с В равен коэффициенту
совместимости А с В.
Теорема. Если предложение А независимо от В, то предложение В
независимо от А, и коэффициент совместимости А с В равен единице.
Действительно, если
вер. (А и В) = Xpip, вер. (А и В) = Xpiq,
где р + q = 1, то
вер. (А и В) + вер. (А и В) = >.pi = pi,
откуда Я = 1. Но, если А, = 1, то
вер. (АмВ) = р — pip = qtf,
т. е. Б независимо от А.
Следствие. Если несовместимые между собой предложения А и А\
оба независимы от В, то (А или ^i) также независимо от В. Вообще, если
коэффициенты совместимости А и 4i с В оба равны А,, то коэффициент
совместимости (А или А\) с В также равен X. Если все элементарные
предложения совокупности II независимы от элементарных предложений
совокупности #i, то, вообще, каждое предложение Н независимо от
каждого предложения Н\. Такие две совокупности называют независимыми
между собой. Очевидно, независимыми могут быть только несвязанные
совокупности; но, разумеется, несвязанные совокупности не всегда
независимы.
30
Не останавливаясь на дальнейшем развитии этих соображении, укажем
лишь вкратце, как определяется независимость п предложений Ль Л2,
...., Лп.
Предложения Ль Лг,..., Лл, вероятности которых соответственно
равны рь р2, ..., /^/i. называются попарно независимыми, если
совмещение (А{ и А к) имеет вероятность PiPkl они называются независимыми но
три, если каждое совмещение (Лг- и Ah и А{) имеет вероятность р,рлр/
и т. д. Если данные предложения независимы попарно, по три, ... и по //,
то они называются (совершенно) независимыми. Для совершенной
независимости п предложений требуется, следовательно, Сп + Сп + ... + Сп =
= 2п — п — 1 условий; при этом можно показать, что ни одно из этих
условий не является следствием из остальных 13 (например, если три
предложения попарно независимы, то из этого не вытекает, что они совершенно
независимы).
24. Осуществление предложений. Из предыдущего следует, что для
вычисления вероятности совмещения предложений нет необходимости вводить
новые допущения; потому важнейшие отделы теории вероятностей
(теорема Бернулли и все ее обобщения, известные иод названием закона
больших чисел) вытекают исключительно из принятых нами аксиом. Однако
на практике вместо коэффициента совместимости часто бывает удобнее
пользоваться другим понятием — понятием вероятности одного
предложения при условии осуществления другого, существенно необходимым только
для построения отдела вероятностей гипотез. Для этого мы введем новое
допущение, которое дополнит данное ранее (§ 3) определение
преобразования совокупности, которое мы назвали осуществлением предложения.
Аксиома осуществления. При осуществлении предложения А
данной совокупности Н всякое предложение а, бывшее частным случаем
Л, в преобразованной совокупности получает вероятность, которая зависит
только от вероятностей А и а в данной совокупности Н.
Таким образом, но определению, вероятность аА предложения а после
осуществления Л есть
аА = /(вер. а, вер. А). (И)
Данное нами в § 3 определение осуществления предложения Л
определяет только логическую структуру преобразованной совокупности; а так
16 Исходя из понятия осуществления одного или нескольких предложений,
А. А. Марков в «Исчислении вероятностен» (стр. 19) дает другое определение:
«...несколько событий Еи Е2, ..., Еп мы называем независимыми друг от друга, если
вероятность каждого из них не зависит от существования или несуществования
остальных, так что никакое указание на существование или несуществовании каких-нибудь
из событий Et, Е2, . .., Еп не меняет вероятности прочих». Нетрудно убедиться в
равнозначности обоих определений; но следует заметить, что и последнем определении
некоторые условия являются необходимым следствием из остальных, как это видно
из того, что число этих условий равно п(2п~1—1); таким -образом, сопоставляя это
число с найденным ранее, видим, что (п — 2)2n_1 + 1 условий являются здесь
следствиями из остальных; например, для п = 2 независимость В от А есть следствие
независимости Л от В. Заметим, что во многих случаях (например, в неравенстве Че-
бынлева), существенно расчленять понятие независимости, и особо важную роль
играет попарная зависимость или независимость.
31
как вероятности предложений не вполне определяются логической
структурой совокупности, которой они принадлежат, то наше новое допущение 14
не может быть следствием из предыдущих.
Покажем теперь, что аксиома осуществления не противоречит ранее
принятым аксиомам, если только функция / в формуле (11) имеет
значение
вер. а
аА=—V—. (12)
вер. А
В самом деле, так как структура остающихся в преобразованной
совокупности предложений та же, что и в данной, то
/(вер. а + вер. Р, вер. А) = /(вер. а, вер. А) + /(вер. |3, вер. А).
Но, как известно 15, для этого необходимо, чтобы
/(вер. а, вер. А) = (вер. а)^(вер. А).
С другой стороны, по условию, АА — 1; следовательно, (вер. А) X
X ^(в>ер. А) = 1, а потому
вер. а ,,Л,
аА= л . (12)
вер. А
Вместе с тем мы видим, что определенная нами функция аА дает всем
предложениям преобразованной совокупности вероятности,
удовлетворяющие условию арифметизации (п. 21), если только вероятности
предложений первоначальной совокупности этому условию удовлетворяли, и,
следовательно, не противоречит основным аксиомам.
25. Теорема умножения вероятностей. Вероятность (А и В) равна
вероятности А, умноженной на вероятность В после осуществления А.
14 Аналогичную аксиому, относящуюся только к совокупностям, в которых
элементарные предложения равновозможны, мы находим в «Исчислении вероятностей»
А. А. Маркова (стр. 10). Разъясним нашу аксиому на примере. Если всякое
размещение из двух карт в полной колоде имеет одну и ту же вероятность 1/(52-51),
то, по теореме сложения, вероятность того, что 1-я (или 2-я) из вынутых карт есть
червонный валет, равна 51/(52-51) =1/52; когда становится известным, что
первая карта есть червонная дама, то лишь благодаря аксиоме осуществления все
размещения, содержащие эту даму, остаются равновозможны, а потому вероятность
второй карте оказаться червонным валетом становится равной 1/51. Если бы мы
исходили только из предположения, что при вынимании одной карты все карты
равновозможны, то аксиома осуществления была бы недостаточна, чтобы признать
все размещения по две карты равновозможными, что является естественным, если
за-метить, что легко осуществить опыт, при котором эти размещения не оказались
иы равновозможны.
15 Из функционального уравнения f(x + у) = f(x) + f{y) выводят сначала, что
/ (пх) = nf {х) для всякого целого п. Полагая затем пх = ту, где т также целое
число, получают nf(x) = mf(y), откуда f(nxlm) = n/mf(x). Так как функция
/ (х) конечна ( I / (х) 1^1 при 0<я^ 1), то из равенства / (пх) = nf (x) мы
заключаем, что / (х) стремится к нулю вместе с х, откуда следует, что функция
f(x) непрерывна, а потому равенство f(tx) = tf(x), доказанное для всякого
рационального значения t, справедливо всегда. Следовательно, / (t) = tf (l).
32
В самом деле, предложение (А и В) поело осуществления А равнознач-
но (Q и В) = В. Поэтому вероятность (А и В) после осуществления А
(ЛДЛ)л-Дл-ВеР--(Л*В*.
вер. А
Следовательно, вер. (А и В) = (вер. А)-ВА, ч. и т. д.
Примечание. Из теоремы умножения вероятностей, в частности,
вытекает положение: если а есть частный случай А, то вероятность а
зависит только от вероятности А и от вероятности а после осуществления А.
Это положение равнозначно такому: если а есть частный случай А, а |3
есть частный случай В, то вероятности аир равны между собой, коль
скоро А и В равновероятны, и вероятность а после осуществления А равна
вероятности (3 после осуществления В.
Это предложение может'заменить данную выше аксиому
осуществления, так как ш него можно вывести, подобно предыдущему, теорему
умножения.
Введение понятия вероятности одного предложения после
осуществления другого позволяет дать другое определение независимости.
Если вероятность В после осуществления А равна первоначальной
вероятности В, то В независимо от А.
Следствие. Если В независимо от А, то А независимо от В и
вер. (А и В) = (вер. А) • (вер. В).
26. Теорема Байеса. Вероятность А после осуществления В равна
(вер. А) ВА
Ав = — .
вер. В
В самом деле,
вер. (А и В) (вер. А)ВА
Ав = - = .
вер. В вер. В
Аксиома осуществления (п. 24) является единственным основанием
теоремы Байеса и ее следствий, вывод которых не представляет
принципиальных трудностей.
Глава III
БЕСКОНЕЧНЫЕ СОВОКУПНОСТИ ПРЕДЛОЖЕНИЙ
§ 6. Распространение предварительных аксиом
на бесконечные совокупности
27. Совершенные совокупности. Основное требование, которое мы
должны поставить при рассмотрении бесконечных совокупностей предложений,
заключается в том, чтобы правила символического счисления,
установленные в § 1 для конечных совокупностей, не изменились бы от того, что
мы те же самые предложения будем считать принадлежащими некоторой
бесконечной совокупности. Совокупность предложений (конечную или
бесконечную), к которым применимы все вышеупомянутые правила, мы
3 С. Н. Бернштейн
33
называем совершенной. Однако некоторые из допущений, которые для
конечных совокупностей являлись следствиями из других, для
бесконечных совокупностей делаются новыми самостоятельными аксиомами.
Действительно, существование истинного предлооюения, которое для
конечной совокупности было следствием из аксиом (а — d), в бесконечной
совокупности является новым допущением. В самом деле, рассмотрим
р
совокупность правильных дробей —, написанных в бинарной системе
(0,101; 0,011 и т. п.); под операцией «или» будем подразумевать
составление новой дроби из двух данных дробей так, что на каждом месте ставится
наибольшая из цифр, стоящих на соответствующем месте в данных
дробях [(0,101 или 0,011) = 0,111]. В этой совокупности не будет числа,
соответствующего истинному предложению, которое должно было бы быть
представлено бесконечной дробью 0,111... = 1. Но мы можем
присоединить к нашим дробям 1, чтобы осуществить аксиому истинного
предложения; если же присоединим 0, то получим также и невозможное
предложение.
Второе новое допущение, которое здесь должно быть сделано, между
тем как в конечной совокупности оно было следствием из предыдущих,
это существование совмещения двух предложений (А и В).
Наконец, третье и последнее дополнительное допущение —
распространение ограничительного принципа на бесконечные объединения
предложений.
В примере бинарных дробей (включая 0 и 1), который мы только что
ввели, совмещение двух предложений существует и представлено дробью,
имеющей на каждом месте меньшее из двух значений -(0 л 1), стоящих
на том же месте в данных дробях. Вместе с тем ко всякой паре
предложений здесь применим и ограничительный принцип, так что все свойства
совмещений и, в частности, теоремы распределительности остаются в силе.
Кроме того, в нашем примере соблюден также и принцип единственности,
однако рассматриваемая совокупность не будет совершенной.
Действительно, согласно данному в § 1 (п. 8) определению отрицания,
отрицанием всякого предложения А называется объединение всех
несовместимых с ним предложений. Но несовместимых предложений будет
бесконечное множество, и мы должны прежде всего обобщить данное в § 1
определение объединения.
Объединением Н = (А или В или С ...) бесконечного множества
предложений А, В, С, ... называется предложение Н, удовлетворяющее
условиям16: 1) если у есть частный случай какого-нибудь из предложений А,
В, С, ..., то у есть частный случай Н; 2) если каждое из предложений
А, В, С, ... есть частный случай М, то и Н есть частный случай М.
Согласно этому определению, принципы переместительный и
ассоциативный распространены на бесконечные объединения, как и принцип
тождественности. Но остается открытым вопрос о распространении принципа
16 Ясно, что если объединение II существует, то оно единственно. Действительно,
если #i также удовлетворяет первому условию, то (А или Н\) = II и (В или Hi) = #i,
л т. д., поэтому (II или Hi) = Ни но так как Hi удовлетворяет и второму условию,
то (II или #i) = Н, следовательно, Н = Нх.
34
ограничительного. В рассмотренном примере это распространение не
осуществляется. В самом деле, объединением всякой бесконечной
совокупности различных предложений* будет истинное предложение, например,
объединением дробей: 0,01; 0,001; 0,0001 и т. д., а, между тем, предложение^
0,1 не представляет собой объединения из частных случаев этих дробей,
ибо каждая из последних не имеет иных частных случаев, кроме О и самой
себя. Благодаря нарушению обобщенного ограничительного принципа
нарушается следствие 17: Если х — Q, то х = О, так как бесконечное
объединение несовместимых с х предложений может оказаться
совместимо с х.
Итак, для того, чтобы сделать бесконечную совокупность совершенной,
нужно .прибавить последнее допущение—обобщение ограничительного
принципа:
Объединение а = (А или В или С. ..) бесконечной совокупности
предложений не содержит иных частных случаев, кроме объединений из
частных случаев А, В, С,
28. Совмещение предложений и отрицание. Следствие 18 в § 1
устанавливает связь между совмещением и отрицанием предложений. В силу
этого возможно определить совмещение на основании формулы
(А и В) = (Л или В) . (13)
Поэтому введенное нами дополнительное допущение существования
совмещения двух предложений может быть заменено следующим:
Если А есть предложение совокупности, то существует и объединение
всех несовместимых17 с А предложений, которое и называется А, т. е.
отрицанием А.
Вследствие обобщенного ограничительного принципа, А ж А
несовместимы; вследствие принципа единственности, (А или А) — Q. Кроме того,
А = А] действительно, если (а или -4) = А, то (а и А) = О, поэтому
(а или А) = А, откуда (А или А) = А; с другой стороны, если (а или
А) = А, то (а и А) = О, но так как а есть частный случай Q = (А или А),
то а (вследствие ограничительного принципа) есть объединение из
частного случая А и частного случая А, поэтому а есть частный случай А.
Докажем теперь, что предложение
z = (А или В)
соответствует определению, данному в § 1 (п. 5).
Для этого заметим сначала, что из (С или D)= D вытекает (С или
D) = С, так как предложение, несовместимое с D, т. е. принадлежащее D,
несовместимо и с С, а потому принадлежит также С.
Итак, нам нужно показать, во-первых, что z есть частный случай А
и частный случай В и, во-вторых, что всякий совместный частный
случай А и В есть частный случай z. В самом деле, А есть частный случаи
* В рассматриваемом примере. (Ред.)
17 Определение несовместимости двух предложений может быть сохранено
прежнее.
35
3*
(А .или В), поэтому z = (А или В) есть, в силу только что доказанного,
частный случай А; по этой же причине z есть частный случай В.
Пусть, с другой стороны, х есть частный совместный случай А и В,
-тогда А есть частный случай х, и В есть также частный случай х, а
потому (А или В) есть частный случай х; следовательно, наконец, х есть
частный случай z = (А или В), что и требовалось доказать.
Из формулы (13) мы выводим также определение совмещения
бесконечного множества предложений
(А я В и С ...) = (А или В или С ...). (14)
Таким образом, ассоциативность и коммутативность распространяются
и на бесконечные совмещения.
Покажем, что и теоремы распределительности распространяются на
бесконечные объединения. Покажем сначала, что
[h и (А .или £...)] = [(h и А) или (h и В) ...]. (15)
В самом деле,
[А или В или С ...] = [(h и А) или (7г и .А) или (h и 5) или ...] =
= {[(А и А) или (/г и В) или ...] или [(h и А) или (/г и В) или ...]}.
Поэтому
[h и (А или Б или С ...)] =
= {h и [(fe и А) или (h и 5) или ...]} или \h и [(h и А) или ...]} =
= [(h .и А) или (h и В) или .. .], ч. и т. д.
Примечание. В этом доказательстве предполагается, что обе части
равенства (15) имеют смысл. Но можно убедиться, что если (А или В ...)
существует, то существует и вторая часть равенства (15). Действительно,
z = [h ж (А или В . ..)] имеет частным случаем всякое из совмещений
(h к A), (h и В) и т. д., поэтому [(h и А) или (h и В) ...] будет иметь
смысл и окажется равным z, если только мы покажем, что всякое
предложение Af, отличное от 2, имеющее частным случаем (Аи4), (h и 5)
и т. д., включает в себя г; но если бы z не было частным случаем М, то
z включало бы в себя Zi = (z и Af), которое имело бы те же частные
случаи (h и А) и т. д., так что (z и zi) =^=0 было бы несовместимо ни с
одним из предложений (h и A), (h и В) и т. д., между тем как всякий
частный случай z должен быть совместим с h и, по крайней мере, с одним
из предложений А, В и т. д., следовательно, z есть частный случай Л/.
Полагая h = h^ Ai = At, В = Bt и т. д. и беря отрицания обеих частей
равенства (15), получим вторую теорему распределительности
[hi или (Ai и Bi и . ..)] = [(&[ или А\) и (h\ или i?i) и .. .]. (15 bis)
29. Обобщенный конструктивный принцип. Из сделанных нами
допущений отнюдь не вытекает существование бесконечного объединения
из каких угодно предложений. Допущение, что существует всякое
бесконечное объединение яз предложений данной совокупности, т. е. обобщение
конструктивного принципа, не является обязательным для совершенной
36
совокупности18. Если мы примем этот общий принцип, то из него, в
частности, будут вытекать и существование истинного предложения, и
существование совмещения.
Пример совершенной совокупности, в которой соблюден обобщенный
конструктивный принцип, мы получили бы, если бы дополнили только что
рассмотренную систему конечных бинарных дробей совокупностью всех
бесконечных дробей, при условии, что дроби, имеющие в периоде 1, не
будут считаться равнозначными тем конечным дробям, которым они должны
быть равны как пределы бесконечной суммы членов геометрической
прогрессии. Для того, чтобы избежать этого противоречия с общепринятыми
арифметическими допущениями, достаточно рассматривать паши дробп
как написанные не в бинарной, а в какой-нибудь другой, например,
десятичной системе.
Пример совершенной совокупности, где обобщенный конструктивный
принцип нарушен, мы получим, рассматривая, кроме конечных дробей,
только те бесконечные дроби, которые имеют периодом 1. Действительно,
как и в предыдущем случае, здесь соблюдены все необходимые условия
совершенной совокупности, а между тем некоторые объединения, как,
например, объединение всех дробей, имеющих 1 только на четных местах,
лишены смысла, так как всякая дробь вида: 0,01111...; 0,010111...;
0,0101011..., должна была бы иметь частным случаем это объединение,
но бесконечная дробь 0,01(01)... не включена в нашу совокупность.
Примечание. Когда мы, кроме ОД 11..., рассматриваем только
конечные дроби, то мы могли бы сказать, что эта бесконечная дробь 0,111...,
соответствующая истинному предложению, является объединением всякого
бесконечного множества предложений. Однако во избежание
недоразумений, ввиду того, что мы всегда должны оперировать только с
совершенными совокупностями, мы будем включать уже в самое понятие
объединения допущение ограничительного принципа, поэтому объединение,
не удовлетворяющее этому принципу, следует считать лишенным смысла,
и необходимо помнить, в частности, что обобщенный конструктивный
принцип постулирует существование именно тех объединений, которые
присущи совершенным совокупностям, т. е. подразумевает обобщенный
ограничительный принцип.
Из формулы (14) видно, что из обобщенного конструктивного принципа
вытекает существование совмещения всякого бесконечного множества
предложений.
30. Классификация бесконечных совершенных совокупностей. В § 3 мы
показали, что все конечные совершенные совокупности Ихмеют одну и ту же
18 Обобщенный конструктивный принцип (вместе с ограничительным)
осуществляется в схеме § 2, если мы распространим ее на бесконечное множество простых
чисел и их всевозможных произведений, лишенных квадратных множителей.
Истинному предложению по-прежнему соответствует 1, ложному — будет соответствовать
0, который мы определим, (как число, кратное всем целым числам. Однако
составленная система, в которой всегда существует и совмещение двух предложений
(наименьшее кратное), не будет совершенной, ибо в ней нарушен принцип
единственности — всякая пара предложений (кроме О) здесь совместима; поэтому отрицанием
всякого предложения было бы О. Заметим, что теоремы распределительности
остаются тем не менее в силе.
37
структуру, а именно, составляются при помощи элементарных
предложений. Напротив, существование элементарных предложений отнюдь не
обязательно для бесконечных совершенных совокупностей и, таким образохм,
отнюдь не является необходимым условием применимости всех
установленных выше правил логического счисления.
Мы можем поэтому совершенные совокупности разделить на четыре
типа:
I. Совокупности 1-го типа, для которых
a) не всякое предложение представляет собой объединение
элементарных предложений,
b) обобщенный конструктивный принцип не соблюден.
П. Совокупности 2-го типа, для которых
a) не всякое предложение представляет собой объединение
элементарных предложений,
b) обобщенный конструктивный принцип соблюден.
III Совокупности 3-го типа, для которых
a) всякое предложение есть объединение элементарных предложений,
b) обобщенный конструктивный принцип не соблюден.
IV. Совокупности 4-го типа, для которых
a) всякое предложение есть объединение элементарных предложений,
b) обобщенный конструктивный принцип соблюден.
Рассмотренные выше оба примера совершенных совокупностей
относятся к 3-му и 4-му типам, для которых принцип существования
элементарных предложений соблюден: дроби, содержащие лишь одну единицу,
соответствуют элементарным предложениям. Построим примеры
совокупностей первых двух типов.
Рассмотрим совокупность всех чистых периодических дробей,
составленных из 0 и 1 ( можно даже предположить их написанными в бинарной
\ а \
системе — тогда это будут рациональные числа вида ~ . ) • Придавая
прежний смысл операции «или», мы убеждаемся, что совокупность
совершенна-, но объединение бесконечного множества различных дробей будет
либо истинно (0,111...), либо не будет иметь смысла. Таким образом,
обобщенный конструктивный принцип нарушен, но, кроме того, никакая
из рассматриваемых дробей не представляет элементарного предложения,
так как, взяв двойной период и заменив одну из единиц нулем, мы
получим частный случай этой дроби. Следовательно, построенная
совокупность принадлежит 1-му типу.
Для построения совокупности 2-го типа вернемся к совокупности всех
дробей, соответствующей 4-му типу, но вместо каждой дроби х берем
функцию f{x), определенную условием, что f(x) = 0, если х содержит
лишь конечное число единиц, т. е. представлен конечной дробью; f(x) =
= 0,111 . . ., если х содержит конечное число нулей; и, наконец, f(x) = х
для остальных значений х. Пусть f(x) представляет каждое
предложение, a [f(x) или f(xt)] = /(у), где у имеет наибольшую из цифр f(x) и
f(xi) на каждом месте. Наша совокупность будет совершенной, и кромо
того,
[/(х) или f(Xi) или . . . f(xn) или. . .] = f(y)
38
всегда имеет смысл 19, т. е. обобщенный конструктивный принцип
соблюден. При этом элементарных предложений не будет, так как дробь,
имеющая бесчисленное множество единиц, всегда может быть разложена на две
аналогичные дроби. Мы построили, следовательно, совокупность 2-го типа.
Примечание. Соединение совокупностей того же типа приводит
к совокупности того же типа. Напротив, после осуществления некоторых
предложений тип совокупности может измениться, как мы в этом сейчас
убедимся.
31. Совокупности 2-го и 4-го типов и теорема Кантора. Если мы какую-
нибудь совершенную совокупность разложим всеми возможными
способами на простьге конечные совокупности О, А, А, Q; О, В, В, Q; и т. д., то
для совокупностей 2-го и 4-го типов совмещения (А и В...) будут всегда
иметь смысл и, следовательно, будут представлять либо невозможное
предложение, либо элементарное предложенрге. Пусть а, |3, у и т. д. будут все
элементарные предложения, и пусть А будет какое-нибудь неэлементарное
предложение; в таком случае, если а', р', у' ... представляют все
входящие в А элементарные предложения, и А' = (а' или $' или у' ...), то
А" = (А и А;) будет лишено элементарных предложений.
Если мы положим все предложения А" равнозначными О, то наша
совокупность будет совокупностью 4-го типа. Если же все А' = О, то
совокупность будет лишена элементарных предложений и назовется
простой совокупностью 2-го типа. Таким образом, в самой общей совокупности
2-го типа любое предложение является объединением одного предложения
простой совокупности 2-го типа с одним предложением совокупности 4-го
типа. Обозначая через Q' объединение всех Аг и через Q" — объединение
всех А", мы замечаем, что й' = Q". Отсюда мы заключаем, что,
осуществляя Q", т. е. полагая Q," = Q, мы превращаем всякую совокупность 2-го
типа в простую совокупность того же типа; наоборот, полагая Q/ = Q, мы
превратим нашу совокупность в совокупность 4-го типа.
К совокупностям 2-го и 4-го типов применима следующая теорема
Кантора.
Мощность совокупности 2-го и 4-го типов выше мощности совокупности
ее элементарных предложений.
Это вытекает из того, что, составляя всевозможные объединения
элементарных предложений, мы получаем предложения, которые различны,
если только они отличаются хотя бы одним элементарным предложением.
Следствие 1. Совокупность 4-го типа конечна или же имеет
мощность не меньшую, чем мощность континуума.
Следствие 2. Исчислимая совокупность 2-го типа либо вовсе лишена
элементарных предложений, либо имеет их только конечное число.
После того, как нами доказано существование совершенных
совокупностей четырех типов, нам остается показать возможность их арифметиза-
ции в соответствии с принципами, установленными в главе II.
Таким образом, в частности, при установлении вероятностей
предложений бесконечной совокупности мы не можем придавать значение 1 вероят-
19 у на каждом месте имеет наибольшую из .цифр /(я), /(si), • •., /(зп), . •., тж
что, если х, xi, ... конечные дроби, то / (х) = / (*0 = ... = 0, а потому и / (у) = 0.
39
кости не достоверного предложения А, ибо, беря конечную часть нашей
совокупности (О, Л, Л, Q), мы пришли бы к противоречию. Я потому
подчеркиваю это очевидное замечание, что благодаря недостаточной
отчетливости формулировки принципов теории вероятностей многие математики,
по-озидимому, примиряются с этим противоречием.
§ 7. Арифметизация бесконечных совокупностей
32. Арифметизация совокупностей 1-го типа. Наиболее важный и
характерный образец совершенной совокупности 1-го типа, которым мы
можем ограничиться, получается следующим образом.
Возьмем исчислимую совокупность конечных несвязанных между собой
совокупностей: (О, А, А, £2), (О, Аи А\, Q), (О, Л2, Ач, Q) и т. д.,
которые мы последовательно присоединяем. Совокупность II рассматриваемых
нами предложений составляется из предложений, входящих в какую-
нибудь из получающихся таким образом конечных совокупностей.
Совокупность Н исчислима и совершенна 1-го типа; в ней имеются,
кроме конечных объединений, лишь те бесконечные объединения (cti или
сс2 ...), которые обладают свойством, что только ограниченное число из
входящих в них элементов не является частными случаями предыдущих,
т. е. такие объединения, которые непосредственно приводятся к конечным.
Конкретный пример совокупности Н дает нам неограниченное
повторение опыта бросания монеты. Всякое предложение, относящееся к
конечному чпислу бросаний, имеет определенный смысл, но предложения, не
входящие ни в какую конечную совокупность (например: «число
выпадений орла при неограниченном повторении опыта равно числу
выпадений решетки» или «орел выпадает не менее 10 раз») лишены смысла.
Из вышесказанного ясно, что вероятности всех предложений
совокупности Н определяются последовательно, на основании соглашений и
теорем, установленных для конечных совокупностей, без противоречий, и не
вводя никаких новых допущений.
О вероятностях предложений, не имеющих смысла, конечно, не может
быть речи; но вместо этого часто может представлять интерес вычисление
предела вероятностей некоторых переменных, имеющих смысл
предложений, когда число повторений опыта неограниченно возрастает.
Например, вероятность, что орел выпадает не менее 10 раз при к
бросаниях, стремится к пределу 1, если к бесконечно возрастает, но это
отнюдь не означает, что мы обязаны придавать смысл предложению, что
орел выпадает не менее 10 раз при бесконечном числе бросаний, ибо
возможно, что как бы долго мы ни повторяли опыт, нельзя будет установить,
осуществилось ли предложение или нет.
Точно так же (вероятность, что отношение числа выпадений орла и
решетки будет, после достаточно большого числа бросаний монеты, сколь
угодно мало отличаться от единицы, имеет пределом 1, если вероятность
выпадения орла равна 1/г.
С той же самой точки зрения, которую можно назвать финитистспой,
не вводя никаких особых допущений, мы можем обосновать и так
называемые геометрические вероятности. Заметим сейчас же, что, с логической
40
стороны, финитистская точка зрения, рассматривающая только
совокупности 1-го типа, вполне допустима, но в применении к геометрии она
является несколько искусственной, так как выделение особой категории
предложений, имеющих смысл, является условным и не находит себе
достаточного интуитивно-геометрического основания.
33. Геометрические вероятности. Основной задачей на вычисление
вероятностей в геометрии, к которой приводятся все остальные, является
определение вероятности, что некоторая точка Л/, находящаяся на отрезке
/15, помещается на некоторой части его PQ.
Для разрешения этой основной задачи можно поступить следующим
образом. Полагая, для простоты письма, отрезок АВ равным 1 и точку А
совпадающей с началом 0, возьмем вышеприведенную схему совокупности
1-го типа и условимся составлять бинарную дробь, в которой на первом
месте 1 соответствует предложению А, 0 соответствует А, точно так же
на втором месте цифра 1 соответствует At, цифра 0 — А\, и т. д. В таком
случае каждому предложению нашей совершенной совокупности Я 1-го
типа соответствуют все конечные или бесконечные бинарные дроби, у
которых на одном или нескольких данных местах стоят определенные цифры.
Таким образом, например, предложению (I и ii) соответствуют все
дроби, которые начинаются цифрами 0,01, т. е. все числа х, удовлетворяющие
условию 0,01 < х < 0,1. При этом знаки «<» и «>» можно заменить
также соответственно знаками «<» и «>», так как предложения х = а,
где а есть данная конечная или бесконечная дробь, следует рассматривать,
как лишенные смысла, ибо они соответствуют совмещению бесконечного
множества предложений.
Из вышесказанного вытекает, что если Р и Q суть две точки отрезка
(0, '1), абсциссы которых выражаются конечными бинарными дробями а
и о (а < Ь), то вероятность неравенства а < х < Ь, т. е. того, что х
находится на отрезке PQ, получится непосредственным применением теорем
умножения и сложения вероятностей предложений Л, Ai, Ач, Нетрудно
видеть, что при полной произвольности (в соответствии лишь с основными
допущениями) этих последних вероятностей мы приходим к выражению
F(b)-F(a)
для вероятности а < х < Ь, где F{x) — произвольная неубывающая
функция, определенная лишь для конечных бинарных значений z, причем для
указанных значений
F{b) -F(0) <1
и, кроме того, для Ъ = 1
*'(1) —*•(())= 1.
В частности, если предложения A, Ai и т. д. независимы между собой
и имеют все вероятности, равные 72, то мы придем к принимаемому
обыкновенно значению функции F(z) = z.
Как было сказано выше, предложение х = я, с финитистской точки
зрения, лишено смысла. Тем не менее, можно говорить о пределе вероят-
41
ности неравенств
а < х < а + h или а — 1г<х<.а,
когда h стремится к 0. Вероятность первого из этих неравенств имеет
пределом
lvai[F(a + h) — F(a)],
h~*-0
второго —
lim[F(a) — F(a — h)l
Как известно, эти пределы существуют и, в частности, для непрерывной
функции равны 0.
Аналогичным образом мы не имеем права, оставаясь на финитистской
точке зрения, говорить о предложении
а < х < р,
если а и р — не конечные бинарные дроби, а должны вместо этого
рассматривать предел вероятности неравенства
ап< х < Ъп,
где ап и Ъп представляют конечные дроби, имеющие соответственно
пределом аир.
Если F(z) — функция непрерывная, то предел рассматриваемых
вероятностей не зависит от того, будет ли a 5g ап или р ^ Ъп, и будет равен
F($) — F(a). В общем же случае можно, согласно обычным обозначениям,
положить 7<ЧР + 0)= 1\т F(bn), если Ъп > р и F($ — 0) = HmF(bn),
если Ъп < р.
Таким образом, неравенства ап <. х < Ъп имеют вероятности, предел
которых равен
F(fi ±0)-F(a± 0)
в зависимости от того, справа или слева an и ЬЛ приближаются к своим
пределам аир.
Применяя известные теоремы теории пределов, можно в большинстве
случаев с пределами вероятностей оперировать так же, как с
вероятностями. Например, если отрезки (ар) и (а'р') не имеют общей части, то
вероятность соблюдения одного или другого из неравенств
a < х < р, а' < х < р'
при предположении, что оба они имеют смысл, равна сумме вероятностей
каждого из них. Если же оба или одно из наших неравенств должно быть
рассматриваемо как лишенное смысла, то яужяо сказать, что предел
вероятности, что будет соблюдено одно из неравенств
ап < х < Ьп, а' < х < V
равен сумме пределов вероятностей каждого из них, где ап, bn, af, V
имеют соответственно пределами а, Р, а', Р'.
Из предыдущего достаточно ясно, что если предел вероятностей
некоторых предложений равен нулю, то это не означает, что существует, т. е.
42
имеет смысл при данной постановке вопроса, и предельное предложение,
но если окажется, что оно имеет смысл, то оно невозможно. Аналогичное
утверждение относится и к пределу вероятностей, равному 1.
Примечание. Вместо бинарных дробей можно было бы совершенно
так же рассматривать десятичные или другие дроби. В каждом случае
определенный смысл придается только предложениям, утверждающим,
что на определенных местах стоят определенные цифры. Поэтому
неравенства, имеющие смысл в одной системе, в другой системе оказываются
лишенными смысла, и наоборот.
34. Арифметизация совокупностей 2-го типа. Рассматривая ту же
исчислимую совокупность предложений Я, которую мы получили выше
присоединением совокупностей (О, A, A, Q), (О, Аи Аи Q) и т. д., мы
можем условиться считать невозможным всякое бесконечное совмещение
(А и At и ...) или, что то же самое, считать достоверным всякое
бесконечное объединение20 вида (А пли А\ или А2 ...). Таким образом, мы
составим простую совершенную совокупность 2-го типа (совокупность,
лишенную элементарных предложений, но подчиняющуюся обобщенному
конструктивному принципу).
Исследуем геометрические вероятности с этой новой точки зрения,
логически столь же приемлемой, как и финитистская. Мы приходим при
помощи той же системы бинарных дробей к заключению, что всякое
определенное равенство а = х следует считать невозможным, т. е. таким, что
оно не может быть никогда точно осуществлено21 или установлено,
а поэтому знаки «;0 и «<» равнозначны.
Нужно заметить, что утверждение, что х есть некоторое число,
заключенное между 0 и; 1, отнюдь не означает того, что х может быть
определено с абсолютной точностью, и этим объясняется кажущийся парадокс,
будто бы истинное предложение является объединением бесчисленного
множества невозможных. Нам необходимо, однако, более детально
исследовать вероятности геометрических предложений как предложений,
принадлежащих к совершенным совокупностям 2-го типа, и дополнить
соответствующим образом принципы исчисления вероятностей при
распространении их на бесконечные совокупности.
35. Обобщение теоремы сложения вероятностей. До сих пор при
вычислении вероятностей предложений бесконечных совокупностей как 1-го,
так и 2-го типов мы пользовались тем, что каждое из рассматриваемых
нами предложений принадлежало также некоторой конечной
совокупности, а потому, применяя принципы теории вероятностей конечных
совокупностей, возможно было вычислить требуемые вероятности.
Благодаря этому наши вычисления не зависят от того, допускаем мы или нет,
что аксиома 2 (§ 4) распространяется на объединения бесконечного
множества несовместимых предложений, или, что то же самое,
распространяется ли теорема сложения на бесконечные объединения или нет.
го т£Т0 касается всех бесконечных объединений вида (Aki или Aki или ...), то они
могут представлять собой новые предложения, в противном случае они все буду г
истинными, как совместные со всяким предложением совокупности.
21 В главе I (§ 3) мы разъяснили, что невозможное предложение характеризует-
ся тем, что оно не может стать истинным или достоверным, т. е. осуществиться.
43
Действительно, из того, что теорема сложения справедлива для
конечного числа предложений, мы можем заключить только, что если А есть
объединение исчислимой совокупности несовместимых предложений аи
а.о, ..., имеющих соответственными вероятностями pi, рг,..., то
вероятность Р предложения А больше или равна сумме ряда
Pi + Р2 + . . . + Рп + • . .,
который, следовательно, должен быть сходящимся.
В совокупностях 1-го типа вопрос о распространении или
нераспространении теоремы сложения вовсе не может представиться, так как там,
по существу дела, бесконечное объединение лишь тогда имеет смысл, когда
оно приводится к конечному. Иначе обстоит дело с совокупностями 2-го
типа. Вводя ту же монотонно возрастающую функцию F(z), которую мы
определили выше, и рассматривая предложение
а < х < р,
мы видим, что на этот раз оно имеет смысл для всяких а и Р, и
вероятность его w будет подчинена только двум условиям:
w<F($ + 0) — F(a — 0),
^>F(P-0) — F(a + 0).
Если, по крайней мере, одна из точек аир есть точка разрыва
функции F, то знак равенства не может иметь места в обоих условиях. В таком
случае, если мы положим, что
w>F($-0) — F(a + 0),
обобщенная теорема сложения будет неприменима к предложению, что х
находится на отрезке (оф), рассматриваемом как предел суммы отрезков:
(flibi), (tfiflfc), (bib2), (Я2Я3), (ЬоЬз),..., входящих в (ар). Если же
w<F($ + 0)-F(a-0),
то теорема сложения неприменима к отрицанию этого предложения.
И в том и в другом случае возможно достоверное предложение
— оо < х < оо
рассматривать как бесконечное объединение таких предложений, сумма
вероятностей которых имеет предел меньший, чем единица.
Примечание. Так как вое точки не могут быть точками разрыва
для монотонной функции F, то всегда будут и такие бесконечные
объединения, к которым обобщенная теорема сложения применима. Отсюда мы
заключаем, что допущение или нарушение обобщенной теоремы
сложения равносильно распространению или нераспространению аксиомы 2 на
бесконечные объединения. Нарушение теоремы сложения или аксиомы 2
для бесконечных объединений влечет за собой нарушение ^ теоремы умно-
22 Обобщепие теоремы умножения вероятностей является следствием из
обобщенной теоремы сложения. Действительно, вер. (А и В и ... и L и ...) =1 — вер.
(Ж или В или ... или L или ...) = 1 — lim вер. (Ж или В... или L) = lim вер. (А и
В... и L).
44
женпя для бесконечных совмещений, а также некоторых свойств
математических ожиданий. Это нарушение представляло бы значительные
неудобства, потому что, даже придавая определенный смысл предельным
предложениям, как, например, предложению х — а или предложению
«при безграничном повторении опыта событие А произойдет по крайней
мере один раз», мы обыкновенно более интересуемся вероятностями
переметных предложений, для которых рассматриваемое предложение
является пределом, и хотим поэтому, чтобы вероятность последнего была
в свою очередь пределом этих вероятностей23. Эта непрерывность
зависимости между предложениями п их вероятностями приводит к
необходимости распространить аксиому 2, а вместе с ней и теоремы сложения
и умножения, на бесконечное множество предложений.
Итак, обобщение аксиомы 2 есть единственное новое допущение, какое
присоединяется к прежним, и, таким образом, мы получаем основной
общий принцип теории вероятностей бесконечных или конечных
совокупностей.
Условие, необходимое и достаточное для того, чтобы ри р2,... могли
быть соответственно вероятностями предложений Ai, Ач,.. . данной
бесконечной совершенной совокупности, заключается в том, чтобы вероятность
всякого предложения, входящего в совокупность и являющегося
объединением конечного или бесконечного числа предложений этой
совокупности, была равна сумме {пределу суммы) вероятностей последних, чтобы
достоверное предложение имело вероятность 1 {следовательно,
невозможное— вероятность 0), остальные же предложения — вероятности,
заключенные между 0 а 1 (0 <р < 1).
Что касается понятия вероятности одного предложения после
осуществления другого и коэффициента совместимости предложений, то нам
здесь нечего прибавить, по существу, к тому, что было сказано в главе II
(§5).
36. Исследование функции F(z). Наше допущение, что совокупность
Н есть простая совокупность 2-го типа, т. е. предположение, что
бесконечные совмещения, подобные {А и At и ...), невозможны, в связи с
обобщенной теоремой сложения, означает, что предел вероятности неравенств
а — h < х <. а + h, где h стремится к 0, есть 0, а потому функция F{z)
непрерывна. Обратно, если функция F{z) непрерывна, то совокупность
предложений а< х < Ъ (где 0<^а<^&<1) и их всевозможных объеди-
23 Если, например, -событие А при первом опыте имеет вероятность 7г, при
втором 74, при третьем 7в и т. д., то, независимо от этих значений вероятностей, мы
вправе были бы утверждать, что наступление события А по крайней мере один раз
достоверно, потому что наше утверждение совместимо со всяким результатом
конечного числа опытов. Однако предел вероятности, что событие А произойдет при
к опытах, где к безгранично возрастает, будет
11113 1 13 7 1 3
Т 1ГТ ~2* 4*Т 2 4 8 16 4
Нарушение георемы сложения имеет последствием в данном случае то, что оно
замаскировывает тот факт, что осуществление предложения А в каком-нибудь
конечном опыте становится с течением времени все менее вероятным.
45
нений есть совокупность 2-го типа, т. е. лишенная элементарных
предложений.
Обыкновенно на функцию F{z) налагается еще большее ограничение:
Z
ее предполагают дифференцируемой, так что F(z)=* \ f(x)dx. Это ограни-
"о
чение связано со следующим свойством.
Теорема. Если I — + ап \ и I — ап ) представляют собой,
соответственно, вероятности п-ой цифре бинарной дроби быть единицей и ну-
z
лем, то условие, необходимое и достаточное для того, чтобы F(z) = \ f(x)dx,
о , к \ Jk \ (к \
где f (х) ограничена, непрерывна при х^ — и /1 ^ ""^ О 1— /1 ~Ъ^~ ® )
стремится к 0 с возрастанием п, состоит в том, что ряд 2ап должен быть
абсолютно сходящимся24.
В самом деле, абсолютная сходимость ряда 2ап равнозначна
равномерной сходимости всевозможных произведений
оо
П(1±2а<). (16)
2=1
Произведение вида
2 = 1
представляет вероятность неравенств
к 4 + 1
— <х<—- . (17)
2П 2П
Из сходимости произведений (16) вытекает, следовательно,
существование конечного положительного предела
lim2n
2п ) \2п
= /(*), (18)
где х определяется неравенствами (17) при бесконечном возрастании п.
Вследствие равномерной сходимости произведений (16) функция f(x)
к г ( к \
непрерывна для х, отличных от —, и кроме того, величина у -—V О I —
2п \2п
J к \
— J I — — О I, которая, вообще, отлична от нуля, при п достаточно
большом (и к нечетном) может быть сделана <жоль угодно малой. Поэтому
функция f(x) интегрируема (в смысле Римана).
Равенство (18) можем представить в виде
F{H^~)~F{ik) =(/(*)+e*)6> (i8bis)
21 Если поел едующие цифры не независимы от предыдущих, то на место
абсолютной сходимости 1ап нужно поставить равномерную сходимость всех различных
произведений П (1 + 2ап).
46
1
где 6 = — и 8а равномерно стремится к 0 при. возрастания п. Следова-
2
тельно,
откуда
z ' о
или
*■(*)= f/(*)&:, (19)
'о
F'(x)=f(x)
в точках непрерывности f(x), т. е. при ^^ —, в точках же л: = :—
правая производная функции F(x) равна /(я 4- 0), а левая производная
ее равна f(x — 0).
Обратно, из равенства (19) вытекает (18) для значений х, при
которых f(x) непрерывна; а потому все произведения (16) сходятся, ч. и т. д.
Аналогичная теорема может быть таким же образом доказана и для
других систем счисления. Отсюда вытекает
Следствие. Условие, необходимое и достаточное, чтобы функция
F(x) имела везде непрерывную производную25, заключается в том, чтобы
в двух системах счисления (например, в бинарной и тернарной)
вероятность п-ой цифре получить одно из h возможных значений была равна
А сю
— + а(^, где все произведения П (1 + Ь,с№) сходятся.
fl 71 = 1
25 Заметим, что для существования конечной производной F(x) в данной точке
х достаточно, чтобы равномерно по X
1 F(x + Xh) —F (х)
lim = 1.
h-+0 X F{x + h) -F(x)
Действительно, заметим, что при г сколь угодно малом можно выбрать а
настолько малым, чтобы иметь
F (x + Xh) — F (х)
• = х (1 + о,
F (х + h) — F (х)
где | е' | < е, как только I Xh \ < а, \ h \ < а. Выбирая таким образом некоторое
определенное значение h, получим F (х + h) — F (х) = Mh\ поэтому F (х + Xh) —
— F{x) = MXh (1 4- е'), откуда
F (х + Щ—F (х)
Xh
= Af (1 + е').
F (x + Xh) — F (x)
Но так как s можно взять сколь угодно малым, то сколь
Xh
угодно мало отличается от не зависящего от X чиста Л/, если Xh стремится к
нулю, что и требовалось доказать.
В большинстве случаев при применении теории вероятностей это условие явно
выполняется. Можно доказать, что приведенное условие является также
необходимым для существования конечной производной (отличной от нуля).
47
Примечание. Из доказанной теоремы видно, что все
разнообразные законы распределения вероятностей, определяемые произвольной
функцией f{x), отличаются лишь значениями вероятностей первых
бинарных (или, что то же самое, десятичных) знаков, последующие же цифры
во всяком случае стремятся стать равновозможными. Таким образом,
всякие определенные законы последовательности цифр рассматриваемых
дробей, как, например, периодичность, ни при какой функции f(x) не
могут быть осуществлены. Арифметизация геометрической совокупности
при помощи какой бы то ни было непрерывной функции f(x) исключает
возможность определенных равенств х = а, и, наобарот, если по характеру
задачи определенные равенства х = а могут быть осуществлены, то это
не только исключает возможность существования непрерывной функции
/(#), но даже делает невозможной непрерывность F(x).
Определение. Мы называем функцию F(x) непрерывной в узком
смысле слова, если S I F($n) —F(an) I всегда стремится к нулю вместе
с 2 I pn — an I . Очевидно, в частности, что существование конечной
производной26 является достаточным условием для того, чтобы F(x) была
непрерьшна в узкюм смысле слова. Для того чтобы функция F(x) была
непрерывна в узком смысле слова, необходимо, чтобы вероятности
различных цифр на всех местах бесконечной дроби имели нижний предел,
отличный от нуля (т. е. верхний предел, отличный от 1).
Действительно, если бы этот нижний предел не был отличен от нуля,
то нашлось бы совмещение (^ь0и Аь ...) бесконечного числа цифр,
имеющее вероятность, отличную от 0; таким образом, сумма промежутков,
соответствующая данным цифрам на А0-м, Ai-м,.. ., /сп-м 'местах, общая
1
длина которых равна , т. е. стремится к 0 вместе с /г, была бы
отлична от 0, т. е. функция F(x), вопреки требованию, не была бы непрерывна
в узком смысле слова.
Не останавливаясь на более подробном исследовании связи между
свойствами функции F(x) в случае ее непрерывности с вероятностями
различных бинарных (десятичных) цифр числа х, перейдем к
рассмотрению случая, когда функция F(x) не непрерывна.
37. Арифметизация совокупности 4-го типа при помощи прерывной
функции F(z).
Мы видели, что функция F(z) есть произвольная монотонная функция,
подчиненная условию F(l) — F(0)= 1. Из теории функций известно, что
если она пмеет точки разрыва, т. е. точки, где F(a + 0) — F(a — 0) > 07
то совокупность этих точек исчислима.
Мы показали, что F(a + 0) — F(a — 0) есть предел вероятности
неравенств а — h < х < а + /г, где h стремится к 0. Так как предложение
х = а есть совмещение всех предложений а — h < х < а + h, то,
вследствие обобщенной теоремы сложения (умножения), предложение х = а
26 Для непрерывности в узком смысле слова достаточно, чтобы было соблюдено
условие Липшица на всем промежутке, за исключением ограниченного числа точек,
где функция может быть просто непрерывной.
48
будет иметь вероятностью hQ = F(a + 0) — F(a — 0). Выделим всю
исчислимую совокупность точек разрыва: аи а2, ■ .., ап, • •., обозначим
An = F(an + 0)-F(an — 0)
и составим функцию Fi(z), обладающую свойством, что
Fi{an + 0)-F1(an~0)= Л„,
сумма же всех ее изменений в остальных точках пусть будет равна 0.
Тогда функция
F2(x) = F(x)-Fi{x)
будет непрерывна. [Обозначая через ф(ж) функцию, равную 0 при х < 0,
п равную 1 при ж > 0, можем представить Fi(x) в виде абсолютно схо-
оо
дящегося ряда Р{(х) = ^'Ап-ф(д; - ап).]
1
Рассмотрим сначала предположение, что
т. е.
оо
1
В таком случае, мы имеем только конечную или исчислимую
совокупность элементарных предложений: х = <2i, # = #2, ... и их всевозможные
объединения, т. е. мы получаем совокупность четвертого типа. Всякое
предложение
а < х < Ъ (20)
имеет вероятность, равную сумме вероятностей всех элементарных
равенств х = ап, удовлетворяющих неравенству (20). Само собой понятно,
что теперь знаки «<» и «<р> равнозначны лишь в том случае, когда они
применяются к значениям, отличным от точек разрыва.
Этот случай самым существенным образом отличается от того, когда
функция F(x) непрерывна. Теперь последовательные цифры, вообще, не
только не независимы, но после того, как дано конечное число цифр, все
бесконечное множество остальных цифр определяется с вероятностью,
приближающейся к достоверности, так как вероятность всякого значения
выражается сходящимся бесконечным произведением, все
последовательные множители которого быстро приближаются к единице. Мы видим,
таким образом, что та или иная арифметизация геометрических
совокупностей превращает их то в совокупности 2-го типа, то в совокупности 4-го
типа. Если Fi(x) и F2(x) обе отличны от 0, то мы имеем смешанный или
ебщий случай совокупности 2-го типа, рассмотренный выше (п. 31),
который легко приводится к совокупности 4-го типа и к простой совокупности
2-го типа.
В «Добавлении» мы еще вернемся к вопросу о соображениях,
которыми руководствуются при арифметизэдии совокупностей. Но здесь
уместно будет заметить, что затруднения и противоречия возникают от
того, что, установив одну определенную арифметизирующую функцию
4 С. Н. Берештейн
49
F(x), пользуются в то же время интуитивным представлением,
несовместимым с принятой функцией. Например, признавая функцию F(x)
непрерывной, мы затрудняемся представить себе, что с этим допущением
несовместима возможность определенного предложения х — а, и что
поэтому, допуская возможность точного равенства х — а, мы должны
сделать точку а точкой разрыва для F(x). Но вряд ли нужно говорить, что
подобные противоречия между интуитивными и логическими выводами
в математике довольно обычны и не могут разрешаться каким-нибудь
компромиссом вроде того, что не всякое предложение бесконечной
совокупности, имеющее вероятность нуль, (невозможно; так, в теории функций
мы не смущаемся тем, что нашему интуитивному представлению о кривой
линии противоречит существование непрерывных функций, лишенных
производной, и никому, конечно, не придет в голову одновременно
предполагать непрерывную функцию совершенно произвольной и
рассматривать касательную в какой-нибудь точке кривой, ее изображающей.
Если мы имеем какую бы то ни было совокупность 4-го типа любой
мощности, как совокупность всех точек отрезка и их всевозможных
объединений, то после ее арифметизации мы сохраним всегда только
исчислимую совокупность элементарных предложений, остальные же
элементарные предложения должны будем признать невозможными.
Действительно, не может быть более одного элементарного предложения с
вероятностью большей, чем Уг, не может быть более двух элементарных
предложений с вероятностью, превышающей Уз, и т. д.
Выбор тех элементарных предложений, которые следует считать
возможными, во многих случаях представляет задачу неразрешимую. В
самом деле, кто может, например, назвать ту исчислимую совокупность
точек отрезка, которые в прошедшем и будущем были или будут кем бы
/11 \
то ни было индивидуально указаны или задум'аагы как —, _, log 2 и т. д. ?
V 2 У2 ;
Однако ясно, что эта совокупность исчислима (она была бы конечна,
если бы мы допустили, что мир ограничен во времени), все же остальные
числа следует считать невозможными, так как они фактически никогда
не были и не будут, а следовательно, не могут быть осуществлены. Это
неумение правильно, т. е. в соответствии с требованиями опыта, арифме-
тизовать совокупность 4-го типа на практике в большинстве случаев
заставляет отказываться от этой арифметизации, заменяя эти
совокупности совокупностями 2-го типа, но, разумеется, при этом нельзя нарушать
принципов теории. Обыкновенно рассуждают таким образом: если мы
возьмем два равных конечных отрезка, то вероятности рассматриваемому
определенному числу находиться внутри одного или другого отрезка равны. Но
это утверждение не вполне точно; чем длина промежутков меньше, тем
более значительна неточность этого допущения, которое не может быть
принято абсолютно, так как оно привело бы нас к арифметизующей
функции F(z) — z, которая, как было показано выше, несовместима »с
осуществлением определенных равенств х = а. Напротив, если мы будем
считать нашу арифметизацию только приближенной, а именно, будем
считать вероятности равных отрезков не равными вообще, а лишь
отличающимися менее, чем на некоторое весьма малое, но точпо неизвестное
50
число е, то мы должны будем помнить, что наша арифметизация
относительно тем менее удовлетворительна, чем рассматриваемые отрезки
меньше (так что, в частности, вероятность равенства х = а не всегда
точно равна 0).
Таким образом, мы получаем решение парадокса, что вся
совокупность никогда не осуществляющихся27 (невозможных) чисел, имеющая
меру 1, имела бы вероятность 1 (равную достоверности), если бы ариф-
метизующая функция F(z) точно была бы равна z.
При арифметизации совокупности 4-го типа следует еще отметить
вопрос об определении вероятностей так называемых неизмеримых
совокупностей точек. Для нас этот вопрос не представляет трудности, так
как после выбора арифметизующей функции, т. е. после выбора
исчислимой совокупности элементарных предложений, всякая совокупность
точек, будь она измеримой или нет, получает вероятность на основании
обобщенной теоремы сложения, в зависимости от входящих в нее точек,
соответствующих элементарным предложениям.
Что же касается рассмотренных ранее совокупностей 2-го типа, то,
по самой своей структуре, они включают в себя только такие
объединения 28, которые приводятся к конечным или исчислимым, а потому о
неизмеримых совокупностях говорить не приходится и, следовательно, все
предложения совокупностей как 4-го, так и 2-го типов получают вполне
определенные вероятности после выбора арифметизующей функции F(z).
38. Арифметизация совокупности 3-го типа. На основании того, что
было сказано относительно совокупностей 4-го типа, мы уже знаем, что
после арифметизации совокупности в ней может остаться лишь
исчислимая совокупность возможных элементарных предложений. Разница
между арифметизованными совокупностями 3-го и 4-го типов заключается
лишь в том, что существуют бесконечные объединения, имеющие смысл
в совокупности 4-го типа, но не имеющие смысла в совокупности 3-го типа;
о вероятностях этих объединений, следовательно, говорить не придется,
все же другие объединения будут иметь те же самые вероятности в
обеих совокупностях.
Резюмируя все сказанное относительно арифметизации бесконечных
совокупностей, мы видим, что, к какому бы типу они не принадлежали,
эта арифметизация всецело определяется функцией F(z) (в более
сложных случаях одной или несколькими функциями нескольких
переменных), от выбора которой зависит и самый тип совокупности, ибо
каждому элементарному предложению соответствует точка разрыва функции
F(z), и наоборот. Если мы принимаем обобщенный конструктивный
принцип, то в зависимости от характера нашей функции F(z) мы имеем
27 Так кал совокупность осуществляющихся чисел исчислима, а потому, даже
будучи всюду плотной, имеет меру 0.
28 Можно, конечно, «зять 'Произвольную совокупность точек S и определить
предложение А, как совмещение всех предложений, т. е. юумм отрезков, включающих в
себя эти точки. Предложение А будет соответствовать верхней мере совокупности S,
которая существует всегда. Но нижняя мера S может приводить к другому
предложению В ф А (если совокупность S неизмерима). Предложения А ж В будут
всегда иметь определенные вероятности, совокупность же S не представляет собой
предложения.
51
4*
совокупности 2-го или 4-го тижш; если же мы затрудняемся придать
смысл некоторым бесконечным объединениям (и совмещениям), то нашп
совокупности должны быть отнесены к 1-му или 3-му типам.
39. Арифметизация совокупности целых чисел. Целые числа и их
конечные объединения дают нам пример совокупности 3-го типа; если
мы присоединим к ним всевозможные бесконечные объединения, то
получим совокупность 4-го типа с исчислимой совокупностью
элементарных предложений. Арифметизация этой совокупности 4-го типа
обыкновенно производится на основании допущения, что все числа равновоз-
можны. Но это допущение явно неприемлемо, так как оно влекло бы за
собой то, что вероятность каждого числа равна нулю, т. е. никакое число
не может осуществиться, и, кроме того, была бы нарушена обобщенная
теорема сложения, так как сумма вероятностей исчислимой совокупности
предложений, имеющих вероятность О, была бы равна единице.
Затруднительность выбора закола вероятностей чисел, зависящего, вообще,
в каждом частном случае от постановки вопроса, не может служить
оправданием того, чтобы остановиться на законе, хотя и простом, но
противоречащем основным принципам теории вероятностей. Можно говорить
о пределе вероятностей тех или иных предложений, соответствующем
постепенному увеличению ограниченной совокупности чисел, при
предположении, что в этих ограниченных совокупностях числа равновозможпы
между собой, но этот предел не будет вероятностью определенного
предложения нашей бесконечной совокупности.
С указанным недопустимым предположением о равновозможности
всех чисел связано другое столь же часто делаемое неприемлемое
допущение: вероятность числу N при делении на простое число а дать в
остатке а не зависит от того, какой остаток получен при делении N на
простое число Ъ. В самом деле, пусть а0 = 0, oti = 1 будут оба
возможных остатка от деления на 2; |Зо = 0, Pi = 1, р2 = 2 — остатки от
деления на 3, и т. д. Тогда, согласно допущению, вероятности всех
бесконечных совмещений (а и Р и...) были бы равны; но большая часть этих
совмещений невозможна, ибо при делении на числа > iV все остатки от
деления N становятся равными Л', так что, например, совмещение остатков
(О, 1, О, 1, ...) невозможно. Отсюда следовало бы, что и те совмещения,
которые соответствуют целым числам, также невозможны. Можно, кроме
того, придать иной смысл всем совмещениям, если связать каждое из них
с рядом
а 3 X
I 1-6 Л•о... Рп
где рп есть ?г-ое простое число и К < рп; тогда всякие совмещения
остатков соответствуют всем значениям х, заключенным между 0 и 1
/ ,12 рп — 1 \
( в частности, 1 =— + + ... + — Ь ... J. Значения я, соответ-
^ Z Z*«.i Z • о . . . Рп /
ствующие целым числам (единственно возможным, по условию),
характеризуется отмеченной выше периодичностью и, очевидно, исчислимы, в то
время как остальные значения х не исчислимы; поэтому совершенно
52
неправильно было бы при равной возможности всех численных значений29
Х< рп считать достоверным, что х принадлежит к первой — исчислимой—
совокупности, и невозможной его принадлежность ко второй.
В силу вышесказанного нужно признать, что применение термина
вероятности в теории чисел (например, «вероятность числу быть простым
равна 0») большей.частью незаконно и не соответствует тому значению,
которое ему придается в теории вероятностей.
ДОБАВЛЕНИЕ.
НЕСКОЛЬКО ОБЩИХ ЗАМЕЧАНИЙ О ТЕОРИИ
ВЕРОЯТНОСТЕЙ КАК МЕТОДЕ НАУЧНОГО ИССЛЕДОВАНИЯ
Возможность различных арифметизаций данной совокупности
предложений. На предыдущих страницах мы попытались установить
формальнологические основы теории вероятностей как математической дисциплины.
До сих пор предложения для нас были лишь отвлеченными символами,
которым мы не придавали никакого конкретного содержания,
устанавливая лишь определенные правила для операций над ними и связанными с
ними численными коэффициентами, которые мы назвали вероятностями.
Эти правила, как было доказано, друг другу не противоречат и позволяют
при известных условиях посредством математических вычислений из
вероятностей одних предложений выводить вероятности других.
Однако если нам дана только логическая структура рассматриваемой
совокупности предложений, которая для конечных совокупностей, по
крайней мере, усматривается обыкновенно в каждом конкретнном случае без
всяких затруднений, то этого недостаточно для арифметизаций
совокупностей, и необходимы еще некоторые добавочные условия для того, чтобы
при помощи принципов теории вероятностей стало возможным вычислить
все вероятности. Действительно, если мы бросаем игральную кость и
останавливаем свое внимание на двух возможных исходах опыта:
выпадение или невыпадение 6 очков, то мы имеем простую схему О, А, А, Я; но
ту же схему мы получим и при бросании монеты, а также, если в том же
опыте с костью рассмотрим как различные случаи выпадение четного
(2, 4, 6) или нечетного (1, 3, 5) числа очков. В последнем случае мы
получим ту же схему О, В, В, Я, хотя А есть частный случай В; отсюда
нетрудно заключить, что одинаковая арифметизация (например, допущение,
что все элементарные предложения равновозможны) всех логически
тождественных совокупностей привела бы к неизбежному противоречию.
Итак, не все необходимые условия, нужные для арифметизаций
совокупности, вытекают из ее формально-логической структуры; только
реальное значение, которое мы придаем вероятности, приносит
дополнительные данные для предварительных соглашений, произвольных с
математической точки зрения. С другой стороны, наши вычисления потому только
представляют практический и философский интерес, что вычисленные
нами коэффициенты соответствуют некоторым реальностям. А именно,
этот коэффициент — математическая вероятность — должен дать нам воз-
29 На основании ранее сказанного это предположение, приводящее к арифмети-
зирующей функции F (z) = z, вообще, исключает возможность всякого точного
равенства х = а и, в частности, всякого целого числа.
53
можно более точную характеристику того, в какой степени, на основании
имеющихся данных, следует ожидать наступления некоторого события,
т. е., другими словами, в какой мере объективные данные предопределяют
это наступление. Если мы утверждаем равенство математических
вероятностей событий А и В (т. е. их равновозможность), то это означает, что
совокупность имеющихся объективных данных такова, что всякий
здравомыслящий человек должен совершенно в равной мере ожидать
наступления А, как и наступления В.
Происхождение и значение аксиом теории вероятностей. Оставляя
пока в стороне вопрос о том, есть ли такие объективные данные,
относительно которых всякий согласится, что они в равной мере предопределяют
события А и Ль так что их равным образом следует ожидать, т. «е. считать
А и Ai равновозможными, мы видим, что даже если бы мы стали 'Отрицать
универсальную возможность таких данных, во всяком случае, для всякого
субъекта, пытающегося уяснить себе, в какой мере он может
рассчитывать на появление того или другого события, обязательны будут
аксиомы § 4:
1) на достоверное событие следует более рассчитывать, чем на
недостоверное;
2) если мы ожидаем в одинаковой мере А и А^ и, с другой стороны,
в одинаковой мере ожидаем В и Bif причем А несовместимо с В, а А\
несовместимо с JBi, то мы в такой же мере должны ожидать наступления (А
или Б), как наступления (А\ или В\); напротив, если мы скорее ожидаем
наступления В, чем наступления Ви то мы также более рассчитываем на
наступление (А или В), чем на наступление (А\ или Bi).
Столь же очевидной явится и аксиома осуществления § 5 (п. 24), если
мы ее формулируем, придавая вышеуказанный смысл понятию
вероятности: если а есть частный случай А, а (3 частный случай В, то мы в равной
мере должны ожидать наступление а и наступление р, коль скоро мы на
А рассчитываем так же, как и на В, а в случае наступления А так Лже
ожидаем а, как в случае наступления В ожидаем р.
В зависимости от того, имеют ли объективное или только
субъективное значение наши допущения о равной вероятности рассматриваемых
событий, и выводы, вытекающие из них на основании наших объективно
(т. е. для нормальной психики) обязательных аксиом и теорем, будут
иметь объективное или более или менее субъективное значение.
Нам нужно теперь показать, что допущения о равной возможности
двух явлений могут иметь столь же объективный характер, как
допущения равенства двух каких бы то ни было конкретных величин, и
обнаружить, таким образом, научное значение теории вероятностей.
Равновозможность. С этой целью возьмем пример: на цилиндр
вращения с горизонтальными образующими ставят однородный шар так, чтобы
его центр находился на одной вертикали с точкой касания. Если бы опыт
был осуществлен идеально, шар оказался бы в положении равновесия;
однако из механики и из практики известно, что это равновесие
неустойчиво, а именно, достаточно не поддающегося измерению уклонения от
условий идеального опыта, чтобы шар скатился в ту или другую сторону.
Если экспериментатор со всей доступной ему точностью осуществляет
54
указанный опыт, так что, по условию, им приняты все меры к тому, чтобы
уклонения в одну сторону не могли взять перевеса над уклонениями в
другую, он устанавливает опыт, исход которого для него, по условию,
должен остаться неизвестным. Разумеется, возможно, что другой
экспериментатор, обладающий более точными инструментами, таг бы предсказать
исход упомянутого опыта, подведя его под другую схему, где было бы
установлено, правые ли или левые уклонения имеют перевес; но тогда
он должен будет снова видоизменить опыт, для того чтобы иметь право
приравнять его .вышеупомянутой (неустойчивой схем>е, и тогда исход этото
нового опыта будет для него столь же неизвестен, как и для его
предшественника.
Устанавливая второй, по возможности, тождественный опыт, наш
экспериментатор будет иметь те же основания, чтобы ожидать
аналогичного исхода. Если бы опыт был устойчив, так что неподлежащие учету
различия в его постановке не влияли бы на его исход, то мы могли бы
предсказать, что исходы обоих опытов будут одинаковы; но благодаря
механической неустойчивости осуществляемой схемы мы ограничиваемся
утверждением, что определенный результат второго опыта (падение шара
направо) имеет ту же вероятность, что и в первом опыте.
Вообще, если разница между причинами, вызывающими появление
события А и события В, столь ничтожна, что не поддается учету и
измерению, то события А и В признаются равновероятными.
Если принять данное нами здесь определение равновероятных
событий, то из него вытекают непосредственно и допущенные ранее аксиомы.
Однако наше аксиоматическое построение теории вероятностей не
связано с принятием или непринятием этого определения.
Абсолютное равенство вероятностей представляет, конечно, лишь
математическую абстракцию совершенно так же, как и равенство отрезков,
п для установления того, что падение данной игральной кости на любую
из ее сторон имеет одну и ту же вероятность, мы можем пользоваться
только теми объективными, но не абсолютно точными, методами
измерения, которые обычно применяются в геометрии и в физике.
Поэтому так же, как и при применении всех математических теорий
к практике, где точные равенства приходится заменять приближенными,
весьма существенно исследовать, как изменятся теоремы теории
вероятностей, если данные в них вероятности получат произвольные
незначительные изменения. В этом отношении чрезвычайно важна, например,
теорема Пуассона *, без которой теорема Бернулли была бы лишена
практического значения.
Вероятность и достоверность. Математическая вероятность, в силу
вышесказанного, представляет собой численный коэффициент, являющийся
мерой ожидания появления события при наличности некоторых
конкретных данных, характеризующий, следовательно, объективную связь между
наблюдаемыми данными и ожидаемым событием.
В частности, зависимость между данными и будущим событием может
быть такова, что из них Еытекает уверенность в ето появлении: наблюдас-
* См.: «Т. В.», стр. 147 (Ред.)
55
мые данные служат причиной события. Тогда мы говорим, что событие
достоверно — вероятность его равна 1. Нужно иметь в виду, что
достоверность, как и вероятность, всегда теоретическая, ибо всегда
возможно, что неполное соответствие между действительностью и нашей
теоретической схемой нарушает или видоизменяет ожидаемое действие
причины.
Безусловно достоверным, по определению, может быть только
результат соглашения или логического вывода, всякое же предвидение нового
факта всегда основано на индукции, т. е., в конечном счете, на прямом
или косвенном допущении, что факт, при известных условиях постоянно
наступавший, снова наступит при сходных обстоятельствах. Применяя
принципы теории вероятностей, можно показать, что такое предвидение
имеет вероятность, весьма близкую к единице, т. е. к достоверности.
Вследствие этого и другие утверждения теории вероятностей, имеющие столь
же высокую степень вероятности, следует рассматривать, как
практически достоверные, имея в виду, что ошибка, которая проистекает от
неполного соответствия предварительных допущений с действительностью,
имеет не менее шансов подорвать правильность всякого утверждения, чем то
обстоятельство, что вероятность его не абсолютно совпадает с
достоверностью.
Рассмотрение многочисленных опытов, из которых каждый
представляется при помощи некоторой неустойчивой схемы указанного выше
тина, где характер подлежащих учету условий заставляет нас приписать их
исходам определенные вероятности, приводит на основании вычислений
теории вероятностей к утверждениям, известным под названием закона
больших чисел, имеющим приблизительно столь же большую вероятность,
что и наши индуктивные выводы. При применении закона больших чисел,
как и при применении индуктивных законов природы, мы должны
считаться с возможностью, что конкретные условия опыта не вполне
соответствуют теоретической схеме. Поэтому определенный результат опыта
в обоих случаях имеет лишь большую вероятность, но не безусловную
достоверность. Ошибка, т. е. неосуществление нашего предвидения, не
невозможна, а является лишь весьма невероятной. Но для закона
больших чисел характерно то, что наступление невероятного факта не служит
безусловным показателем неправильности наших теоретических
предпосылок, ибо закон больших чисел допускает исключения. Подробное
исследование вопроса о том, как следует относиться к принятой гипотезе, если
предвидения, основанные на ней, нередко оказываются ошибочными,
выходит из рамок настоящей статьи. Теория вероятностей гипотез, к которой
относится этот вопрос, основана исключительно на аксиоме
осуществления. Не выходя из пределов общих соображений, мы можем только
заметить, что оценка a priori вероятности той или иной схемы носит
обыкновенно очень произвольный характер, а потому особый интерес
представляют лишь те выводы этого отдела теории вероятностей, которые более
или менее независимы от упомянутой оценки.
Осуществление невероятного факта само по себе не опровергает
гипотезы, но является лишь новым данным, которое может изменить
вероятность гипотезы, ибо нет такой схемы, при которой все происходящие
56
явления имели бы значительную вероятность 30. Единственное, чего мы
должны требовать от принятой гипотезы, чтобы большая часть из
осуществляющихся фактов имела бы высокую степень вероятности и лишь
сравнительно немногие из них были мало вероятны. Неопределенность
последнего замечания лежит в существе дела, так как невозможность
учесть всю неограниченную совокупность причин, влияющих на
единичное конкретное явление, исключает непогрешимость в предвидении
будущего; на место достоверного, представляющего теоретическую
абстракцию, нам приходится поставить вероятное (практически достоверное),
и мы должны лишь стремиться к тому, чтобы эта замена возможно реже
приводила нас к ошибкам.
Из вышесказанного видно, что применение теории вероятностей
содержит некоторую долю субъективного, но лишь ту долю, которая в
известной мере присуща всякому методу познания, дающему
интерпретацию фактов и связывающему их определенными абстрактными
взаимоотношениями.
Эти взаимоотношения, которые в нашей теории характеризуются
коэффициентом — математической вероятностью, могут более или менее
точно интерпретировать действительность; соответствующую степень
точности в интерпретации действительности должны тогда иметь и выводы,
вытекающие из применения теории вероятностей: ибо те несколько
аксиом, на которых строится эта математическая дисциплина, представляют
собой необходимый атрибут понятия вероятности — как меры ожидания,
независимо от объективного значения данных, на которых основано это
ожидание в том или ином случае.
Бесконечные совокупности. Если мы рассматриваем какой-нибудь
опыт, допускающий конечное число исходов, то, когда мы говорим, что
исход А возможен, это означает, что, имея в виду все опыты, соотзет-
30 Можно считать, например, практически достоверным, что первоклассный
шахматист, играющий с полным вниманием, обыграет новичка, которому только что
сообщили правила игры. Однако ничего нет абсолютно невозможного в том, чтобы
все ходы начинающего игрока случайно удовлетворяли требованиям шахматного
искусства и привели бы его к победе. Совмещение подобного рода
единичных,маловероятных -фактов может в действительности произойти. После такого результата
игры (и особенно, если бы он повторился 2—3 раза) мы были бы поставлены в
большое затруднение относительно предполагаемого результата следующей партии.
Можем лги мы быть уверены, что наш новичок действительно, согласно
утверждениям своех внающих лиц, никогда не прикасался к шахматам, можем ли мы
отрицать возможность таких невиданных еще до сего времени дарований, которые бы
обнаружились так блестяще с первой же игры? Но если абсолютного ответа мы на
эти вопросы дать не можем, то тем не менее сыгранные партии представят собой
образцы остроумнейших шахматных комбинаций, анализ которых обнаружит
глубокую целесообразность отдельных ходов. Поэтому, как бы мы ни были склонны
отстаивать свою априорную уверенность, что игра нашего новичка не могла быть
сознательной, мы все же должны будем признать, что связь между ходами
целесообразна и закономерна.
Подобное же замечание применимо к гипотезе о закономерности явлений
природы. Для объяснения имеющегося наблюденного материала мы неизбежно должны
признать эту закономерность, как бы нам ни хотелось верить в чудеса, но никого
нельзя разубедить в том, что вне сферы точных наблюдений чудеса бывают, и, быть
может, законы, которые были до сих пор непрелояшы, окажутся игрой случая.
57
ствующие той же теоретической схеме, мы считаем, что в некоторых из
них исход действительно имеет место. Если бы мы имели возможность
охватить одним взглядом все прошлые и будущие опыты этой схемы и
констатировали бы, что Л не происходило никогда, то мы должны были
бы сказать, что, при правильной схеме этих опытов, А является
невозможным. В соответствии с этим находятся и обычные индуктивные
выводы, которые на основании ненаетупления А при большом числе опытов
также заключают о невозможности А. Аналогичное замечание применимо
и к бесконечным совокупностям. Если совокупность логически
возможных несовместимых исходов не исчислима, как, например, число точек
отрезка (0, 1) (т. е. совокупность значений х, удовлетворяющих
неравенству 0<:г<1), то фактически возможной при этом может оказаться
только исчислимая совокупность исходов, при этом всякая арифметизация
•такой совокупности, в согласии с установленными в главе III
теоретическими принципами, должна была бы все эти фактически (или мысленно)
никогда не осуществляющиеся исходы признать невозможными.
Совокупность осуществимых исходов нам неизвестна, и еще менее есть у нас
априорных оснований для того, чтобы, сообразуясь с тем, что выше было
сказано об объективных признаках равновозможности, полагать столь же
вероятным, что задуманное кем-^нибудь число есть 72, как то, что оно
представляет собой результат вычисления, невыполнимого при современных
средствах анализа 31.
Таким образом, необходимо делать различие между произвольными
числами неопределимыми и определимыми теми или иными способами.
Следует заметить, однако, что только в том случае, если эти способы
указаны, мы получаем определенную совокупность определимых чисел
(например, совокупность алгебраических чисел); поэтому мы можем только
констатировать, что должны существовать числа, которые никогда не
будут определены; самую же грань между этими двумя категориями чисел
точно указать невозможно.
Если мы берем произвольное число, написанное в виде бесконечной
десятичной дроби, и задаем себе, например, вопрос, какова вероятность,
что цифра 0 не встретится ни разу, то ответ будет зависеть от того, к какой
категории относится число. Допустим, что вероятность быть любой цифре
на каждом месте равна32 7ю, ибо можно допустить, что не существует
объективно уловимых причин, чтобы в каждом частном случае одна цифра
имела преимущества перед другой. При таких условиях вероятность
непоявления 0 будет равна Пт (9/ю)п = 0.
Но наше допущение, очевидно, относится только к совершенно
произвольным неопределимым числам, составление которых не подчиняется
никакому закону, так что в каждом числе может быть указано лишь то
или иное конечное число знаков, но вполне это число никогда не
определено, так как всегда остается еще бесконечное число зависящих только
от случайности знаков, а потому непоявление 0 и в дальнейшем не может
быть установлено никаким опытом, напротив, появление 0 совместимо
31 Например, In 2, до того, как была открыта теория логарифмов.
32 Т. е. F (z) = z.
58
со всяким наблюденным результатом, т. е. достоверно (по принципу
единственности). Иначе дело обстоит, если мы полагаем, что составление
нашей десятичной дроби подчинено какому-нибудь закону. Если мы точно
укажем этот закон, например, берем правильные рациональные дроби,
у которых знаменатели не имеют иных множителей кроме 2 и 5, то для
ответа на поставленный вопрос нужно будет прежде всего исследовать,
нет ли прямой причинной связи между законом и появлением цифры 0;
в данном случае из арифметики известно, что непоявление 0 невозможно;
« * 10»-2
но. если бы мы взяли дроби вида — , то, напротив, появление 0
10п — 1
было бы невозможным. Если же прямой причинной связи мы не
усматриваем, необходимо все-таки помнить, что наш закон связывает известным
образом последовательность цифр, а потому полной независимости и.
равной вероятности их допустить нельзя. Чем менее определен закон, тем
труднее a priori указать точное значение вероятности каждой цифры на
определенном месте, но в таких случаях правильнее было бы вычислять
вероятности a posteriori, и хотя следует думать, что по большей части
значение этой вероятности будет весьма близко к Vio, но весьма возможно,
что при разнохарактерности совокупности чисел в некоторых случаях
обнаружится сверхнормальная дисперсия, свидетельствующая об
отсутствии постоянной вероятности.
Рассмотрение совокупностей (всегда исчислимых) тех или иных
категорий определимых чисел для практики имеет мало значения. Напротив,
при применении к экспериментальным наукам обычно приходится
пользоваться бесконечными совокупностями 2-го и отчасти 1-го типов,
лишенными элементарных предложений, т. е. совокупностями неопределимых
чисел, ибо никакой опыт не может точно определить числа (не целого);
результатом опыта устанавливается лишь несколько десятичных знаков
неизвестного и не допускающего экспериментального определения числа.
Сообразно с этим, арифметизирующую функцию F(z) нужно брать
непрерывной, и, принимая во внимание соображения § 7 (п. 36), можно почти
всегда полагать F(z)= \ f(z)dz, где /(z) — некоторая неотрицательная
непрерывная функция, значение которой определяется a priori условиями
постановки опыта или же a posteriori результатами его многократных
повторений.
С бесконечными совокупностями мы встречаемся также при
применении закона больших чисел к какому-нибудь опыту, повторяющемуся
неограниченное число раз. По большей части, число опытов предполагается
конечным, хотя и весьма большим; поэтому закон больших чисел
сохраняет присущую ему практическую, но не логическую достоверность и, кате
было отмечено выше, допускает исключения. Однако если бы для
интерпретации некоторого явления мы создали схему, осуществляющую, по
условию, предельный случай бесконечного числа повторений, то можно
было бы прийти к выводам, имеющим логическую достоверность. Если бы,
например, мы допустили возможность постепенного ускорения
производства опыта бросания монеты или другого опыта, где вероятность события
равна 7г, так, что первый опыт происходит в течение одной минуты,
второй — 7а минуты, третий — 74 минуты и т. д., тогда общее число опытов,
59
произведенных в течение 2 минут, будет бесконечно велико. Но,
предположив, что существует какой-нибудь устойчивый механический прибор,
который последовательно регистрирует отношение появлений события к
числу опытов (хотя регистрация результата каждого отдельного опыта
становится невозможной), мы до конца 2-й минуты будем замечать
некоторые его колебания, но по истечении 2 минут стрелка нашего механизма
займет вполне определенное положение, соответствующее со всей
доступной прибору точностью числу V2. Этот вывод теоретически достоверен,
и неосуществление его на опыте могло бы произойти только вследствие
неполного соответствия между фактическими условиями и нашей
теоретической схемой. Таким образом, если мы составляем определенную
бесконечную бинарую дробь, например, 8А5 = 0, 10001..., где продел
отношения числа единиц к числу цифр равен *Д, то мы должны утверждать
несовместимость составления этой дроби с предположением, что на каждом
бинарном месте появление 1 и 0 равновероятно.
Вообще, невозможно указать способа составления бесконечной
бинарной дроби, в которой последовательность единиц и нулей подчинялась бы
бесконечному числу условий, вытекающих из законов больших чисел.
Бесконечные ряды, составленные совершенно произвольно, случайно (так
что каждое число индивидуально произвольно), существенно отличны от
рядов, составленных по определенному математическому закону, как бы
произволен ни был рассматриваемый закон. Смешение этих двух
понятий, происходящее от того, что для конечных рядов подобного
разграничения между случайными и закономерными рядами не существует,
является одним из главных источников парадоксов, к которым приводит
теория вероятностей бесконечных совокупностей.
3
О ЗАКОНЕ БОЛЬШИХ ЧИСЕЛ*
1. Различные виды закона больших чисел формулируются таким
образом: существует некоторая величина х, зависящая от числа п, обладающая
свойством, что вероятность неравенства \ х\ <е, при произвольно малом е,
стремится к достоверности, когда п бесконечно возрастает.
Укажем условие, необходимое и достаточное для соблюдения этого
закона. Пусть f(x) будет какая-нибудь четная, ограниченная,
возрастающая и непрерывная функция, удовлетворяющая условию, что /(0) = О
(например, fix) = ). Условие, необходимое и достаточное для того,
\ 1 4- х2 J
чтобы вероятность неравенства I x I < е, при произвольном е, имела
пределом достоверность, заключается в том, что предел математического
ожидания f(x) равен 0.
В самом деле, из классических рассуждений Чебышева вытекает, что
соблюдение условия: lim 9S/(:z) = 0 влечет за собой, что вероятность
неравенства f(x) < /(e) = ei, равнозначного неравенству I x I < е, имеет
пределом 1. Наоборот, если вероятность неравенства I x I < e больше,
чем 1 — г), то
|3R/(s) I </(r) + Lti,
где L есть верхняя граница f(x)\ а потому, если бит] суть два
произвольно малых числа, то НтЖ /(х) = 0.
Указанное условие упрощается, если дано, что I x I есть величина
ограниченная; тогда условие ограниченности функции f(x) отпадает,
и тем же рассуждением устанавливается, что условие, необходимое и
достаточное для того, чтобы вероятность неравенства I x I < е (если х
величина ограниченная) имела пределом 1, состоит в том, что Ж^2 имеет
пределом 0.
Посредством столь же простых соображений можно получить удобное
для практики необходимое и достаточное условие применимости теоремы
Пуассона ** к ряду зависимых опытов.
2. Т е о р е м а. Пусть ph представляет вероятность a priori наступления
события Ah; вероятность же Ah в случае наступления At пусть будет plk,
* «Сорбщ. Харьк. матем. об-аза», серия 2, 16 (1918), 82-87 (84*).
** См.* «Т. В.», стр. 147. (Ред.)
Ы
а в случае ненаступления Ai пусть вероятность А^ станет равной р^];
пусть далее п есть число всех испытаний, am — число наступивших
событий. Условие, необходимое и достаточное для того, чтобы при произвольно
малом г вероятность неравенства
— Pi + Р* + - • • + Рп
П П
<8
имела пределом достоверность, когда п — оо, состоит в том, что
PiQi
i . г . г (г) . (i) . . (i)
Pi + Pi + • . . + Pn Pi + pi + . . . + Pn
равномерно (по i) стремится к 0.
В самом деле, положим
In= 3R
m pi + р2 + . . . + Рп
В таком случае
1п= —
П
!m pi + р2 + .. . + рп
Ж (xi—pi) ) +
п п
+ Ж (Х2 - Р2) (-
... +®1(хп —рп)
™> Pi + Р2 + • • • + £т7
+ ...
m pi + Р2 + .. + Рп
где х\ получает значение 1 или 0, в зависимости от того, наступает ли А\
пли нет. Поэтому
®(*i~Pi) ( —
m р^ + р2 + ... + рп
PiQi
Pi + Рг + ... + рп Pi + Рг + .. . + Рп
— PiQi
Pi* + Р™ + ...+Р(п Pi + Pi + . . . + Рп
= PiQi
J . * . . i (i) . (*) .
Pi + P2 + • . . + Pn Pi + pi + ... + Pn
Согласно предположению, при всяком г полученное выражение может
быть сделано менее любого произвольно малого числа е, если п
неограниченно возрастает. Следовательно,
In < е,
откуда вытекает достаточность высказанного в теореме условия.
62
Перейдем теперь к доказательству необходимости упомянутого
условия.
Полагая для краткости
р1 + р1 + ... + р*п р{° + /4° + .. +Р1?
еь
замечаем сначала, что
Pi + Р2+ .. . + Pn Pi + Р2 + . .. + Рп
<№,
так как
Pk = PiPk + qiPh .
Итак, допустим, что закон больших чисел соблюден, т. е. вероятность
неравенства
т pi + Р2 4- .
ft гс
. • + Рп
<е
(1)
равна 1 — а, где е и а стремятся к 0 при возрастании гс. В таком случае,
после наступления А{ вероятность неравенства (1) остается больше, чем
1 — — .А потому после наступления Аи
т Pi + P2 + ...+ рп
п п
< е + —.
Pi
По, после наступления Л,-,
т _ р\ + pi + ... + pi. t
гс гс
следовательно,
Pl + Р2 + . . . + Рп р\ + pi + • • . + Рп
а
<8 + —,
Pi
откуда
I PiQibi I = PiQi
pt+pi+...+Рп рР + pP + ...+P?
< e + а,
что и требовалось доказать.
3. Указанное условие применимости теоремы Пуассона к зависимым
испытаниям можно видоизменить, введя на место
Si =
Pi + pi + • • • + Pn Pi + рг + ... + pn sj (Рь Pk
s e-
fe=i
63
ту же сумму только для испытаний, следующих за А{, т. е. беря сумму
fc=n i (г)
; V д и
Чтобы в этом убедиться, заметим, что
fc=n
In = — Зй"2 (^-pfe)2 + — Ж >i-pi) 2 (*л-Ра) +
/i=i
ft=n
+ . . . + (Лп-i - Pn-i) S (^n-pn)J =
ft=n A=n
1
fc=n
1 V
?г-
/i=i
(i)
i z V V Pk — Ph
n . Л , . n
1 = 1 /< = /+!
Таким образом, из условия
Рг
fc=n / г (г) \
\ п и I
< г
Ь = г+1
1
вытекает, что 1п < -—Ь е, а потому видоизмененное условие достаточно
4/г
для применимости теоремы Пуассона.
С другой стороны, покажем необходимость видоизмененного условия.
С этой целью замечаем, что если теорема Пуассона применима, то
неравенство
пг
п
Pi + рг + .
п
• + Рп
<е
(1)
имеет вероятность 1 — а, где а и е стремятся к 0 с возрастанием щ вслед
ствие этого, при всяком i < n вероятность неравенства
та — mi pi+i + ... Л- Рп
2е,
(2)
где m есть число появившихся А при первых i опытах, более, чем 1 — 2а.
В сахмом деле, пусть для всякого п > п0 неравенство (1) имеет вероят-
иость больше, чем 1 — а, и возьмем п > —. Тогда, для i ^ гс0,
8
ТПг
Pi + р2 + . • . + Pi
п п
а для i > no вероятность неравенства
rm pi + p2 + ... + Pi
I i
< < 8,
П
<е,
(3)
т. е.
ТПг
Pi + Р2 + . . • + Pi
<г
е • ъ
(4)
п п . -
более, чем 1 — а; поэтому вероятность совмещения неравенства (1)
с неравенством (3) больше, чем 1 — а, с неравенством (4) больше, чем
64
1 — 2а. Следовательно, вероятность (2) также более, чем 1 — 2а; а
потому, подобно предыдущему, убеждаемся в необходимости условия, чтобы
Sph — Pk
равномерно стремилось к 0.
4. Применим, например, последний результат к совокупности
испытаний, связанных в цепь. Пользуясь вычислениями А. А. Маркова1, найдем
i Г 6;+i+ 6i+i6i+2 + . . . + 6{+i6;+2 . . . бп
PiQiSi
ЬЯг ['
П
где бл+i есть разность между вероятностями Ah+v при предположении, что
Ah произошло, и при предположении, что Ah не произошло (т. е. бл+i =
Таким образом, для применимости закона больших чисел к
испытаниям, связанным в цепь, необходимо и достаточно, чтобы Рг^е/
равномерно стремилось к 0. Отсюда немедленно получаем достаточное условие
А. А. Маркова |6;| < л < 1.
Легко видеть, что вообще достаточно, чтобы произведение
6г-иА*+2 • • • &i+n
равномерно стремилось к 0 при возрастании п, когда i < п. Это имеет
место, например, когда I 6ь I < 1 — 1Д*а, где а < 1. Из случаев, когда
последнее условие нарушено, но piqiZi все же стремится к 0, а потому
теорема Пуассона применима, отметим два случая: 1) если среди чисел 6k
периодически встречаются отрицательные числа; 2) если 2 стре-
мшюя2 к 0 при п -voo. Напротив, закон больших чисел непременим, если
все б — положительны и произведение 6162... бп не стремится к 0; это
имеет место, в частности, когда 6^ > 1 — 1//са, где а > 1.
Заметим, что в случае, когда 6/t = 1 — 1/&, применимость теоремы
Пуассона зависит от того, будет ли PkQk стремится к 0. Действительно,
еслл Piqi не стремится к 0 (например, если р\ = 7г), то
, РЫ
+—— + ...+
i + l i + 2
т]
с возрастанием п стремится к 0, но не равномерно, так как при всяком п
можно найти значение i, для которого это выражение не стремится к 0;
напротив, оно стремится к 0 равномерно, если piqi —► 0; следовательно,
теорема Пуассона применима только в последнем случае.
1 А. А. Марков. Исследование общего случая испытаний, связанных в цепь.
«Записки Акад. наук», 25, № 3 (1910), 1—33.
2 Поэтому, в частности, закон больших чисел применим всегда, когда
Pi + рг + .. .+Рп
. стремится к 0 (при этом нет даже надобности ограничиваться
п
предположением, что испытания связаны в цепь).
5 С. Н. Бернштейн
4
0 ПРЕДЕЛЬНОЙ ТЕОРЕМЕ ТЕОРИИ ВЕРОЯТНОСТЕЙ *
В этой небольшой заметке я излагаю без доказательств мои
исследования (начатые в 1917 г.) о предельной теореме теории вероятностей,
т. е. об условиях применимости закона Гаусса. Задача заключается в
нахождении условий, чтобы величина Sn, зависящая от п, математическое
ожидание которой равно нулю, обладала свойством, что вероятность
неравенства
U VW~n KSnKti V'2Bn,
ще Вп есть математическое ожидание Sn, имела пределом, когда п-^оо,
Можно, не ограничивая общности, положить**
Sn = и<я> + в<л> + ... + tt(n).
В дальнейшем для упрощения записи я буду опускать верхний индекс
члена и^\ т. <е. писать просто Uk] но для того, чтобы формулировки теорем
не вызывали недоразумений и были поняты во всей их общности, нужно
помнить, что мы, вообще, не предполагаем, что Sn — Sn-i = ип.
Прежде всего, легко установить необходимое условие для
применимости предельной теоремы, которое я представлю в частном виде, чтобы
облегчить ото 'СОш>ставлс.ние с достаточным условном, которое будет дано
дальше.
Предельная теорема ни в каком случае не может быть применима,
если Вп порядка пх и в то же время среди чисел и\ есть хотя бы одно,
обладающее свойством, что, когда оно получает определенное значение и0,
(вероятность которого положительна), математические ожидания
произведений щщ, где к — Кп%1г и I — Кпк12, получают конечные приращения,
превышающие некоторое число а > О, между тем как приращения прочих
произведений неотрицательны.
* Sur le theorerae limite du calcul des probabilites. «Math. Ann.», 85 (192i2),
237—241 (88*). (Эта заметка является предварительным наброском идей, на
которых основана моя большая статья [8].)
** Случай, когда слагаемые в сумме Sn независимы, был впервые исследован
в классических работах А. А. Маркова и А. М. Ляпунова. (Автор.)
66
Для получения достаточных условий я пользуюсь следующей основной
леммой.
Основная лемма*. Если, какова бы ни была совокупность
известных значений щ, гг2, ..., ггг--1, за исключением множества значений,
имеющего вероятность 8г, §К (щ) и $Я(и2.) получают уклонения, не
превышающие соответственно аг- и рг-, а Ж 1 щ I 3 < с*, го предельная теорема
применима к сумме Sn, лишь бы только величины
п п п
/j CLi ^J Рг <2 Ci п
J _i 1 "Г* у
уя; iwn увт ^ 8i
стремились к О тгрц ?г —► ос.
Если величлны щ удовлетворяют условиям этой леммы, мы будем
говорить, что величины щ почти независимы.
Таким образом, какова бы ни была сумма Sn = щ + иг + ... + .н«,
можно будет всегда утверждать применимость к ней предельной теоремы,
если только возможно так разбить сумму Sn на 21 групп: У\ + х± + Уч +
+ хг + . .. + У\ + х\, что г/1, г/г,. .., У\ почти независимы, между тем как
порядок возрастания 3R (#i -г- ... + xi)2 при п —* ос ниже порядка
возрастания Вп = $Я(щ + гг2 + . %. + ггп)2. Действительно, тогда легко
показать, что
^Q/1 + ... + г/г)2
и заключить отсюда, что, поскольку предельная теорема применима к
сумме г/i + ... + г/г, она применима и к сумме Sn. Таким образом,
получаются общие более или менее сходные теоремы, формулировки которых
могут быть видоизменены в зависимости от поставленной задачи.
Я ограничусь здесь следующей формулировкой.
Теорема. Если
Bi, i+h == 9R (и,-+1 + щ+2 + ... ■+- Ui+h)2
порядка hK (A, > 1) и 9R I uk 13 ограничено, каковы бы ни были известные
значения других U{, причем, если известны еще некоторые другие щ,
изменения ЭД (iik)u $R (uhUi) остаются порядка < 1/п, когда \ к — i\ > тг^,
где Q < Х/2, го предельная теорема применима к сумме Sn = щ +
+ гг2 + ... + ип.
Сравнивая эту теорему с указанным выше необходимым условием, мы
видим, что теорема была бы неверна, если положить g = Х/2.
Резюмирую вкратце доказательство**. Положим
Hi = Mi + и2 + ... + uh,
г/2 = ^/i-fft-fi + • • • + U>2h+h,
УI = ZZ(H)(h+?i)+l + . . . + Ui(h+k)-k,
* Развернутое доказательство аналогичной леммы дано в л. 9 работы [8]. (Автор.)
** Полное доказательство приведено в п.п. 6—7 работы [8]. (Автор.)
67
5*
где к наибольшее целое число, удовлетворяющее условию К < п**, причем
I = пб, где б удовлетворяет неравенству 6 < к — 2q, a k — наименьшее
целое, удовлетворяющее условию h > пх~ь — к. В таком случае
М(У1 + У2 + ...+ Щ)2 {
Во, п
и остается лишь показать, что величины yi почти независимы. Для этого
достаточно сначала заметить, что максимальные изменения Ж (yi) и
ЗЛ(г/2) остаются соответственно меньше, чем h/n и /г2/я, когда значения
предшествующих yi становятся известны. Условие, касающееся 3R I yi 13,
доказывается немного сложнее. Предположим, для определенности, к = 1.
Допустим, что для некоторого значения щ при всяком g соблюдается
неравенство вида
ф | иш + ... + ug+nQ |3 < ЛлН-«/М;
в таком случае, обозначая через t определенное число, независимое от т,
имеем
Ж I ug+i + ... + ug+2n0 13 < 2Anl+^2nQ + tnlj*n<* < A(2n0)i+^2nQ,
t
каково бы ни было число А > 2 —. Отсюда немедленно заключаем,
Z\Z 1)
что
а следовательно,
€D* I yi\z<A{2hy+Wn*,
-о,
тг/а
и теорема доказана.
В качестве первого применения этой теоремы укажу следующий
пример *. Пусть хи Х2,..., xN — большое число независимых случайных
величин, причем для всех i <J N имеем
Ж (xi) = 0 и 3R (Х\) - Ж (xN)2.
Определяем затем п = N — t + 1 чисел щ, иг, ..., и™ по условию, что иг-
получает значения +1 или —1 в зависимости от того, будет ли сумма
S(i, t) = x{ + xi+i + ... + Xi+t-i
положительна или отрицательна, причем, если S(i, t) = 0, то щ = 0.
Применяя установленную выше теорему, получаем (при помощи вычислений,
которых я здесь не привожу), что вероятность неравенства
ZQ
у пЛ2- — )< щ + и2 + ... + un<Zi у nil 2 )
Аналогичный пример рассмотрен в п. 8 работы [8]. (Автор.)
68
имеет пределом при п -*■ оо
zi
4-? er*dz,
где t = wQ, q < 1.
В качестве второго приложения я поставил себе задачей обобщить
результаты А. А. Маркова, относящиеся к простым цепям. Положим, что
рассматривается последовательность п событий Ek, первоначальные
вероятности которых равны pi, ..., рь, ..., рп, и положим *, что в зависимости
от появления или непоявления Ek событие Ek+i получает соответственно
вероятности р' или р" , независимо от появлений или непоявлений
предшествующих Е\ при i < к. Марков доказал, что предельная теорема
применима в случае, когда существует такое определенное положительное
число а, что p'h q'k > а, р^ > а> гДе Я\ = 1 - P'k, < = 1 - р£.
Полученная мною выше теорема позволяет усилить * указанное
условие А. А. Маркова, а именно, достаточно, чтобы
1 1
Ip^-P^l <1- —, где <*<у,
если в то же время из трех последовательных значений
Ph+iQh+i — S\+lPhqh, где 6k = p'k — р\ и qh = 1 — pfc>
по крайней мере два не стремятся одновременно к 0. Таким образом,
например, предельная теорема применима, если Ph = 0 для всякого к, лишь
бы p'lfl'i не стремилось к 0. Заметим также, что при условии 6ь > 0
достаточно, чтобы существовало такое определенное число а, что среди
последующих произведений pk<lk по крайней мере одно > а. Видоизменяя
немного нашу теорему, можно придать другую форму достаточному условию.
Достаточно, чтобы
PkQk>-k- P*?*>^, 6*>1-—, гдеа^——.
Ясно, что условие, налагаемое на бь, будет осуществлено, если а < 77.
Интересно также отметить, что последнее достаточное условие
содержит также некоторые случаи, кавда а может быть сколь угодно близким
к 1. (Однако я показал в другом месте, что шгри а ^ 1, вообще, может
нарушаться не только предельная теорема, но и закон больших чисел2.)
Замечу, что наши достаточные условия отличаются от условий
А. А. Маркова тем, что они включают случаи, когда дисперсия бесконечно
велика и бесконечно мала.
Закончу эту заметку формулировкой теоремы, которая должна служить
математической основой теории нормальной корреляции. Ее
доказательство проводится также вышеизложенным методом.
1 Следуя А. А. Маркову («Исследование общего случая испытаний, связанных
в цепь», «Записки Акад. наук», 25, № 3 (1910), 1—33).
* Полное доказательство с обобщениями дано в п.п. 9—10 работы [8]. (Автор.)
2 В икжлючшгтельных случаях закон больших чисел может быть применим и при
а = 1. См. работу [3].
69
Теорема. Пусть
Sn = Ui+U2 + ... + Un Sn = Щ + U2 + . . . + Un
являются суммами зависимых элементов, таких, что математические
ожидания сумм
Ж (иш + ui+2 + ... + ui+h)2 = Bit h, 3»(и'Н1 + ... + u[+h)2 = B'it h
порядка h, тогда если^Я I Щ I3 так же как и ЭД I щ I3 остаются
ограниченными, каковы бы ни были значения, полученные другими щ и и/, если%
кроме того, уклонения $1 (uk), SR(ufe),9K (икщ), ЗК (щщ) ,$к(икщ) оста-
1
ются менее —, пока неизвестны значения каких-нибудь щ или щ, для
п
1
которых \к — i I < лгб, \1 — i I < гго, где Q < —, го вероятность совмеще-
ния неравенств
и У250, „ < sn < h у250,«, «'о У2я;_ n < j; < t[. i2B'0 n
имеет пределом, при п — оо,
(i Ji' f+t'*-2Rtt'
1 Г Се *-«' <ЙЙ',
(»'о
где
R_ W{SnSn) _^i
1вй,пв^п
Поступило
8 августа 1921 г.
5
ОБ ОДНОМ ВИДОИЗМЕНЕНИИ НЕРАВЕНСТВА
ЧЕБЫШЕВА И О ПОГРЕШНОСТИ
ФОРМУЛЫ ЛАПЛАСА *
1. В настоящей статье я имею в виду, главным образом, показать, что,
применяя надлежащим образом классическое рассуждение Чебышева,
возможно получить неравенство значительно более точное, чем неравенство
Чебышева, если только допустить некоторые ограничительные условия,
обычно осуществляющиеся на практике. Затем мы воспользуемся
полученным результатам для исследования погрешности формулы Лапласа.
Пусть х, у, z .. . представляют собой независимые величины,
математические ожидания которых равны 0; пусть, далее, #ь, bk, Ck • -. будут
математические ожидания xk, yk, zk, .. . причем можно указать такое число L,
что математические ожидания степени выше третьей удовлетворяют
неравенствам вида
*\<Ш)
«4, bft|<— ( —) bl И Т. Д.
4! V Ь) ~" i""i ^4! \5>
В таком случае, полагая Az = a-i + Ъг + с2 ..., А3 = а3 + Ь3 4- с%.
неравенство
Ч + &4 + с4 +
(X + У + 2 • • • ) —
3 А2
<t V2I,
1 +
Aj,t2
~6lf
(1)
имеет вероятность большую, чем 1 —2е~*21 если только t^-
В самом деле, обознаяая через 9R математическое ожидание, получим:
/ = 9Ree(*+y+z+...) =sKe8X-i^-sffi егг
Но
Ш [е**] = 1 + —а2 + —а3 + —04 + ...=
Z о! 4!
Б2 8 8
= 1+уа2 + -аз + 1Га4
1 +
00 /
8L
* «Уч. зап. научн.-иссл. кафедр Украины», Отд. матем., бып. 1 (1924), 38—48
(98*).
71
eL . 1
где 0 < 9 < 1. Поэтому, полагая —г~^т, находим
5 2
9е4
Ы[е*х]=1+—аг + —аз+ ^
а4.
Откуда
In [ЯКе8*] <
е2а2 г3а3 е4а4
+
6
+
12
Применяя аналогичные неравенства к остальным величинам и
складывая их, получим
т 62Л2 83Л3 64^4
1п/< —+ —+ —.
Точно таким же образом, полагая h = $Re-£(x+y+z +•••), найдем
. _ ^ е2Л2 8343 еМ4
In /i < — h
(2)
(3)
2 6 12
Применяя теперь известное рассуждение Чебышева, заключаем, что
вероятность неравенства
ег(х+у+г+...) > et*j (4)
менее, чем е~*2. Но неравенство (4) равнозначно неравенству
*2 + 1п/
х + у + z + .. . > .
Подставляя (2), находим, что вероятность неравенства
. t2 гА2 г2А3 в3Л4
x + y + z + ... >_ + __ + _- + __
б 2 6 12
(5)
менее, чем е-*2, и полагая, наконец, г2А2 = 2£2, заменяем неравенство (5)
неравенством
(1 + , + г + ..,_^><^(1 + М)
(6)
Подобным же образом убеждаемся, пользуясь неравенством (3), что
и неравенство
t2A3
(х + у + z + . . .) —
3 А'
<-'^(i+^) <б'>
имеет вероятность меньшую, чем е~г\
Следовательно, вероятность неравенства
72
t2 Atl
о Аг
(1)
более, чем 1 - 2е~*\ при условии, что t = е ^ ^^-Л-уы^что и тре-
бовалось доказать.
2. Наше неравенство становится точнее неравенства Чебышева только
при значениях t, для которых et2 > 4£2, и представляет особый интерес для
значений £, превышающих несколько единиц, когда точность его
приближается к точности предельной формулы Лапласа — Ляпунова, согласно
которой вероятность неравенства (1) имеет пределом
2 '
Ф (*) = -= [ e~t2dt
1* e
при условии, что —— стремится к 0.
А\
Остановимся для примера на случае ряда независимых опытов, при
которых вероятность появления события Е равна соответственно ри Р2,
рз, . .., Рп. Очевидно, что в данном случае, как и всегда, когда
рассматриваемые независимые величины ограничены, теорема применима. Поэтому
вероятность неравенства
т- Sp,--^-^ \<tiU1{i + —) (7)
больше, чем 1 — 2е~г\ где т — число появлений Е при п опытах, Аг =
п п п
= 2рг£г, А3 = 2 PiQiiQi - Pi), Ak = 2 Р*?*(Р* + ?*)> Аля всех значений
i 1 1
4
В частности, если все вероятности pt = р, неравенство (7) получит
форму
t1
т-пр- ■ -(д-р)
< *У2гсрд
*2(Р3 + 43)
1 +
(8)
Пусть, например, р == 1/50, п = 20 000, t = 5; тогда неравенство (8)
получит форму
| m - 408 К 142,
вероятность которого, следовательно, более, чем 1 — 2е~25 =
= 0,99999.99999.7, что позволяет нам утверждать, что предельное значение,
даваемое в данном случае предельной формулой Лапласа, которое, как
нетрудно вычислить, равно 0,99999.99999.8, правильно с точностью до
1/1010. Неравенство Чебышева даже для более широкого неравенства
lm-4001 <150
дает в качестве нижнего предела для вероятности только 0,9824.
Если наше неравенство во многих случаях позволяет установить, что
погрешность формулы Лапласа для больших значений t весьма
незначительна даже при сравнительно небольших значениях л, то, с другой
73
стороны, этим неравенством можно также воопользоБаться, чтобы показать,
п
что если У] pi медленно возрастает, то даже для чрезвычайно больших
значений п предельная формула Лапласа в том виде, как она обычно
применяется, дает погрешность большую, чем наше неравенство.
Действительно, положим п настолько большим, чтобы —=- было правильной
ЗПА1
дробью; тогда выбирая t так, чтобы левая часть неравенства (7) была
целым числом, можем заменить его эквивалентным неравенством
t2 A3
m-^Pi 3 А2
<ti2A2. (9)
По теореме Ляпунова вероятность этого неравенства (9) при
бесконечном возрастании Аг имеет пределом
'<«>--!-
V зУщ! У zV2A\j\
Замечая, что из асимптотического равенства для больших значений t
ф(*)~1--^= (И)
вытекает асимптотическое равенство
t3\A3\
где к = -—==_, заключаем, что если к не очень мало, то F(t) < 1 — 2е~{\
&\f'2Az
* 2
между тем как по нашей теореме точное значение рассматриваемой
вероятности должно быть более, чем 1 —- 2е~*2. Например, если р% = 1Д то даже
для огромного значения п = е2048, полагая t = 5, находим для F(t) =
= 0,99999.99995.8, между тем как 1 — 2е'*2 = 0,99999.99999.7, откуда
видно, что, в то время как вероятность неосуществления неравенства (9)
в действительности, согласно нашей теореме, менее, чем 3 • Ю-11,
предельная формула дает 42 • Ю-11.
3. Из предыдущего видно, что предельную формулу Лапласа, которой
обычно пользуются как приближенным значением для вероятности
неравенства
|™-2Н <ti2Ai,
более точно рассматривать как приближенное значение вероятности
неравенства
т — 2jPi
<ti2A2.
3 Аг
Для более полного обоснования нашего замечания припомним,
ограничиваясь случаем постоянной вероятности р, классический вывод фор-
74
мулы Лапласа, который состоит в том, что при помощи формулы Стирлиага
^я вероятности Рт? п = Сп pmqn-m получается асимитютиче-окое
выражение
п,п~ 1/ '
п
2пт(п -
- т)
пр
т
т
nq "
_п — т_
(13)
относительная погрешность этого выражения весьма мала даже для
небольших значений п, т, п — га. После этого доказывается, что для
выражение w
га
т = пр + zY'Znpq
п — га -1 п-т
(14)
имеет пределом ег при бесконеч-
пр ] I nq
ном возрастании п. На эту последнюю часть рассуждения я и хотел бы
обратить внимание, чтобы внести в нее соответствующее изменение.
Не ограничиваясь целыми значениями га, поставим себе вопрос:
определить га как функцию z таким образом, чтобы
w = е*2 (15)
при всяком значении п. С этой целью заменяем равенство (14) равенством
m = n\p + y(VZpq + <f{v))l (16)
где y — z/yfi, а ф(г/) —неизвестная функция, которая определится пз
уравнения (15), получающего после логарифмирования вид
га . , п — т о о
га In Ь {п — га) ш = пу2 = £2
пр
или
[р + У(УГ2р? + ф(у))]1п
?2#
1+ — (
Р
/2И + ф(у))]
+
+ [?-р(/2рд + Ф(у))]1п
1 — — (К2рд + Ф(у))
= у*
Полагая, для краткости, j/2pg + ф(*/) = и, находим, наконец,
пользуясь разложением логарифма, уравнение
и2 ( 1
~2
V? ?/ 2-з W2 W
+
ukyh-2
к(к — \) \ дк~* (-р)*"1
+ ...= 1,
(17)
которое при у = 0, и = j/2pg обращается в тождество, я так как для этпх
■значений производная по и левой части уравнения (17) отличша от 0, то,
на основания известной теоремы о неявных функциях, и разлагается
в строку Тейлора
и =V'2pg +
■у + -..,
(18)
75
сходящуюся для значений у, не превышающих некоторого определенного
числа R. Вычисление дальнейших коэффициентов ряда (18) имеет мало
значения, так как, подставляя (18) в формулу (16), получим
Ч — Р
т = Пр + z]f2npq + —z2 + ..., (19)
о
т. е. решение поставленного нами вопроса, откуда видно, что дальнейшие
члены сходящегося ряда (19) с возрастанием п стремятся к 0, чего нельзя
q — р
сказать о последнем написанном члене — z2. Таким образом, вероят-
о
— :е , точнее всего приписать целому числу,
2ктп(п — т)
ближайшему к
г q — р
пр + zV 2npq + z2 — .
о
Более детальное развитие этих соображений дает возможность
определить погрешность формулы Лапласа, применяемой с предлагаемой нами
поправкой.
4. Не останавливаясь на промежуточных1, довольно кропотливых (но
не представляющих принципиальных трудностей) вычислениях, в которых
я предполагаю, что число опытов п удовлетворяет неравенству npq > 365,
мы получаем следующую точную формулу
Pm,n=-7=:e K 2 ] (20)
где I г|з I < 1, если z и Az определяются условиями
. z2{q-p)
m + a = пр + z \2npq H
3 '
(z + Az)2
m + 1 + а = пр + (z + Az)\f2npq-i (? —р),
1 2
причем - 1< а < — и < z ^V2npq.
z У 2npq
Из (20) заключаем немедленно, что
Az ь
Az -(*+ )2 1 "
1 Укажем еще одно выражение для Р :
m, n
-Z2- -
гг.п^у ]
bnpq iOnpq
2лт (п — т)
где 0<6<1 и —1/4 < ф < 1, верное для всякого п при условии, что
I z | < 1/4 yZnpq.
где a nb определяются соответственно из уравнений
т + — = пр + aVlnpq +
т + — = пр + hVlnpq + — b2;
Q — P
3
и, с другой стороны, замечая, что
Az-e v < ) e~*dz,
видим, что
Az //
p.,<-i;f-T-''<iU'*,
где а' и Ь' определяются соответственно из уравнений
г Я. — Р
т — 1 = пр + a'V2npq Л а'2,
о
q — р
т = пр + VV2npq + —-— Ь'2.
Следовательно, формулу (20) можно заменять формулой
1 г
Рт, п = -=- б-22 dz,
Уя J
(21)
где Ло и Zi, соответственно, положительные окорни уравнений
/тг + а = пр + ZqV 2npq ^ ^Г^"**'
о
7тг+1 + а = гср + z^2npq -\ —•=-z2
о
при условии, что -1<а<1/2, ярд ^365 и положительный корень 2
уравнения т = пр + zV2npq -\ т-^-z2 удовлетворяет неравенству
о
-< z <Y2npq.
V2npq
Из (21) выводим, наконец, что вероятность неравенства яг0< m < /7ii
равна
2 2Vn=4^f «-*&, (22)
Zo
77
где Zq и z^ определяются из уравнений
Я. ~ Р 2
га0 + а = пр + 20 y2npq -\ z^,
rrii + а = пр + Zi ^2npq -| z\,
о
(сохраняя прежние предположения).
Полученному результату можно придать несколько иную форму: пусть
Zi и Zq — два положительные числа, удовлетворяющие условию, что
разность
равна целому числу; в таком случае
21
4= f <T*dz= — [Ф(2,)-Ф(20)]
Уя J 2
более, чем вероятность неравенства
2о V<2npq + 4 + 1< "г — пр < zYlnpq -^ — z\ + 1,
S о
и менее, чем вероятность неравенства
.- q — р 2 1 /z ? — Р 2 1
z0y2npq + — z0 - — ^m- пр < z^npq + — 2l ---.
Для того, чтобы получить аналогичные выводы для случая, когда zq
и zi противоположных знаков, следует воспользоваться сначала
неравенством (8), при помощи которого, совместно с (22), легко вывести, что
вероятность неравенства m-^ mQ равна
6 о
1 -./ -Vlnvq
— [Ф(У2прд)-Ф(2о)] + Qe
где 0 < 0 < 1, а г0 есть положительный корень уравнения
тпо+ а = пр + z0v2npq + z0 — I
Отсюда можно заключить, что вероятность неравенства
где —1 < а < —
т-пр- —— (q — р)
<t0V2npq,
(23)
рассматриваемого с точностью до одной единицы, имеет значение Ф(£<з)
с точностью до
з
-V2npq 6
*е (при *о< V 2npq, тгрд>365).
78
Полагая, например, р = 2/5, п = 28750, находим, что вероятность
неравенства
11322<т<11678
более, чем Ф(1,5) - 1/1010 « 0,966105;
вероятность же неравенства
11324 <т< 11676
менее, чем Ф(1,5) + 1/1010 « 0,966105.
5. В 'заключение сопоставим приближенное выражение Рт,п, данное
Пирсоном 2 для Рт> я, с произведенными нами вычислениями.
По Пирсону
Рг =
1 Н— (пр — ттг)
Zpqn
(p-q)- -—L_.(np-m)
где An — независимый от т коэффициент.
Полагая пр — т = lYlnpq, мы нашли точное значение
Г _еп +/,(HgH /•
^А п = Р' б 12m(n-m) 12рдп \л/ ^
" V 2лт(п-?п) '
где
lei< —, о<е<1, ui<JK2
^ о
Таким образом, функция Пирсона
A]>qn 2tV2pqn
1 + ■ г p-<?)2 е Р-9
У 2pqn J
выражает Pm, п с той же степенью точности3, как и e~z\ где z
определяется из равенства
2 V'lnpq + z2 = т— пр = — *К2/грд.
Следовательно, пределы, в которых формула Пирсона дает точные
результаты, определяются еще требованием, чтобы — стремилось к 0.
Поэтому формула Пирсона перестает быть удовлетворительной, когда
(пр — т)4ь тт 3 1
—= не очень мало. Например, полагая р = —, q = —, п = IV,
2npq 4 4
Р520 / 2\60
по Пирсону: —— = 1 + — 1 б"40 = 87 • 10~5, между тем как в деистви-
^15,20 \ 3 /
тельности —— = 17 • 10~5; кроме того, с увеличением п ошибка быстро
Р 15,20
возрастает.
2 «Philosophical Transactions», Ser. A, 186 (1895), 343—414.
8 См. сноску1 на стр. 76.
6
РЕШЕНИЕ ОДНОЙ МАТЕМАТИЧЕСКОЙ ПРОБЛЕМЫ,
СВЯЗАННОЙ С ТЕОРИЕЙ НАСЛЕДСТВЕННОСТИ*
Глава I
1. Предположим, что мы имеем N классов индивидов, обладающих
свойством, что скрещивание каких-нибудь двух из рассматриваемых
индивидов производит индивидов, принадлежащих к одному из упомянутых
N классов. Рассматриваемую совокупность классов индивидов мы будем
называть замкнутым биотипом. Мы оставляем совершенно в стороне
вопрос о том, возможно ли непосредственно по внешнему виду определить
к какому классу относится каждый данный индивид; мы допускаем
лишь, что при скрещивании индивида класса i с индивидом класса к
вероятность появления индивида класса I имеет вполне определенное зна-
чение Aik = Aik. Вероятности Ащ., связанные соотношением 2jAik = 1,
мы будем называть коэффициентами наследственности данного биотипа.
В таком случае, если <ц, аг, ..., oln представляют собой произвольные
вероятности принадлежности каждого индивида к одному из /V классов,
то в ближайшем следующем поколении соответствующие вероятности
а/, аг', ..., ctjv' определятся 1 формулами
Cti = 2 Aih0.i0.h, <Х2 = 2 AihCLi0.h, . . . ,aN = 2 A?kCLiCLk (1)
i, к i, k i, h
и точно так же для следующего потомства
ai = 2j AikCtidk, a2 = 2j А{ка{ак,... ,aN = Zi Аи&№ь. (2)
i, k i, k i, k
и т. д.
Применяя те же итеративные формулы, мы можем получить
распределение вероятностей для любого последующего поколения.
Задача, которую мы ставим, состоит в следующем.
* «Уч. зал. научн.-иссл. кафедр Украины», Отд. матем., вып. 1 (1924), 83—115
(99*).
1 Наши формулы, очевидло, предполагают полное отсутствие какого бы то пи
было отбора: размножение биотипа происходит в условиях панмиксии.
80
Каковы должны быть коэффициенты наследственности для того, чтобы
при панлшксии распределение вероятностей, осуществленное в первом
потомстве, передавалось неизменным во всех последующих поколениях?
Если коэффициенты наследования удовлетворяют поетавленному
условию, то мы говорим, что соответствующий им закон наследования
удовлетворяет принципу стационарности.
2. В настоящей статье2 я не буду останавливаться на тех
принципиальных соображениях, которые привели меня к убеждению, что при
построении математической теории эволюции следует в основу ее
положить законы наследования, подчиняющиеся принципу стационарности.
Замечу только, что закон Менделя, которым определяется наследование
большинства точно изученных элементарных признаков, подчиняется
вышеупомянутому принципу3. Так называемый закон Менделя касается
трех классов индивидов, из которых первые два составляют две чистые
расы, а третий — расу гибридов, возникающую всегда от скрещивания
между собой двух индивидов, принадлежащих к противоположным чи-
12 2 1 3 3
стым расам. Таким образом, Ац = А22 = 1, Ац = А22 = О, Ai2 = 1, Ац =
з 1 °
= А22 = Л12 = А~12 = 0. Остальные 9 коэффициентов, согласно
экспериментам Менделя и его последователей, имеют вполне определенное
12 3 12
численное значение, а именно: Азз = А3з = *Д, Азз = 7г, Ai3 = А2з =
= А*3 = Аоз = 72, Аи = А^ = 0.
Таким образом, формулы (1) получают вид
0.1 = (ai + — a3 ) , a2' = 1 а2 + — a3) , a3' = 2 ai + — a3 I a2 + — a3 )•
\ 2 / \ 2 / ■ V 2 Л 2
(3)
из которых простои подстановкой получаем
ai" = I I ai + — a3J + (с^ + — a3 Ha2 + — a3
at + — a3 ] [ai + a2 + a3]2, (4)
т. e. a" = a', так как ai + a2 + a3 = 1.
Таким же образом убеждаемся, что а"2 = а'2, а" = а'г
Следовательно, закон Менделя действительно подчиняется принципу стационарности.
3. Первый весьма важный результат, который мы хотим теперь
получить, состоит в следующем.
Теорема. Если три класса индивидов составляют замкнутый
биотип, подчиняющийся принципу стационарности, причем скрещивание
индивидов 1-го и 2-го класса всегда приводит к индивидам 3-го класса, то
1-й и 2-й класс представляют собой чистые расы, подчиняющиеся при
скрещивании закону Менделя.
? См. мою статью «О приложении математики к биологии» б «Науке на Уираиче»,
1 (1922).
3 Johannsen. Elemente der exakten Erblichkeitslehre. 3-е Aufl. (стр. 486).
6 С. Н. Бернштейн
м
Для упрощения письма мы изменим обозначения формул (1),
пользуясь тем, что у нас всего три различных класса, и будем обозначать
через а, Р, у вероятности индивиду родительского поколения
принадлежать соответственно к 1-му, 2-му ж 3-му классам. Тогда, обозначая через
cti, Pi, Yt соответствующие вероятности для сыновнего поколения, можем
формулы (1) написать в виде
ai = Аиа2 + 2412ар + Л22р2 + 2Л13ау + 2Л23ру + ^ззу2 = /(а, Р, у),
pi = Вца2 + 2£12ар + £22р2 + 2Bi3ay + 2523ру + £33у2 = А (а, р, у), (5)
Yt = Сца2 + 2С12ар + С22р2 + 2С13ау + 2C23pY + С33у2 = ф(а, [3, у).
Вообще, Aik + Bik + Cik = 1. Поэтому, согласно условию теоремы,
из того, что Ci2 = 1, заключаем, что В& = ^4i2 = 0, так как, очевидно,
ни один из коэффициентов не отрицателен.
Математическая задача, стоящая перед нами, заключается в
определении квадратичных форм с неотрицательными коэффициентами /, /j, ф,
обладающих свойством, что / + /i + ф = (а + Р + у)2, п0 условию, что
/(ai, pi, Yi) = /(a, Р> Y)= ai,
/i(ai, Pi, Yi) = /i(a, P, Y)=Pi, (6)
ф(си, Pi, Yi)= ф(а> P. Y) = Yi
(причем последнее равенство является следствием из первых двух), коль
скоро a + р +у — 1.
Очевидно, что уравнения (6) не могут обладать только конечным
числом решений, так как в этом случае ai, Pi, yt были бы функциями
a + р + у и, следовательно, мы имели бы ai = p(a + р + у)2, что
невозможно, так как коэффициент при ар должен быть равен 0, поэтому урав
нения (6) можно переписать в виде
at = a(a + p + у) + №(а, Р, у),
pi = p(a+P + v)+ftiF(a, p, у), (7)
Yi = Y(a + P + Y)-(* + Ai)^(a, p, у),
где F(a, Р, у) есть однородная форма, характеризующаяся тем, что
F(u\, Pi, yi) = 0 каковы бы ни были начальные значения а, р, у.
Легко видеть, что /;(а, р, у) должно быть квадратичной, а не
линейной формой, так как между ai, Pi, yi не может быть линейного
соотношения вида Zai + mpi + nyi = //(a, p, у) + tfi/i(a, p, y) + wp(a, p, у) = О
с п5^ О вследствие того, что / и /t лишены члена ар, который имеется
в ф. Предположение же, что п = О также невозможно, потому что оно
влечет за собой 1т < 0, так что можно положить I = 1, т = — р, где
р > 0; поэтому последнее уравнение (7) получило бы форму
Yi = Y(<* + р + у) + (Аа + 5р + Су) (а - рр),
и так как коэффициенты при а2 и Р2 неотрицательны, то 4 >0 и 5^0,
а, вместе с тем, по условию теоремы, В — Ар = 2. Итак, F(a, P, у) есть
квадратичная форма, к и к\ — численные коэффициенты, причем, не на-
82
ругдая общности, можем положить к = 1; в таком случае очевидно Аг± = 1,
и коэффициент при сф в многочлене F(a, Р, у) равен — 1, так как
/(а, р, у), так же как и /i(a, р, у), не содержит члена ар. Остается
определить коэффициенты многочлена F(a, Р, у) = аа2 + Ьр2 — ар + сау +
4- с/ру + еу2. Прежде всего замечаем, что а = Ь = 0; действительно, a
не может быть положительно, потому что коэффициент при а2 в /(а, р, у)
не превышает 1, и не может быть отрицательным, так как иначе
коэффициент при а2 в /i(a, P, у) был бы отрицательным; аналогичным образом
убеждаемся в том, что и Ъ = 0.
Для определения остальных коэффициентов замечаем, пользуясь
формулами (7), что уравнения (6) стационарности преобразуются в
единственное уравнение
F(aS + F, PS + F, yS - 2F) = 0, (8)
которое должно соблюдаться при всевозможных значениях a, P, у, если
мы для сокращения положим S = a 4- р + у.
Разлагая уравнение (8) по формуле Тейлора, находим
S2F + SF{F'a + Jp - 2Fy) + F2F(1, 1, -2) = 0 (9)
или, сокращая на F,
F(l, 1, -2)F(a, p,v)= -S2 + S(2F'v-Ffa-Fz). (10)
Но так как, в силу ранее сделанного замечания, F не может разла
гаться на множители, то F(l, 1, —2) = 0 и, сокращая уравнение (10) на
S, получаем, наконец, тождество
s ~ 2# - *; - 4, (Н)
или
a + р + у = 2(са + dp + 2еу) + р — су + a — dy,
откуда
1
Следовательно,
поэтому
d = 0, е = ,
4
F(a, р, Y) = yY2-aP,
/(a, р, y) =a(a+p + Y) + ^Y2-aP = ( <* + j]
/,(a, p, Y)=a(a+P + Y) + -^Y2-aP = ( P+"|) • (12)
Ф(а, р, Y) = Y(a + P + Y)+2ap-yY2 = 2(a+|-)(p + |-)
Что и требовалось доказать.
4. Закон Менделя, как мы показали, является необходимым
следствием из принципа стационарности, если скрещивание 1-го и 2-го класса
83 6*
всегда приводит к Л-му классу; при этом мы a priori не предполагали
даже, что 1-й и 2-й классы представляют чистые расы. С теоретической
точки зрения интересно исследовать, возможны ли другие законы
скрещивания чистых рас4, совместимые с принципом стационарности.
Итак, допустим теперь, что коэффициенты при а2 в /(а, (3, у) и при р2
в /i(a, (3, у) равны соответственно единице. Повторяя рассуждение,
которое привело нас к только что доказанной теореме, мы снова приходим
к уравнениям (7), где F = —aafi + cay + сфу + еУ2, причем можем
положить к = 1, /ci = К. Для определения пяти коэффициентов а, с, <2, е, %
в данном случае имеем вместо (11) тождество
S = (l + X)4-^a-^P, (13)
из которого получаем значения с, d, e при помощи двух параметров а и Я
— a+1 — а%+1 —aX + X+l
d =
л+ 1
с —
X + 1
е =
Таким образом, самый общий вид многочлена
нашему требованию,
F = — асф +
— аЛ+1
ay +
— a + 1
Ь + 1 "' ' А,+ 1
откуда, полагая ак = Ь, можем написать
ру +
(Л + 1)2 '
F, удовлетворяющего
— аЯ + Я+1 й
(^+1)2
F = — асф +
■аау +
1-а
ару +
а + Ъ — аЪ
•ау'
а-Ь Ъ " ' " а + Ь (а + Ь)2
и посредством простых алгебраических преобразований находим, наконец,
1
а +
а + Ъ
Ъ
а + Ъ
a +(1 — a)p +I 1 -
Г (1 —b)a + p+ (l
ab
а + &
аЪ
' а + Ъ
(14)
ф = (а -Ь Ь)
а +
а + Ь
Р +
а + Ь
Для того, чтобы коэффициенты не были отрицательны, необходимо
и достаточно прибавить еще условия 0 <]я<^1, 0 <^6<il. В частности,
если а= Ь = 1, формулы (14) совпадают с (12).
Вопрос о том, встречаются ли в действительности случаи
наследования, подчиняющиеся формулам (14) при а < 1, Ъ < 1, может быть решен
только экспериментально. С точки зрения теоретической, формулы (14)
дают самый общий закон наследования замкнутого биотипа, состоящего
из трех классов при условии, что два класса являются чистыми расами.
Легко видеть, что единственный закон наследования, при котором все
три класса являлись бы чистыми расами, выразится формулами
/ = a(a + р + v), /i = P(a + Р + у), Ф = у(а + р + у), (15)
которые получаются из (7) при к = к\ = 0.
'• Чистой расой мы называем такой класс, который при внутреннем скрещивании
производит только индивидов собственного класса.
84
5. Предполагая по-прежнему соблюдение принципа стационарности,
нам остается для завершения исследования всевозможных форм
наследования биотипов, состоящих из трех классов5, доказать следующую
теорему.
Если каждый из классов может получаться от скрещивания
остальных, то
/ = р(а + р + у)2, U = q(a + Р + у)2, Ф = у(а + Р + у)2; (16)
если же только один из классов является чистой расой, то
1 + Ъ
(<x+p) + (l-i)Y
/=(а + р)
/i = (а + р)
2
1-Ь
(а + р) + dy
(17);
либо
Ф = у(а + р +y),
/ = aS + аа(|ф + у), Ф + ц/i = 0.
Действительно, если уравнения (6) обладают конечным числом
решений, то они приводят к формулам (16); в противном же случае мы
приходим к формулам (7), где возможны два случая: 1) F — квадратичная
форма, не разлагающаяся на множители, к и к[ — численные
коэффициенты; 2) F — линейная форма, к и &i — также линейные формы.
Предположим сначала, что F — квадратичная форма. Ясно, что если ни одно
из чисел к, ki, (к + ki) не равно 0, то можно всегда два из них,
например, к и ki, взять положительными, но в таком случае форма F должна
быть лишена членов относительно а2 и р2 для того, чтобы форма ф(а, р, y)
не имела отрицательных коэффициентов. Таким образом, этот случай
надо отбросить, так как он возвращает нас к формулам (14),
соответствующим двум чистым расам. Итак, приходится допустить, что одно из
чисел к, ki, (к + ki) равно 0; можем принять, что к + к{ — 0, т. е.
третий класс представляет собой чистую расу (коэффициент при y2 равен 1).
В таком случае в F коэффициент при у2 должен быть равен 0 и, применяя
для определения остальных коэффициентов тот же метод, что и раньше,
находим, полагая к = 1,
Ь_1 ь+1 "
• а -I — Р — а у
откуда
*> (а + р)
/= (а + Р)
Л = (а + Р)
2
1 + Ъ
2
1-Ь
+ PY.
(a+p) + (l-d)Y
(а + р) + dy
(17)
Остается рассмотреть предположение, что F — линейная форма; пусть
F = Ха + цр + у.
5 Случай двух классов исчерпывается, очевидно, формулами:
1) /i-a(o + P), /i = P(a+p) и 2) / = p(a + P)2, /i = g(a 4-р)2.
85
Тогда условие стационарности, подобно предыдущему, приводит нас
к тождеству
S + U + [xh-ik+ki)^ О,
где к и ki — линейные формы:
к = аа + Ь|3 + су, fti == «ia + biP + Ciy.
Таким образом, если бы мы не были связаны ограничениями
относительно знаков, то мы могли бы выбрать к произвольно и, полагая
s + а -1) к
ki = получили бы для /, fi, ф решения, зависящие от
1 — М-
пяти параметров (X, \i, а, Ь, с). Однако для первого условия теоремы
ни одно из этих решений не подходит.
Действительно, так как в / = aS + kF коэффициенты при р2, (Зу и у2
неотрицательны, то \ib > О, Ъ + \хс > 0, с >0, и точно так же из
соответствующего свойства /i находим Ха\ > 0, Ci > 0, ai + Хс± > 0.
Отсюда следует, что если бы |д > 0, Я. > 0, то в таком случае равенство
вида V + [Ji/i + ф = 0 было бы невозможно, так как все коэффициенты
в левой части положительны.
Если же [I < 0, тогда Ъ = с = 0, что несовместимо с допущением, что
индивиды 1-го класса могут получаться от скрещивания других классов.
Но, во всяком случае, из Ъ = с = 0, благодаря неотрицательности
коэффициентов, нетрудно заключить, что X = 0, а потому
/ = aS + aa(^p + у), Ф |л/± = ^[Stf + у) - aa(jip + у)].
и — 1
(170
Итак, все возможные случаи исчерканы, и теорема наша доказана.
6. Резюмируем полученные результаты. Законы наследования
замкнутого биотипа, состоящего из трех классов, совместные с принципом
стационарности, могут быть разбиты на следующие типы:
1) два класса представляют собой чистые расы. Наследование
подчиняется формулам (14), выражающим, в частности, (12) — закон Менделя,
если скрещивание чистых рас всегда дает гибридную расу;
2) ни один класс не представляет собой чистой расы и может
получаться от скрещивания других классов. Наследование происходит соглас-
по формулам (16). Распределение потомства по классам постоянно и
независимо от свойств произвольно отобранных родителей. Никакой
корреляции между родителями и детьми в данном случае нет, так что данный
биотип, несмотря на свою полиморфичность, обладает существенным
свойством, характеризующим чистую расу;
3) все три класса представляют собой чистые расы. Наследование
подчиняется формулам (15). Произвольное распределение по классам
передается неизменным. Каждые два класса биотипа образуют также
замкнутый биотип;
4) один из классов представляет собой чистую расу. Наследование
происходит по формулам (17) или (17'). Если соединить оба класса, не
являющиеся чистыми расами, то они образуют вместе один замкнутый
86
диморфичный биотип, в котором наследование подходит под
вышеуказанный 2-й тип и который совместно с классом, представляющим чистую
расу, подчиняется закону наследования 3-го типа. Поэтому данный тип
наследования, как приводящийся к 2 и 3-му, самостоятельного
значения не имеет. Случай (17') отличается от случая (17) тем, что, в то
время как последний предопределяет стационарное относительное
распределение чистой расы и совокупности гибридных рас, формулы (17'),
напротив, предопределяют относительное распределение гибридных классов
между собой.
Примечание. В наших выводах, имевших в виду биологические
приложения, существенную роль играло ограничение, наложенное на знак коэффициентов.
Если допустить, что коэффициенты могут быть произвольных знаков, то решение,
не считая формул (16), может быть двух типов: 1-й тип, когда функция F линейна,
зависит от пяти параметров; 2-й тип, когда функция F квадратична, выражается
формулами
1
f = — [Pa-Q$+ (d-i) (rft-lJSltPa-CP + (d + 1) № + 1)5],
(18)
1
/i = — [Pa - <?p + (d - 1) (di + i)S] [Pa - Qp + (d + 1) (di - 1)5],
зависящими от четырех параметров Р, Q, d, d\.
Заметим, что из нашего исследования вытекает, между прочим, что
уравнения Sa = /(a, |3,у), Sfi = Д(а, (3,у) всегда независимы, если
коэффициенты в / и Д положительны и S2 — / — /i также имеет
положительные коэффициенты (равенство коэффициентов 0 исключается).
Глава II
7. Переходя к биотипам, в которых число классов N > 3, мы решим
поставленную вначале задачу при трех различных основных
предположениях. Первый случай: известно, что среди биотипов имеется некоторое
число чистых рас, которые при попарном скрещивании следуют закону
Менделя; требуется определить, каковы должны быть коэффициенты
наследственности при скрещивании остальных классов. Второй случай:
определить коэффициенты наследственности биотипа, если известно, что
каждое скрещивание может воспроизвести индивидов всего биотипа.
Третий случай: определить закон наследственности биотипа, в котором
имеются две чистые расы, которые при взаимном скрещивании производят
все остальные классы, кроме самих себя.
Решение первой задачи не представляет труда и дается формулами
«n + -^Sa^^ Л А = 2 ( <*»' + — 2 aik ) ( Ctkh + "^ 2 а^ ) , (19)
J г г
' h ' ш h
где 2 otfh распространяется на значения h 3j i, при этом an означает веро-
h
ятность родителю принадлежать к чистой расе А и, щк — вероятность
родителю принадлежать к гибридной расе--4^, fa — вероятность потомку
87
принадлежать к чистой расе Ан, а /гл — вероятность потомку
принадлежать к гибридной расе6 Л^.
Действительно, формулы (19) удовлетворяют, очевидно, принципу
стационарности, так как
/« + ~^~2 fn= Iа^ + у2 ад Sа^ + — 2а^
причем выражение, стоящее во вторых скобках, равно 1.
Покажем, что формулы (19) дают единственное решение. Для этой
цели предположим, что в родительском поколении скрещиванию
подверглись только чистые расы, так что а^ = 0, если i ^ к, причем ан = tu
1 2
а22 = to,..., о.пп — tn. В таком случае в следующем поколении an = U ,
а1^ = 2t{th. Таким образом, вследствие принципа стационарности, имеем
/н(& 2tt fe, ..., t2n) =t2i(ti + h + ... + tn)2 (20)
и аналогичные равенства для остальных функций. Обозначая через Aik,hi
коэффициент при а^ аы в функции /и, заключаем отсюда, что Aih, ы = О,
если менее двух из чисел i, к, h, l равны единице. Отождествляя
остальные коэффициенты, находим
-4ufii = 1, Aiit м + 2Aihin = 1,
An, ih = 1, Aiit hh + 441Л, ih = 1,
полагая Л, Z, 1 различными. Поэтому
f/J \2 / 1 \
an + -j-^jaik ) + S^n^i f ctua/tj — — aiha.-j) +
ft /г, j
+ 2-^". ЛЛ [a-llCLhh — -Taih | (21)
и так как Лц, лл = 0 (согласно предположению, что скрещивание расы
Ан и Ahh дает только расу Л^), то
/и (an, ai2,..., аПп) = f an + — 2 aifeJ + 2 -4", hj f aiiahj — — a^a^ J .
k hj
Уравнение стационарности для класса Ан выразится поэтому
тождеством
(an + ai2 + ... + ann)2/n(aiii ai2, ..., a„n) = f /n + — 2A*J +
+ 2 4", m [fnfkj - — /ift/ij] . (22)
з
Приравняем в обеих частях коэффициенты при ацсад в первой части
это будет Anthj, во второй же, принимая во внимание, что из всех
функций, входящих в нее, только fhj содержит а*. (с коэффициентом V2),
6 Числю всех классов N = если п есть числю чистых пас.
88
xlzA\ith~ Следовательно, An,hj == 0, а потому уравнение (21) обращается
в первое из уравнений (19), которое нам нужно было установить. Точно
так же получаются и остальные уравнения 7.
Формулы (19) выражают, очевидно, что при скрещивании Aik с А и
получается *Д чистых индивидов Ац и по *Д индивидов Aik, Ац и Аы, при
скрещивании Aih и Ajh получается по *Д индивидов Аи, Aij, Ahh, Ahj и,
наконец, при скрещивании А и с чуждыми гибридами Ам получается !/2
гибридов Aih и Ац. Этот результат вполне согласуется с первоначальной
физиологической гипотезой Менделя, но требует пересмотра гипотезы3
«присутствия и отсутствия генов».
8. Решение 2-й задачи выражается следующей теоремой.
Теорема. Если замкнутый биотип, состоящий из п классов,
обладает свойством, что от скрещивания любых индивидов могут возникнуть
индивиды всех классов (т. е., если во всех формах (1) коэффициенты
отличны от нуля), то наследственность определяется формулами
<xl =Xi(ai + <х2 + ... + сс?02, <Х2 = л2(а, + а2+ ... + а,,)2,... (23)
где 2 Л* = 1.
Высказанная теорема представляет собой обобщение соответствующей
теоремы для п = 3, доказанной нами в п. 5, которой мы и воспользуемся
для доказательства методом математической индукции. Пусть п = 4.
Выберем из наших четырех классов два произвольных определенных
класса Л4 и Аг\ остальные два класса Аз и А± составят особую
совокупность, которая, вообще, не будет обладать характерным свойством класса,
заключающимся в том, что при скрещивании его индивидов между собой
или с другими классами существует постоянная вероятность появления
индивида определенного класса. Но мы можем из этой последней сделать
класс Аз если мы всегда будем устраиваться так, чтобы отношение
числа индивидов класса А± к числу индивидов класса Аз сохраняло в
нашей совокупности постоянное значение к.
Итак, положим, что наши формулы наследственности имеют вид
а[ = /i(ai, ct2, аз, а4), (24)
с^= /2((Xi, а2, а3, сц),
аз = ^а1' а2' аз' а4)'
а^ = /4(ai, a2, аз, а4).
Положим а4 = ка3 и обозначим у = аз + а4 = аз(1 + к). В таком случае,
подчиняя ai, a2, у еще условию
*Мai' a2' TT*' ш ) ~ h {ai' a2' ITT • TTT j= 0>
7 Закон наследования, выраженный уравнениями (19), представляющий простое
обобщение закона Менделя, находит, между прочим, применение у AquHegia,
исследованных Ваиг'ом (см. Johannsen. Elemente der exakten Erblichkeitslehre.
стр. 581).
8 Наши теоретические выводы вполне подтверждаются экспериментальными
исследованиями Моргана (Morgan. The physical basis of heredity, 1919).
89
выражающему, что /са/ = а4', мы видим, что совокупности Л3 и -44
сохраняют цри наследовании свойство класса А&\
Таким образом, полагая
/1(а,'а2,ТТА'"75*)"ф1(а1'а,'у)'
аь °2' ! + fe' 1 + А J = Ф2(аь °2' Y), (25)
Ча1' а2' ТТГ • ТТг)+ Д(а1' а2' ТТХ ТТг) = фзК °2' Y)''
мы выражаем при помощи функций cpi, ф2, фз закон наследственности
в преобразованном биотипе, причем этот закон наследственности
подчиняется принципу стационарности, если только первоначальное
распределение индивидов по классам подчиняется уравнению
/ y ку \ I у ку
kfz Qi, а2, . , у , , , у — Д ai, а2,
1 + 4 ' 1 + к ) 'Ч ' ' 1 + к ' 1 + к
= Fh(au a2, y) = 0. (26)
С другой стороны, очевидно, что стационарный режим при четырех
классах не может зависеть более чем от одного параметра, так как,
представляя уравнения (24) в виде
ai' = a{S + \|?i(ai, a2, a3, a4),
a2' = a2£ + \|)2(ai, a2, a3, a4), (24")
аз' = a3£ + if)3(ai, a2, a3, a4),
a4' = a4£ + г|)4(а15 a2, a3, a4),
мы замечаем, что уравнения \|?i = 0, я|;2 = 0, г|?з = 0, г|)4 = 0 не могут
быть эквивалентны одному уравнению, ибо, в противном случае, полагая
а4 = 0, мы могли бы осуществить вопреки п. 5 бесчисленное множестве
стационарных режимов при п = 3.
Поэтому уравнение (26) может дать только конечное число значений
для а/, а/, а/, а4', если для некоторого к оно не удовлетворяется
тождественно (в последнем случае мы непосредственно применяем теорему,
доказанную для п = 3, и получаем, что
Ф1 = ta(ai + «2 + у)2, Ф2 = A,2(Qi + ct2 + y)2, фз = ta(ai + a2 + у)'\
откуда теорема вытекает немедленно и для п = 4).
Следовательно, при соблюдении уравнения (26) функции
<Pi(ai, a2, y), <P2(ai, «2, y), фз(аь «2, y),
данные формулами (25), могут получить лишь ограниченное число
значений, а потому, благодаря своей непрерывности, получают вполне
определенные значения. Откуда заключаем, что
Ф1 = Xi(ai + a2 + y)2 + МЛ,
Фг = ta(ai + a2 + y)2 + М>2^ь, (27)
Фз = ^3(at + a2 + y)2 + VsFh,
90
если только Fk не есть точный квадрат; при этом постоянные, зависящие
от к, %и ?-2, Хз, связаны равенством h + А,2 + ^з = 1, а |х±, (12, Из
удовлетворяют условию Ц1 + \12 + М-з = 0. Случай, когда Fh точный квадрат, мы
рассмотрим позднее.
Подставляя в уравнения (27) на место (pi, фг, фз, Fk их выражения
при помощи /i, /2, /3, Д и возвращаясь к первоначальным переменным
cci, ot2, аз, а4, мы получим три однородных линейных уравнения
относительно /i, /2, /3, /4 и S2, где *S = (Xi + (*2 + аз + а4, коэффициенты
которых зависят от /с,
/t + щ/4 - ft^ii/s = hS\
/2 + Ц2/4 — &Ц2/3 = ^2,
/4(1 + Цз) + /з(1-А^з)=Яз52.
Эти уравнения независимы при к > 0; поэтому всегда возможно
выразить три из форм / при помощи некоторой четвертой и *S2; так, для
определенности можем положить
h = u2S2 + 77*2/1,
/з = h3S* + m3/i, (28)
/4 = ^4S2 + 77l4/i,
где /г2 + /г3 + Й4 = 1, ттг2 + ттг3 + т4 = — 1, причем Ai и ttzi могут
зависеть от к = а4/аз; во всяком случае, отождествляя левые и правые части
(28), легко заметить, что hi и mi могут представлять собой только
линейные дробные выражения относительно ад/аз.
Но уравнение стационарности для /i дает
Л(Л, /2, /з, Д)= 52/i(ai, a2, a3, a4),
или, пользуясь равенством (28),
/i(/i, ^252 + 7722/!, /г352 + ттгзД, h,S2 + 77*4/1) = £2/i( au a2, a3, a4). (29)
Поэтому, разлагая первую часть равенства (29) в строку Тейлора,
получим
£4Л(0, К h, h) + 5»/i(ai, ей, лх8, а4)
%
U д^ (А 4,1, ^ ,
/г2-~— (1, ттг2, 7тг3, ттг4 + Л3-- h
дмг да3
+ h^~— + /2(аь а2, а3, a4)/i(l, тп2, ттг3, т?г4) = S2fi(au a2, а3, а4). (29')
аа4 i 1
Отсюда заключаем, что либо /i/S2 = М, где М может быть функцией
от щ и 04, либо коэффициенты при £4, £2Л и /2 равны 0. Но первое
предположение осуществимо лишь при условии, что М постоянная, а потому
теорема была бы уже доказана; следовательно, остается рассмотреть
второе предположение, при котором
Л(0, fc, A3, h) = О, Л(1, ттг2, т3, ттг4) = 0, (30)
й2-~-(1, 77г2, 77г3, т4)+ й3 ——(1, т2, т3, ттг4) + h——(1, ттг2, т3, т4) = 1.
даг да3 <?а4
91
Полагая затем \|?i(ai, a2, a3, a4) = fi — ct\Si, заключаем отсюда, что
^i(cti, a2, аз, а4) = 0 при всех значениях ai, a2, а3, а4, связанных равенством
а2— m2ai аз — ra3ai a4— m^cti /ftjv
1 = 1 = 1 = P' 31
h2 hs h^
каково бы ни было р, так как
^i(0, й2, Аз, А4,) = 0, \|5i(l, га2, m-з, w4) = 0. (32)
Аг —— (1, m2, ms, no) + h3 h A4 —— = 0.
oa2 да3 da4
Заметим еще, что равенства (31) равнозначны уравнениям
h2S + m2ai — а2 = 0,
А3£ + m3ai — a3 = 0, (33)
/г^ + 77z4ai — a4 = О,
из которых только два независимы, так как h2 + h3 + й4 = 1, т2 + ягз 4-
-f m4 = — 1. Для того, чтобы сделать полученный результат
геометрически более наглядным, можем однородные координаты заменить
декартовыми, положив, например, аз = 1; тогда можно сказать, что поверхность
2-го порядка tyi(x, г/, 1, z) = 0 проходит через линию пересечения поверх
ностей, выраженных уравнениями (33). Но, полагая затем
^2 = fi — a2S = h2S2 + m2fi — a2S = m2% + S(h2S + ra2ai — a2),
^3 = /3 — a3S = m3i|5i + S(h3S + т3а{ — a3),
^4 = Д — ol^S = m4\|5i + SfaS + ra4ai — a4),
заключаем, что поверхности -ф2 = 0, чрз = 0, % = 0 проходят также через
линию, определенную уравнениями (33).
Кроме того, вид функций -ф2, 'фз, % показывает, что иных
положительных совместных решений, кроме данных уравнениями (33), уравнения
я|>1 = 0, фг = 0, *фз = 0, ф4 = 0 не могут допускать. Следовательно,
замечая, что при
/t = aiS + фь /2 = a2S + ф2, /3 = a3S + ф3, /4 = a4S + ф4
все стационарные решения определяются совместньш решением
уравнений *ф1 = 0, -фг = 0, г|)з = 0, г|?4 = 0, заключаем, что все эти решения
определяются формулами (33), если параметру к = а4/аз будем придавать
всевозможные значения от 0 до оо. Таким образом, существуют
положительные значения а4/аз, при которых остальные координаты,
определяемые уравнениями (33), ai/as, а2/аз, также положительны; поэтому
непрерывным изменением параметра можем достигнуть того, чтобы одна, по
крайней мере, из координат обращалась в 0, в то время как другие
неотрицательны; пусть это будет, например, а4/аз. В таком случае, придавая
cci, a2, аз соответствующие положительные значения, а а4 заменяя нулем,
заметим, что /4 = t|?4 + a^ обратится в нуль, но это невозможно, так как
в /4 все коэффициенты положительны.
Перейдем теперь к общему случаю и покажем, что если теорема
справедлива для некоторого п, то тем же методом можем убедиться в ее
правильности для п + 1.
92
Действительно, если теорема верна для тг, то в уравнениях
/i = otiS + \|)i, /2 = a2S + г|з2, ..., /n = an5 + я|зп (34)
уравнения i|h = 0, фг = 0,..., if)n-i = 0 не могут быть зависимыми, когда
все коэффициенты в ft положительны. Поэтому аналогичные уравнения
i|?i = 0, \|?2 = 0,.. ., г|?п = 0, где
/i = atS + \|?i,. . ., fn = ап£ + apn> /n+1 = an+iS + \|)n+i, (35)
не могут быть связаны более чем одной зависимостью, т. е. стационарный
режим при (п + 1) классе не может зависеть более чем от одного
параметра.
Следовательно, требование, чтобы kfn — /n+i = 0, приводит, если только
для некоторого к оно не соблюдается тождественно, к ограниченному
числу возможных значений для Д, /г,. . ., fn, fnu-
Поэтому, если мы объединим в один класс /г-й и (тг + 1)-й классы,
взяв в первоначальном распределении: ап = y/{i -Ь к), an+i = ку/(1 + /с),
то функции
Y fry
/l^CXi,
Ф1 = /1V cti, a2;
фп-1 = /n-1 ( (Xi, Q2,
" 1 + & ' 1 + ft
Y &Y
'•' 1 + ft ' 1 Л-к
+ /n+l i Cti, C&2,
при условии, что
Л = ft/n ( ai, a2,
Y /cy
1 + к -1 + /с J
— /n+i cti, «2, . •., TTT'TTT = °' (36)
могут получить лишь ограниченное число значений, а следовательно,
ввиду своей непрерывности, получают только одну определенную систему
значений (когда ai + аг + ... + an-i + у = 1). Отсюда следует, что
если уравнение (36) не есть точный квадрат, то
Ф1 = Xi(ai + ... + an-i + Y)2 + M-i^ft,
Ф2 = Aa(ai + ... + an-i + y)2 + VzFh, (37)
Фп = Яп (ai + ... + an-i + y)2 + ^n^ft.
Откуда заключаем, что
/2 = h2S2 + 7712/1,
(38)
/n+1 = hn+lS2 + 772n+l/l,
где
Й2 + • • • + fen+i = '1, 7722 + ... + ™n+i = — 1.
93
Составляя затем стационарное уравнение для /i, находим, как и
раньше, что
яМО, Аг, . .., An+i) = 0, г|л(1, т2, . . , mn+i) = 0, (39)
А2- (1,^2, ..., mnu.i)+ ... + An+i— (1, т2, ..., mn+1) = О,
tfa2 Can+i
так что при всех значениях параметра р
гр1 (oti, a2, .. ., an, an+i) = О,
если a2/ai = га2 + A2p, ..., an+i/ai = m>n+i -f Ал+1р. При тех же значениях
обращаются в 0 и
г|)2 = m2\|)i + S(h2S + ra2ai — a2),
(40)
i|in+i = ^n-ft^i + S(An+iS + ran+1oti — an+i).
Следовательно, все возможные значения параметра к = an+i/o-n дают
все стационарные значения oti; поэтому некоторым значениям этого
параметра соответствует и совокупность положительных решений;
следовательно, непрерывно изменяя /с, мы могли бы получить и такую
совокупность значений, при которых одно или несколько а* = 0, между тем как
остальные положительны, но это противоречило бы допущению, что все
коэффициенты в формах U положительны (отличны от 0).
Таким образом, теорема доказана, за исключением случая, когда
/ у ку \ I у ку \
Fk = kjn ai, a2, ..., —--.-, . , - — /n+i au a2, ..
представляет точный квадрат при всяком к^ 0. Очевидно, что
затруднение было бы существенным лишь тогда, когда указанное свойство
сохранялось бы, как бы мы ни комбинировали объединяемые попарно классы.
Но это могло бы произойти лишь при предположении, что каждая из
функций fi представляет собой точный квадрат, если только одноименная
переменная аг- = 0. Поэтому исключенный нами случай требует, чтобы
все fi были вида
/i = XiP2 + ai<?i,
h = UP1 + a2<?2l (41)
fn+l — hn+iP2 + CCn+l(?n+l,
где Xi — некоторые положительные коэффициенты, а Р, (?i, ..., Qn+i —
линейные формы. Составляя уравнение стационарности для /i, получим
S2fi = }2P2{Ju . _ /n+l) + /l<?l(/li /^ . _ /n+l)i
Т. О.
tiP-Qiifu ..-, /n+i)] = ^P2(/lt ..., /n+1), (42)
следовательно, либо
h = ClP(fu...,fn+l), (43)
94
где Ci постоянная, либо /i есть точный квадрат. Так как уравнения
стационарности для друшх fi приводят к тому же заключению, то мы
должны признать, что либо все U представляют собой точные квадраты,
либо все, кроме одного, суть точные квадраты, либо существуют по
крайней мере две функции U и Д, отличающиеся только численным
множителем (благодаря равенству (43)). Последний случай можем отбросить,
так как к нему применим данный ранее метод доказательства. Итак,
предположим, что существуют три функции /i, /2, /3, которые являются
точными квадратами; в таком случае, исключая P{fu .. ., /n+i) из их
уравнений стационарности, получим
hfi № - Qi (/1, ..., /n+i)] = Ы2 № - Q2(fu ..., /n+i)],
hh [S* - Qidu ..., /n+1)] = Wa [S2 - Qs(fu • • •, /n+i)],
откуда заключаем, что по крайней мере две из функций /i, /2, /3
отличаются только численным множителем, так что прежний метод опять
применим. Таким образом, теорема доказана во всей общности.
9. Теорема, только что доказанная нами для квадратичных форм
(соответствующих наследственности при двуполом размножении),
справедлива, как легко видеть, для линейных форм (соответствующих
однополому размножению), а именно: если
/i = Aiat + Ацх2 + ... + A Sin,
/2 = A2ai + ... + Л2пап,
fn = Audi + ... + Alan
представляют собой линейные формы с положительными
коэффициентами, удовлетворяющими равенствам Е4[ =1 при всяком i, то устанавли-
k k
вающийся стационарный режим вполне определен и при соблюдении
принципа стационарности fi = Яг-£.
Действительно, полагая фг- = /г — а*, замечаем, что при стационарном
режиме фг = 0; я говорю, что кроме зависимости 2 фг- = 0 между формами
Фг никакой другой зависимости быть не может. В самом деле, если бы мы
имели 2 Лгфг = 0, то это означало бы, что
Xi(A2 + As + ... + -4n)=X2421 + МзЧ ... + Ъ.пА„,
К2(А\ + Аз + ... + А2п) = %iA$ + . .. + ХпАп,
кп(А^+ ...+Ап ) = Mi + ...+An-i^un~1.
Но так как все входящие здесь коэффициенты Alh > 0, то мы должны
заключить, что каждое из. li является некоторой средней остальных Х\
поэтому все X равны, и наше утверждение относительно невозможности
между фг другой зависимости, кроме 2 фг- = 0, доказано. Следовательно.
95
стационарный режим, устанавливающийся во втором поколении, не
зависит от первоначальных значений аг-, а потому /г = XiS.
Обе наши теоремы о линейных и квадратичных формах, очевидно,
непосредственным переходом к пределу распространяются на случай
п = оо, т. е. соответственно на случай линейных и двойных интегралов.
Таким образом, получаются следующие две теоремы.
1
Теорема А. Уравнение f(y) =\ К(х, y)J(x)dx, в котором К(х, у)
и
положительно и
1
\ K{x,y)dy = 1,
имеет только одно решение (с точностью до постоянного множителя).
Если же уравнение
1 1 1
\ К(х, y)y(x)dx = Г (K(x,Xi)K(Xi, y)(p(x)dxdxi
о оо
удовлетворяется для всякой положительной интегрируемой функции <$(х),
то К(х, у) есть функция одного только г/.
Теорема В. Если уравнение
i,i 11
^ ^ К(х, y,z)<p(x)y(y)dxdy = $ ^ К(х, z/, z)yi(x)q>i(y)dx dy
0 0 0 0
удовлетворяется для любой положительной функции ср(х), подчиненной
1 1 1
условию, что \ qi(x)dx=ii а у\(и) = \ \ K{x,y,u)q{x)y(y)dxdy, причем
0 0 0
1
К(х, г/, z) положительна и симметрична по х, у, и \ К(х, у, z)dz = 1, то
о
К(х, г/, z) есть функция одного только z.
Не останавливаясь здесь более подробно на случае п — оо и на его
связи с теорией интегральных уравнений, перейдем к рассмотрению
следующего важного случая, когда число классов конечно.
Глава III
10. Предположим, что имеется всего N = п + 2 классов, причем два
класса представляют собой чистые расы, т. е. при внутреннем
скрещивании каждый класс воспроизводит лишь себе подобных. При взаимном
же скрещивании этих двух классов получаются все остальные
(гибридные) классы. Согласно п. 6, если бы вся совокупность гибридов
представляла собой класс, то мы имели бы случай менделевского наследования.
Мы увидим, что если гибриды представляют собой несколько классов, то
нужно различать две возможности: 1) каждый гибридный класс при
внутреннем скрещивании может дать индивида одного из первых двух
чистых классов; 2) существует гибридный класс, который при внутреннем
скрещивании не может воспроизвести индивидов первоначальных чистых
классов.
Таким образом, обозначая функции воспроизведения для наших п + 2
96
классов соответственно через / и /i для чистых рас и через ф{(£*= i,
2, ..., п) для гибридных, а соответствующие вероятности через а, р, уи
наше основное предположение сводптся к тому, что во всех квадратичных
формах ф{ имеется член, содержащий ар, но нет пи а2, ни Р2; напротив,
форма / содержит а2 (с коэффициентом 1) <и не содержит ни оф, ни р2,
а форма /i содержит р2 (с коэффициентом 1), но не содержит ар и а2.
Нетрудно доказать прежде всего, что в таком случае / вовсе не зависит
от р, a /i не зависит от а, т. е. скрещивание, при котором один из
родителей принадлежит к одной чистой расе, никогда не дает индивида,
принадлежащего другой чистой расе. Действительно, предположим, что
первоначально у* ~ О ПРП всех /, тогда по принципу стационарности
(а + р)2/ = /2 + ^ Ai4i + %Aik<pm + П 2 Афг,
но в данном случае / = a2, /i = р2, ф1 = 2<?iap, где ct > 0.
Поэтому, так как в первой части Р входит в степени не выше второй,
то все D\ = 0, что и подтверждает сказанное выше.
11. Прежде чем перейти к доказательству общей теоремы, остановимся
для большей ясности на случае N = 4. Общая теорема будет
непосредственным обобщением, требующим некоторых существенных
дополнительных рассуждений, теоремы, которую мы сейчас докажем.
Теорема. При N =4 формулы воспроизведения должны иметь одну
из следующих форм: либо
/1 1 \ 2 /1 1 \2
/^(a + y^iYi+y^2Y2J , /i= ^P+ySlYi + y£2Y2J,
Ф1 = 2сА a 4- — -AiYi Л-—А2у2 )(p + T5^1 + yS2Y2)' (44)
ф2 = 2c2 l а + — i4ivi + — A2y2 ) ( P + y^iYi + у B^ ) ,
где ci + c2 = 1, A{ + #i = Л2 + #2 = 2, Л.^ + ^2^2 = 1; ^^60
/ = (a + Yl)(a 4- Y2), /1 = (P + Yi) (P + Y2), (45)
Ф1= (a + Yi)(P+Yi)i Ф2= (a-f Y2)(P + v2).
В самом деле, предположим сначала, что между <pi и фг существует
тождественно зависимость с2ф1 — С1ф2. В таком случае, полагая с самого
начала c2Yi = C1Y2, мы можем объединить оба гибридных класса в один
и получим биотип из трех классов, который должен подчиняться закону
Менделя. Следовательно,
2
/(a, P, CiY, с2у)= ( а +
/i(a, P, CiY, C2Y)= (V +
Поэтому, полагая
/ = а2 + а2 AW + S.^iftYi'Yfti
/i = P2 + PSb*Y*- + S^aY*YAi
7 G. H. Берештейн
97
находим, что AiCi + А2с2 = SiCi + B2c2 — Ci + c2 = 1,
2 -4tftCfCft =2 ^ftci^fc = J- (*i + c2)2. (46)
Но, составляя уравнение стационарности для /, получим
fft = f[(Ai — 1)ф1 + (Л2 — 1)<Р2]+3^*лФ*Ф*1 (47)
л, пользуясь равенствами (46) и соотношением q>\/ci = ф2/с2, заключаем,
ЧТО ffi = 74(ф1 + ф2)2.
Отсюда следует, что / л /i должны быть точными квадратами, и мы
немедленно получаем формулы (44).
Предположим теперь, напротив, что между функциями ф1 и ф2 нет
тождественной пропорциональности. В таком случае всякая зависимость
между функциями воспроизведения должна содержать по крайней мере
три из них. Но мы видели выше (п. 10), что существует бесчисленное
множество стационарных режимов, при которых с2ф1 — с^2 = 0 (где 2с\
и 2с2 соответственно коэффициенты при оф в ф1 и в ф2), удовлетворяющих
уравнению
4cJ#i = q>*. (48)
Поэтому, если между /, /i, ф1, фг существует квадратичная зависимость
^(Д fu Фь фг) = 0 (линейной зависимости быть не может), то она должна
быть тождественно удовлетворена при одновременном выполнении
равенств (48) и с2ф1 — С1ф2 = 0.
Следовательно,
*'(<*> Р> Yi. Y2) = Р(а, Р, Yl Y2) (c2Yi — с№) + А; (4с2 ар — у2),
где Р — многочлен первой степени, а к — постоянная, а потому, если бы
существовала вторая подобная зависимость, то совместно с первой она
привела бы нас к линейной зависимости, что невозможно. Отсюда
заключаем, что уравнения стационарности, составленные для / и /ь
ffi = f[(Ai— 1)ф1 +{А2 — 1)ф2] +24*ьФ*Фъ
fh = f[(Bt — 1)Ф1+(В2 — 1)ф2] + 25^фгФ^
должны быть эквивалентны. Следовательно, ^t = Bi = А2 = В2 = 1,
Лг.ч = Bik, уравнение стационарности превращается в
F = fh — ^Агьщщ = 0. (49)
Поэтому ф! и ф2 должны иметь форму
Ф1 = 2ct ( ар — 2-4«YiYM + Yi^,
t \ (50)
Фг ~ 2с2 [ ар — 2 4**YiYfcJ + уг5.
Но Ли = Л22 = 0, так как иначе наши формы допускали бы
отрицательные коэффициенты. Таким образом,
ffi = 2Л12ф1ф2, (51)
откуда заключаем, что
/ = а2 + ayi + ау2 + 2Л12у1У2 и /t = Р2 + pyt + руг + 2Л12у1уг
98
разлагаются на множители, а потому Ai2 = V2 п
/= (a + Yi)(a + Y2), /1 = (Р + Yi) (P + Y2);
замечая, наконец, что для положительности коэффициентов в ф! и ф2
необходимо, чтобы с{ < 7г, с2< 7г, находим d = с2 = 7г, откуда
Ф1 = (a + yi) (Р + Yi), Ф2 = (а + Y2) (Р + Y2),
что и требовалось доказать.
Закон наследования, выражаемый формулами (44), не представляет
принципиального уклонения от закона Менделя. Напротив, формулы (45)
дают весьма своеобразный закон наследования, где оба гибридные
класса представляют собой чистые расы. Этот закон «кадрильной»
наследственности представляет собой единственный закон (не считая его
простых видоизменений, которые будут вытекать из общей теоремы),
допускающий непосредственное появление новой чистой расы при скрещивании
данных чистых рас. Было бы интересно применить его к
экспериментальному исследованию тех противоречащих менделизму случаев, где
наблюдается факт появления «константных» гибридов.
Заметим еще принципиальное различие между формулами (44) и (45):
первые формулы соответствуют случаю, когда каждый гибрид может
воспроизвести первоначальные чистые расы, вторые формулы соответствуют
противоположному случаю. Переходим к общей теореме.
12. Теорема. Если имеется замкнутый биотип, состоящий из (п + 2)
классов, из которых два представляют собой чистые расы, которые при
взаимном скрещивании могут дать индивидов, принадлежащих к любому
из остальных классов, но не могут дать индивидов родительских классов,
то закон наследования, подчиняющийся принципу стационарности,
должен быть одного из двух типов:
1) если каждый из остальных (гибридных) классов при внутреннем
скрещивании может дать индивида, принадлежащего одному из
вышеупомянутых чистых классов, то закон наследования является
обобщенным менделевским законом, выражающимся формулами:
f = Г a + — (4iYi + ... + Апуп)
2
, /i
+ |-(5iYi + ... + BnYn)
2
(52)
q>i = 2а a + — (iliYi + ... + АпУп)
где 2 c< = !> 2 Aid = !. Ai + Bi = 2;
P + у (Вф + ... + ВпУп)
2) если существуют гибридные классы, которые при внутреннем
скрещивании, не могут дать индивидов вышеупомянутых чистых рас, то закон
наследования принадлежит к «кадрилъному» типу и выражается
формулами:
f = (a + yi + Y2 + • • • + Yft) (a + YM-i + • • • + Yn),
д = (P + Yi + Y2 +• •.. + Ya) (P + Y*+i + • * • + Y*),
99
Фг = Ci(a + Yi + • • • + Ук) (P + Yi + • • • + Yft) для i ^ Л,
Ф; = dj(a + ya+i + • • • + Yn) (P + Ya+i + • • • + Y*) для /' > /с, (53) •
г9е 2/Cj = ^ = 1.
Сохраняя прежние обозначения, получим
/= а2 + a2-4*Y* + S-^^YiYfci
(54)
/i = Р2 + Р 2 ^Y* + 25**YiY*.
Мы ограничимся сначала случаем, когда Л; = 5г- = 1 и Ам = Bih. Тогда
уравнения стационарности для функций / <и /t будут тождественны
и получат вид
f = ар — 2 Aikyiyn = 0. (Г)5)
Прежде чем перейти к доказательству нашей теоремы, существенно тре
бующей, чтобы все коэффициенты были неотрицательны, я укажу для
общей ориентировки самое общее решение (без ограничения о знаках
коэффициентов) при условии, что стационарное распределение связано
только одним уравнением. Так как это единственное уравнение должно
быть (55), то общий вид функций фг будет
Фг = 2aF + y{S, где 2 с* = !«
Следовательно, уравнение стационарности получит форму
(а5 - F) (PS - F) = ^4,ft [2c,F + yiS][2ckF + YaS],
т. е.
F2 - (а + p)F5 + ар-S2 = 4F2 J 4iftCicft +
+ iSF 2 4rtC<Y* + 52 2 ^iftYiYft (56)
ife г ft.
или, после сокращения на F,
F[ 1-4УЛ^а) =S
ik
a + p + 42 Л;аС£
Yft
(57)
Та&им образцом, необходимо и достаточно, чтобьг 4 2 -^ьс* = 1 и 2 сг = 1»
так как из этих условий вытекает также
i^AihCiCh = 1.
ik
ъ , п(п + 1) •
Поэтому общее решение зависит от Ь n параметров, свя-
Ы + 2)(п-1)
занных п + 1 уравнением, т. е., в конечном счете, от
независимых параметров.
Однако, как легко видеть, при п > 2 ни одно из этих решений для нас
100
не подходит, т. е. при п > 2 число независимых стационарных уравнений
всегда более одного. Итак, вообще, мы должны положить
ср; = 2dF + yiS + aSt + р5г' + г|)г, (58)
где Si и Si' — линейные функции (yi, Y2, • -, уп), а фг — квадратичная
функция тех же переменных, причем
V 5, = 2^ = 2^ = 0. (59)
г г -г
Вычислением функций Si, Oi, а|эг- мы сейчас займемся, заметив, что
условия стационарности для каждого ср* получают форму
fSdVu Ф2, -.., Фп)+/1^(ф1, ф2, ..., Фп)+ г|)/(фь ..., фп)= 0. (60)
Положим
Si^y^Afw, S'i^^Bhh. (61)
h h
В таком случае, приравнивая нулю коэффициент при а3 в
тождестве (60), мы получим:
&(Yi + Su Y2 + &, .,., yn + Sn) = 0, (62)
т. е.
^AiSk + Si^O (« = 1, 2 /г).
h
Точно таким же образом мы получили бы
2 Bls'h + si = о, (63)
h
поэтому все выводы, которые мы сделаем относительно Si, будут
правильны по отношению к Si.
Составим таблицу
Ai + 1 Ai At ... А*
Аг Ач + 1 Л?
(64)
•Д-П -"-71 -^П ~Г 1?
каждая колонна которой в силу уравнений (63) обладает свойством, что
сумма 2 ti^h ~ 0, если %\ есть член i-ой колонны, лежащей в &-ой
h
горизонтали (считая сверху).
Заметим, что в Sh все коэффициенты, кроме Ан, неотрицательны, так
как в фп коэффициенты неотрицательны, причем
— Л^ = 4Л + ... + Ah + Ah +... + Ah.
Пусть Х\ Х\ , Х\ будут максимальные члены £-ой колонны (для опреде-
/ll /lj Л-8
ленности мы взяли Число этих максимумов равным трем, но ничего не
101
изменилось бы в рассуждении, если бы мы взяли другое число). Мы имеем,
вообще, ^ХЪЛр = 0 для любого значения р, поэтому, выбирая, в част-
h
ности, р = h^ А2, Аз, находим
(XI - U, )AlH + (Xl - Xl{ )A\ + ... + (й - tit )Л^ = О,
(XI - Х12)Л12 + Ы ~ й2)А\2 + ... + (й - U2)A7hl2 = 0, (65)
(XI - xt2)Ah3 + (Xi - ti3)Al3 + ... + (U - xl3)A?l3 = 0
и, замечая, что Xk — Xjl{ = Xl — Xh2 = Xl — Х\3 < 0, если к отлично от
Ai, А2, h3, заключаем, что Ah t= Ап2= Ah 3= 0 для указанных значений к.
Но Х\ = Л1 при i^h и Х} = А] + 1. Поэтому £ должно быть равно
одному из чисел Ai, А2, Аз и, кроме того, если в Ai-ой колонне максимумы
соответствуют Ai-ой, А2-ой, А3-ой горизонтали, то на тех же горизонталях
будут максимумы А2-ой и А3-ой колонн. Отсюда следует, что
Shi + yhi = Xhi(yhi + ун2 + унз); Sh2 + yh2 = A,h2(Y/i1 + Y*2 + Ул3)"»
5/г3 + Y*3 = ^(Y/ij + Y/i2 + Y/i3), (66)
Л1 \ h3
причем %hi + Xh2 + Лл3 = 1. Вообще, все наши линейные формы Sh
распадаются на несколько групп, так что только формы одной и той же
группы зависят от тех же переменных и подчиняются соотношениям вида (66).
Докажем, далее, что число групп, па которые распадаются Sh, не может
быть более двух.
В самом деле, пусть для определен ности первые / форм £], S2, •••» ^
принадлежат одной группе, так что
fr+Vl ^2 + Y2 Si+Yi , , , , ч /ft7v
г = = — = (Yi + Y2 + ... + Yi). (67)
At A2 A2
В таком случае уравнения стационарности для qn, ф2, .. ., фг будут
иметь вид
ЛМф! + Ф2 + ■•• + фг) - Ф*] + flS'l(4>U •••, Фм) + ^(ф1, -.., Фт,) = 0,
(68)
/[Я*(ф1 + ф2 + ... + фг)- Фг] + fiSi(q>u •••, фп) + г!?2-(ф1, ..., фп) = 0.
Складывая эти равенства, мы видим, что в первой части исчезает член,
содержащий /, а потому квадратичная форма, являющаяся коэффициентом
при а2 в сумме яМФь фг» • • •, фп) + . . . + г|)*(ф1,. .., фи), должна быть
тождественно равна нулю. Следовательно,
iMSi + Yi, ^2 + Y2, • ■, Sn + Yn) + • • • +
+ 4)f(Si + Yi, •••. ^n + Yn) =0, (69)
но так как вообще в функции \|?/t(Yi, Y2, • • •, Уп) члены, не содержащие уь,,
не могут быть отрицательны, то мы должны заключить, что во всех
функциях я|з рассматриваемой группы коэффициенты при YfcY* равны нулю, если
102
к > i и I > i; отсюда следует, что для указанных значений к и I тем более
и Аш = 0. Ясно, что то же рассуждение может быть применено к каждой
группе, а потому, если бы число групп было более двух, то все Aki = 0,
что невозможно, так как уравнение стационарности (55) приняло бы вид
ffi = 0. Применяя то же рассуждение к формам S', мы убеждаемся, что
эти формы также распадаются на две группы, обладающие выше
выведенными свойствами.
Та ким образом, все функции фг разбиваются по группам, как
относительно S, так и относительно S\ образуя в общем не более четырех
подгрупп. Следует еще заметить, что, приравнивая 0 коэффициенты при а3р
в каждом из уравнений (68),мы получаем, что^1 = с{/(с{ + с2 4* ... -f- cf),
и т. д. Поэтому, предполагая, что <pi и ф2 принадлежат к одной и той же
подгруппе, выводим из соответствующих пм уравнений стационарности,
что
(/ + /0(соф1 — скр2)= c2t|)i(<pi, <р2, .. ., фп)—сгяМф1, ••-, фп), (70)
откуда
(/ + /i)[(c2Yi — с^г) (yi + Y2 + . .. + уп) + c2\|>i — CiHp2] = •
= С2Я|31(ф1, . . ., фп)~ С!ф2(ф1, . . ., фя). (71)
Приравнивая коэффициенты при а2 и р2 в обеих частях, находим:
(С2у{ — С{у2) (Yl + Y2 + ...Yn)+C2\|3i — Ci\|52 = C2^i(Si + Yi, ..., Sn + Уп) —
— cit|?2(5i + Yi, •.. ,Sn + yn) =
= c2\pi(5i + yu ..., S'n+ yn) - c^2(Si + Yb • • • , S'n + y»i). (72)
Следовательно, если группы относительно 5 и S' не совпадают, то
(c2Yi — Сф) (yi + Y2 + . • • + Yn) + c2t|5i — ct\|j2 =
= 4(yi +Y2+ ... + Yn)2, (73)
где Л — численный коэффициент. Но так как в первой части нет членов,
содержащих произведения укУи гДО к и I ие относятся к рассматриваемой
подгруппе, то А = 0. Следовательно,
С2ф1 — С1ф2 = 0. (74)
К весьма важному соотношению (74) мы придем также, если допустим,
что группы относительно 5и5; совпадают, так как в таком случае Sh = #л,
и, следовательно, квадратичная форма, которая служит коэффициентом
при 2сф во второй части равенства (71) и должна быть тождественно
равна нулю, должна быть также равна выражению (72).
Итак, во всяком случае, функции фл, принадлежащие одной подгруппе,
отличаются только численным мноокителем. Остается показать, что таких
подгрупп может быть не более двух. Для этой цели преобразуем наш
биотип, объединив все классы каждой подгруппы. В таком случае
преобразованный биотип каждой подгруппы будет иметь только один класс.
Нужно проверить невозможность допущений п — 4 и п = 3.
Пусть сначала п = 4, тогда согласно предыдущему
F = ар — ^i4YiY4 — ^23Y2Y3, (75)
если мы,положим для определенности, что Ли& принадлежат одной
103
группе, a So и St. другой, и в то же время Si и S3 принадлежат одной
группе, а £2 и Si другой.
Из уравнения стационарности
//l = Лиф1ф4 + ^23ф2фЗ
получим, приравнивая коэффициенты при а2, равенство
^t4YiY4 + ^2зУ2Уз = И1Д1Я4 + AzzkiU) (Yi + Y2) (Ys + yO,
из которого приходИхМ к невозможному заключению Ац = А2з = 0. Точно
так же, если п = 3, то
F = ар — ^i3YiY3 — 422Y*
и мы приходим к невозможному равенству
4i3YiY3 + ^22Y2 = ^13^1X3 (yi + Y2)Y3 + ^22 (yi + Y2)2.
Следовательно, n ^ 2, т. е. вообще число подгрупп, в которых все фп
отличаются лишь численным множителем, не более двух, если только
/ = а2 + а (yi + ... + уп) + AikYiVk,
/1 = Р2 + P(Yi + • • - + Yn) + S 4«Y<Yft.
13. Покажем теперь, что тот же вывод остается в силе и в общем
случае, когда / и /i можно представить в виде
/ = а2 + cx(yi + • .. + Yn) + a.S0 + 2 А{кугУя,
(76)
/i = Р2 + P(yi + . .. + Yn) + pSo7 + 2 fiiftYiYfci
где So == 2 ^nY^, So = 2 S^Yn, причем | Л^ | ^ 1, | 5^ | ^ 1. В таком
Л h
случае уравнения стационарности для / и /i получат вид
J? = ар - aSQ - ^Aikyiyk = 0, Ft = ар - pS0' - 2***Y*Ya = 0- (77)
Поэтому можем положить
Фг- = a (F + Ft) + YiS + aSf + pS£' + г^, (78)
гд>е по-прежнему 2 сг = 1, 2^7* = 2 ^' = Z^i = 0, и уравнение стацио-
i i г г
нарности для <рг* сохраняет форму (60). Приравнивая нулю коэффициенты
при а3 в (60), мы получим теперь для всякого i
Si(- CiSo + yi + Su - c2S0 + Y2 + S2t • • ., - cnS0 + yn + Sn) = 0. (79)
Но, очевидно, также из уравнения стационарности для / получим
So(-ciS0 + yi + Su • • -, ~ cnSo + yn + Sn) = 0. (80)
Поэтому, если положить Pi = Si — dSo, то
Pi(yi + Pu У2 + Р2, ..., Yn + Pn)=0 (1 = 1, 2, ..., /г). (81)
104
Таким образом, формы Р* обладают свойством, что У\ x\Ph = О, гда
h
Xh — член i-ой колонны и /г-ой горизонтали в таблице
jii-Mi + i aI-CiaI ...а?-спа!
А21~ сХ А\ - с2А°2 + 1 .. . Аг - сяЛ2°
Лз — Мз0 Аг-с2А3 ... л?—слЛ°з (82)
ill-Mn 'Al — СгАп ...AZ-CnAn + 1.
Кроме того, yjAh(Ph + yh) = 0.
Разделим теперь члены каждой й-ой горизонтали на 1 — Ah и предло
ложим, что ——' —- представляют два (для определенности)
1 - А? 1 - А
h,
наибольших значения, которые у нас тогда получатся в i-ой колонне.
В таком случае
(1 - A°hl))2 UPh + Jfhl ^A°h(Pk + yh) = 0;
, о
h h
откуда, приравнивая нулю коэффициенты при у, получим
(1 - Al) 2^(4, - chAl) + Ц [ %Л°п(А£ - chA°hl) + 4,] = 0 (83)
h h
и аналогичное равенство для h2.
Замечая далее, что 2 С4'* — chAh,)= — A°h[, преобразуем павенство
к
(83) к виду
(1 - Ал0,) У. (Xlh - Xlhl) (Ak - chAl) +
h
или, наконец,
J\aUaI-c,,aI) + (aI,
о,
21(1 - А1)\1 - Xl (1 - A°h)](At - chAl) = 0. (84)
h
Но так как, с одной стороны, Ahi — ChAhi>0, а множитель
(1 — Ahjti — %^(1 — A°h) = 0 при h = h и при h = h2 и отрицателен
при остальных значениях /г, то мы должны заключить, что при всех от-
личных от hi и h2 значениях h необходимо
А к 1 — CfiAhi = 0, и точно так же Ah2 — спАк2 = 0.
105
Отсюда мы заключаем, что одно из значений hi и Кг должно
совпадать с i, и максимумы Лгой и Л2-ой колонны должны лежать в
горизонталях с теми же номерами. Таким образом, все формы Ph можно
соединить по группам вида
Pi + VI ^ Р2 + V2 = _ Ph + Vfe _
= (1 - Л?)Yi + (1 - Л2)у2 + ... + (1 - 4fc)у*, (85)
где Xi -Ь A,2 + . .. +Хь = 1. Аналогичный результат мы получили бы для
Ph = Sh — ChSo.
Из этого основного результата легко вывести, что уравнение
стационарности для ф1 получает форму
/ {М(1 - Л?)ф1 + (1 - 4)Ф2 + ... + (1 - А°к)щ] - ф1 +
+ мл??! + ... + л2Фл)} + и {^[(1 - £?)Ф1 +... + (1 - я?М -
- Ф1 + С!(5?ф1 + ... + 5?Фг)} + Ф1(ф1, Ф2, ..., Фп) = 0. (86)
Составляя стационарные уравнения для фг-, принадлежащих к той же
группе относительно S, находим, приравнивая нулю коэффициенты
при а3Р,
^ _ = А* = 1 -(Л?С1 + ...+А) = 1
~*i '" 'cfc (1-л;)с1 + ... + (1-ло)сл сГ+У'.". + сл" ( )
ft
Поэтому, если 2^; ^ 0» то с* + с2 + ... + сь = 1. Следовательно,
1
к = я, так как в противном случае остальные сг- = 0, что противоречит
условию теоремы. Таким образом, мы имеем только одну группу относи-
k
тельно S, за исключением случая, когда ^ С{А{ = 0. Но последнее равеи-
1
ство влечет за собой отсутствие в сумме 2^Ф* членов, содержащих а.
1
к
Поэтому в сумме ^ 1|-?(Фь ф2, ..., Фп) не будет членов, содержащих и2-
Откуда заключаем, как и раньше, что во всех tyi, принадлежащих к данной
группе, отсутствуют произведения yg\h, где оба значка g и h больше к.
Следовательно, для указанных значений g и h Agh = Bgh = 0, а потому
число групп относительно S не превышает двух. То же самое получим и
для S'. Наконец, при предположении, что ф1 и фг принадлежат к одной
и той же группе относительно S и £", находим, что
(/ + /0 (с2ф1 — С1ф2)= С2ф1(ф1, ф2, .-., фп)— С1фг(ф1, ф2, ..-, фп),
откуда, подобно предыдущему, убеждаемся, что с2ф1 — сАф2 = 0.
Таким образом, все гибридные расы опять распадаются на число
подгрупп, не превышающее четырех, для которых функции фг отличаются
106
лишь численным множителем. Нетрудно показать, как и раньше, что число
подгрупп в действительности не более двух. Следовательно, и самый
общий случай приводится к случаю п = 2, рассмотренному в п. 11, и теорема
доказана.
М. Укажем вкратце некоторые выводы из нашего исследования.
Замкнутый биотип, в котором каждое скрещивание может дать индивида
любого класса, должен обладать свойствами, что пропорция индивидов
различного рода, рождающихся от некоторого скрещивания, совершенно
не зависит от скрещиваемых родителей. Несмотря на видимое различие
родителей, свойства их половых клеток подчинены одному и тому же
закону случайности. Если бы в данном случае наблюдалась бы все-таки
корреляция между родителями и детьми, то причину этой корреляции
нужно было бы искать только в различии влияния среды и условий отбора.
Рассматриваемые биотипы, несмотря на внешнюю полиморфичность,
по существу не отличаются от чистых рас. Можно было бы доказать, что
скрещивание различных биотипов такого рода вообще подчиняется тем же
законам, что и скрещивание чистых рас (формулы (17)). Основным
вопросом является вопрос о скрещивании чистых рас. Как видно из
доказанной в последней части теоремы9, если при скрещивании возникают
различного рода гибриды, то возможны только два случая:
1) пропорция возникающих гибридов не зависит от скрещиваемых
родителей (если родители сами гибриды, то некоторая часть потомства,
зависящая от рода родителей, принадлежит к чистым расам, но пропорция
различных видов гибридного потомства одна и та же); в таком случае вся
совокупность гибридов в целом следует закону Менделя, удовлетворяя,
как видно из формул (52), основному соотношению 4//i = (ф^ + ф2 + . ••
.. . + фп)2. Таким образом, обычное массовое статистическое наследование,
не производящее дифференцировки между гибридами, констатировало бы
существование элементарного закона Менделя, отметив лишь более или
менее повышенную дисперсию;
2) гибриды делятся на две существенно различные группы.
Предполагая для простоты каждую группу однородной, оба эти гибридные класса
представляют собой также чистые расы, характеризующиеся тем, что при
взаимном скрещивании они, в свою очередь, воспроизводят
первоначальные чистые расы. Рассматриваемые четыре чистые расы образуют
своеобразную «кадриль», и закон их наследования, существенно отличающийся
от менделевско-го, я называю «кадрильным». В литературе я нашел лишь
несколько спорных случаев (De Vries), подходящих к указанному закону,
но необходимо было бы произвести более тщательную проверку и
установить, применим ли здесь элементарный кадрильный закон или
какая-нибудь его обобщенная форма.
Наконец, задач;а, которую мы решили при помощи формул (10) в
частном случае простой менделевской наследственности, указывает характер
законов наследования сложного биотипа, включающего какое угодно число
чистых рас.
9 Случай, когда кроме гибридов могли бы получиться и индивиды родительских
классов, привел бы к соответствующему обобщению формул.
^^
7
О КРИВЫХ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ*
1. Общая проблема аналитического представления кривых
распределения вероятностей сводится к неограниченному приближению на всей
действительной оси функции / (х), которая стремится к нулю на
бесконечности. Как я это показал в другом месте *, для сколь угодно малого е можно
найти полиномы Р(х) достаточно высокой степени, такие, чтобы на всей
действительной оси мы имели
I Р{*) I
причем F{x) — заданная четная непрерывная функция, обладающая
единственным свойством, что для всех значений х имеем
F(x)>Ft(x),
где Fi (x) — целая трансцендентная четная функция рода 1 с
неотрицательными коэффициентами. В частности, можно взять, например, F(x) =
__ ек\х-а\ ^ г^е ^ __ произвольная положительная постоянная, а — любой
число и X ^> 1.
Случай X = 2 соответствует теории Bruns«a; однако вместо того, чтобы
следовать ходу вычислений, используемому в этой теории, можно было бы
точно так же указать бесконечно много других приемов для
неограниченного приближения заданной статистической кривой.
Английская школа Pearsons, напротив, за отправную точку берет
некоторые, зависящие от ограниченного числа параметров, выражения,
посредством которых ищут приближения заданного распределения. Однако
использование формул Pearsons, несмотря на их техническое
совершенство, в некоторых случаях теоретически неоправдано. Впрочем, нельзя
требовать, чтобы выражения, зависящие от ограниченного числа
параметров, были бы универсально применимы.
* Sur les courbes de distribution des probabilites, «Mathem. Zeitschrift», 24 (1926).
199-211 (104*).
1 Экстремальные свойства полиномов и наилучшее (приближение непрерывных
функций одной веще-слюнной переменной, М.— Л., 1937, стр. 164.
108
Я намереваюсь указать здесь один новый очень простой способ
излучения теоретических кривых распределения вероятностей, применимый
во многих случаях.
2. Пусть хп — последовательность чисел (х0 > 0), убывающих с
увеличением положительного индекса п (который может изменяться
непрерывно или прерывно), причем хп удовлетворяют с практически
достаточным приближением закону Гаусса для всех или по крайней мере для
достаточно больших значений п. Обозначим
Очевидно, что Мп — убывающая последовательность чисел.
Определим вероятность Р того, что хп перестают быть положительными
для п, заключенных м^жду щ к п2(щ < п2).
С этой целью заметим, что вероятность £{п) того, что хп <^0, та же,
что и вероятность неравенства
хп -Mn<-Mn=t\ *2ДГ,
то ег:ть
м
У1вп
F(n) =~ J e-4t.
I Л -оо
Между тем, хПг ^ 0 в одном из двух несовместимых случаев: или2 хПх
или же хп, >* 0; следовательно,
откуда
Уя
С <r*dt. (1)
V т,
2 с
Другими словами, если есть функция Лапласа,
Iя о
видим, что вероятность Р того, что хп перестают быть положительными
для п, заключенных между щ и n2l равна
еде
Р = у[Ф(22)-Ф (*,)],
zn = — -;.-— ■ (2)
2 Достаточно было бы подчинить хп более широкому условию, что д:п+л<0»
как только ^п<0, если h > а > 0. Формула (1) сохранилась бы тогда, пока щ —
— 7ii > а; формула (1) была бы точной в основном, то есть для достаточно
широких интервалов.
109
Часто случается, что Мп и Вп являются с очень хорошим
приближением линейными функциями п.
Пусть 2 — положительная фиксированная величина или величина,
удовлетворяющая закону Гаусса (причем такому, что отрицательные
значения 2 практически невозможны), положим
A =3R-(2), В = ЗК (2-.4)2.
Пусть, с другой стороны, хп = 2 — Sn, где
«Ь\< = (li + (*2 + . . . + U,„
причем величины а* могут быть зависимыми, лишь бы Sn приближенно
удовлетворяла закону Гаусса для достаточно больших значений п.
Предположим, кроме того, что 3R (щ) =аиЖ(аг-а)2= Ь, так что 9Й (Sn) =
= па. Во многих случаях будем иметь9Й (Sn — па)2 = пВЬ + с, где 9 и с
стремятся к постоянным пределам при п —* оо (в частности, если величины
а* независимы, 0=1, с = 0). Тогда
Мп = А — па,
Вп = Qnb + с+ 5 — 2ф(л),
где я|Нл) = Ж [2 — Л] [Sn — гса] равнялась бы нулю, если бы Sn не
зависело от 2, но чаще всего г|)(я) будет тоже линейной функцией п. Следова-
тельно, полагая щ = —, из (2) и (3) заключаем прежде всего, что по есть
а
медиана кривой распределения величин п, для которых хп обращаются
в нуль, и, кроме того, полагая у = п — щ, видим, что формула (2) в
рассматриваемом случае принимает вид
z=-J=r, (4)
Vs + ty
где s и t — постоянные. Весьма простым -случаем, к которому применимы
предыдущие соображения, является тот случай, когда требуется
определить число п испытаний, необходимых для того, чтобы А раз произошло
событие, вероятность которого в каждом испытании равна р: тогда немед-
А о в л * о *
ленно находим медиану щ = — и s = Z—-A,t = г — .
Р Р2 Р
Рассмотрим другой пример, который в первом приближении приводит
к формуле (4). Пусть
и
п = —,
и
где и и v удовлетворяют закону Гаусса, оставаясь нормально
коррелированными между собой с коэффициентом корреляции к. Пусть
Жи=Л, Ж (ы-Л)2 = Я,
SI v = а, Ж (у _> а)2 = Ь.
НО
(3)
4
Допустим, что А > 0, а > О, — достаточно велико и, кроме того, что
вероятности того, что и < О или у<0, практически пренебрежимы: мы -можем.
А а
например, предположить, что = X ^ 3, ——-■ = р ^ 3. Тогда можно
будет положить £п = и — 7г^, и закон вероятностей для я будет найден
предыдущим методом, примененным к хп. Таким образом, положив у =
А
— п , имеем
а
Мп = А — па — — ау,
г А2 Л2 ЪА2
Вп = В + п2Ъ- 2пкУвЪ = — + — - _ +
/4а АЛа\ а2г/2
пренебрегая членом с у2, коэффициент которого должен быть малым, если
допустить, что Ь мало.
3. В дальнейшем мы будем представлять себе хп как своего рода
энергию (о природе которой мы не делаем никаких специальных
предположений), которая необходима для роста велшгаы п или г/, так что у
данного индивида у достигает своего фиксированного значения, когда вся
энергия, которой он располагает, оказывается исчерпанной.
В таком случае можно указать большое число классов явлений, где
предыдущие вычисления будут применимы.
1. Продолжительность некоторых физических, химических и
физиологических явлений.
2. Число плодов, листьев и т. д. у сходных растений или число
определенных органов у биологических индивидов, допуская, что все
рождающиеся индивиды одного и того же рода обладают известной потенциальной
энергией, необходимой для образования рассматриваемых органов,
удовлетворяющей закону Гаусса, причем каждый орган поглощает для своего
образования некоторое количество этой энергии, которое также
удовлетворяет закону Гаусса.
3. Число одинаковых предметов, производимых рабочими, трудящимися
в одинаковых условиях, продолжительность 'использования определенных
предметов, произведенных одной и той же фабрикой, или
продолжительность амортизации капитала в данной промышленности или
продолжительность других аналогичных экономических явлений.
Подходя к этим проблемам, не следует во что бы то ни стало искать
(интерполяцию по формуле (4); вообще говоря, эта формула будет
справедливой лишь в первом приближении, а полное решение проблемы
требует возможно полного изучения функций 3 Мп и Вп* Однако очень часто
общий вид соответствующих кривых можно предвидеть почти без
вычислений.
3 В дальнейшем мы увидим, что функцию Мп всегда можно считать линейной,
но не исключено, что в некоторых случаях явилось бы выгодным не вводить этого
ограничения.
111
Действительно, из предшествующих вычислений следует, что кривая
распределения п сводится к нормальной кривой Гаусса, если Бп —
постоянная, т. е. когда потери энергии, соответствующие определенному
увеличению и, строго постоянны. В противном случае распределение п или /у,
данное формулой (4), будет иметь асимметрию, измеряемую величиной t.
и мы устанавливаем следующий факт: существует правая асимметрия (т. е.
сужение нормальной кривой слева1* и удлинение справа) для £>0 и
левая асимметрия для t < 0. Первый случай (который встречается наиболее
часто) имеет место, когда потери энергии или не зависят от имеющейся
энергии, или же находятся с ней в любой отрицательной, либо в
незначительной положительной корреляции. Наоборот, когда потери энергии
находятся в значительной положительной корреляции с начальной энергией,
I становится отрицательным и асимметрия меняет направление. (Это
следует из того факта, что t = Бп — Bn-i.)
Это замечание объясняет тот известный факт, что болыпая часть
кривых распределения имеет правую асимметрию. Противоположные случаи
левой асимметрии редки, одним из наиболее интересных примеров левой
асимметрии является продолжительность жизни человека, если тге учиты-
вать индивидов, умирающих, не достигнув зрелости (14 — 15 лет).
Известно, что кривая продолжительности жизни медленно возрастает до 65 —
70 лет, а далее - резко падает. Как следует из предыдущего, основная
причина этого факта состоит, по-видимому, в значительной положительной
корреляции, которая существует между потенциальной энергией человека
(не делая никаких предположений о природе этой энергии) и той
энергией, которую он расходует ежедневно. Из этого можно было бы сделать
следующие выводы, которые было бы интересно статистически проверить:
чем больше какой-либо социальный строй позволяет каждому индивиду
расходовать свою энергию сообразно своему физическому состоянию, тем
более кривая продолжительности ждагзни асимметрична.
4. Предположим теперь, что Вп = cp(z/)/2 — произвольная функция,
и допустим, что Мп = Яо — п = — у; последнее условие показывает, что
математическое ожидание энергии хп уменьшается на ту же величину, на
которую п возрастает. Таким образом, можно будет утверждать, что
вероятность неравенства у > ух равна
оо
/Ы^-L S e^4z^~(l-J-J^=~)) (5)
Отсюда мы заключаем, что каково бы ни было заданное статистическое
распределение, оно может быть представлено формулой (5). Другими
словами, каждый заданный статистический закон распределения будет
характеризоваться функцией дисперсии (р(у) ж поэтому легко
определяется, если использовать таблицы значений функции Лапласа Ф(г): если
(р(У) приблизительно постоянна, то ее значение представляет коэффициент
дисперсии соответствующего нормального распределения. Геометрически
4 Позднее мы более точно укажем соответствующее геометрическое
преобразование.
112
наиболее простым является тот случай, когда ф(г/) представляет собой
прямую линию; это именно тот случай, к которому мы пришли выше.
Другим аналитически простым случаем, который, как мы сейчас увидим,
тоже естественно возникает, является тот случай, когда ф(#) =
= s + ty — ту1, где 5 г > 0. Видно, что тот случаи, когда у (у) линейна,
соответствует некоторому распределению, ограниченному с одной стороны
и неограниченному с другой, наоборот, новый случай, на который мы
только что указали, соответствует распределениям, ограниченным с обеих
сторон. Вообще функцию дисперсии ф(*/), заданную на конечном отрезке,
всегда можно приблизить (на етом отрезке) посредством некоторой суммы
дробных степеней ниже 6 2, и нужно будет использовать неопределенность
показателей степеней, чтобы найти возможно хорошее приближение с
минимальным количеством членов.
5. Укажем теперь один тип явлений, который приводит к выражению
Ф (У) = s + ty — ГУ2\ этот случай представляется, когда для достаточно
больших значений п(п> N) хп сводится к некоторому фиксированному
числу М, так что Вп в конце концов становится тождественным нулем.
Рассмотрим случай, когда начальная энергия есть константа 1 = А,
и предположим, что для п > N
Sn = он + а2 + ... + ап = £> А (6)
(так что ап = 0 для п> N).
Допустим, кроме того, что зависимость между числами а ограничивается
только соотношением (6). Пусть Ж (а*) = а,ЗЛ (а/* - а)2 = Ь (для А'<^ Л');
тогда имеем L = Na, а вообще, когда известно, что
ai + a2 + ... -Ь ah = Sh,
математическое ожидание каждого а&(/г < к <^N) становится равным
L-Sh
N — h'
Поэтому для определения
Вп =®l(Sn — na)2
имеем рекуррентное соотношение
£п+1 = Вп + Ъ + 23R (Sn — па) (an+i — a) =
(L g \
Л -h]
2naL nBn + nW ло TV — тг — 2 ^
= Bn + b + - 2 — 2na* = — Bn + b.
N _ n N — n N — n
5 Нельзя предполагать, что коэффициент при у2 положителен, причем
выражение для ф (у) остается справедливым для всех значений у, ибо нужно, чтобы z
менялось от — сю до + оо, когда у возрастает, пробегая всю кривую распределения;
однако случай достаточно малого г < 0 тоже может встречаться на практике (см.
конец п. 2).
е См. стр. 74 работы [3] (том I).
8 С. Н. Бернштейн
ИЗ
Следовательно,
n(N — п)Ъ
с другой стороны, имеем, очевидно, Мп = А — па. Таким образом, наконец,
А
полагая у = п — —, находим, что вероятность неравенства
а
У\<У <Уг
равна
1/а
V Ф(у2)
4= S «-"*.
У к
Vi
^ф(5Г)
где ф(у) = s + ty — гу2, причем
ЪА ( ът А\ Ъ 1 лг
<* — д^ ) f — 1 А7
(N-l)a3\" a/' " {N—i)a*\"
Ъ
1А
а
(8)
(iV-l)a2'
(9)
Предположим, например, что производится п извлечений из урны,
содержащей pN белых шаров и qN черных шаров (р + q = 1), без
возвращения вынутых шаров; речь идет об определении кривой распределения
числа извлечений п, необходимых для получения А = hN белых шаров
(h < р). Замечая, что для достаточно больших N число пг белых шаров,
извлекаемых при п выниманиях7, приближенно удовлетворяет закону
Гаусса, заключаем из этого, что рассуждения, которые мы только что
развили, здесь применимы. Приведем один численный пример, который
показывает, что можно найти вполне удовлетворительное приближение
посредством формулы (8) даже в том случае, когда N не слишком велико,
только вместо того, чтобы брать значения s, t, г, которые получились бы
при непосредственном применении теоретических формул (9),
предполагающих точное следование закону Гаусса, нужно просто
использовать один метод (о котором мы будем говорить дальше) вычисления
этих настоянных, чтобы приблизиться, насколько возможно, к
соответствующей статистической кривой. Действительно, вероятность Рп того,
что последний hN-& белый шар будет извлечен при я-ом извлечении,
задается точной формулой
hNihN + l)...(hN+ a— l)qN(qN — 1). . .(qN - а + ■!)
Рп = PhN
al(N — hN)iN — hN — 1). . .(N — hN — a + 1)
7 Только бы мы имели X < n/N < 1 — Я, где X — некоторое фиксированное число,
отличное от 0.
И4
где
р№ (N - hN)!
а = п — Л7г, PhN =
N1 (Ар - hN)!
Таким образом, полагая N = 16, р = 1/2, А = hN = 3, имеем во 2-ой
строке следующей таблицы 1000 Рп, с точностью до одаой единицы,
п= 3 4 5 6 789 10 И
1000 i>n= 100 183 217 196 147 91 45 17 4
1000 Р^ = 88 177 222 204 143 88 42 17 5
и (в третьей строке имеем значения 1000Р'п, соответствующие формуле8
(8), где
ф(г/)= 6,46 + 0,68*/+ 0,07г/2.
Однако по нашей формуле мы имеем еще 1000Р'П = 13 для суммы всех
значений п < 3, и 1000Рп = 1 для л>11, так что, как и следовало
ожидать, на краях соответствие недостаточно, если только не различать
классы гс = 3 и п < 3, с одной стороны, и классы я = 11 и и > 11 —
с другой.
6. Кривые, которые соответствуют случаям, когда ф(*/) линейна или
второй степени, получаются из нормальной кривой простыми
геометрическими преобразованиями, которые следует отметить. Заметим сначала,
что если у и — у' (соответствующие точки оси абсцисс) — границы
равновероятного отклонения медианы, соответственно, вправо и влево, то
У У*
У * (10)
Vs + ty — ту2 Vs - ty' - ryn
откуда
4--*—*-. (id
У У *
Соотношение (11) показывает, что точки, соответствующие
равновероятным отклонениям вправо и влево (равноотстоящие для симметричной
кривой), являются гармоническими относительно сегмента, имеющего кон-
Is
цами 0 (медиану) и — —.
Пусть, с другой стороны, ± Y — два отклонения, которые имели бы те
же вероятности, что и у и — у/ при t в. г, равных нулю, и s неизменном;
Y
тогда (10) нужно будет приравнять ±—, откуда легко выводится, что
1 1 г
1 (12)
УУ
У2 s
Это соотношение показывает, что у у' = Y2 при г = 0, что можно
выразить теометрически, сказав, что точки — у'у и У2 симметричны; напротив,
8 Медиана строго соответствует 57г.
115
если г > 0, обе новые точки дают новую асимметрию, которая состоит
в том, что эти две точки гармоничны относительно сегмента I 0, )•
Не останавливаясь на геометрических построениях, которые преобразуют,
согласно предыдущему, нормальную кривую в наши кривые
распределения9,, отметим еще одно следствие из равенства (11). Пусть f(y) и
f(—y') — ординаты нашей кривой, которые соответствуют правым и левым
равновероятным отклонениям; тогда
ny)dy = f{-y')dy';
но, с другой стороны, дифференцируя (11), мы имеем
dy _ dy'
У2 ~ У" '
Следовательно,
у2Иу) = у'Ч(-у'). (13)
Другими словами, ординаты соответствующих точек нашей кривой
распределения обратно пропорциональны квадратам их абсцисс.
7. Для приближенного вычисления наших теоретических кривых
можно использовать различные методы. Наиболее естественным является
прямой метод. Он состоит в том, чтобы записывать согласно статистическим
данным, как мы это отмечали в п. 4, точки кривой дисперсии ф(у),
соответствующие различным более или менее широким классам
распределений. Постараемся приблизить эту совокупность точек либо с помощью
прямой линии, либо с помощью параболы и т. д. Графическое определение
прямой, которая менее всего отклоняется от совокупности точек, особенно
просто: строится наименьший выпуклый полигон, содержащий точки этого
множества, сегменты, параллельные оси ординат, отсекаемые этим
выпуклым контуром, будут иметь единственный максимум АВ\ искомая прямая
пройдет через середину АВ параллельно к общему направлению
касательных к контуру в А и В. (Это направление было бы неопределенным только
в том случае, когда А ж В являются вершинами, но это обстоятельство не
может возникнуть, если полигон получен вышеуказанным способом,
поскольку две вершины не могут иметь одну и ту же абсциссу.) Можно
также применить метод наименьших квадратов в подходящей форме.
Я не думзаю, чтобы общепринятый метод моментов всегда был
предпочтительнее только что указанного метода: если число классов мало и,
особенно, >если число индивидов в экстремальном классе значительно,
замена интегралов суммами ведет к более значительным ошибкам, чем
ошибки, которые делаются при вычислении медианы. Другой метод,
который можно назвать смешанным методом, практически является наиболее
простым. Начинают с определения медианы, а затем, приняв ее за начало
координат, определяют коэффициенты s, I, r методом моментов. Рассмотрим
9 Заметим, кстати, что для г > 2/з и t = 0 кривая распределения будет
симметричной и будет иметь две вершины.
116
сначала случай, когда г = 0, то есть
z =
Vs + ty "
Решая ©то уравнение относительно у, находим допустимое решение
(*)
у =-L[tz+ V4s + t44.
Итак,
а=дйг/= Ш
tz2
t
т
(14)
Также
ъ = эд у2 = шг
i2z4 z2
—-- + — (4s + i2z2)
4 4
3 , s
(15)
Таким образом, вычислив моменты первого и второго порядка,
последовательно найдем t и s.
Формула (14) означает, что расстояние между средним и медианой
t
равно —-.
4
Без труда проверяется, что мода \х (т. е. абсцисса вершины вашей
кривой) удовлетворяет кубическому уравнению
*(* + ty)ite + ty) + 2y(2s + ty)* = О,
откуда I пренебрегая степенями выше — 1 находим приближенное
значение
М-
{-■И)-
(16)
t2
Из (16) следует, что для — достаточно малых (например, < 7г) пра-
s
вило Пирсона, согласно которому медиана находится между модой и
средним на расстоянии от первой, вдвое большем, чем от второго, отлично
подтверждается.
Можно, наконец, использовать обычный метод моментов. Однако нужно
будет использовать третий момент, который позволит вместе с двумя
первыми определить третье неизвестное, которым является положение
медианы.
Имеем
с = ЗЯ г/3 = Ш
*3 л 3 /
15 , 9 .
= — tZ + — St.
16 8
(17)
117
Следовательно, приняв за начало координат среднее вместо медианы,
новая абсцисса х связывается с прежними у 'соотношением (согласно (14))
t
х = У - —
4
и из (15) и (17) последовательно находим
t2 Б s
6 = 3^2 = ъ = _^2 + _
■ 16 16 2
3 t3 11 3
у = $$х3 = с *Ь Н = — t3 H st.
Y 4 32 16 4
Исключая s из двух последних формул, мы сводим определение всех
неизвестных элементов к решению уравнения третьей степени
7£3 + 48р*-32у = 0. (18)
Когда г > О, вычисления становятся менее простыми, и мы
ограничимся в этом случае применением смешанного метода, предполагая,
следовательно, что медиана определяется непосредственно. Тогда нам
достаточно 'будет знать только три первых момента.
Из уравнения
У
z =
У s + ty — ту2
мы находим
y2(z2r + l)~z2(ty + 5)= 0,
откуда
_ z(tz+ Vis + z2(t2 + 4sr))
У 2(rz2 + 1) '
Таким образом,
fl = Si/=lr7z dz = —I(r)
и, аналогичным образом, обозначив через Г (г) и 7"(г) первую и вторую
производные 1(г), соответственно, получаем
t2
Ъ = ®ly2 = si(r) Г (г),
г
c=gRt/3 = i!r(r)_i.si7'(r).
4 2
Исключая 5 и £ из этих трех уравнений,, сводим задачу к решению
трансцендентного уравнения
о ч 7"(rJ n ЫЧг) +2аЧ'(г} т// .
С = 2а3"7м^-За /^ /(г)- (19)
.118
Так как, вообще говоря, значения г достаточно малы, можно пренебречь
степенями г и заменить уравнение (19) приближенным линейным
уравнением, которое при этом получится. Я не буду останавливаться здесь на
этих деталях, замечу только, что вычисление 4-го момента позволило бы
исключить /(г), если принять во внимание тождество
Г (г)
1
2г2
■7(г)| —+ -
и заменить уравнение (19) алгебраическим уравнением.
В заключение приведу один пример *. Я заимствовал статистические
данные «з книги профессора Лахтина «Кривые распределения и их
интерполяция методами Пирсона и Брунса», М., 1922, стр. 115.
Число
цветков
на одном
стебле
I
3
4
5
6
7
8
9
10
И
Значение z
согласно (21)
И
—3,537
-2,209
—1,213
—0,4115
0,2627
0,8476
1,3665
I 1,840
1 2,262
2,657
1
Теоретическое
число стеблей!
согласно (21)
III
1,05
48,9
274,6
422,0
278,0
102,5
25,5
4,6
0,7
1157,85
Число
действительно
наблюденных
стеблей
IV
3
46
270
430
280
96
27
5
1
1158
Теоретическое
число
согласно формуле
Пирсона (20)
V
1,99
49,95
268,90
426,07
278,67
100,87
25,21
5,07
0,91
1157,64
Было сосчитано число цветков на каждом из 1158 стеблей ландышей,
собранных в одном и том же месте под Москвой. Две последние колонки
настоящей таблицы заимствованы из цитируемой книги; в частности,
последняя колонка соответствует кривой 4-го класса Пирсона,
определяемой формулой
v arctg-
х-1
Уо
1 +
х-1
\2] тп'
(20)
где Уо = 0,0021397, v = 31,1756, I = 1,94924, 6 = 4,58207, ж = 17,8871.
Колонки II и III были вычислены по формуле
1
Г* г,
ldz,
* См. «Т. В.», стр. 350. (Автор.)
119
где
х0 — 6,592 х0 — 5,592
*!=.,/• *2 = ° J , (21)
K0,346z0 - 0,0076 1/0,346*0 + 0,3384
обозначая через РХо вероятность того, что один стебель допускает п = х0
цветков, т. е. что имеем xQ — 1/2 < п < хо + 1/2. Параметры в формуле
(21) получены методом моментов; так получаем среднее М =6,179 и
моменты второго порядка (3 = 1,174 и третьего порядка y = 0,6179. Решив
затем уравнение (18)
7*3 + 56,352* - 19,7728 = 0,
t
находим t = 0,346; следовательно, согласно (14), медиана равна М =
4
= 6,092 и, сотласно (15), s = 2,2732.
Следует заметить, что кривая Пирсона имеет одним параметром
больше, чем наша.
Поступило
3 ноября 1924 г.
8
РАСПРОСТРАНЕНИЕ ПРЕДЕЛЬНОЙ ТЕОРЕМЫ
ТЕОРИИ ВЕРОЯТНОСТЕЙ
НА СУММЫ ЗАВИСИМЫХ ВЕЛИЧИН*
ВВЕДЕНИЕ
Теория вероятностей является одной из немногих областей
математических наук, где гений Римана не оставил глубокого следа. Но, посвящая
эту скромную работу памяти великого геометра, я надеюсь, что выбрал
тему, которая не была бы ему чужда.
Основные результаты этой работы, а также главная идея метода были
кратко изложены в моей статье [4]. Наименование предельной теоремы
теории вероятностей дают утверждению, что, при некоторых условиях,
интегральный закон распределения вероятностей величины Sn имеет
пределом, когда п стремится к бесконечности, известный интеграл Гаусса —
Лапласа. Применимость к Sn предельной теоремы означает, таким
образом, что для достаточно больших п ее распределение вероятностей
приближенно удовлетворяет знаменитому «закону ошибок» Гаусса. Наиболее
практически важным является тот случай, когда Sn представляется как
сумма п независимых или зависимых величин; впрочем, наиболее общий
случай может быть всегда сведен к этому последнему предположению.
Изучение достаточных (и необходимых) условий приложимости
предельной теоремы (или закона Гаусса) к сумме весьма большого числа
независимых величин было предметом многих важных работ Чебышева,
Ляпунова, Маркова и в последнее время Линдеберга и П. Леви. В частности,
в своей работе «Nouvelle forme du theoreme sur la limite de probabilite» l
A. M. Ляпунов придал рассматриваемой теореме очень общую форму,
содержащую тот часто встречающийся в приложениях специальный
случай, когда предполагается только, что максимум каждого члена
суммы Sn очень мал сравнительно с квадратным корнем из математического
ожидания квадрата £п.
* Sur l'extensioxi du theoreme limite du calcul des probability aux sommes de
quantites dependantes. i«Math. Armalen», Bd. 97 (1926), 1—50 (том, посвященный
памяти Римана, в связи со столетней годовщиной со дня его рождения) (111*). См.
русский перевод: «Успехи матем. наук», 10 (1944), 65—114 (227*).
1 «Записки Акад. наук», 12, № 5 (1901), '1—24.
121
Не- имея в виду продвинуть здесь более глубоко уже значительно
изученный вопрос о сумме независимых величин, мы ограничимся в первой
главе только доказательством теоремы Ляпунова, представив его в виде,
легко поддающемся обобщению, которое будет проведено в следующих
главах для случая сумм зависимых величин. Вторая глава посвящена
систематическому изучению случая одной суммы зависимых величин. Той
же теме А. А. Марков посвятил несколько своих замечательных
мемуаров 2, где он пользовался методом математических ожиданий (моментов),
идея которого восходит к Чебышеву. Мы, в частности, детально исследуем
«простые цепи испытаний» А. А. Маркова, распространяя при помощи
наших общих теорем результаты знаменитого геометра на случай, когда
вероятность наступления рассматриваемого события при некотором
испытании, если известен результат предшествующего испытания, при
п — °° стремится к 1 или к 0. Наконец, в третьей главе мы обобщим
основные теоремы, относящиеся к одной сумме, на случай двух зависимых
сумм, дав тем самым общие условия для приложимости теории
нормальной корреляции, которая до сих пор, как мне кажется, не была
достаточно математически обоснована. Результаты, полученные в этой работе,
имеют многочисленные применения, детальное изучение которых, однако, не
может быть здесь проведено. Я ограничился общими указаниями по этому
поводу, рассмотрев некоторые простые примеры более для иллюстрации
математических результатов и общих методов теории, чем из-за их
практического интереса.
Глава I
ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ. ТЕОРЕМА ЛЯПУНОВА
1. Пусть 2п — некоторая случайная величина, закон вероятностей
которой зависит от п\ тогда можно построить функцию
Фп(а0=3»(в**2л)я (1)
которая будет играть важную роль в дальнейшем. Сначала докажем
'следующую лемму:
Л емма. Пусть 2П — величина, обладающая свойством, что, как бы
велико ни было число N, для достаточно больших п3 выполняется
неравенство
+N +N
] 1ЯЙ(в«^) ldS= J lq>n(S)ld&<4, (2)
-JV' -N
2 А. А. Марков. Распространение предельных теорем исчисления вероятностей
на суммы есличин, связанных в цепь. «Записки Акад. наук»," 22, № 9 (1908), 1—29;
«Исследование общего случая испытаний, связанных в цепь», там же, 25, № 3 (1910),
1—33; «Recherches sur un cas remarquable d'epreuves dependantes». «Acta Math.», 33
(1910), 87—104; «О связанных величинах, не образующих простой цепи». «Изв. Акад.
наук», 5, № 2 (1911), 113—126; «Об одном случае испытаний, связанных в сложную
цепь», там же, 5, № 3 (1911), 171—186; «Применение способа математических
ожиданий к связанным рядам величин», там же, 9, № 14 (1915), 1453—1484.
3 Разумеется, не важно, что п стремится к бесконечности, а не к какому-нибудь
другому пределу; эту гипотезу, которая встречается чаще всего и к которой общий
случай сводится заменой параметра, мы вводим лишь единственно для
определенности.
122
где А некоторое фиксированное число (не зависящее от п и N); при этом
условии каково бы ни было tQ и как бы мало ни было данное число е,
1) можно выбрать К столь малым, чтобы вероятность Р неравенства
и — Х<2п<10 + к (3)
была меньше е, 2) и, с другой стороны, можно выбрать N столь большим,
чтобы для достаточно больших п выполнялось неравенство
Ж
i
Щ
< яг.
(4)
I
(5)
Докажем сначала наше первое утверждение.
Для этой цели заметим, что
| 2n - to |
/«=» (е
\Tn-U \
ибо, если неравенство (3) выполнено, то е k > е-1. Поэтому нужно
лишь показать, что для достаточно больших п справедливо неравенство
8
')>Ре~\
К
(6)
Замечая, что
|-г- I Я с cos/rag
'= — [
rr J
Л -Joo ^2 + 1
мы можем представить / в виде
I = Ж
+оо
Я г cos(2n —£0)£
Jt
Л,
я
+;v
cos (Sn — *о)£
я2£2 + 1
Я2!2 + 1
dE
+
i
cos(2n — io)|
COS (Sri — ft))t
k2¥+ 1
d5
-dl +
(7)
l2l2 + 1
Но вследствие (2), каково бы ни было N, имеем для достаточно
больших п
I+" Ш [cos(S„ - *о) Я Л I <- +rN I ЭД (eir»6)
V at Ч —
—N
ХЧ2 +' 1
dl<A,
и, с другой стороны, очевидно
? cos(2„ — *o)£
А,2? + 1
dl
dl
^ ) Щ- +1 А \ 2 б '
-* cos(Sn-to)£
^2|2 + 1
<
Я. \ 2 '
arctg XJV .
ел
Следовательно, полагая X = —г- и выбирая N достаточно большим, что-
2Ае
123
бы выполнялось неравенство
я
arctg
ETiN
2Ае
ел:
заключаем из (7), что
%А е б
я le e
и наше первое утверждение доказано.
Для вывода неравенства (4) положим
ад|«* sin(S„-to)g
dl
,N
= в + ви
(8)
(6 bis)
(9)
где В соответствует тем значениям 2Л, которые удовлетворяют
неравенству (3), a Bi представляет ту часть математического ожидания 9Й,
которая содержит значения 2П, не удовлетворяющие этому неравенству.
Заметим, с другой стороны, что для всех значений а > О, каково бы ни
было Ь, удовлетворяющее 'неравенству I аЪ I > я, имеем
sin Ь£
d£
jt
sin Ь£
di
<
я
ab
(10)
Действительно,
smz
Положив же
00 sin b£ °°
а | аЬ |
Q* = (-l)k j — &,
Art
получим
QA < Qk-i < . . . < Q0 < Я.
Следовательно, из равенства
<£z.
smz
■ dz = Qo — Qi + Q2
заключаем, что, каково бы ни было к,
я
т
я
0 < Qfc — Qfe+i + ...< —
и значит
smz
-dz
llabl
= I 0Qfc ~ Qfe+i + Qh+2
Я
<2
(0<e<i),
ибо всегда найдется такое целое к, что /ся< I ab I <(к + 1)я. Для
установления второго из неравенств (10) достаточно заметить, что
\oQk-Qh+i + ...\<Qk<j< )аЬ"_л
(при условии, что I аЪ I > я).
124
Поэтому в силу (3), мы имеем
*<^<|е- (11,
с другой стороны, так как все значения 2Л, входящие в Ви удовлетворяют
неравенству I 2П — t01>А,,, то, выбирая Л' столь большим, что
2
Nk— л> —, (12)
оудем иметь
NX-л 2
Поэтому из (И) и (13) мы получим, наконец,
В1<-Ж^Г<Те- (13)
ж
г sin(Sn-^0)g
< яе, (4)
если.только, предполагая, что iV удовлетворяет неравенствам (8) и (12),
выбрать п столь большим, чтобы было выполнено условие (2).
2. Теперь мы можем вывести из только что доказанной леммы
следующую общую теорему.
Теорем а. Если
<р„(*) =3» (e'V) = /»(1-а„), (14)
оо
где \ \F(x)\dx существует, а ап равномерно стремится к О вместе с 1 \п
во всяком заданном интервале I x I < А", то вероятность неравенства
*o<2n<*i (15)
стремится к
1 г* sin £i£ — sin £05
^(1)^7 ^
2л
—оо e
равномерно для всех h и h, принадлежащих к произвольно заданному
интервалу.
Действительно, пусть б — произвольно малое положительное число; мы
можем указать столь большое число iV, чтобы выполнялись неравенства
оо -JV
J | F(x) \dx<6, J | F(x) | dx < 6; (16)
N -oo
затем возможно, по предположению, выбрать п достаточно большим, чтобы
в равенстве (14) было I ап I < 6 при I х I < N. Но из предыдущей леммы
следует, в частности, что вероятность каждого из равенств 2П = to и
2П = U имеет пределом нуль. Поэтому, принимая во внимаяие, что, смотря
по знаку к 2:0,
+00
i^d6-±l,
125
мы видим, что для достаточно больших п вероятность неравенства (15)
сколь угодно мало отличается от
Я = — Ш Г \ sin(Zn —^o)g r sin(Z„ — tj)l
(17)
С другой стороны, вторая часть той же леммы позволяет заключить, что Н
произвольно мало отличается от
sin (2n — ti)l
dl
, (18)
если только TV и и достаточно велики. Следовательно, внутри пределов
интегрирования (— N, + N) мы будем иметь
Ф (cos 2„ 6) = .F(!)[4 + pj,4
дй(зт2„£)-^(6)уп, }
(19)
где I pn I < б, I уп I < б (ибо а„ = pn + iyn). Таким образом,
J- C.nSI 2",
2
1 ? — 2
N sm— 1 cos
(Sn-
6
£i — ^o ^i + ^o
2v sm — b, cos —
я;
+
■d£ =
(l + pn)d£ +
-iV
. ^i — to _. . h + £o,
.v sm — I sm 1
и, так как
N
sm-
ll — to
ti — to
< — , мы видим, что
■yndt,
(20)
sin-
ti — to t\ + £q
£ COS—т; I
dl
tJ'<»-
sm—-—| cos
<'!^Lo$|F(E)l*. <21>
—oo
U + io«.
■dg-
. ^i — h ti + /q
em | cos
d%
<
_26_
"niV
Поэтому, пока ti — t0 не превышает положительного сколь угодно
большого фиксированного числа L, Q, и значит также (через посредство Н)
126
вероятность неравенства (15), равномерно стремятся к
• ^1 ~~ ^О о. ^1 + ^0 с.
sin—-—gcos-
(22)
когда тг бесконечно возрастает 4.
3. Теорема. Если 2П обладает тем свойством, что для
произвольно малого данного числа 6 и сколь угодно большого данного числа N при
I £ I < Л* для достаточно больших значений п имеет место неравенство
I2
| еТЖ (е^„|) _ 1 | < 5, (23)
то вероятность неравенства
tQ<2n< h (24)
равномерно стремится к пределу
~[ e-t2dt,
to
когда п бесконечно возрастает.
Действительно, вследствие предыдущей теоремы, предел
рассматриваемой вероятности равен
J_ С е~7 sh*iS-jjnftidl = _4_г e_,Л> (240
Равномерная сходимость к указанному пределу обеспечивается, по
предыдущей теореме, для случая, когда U и ti содержатся внутри данного
промежутка произвольно большой длины. Но если L выбрано столь
большим, чтобы выполнялось неравенство
ь 1
1 Г £
У* i I 2
где е сколь угодно малое данное число, то можно выбрать п достаточно
большим, чтобы вероятность неравенства (15) для Uo I ^ • Ь, \U I <J L
отличалась от своего предела самое большее на е/2 и, в частности, чтобы
вероятность неравенства — //<2П<£ была больше, чем 1-е: поэтому,
если L <tQ < £i, вероятность неравенства (15) будет меньше 8 и,
следовательно, для всех значений to, ti и для значений я, выбранных выше,
разность между вероятностью неравенства (15) и соответствующим
интегралом будет по абсолютной величине меньше 3/28.
4 Равномерная сходимость к указанному пределу может иметь место независима
от L, если известно, что функция F (х) удовлетворяет одному из весьма общих
00 sin Й-
условий, в силу которых lim J F (£) d% = nF (0). Так обстоит дело в том
изучаемом нами далее частном случае, когда F(x) « е-*2/4. Для общего случая мы
этот вопрос рассматривать здесь не будем.
127
Докажем теперь одно важное вспомогательное предложение о
математических ожиданиях, указанное А. М. Ляпуновым (см. сноску1, стр. 121).
4. Лемма. Каковы бы ни были h > 0, q > р> 0, имеет место
неравенство
m | х |^р [ж | х |л1«-р> [Ж | х |И-'Ч". (25)
Заметим сначала, что переход к пределу позволяет ограничиться
случаем, когда величина х принимает только ограниченное число значений,
которые можно предположить неотрицательными; таким образом,
неравенство (25) может быть сведено к неравенству
ZJ Jixi \ 2j. foXi
q-p
^
%i . P+h
/ I Jixi
(26)
где fi ^ 0. Кроме того, полагая fiXi = фг- и принимая, что 2 Ф* = ^ ~~
что не уменьшит общности неравенства, так как оно однородно
относительно fi,— мы сведем все к доказательству неравенства
]р
" " (27)
2 ф^?| > I 2ф*еЛ (2 ф* = 1
Наконец, переход к пределу позволяет ограничиться случаем, когда
числа фг- рациональны и, следовательно, мы можем предполагать все
фг = 1/п, где п — общий знаменатель фг, представляющий, таким
образом, число значений Х{, различных или нет. Таким образом, достаточно
показать, что
т. е., полагая q/p = X > 1 и Х{ = уи что
Vi А
L =
(lsVi
\
\*
>
Д-1'
Но это очевидно, так как минимум L достигается, когда все ух равны
между собой, и в этом случае
1
L = A =
~k-i
Тем самым лемма доказана.
В частности, из (27) следует, что существование3R | х-х \q влечет за
собой тем более существование 9R | ач |р, причем
9К I xi |р < № | -Ti |*]""* (р < q). (27 bis)
Пусть, с другой стороны, щ, иг,..., ип — последовательность каких-
нибудь неотрицательных величин таких, что 3R&2. = Ь*, ^K|wi ' - '*,
gj}| ^i |q+2 = d,-; тогда из (26) (в предположении q > 1) выводим, что
2Ь|Г4(И*)>(2*У,«
128
откуда
w*j >mJg>i)' m
5. Приступим к доказательству теоремы Ляпунова.
Пусть
2п = и± + и2 + ... + ип (29)
сумма независимых величин. Пусть (что не ограничивает общности)
®1щ = 0; положим, кроме того, ®1щ = Ъ{ и$й I щ I = с{. Если при
безграничном возрастании п
п
Р« = -^Г-0, (30)
п
п
где ^п =2 ^ =3R(2iirO» ro вероятность неравенства
i
UV:2B^< 2n < ZiКЖ (31)
(равномерно) стремится к
1
«I
Но
где
Действительно, положим i(iJi2Bn = z//{; тогда
7 = Ж (e^i/i+.-.+i/n^) = Ж (eiv£). . .Ж (eiynl) щ (32)
Ж (6^*6) = 1 - -М" + *»£> (33)
4/5л
ибо, используя разложения Тейлора cos Ь и sin Ъ с остаточным членом
Лаграижа, имеем
Ъ2 04Ь3 / 7 л &з
е*ь = cos Ь + i sin Ь = 1 Н — + И Ь + 02 —
2 6 V 6
(MiKl, 1в21 <1).
Вследствие (30), бА стремится к 0 вместе с 1/л, и то же имеет место для
Ьь/Вп, ибо b'k <с?{. так что bh/Bn ^ch/Bn.
Мы можем поэтому, зафиксировав сколь угодно большое Лг, выбрать
п достаточно большим, чтобы для I I1 < N выполнялось неравенство
JL&L
4Вп
+ I 6н13 I < е, (35)
9 С. Н. Бернгатейн 129
где е — данное произвольно малое число. Следовательно, полагая Ok =
= — Ьк12/4Вп + б/tg3, получим
ln/ = ln(l + Oi) + ln(l + a2) + ... + ln(l + an) =
= Oi(l + ai)+ a2(l + a2)+ ... + an{i + an),
где I au I < e. Ho
t2 n £2
Ot + 02 + . . . + On = ~ -7- + У\ 6klS =--.-+ 8n,
где, вследствие (30) и (34), n может быть выбрано столь большим, чтобы
было сколь угодно мало; с другой стороны,
П П р с.*) П -
S | Wk | < е 2 К ! < е г1 + 2 ! 6^31 < С '»
1 1 ' 1 ' J
где е^ также стремится к 0 вместе с 1/тг (в предположении, что I £ I <iV).
П оэтому
In/ = - -f- + гп (I е„ К I < I + г");
A 71 Tl
отсюда мы заключаем, что, каково бы ни было произвольно малое число
б, для достаточно больших значений п имеет место неравенство
11е^ - 1 | < б,
п
если только I 11 ^ N. Теорема п. 3 приложила, следовательно, к 2 Уь —
= SnV 2Sn, откуда следует, что вероятность неравенства (31) равномерно
стремится к пределу
1= J е-**М.
Как заметил А. М. Ляпунов, его теорема содержит тот важный
частный случай, когда ни одна из величин ик не превышает числа L, причем
lim L2/Bn = 0. Действительно, очевидно, с&< bkL, следовательно,
п-*-оо
V<7T- (36)
Знаменитый математик дал, кроме того, своей теореме более общую
форму, рассматривая вместо условия (30) условие
2с(?
~^Ш--*°< (30 bis)
п
где с<5> = 3R | и2*6 I, а б —■ какое угодно данное положительное число; как
легко видеть, случай б >1 содержится (в силу (28)) в доказанной нами
теореме, но случай б < 1 более общий. Впрочем, не имея надобности
130
в дальнейшем в общей форме теоремы Ляпунова, я предпочел
ограничиться для большей ясности случаем 6=1. Кроме того, легко проверить,
что, если обозначить через е& вероятность неравенства I uk | > L,
предельная теорема будет приложима всякий раз, когда одновременно L2/Bn-+0
п
и 2 е*—* 0 (где значение Вп вычисляется5 при предположении, что
I w/t I ^Z/ для соответствующим образом выбранных L)t Рассмотрение
этих обобщений не входит в задачу настоящей работы.
Глава II
ИЗУЧЕНИЕ СУММ ЗАВИСИМЫХ ВЕЛИЧИН
6. Начнем с доказательства одного очень простого предложения,
которое в дальнейшем будет нами неоднократно использовано.
Лемма. Пусть
Sn = 2П + о*, (37)
где
®1(2п) = ®1 (ая)= 0 u5K(22„)=Br2,sK(an)= р*;
если, при п, стремящемся к бесконечности, вероятность неравенства
toi2Bn<ln<tii2Bn (38)
имеет пределом
то вероятность неравенства
toVWhi < Sn < tiV2b~n, (39)
где Ъп = 9К (Sn), имеет тот же предел, если только lim (рп/&п) = 0.
5 Так, например, ес;ш Uk имеют возможными значениями ± Уга с вероятно-
2
стями 3/л2яг2, где m — натуральные числа, то ЭД (uk) и тем более Вп но имеют
смысла. Однако, если положить L2 = Ani/lnn, где А — какое-нибудь данное число,
^ 2
то, рассматривая только значения | uk | < L, будем иметь У е& < —=г- и, при
1 Aflnn
2
бл ,_, 1 бп
указанном условии, Вп = —у—~—Inn, так что L2/#n —* 0- Поэтому ©ероят-
л ^- m л
ность
У12п ^ 1 / 12-и 1 с J5 ,
—-ln«< 2_, uft<^l/ --- In п име-ет пределом —: »\е~<2ей.
1 'о
Легко видеть, что, в силу (26), в общем случае Ляпупова значение Вп не зависит
от L.
131 9*
Действительно, вследствие классической теоремы Чебышева,
вероятность неравенства
I оп I < z ]/"'p7 (40)
превышает 1 — 1/z2. Следовательно, вероятность рп выполнения
неравенств
*о \г2Ъп <Sn< hV'lbn
удовлетворяет, с одной стороны, неравенству
(39)
Рп >Рп~— ,
Z2
где Р„ означает вероятность того, что
(41)
(42)
ибо неравенство (39) обязательно (выполняется, если одновременно6
имеют место (40) и (42); а с другой стороны, обозначая через Р'
вероятность неравенства
tol2bn - zi$n < 2n < hilbn + *i?>n,
(43)
имеем также
Рп<Рп+-Т,
(44)
ибо неравенство (43) выполняется, если одновременно6 выполнены (39)
и (40).
Но, каково бы ни было данное произвольно малое число е, можно
положить 1/г2 = е/2 и выбрать затем п столь большим, чтобы иметь (в силу
предположения, что lim (рп/Ь„) = 0, откуда lim (bn/Bn)— l)
1
1»{
<
Поэтому будет также
1 с
1* U
<8,
что и требовалось доказать.
7. Прежде чем перейти к общему случаю сумм зависимых величин,
мы изучим для большей ясности тот частный случай, когда достаточно
удаленные друг от друга величины совершенно независимы, и поста-
6 Мы основываемся на общем неравенстве (АВ) + 1^(/1) + (#), где (А)
и (В) вероятности каких-пибудь двух событий, а (АВ) вероятность их совмещения.
132
раемся, насколько возможно, расширить расстояние между зависимыми
членами, при котором предельная теорема (т. е. закон Гаусса) остается
приложимой. Как и раньше, мы все время предполагаем, для упрощения
записи, что отдельные члены х\ суммы Sn имеют a priori математические
ожидания, равные нулю, $kxi = 0. Мы обозначаем вообще через 9R'
условное математическое ожидание, которое может принимать различные
значения, смотря по тому, какие из событий реализовались. Докажем теперь
следующую теорему:
|Т^е о рема А) Пусть Sn = х{ + х2 + ... + хп — сумма зависимых
величин, обладающих следующими свойствами: 1) Вп = $b(S 2) > Мп\
где X > 2/з; 2) х\ и xi+g независимы, если g > Hn$\ 3) каковы бы ни были
уже известные значения некоторых величин Xi, математическое ожидание
\х1\* где k> i, остается меньше1 некоторого определенного числа L;
4) каковы бы ни были известные значения некоторых величин хи
имеем8 для k > i
Ж' (xh+i + ... + хш)* < Ng\ (45)
если X <^ 1, и
SR'(*fc+l + ... + xh+g)2 < Ngn^\ (45 bis)
если к^> 1. При этих условиях вероятность неравенства
п
<Sn<Zl VWn (46)
2i
1 f
имеет пределом, когда п бесконечно возрастает, —zzr-\e~zidz, если толъ-
ко9 q< X/2.
Действительно, разобьем члены х\ суммы Sn на группы следующим
образом:
yi = Xi + хг + ... + Xh, Щ = Xh+i -+- xh+2 + ... + Xh+h, )
уг = Xh+k+i + ... + x2h+k, w2 = x2h+w + . .. + x2h+2k, ! (47)
yi = S(Z-l)(b+ft)+l + . . . + ^(/i+ftj-ft, Mj = XKh+h)-k+i + • • • + ЯП) J
Где /с = я?гс есть целое число (что не уменьшает общности). При этих
условиях члены yi суммы
2/ = z/i + уг + ... + ух (48)
будут независимыми по преддоложению. Положим далее I = и,й, где б
положительное число, удовлетворяющее неравенству
0<6<X-2q; (49)
7 Легко проверить, что, благодаря этому условию, Ж 2, а приняв во внимание
условие 2), получим Х^1 + р.
8 В каждом случае достаточно того из двух неравенств (45) и (45bis), которое
является менее ограничительным, так как для А, < 1 (45) является следствием
(45bis), а для Х>1 наоборот.
9 М, Н ж N являются, по предположению, фиксированными постоянными.
133
тогда, полагая, что щ не содержит более к членов, очевидно, будем иметь
h + к> тг1"6 > h; (50)
кроме того, при п достаточно большом, h > к (так как, вследствие (49),
б < 1 — q). В таком случае получим
Sn = 2; + oi, (37 bis)
где ei = щ + и2 + ... + щ, и легко показать, что lim ^(о2)/Вп = 0.
П-*-оо
Прежде всего, так как величины щ являются независимыми, то
®(о*)<1к?С, (51)
где С = Vh — фиксированное положительное число; действительно, в силу
(27 bis),
3»(^)<[3R|a:JIF»<L'/«,
так что 3R (ц2) - 9R(si(/l+ftbfc+1 + ... + я^+ь))2 < /с2С Принимая во
внимание равенства к = #га<?, Z = я6, мы видим, что (в силу (49))
вп вп м
стремится к 0, когда п стремится к бесконечности.
Вследствие предыдущей леммы, наша теорема будет доказана, если
мы покажем, что предельная теорема пртгложпма к сумме 2/ независимых
величин у и Для этого найдем верхнюю границу для 3R/1 у3.1 и вообще
оценим сверху 3R' | #г-+1 + ... + Xi+g 13 при произвольном g. Рассмотрим
сначала случай X <; 1. Я утверждаю, что можно указать такую
постоянную С, что
Ж' | хш + ... + xi+g I з < Cg^K (53)
Предположим сначала, что g = 2s, где s — целое число. Неравенство (53)
справедливо для g = 1; достаточно показать, что если оно справедливо
для g, то оно будет справедливо и для 2g. Положим
Si = Xi+t + . . . + Xi+g] S2 = Xi+g+i + . . . + Xi+2g
и заметим, что, в силу (27 bis) и (45),
ЗЙЧ 5i + s2 Is < 3R' I 5j I + 3R71 5| I + ЗЗЙ7 I s^l I + ЗЖ' I s2s21 <
<2Cg3^ + 6Л^/'\
Поэтому неравенство (53) будет верным для 2g, если
(2С + 6Л^/А^ C(2g)3/*\
т. е. если
2С + 6Л^<23/'Ч7,
откуда
c>YiS^T- (54)
134
Такое значение для С допустимо, если X > 2/з. Наше утверждение
доказано, таким образом, для g = 2s. Перейдем к общему случаю, когда gi =
= 2$ + /, где / < 2е. Очевидно, что в приведенном выше рассуждении,
обосновывающем переход от g к 2g, мы можем полагать часть членов s2
равными тождественно нулю; следовательно, если g{ < 2g, a fortiori будем
иметь
SR'|si+1 + ... + Xi+gl |3 < C(2g)^ < C(2gl)^ = C2^(gi)-/->•;
поэтому 10 для любого g*
™,, 3iW^
«' I *w + ... + *<+* 13 < * * t . (55)
Т~~2^
z
Теперь легко видеть, что теорема Ляпунова прилождма к 2 У и ибо
1
2 Ж | Уг |3 < 4Zft3^ < ^n6+3A'(1-6V2, где Л — некоторое фиксированное
число, так что
2 з» i у? I
i A
1 < —— ^(l-W
стремится к 0 ъместе с \/п для X ;> 2/3.
Пусть теперь Я > 1 ж предположим, следовательно, что выполнено
условие (45 bis). В этом случае мы можем указать такую постоянную
С, что
W I хм + ... + xi+g 13 < CgbriM^-v. (ЪЪ)
Действительно, рассуждая, как выше, предположим, что Si и
52.удовлетворяют неравенству (56). Тогда из
Ж' I St + s213<3»'1 s31 + SR' I s31 4- 33R'1 5%21 + 33»' I s^ I <
мы заключаем, что неравенство (56) применимо также и к si + $2, если
(2С + 6^)^/?W-l)<C(2^)3^s№-1),
т. е. если
2С + 6ЛГ/--<23'*С;
поэтому, если g есть делая степень 2, достаточно положить
С>ЗЛГ^(1 + /2]Г. (57)
Как и выше, находим, что достаточно удвоить значение N, чтобы
неравенство (56) оставалось справедливым, каково бы ни было целое число g.
Поэтому существует число А такое, что
1
10 Если только множитель при £3М не меньше L; в противном случае его
следует заменить через L.
135
откуда
ЯЖ I Уг I 3
1 A
впз/> ^ м3/2 •
Таким образом, теорема доказана при обоих предположениях.
8. Важно заметить, что если условия теоремы А или теорем В и С,
доказанных ниже, выполнены, то справедливость этих теорем не
нарушается после того, как становится известным некоторое ограниченное
число членов суммы Sn, которая, следовательно, продолжает
удовлетворять закону Гаусса (для весьма больших п)\ мы покажем на одном
примере, что положения a priori и a posteriori могут быть совершенно
различными, если q > Я/2, и вообще предельная теорема не будет больше
применима ни a priori, ни a posteriori.
Рассмотрим т независимых испытаний, где вероятность появления
события Е равна 1/2; затем производится еще I испытаний, в которых
событие Е обязательно реализуется, если оно произошло при ггь-ж
испытании, .ц не реализуется в противном случае. Положим Хх = ±1, смотря
по тому, произошло событие Е онли нет в £-м испытании. Пользуясь
классической теоремой Лапласа, легко найти закон распределения
вероятностей для
Sn = Xi + х2 + ... -Ь хт + xm+i + .. . + хп,
где п = т + L Действительно, предел вероятности неравенства
2to V Т < Xi + '" + Хт < 2ti V Т
и
1 г
равен —=г\ e~t2 dt. Поэтому в случае, когда хт = 1, находим то же зла-
чение для предела вероятности неравенства
2ft
/»<,.-«< 2, /i
а в противном случае, когда хт = — 1, то же самое значение
соответствует неравенству
2U
у^<8п+1<2*1Ут-
Следовательно, замечая, что 59?(5„) = Вп = т, + I2 + 21, находим после
легких вычислений, что предел вероятности неравенства
ZoV2Bn < Sn < ZiV^n
paneir
1
\ е-** dt + [ е-*' dt] .
it to
136
где
io = z0 I/ , U
* m Vim
Поэтому необходимым и достаточным условием для приложимости закона
Гаусса является требование limZ/K>w=0. Таким образом, согласно
теореме А, этот случай имеет место, если I < Яло, где q < 1/2, и тогда
lim to = lim tQ = z0, lim £1 = lim h = Zi; наоборот, закон Гаусса более
неприложим, если / = п\ ибо тогда lim t0 + 1/"|/2 = lim *о — 1/Y2 =
= z0f2 и limJj + 1"|/2 = lim*i' - \/fl = z^2. В птом последнем
случае закон Гаусса, тем не менее, приложим a posteriori (после того, как
известен результат одного лишь m-го испытания). Но достаточно немного
изменить наш пример, введя новое, независимое от предыдущих,
испытание, которое так же влияет па I соседних испытаний, как т-а
испытание, чтобы закон Гаусса был 'равным (образом неприложим и поо^е
знания результата любого одного испытания.
Не углубляясь в более детальное изучение условий, необходимых для
приложимости закона Гаусса, рассмотрим одну схему, которая
соответствует условиям теоремы Айв первом приближении может быть
использована для интерпретации некоторых явлений природы. Пусть щ, и2,...,
небольшое число независимых величин и пусть
*\ = /l(Mi, Иг, ..., Mf), Х2 = /2(М2, ИЗ, -.., Щ+l), ...
. . . , Хп — /п(нл, ип+и . . . , UN)
п = N — t + 1 ограниченных функций этих величин; теорема А будет
приложила к Sn = an + ... + хп, если 3ft (xi+i + ... -f xi+g)2 является
величиной порядка g\ X > 2/3, каковы бы ни были предшествующие Xk,
и если число t переменных, от которых зависит каждая функция,
меньше rcQ, где Q < Х/2.
Предположим, например, что zt = и(щ + щ+i + ... + щ+t) принимает
значение +1 или —1, смотря по тому, является ли величина on = щ 4- ...
... + ui+t положительной или отрицательной, и х\ = 0, если а* = 0. Если
мы примем, что Ж (щ) = 0, ЗК(и?) = а, 3R | и?|< Ь, то предельная
теорема будет приложима к on для весьма больших t. При этих условиях
lira Ж (ап) = 0, limSR(^)=l, кроме того, ясно, что $ц(х&ь) = 0, если
б = к — i> t, ибо в этом случае ап и яь независимы. Для вычисления
lim драпай), когда 6 < f, предположим сначала, что б/t не стремится к 0;
в этом случае, как будет показано в главе III, a» и Oi+5 находятся в
нормальной корреляции, и так как
3R (Gidi+5) = SR (l£i+8 + . . . + «»•+*)2 = (* - бК
то коэффициент корреляции между on и аг+б равен (£ — b)/t и,
следовали
Вп
т
Ж.
т
- —
■ +
1
\ 2т
1
У 2т
137
тельно, предел вероятности того, что а. > 0 и о. > О, равен
It—ft\*
г i \[е 1_ ^~' ^ ^
«_ [i-(i-^)sin2e]p
-I/26 б2 J J
V^6/ - б2 Г* ae _ i_ г i i t-6
2я J*-(*-6)sin2e— 2L2 +"S gVF1^7372-J-
0
Поэтому, принимая во внимание, что вероятность неравенства о* > 0
равна 1/2, мы видим, что вероятность неравенства а 6 > 0, если известно,
что Oi > 0, имеет пределом
1 , 1 *-6 1 1 £-6
Pih = — Н arctg . = — Н arcsin . (58)
Теперь ясно, что когда б/t стремится к 0, то формула (58) остается
в силе и дает ИтР{6 = 1, ибо без всяких вычислений видно, что
Р\ь ъ = 1/2+ /(6), где /(6) убывает от 1/2 до 0, когда 6 возрастает от
0 до t. Поэтому окончательно при 6< t
ч. ~ , ч 2 t — б
lira 3Jc (XiXi+й) = —arcsin ,
я t
и асимптотически для весьма большого t имеем (каково бы ни было i)
t i
<m/ -J- i \2 2# V • m 2^ f • л
sjK (#г-+1 + ... + £;+£)z ~ — >, arcsin— \ arcsin xax =
Я л Z Я -J
m=0 0
Следовательно, если t = /г& (q<1), условия теоремы А (в частности
(45 bis)) выполнены, и Вп ~ тг1+о(1 — 2/я).
Мы имеем здесь пример, когда коэффициент дисперсии* бесконечно
возрастает вместе с п, ибо если бы величины х% были независимыми,
сохраняя значения ЗК.г* = 1, то мы имели бы Вп = п; следовательно,
коэффициент дисперсии равен n^2V~i — 2/я.
Чаще всего введенные выше функции х% = Д- зависят от всех
независимых переменных, но имеется одна относительно небольшая группа
переменных, влияние которых превалирует над влиянием других. Этот
случай будет изучен ниже. Известно, например, что максимальное
барометрическое давление за каждый день года зависит от очень большого
числа причин, но только давления в соседние дни зависят главным обра-
* См. «Т. В.», стр. 200. {Ред.)
138
зом от одних и тех же причин. Допустим, например, что по истечении
10 дней давления становятся независимыми друг от друга; точнее,
предположим, что в течение, например, 100 лет отмечается максимальное
барометрическое давление на каждый данный календарный день года
и вычисляется значение его медианы на определенный день каждого года
(скажем, на 1 января), причем оказывается, что если давление на 1
января некоторого года больше своей медианы, то это не влияет на значение
медианы 11 января или в следующие дни. При этих предположениях
должно обнаружиться, что в каждом году число дней, в которые
барометрическое давление превышает медиану, приближенно удовлетворяет
закону Гаусса, но, конечно, более или менее точное осуществление этого
не является доказательством правильности нашей гипотезы.
Перейдем теперь к общему случаю, когда все слагаемые Xi суммы Sn
связаны между собой.
9. Основная лемма. Пусть Sn = щ + и2 + ... + ип, 3R (Sn) = Вп,
3R (mi ) + 3R (иг)+.-• + 3R (ип) = Вп (мы предполагаем все время для
упрощения записи, что ЗК(иг-) = 0). Если, каково бы ни было множество
уже известных величин щ, и2, ..., Щ—i, отклонения, испытываемые
математическими ожиданиями и-х и и\, не превышают соответственно щ и рг-
и в то же время математическое ожидание I и? I остается меньше с,-, то
вероятность неравенства
z0 V~2Bn <Sn< zYWn (46)
имеет пределом
—— \ е~* dz,
in J
если
n n n
2 a* 2p* 2*
1 1 1
стремятся к 0 вместе с 1/п.
В дальнейшем мы будем говорить для краткости, что величины щ
являются почти независимыми, если они удовлетворяют условиям
настоящей леммы.
Приступим к доказательству. Установим сначала, что
lim !=- = 1. (59)
ДЛЯ ЭТОГО ПОЛОЖИМ Sm = иг + . . . +• Um, Bm = Зй (5^), BmT=
== ЭД (и2 + . . . + 3R (и2т) при т = п. Имеем
Вт = В т + 2Ш [SiU2 + S2UZ + . . . + Sm-iUm]; (60)
но, очевидно,
I Ж (Sm^um) Kam8l| Sm-i | С amV'Bm-i < a« У Вп„
139
где щ есть значение т, для которого Вт достигает максимума.
Следовательно, равенство (60) может быть представлено в виде
т
Вт = В'т + 2&1Ж,'2>ак, (61)
2
где I 6 I < 1. Полагая т = п и деля обе части на Вп, получим
п
где гп стремится к 0 вместе с 1/л, ибо 2 о.к/(Вп)Чй, по предположению, стре-
2
мится к 0; полагая же, с другой стороны, т = щ и деля обе части (61)
на Вп0, получим
1=4^+^ (бз)
где бп стремится также к 0, ибо ВПо > Вп. Из (62) и (63) заключаем, что
l = -jf- + Zn
- /" #п0
еп|/ Х(1-еп) '
и т,ак как ВПо ^ 5„, то, тем более,
где еп стремится к 0, откуда ншоаредственсао следует, что
lim -|^=1. (59)
Положим теперь ук = —=- и вычислим
У2Б'
(т
*2уА
е i J (64)
для т <; /г и I £ I < Л*, где -/V — некоторое данное, сколь угодно большое
число. Для этой цели заметим, что, каковы бы ни были у и Уг, • • •, Ук-и
всегда
Ж (е*Ун) = 1 - —1Д |2 + ЙА? (65)
14D
гче
а А — некоторая постоянная, зависящая только от N. Но если две
величины х и z связаны каким-нибудь образом так, что когда х принимает
определенное значение, математическое ожидание z становится равным
Я -г б (х), где R — постоянная, то
3R(zz) = R®l(x)+W(xd{x)). (67)
Следовательно, если I х I < С и I 6(x) I < е, получаем
13» (xz)-RW(x) I <гС. (68)
Прилагая это к вычислению Gm, мы выводим, следовательно, из
(64), что
7П—1 0
Gm = Ц е * e«v» J = Gm_,^ i ^-L g2 J + Ymi (69)
n
где I ym I < rim-
Рекуррентное уравнение (69) непосредственно дает значение Gm
т
Gm = Em + Em^-^-, (70)
i Eh
где
"-(i-^O-f*-^)- <71)
Но замечая, что \Em/Ek\ < 1 три т 5? /с и 2 Iy*I стремится к 0 вместе
i
С 1/7Z, МЫ ВИДИМ, ЧТО
m
|Gm-£m|<SJYfe| (72)
i
тоже стремится к 0, каково бы ни было т ^ п.
С другой стороны, беря логарифмы от обеих частей (71) при к = щ
легко проверяем, что
lim Еп = e-V/* (73)
7l->00
и, следовательно, также
Km Gn = e-W*. (74)
Поэтому вероятность неравенства
z0 У2В/ < 5n < «i i2Bn' (46 bis)
Ш
1 г
имеет пределом (вследствие теоремы п. 3) —=.] e~z'dz и, благодаря (59),
можно заменить в (46 bis) Bn через Вп, что и требовалось доказать.
Замечание. Прежде чем перейти к приложениям доказанной
леммы, заметим, что она может быть немного обобщена следующим образом:
заключение леммы остается справедливым и в том случае, когда условия
ее перестают соблюдаться при некоторых значениях и&, имеющих
вероятности Eh такие, что 2 е& стремится к 0 вместе с 1/тг. Нужно, конечно, чтобы
все рассматриваемые математические ожидания были вычислены при
предположении, что ни одно из этих исключительных значений не реализуется;
возможно даже, что без этого предположения некоторые из
математических ожиданий не имеют смысла (см. конец п. 5).
Действительно, вероятность рп того, что но крайней мере одно
п
из исключительных значений реализуется, не превосходит ^£к] поэтому
1
совместное осуществление этого факта и неравенства
20 VWn <sn<Zi YW~ (46)
имеет вероятность, стремящуюся к нулю вместе с 1/п, и вероятность a priori
неравенства (46) имеет, следовательно, тот же предел, что и вероятность
его выполнения с одновременным неосуществлением исключительных
значений, т. е.
1 Г 1 Г
lim (1— Рп)—.— \ e~z2dz = —~\ e~z2dz.
2-0 2о
10. Теорема В. Пусть Sn = х^ + х2 + . .. + хп — сумма зависимых
между собой величин, обладающих следующими свойствами: 1) $ft (£^ гг-
= Вп > Мпх, где X > 2/з; 2) каковы бы ни были уже известные величины
Xk, можно фиксировать число L так, чтобы для i > к математические
ожидания I х\ I оставались меньше L; 3) при тех же условиях можно
фиксировать число N так, чтобы выполнялось одно из неравенств п
9R'(z»'+i + ... + xi+gy<Ngi
или
W(xi+i + ... + xi+8)*<Ngn*<-i,
каково бы ни было g\ 4) при тех же условиях, для i — к> п<*, где Q < Я/2 —
положительное фиксированное число, изменение математического ожидания
11 Для Х^1 первое из этих неравенств менее ограничительно; для Х>1
второе неравенство менее ограничительно. Можно также заменить эти неравенства
несколько более общим условием, заключающимся в том, что вьгаолняотся одно
из неравенств
ЗЛ'(*,+! + ... + *«+,)* <ЛШЯ( *
п
W'{xi+i + ... + xi+e)*<NBnl g
п
142
xi не превышает 1/тги, где \i > 1 — Я/2, и если, кроже того, у — к > /г*, го
изменение математического ожидания произведения х{х^ не превышает
1/?г2~Л При этих условиях вероятность неравенства
ZoVWn <Sn<Zi V2Bn (46)
1 r
имеет пределом —=г \ e~z*dz.
Доказательство аналогично доказательству теоремы А, только вместо
сведения Sn, после исключения некоторых слагаемых п надлежащей
группировки оставшихся, к сумме независимых величин мы заменим теперь Sn
суммой почти независимых величин. Для этой цели положим
г/i = Xi + хг + ... + xh, щ = яЛ+1 + ... + х/1+А> ]
г/2 = ^Л+ft+l + . . . + Л2Л+Л, Щ = X2h+k+i + . . . + ^2/i+2/c, | ,,п*.
\ (47 bis)
I
IJl = ЛГ(/~1)(/ц-Л)+1 + . . . + Xi(h+k)-h, Щ = ^(/i+fc)-/i+t + . . . + Xn, J
где, как и прежде, к = п^, I = n6, h -\- к >?г1_6 > /г, при 0 < 6 < А, — 2ц
и h i> /г, и присоединим еще неравенство б < ft. Тогда
Sn = Zi + fij, (37 bis)
где 2z = г/i + ... + уи Oi= щ + ... + щ. Замечая, что 3R {и?)< k2Ul*
/ Ui I \ £2Z>
и I 3R (u^i) I < к$81\ | < мы заключаем, что
v " \ п» ) п*
l2k2Lxl*
v l n* v '
Поэтому
Ш {6l) < А [7гб+2о-А + тг2б+2с-^->-] (78)
при некотором постоянном А, и отношение $ft (coffin стремится к 0
вместе с 1//г, так как б < I — 2q и б < ц. Следовательно, в силу леммы 12 п. б,
наша теорема будет доказана, если мы покажем, что предельная теорема
применима к 2/. Достаточно, таким образом (п. 9), проверить, что
величины yi являются почти независимыми. Для этой цели замечаем, что
изменение ®'(#г)> когда некоторые из предшествующих величин у становятся
известными, не превышает а* = hjn^\ поэтому
i
J7=<-7=ni-»-w (77)
VBn VW
12 Из этой леммы следует также, что
2
lim = 1.
П-*-оо -On
143
2
стремитсяк О.При тех же условиях изменениеЗК'^) не может превзойти
рг- = /&2/^~Л, так что
i
1 <-£U- i
Вп Мп* Мп*
равным образом стремится к 0.
Остается показать только, обозначая через с* максимум 3R' | у\ | ,
когда некоторые из предыдущих членов становятся известными, что
limT^ = a
Для этого замечаем, что на основании рассуждения, совершенно
тождественного расюуждешш п. 7, можно фиксировать постоянную С так, чтобы,
каковы бы ни были i и g, имело место
Ж'1хж + ... + zl4* 13 < Cg3/* |
или (78)
9R ' I хш + ... + *;+* I 3 < Cgtm*W-*\ J
смотря по тому, будет ли Я^1 или Я > 1; поэтому, в частности, например,
при первом предположении
d < Ch'M < Cn'W1-*),
откуда
i
2*
С С
стремится к 0 вместе с 1/л, если Л, > 2/3; теорема, таким образом,
доказана.
11. Рассмотрим следующий пример. Игрок А повторяет большое число
п раз безобидную игру, так что в каждой партии его алгебраический
выигрыш xi имеет математическое ожидание 3R (xi) — 0. Мы полагаем,
что различные игры отличаются друг от друга только ставками и именно
следующим образом. Пусть uj, xii, ..., ut — возможные значения
алгебраического выигрыша Xi в первой игре и положим, что I u* I \J/L (i = 1,
2, ..., i). Тогда, по предположению, обозначая через рь. вероятность ра-
k
венства Xi — uk, имеем $fl(xi) = 2^рш = 0; пусть Ж (х2) = Ьь Мы пред-
1
полагаем, что если в первой игре алгебраический выигрыш принял
определенное значение х\, то в следующей игре рк представляет вероятность
равенства хо = щ(1 + e^i), где е — положительная постоянная,
удовлетворяющая неравенству г < 1/(2L). Когда результат х2 второй игры также
известен, ph в третьей игре является вероятностью алгебраического
выигрыша хъ = uiji 4- гхп 4- (e/2)xi) и так далее; вообще, в (i + 1)-й игре,
после того как пявестпы значения xt4...,xt, ри представляет вероят-
1.44
ность алгебраического выигрыша xi+i = uk(l + гХ{ + (e/2)^z_i + ... +
+ (e/21_1)^i). Очевидно, что не только a priori, но и каковы бы ны были
результаты предшествующих игр, 3R (х{) = 0 и Ж (х.х.) = о для i ^ /.
С другой стороны, условие е< 1/(2£) обеспечивает, что знак выигрыша
Xi+i тот же, что и у ик, каковы бы ни были результаты предшествующих
игр (которые, таким образом, могут только увеличить или уменьшить
ставку игрока А в некоторой пропорции, смотря по тому, насколько была
к нему до этого благосклонна фортуна; влияние этих отдельных
результатов уменьшается в геометрической прогрессии по мере того, как
продолжается игра).
Действительно, пусть i — наименьшее значение индекса, при котором
множитель 1 + ext + (е/2)яг-_1 + ... + (e/2i_1)Xi = а становился бы
меньше Уг; по предположению, сумма (Тг'-1 = 1 + exi-i + ... + (е/2£-2)я1
для тех же значений хи хо, .. ., x\-i будет положительна; поэтому а*
принимает наименьшее возможное значение, когда х\ получает свое
наибольшее возможное отрицательное значение, что соответствует uk = — L, т. е.
при Xi = —L(l + £X{-i + ... + (e/2i~2)xi) = — Ldi-i] принимая во
внимание тождество
1 1
ст; = — о-£—1 + — + гхи (80)
мы заключаем, что для выполнения неравенства Oi < 4/г должно было бы
быть
e*,~g«>,
что невозможно, так как х-, < 0 и s — 1/ (2L) < 0; следовательно, каково
бы ни было i, Gi^l/o. Легко видеть, что математическое ожидание a priori
3R (а;?) = Ь{ определяется рекуррентным соотношением
bt=>bi(i + e2bi-i + ... + -£ТЪЛ
откуда сначала получаем
Ъм = bJ 82bi + -j) +-^bt
и, наконец,
bi^br
3 _ 4e2bi [ e2bt + —
i-i
• 4e2bi
Вследствие условия е< 1/(2L), bt ограничено сверху своим предельным
значением при i = оо, _ * ■-, ибо тем более е < — у --,
Математическое ожидание квадрата полного выигрыша равно поэтому
i_(82b1 + _L)n
Sot
•e2bi-
■АгЩ (3-4e2bi)2
г
Ю О. Н. Бернштейя 145
и асимптотически
В ~ Зтг&1
а ~ 3 - 4e2bi'
(О
Чтобы показать применимость теоремы В, вычислим еще Ьг+5 =
= $%'(х2 ) в предположении, что xt, ..., #г приняли определенные
значения х° ..., х°.\ из рекуррентного равенства
6g. -6,(1 + e^a-i + .. • + ^Ь& + ^ (*?)2 + •. • + ^г (*0«)
как и раньше, выводим, что
1 V-1
3 -С I 82&t + ,
Oi+s = Oi -
3 - 4e2Oi
где С определяется из уравнения
Но, в силу (80), легко видеть, что Х{ ограничены сверху значением
L/(l — 2е£), откуда вытекает, что С равным образам ограничено и,
следовательно, bi+s — bi+s убывают вместе с возрастанием 5, как члены
некоторой убывающей геометрической прогрессии, т. е. даже
значительно быстрее, чем требуется пашей теоремой. Условия 2) и 3) теоремы,
очевидно, выполнены. Поэтому можно утверждать, что вероятность
неравенства
2i
1
имеет пределом
-4л в-*&.
-j/jt у
12. В качестве второго приложения нашей теоремы мы докажем теперь
одну теорему Маркова. Напомним определение испытаний, образующих
простую цепь, введенное знаменитым русским математиком.
Пусть дана последовательность испытаний, в каждом из которых
происходит событие Е или противоположное ему событие Е.
1. Событие Е в к-тл испытании имеет вероятность а> priori pk
(вероятность Е при тех же условиях есть #а = 1 — ръ).
2. В случае, когда известно, что событие Е произошло в /с-м
испытании, но ничего неизвестно относительно результатов следующих
испытаний, вероятность события Е в (к + 1)-м испытании получает значение
р[ (отличающееся, вообще говоря, от вероятности a priori рь+i), которое
не зависит от результатов предыдущих испытаний, известны они или нет.
Точно так же, если событие Е не произошло в /с-м испытании и неизвест-
146
но ничего относительно следующих испытаний, то событие Е в (к + 1)-м
испытании получает новую вероятность р'' каковы бы ни были
результаты предшествующих испытаний (первого, второго и т. д. до (к — 1)-ю
включительно). Противоположное событие получает, очевидно, при каждом
из обоих предположений соответственно вероятности
Sft+i = 1 - p'h+i и q"+i = 1 - pi+i.
При этих условиях мы говорим вместе с Марковым, что
рассматриваемые испытания образуют простую цепь.
Ясно, что вероятности a priori ръ, связаны с условиями вероятностями
Pk и pk общим соотношением
Pk+i = PkPk+i + QkPk+u
или, полагая рк — ръ. = о&,
//
Pk+i = Pkbh+i + Pk+i = — qhbh+i + Ph+u (81)
откуда
Pk+i = Pk+i — PkSk+i, Pk+i = Pk+i + Qk&h+l.
Обозначим вообще через Pk+s вероятность наступления события Е
в (к + s)-m испытании, если известно, что оно произошло в к-м
испытании, но ничего неизвестно об испытаниях, следующих за ним; аналогично
обозначим через Pk+s вероятность наступления события Е в (к + s)-u
испытания, если Е не произошло в ft-м испытании. Таким образом, в част-
НОСТИ, Ph+i = Pk+i, Pk+i = Pk+i-
Имеет место рекуррентное соотношение
Р& = Pfl-iSk+s + Pk+u (82)
аналогичное (81) с заменой к + 1 через к + s; вычитая таким образом
измененное (81) из (82), получаем
Pk+s — Pk+s = 0/H-s(*Vfs-l — Pft+s-i) ,
отсюда непосредственно следует
p(k+s — Pk+s = bh+ibh+2... &k+sqk (831
и аналогичным образом
JPJS. - pfe+s = - S*+16*+2... bk+sPk- (83 bis)
Положим s< = Xi — pi, где X* получает значение 1 или 0, смотря по
тому, произошло ли Е или нет в £-м испытании. Тогда Щх{) = О,
$fl(x2i)=piqi и для i<k
3» (XiXh) =Piqi[qkP? -PkH-P?) +pfc(l-^°)-«*A°]-
= РЙ*б*+1.-.в*. (84)
147 10*
Поэтому
#n =»g» (xi + X2 + ...+ ^)2 = pigi(l + 262 + 26263 + ... + 26263... 6n) +
+ P2Q2(1 + 263 + ... + 263... бп) + ... + pnqn> (85)
Марков изучил случай, когда можно указать такие два числа Ро и ро,
чтобы для всех i имели место неравенства
О <Ро< Р\<Ро < 1; Ро<р" <*V (86)
Друглми словами, после того, как известны результаты предшествующих
испытаний, событие Е в следующих испытаниях не должно быть ни
достоверным, ни невозможным, и вероятность его не должна даже
приближаться бесконечно близко к 0 или 1. Пока мы ограничимся случаем,
когда выполняется это предположение Маркова, оставляя обобщение для
дальнейшего.
Непосредственно замечаем, что предположение (86) влечет за собой
Po<Pi<Po и 1бг1 <Л)-Ро = 6<1 (г>1). (87)
Следовательно,
В" < -7- -тЧ - *п' (88)
4 1 — 6
и вообще
Ы(хш + ... + xi+8)2<Ng. (89)
Но для приложимости теоремы В мы должны обнаружить еще
существование числа М такого, что
Вп > Мп.
Для этого мы представим сейчас Вп в замечательной форме, указанной
Марковым. Положим
2V-! = 1 + 6* + 6кЬш + ... + 6k&k+i... Sn, (90)
так что
Ты = 1 + ЬкТк; (91)
следовательно, замечая, что
1 + 26* + 26fe6fe+i + ... + 26fe6№... Sn = 2Vi - 6 A,
можем (85) представить в виде
Вп * Pi?i(^i - &Т\) + р2Я2(Т1 - 6*зГз) + ... + Pn~iqn-i{T\-i - ь\Тп) +
+ РпЧпТ\ - Т\ Ai + Т\ Д2 + ... + ГПДП, (92)
где
Л* « рпЯн — fiftPfc-ifffc-i (fc = 2, 3, ..., л) (93)
и
Ai = pi«i.
148
Но, в силу (81),
pk+iqh+i = (pkSk+i + Ph+i) (Qkbk+i + qi+i) =
= 8h+iPkqk + bk+i(phqh+i + Ph+iqk) + Pk+iQk+i
и аналогично
= 8k+iPkqk — 6k+i(phPh+i + Qkqk+i) + P/i+i?M-i.
Поэтому
Aft = 6k(Pk-iq'k + Pkqk-i) + p'iqi = - 6* (pA-ip£ + ?a-i?a') + p£?* (94)
является во всех случаях положительной величиной и, более того, в силу
(86),
Afe>Po(l — Ро). (95)
С другой стороны, из (91) получаем
т2^ + т\ = 1+ 2bhTk + (1 + Й)гЬ~ >ГТЖ- (96)
Поэтому
„ ^ро(1—Ро)
^жтщ"- <97>
Замечая, наконец, что при к — i^ \/п* (ще Q < Уг) значения 3R/(a;fe),
соответствующие различным определенным результатам i первых
испытаний, не разнятся более чем на 6Г2Р и что ов тех же условиях, при к — £ ^
^ 1/яв и Z — i > 1/wQ, то же имеет место для изменений 9R (сад), ибо беи
труда проверяем, что если событие Е произошло в i-м испытании, то
ЯК'(зд) = pkqh8k+i... б/ + qi{qk - pk)8i+i ...6h...6i (где /b< Z), (98)
ив противном случае
W(xhxi) = pkqk6k+i ...6i + Pi(Pk — qh)bi+i ...bi (98 bis)
мы видим, что теорема В применима и получается, таким образом,
Теорема Маркова. Если в простой цепи испытаний условные
вероятности рг. и р". удовлетворяют условиям (86), то вероятность того,
что число m появлений события Е при п испытаниях удовлетворяет
неравенству
ZoV2Bn <m-(pi + ... + pn)<zi VVBn, (99)
2l
1 Л
имеет пределом —=- \ e~z* dz, когда п бесконечно возрастает.
13. Метод, который мы применили для доказательства теоремы
Маркова, позволяет значительно ее обобщить. Мы ограничимся сначала про-
149
стыми цепями и постараемся только заменить условие (86) менее
ограничительным условием. Для этой цели предположим, что 13
16<1 <1--^, (ЮО)
па
где а — некоторое положительное фиксированное число (условие (100)
будет, очевидно, выполнено a fortiori, если I 6* I = 1 — Ci/ia, где С{ —
положительные, ограниченные снизу числа). Принимая во внимание (84) и
(98), мы видим, что при к — i^nQ, I — i^n^, k^Zl, изменения 9К(£л),
sjR (xkXi), каковы бы ни были результаты i первых испытаний, не
превышают
т. е. выполнено условие 4) теоремы В, если a<Q<l.
Мы приходим, таким образом, к первому обобщению теоремы Маркова:
Если I бг | < 1—1 / па (а < 1), то вероятность неравенства
z0V2B^<™-(Pi + ... + PnXziVWn (99)
имеет при п —+ °° пределом
in J
при условии, что Вп > Мп*-, где Я > 2а, к > 2/з, и что 3)l'(#f+i + . •.
... + X{+g)2 меньше (каковы бы ни были результаты предшествующих
испытаний) наибольшего из чисел aBng/n и aBn(g/n)'K, где а — некоторое
положительное фиксированное число.
Действительно, при этих условиях можно удовлетворить двойному
неравенству
a<Q<^-. (102)
Рассмотрим несколько случаев, когда эти условия выполнены.
Предположим, что существует такое положительное фиксированное
число Ъ, что u
13 Ничего не изменится в рассуждениях, если 1//г« в (100) замонить на с/пъ,
где с — некоторое положительное фиксированное число.
14 Неравенство (103) будет выполнено, если, например,
1 1
Pi>: - И — Pk6k + l^:Pk + l^Pk(l —-^A + i),
Z Li
It 1 ~ бЛ + 1
в частности, если Pk+i= ; в этом последнем случае имеем lim рЛ = 1/2,
2 к -+ о©
1 1
так что lim = —, и если, сверх того, pi = 1/2, то для всех значений к будет
п + оо П 2
Pk = 1/2.
150
и пусть
^РгЯг > Ъп,
i
с 1
1а Па
(103)
(104)
где с — данная постоянная (для упрощения записи мы считаем с = 1).
При этих условиях предельная теорема применима, каково бы ни было
а<1.
Действительно, в силу (104),
6г- + 6Л--Ц + . . . + в» . . . ЙЛ >
>(*e-i)
['-Ю
I \n-i+i
>у(*а-1),
(105)
если ia< n — i-a, тем более, если i^n—na. Поэтому (вследствие (85))
но, в силу (103),
Вп> 2 PiQi(i + l)a;
1 b
(106)
откуда (вследствие того, что piqi < 1/4)
Д
Но, с другой стороны,
п> 2 (^+1)°>х5 ^^ = 4т^—г = ^1+а- (107)
1-
4(1 + а)
1
б,- + 6j6i+i + . . . + 6i . . • 6n <
Па
na ■■ — 1.
(108)
Следовательно, замечая, что после осуществления Е ъ им испытании
а<к),ъ силу (98),
W(xh+i + ... + xh+g)z =
= \pk+iqk+i + qi (qk+i — Ph+i) <5i+i... 8k+i] X
X (1 + 26ft+2 + . . . + 26ft+2 . . . 6h+g) +
+ [ph+zqh+2 + qi (qh+2 — pk+z) 6i+i... 6ft+2] x | (109)
X (1 + 26ft+3 + ... + 26ft+3 .. . bh+g) + ■■■
+ \Pk+gQh+g + Qi(Qh+g ~ Pk+g) бг+i • • • bk+gl )
заключаем, что, каковы бы ни были предшествующие ^обстоятельства,
Y(xh+i + ... + Xk+g)2<-7:gna.
(110)
151
Соотношения (107) и (110) доказывают справедливость нашего
утверждения. Важно заметить, что в рассмотренном случае вероятность
неравенства
т
2р*
п
<г
стремится к 1, сколь бы малым ни было е (говорят, для сокращения, что
приложим закон больших чисел), но коэффициент дисперсии * бесконечно
возрастает. Наоборот, как я показал в другом месте15, если бы в (104)
•было а > 1, то закон больших чисел не мог бы быть приложим; так как в
этом случае Вп имеет порядок тг2, то ясно, что закон Гаусса тоже не мог бы
быть приложим к z = т/У2Вп, ибо z было бы ограничено.
Предположим теперь, что все 6* отрицательны или, более общим
образом, что отрицательные значения 6* встречаются периодически.
Ясно, что при этом условии сумма вида 6* + бгбг+i + . .. будет необходимо
ограничена; поэтому можно так выбрать постоянную 7V, чтобы при всех
обстоятельствах
Таким образом, при указанном условии предельная теорема будет при-
ложима при а < 1/2, если
Вп > Мп,
где М — постоянная.
* См. сноску на стр. 138. (Ред.)
15 «О эаконе больших чисел» [3]. Эта работа содержит доказательство и
некоторые приложения следующей теоремы: пусть А\, ..., Ак, ..., Ап — последовательность
каких-нибудь событий с априорными вероятностями, соответственно, pi, ..., р*, ..., рп;
пусть рk и р\ — вероятности Ak, когда известно только, что Ал произошло (или
не произошло) (i < к). Для того чтобы для произвольно малого 8 вероятность
неравенства
т Pi + р2 + ... + Рп
<г
стремилась к 1 при л —►■ ©о, необходимо и достаточно, чтобы для произвольно
малого а можно было выбрать п столь большим, чтобы
PiQi
i + i
ZiPh
<а,
каково бы ни было i<Zn.
Б частности, в случае простой цепи, если б* = 1 — 1/к, закон больших чисел
будет приложим или нет, смотря по тому, стремится ли piqa к 0 или нет, когда
i—>-оо, и он наверно не будет приложим, если б* = 1 — 1/&а, где а > 1.
152
В частности, если существует фиксированное число 6 < 1, такое, что
I бг I < б, то предельная теорема остается приложимюй, если 16 даже p'k = О
для всех значений к, лишь бы только ри > Ъ > 0.
Укажем также, что если 6* = — (1 — 1 I па), где а < 7з, то предельная
теорема будет приложима, лишь бы только было р\ > А/па, q" > А/па,
где А — некоторое фиксагрованное число. Действительно, принимая во
внимание (92), (94) и (96), можем указать такое число А/, что
Вп > Мп^а.
Но, с другой стороны, преобразовав (109) таким же образом, как и (85),
мы можем написать
W(xk+i + ... + хш)* = Д^ (№)+1)2 + ... + А;+, (Tf+g )*, (92 bis)
где
^М-1 = ^ + ^*+2 + б^+2б^+3 Ч- . . . + 6fc+2 . . бь+g
Д^+1 = Pfe+i Qk+i + qi{qk+i — Pft+i) 6i+i.. . 6ft+i,
А^+л= Ak+h + Qi 6i+i . . . 6fe+h [qh+h — Pk+h — bk+h(qk+h-l — Pk+h-l)].
Поэтому, так как теперь Т№ < 1, будем иметь
2B-i
№'(xk+i + ... + xh+g)2 <Pk+gqh+g + —ri2 Pk+hQh+h +
£—1
+ gi6f+l ... . &k+g(qh+g — Ph+g) H - 2j ^*+A * • * ^h+h (^+h ~'
g-1
a
-pft+h) <2+-|<4^-a.
na
В дальнейшем мы еще вернемся к этому вопросу, но нам будет полезно
предварительно доказать одну общую теорему, аналогичную теореме В,
условия которой будут в некоторых случаях более удобными для
приложений.
14. Теорема С. Пусть Sn = х^ + х2 + ... +• хп — сумма зависимых
величин, обладающих следующими свойствами:
1) вп = W(Sl) > Мп\ где К > V2;
2) каковы бы ни были уже известные значения некоторых величин я&,
можно указать такие числа Lq, что для i > к математическое ожидание
1^1» где q — какое угодно целое число, остается меньше Lq\
3) если, кроме того, \ i — к I > п<*, то изменение $ft'(Xi) не превышает
e~n%, где г -— данное сколь угодно малое положительное число, а изменение
^ '{XiVi) не превышает 1 / п2~х, когда i — к > п$, j — к > п<*.
При этих условиях предельная теорема приложима к сумме Sn, если
только q <C (2X — 1)/3.
16 Действительно, тогда qn =1 + б*; поэтому из (94) следует, что Дь>&(1 + б/0>
поэтому
пЬ (1 -б)
Ва>
2 (14- б2)
153
Метод доказательства остается тот же, что и для теоремы В. Таким
образом, сохраняя прежние обозначения, найдем аналогичным образом
(полагая б < А, — 2q) , что
__1 J
VBn и Вп
стремятся к 0 вместе с 1/п; только вместо непосредственного
доказательства того, что
lim—т^~=0,
мы покажем сейчас, что для достаточно большого q
lim -J—-5 = 0, (111)
что будет достаточно, в силу замечания, сделанного в конце первой главы
(вследствие неравенства (28)).
Для этого заметим, что
Ж (У г9 ) = 2. $1 (Ха ХЬ ' • • ^т) ' ( 4'12)
где а, Ь, ..., т — произвольные 2q чисел, заключенные между
(I — 1) (h + к) и i(h + к) — к + 1. Рассмотрим произведение хахъ ... хт,
где а^6^...^/тг. Может представиться два случая: 4) по крайней
мере один из индексов / обладает тем свойством, что I / — f I > rcQ для
любого из индексов f других множителей рассматриваемого произведения;
2) ни один из индексов этим свойством не обладает. В первом случае
I S» (Ха ХЬ . . . Хт) I < Uq-l Г" ; (ИЗ)
во втором случае
I ЩхаХЬ . .. Хт) I < L2q . (114)
Чтобы получить произведения второго рода, можно произвольно
выбрать возрастающую последовательность индексов /i, /3, ..., /2^-1 первого,
третьего, ..., (2q — 1)-го множителей; число всех таких возможных
выборов меньше ЬЯ\ затем индексы /г, Д, ..., fiq множителей, занимающих
четные места, должны удовлетворять соответственно условию fzk —
— /2^-1 < п$ или f2k+i — hk < raQ, ибо, если один из индексов /2ь не
удовлетворяет ни одному из указанных неравенств, то он как раз обладает
свойством, благодаря которому произведение относится к первой категории.
Следовательно, число произведений второго рода меньше (2hnQ)4; число
произведений первого рода меньше /&2<г. Поэтому, принимая во внимание,
что число перестановок индексов не превосходит (2q)!, мы видим, что для
154
достаточно больших п
3»(yf) < (2?)! [Lb-iW e~"' + L2q(2hnQ)*] < AqnV-*+M,
где Л^ — постоянная, зависящая только от q. Поэтому
2 «(к?) ,
п
и так как б можно придать положительное значение,
неравенствам
1 + Q — %<д<% — 2<>,
ибо
2А.-1
(115)
удовлетворяющее
3
то показатель при п в (115) будет отрицательным, если q достаточно
велико. Следовательно, при фиксированном q получаем
lim — = 0.
15. Приложение теоремы С к простым цепям непосредственно
приводит к новому обобщению теоремы Маркова:
Предельная теорема справедлива, если
1 11 1
— <р'.<1 , — <р"<1 , (116)
где а < Vs.
Действительно, из (94) следует, что
Aft = qk-i8k(p"h -q'k)+ P'kq'k = " P*-iWh- q\) + p"hq"h;
поэтому
*>? ('-;?) >*?-• <ш>
Следовательно, принимая во внимание (92) и (96), мы видим, что
п
,1—а
Но, с другой стороны, мы видели уже из (101), что изменение $&'(xk)
меоаьше е~пр_а, кашвы бы ни были (результаты i первых испытаний, если
к — i> n<>; то же самое имеет место и для $№'(#*), каковы бы ни были
результаты к~то испытания и всех следующих за ним17.
17 Обозначая через Pi вероятность наступления события Е в i-м испытании,
когда известно, что Е произошло в fc-м, имеем р&Р» = PiPh ; поэтому
Pi = — Pk — Pt 1 + в*+1...6д— ]
Pk \ Pk J
155
Таким образом, достаточно заметить, чтю при условии а < Vs
выполняется неравенство
2(1-а1-1
а<- §
Следует указать, что этот последний результат распространяется на
случай цепи Sn = #1 + #2 + ... + #п величин, каждая из которых
принимает I определенных значений ai, ..., аи причем, если Х{ определилось
(xi = ak), то вероятность Pf+i, л равенства £г-и = ал не зависит от
значений, принятых величинами х\, х2, ..., хы.
Предельная теорема приложила к такой цепи, если
— < Fi+i, л < 1 ,
па па
где а < Vs.
Как мы видели выше в п. 13, вводя дополнительные предположения,
можно еще расширить неравенства (116). Но .остается открытым18 вопрос,
можно ли вообще увеличить а в (116). Во всяком случае несомненно, что
предельная теорема может перестать быть приложимой, если а = Vs. Для
установления этого достаточно привести следующий пример:
Пусть pi = V2 и (а — положительное число)
1
V". = S' = —rr г если i< ril%,
г г an1/*
1
р' = q" = —г-> если i > л1/» + 1, >
1 г п1г [
1
p'f=p" = ^-7 если * = n!/» + i.
При этих условиях б »а = 0, так что множество п испытаний можно
рассматривать как две независимые цепи, первая из которых состоит из
п1Ь и вторая из п — п1!* испытаний. Если предельная теорема не была бы
приложима ко второй цепи, то это уже дало бы нам искомый пример.
Предположим поэтому, что, наоборот, предельная теорема приложима ко
второй цепи, так что, если обозначить через гпг число появлений события
Е во второй цепи:, вероятность неравенства
п
zoVW <mz- 2 pi<ziV2Br, (120)
(119)
4i
где
^n / n — nl,t \2 n*l>
и при тех же условиях
2Л{*«) = 6<+i... 6а < пае <е ,
Pk '
каково бы ни было р/ < q.
18 В более поздних работах {9] и [10] доказано, что иредельная теорема всегда
приложима при а < 7з-
156
имеет пределом
ч
Л=\ er*dz.
Положим теперь для упрощения, что число а в (119) бесконечно
возрастает каким-нибудь образом вместе с п. Тогда первая цепь
характеризуется тем свойством, что если событие Е произошло в первом испытании,
то всфоятность, что оно повторится во всех тг1/з испытаниях, имеет пределом
\ an* J = И
lime
1:
противоположное имеет место, если событие Е не произошло в первом
испытании.
Поэтому мы заключаем, что в первом случае вероятность неравенства
а во втором — вероятность неравенства
г- - ~- 2
1 3 Л
1 Г
имеет пределом —— \ е~г2 dz. Следовательно, вероятность неравенства
in J
3
ZoV n < m — < ZiV n измеет пределам
l
2УЛ LJ
^ е-*2 dz + ^ e~z
dz
U
где
t0 =
h Zo
2 3 1 _
2j/OV
J/T
^2
+ «iK2,
/2
Таким образом, при втором предположении вся цепь не удовлетворяет
предельной теореме. Можно поэтому утверждать, что верхняя грань
значений а в (116), для которых предельная теорема всегда приложила,
заключена между 7б и 7з. Мы оставляем эту тему, не вполне исчерпав
проблему обобщения условий (86) Маркова, которую знаменитый
математик формулировал следующим образом19: «Можно, конечно, поставить во-
19 А. А. Марков. Исследование общего случая испытаний, связанных в цепь,
стр. 5 («Записки Акад. наук», 25, № 3 (1910). 1—33). (См." предыдущую сноску, а
также работу [2i]).
157
прос об обобщении окончательных результатов и на те случаи, когда среди
чисел рй, 1 — ph и 6ft+i встречаются произвольно близкие к единице. Но
мы не будем здесь заниматься этим трудным вопросом, оставляя его
открытым для других исследователей».
16. Я остановился так долго на изучении цепей Маркова не только
потому, что они доставляют довольно редко встречающийся пример, где
входящие в вычисления точные формулы не очень сложны и позволяют
хорошо проникнуть в суть дела, но также и потому, что, как мне
кажется, имеется много явлений природы, которые можно математически
интерпретировать с помощью прямого или косвенного введения цепей,
аналогичных изучавшимся нами. Действительно, идея Маркова состоит в
исключении действия на расстоянии между последовательными испытаниями,
принимая, что их взаимозависимость проявляется лишь непосредственно*
через связь между соседними испытаниями.
Эта же точка зрения, соответствующая воззрениям современной
физики, принимается также в новых теориях наследственности, основанных на
теории Грегора Менделя; действительно, теперь при изучении
последовательных поколений принимают, что генотипическая конституция
потомства определяется только генотипическои конституцией родителей, так
что указание известных свойств прародителей нисколько не может
повлиять на предсказание свойств внуков, после того как генотипический
характер родителей вполне известен. Таким образом, мы видим, что
зависимость, которую мы имеем здесь, та же, что и зависимость в простых
цепях. Задача усложняется, но косвенно опять сводится к тем же цепям,
если рассматривается фекотипическая (внешняя) конституция, лишь бы
только были сделаны определенные предположения о соотношении
(выражаемом функционально с помощью коэффициентов вероятностей) между
свойствами генотипическими и фенотипическими. Но как бы велико ни
было поле приложений простых цепей и их непосредственных
обобщений 20, эта схема не может, как видно на примерах п. п. 8 и 11, включать
все естественно представляющиеся случаи.
Обобщая сказанное в п. 8, приходим к рассмотрению зависимых между
собой величин xt, х2, ..., хп как функций (которые не обязательно должны
быть хорошо известны) весьма большого числа m независимых величин 21
tzi, иг, • •., кт. Предположим для простоты, что величины щ, равно как и
функции Xk =■ A(tti, ... , um) и их частные производные dfh/ дщ,
ограничены по абсолютному значению. Предположим, кроме того, что Д
существенно зависит только от некоторой группы соседних между собой во-
личин щ, так что 9К I дхь, I дик I < е , 9R I duk I dxh I < е , если
I к — h I > п<*, где е — данное положительное сколь угодно малое число;
число Q в соответствии с теоремой С подчинено условию Q< (2% — 1)/3,
и предполагается, что Вп = 3R (х^ + х2 + ... + хп)2>МпКл Легко видеть,
что при этих условиях закон Гаусса будет приложим к Sn = #i +
4- ... + хп при бесконечном возрастании п.
20 А. А. Марков. Об одном случае испытаний, связанных <в сложную цель
«Изв. Акад. наук», 5, № 3 (1911), 171—186.
21 Для определенности предположим, что m = п.
158
Действительно, для выяснения приложимости теоремы С достаточно
показать, что каковы бы ни были значения Х{, колебание $R'(xk) не пре-
вышаст е п , где е' > 0, если только I к — i I > 2n%. Но приращение хк
равно
т д.
Axh = У, —— ДкЛ;
поэтому, в силу наших предположений,
i+nQ rif \ e
[©'(ж*)- ЖЫ| < |д»'( 2 1^Аил)| + 1те~П <
i—n
<(2n* + L)me~nZ<e-nZ ,
где L определенное положительное число и е' < е.
Рассматриваемый сейчас случай, в котором мы упростили, ради
краткости, предположения относительно функций Д, содержит, в частности,
цепи Маркова.
Пусть щ, Uz, ..., &ft, ..., ип последовательность незавпсимых величин
таких, что величина Uk может принимать только значения -Ы, 0, —1,
соответственно с вероятностями22 р&, 8h и Qk- Построим последовательность
функций
Хк = uk + (1 - uk)uk-i + (1 - и\) (1 - 4-t)^-2 + ...
--- +(1 — ил) --- (1 — «i)- (121)
Мы видим, что Xk может принимать только значения ±1; Xk — 1, если
Uk = 1 или если Uk = 0 и Uk-i = 1,. и т. д. Кроме того, из (121) вытекает,
что
Хк = ик+ (l-u2)Xfc-i. (122)
Следовательно, если Хь_1 = 1, то вероятность того, что Xk — 1, принимает
совершенно определенное значение Pk + б&, представляющее вероятность
того, что Uk = 1 или и* = 0; точно так же вероятность того, что Xk = 1,
когда известно, что Xk-i = —1, соответствует Uk = 1, т. е. равна р". Мы
видим, что эти две вероятности р' = р" + 6& и р" остаются теми же,
каковы бы ни были значения Х\, где i < к — 1. Достаточно, следовательно,
положить Xk = (Ха + 1)/2, чтобы Xk = 1 и Xk = 0 соответствовало числу
появлений события £ в &-м испытании некоторой цростой цепи с условными
вероятностями pk, Pk. Исходя из болаэ общего рекуррентного {равенства
Xh = Fh(uk, Xk-i), (123)
где величины Uk независимы и имеют произвольно заданные законы
распределения, можно построить общую простую цепь величин, в которой
вероятности различных значений Xk будут вполне определенными, когда
22 Здесь предполагается 6а >0. В случае 6а < 0 соответствующие вероятности
должны быть р', — 6а, qn и уравнение (122) заменится уравнением Xh = ик —
-(1-uMXa.i.
А
159
известно значение Xk-i. Рассматривая рекуррентные равенства порядка
выше первого, получаем сложные цепи соответственного порядка. Не
входя в детали, заметим только, что уравнение вида
Xk = Fk(uk, u,k-i, Xk-i)
уже не приводит к цепи; пример, изложенный в п. И, соответствует
именно этому случаю и приводит к уравнению
Г 1 / 1
Xk+l = Hfc+i - + Хк 8 + —
L 2 V 2и&
имеющему решением (при Хи = и*. — 0 для к < 0)
Xk
= —* 1 +(у + 8B*-i) + (^+8Вж)(т + 8Ufe~2 ) + •••
Глава III
ОСНОВАНИЯ ТЕОРИИ НОРМАЛЬНОЙ КОРРЕЛЯЦИИ
17. Мы начнем с установления одной предварительной теоремы,
которая является непосредственным обобщением теоремы п. 3 и может быть
распространена также аналогичным образом на какое угодно число
величин.
Теорема. Если две величины 2П и 2П, зависящие от одного и того
же параметра п, обладают свойством, что при любом фиксированном,
сколь угодно большом числе N и любом произвольно малом данном числе А
имеет место при | £ | < N, | г\ J < N и для всех достаточно больших п
неравенство
«2
4 gjl[e n n J-1
I <б,
то вероятность одновременного выполнения неравенств
£о <С 2n <C ti и to <C Zin <С t^
имеет пределом, при бесконечном возрастании п,
и и
(124)
(125)
lo to
Заметим сначала, полагая в (124) последовательно £ = 0 и т] = 0, что
каждое из равенств 2n = £о," 2n = tu Sn = ^o, 2n = £i имеет вероятность
(п. 1), стремящуюся к 0 вместе с 1/я. Из этого следует, что предел
вероятности Р одновременного выполнения неравенств (125) совпадает с
пределом математического ожидания
С =
4я2
Ж
Г pTsin(2In-
l-oo *- £
«о) 6 sin(2»-«1)g
X
I
sin(S»' —*о')Л sin(2«' —*i')t|
dlX
dr\
}■
160
Но, с другой стороны, в силу леммы п. 1, беря N и п достаточно большими,
можно сделать
Н S
sm(2„ - Ц)\
dl
N
ж
.-N Ч
■dx\
меньше всякого наперед заданного числа. Следовательно, принимая во
внимание
t г °°
sm(2n ~ t0) I °r sin (En - *о )ti
*S
dr\
т
sm(2„ — U)l
и другие аналогичные неравенства, мы заключаем, что предел величины С
совпадает с пределом величины
D
ы1 I J
siu(2n —*,,)£-sin(Z„-*i)«
dlX
с sin(Sn - ?о)л - sin(Sn — *i)"П
Л
•dt,} =
^i — ^o «. . ti — to f ti — to \ „
i < N N sin—— I sin ncos1^ —J 5
=^ЖП 5 ■—— x
Л- V. кг
-Л' -IV
/ v' ^1 ~ ^0
X COS Ln —
2
r1d|dr1} = -l^{S J
N N Sin- i-Sin "TJ
iri
X eK 2 2 ; <%
dr\].
(126)
Наконец, в силу (124), для достаточно больших п, D сколь угодно мало
отличается от
, jv jv few sin-1— -п—-1- sin
-ЛГ-ЛГ
имеющего 1[ределом
h — to^ . U — U 'л—5 +
■г] • е
,])
£л
d£ Дт],
с» оо _v+r^sm
■ip
£i + £<з с. Ji + £о «. . ^i — £о ti -\- to"
* • COS — g • SID. г Т] • COS Г\
—оо —оо
— \ \ e-W)dtdt'.
to to
d%dr[
*1 С. Н. Бернштейн
161
Мы выведем теперь отсюда основную теорему, играющую ту же роль для
теории нормальной корреляции, какую играет теорема Ляпунова для
закона Гаусса.
18. Теорема. Пусть (хи х\), (х2, х2), ..., (ап, хп) такие величины,
что Xk и x'k связаны каким угодно образом (хк может даже быть
совершенно определенной функцией от xk), но Xk и Xk не зависят от х\ и Х\ если
£*5g к\ пусть
Sn = Xi + х2 + ... + хп, ak=$ft(xk), bk = №(xk — ak)2,s
■ On = x[ + x2 + .. • + x'n, ah = 5K (x'k); bk = SR (xh — ak)2,
1111
6/i =® (% — ah) (xu — cik), Bn = 2 6*> д* = —:■
[ (127)
1 V^ndi
J5 гаком случае вероятность одновременного выполнения неравенств
wYlAn <Sn-Mn< hVZAn , )
\ (128)
?У% 2Сп <вп-тп< г'У'ЪСъ j
для достаточно больших п сколь угодно мало отличается от
U W t>+t'*-2Rnu'
1
= $ $ е >-< dtdt\
если только
п п
2jci 2j Ci
1* W^Ri-JA^ = Й [(1-rdc^ -°- (129)
где
с,- = 3R | я, - а{ |3, с/ = «R ( ж/ - а/ |3.
Мы можем свести общий случай к случаю, когда коэффициент
корреляции Rn — 0. Для этого достаточно положить
Ух = kXi + х/,
где Я = — В„/А„, ибо тогда
а* = Ж (г/,) = Ха{ + а/, р< = Ж (г/< - а,-)2 = Я,2Ь£ + 2X6; + W ,\ .,„,..
Y* = Ж (*г - в4) (г/г - о,) = *.Ь{ + бг-, ( (1Л°)
поэтому
/ <Д я'
Вп=^у{ = ХАп + Вп=0 и д;= _..!. =0,
1 iAnDn
ГДе [(131)
п 2
Dn =SP* = ^n + 2^Bn + Cn = A*C*~B" = (1 _ Л2п)^
i An
162
Таким образом, мы будем рассматривать две величины
п п
(132)
где
Uk =
%h — afe
VlAn
Vk
Vk — ak
Вычислим
7 = gR[6i(2nU2'nT|)]!==
= Ж[е^и&+ъ1Щ$Х[еЦи&+^2г\)] в ^ .gR[e?(w„H»r,n)]?
пользуясь тем, что (щ, Vk) не зависят от (щ, ьи) для z 5j /с.
Имеем
(133)
= 1 —
h Ук fa
Ып 2VAnDn 4Z>„
(134)
где в предположении, что Лт — данное произвольно большое число,
т
гк\< — Щ\ик\ + \ик\}3 (при |£|<Л', \n\<N);
%d\ch + Ск'
принимая во внимание, что
\X(xk — ah) + {Xk' — ah') I3
Ж | vh | = Ж
имеем, следовательно,
4Л"3
I Bfc К —Г
(2/;„)v.
<4
(2£„)3/*
Cft
(2Л„)3
+
4(|Я„|с* + Л
Wr
<
= з(4„)Н
4iV3^2
Cfe + 4-
(2ZM„2)%
| #„ I Cft + Л„Сй
[(1 - Rn)CnAnYi>
Ch . Ck
<
—+ —
[(1 - Rl)AnJi* [(i-Bl)Cn]
d
(135)
Из этого мы заключаем, что, каково бы ни было IV, можно взжь п столь
большим, чтобы было I eft I < q/2, где q — данное произвольно малое
число, и в то же время
Yft fa Q
Un 2VAnDn Wn 2
(136)
ибо 3R[Mbi + У^]2< {Ж | ик1 + vkr\ | 3}2/s. Поэтому мы имеем, в силу
(134),
gR[ef("fcHV)] = 1 + o-h, где I ah I < Q, (134 bis)
163 11*
так что
ln/ = ln(l + at)+ ln(l + (Т2) + ... + ln(l + a„) =
= CTi(l + Qi) + . . . + On(l + Qn),
где | qa | < q .Следовательно,
i2 + л2
ln/= -b , ' + e, (137)
4
где е стремится к 0 вместе с 1/п.
V+i\2
Отсюда следует, что при | £ | < iV, | т] | < -^ е 4 I стремится к 1,
когда п бесконечно возрастает, и, в силу теоремы п. 17, вероятность
одновременного выполнения неравенств
п п
h< ^2}iik< tu zQ<^vk<Zi (125 bis)
i l
для достаточно больших п сколь угодно мало отличается от
т\\
to Zq
п п
Рассматривая г = 2иьП2 = 2г;ь как абсциссу и ординату некоторой
1 1
точки М на плхкжости, мы находим также, что вероятность Р того, что
М окажется внутри (некоторой квадрируемой области Q (т. е. такой, что,
как бы мало ии было положительное е, существуют две области fii и из,
образованные из конечного числа прямоугольников, из которых первая
содержится в Q, а вторая ее содержит, такие, что Q2 — fli< e), отличается
для достаточно больших п произвольно мало от
FQ = —^ jj e-^*Utdz. (138)
а'
Действительно, фиксируя прямоугольные области Qi и Q2, мы можем
взять п достаточно большим, чтобы
\Ро, -F0l\<-^i |pei-F0i|<^-;
следовательно, замечая, что FQi<.Fq < Fq2 и Pat ^.Ра ^Pq2, имеем
F0l ~ Pa, <FQ-PQ< FQt - P0l,
и так как 0 <F0, - FQ,< -, то \FQ, - Pa, I < —, I Fa, - P0| I < — ;
поэтому, наконец,
\Fa-PQ\<~. (139)
164
Возвратимся теперь к нашим суммам Sn и ап и к неравенствам (128),
которые мы можем, разделив их соответственно на V2An nV^Cn, написать
в виде
п г~ П П
t0<^Uk< tu to' < l/ ~ 2 V* + Rn 2 "" < *l'- (14°)
i »• c„ t j
Таким образом, основываясь на полученном результате, мы должны
только определить вероятность Р того, что точка M(t, z) находится
внутри параллелограмма Q, соответствующего неравенствам
t0<t<th *ь'<г.у1-Д* +Rnt<h'. (141)
Имеем поэтому
U'-R„t
/l-йД
4-5 s
U U t2+t'7-2Rntt'
$ J ^ 1-я8п й< (142)
что представляет предел, к которому стремится Р , т. е. вероятность
неравенств (128), когда п бесконечно возрастает, что и требовалось доказать.
Замечание. Доказательство нашей теоремы не исключает случая,
когда lim Rn = 1, лишь бы только сходимость i?n к 1 не была очень
П-*оо
быстрой, чтобы обеспечить выполнение условий (129) 23. Но в этом случае
прямая подстановка 1 на место Rn в (142) приводит к неопределенному
выражению, и для нахождения истинного значения этого интеграла нужно
использовать первое выражение этой формулы
U'-Rnt
FQ = — J 5 e-v^dtdz. (142 bis)
Мы видим, таким образом, что представляются два случая:
1. Если to ^ U или t0 ^ t[, то Fq = lim Pq = 0, ибо при tt> t> t0
n-voo
оба предела интегрирования для z или равны -Ь °о яли равны — оо
(геометрически говоря, параллелограмм Q уходит в бесконечность).
23 Впрочем, ясно, что, е-сли Rn стремилось бы еще быстрее к 1, наше заключение
тем более было бы верно; см. § 21.
165
2. В противном случае, т. е. если U > to' и £о < £/, обозначая через Го
наибольшее из чисел h и £</ и через Ti наименьшее из чисел h и £/,
получим24
F = -L [ e~i2dt, (14.3)
ибо только для t, заключенных между Го и Ti, интегрирование по z дает
число, отличное от 0, а именно равное У я, так как оба предела
интегрирования стремятся тогда, соответственно, к — оо и + °о
(параллелограмм Q сводится в этом случае к бесконечной полосе, заключенной
между t0 = Г0 и h = Г1).
19. Теорема, которую мы сейчас доказали, содержит достаточно общие
условия для правомерности приложения теории нормальной корреляции
в обширном числе случаев. Я не имею в виду излагать здесь эту теорию.
Ограничусь указанием некоторых простых примеров.
Предположим, что два игрока А и В участвуют в одной и той же игре,
которая допускает три возможных исхода cti, аг и. аз, соответственно,
с вероятностями р\ = 8/is, Рг = 2/s, Рг = Vis; в первом случае оба
выигрывают по 1 рублю, во втором случае А проигрывает 2 рубля и В
проигрывает 4 рубля, в третьем случае А выигрывает 4 рубля и В выигрывает
16 рублей. В каждой отдельной игре выигрыш (или проигрыш) х одного
из игроков вполне определяет выигрыш (или проигрыш) х2 другого. Если
игра повторяется большое число раз, то функциональная связь исчезает
и стремится установиться, на основании доказанной теоремы, нормальная
корреляция между суммами выигрышей (или проигрышей) обоих игроков.
Простое вычисление показывает, что игра безобидпа для обоих игроков:
16
точно так же получаем 5К (х2) = —; 3R {хп) = 24; Ш(хх') = 8. Поэтому
о
16
Ап = — п, Сп = 24тг, Rn
5
Следовательно, для больших значений п вероятность одновременного
выполнения неравенств
t0 у —n<Sn<tty —72,
?оУШ<оп <^УЖп
24 При lim Rn = — 1 результат будет аналогичным: величины Sn—Мп и
П-»-оо
On — тпп должны в пределе находиться, соответственно, в интервалах,
симметричных по отношению к началу.
166
сколь угодно мало отличается от
_ и и
У6 г г
\ \ е-Щ*+*,2-1имп & dt'
to to'
В частности, находим, что вероятность неравенства Snon < 0 равна
T--arctgr_l_ =--^arctg]A5 = 0,13...,
71
таким образом, не очень невероятно, что фортуна, благоприятствуя одному
из игроков, отвернется от другого при большом числе игр, хотя это и
невозможно для отдельной игры. (Правда, значительный выигрыш одного из
игроков практически несовместим с более или менее крупным проигрышем
другого.)
Пусть п — большое число индивидов, взятых наугад (независимо один
от другого) из некоторой совокупности. Положим, что pi есть вероятность
какому-нибудь индивиду обладать первым свойством А\ и р2 есть
вероятность, что он обладает вторым свойством Аг, и положим, сверх того, что
№Р2 есть вероятность, что один из случайно взятых индивидов обладает
обоими свойствами. Тогда можно утверждать, что числа Ш\ и яг2
индивидов, обладающих соответственно свойствами Ai и Л2, находятся в
нормальной корреляции. Здесь 9К (х) = рь $51 (х') = р2, ЭД (х — pi)2 = pi qu
SE (x' — p2)2 = p2#2, 9K(s — Pi)\xr — p2) = (ц — l)PiP2. Таким образом,
коэффициент корреляции равен Rn = (\i — 1) ]/ .
У qi<i2
Я не занимаюсь здесь исследованием действительных условий, при
которых можно с достаточным приближением утверждать существование
вероятностей Pi и р2. Точно так же при изучении наследования свойств,
когда отец и сын изучаются с точки зрения обладания ими некоторым
свойством А, если принять, что Р есть вероятность, что взятый наудачу
отец обладает свойством А, а р' и р" суть соответственно вероятности
свойства А сына в зависимости от того, обладал ли им отец или нет, то числа
mi и т2 отцов и сыновей, обладающих свойством А, также находятся в
нормальной корреляции.
Можно также прилагать доказанную теорему к установлению
существования приближенной нормальной корреляции между размерами
различных органов у индивидов одной и той же расы; но, как мы уже замечали
выше, различные причины, совместные действия которых определяют
величину органов, не будут вообще независимы, и важно выяснить, какова
может быть зависимость между ними, чтобы нормальная корреляция не
нарушалась. Для этой цели мы сейчас установим теорему, аналогичную
теореме В.
20. Сначала докажем следующее вспомогательное предложение:
Лемма. Если величины 2П и 2П обладают свойством, что каковы
бы ни были произвольно большое данное число N и произвольно малое 6,
для достаточно больших значений п при I х | < N, \ у \ < N имеет место
167
неравенство
x2+2Rnxy+y2
| e 4 ®t[(*Vn*+*n'v)] - 1 | < 6, (144)
где I Rn I < £ < 1, то вероятность одновременного выполнения неравенств
и<1п< U, U < 2п < *1 (125)
для достаточно больших значений п как угодно мало отличается от
U U V-+t'2-2Rntt'
Действительно, введение переменных
* + #пг/ = £, у/Г=^я=т1 (145)
дает
(146)
х* + 2Rn ху + у2 = |2 + Л2,
2 «ж + 2n2/ = SnE + сУпЛ ,
где
On = .. ..
г П
Поэтому для \l<Nt = 7V(1 - |ДЯ|), | Л | < М < Л7]/1 - Я* условие
I е 4 дйИ2»*****0] „ ! | < б? (147)
полученное из (144), выполняется для тех же значений п. Значит,
вследствие теоремы п. 17, для достаточно больших п вероятность
одновременного выполнения неравенств
сколь угодно мало отличается от
ti Zi
— J J e-<i2+22) Л dz.
to zo
Повторяя рассуждение, проведенное в конце доказательства предыдущей
теоремы, мы и выводим отсюда высказанную лемму.
Замечание. Приложение этой леммы ограничивается случаем, когда
lim I Rn I < 1. Немного дальше мы рассмотрим случай, когда
П -*■ оо
lim Rn = 1.
21. Теорема25. Пусть En = #i + я2 + ... + хп, 2/ = Xi + х<£ + ...
. . -Ь #,/ — две суммы зависимых величин таких, что изменения SK'^i+i)
25 Мы предполагаем, для упрощения записи, что sjft (xk) = s$ (a;,t)=0.
168
и STO'(;r,+i) не превышают, соответственно, аг- и р*, изменения %&'(хш)
и жЧ^г+О не превышают, соответственно, а/и р/ и изменение W (#г-и Х
X х'г+\) не превышает yi, каковы бы ни были уже известные значения
предыдущих величин хи #/, х2, ..., х/. Если для достаточно больших п
можно сделать сколь угодно малыми числа
П П П 71
2 а, 2°*' 2Р* ЁР*'
liii
71 71 71
1 1 1
улпся лп3/2 спз/2
3 I
где Сь. и с^ представляют собой максимумы, соответственно, 5№' [ х\ \ и
sjft' | Xk |, когда Х{ и xi (i < А:) принимают любые значения, Ап = 3R (2п),
Cn =3R (2n ), то вероятность одновременного выполнения неравенств
U V2~Z7< 2n < *i У2Ли, *оУ2£Г< 2п < *I Y2Cn (148)
для гея же значений п сколь угодно мало отличается от
U W t2+t/2~-2Rntt'
1
J Je 1-^2 йй',
яу1-л« ; ?,
' П 1о 1о
^(Ея2п0
если только Rn = —,- - меньше по абсолютному значению какого-
нибудь фиксированного числа L < 1.
В дальнейшем мы будем говорить, что величины х\ и хь\
удовлетворяющие условиям этой теоремы, являются взаимно почти независимыми.
Доказательство, аналогичное доказательству леммы п. 9, состоит в обнаруже-
нии приложимости предыдущей леммы к а = —==- и ап — ~~==-- х аким
У2-4П У26п
образом, нужно вычислить
G =9Ю{в<(су»6+^пт|)]э (149)
предполагая I g I < iV, I r\ I < iV, где N — данное произвольно большое
Xk %h
У2^п У2СП
= 3R[e l ], так что G = Gn. Имеем (m < п)
m
г S (uft^+t»ATi)
GWi = Ж[б ' e^m+i^m-ы^)]. (150)
Но, каковы бы ни были значения m и^ (к ^ т), имеем
1
LJ
169
число. Положизм вообще иь = —: , Vk = —=^г=- и вычислим Огт —
где
I 8m l<
'a a1 r
am+i &m+l Pm+i Ут+i Pra+1 cm+l Cm+i
УаГп YY^ Tn V^Cn cn a*i> ~c>
n n
причем М — постоянная, зависящая только от N. Поэтому
<М
= Qm, (151)
г, Г , 1
Gm+1 = Gm 1 — —SK («m+I £ + Vm+i Г\)2
где I A.m+1 I < Qm, так что
+ ^m+1,
l__-eR(Ulg + l7lT,)2
1
1 — — Ш(ит1 + VmT])2
(152)
<
<2|4<2q*-
Следовательно, благодаря условиям теоремы, разность между G и
Н =
l- — ®'(uit + v1i\)*
1—— 3R(un£ + упп)2
(153)
может быть сделана сколь угодно малой (для I g I < N, \ г\ | < N). Беря
логарифмы от обеих частей (153) и принимая во внимание, что при
достаточно больших /г, как бы ни было мало е, имеют место неравенства26
2®(afc)
2,_ 1
2
е,
1 1 )
(154)
П 1 1
1
мы видим, что Я, а, следовательно, также и G, сколь угодно мало
отличаются от
i
и доказательство заканчивается без затруднений.
Замечание. Приведенное рассуждение применимо также без
изменений и к случаю, когда ]im/?n = ± 1; только лемма п. 20 не будет
более приложима. Но тогда можно утверждать, что для 1 х I ^ 1, I у I ^ 1
имеет место при достаточно большом п (для определенности считаем
Rn>0)
| е"'г ЩеЧап*+°'п у)] — 1 | < 6; (155)
26 Два первых неравенства являются прямым следствием (59); что касается
третьего, то оно следует из легко устанавливаемого равенства
Ш (2П2'„) = ^ Ш (***'*> + 0 fa» 2/** + УА» 2 а*
где I G I <1.
170
поэтому, в частности, полагая у = — х, имеем
| 5R(e*zft*)_i| <б, (156)
где Zn = оп — On.
Но легко показать, что если, как бы мало ни было б, неравенство (156)
выполняется для достаточно больших значений п, когда х = 1 и х = %,
где \ — произвольно заданное иррациональное число, то вероятность
неравенства
IZn|<8, (157)
где г — сколь угодно малое положительное число, стремится к 1, когда п
бесконечно возрастает, лишь бы только существовала такая монотонная,
бесконечно возрастающая вместе со своим аргументом функция /( \Zn I),
что 9R[/(|£n|)] остается ограниченным.
В данном случае можно положить (|Zn|) = Zn, ибо 3R(Zn)^l;
для определенности мы ограничимся этим предположением, по легко
видеть, что такой выбор функции / не является необходимым для
справедливости рассуждения.
Таким образом, на основании классического результата Чебыпгева,
вероятность неравенства
\Zn\>T (158)
меньше 1/Т2. С другой стороны, из неравенства (156) следует, тем более,
что
aR(l-cosZna;)<61 (159)
и, применяя то же рассуждение Чебышева к неотрицательной величине
1 — cos Znx, мы видим, что вероятность неравенства
Е
1 — <oos Znx > 6t2 = 2 sin2 —,
эквивалентного
\Znx-2kn\ >e (A = 0, ±1, ±2,...), (160)
меньше l/t2. Но если мы рассмотрим все целые значения /с и к', такие,
2A'ji , . m
^ Т, то можно взять 8 достаточно малым,
что 0< 12Ьс1 <Г, 0<,
чтобы, как бы велико ни было далное число Т, имело место неравенство
2к'п
2кл
>г + ~; (161)
следовательно, для всех таких (не раозлых нулю) значений к и к'
неравенства
I Zn - 2кл I < е и \ZnX- 2/с'я I <е
несовместны. Поэтому вероятность того, что по крайней мере одно из
неравенств
I Zn - 2fot I < 8 (0 < I 2кл |< Т) (162)
171
будет выполнено, меньше lft2 и, следовательно, вероятность неравенства
\Zn\ < в
превышает 1 — 2ft2— 1/Г2, т. е. если взять t и Т достаточно большими,
она может быть сделана сколь угодно близкой к 1, лишь бы только п было
достаточно велико.
Прилагая это к интересующему нас случаю ( lim Rn = ± 1), мы
7WOO
видим, что вероятность неравенства | ап — оп' | < £ стремится к 1, так
что вероятность одновременного выполнения неравенств
h < On < *i, U < вп < h'
сколь угодно близка к
г,
-4л в-*§ л,
1 Го
где Т есть наибольшее из чисел to и t0\ a Ti — наименьшее из чисел ^ и t\ .
22. Перейдем теперь к доказательству следующей теоремы:
Теорема D. Пусть Sn = х± + х2 + ... + хп, Sn' = х{ + х{ + ... +
+ хп — две суммы зависимых величин, где Ш (Sn) = Ап > Мпх, 9ft (Sn ) =
= Сп > Afw\ величины хи и хъ удовлетворяют условиям теорем В или С,
распространенных на совокупности величин хи и хи', тогда вероятность
одновременного выполнения неравенств
to ilA~n <Sn<U J2JU, «У2С7< S'n < t[ J2Cn~ (163)
для весьма больших п сколь угодно мало отличается от
U W t2+t'i-2Rntt'
1
\ \е ^n2 dtdf
' п to to
если Нп = —- — we стремится11 к ±1.
Действительно, выполняя группировку членов, указанную при
доказательстве теоремы В, т. е. полагая
Sn - It + о/, Sn' = 2/ + azr,
27 В противном .случае, т. е. когда lim Rn = ±1, неравенства (163) несовместны
п-»-оо
или же, сообразно с сделанным выше замечанием, имеют вероятность, стремящуюся
1 г
к интегралу \ e~t2dt.
172
где
2i = (Xi + x2 + ... + xh) + (xh+h+i + . .. + я2л+а) + ... =
= г/i + Уг + • • • + Уи
2/ = (Xif + хъ' + ... + xh') + (Л+k+i + ... + *W) + ... =
= У/ + у/ + ... + г/Л
имеем, как мы видели,
3R(c,2) Ж (а,'*)
km —-— = lim —-— = О,
lim —-— = lim ——— = 1,
71->оо -А-п п-м» tn
и, следовательно,
limRn = lim— = lim
H ; f~
/л„с„ Улпсп
9й(аг2г') ЗК(<ад')
r -4n^n У ЛпСп
ибо, например,
ж (W) ж (ид:/)
= цт — = lim
71 n->oo
Щ2т') \^ f Ж(Ег2) SR(oi/2)
W
У An^n I/ -^-n ^n
Остается только повторить без изменений рассуждения доказательств
теорем В и С, чтобы убедиться в том, что величины у и y'k являются
взаимно почти независимыми, и доказательство заканчиваются без
затруднений, в предположении, что I lim/?n I < 1.
23. Пусть дана, например, простая цепь из 2лг испытаний; обозначая
через ?щ число появлений события Е среди п испытаний нечетных
порядков и через т,г число появлений события Е при остальных п испытаниях
четных порядков, без труда убеждаемся в том, что числа mi и т2
находятся в нормальной корреляции 28 для бесконечно большого п каждый раз,
как закон Гаусса приложим ко всей цепи. Рассмотрим несколько тиггич-
1
ных случаев: предположим сначала 6; = б и pi = qi = —. Тогда имеем
Ап — С„ ~ - — • —-, lim i?„ =
1-й2 4 ' „_ 1 + б2 '
28 Если только коэффициент корреляции Rn не стремится к ±1. Понятно, что
это исключение не может представиться в случае, изученном Марковым, так как
если все результаты нечетных испытаний предположить известными, то четные
испытания станут независимыми между собой и будут иметь вероятности, отличающиеся
от 1 и 0 на конечную величину, так что при т\ данном вероятное колебание т%
не будет порядка ниже чем Vn-
(173
таким образом, корреляция будет положительная или отрицательная,
смотря по знаку б, и Нп стремится к ± 1 одновременно с 6. Предположим
еще 6г = (— 1)*6, тогда
1 —б2 п
Ап ~ Сп ~ — • — и lim Rn = 0;
1 + б2 4 п-^оо
поэтому в последнем случае, даже если 6 стремится к 1, числа т{ и tn2
ведут себя в пределе как независимые, удовлетворяя закону Гаусса, если
б < 1 — 1//г«, где а < 7з.
Рассмотрим еще несколько более общую задачу, которая представит
нам возможность приложить к случаю двух сумм общие соображения п. 16.
Предположим, что даны две серии испытаний, образующие две простые
цепи, просто переплетающиеся между собой, т. е. мы принимаем, что если
известен результат к-то испытания для обеих серий, то вероятности
появления Е в первой серии и Е\ во второй серии принимают в (к + 1)-м
испытании данные значения, независимые от результатов
предшествующих испытаний 29. Чтобы задача была определенной, нужно, следовательно,
восемь постоянных для каждого значения к ^ 1 (не считая трех
первоначальных вероятностей ЕЕи ЁЕ\, ЕЁ\ в первом испытании). Мы
упростим вычисления, если предположим, что появления и непоявления
связаны симметричным образом: другими словами, вероятность Е после ЕЕ\
та же самая, р', что и вероятность Е после EEi\ вероятность Е после ЕЕ\
равна р", так же как и вероятность Е после EEi\ тогда вероятности Е
после EEi и ЁЁ^ будут, соответственно, равны q" = 1 — р" и qf = 1 — р'.
Точно так же мы введем еще только две постоянные для Et: вероятности
р/ оа pi" наступления Е±, соответственно, после EEi и ЕЕи Вообще, эти
четыре постоянные могут изменяться вместе с к, но это существенно не
повлияло бы на дальнейшее рассуждение; для упрощения записи мы
предположим их независимыми от к.
Рассмотрим две последовательности величин Хь. и Yk, таких, что
Xk = ±1, смотря по тому, произошло Е или нет в к-м испытании, и
Yk = ±1, смотря по тому, произошло Ei ов к-ж испытании или нет. Нам
п п
нужно показать, что 2 %к и 2jYk находятся в нормальной корреляции
1 1
при условиях, аналогичных тем, которые мы ввели для приложимости
предельной теоремы к простым цепям.
Для этой цели введем две последовательности независимых величин
щ, uz, .. . , ип и v\, и2, ..., vп таких, что Hfc, так же как и уа, способны
принимать только три значения ± 1 и 0. Положим, далее,
2 I
Xk+\ = Uk+\ Yk + (1 — Uk+\) Xh, /лп,к
2 f (164)
Yk+i = vh+[ Yk + (1 — vk+\)Xk. J
Тогда легко видеть, что величины Xk и Yk как раз удовлетворяют
требуемым условиям, если мы предположим, что р", 6 = р' — р", qr являются
29 Иллюстрацией такой переплетающейся пары простых цепей может служить
наследование признака Е у индивидов мужского пола и признака Ei у индивидов
женского пола при отсутствии полового отбора по этим признакам.
•174
вероятностями, соответственно, равенств Uk+i = 1, ик+\ = 0, uk+i = — 1
и ?[i ^1 ^ р\— Р'[, ч\ являются вероятностями30, соответственно, равенств
vk+i = 1, vh+l = О, Vk+i = — 1.
Предполагая, что в первом испытании вероятности Е в. Ei равны 72,
мы видам, что для всех значений к будет Зй (Xk) = ЗК (FA) = 0. Очевидно,
также Ж (х£) = Ж (у^ = ^ ^ ^ ^2 = уг = ^ д^ вычисления
значений sSl(XkXk+h) и aR(FftFft+h) замечаем, что
1
®l(XkXk+h)
(ft)
г (ft)
в(Щ)^(С»С),
(165)
(ft)
где ал+fc есть математическое ожидание Xk+h при предположении, что
.(h)
Xk = 1, а а/н-ь соответствует предположению, что Zfe = — 1; обозначения
fc^i+ft и bh+k аналогичны. Из (164) мы выводим уравнения
ah+h+i = (р — Q ) bh+h + oah+k,
(ft)
(ft)
(ft)
bh+h+i = (p" — q\) bh+k + biCLh+k,
(166)
"(ft) 7"(ft)
которым удовлетворяют также а^+й, и bh+k при начальных условиях
(ft) , -(ft) , ,№) r(A)
а& =1, аь = — 1, bfe = — bk ; поэтому
3R (XkXk+h) = afe+h = Ciqi + C2Q2,
^№+ft) = ^=aSft+1~6a^
p —q
(167)
где Qi и Q2 суть корни уравнения
о,
6-ei
p"-q[-Q б! I
а постоянные Ci, Co определяются из соотношений
Ci + С2 = 1, CiQi + C2Q2 = 6 + Ъ^ (р" - q');
легко проверить, полагая для определенности р" <^?', что \ Q\\ и I Q21
меньше наибольшего из чисел б и \р" — q\\ . Таким образом, обозначая
через % < 1 наибольшее из чисел б, 6i, | р" — qf |, | р" — g^ J, мы видим,
(ft) _(ft) 7 (ft) r (ft) * *
что аь+л, ал+л, Ьь+л, Ьь+л убывают быстрее, чем члены некоторой геометри-
, {к)
ческой прогрессии АъХ\ где Аъ, — ограниченные постоянные, так как Ьк =
= ^ (XftFft) ограничены; заметим, что b(kk) удовлетворяют уравнению
(ft)
bSST = (р" - ?') (Pi" - 9/) + бб! + [б(р/' - qi') + б2(р" - О! С (168)
30 Для определенности мы предполагаем 6^0, 6i^0.
175
которое выводится из (164) приравниванием математического ожидания
произведения левых частей математическому ожиданию произведения
правых частей.
Заметим, наконец;, что уравнения (166) и (168) сохраняются, если
известны результаты i < к первых испытаний; поэтому проистекающие
отсюда изменения значений 3R (XkXk+h), 3R (XkYk+h) и т. д. получаются
только от изменения первоначальных значений, т. е. bk , но из (168)
следует, что разность между bh и его предельным значением
(р" — q') (р" — qt) ь .
г——- „ —- будет порядка меньшего, чем А* г. Следо-
вательно, теорема п. 23 в форме, соответствующей теореме В, приложи-
ма, ибо преобразование, аналогичное преобразованию, приведенному
в п. 12, показывает, что 9К ( 2 ^ I и ®М 2 ^ ) будут порядка g,
fe+i /н-i
каково бы ни было к, предполагая, чтобы те входить ъ подробности, что А,
не зависит от п.
^
9
0 СУММАХ ЗАВИСИМЫХ ВЕЛИЧИН*
1. Эта первая статья, которую я имею честь представить Академии,
имеет целью разрешить одну задачу, которая примыкает к исследованиям
А. А. Маркова, изложенным в его мемуаре 1 «Исследование общего случая
испытаний, связанных в цепь». В этом мемуаре знамепитый математик
изучает последовательности опытов, образующих простую цепь, которую
он определяет следующим образом: «Мы будем рассматривать
неограниченный ряд последовательных испытаний, которые будем отличать, по
порядку, друг от друга номерами: 1, 2, 3, ....
При каждом из этих испытаний может появиться как некоторое
событие Е, так и противоположное ему F. Наши испытания связаны в цепь
таким образом, что для любого целого положительного числа к имеем:
1) вероятность события Е при (к + 1)-м испытании имеет
определенную величину ph+i, пока результаты их вообще остаются
неопределенными; вероятность F при тех же условиях равна
Qk+i = 1 — Pu+i ;
2) вероятность события Е при (к + 1)-м испытании принимает
другую определенную величину p'k+i, если результаты последующих
испытаний по-прежнему остаются неопределенными, а непосредственно
предшествующее испытание, т. е. А-е, привело к событию Е, каковы бы ни
были результаты прочих испытаний, т. е. 1-го, 2-го,..., (/с—1)-го;
вероятность события F при этих новых условиях равна
qh+i = 1 — Pk+u
3) наконец, вероятность Е при (/с+1)-м испытании принимает
третью определенную величину р" , если результаты последующих
испытаний также остаются неопределенными, а непосредствепно
предшествующее ислытание, т. е. /с-е, не привело к событию £, каковы бы ни были
результаты прочих испытаний, т. е. 1-го, 2-го, ..., (к — 1)-го; вероятность
* Sur les sommes de quantites dependantes. Изв. АН СССР, 20 ('i926), 1459—1478
(107*).
1 «Записки Акад. наук», 25, № 3. (1910), 1—33.
12 с. H. Бернштейн
177
события F в этом последнем случае равна
// . //
В силу этих условий (/с + 1)-е испытание связало с 1-м, 2-м, ...,
(к — 1)-м только через посредство /г-го исггытаипя и становится
независимым от них, коль скоро результат к-то испытания определен».
В названном мемуаре Марков исследовал общий случай указанных
ценен, вводя, однако, дополнительное ограничение, что ни одна из
рассматриваемых вероятностей ph', р*", р&, Qk, qu\ Qk не может неограниченно
приближаться к нулю; иными словами, он допускал существование такого
положительного числа а, что
Pk > а, Ph" > а, рк > а, qk' > а, qh" > а, qk > а. (1)
При этом ограничении Марков доказал, что, при бесконечном возрастании
п, вероятность неравенства
toi2Bn < m -(Pl + р2 + • • • + Рп) < tii2Bn,
где m есть число появлений события Е, а
Вп =8Ю[та —(pt + ... + Рп)]2,
имеет пределом
и
-ХЛ e^dt.
Для краткости мы будем говорить, что предельная теорема применима
к такой цепи.
В мемуаре, который недавно напечатан в томе 97 «Mathematische
Annalen» **, посвященном памяти Римана, я применил новый метод
изучения сумм зависимых величин, который позволил мне значительно
обобщить вышеуказанную теорему Маркова. В частности, в этом мемуаре
мною было доказано, что предельная теорема верна, если условия (1)
Маркова заменим условиями
1111
р'к> — ' К> — > ^'h>—a> *"*>—*> (2)
к па к па к па к па '
где а — любое определенное положительное число, меньшее, чем Vs. Может
ли значение а в неравенствах (2) быть еще увеличено? Я показал там же
на одном примере, что предельная теорема может оказаться неверной при
а = 7з. Здесь я покажу, что предельная теорема всегда верна, если в
неравенствах (2)
1
0<т;
таким образом, величина а = 7з является точной границей значений а,
отделяющей случаи, когда предельная теорема всегда приложима, от тех
См. работу [8] настоящего тома. (Автор.)
178
случаев, когда предельная теорема может быть нарушена2. Для упрощения
вычислений я предположу, однако, что q" = р' , откуда следует, что
lim pn = iU и? при помощи очевидного перехода к пределу, можно тогда,
п-*оо
не нарушая общности, положить рп = у2.
Чтобы получить этот результат, мы представим сначала теорему А
(п. 7 цитированной работы) о несколько ином виде. Эта теорема
относится к последовательностям частично зависимых величин Хи #2, ... , хп,
т. е. таких, что х\ и хи совершенно независимы, если I к — ъ I достаточно
велико. Аналогичное преобразование теоремы В (п. 10) привело бы
быстрее к цели, но, принимая во внимание, что последняя теорема
существенно опирается на лемму и. 9, относящуюся к величинам, которые я
назвал почти независимыми, мне нужно было бы для полноты доказательства
отослать читателя к цитируемому месту.
Доказательство в старой или новой форме теоремы А (которая
является частным случаем теоремы В) отличается от доказательства теоремы В
лишь тем, что оно не требует применения упомянутой леммы. Поэтому для
простоты всегда следует пользоваться теоремой А вместо теоремы В; кроме
того, развивая идею, намеченную в и. К), можно свести к теореме А яЬ
только изучение цепей Маркова, но и некоторые их обобщения.
Итак, не опираясь на мой цитированный мемуар, я предполагаю здесь
известной только классическую теорему Ляпунова, относящуюся к
независимым величинам.
Пусть
2П = Hi + U>2 + ... + Un
будет суммой независимых величин; пусть
п п
1 1
Тогда вероятность неравенства
t0 V2B~n < 2л <hV2Bn
имеет пределом
когда п —► оо, если только
-i- \ e~t7dt,
lim-^- = 0
n-+oo Bn h
Отсюда следует, в частности, что предельная теорема приложима к
независимым величинам, когда существует такое положительное число Р,
2 Разумеется, могут существовать частные случаи, когда предельная теорема
применима даже при а > */з; в названной выше работе я дал пример этого для
pfc'== qh = 1 / пау где а— данное число < 1. Здесь мы дадим в дальнейшем теорему,
обобщающую этот пример.
179
12*
что
hi Съ
каковы бы ни были I n к.
Действительно, в таком случае
пЪ
Р
откуда следует, что
-<Вп<пРЪи Сп<пРЧ1
~Вп''2 (^л X1' У»
р
Заметим, что второе ил неравенств (3), в частности, соблюдается, когда
й<р' (4>
где
dk=$ft (uk), так как dh^ с\-Ък .
Вот теперь наша теорема A bis:
Пусть Sn = Xi + х2 4- ... + хп — сумма величин, каким-нибудь
произвольным образом связанных между собой только тогда, когда их номера
к, i удовлетворяют условию I к — i I < гао, где q — определенное
положительное число; пусть
Щх{) = О, «Ю (*■) = р{, Ж | Xi (3 = Yl-.f Ж (*•) =Xi, Ж (5^) = Вп,
причем рг- < L2, где L — определенное число. В таком случае предельная
теорема применима к Sn (при п —>оо), если
неограниченно возрастает и существует такое определенное число Р, что
W[xj + хш + .. . + £fe]4
когда
Ж [xi + Ti+1 + ... + zfe]4 > и2<> £ = тгоу^". (5 bis)
В самом деле, пусть щ = xi + х2 + ... + л:/,, где А — наименьший
номер, для которого 9К (ы,) ^п2Ч\ возьмем затем га° члепоов: i^ = Xh+i +
+ ... + ял+i и составим следующую сумму иг = xh+np+i + ... + *h9
где hi — наименьшее из .чисел, для которых 9R (и22) ^n2Qt; продолжая
таким образом, пока все члены Sn не будут исчерпаны, представим Sn
в виде
Sn = Ui + Vi + U2 + V2 + . . . + Щ + Vi, (6)
180
где все слагаемые вида v\ содержат nQ членов, за исключением, может
быть, последнего, который, без ущерба для общности, можем принять
содержащим <^ nQ членов.
Замечая, что
ЯИ(В1 — xh)2<n2*t,
мы заключаем, что Щи2х ) <n2^t + L2 + 2Ln^ VJ; таким образом,
вообще,
пЩ< Щи?)<п2Ч (l + -^J]\ (7)
Следовательно, сумма Sn раскладывается на две части
S„ = Б/ + 0г; (6 bis)
где обе суммы
2z = Щ + Пг + ... + Щ , Gi = Vi + V2 + ... + Vi
состоят из независимых слагаемых, так как щ и u1+i отделены друг от
друга nQ величинами Х{, входящими в v\, и, кроме того, член ии который
разделяет Ui-i и Vi, содержит, очевидно, не менее n^t / L величин х.
Следовательно,
л2ой<(2»:)< n^tlii + —^Л\ (8)
и, кроме того, учитывая, что при i < I
SR(i?|) < n2*L2, Ж (v2) < п2* (t + L2 + 2L yl) ,
имеем также
Ж (о2) < п2* (t + IL2 + 2£/Г) . (9)
Из (8) и (9) заключаем, что
где е_*0 при я —*- оо. Таким образом, мы видим, благодаря (6bis), что
l/t не может стремиться к нулю, так что I бесконечно растет; откуда
заключаем, пользуясь соотношениями (10), что
lira -~ = 0 (11)
и, следовательно,
lim^L=limi- = l. (12)
Отсюда вытекает, что предельная теорема приложима к сумме Si,
когда I бесконечно растет (вместе с тг), так как первое неравенство (3)
181
удовлетворяется вследствие (7), и неравенство (4) тождественно
неравенству (5); иными словами, вероятность неравенства
toV'WnKZiKtiVtBn
имеет пределом
-L \ е-'2 dt,
когда п неограниченно растет.
Но, с другой стороны, вероятность неравенства
меньше 1/z2. Следовательно, если рп есть вероятность неравенства
то
uV2Bn<Sn< hV2Bn,
z2
где Рп — вероятность неравенства
h У2Вп + z УЖ (aj2) < 2z < h i2Bn ~ z У Ж (a/2)
и, таким же образом,
Рп <Рп + —т,
Z*
где Рп есть (вероятность неравенства
(13)
(14)
(15)
(16)
(15 bis)
*оУ2В„ - zy9K (0,2) < 2, < *iV2B„ + z-|/CSR (0i2). (16bis)
Теперь для произвольно малого а положим 1/з2 = а/2 и, учитывая
(11) и (12), выберем п столь большим, чтобы
и и
I 1 " I (I I 1 Г ]
У* , 2 I Уя ,J
2
тогда получим
1 с |
Рп \ e~iScft < a,
v« i '
что и требовалось доказать.
2. Рассмотрим теперь простую цепь опытов согласно определению,
данному вначале. Мы вводим число Х{, соответствующее опыту с номером i,
которое принимает значение +1 или —1, в зависимости от того,
происходит или не происходит событие Е в этом опыте.
182
Положим
Sf = Pi - Pi" (17)
и введем независимые величины щ, и2, • • • ,^л, которые принимают одно
ив вдгачеиий +1, 0, —1; пусть в случае, когда 6* ^ 0, р/' есть вероятность
того, что щ = 1, q{ — вероятность того, что щ = — 1, и б» = 1 — q{ — Pi"
есть вероятность, что щ = 0; в случае же бг- ^ 0 вероятность, что щ = 1,
равна р^, вероятность того, что щ = — 1, равна q/', и — б* = 1 — Pi — q/'.
есть вероятность того, что щ = 0. В таком случае, если мы составим
рекуррентные неравенства
Х{ = Щ±(1-щ)Хг-и (18)
где знак перед вторым членом совпадает со знаком 6*, то числа Xi будут
обладать свойствами, требуемыми нашей цепью. В самом деле, если
X(-i = 1 (событие Е наступило в (i — 1)-м опыте), то при б* > 0 Xi = 1,
когда щ = 0 или щ = 1, так что вероятность, что Xi = 1, равна р" + б,- =
= р/; при бг- < 0 имеем Xi = 1, когда щ = 1, поэтому вероятность этого
равенства также равна рГ; напротив, если Хг_! = —1, то Xi = 1 при 6* > 0,
когда щ = 0, и при бг- < 0, когда щ = 1 или щ = 0; таким образом,
равенство Xi = 1 имеет вероятность р/' каков бы ни был знак 6*.
Решение Хг- системы (18) представляется в виде3
Х{ = Щ ± (1 — Щ ) Щ-1 ± (1 — Uz- ) (1 — И^) Щ-2 ± . . .
...±(1-m?)...(1-h1k (19)
где шаек каждотю члеиа вэдолие опзределнн тем, что множитель 1 — иь
имеет знак 6&.
Числа Xi образуют последовательность связанных величин, которая
непосредственно не предусмотрена теоремой A bis. Но если мы положим
Xi = Xi + ^ (20)
где
Xi =Щ±(1 -Щ)Щ-1±...±(1 - Щ)...(1 - Uk+i)Uh,
8£=±(1-и<)...(1--4)цЛ-1±...±(1--и?)...(1-и|)и1>
то при i — к = n$, где q < 1 — определенное положительное число,
величины Xi будут независимыми от величин Xj, когда I i — j I > nQ. Кроме
того, вероятность Ru что e^Sr. 0, равна
Ri = | бгбг-i . . . б* | [1 - | б*_! | + | 8k-i | (1 - | вЛ-2 |) +. . .
. . . + | 6ft-i6ft_2 ... 62 | ] = j бгбг-l . . . 6k I •
Предположим, что
l в* К 1-4. (<*<i); (2i)
3 В частности, Xi = uu где Pi = Pi - зюроятность, что щ = 1, ?i = «1 -
вероятность, что щ = —1, и вероятность, что щ = 0, равна 6i = 0.
183
тогда
па )
Ri<[ i-~ Г <е"п"
Следовательно, как бы ни было близко а к числу q > а, при п
достаточно большом
так что
2 Я< < -, (22)
т т
к тем более, вероятность 2 ^г ^2^'» 'Коковы бы -ни были ^ит(1<?<
< m <; п), меньше 1/?г5.
Таким 'образом, если В есть вероятность неравенства
п
Ло<»2^<-41.
1
п
вероятность В', что 2^' удовлетворяет тому же неравенству
1
п
А0 <^Xi < А, ,
1
будет заключена в пределах В ± 1/^5; таким образом,
lim В = lim В'. (23)
Кроме того,
гг-*-оо п—*оо
|х;)9-ж(2х,-)9] <-?- (24)
(при </ ^ 4), так как вероятность неравенств
меньше 1/?г5, и модуль максимума этой разности ^ п**.
Следовательно, чтобы доказать, что предельная теорема применима к
п п
2 Хи достаточно показать, что она применима к сумме 2 х%- Кроме того,
i 1
при вычислении математических ожиданий, которые фигурируют в
теореме A bis, можно, вследствие (24), пользоваться Х% так же, как и Х{,
Как было сказано в начале статьи, мы предположим в дальнейшем
Pi = Яг = 7г, для чего надо, чтобы р* = qf, так как pi+i = ptpl+i +
+ QiPi+u то есть 1 = p'i+i + pi+i.
В таком случае
SR(ttt) =5S№) = 0;
184
кроме того,
Ж (х) ) = Ж (xkk) = SR (л!) = 1.
Для вычисления sgi (X{Xh) при i > к воспользуемся (18):
Ш (XtXh) = Ж [Ui ± (1 - u?)X<_J Хь = fifSR (Z;_A) = 6,-6,-j... вА41; (25)
аналогично получим
3R (Х,-М,) = Ж {XiXk) = 6f6,_i... 6й+1, (26)
каково бы ни было I.
Нам нужно вычислить еще ^i(XiXkXiXm), где г > к > I > т. Мы
выводим также из (18), что
Ж (XiXhXiXm) = Щщ ± (1 - «?)*,_,№№. =
= 6i3R (Хи^ВД = 6,-6,-1 • • • б,(+1 Ш (XlXtXm) =
= 6i6;_i . . . bk+i&l • • • 6,n+1 . (27)
Таким образом, мы получим сначала
Бп = ^(Xt + Х2+ ... + Хпу = ЩХ^Х{ + 2Х2 + ... + 2Х„) +
+ Х2(Х2 + 2Х3 + ... + 2Х„) + ... + Х'п] = (1 + 2б2 + 2б263 + ...
... + 2б2 ... б») + (1 + 26з + ... + 263 ... б„) + ... + 1 , (28)
и, вообще,
Bhm = 9R(Xm + Xm+1 + ... + X*)2 = (1 + 26m+i + 26m+i ... 6*) +
+ (1 + 26m+2 + ... + 26„+2 ... вй) + ... + 1 • (29)
Производя преобразование, принадлежащее А. А. Маркову, мы получим
Бп = (Z? - бгГг) + (Т\ - бзТз) + ... + (Гп-i - blTl) + Tl =
= т\+й(\-^) + ... + т1{\-ь1), (30)
где
Ti = 1 + 6г+1 + 6;+1 6;+2 + .. . + 6г+1... 6„ = 1 + 6т Т1+и Тп = 1. (31)
Точно так же, полагая
zf° = 1 + 6г+1 + 6/+1 6;+2 + вц-i... 6* = 1 + 6г+1 т',+и ГГ= 1, (32)
выводим из (29), что
Bkm = (г£У + (Л)2(1 - 6m+i) +... + (7UV(i - 6b. (33)
Преобразуем теперь подобным же образом
Z>fcm = ®[*m + Xm+1 + . . . + Xhf . (34)
Для упрощения письма положим к = га, /тг = 1 и напишем просто Dni=Dv.
185
Таким образом (полагая всегда i > к > I > т), получим
Dn = W
2 xi+ 42 х\хт + 42 XiXl + б2 х\х\ +
+ 12 2 xUiXm + 122 *'АХ + 12 2 XiXhX] + 242 ^ВД*™! . (35)
Рассмотрим сначала обе последние суммы, придавая I < к < i
определенные значения, между тем как т принимает все значения от 1 до Z;
их члены приводятся вследствие (26) и (27) к
12[1 + 26z + 2бг_1 bi + . . . + 2б2 . . . 6J 6*+i ... в» .
Фиксируя Z и /с и варьируя £ от А до п включительно, мы получаем еще
члены, содержащие Z*, таким образом, согласно предыдущему, имеем
6 2 Х]Х] + 12 2 XiXtXm + 12 2 XiXkXf + 24 2 Х^Х^ =
= 6 2 [1 + 26z + ... + 2б2... 6Z] X
X [1 + 26fe+i + 26ft+16fe+2 + ... + 26fe+i... fin]. (36)
Поэтому, полагая
si = 1 + 6i + fiz-i fiz + ... + 62 ... 61 = 1 + 61 si-u Si = 1, (37)
получим
6 2 (Sl —Mz-i) (Ул — 8k+\Tk+i) =
fc>Z
n-i
= 6,2i K—6bA)[^2+i + ^+2(1 — 6z+2) + ... + Гп(1 —fin)]. (38)
1=1
Фиксируя Z > m и полагая к = l, получим члены обеих сумм
12 2 -^ A Zm = 12 2 <Wi... бгбг-ы... 6*
з ' ' (39)
4 2 ^ Хт = 42' бпи-1. . . fiz, J
откуда находим
п
4 2 Х*Хт + 12 2 М2Хт = 4 2 № + 6l-lfiz + . . . + 62 . . . 60 X
Z=2
X (1 + 36z+1 + 36z+i6;+2 + ... + Збг-hi... fin) - (39 bis)
Наконец, полагая к = I = m <[ i, получим обе оставшиеся суммы
n
24+42 Х{Х1 = 2 (1 + 46,+1 + ... + 4fiw ... 6„). (40)
Z=i
Соединяя (39 bis) и (40), получим
n
2 2 [1 + 26z + ... +2б2... fij [1 + 3fiz+i + ... + 3fiz+i... fin] —
1=1
n
— 2(1 + 25m + 26z+i6z+2 + ... + 26z+1... fin) =
2 c2 2 N ,m3 « 3 mS ot 2 m2
Z=l
186
= 2 2 (4 - 6?£i) (Г? - fi£i?ti - Зб^гДо - Вп. (41)
Таким образом, из (38) и (41) мы выводим, наконец, что
n-i
Dn = 6 2 (**—6**£i)[2w(l — бД.0 + Tz2+2(l — бД.2) + • • •
... + Гп2(1~бп)] + Сп~5п, (42)
где
n
Cn = 2 2(sf — bULi) (Г? —бг+irii) =
z=i
71
2 , 2 2 ч /rn2 , c ™ ф , c2 m2
= 22 (*?- 6/V-i) (Г?+ 6/+1ГжГ/ + бДЛ) =
2j $Z (Г/ + б^+1^Г/+1 6Z+i6/+2rz+irz+2 614-161+2^/4-2) + 2sn =
Z=l
n-i
2 2 5Z (^ 6z4-i6z+2?V»-2) (Ti + бц-iTi+i + 6/4-16/4-2^4-2) + 24 =
n-i
Z=i
n-1
= 22^(1 + 6/+1) (1 + 26z+1 + 36m6z+2 + ... + 36z+1... 6n) +2$l. (43)
/=t
Положим теперь, что 6г* удовлетворяет неравенству
14<--^т (а<1)' (21)
отсюда следует, благодаря (30), что
Вп>—г, (30 bis)
4
так как, вследствие (31), справедливо тождество
1?+ fl+i = 1 + 26/+1 Тт + (1 + 6?+1) Г/+!,
из которого вытекает, что
и, кроме того,
2 1
1-а;>—.
па
Но, изменяя порядок членов в (28), мы, очевидно, можем заменить
выражение Маркова (30) суммой
Вп = 2 (**- вЛ-i) в ** (1 - 622) + *2 (1 - 6з) + ... + 4. (44)
z=i
187
Следовательно,
n-l
2 (*? - bUU)[Tli(l - 6w) + ... + T\(1 - б')]
n-l
2
Z=i
n-l
2 «f(l - 6f+i)[rf+i + УГ+2(1 - 6f+i) + • • • + К (1 - 6„)] <
n-l
< ^ *?(1 - Oz+i) (Я» + ef+iff+O < 5' + Я,,»*», (45)
так как
lTll< I P="a
1-1
9a
4 n'
Кроме того, замечая, что, благодаря (43),
Си < 22 s]- £i-[l + 2бг+1 + ... + Збг+i... 6„] + 2s*n < 6fi„rc2a,
получаем, наконец, вследствие (42) и (45), что
Dn < 6В2п + 125п п*« . (46)
Очевидно, вычисления останутся те же, если вместо Dn = Dni будем
вычислять
Dkm = 3R [Xm + Xm+i + ... + JWP; (47)
(k)
надо будет только заменять везде Т\ через Ti и 5/ через
5/т)= 1 + 6, + 6,_t6z + ... + бт+1 ...6и
так что окончательное неравенство (46) заменится неравенством
Dkm < QBkm + 12Bftmw2a. (48)
Легко теперь проверить, что 5n, Bkn и /)ьп удовлетворяют условиям
теоремы A bis, каково бы «и было ояределенное число a < 7з (в
неравенстве (21)). В самом деле, при q < а, благодаря (30 bis),
Вп п1-2*-*
n2Q 4
будет бесконечно возрастать.
Затем, вследствие (48),
Dkm ^o \2п*>
< о +
В\ В km
km
Благодаря (5 bis), нам следует рассматривать только значения Bkm>
> п^Увп; таким образом, чтобы убедиться, что условие (5) соблюдено,
188
достаточно заметить, что
п2а
=г < 2гг2а-^-'/2+а/2 (50)
п* VBn
стремится к нулю вместе с 1/л, если q < а и сколь угодно близко к
данному а < 7з, что и требовалось доказать.
Примечание. В случае, когда 6; > 0, можно гораздо проще
получить требуемый результат, так как доказательство неравенства
km
где Р — определенное число, не зависящее от т и к, не представляет
труда при любом а < 1. Таким образом, при условии бг- > 0, получаем
более общее утверждение, что предельная теорема применима всегда, когда
Вп/п2а бесконечно растет, что, в частности, имеет место, если а < 72, так
как все члены в формуле (28) имеют одинаковый знак, вследствие чего
порядок Вп не менее п.
3. Я бы хотел указать в заключение, что, вообще, приведение
зависимых величин к величинам частично зависимым часто может быть
осуществлено при помощи того же приема, который мы применили к цепям
Маркова.
Каковы бы ни были рассматриваемые зависимые величины Хи хг, ...,
хп, во всех случаях, когда их изучение возможно при помощи теории
вероятностей, они представляются явно или неявно как функции некоторых
независимых (в смысле теории вероятностей) величин щ, иг, ..., ит,
число которых т (произвольное, когда величины Х{ могут получать лишь
ограниченное число известных значений) не может, вообще, быть меньше
п, когда Х{ изменяются непрерывно. Выбор независимых переменных щ,
их число т ^>п и функции от них, представляющие х\, я2, ..., хп,
довольно произвольны, но, по крайней мере, теоретически можно положить
т = п и, не нарушая существенным образом общности, ограничиться
рассмотрением случая, когда
Xi = Fi(Ui, U2, . . . , Mn), %2 = F2{Ui, . .. , Un), . • • , Xn =Fn(Ui, ..., Un), (51)
где щ — независимые величины.
Положим, что величины х\, хг, . .., хп расположены в естественной
последовательности (например, во времени), так что закон причинности
дает основание утверждать, что раз (по предположению) они не связаны
функциональной зависимостью, знание х\, хг, ..., xn-i не позволяет
полностью определить хп, мы долж(ны допустить, что эти практически важные
последовательности могут быть представлены в виде4
xt = Fi{Ui), хг — Fi(uu u2), .. ., xn-i = Fn-i(uu ..., un-i)
Хп = Fn(uu иг, . .. , un
(52)
4 Если приходится рассматривать одновременно системы связанных между собой
величин (как в п. 23 моем цитарошапной работы) х„, уп, zn, нужно будет ввести
соответствующие независимые переменные unj vn, »n-
1Й9
Примером такой системы равенств являются рассмотренные нами выше
уравнения (19). Часто окажется возможным последовательно исключить
величины щ, чтобы выявить непосредственную связь между каждым хп
и предшествующими ему Х\, хо, . . . , хп-и Таким образом, получится экви •
валентная система
х{ = <pi(ai), x2 = фг(^ь и*), ..., хп = Фя (si, ^2, • • • i Sn-i, ип), (53)
в которой каждое £п является функцией всех предшествующих х\ и нового
случайного элемента ип, независимого от всех предыдущих хи который
необходим для полного определения значения хп.
Случай простых цепей Маркова дает нам пример (18), где после
исключения функций хп = фп получаем выражение для хп = фп, зависящее
только от предыдущей x7,-i и от новой независимой случайной величины ип.
Естественно назвать простыми цепями все последовательности величин,
обладающие свойством, что
Хп = фп (Xn-U Un)- (54)
Марков рассматривал также (сложные) цепи событий £, в которых
результаты (двух) предшествующих опытов ((п— 1)-го и (п — 2)-го) вполне
определяют вероятность появления Е в п-м опыте, каковы бы ни были
результаты всех остальных предшествующих опытов.
Легко видеть, что этот случай может быть приведен к системе
уравнений
Хп = фп(Яп-2, Xn-U ип), (55)
и каждый раз, когда задача может быть сведена к системе вида (55),
естественно говорить, что величины хп образуют цепь второго порядка.
Вообще, если имеем
*п = фп(#п-Л, • . • ,*п-1, "л)» (56)
мы будем говорить, что величины х\ образуют цепь Маркова порядка к.
Величины хп, образующие цепь Маркова, естественно представляются
как простейшие после последовательности величин частично зависимых,
которые соответствуют случаю, когда в уравнениях (51) функции Fn
содержат лишь (Ограниченное число независимых случайных величин, так что
хп = Fn(un-h, . .., ип). (57)
Я не буду останавливаться на распространении полученного в п. 2
результата на более или менее общие сложные цепи Маркова. Но мне
представляется интересным изучение 'естественно возникающих
последовательностей, которые не являются цепями Маркова. Таков, например, случай,
когда хп+1 = фп+1(яп, ип, ип+\). Вообще для удобства вычислений нужно
будет разложить Fn(uu . . . , ип) в ряд многочленов, так как тогда все
математические ожидания легко выразятся при помощи математического
ожидания степеней щ.
Предположим, что Fm представлено в виде5
5 Не ограничивая общности, можно принять Ш(хп) « 0.
100
Xin = Fm(uu ц2, ..., un) = P% (um) + P® (ито> um_i) + ...
• • • + Pm (Hm, Um-U . . ., Um~k) + . . . + P™ ("m, • • -, Щ) •
Если для достаточно больших к вероятность неравенства
<82Ж(Х1 + ... + Хт)^, (58)
где 8 —данная произвольно малая величина, становится меньше, чем 1/я6г
можно, как в случае цепей (19), заменить величины Хт частично
зависимыми величинами
Хт = Р% (Um) + Р<? (ит> ИтМ) + . . . + Р™ («т, • . ., Um-fc+i) ■
Следовательно, на основании теоремы A bis, для того чтобы предельная
теорема была прштожима к сумме
Xi + Х2 + ... + Хи,
достаточны следующие три условия:
1) существует такое определенное число L, что 9DUXZ)<L4;
2) ■ — = V- — X) при п — ос ;
3) [ад+ ... + *„,)? "^ { >
где JP — некоторое определенное число, когда
Ы(Х{ + ... + Хт)2>кУ&(Х< + ... + Хп)2.
Последнее неравенство, как видно из предыдущего, требует в общем
случае довольно кропотливых вычислений (когда t растет медленно по
сравнению с я). Напротив, когда t растет быстрее, в частности, когда
кгЫ1* V п
бесконечно расггет, проверка неравенства (59) становится излишней, так
как в этом случае мы можем использовать теорему С (п. 14 моей
цитированной статьи*), в условии которой легко освободиться от
предположения существования математических ожиданий степеней выше четвертой.
* Т. е. работы [8] настоящего тома. (Автор.)
^
10
О СУММАХ ЗАВИСИМЫХ ВЕЛИЧИН*
(Добавление к работе [9])
В моей работе под тем же заглавием ** установлена следующая
теорема:
Предельная теорема применима к простой цепи Маркова, если
вероятности перехода pk, Pk\ Як, Як" удовлетворяют неравенствам
Р'*>^'Р"*>^'Я>^'9'* >^, (2)
лишь бы имело место условие
а<
Однако для упрощения вычисления я при доказательстве ввел допол-
нительное условие ръ. — Qk , из которого следовало, что
lim pk = —.
к-*-оо ^
Это ограничение, как я утверждал, не является необходимым. После этого
мне удалось значительно упростить выкладки и в общем случае; поэтому
мне кажется полезным рассмотреть здесь общий случай p'h $J q"k не
только для того, чтобы рассеять всякие сомнения относительно правильности
теоремы в общем виде, но также и потому, что соответствующие
преобразования могут быть использованы и в других аналогичных случаях.
Я сохраняю здесь обозначения и номера формул упомянутой работы,
поэтому весьма существенно иметь под рукой эту работу.
Положим Y{ — Х{ — (pi — Qi), где Х{ принимает зиачепия +1 или
— 1 в зависимюсти от толо, происходит или нет событие Е в i-м опыте,
так что ЗЙ(Уг-) = 0.
* Addition a l'article «Sur les sommes de quantites dependantes». «Докл. АН СССР».
A (1928), 55-GO (121*).
** См. работу [9] настоящего тома. (Автор.)
3 '
192
После простого вычисления находим, что
m(YZi) = iPiQi, 5»(YiYk) = 4phqk6h+i... 6i; (60)
и затем, при любых £> к > £ > те,
«R( YmYtYuYi) = 16pmgm6m+1... б, [pftgfe6fe+1... fi, +
+ (?i - pi) (9k - Pft) 6«+i... 6ft... 6Л. (61)
Из (60) мы получаем формулу Маркова
45„ = Ж(У1 + у8 + ...+ Fn)2 = 4[p1g1(l + 262 + ... + 262...6П)+ ...
• • • + ?«?»] = 4 [AtZi + Д2Г22 + ... + ДПГ*], (62)
где Aft = phQh — bkPk-iqk-i.
Из неравенств (2) получаем
^>~ (63)
и, следовательно,
Вп > —-. (30 bis)
4
Вычислим теперь (i> к> I > т)
16Dn = Ж (У4 + 72 + ... + Fn)* = Зй[ 2; ll + 4 2 ГтГ? + 4 2 rfo +
+ 6 2 y?i1 + 12 2 YmYitf + 12 2 УтУг2Г, +
+ 122 Yi YkY{ + 242 YrrJiYnY^ = 16[ZJ^ + Д„], (35 bis)
где Dn получится, если взять в формуле (61) член puqubk+i... б,-, a Drt
соответствует члену (qi — Pi) {qu — Pk) 6/4-1... 6* этой же формулы.
Начнем с вычисления Dn. Замечая, что
Piqi + 2pi-iqi-xbi + ... + Iptqitb . .. 61 « Bt - Bi-U (64)
заключаем, что
71-1
D'n = 6 2 (Bi ~ Ям)[Рж?т^+1 + Д1+2Г2+2 + ... + АпГп] +
n
+ 42 (Pitftfc.. • bi + • • • + Pz-i?f-iu) Pi^ (1 + 3fi<+i + ... + Збм-i... вп) +
n
+ 2 (PiV (1 + 4ЙЛ-1 + ... + 46z+i. -. 6n) • (65)
Следовательно, Z)n' — An + С™, где
1
4„ = б^(й|- ДмНА.-иГн.! + /Wt+a +.... + ЛЛ],
1 -f- ai+2i i+2 f- • • • T iinX nj,
«-1 [(66)
П П I
Cn = 2 2 (Bi - Bi-i)ptfi(-Z?- 6^+0 - Sp?g?(rf- eliTm).
Введем теперь суммы *z, аналогичные введенным нами в
соответствующем месте:
Piqisi = рт + pi-rti-itn + • • • + Р19162... бг = Ph + Pz-igz-i6z5M. (67)
13 с. Н. Бернштей 193
Следовательно, на основании (64) имеем
pLqi (Bi — В^{) = pUUf— t>iPi-iQi-iS*-u (68)
откуда получим
n-i
D V QlPl л 2 . 2 //.пч
Bn = 2j AH-i*z + *>nqnsn. (09)
Следовательно,
n-i , 2 2
n-i 2 2
л pV/ 2 c2 Pl-iqi-i 2 \/A ™2 , . . лГ2ч
n-l 2
= C 2 M'*' Aw (pl+iql+lTf+l + Al+2fl+2 +... + AnTZn) <
n-l 2 2 2
< 6Sn + 6 2 P'gf* Az+i6gn7ti < 6(5n + п**Яя). (70)
/=i Ph-i#z+i
Прежде чем произвести соответствующее преобразовансие Сп, заметим, что
п п
2 Piq?(T2i- Sz+iTm) = 2 (#5* ~ &ip2i~iqi-{) T*> 0,
Z=l Z=l
так как
(P/9z — 6iPi-iqi-i) (1 — 6z) = (pz — 6zpz_i) (qi — 6zg/-i) +
+ 6/(pz-i — pz) (qt — gz-i) = Pz'V + 6/(P/-i — Pi)2
и
(Pz£z + 6iPi-iqi-i) (1 + 6z) = (pz + 6/^z-i) (qi + 6/p,_i) +
+ bi(Pi — Qi-i) (Qi — Pi-i) = P'fl" — 6z(pz-i — gz)2,
откуда следует, что piqi do 6/pz-igz-i > 0, каков бы ни был знак 6z.
Поэтому
п
Сп = < 2 2 \pkhf ~ pUqUbUUiT? - б?+1Г?+1) =
Z=i
п
= 22 А>? ??«?(* + бг+i) (1 + 28,+, + 36/+16,+2:Г,+2) <
< 12*« 2 ^^gfP^^< * „ад,. (71)
/=и p/+i?z+i A/+1 2
Перейдем теперь к вычислению Д/' — Л/ + Сп', где
п-1
Л/ = 6 (В/-Д/-1)(?/-л)Д/ (72)
104
при
п
Ri = 2U^-Pz) + 2(^-i-p,-_i)+ ... + 2(?ж -р,+1)]6,+1...б*
i=-/+i
<V = 4 V (pi?ifl2. ..'t>i + Pi-iqi-ibi) (qt - p<)2 (1 + 36z+i + ... + 36z+1... 6n) +
/=2
n
+ 2 M:(?z ~ P02fl + 46;+1 + ... +46/+1... fln]. (73)
Чтобы вычислить Ап, замечаем, что
Ri = 6Ж [Дж + (qw - Pz+i) (1 + 26z+2 + ... + 26z+2... 6„)]. (74)
Следовательно, полагая
Hi = (qi — Pi)pi+iqi+iRi — (qi+i — Р/ч-ОмД+Л+ь (75)
получим последовательно
Hi = [(?z ~ pi)pi^qi+i - (g/+i - Pi-i)8(+iPiqi]Bi +
+ (g/+i — pm)2 Pz?/6?+i (1 + 26/+2 + ... + 26/+2... 6n) =
= b'fi + (?z+i -pm)2p,gz6/+i(T?+i - 6z2+2rzt2), (76)
где
A/' = (qi — pi)pmqw — (?/+i — p/+i)p/«/6z+i =
= gzAz - PzPz'W+i = - P/Az + qiPiliq'i+i. (77)
Таким образом, возвращаясь к (72) и принимая во внимание (68),
находим, что
n-l 2 2
+ 6 2 (?z+i ~ P'+O2 si 6'+i [T'+i ~ бл-гГ/н-г]. (78)
z==1 Pz+i2/-h
Но вследствие (77) видим, что | Az | < Az.
С другой стороны,
|fl,|< У. 2(1-1){\-~)1~' <2п\
2 = /+1
следовательно,
/==1 Pz+ift+i
также, замечая, что
Ti+i - 6i+2Ti+2 < ^4
Az
195
заключаем, что вторая сумма в (78) меньше &Впп2а. Следовательно,
An < 18Впп*«. (79)
Переходим, наконец к СПу который можно представить в виде
п
Си' = 2 ^ (^-p02[p^ + 2pz-1^-i6z+... + 2p1g162...6/] (1 + 36ж + ...
71
... + Збг+1... в„) - 2 (qi - Pi)2Piqi{T\ - 6?+,2in). (73 bis)
Простое преобразование второй суммы приводит сначала к неравенству
I 2 [(«W - Pz-i)2Pz-i9i-i6? - (qi - Pi)2Piqi\ t | < \впп\ (80)
так как
(gt_i — pi-i)2Pi-jqi-A —(qi—Pi)*piqi ^ 1
<^ —— « .
Аг 2
Затем первую часть (73 bis) представляем в виде
2 S (* - Р<)2( W - Ф*^" ,»_) (Г? + 2бг+1Г/+1) =
Z=l
n-i
= 2 2 -—— sftto - pj)2pl+i?m(7« + 26i+17-i+1) -
,=1 Pi+ig^+i
-{qw-pl+lyPiqi6i+l(Tl+l + 261+2Tl+2)] + 2{qn - Pn)zpnqnsn < 65„nta,
так что
С,/<у-Япп2« (81)
Теперь, учитывая (70), (71), (79) и (81), получаем.
Dn < 6В\ + 32Впп2а. (46 bis)
Доказательство заканчивается, как в цитированном месте, так как при
помощи тех же вычислений мы получим неравенство
Dkm < 6B2hm + 32Bhmn2a, (48 bis)
которое равнозначно
9Л (Ym + Ym+i + ... + Ym+ky 128га2°
.<ь + ^7г?—; ГЪ Г*- \ъг>
[ая (Ym + Ym+l + ...+ 7т+Л)2]2 ая (Гт + ... + rm+h)2-
Таким образом, для применимости теоремы Л bis достаточпо, чтобы
существовало такое число Q > а, что одновременно
„2a-Q „С
—— ^0 —т=— 0.
Увп Увп
Но вследствие (30 bis) для этого, в частности, достаточно, чтобы a < */з-
11
ГЕОМЕТРИЧЕСКИЕ ОСНОВЫ ТЕОРИИ
КОРРЕЛЯЦИИ *
В этой работе я хотел бы указать новую точку зрения на подход к
общей проблеме зависимости между физическими величинами, не
связанными функционально, находя рациональную классификацию законов
корреляции между этими величинами по степени простоты того влияния,
которое оказывает одна величина на кривую распределения вероятностей
другой. Мне кажется, что теоретическая схема, в которой это влияние
слишком сложно, представляется мало интересной. Естественно,
следовательно, изучить сначала тот случай (ограничиваясь для определенности
рассмотрением двух величин), в котором фиксирование одной из величин
приводит лишь к перемещению кривой распределения другой величины,
без изменения ее формы; потом тот случай, в котором перемещение
сопровождается растяжением или сжатием в продольном направлении
(компенсирующимся соответствующей деформацией в поперечном направлении,
таким, чтобы общая площадь, ограниченная кривой, оставалась
неизменной). Мы встретим также, в частности, как предельный случай, важный
случай нормальной корреляции, и я полагаю, что обобщения, которые мы
получим этим способом, могут быть использованы в тех случаях, когда
нормальная корреляция будет неприменима.
1. Будем рассматривать две величины х и г/, изменяющиеся
непрерывно. Если каждый раз, когда одна из них, например z/, фиксирована,
другая обладает определенным законом распределения** вероятностей
fv(x), и наоборот, когда фиксировано х, распределение вероятностей у
представляется определенной функцией, Ц>х(у), то говорят, что величины
х ж у находятся в корреляции. Нетрудцо проверить, что необходимые
и достаточные условия того, чтобы неотрицательные функции двух
переменных fy(x) и фх(г/) * могли представлять указанные распределения
* Fondements geometriques de la theorie des correlations. «Metron» (Roma), 7,
№2 (1927), 3-27 (119*).
** Т. е. условной плотностью распределения х при фиксированном у. Вообще,
в настоящей работе распределения ©сеща задаются своей ллотнюстью, которая
обозначается обычно терминами .«закон» иди «функция» распределения. (Ред.)
197
вероятностей, состоят в том, что
оо оо
J/„(*)<& = J cp*(*/)<fy = 1 (1)
— оо —оо
и, кроме того, что
fv(x) = P(s) ,9,
где р(я) и Р(г/) — функции одной переменной. Тогда функции р(х) и
Р(у), которые будут вполне определены, если добавить условия
оо оо
J p(x)dx= J P(y)dy = i, (3)
—оо —оо
будут1, соответственно, функциями распределения вероятностей a priori
х и у и
z = F(*, у) = P(y)fy(x) = рИФх(у) (4)
будет поверхностью распределения вероятностей величин хну,
рассматриваемых совместно.
Условие (2), очевидно, эквивалентно (если предполагать функции
/у(х) и q>x(y) дважды дифференцируемыми) уравнению
дхду дхду
где
Ф(х, y)=lnfy(x), Ф,(х, у)=Ы(рх(у).
Очевидно, отнюдь не необходимо, чтобы хну могли действительно
прин/имать все вещественные значения от — ею до + сю.
Иногда не отдают себе отчета в том, что гипотеза существования
корреляций между двумя величинами должна соответствовать весьма
специальному физическому факту точно такой же природы (только немного
более сложному), как и гипотеза существования функциональной
зависимости. Таким образом на практике часто допускают серьезные ошибки,
отыскивая без достаточных оснований закон корреляции между двумя
сериями одновременных наблюдений и получая после сложных
вычислений коэффициенты, не имеющие никакого теоретического смысла. В
действительности, в то время как (вза/имно однозначное) функциональное
соотношение означает, что каждой данной величине у соответствует вполне
определенное значение х и наоборот, корреляция означает, что каждому
значению у соответствует определенная кривая /у(я), и, наоборот, каждому
значению х соответствует вполне определенная кривая ц>х(у). Поэтому эти
кривые фх(*/), /у(я) нужно рассматривать как материальные объекты,
которые зависят, соответственно, от параметров х и у и принимают
определенные формы и положение, ко-гда заданы соответствующие значения
параметров (которые мы вправе рассматривать как причины этих
деформаций и перемещений).
198
Становясь на эту точку зрения, мы будем рассматривать влияние х
на у как простейшее, если кривая <р*(у) остается кедеформированной,
конгруентной самой себе, каково бы ни было данное значение х (если она
не претерпевает также и никакого перемещения, оставаясь фиксированной,
то х и у независимы; в этом случае fy(x) будет, согласно (2), обладать
тем же свойством; этот тривиальный случай мы исключим из нашего
исследования). Мы говорим тогда, что у твердо по отношению к х\ этот факт
находит свое выражение, в частности, в форме функции Ф*(г/), которая
имеет вид
Ф*Ы= Q(y —Ф(*)), (6)
1Де Q(y) есть функция одного переменного, удовлетворяющая условию
5 Q(y)dy= 1,
а ф(х)~ некоторая данная функция х.
A priori ниоткуда не следует, что влияние у на х будет той же природы.
Но если это действительно так, т. е. если х также твердо по отношению
к у, то мы будем говорить, что х и у находятся в твердой корреляции.
Таким образом, существование твердой корреляции между двумя
переменными х и у соответствует тому, что каждая из них, как всегда,
полностью определяет среднее значение другой, но, кроме того, действие
множества причин, которые отклоняют каждую переменную от
соответствующего среднего, остается одним и тем же, каково бы ни было значение
другой величины. Легко видеть, что нормальная корреляция есть частный
случай твердой корреляции.
В самом деле, в соответствии с обычным определением, говорят, что
переменные х и у находятся в нормальной корреляции, если поверхность
совместного распределения вероятностей х и у выражается (после
соответствующего изменения начала) функцией
i ai2jc2+cJ2y2-2figa1xy
z = F(x,y) = \ е. aWd-*> , (7)
где а и 0i — произвольные положительные постоянные и постоянная R
(называемая коэффициентом корреляции) удовлетворяет неравенству
1ДК 1.
Следовательно, в этом случае имеем тождественно
F(x,y) =
так что
х7
е 2о*'
аУ"2л
a,
cr
е 2Сч'(1-Я2)
at 1/"2я(1 — i?2)
V'
е~ 2<7>2
аУ2к
о
/3c-JK-y\2
е 2cr2(l-#-)
oV2n(l-R2)
(y-R~x)2
e ~ 2сч2(1-К*)
ai V 2я(Ч — R2)
199
(x-R-y\2
-!Л2
_ N Pi '
e 2cr2d-H2)
fv{x) = (9)
a|/2jt(l-i?2)
что и доказывает, что х л у одновременно тверды, когда корреляция
нормальна.
Заметим, что в этом случае кривая твердого распределения
вероятностей каждой из переменных, когда другая фиксирована, есть кривая,
соответствующая закону Гаусса.
2, Мы предполагаем найти наиболее общую форму твердой корреляции.
Ответ на этот вопрос дается следующей теоремой.
Пусть z = F(x, у), где F(x, у) остается конечной, как и ее
производные первых четырех порядков, представляет поверхность распределения
вероятностей величин х и у, которые находятся в твердой корреляции;
тогда: или
— hiF(x, у) = Aeh*+k* + Bek* + Ce^v + Dx + Ey + #, (10)
где А, В, С — произвольные положительные постоянные, а постоянные D,
Е, /с, к\ удовлетворяют неравенствам Dk <С 0, Ekt < 0 (постоянная Н опре-
оо оо
деляется из условия \ \ F(x, y)dxdy = 1), или же
—оо —оо
— In F(x, у) = ах2 + 2Ьху + су2 + dx + ey + h, (11)
где а > 0, ас — Ь2 > 0; постоянные а, Ь, с, d, e, удовлетворяющие этим
неравенствам, (в остальном) произвольны, a h определяется условием
00 ОО
^ ^ F(x> U)dxdy = I*
—оо —оо
Прежде чем перейти к доказательству, заметим, что формула (11),
которая соответствует наиболее общей форме нормальной корреляции,
может быть рассмотрена как предельный случай формулы (10), к которой
последняя сводится, когда к га к\ одновременно стремятся к нулю, причем
отношение к/к± стремится к определенному пределу, отличному от 0 и
от ± оо. В самом деле, для того, чтобы выражение (10) не могло
принимать бесконечно возрастающих отрицательных значений, когда к и к\
стремятся к нулю (без того, чтобы lnF(x, у) сводился к сумме двух
функций, зависящих, соответственно, только от я и только от г/, что
соответствует независимости этих двух переменных), необходимо, чтобы в то же
время А, В, С, D, Е, Н неограниченно возрастали таким образом, что
Km Akki = 2Ь, Цщ(Л + В) к2 = 2а;
lim(A + C)h2 = 2с, lim[(A + В) к + D] = d;
lim[(A + C)ki + Е] = е, Km (А +В + С + H) = h, (12)
что легко проверяется с помощью формулы
и2
еи= 1 + и + — +....
* Формулы (10) и (11) не исчерпывают, однако, всех видов твердой корреляции.
См. сноску * на стр. 202. (Ред.)
200
Заметим, кроме того, что каковы бы ни были заданные числа а, Ь, с, d,
*> /, удовлетворяющие условиям формулированной теоремы, их всегда
можно получить с помощью перехода к пределу, указанного
соотношениями (12), произвольно фиксируя отношение k/ki = X, лишь бы ХЬ > 0.
Предельный коэффициент нормальной корреляции R = — Ъ /уас будет
во всяком случае равен
R = ± Пш ~ Л (13)
V (А + В) (А + С)
Перейдем теперь к доказательству нашей теоремы.
Из формулы (4) мы выводим
-lnF(x,y)=-lnP(y)-lnfy(x)=-lnp(x)-~ljiyx(y), (14)
а твердость корреляции выражается условиями, что
-lnfy(x) = Ф(я —<pi(y)), —1пф*(у) = Oi(y-<p(s)), (15)
где Ф(и), Oi(w), ф(и), ф4 (и)-—функции только одной переменной,
которые мы и должны определить. Полагая — 1пР(т/) =F(y), — \ър(х) =
= Fi(:r), уравнение (14) приведем к виду
F(V)+ Ф(х-<?№)) = Fi(z)+ Ф1(у- <р(х)). (16)
Дифференцируя равенство (16) последовательно по х и по z/, получим
ф/(г/)Ф^(^~ф1(г/)) = ф'(*)Ф1"(»-ф(*)). (17)
По предположению, ф'(я) не является тождественным нулем (так как мы
исключили случай независимости х и у). Поэтому, если существует хотя
бы одно значение г/, при котором ф^ (у) = 0, это влечет тождественное
равенство Ф" = 0; второй член (16) сводится тогда к сумме двух
функций одного переменного х и у соответственно, что опять приводит нас
к исключенной гипотезе независимости этих переменных. Следовательно,
мы можем положить In Ф" = и, In Ф/' = v и, дифференцируя по х и по у
логарифмы обеих частей (17), получим
Ф/1(»)в,,(«-Ф1(»)) = Ф,И^,(»-ф(^))- (18)
Таким образом, деля (18) на (17), будем иметь
и" е~" = i/V-» = <?, (19)
где G должна быть константой. В самом деле, а я и являются функциями
переменных х — <pi(y) и у — <$(х) соответственно, которые не могут быть
функционально связанными, так как в этом случае получилось бы тож-
1
дество ®'(х) = — = А, где А — постоянная, так что ф(#) = Ах + я,
Ч>\ (У)
ф!(г/) = — + Ъ. Но в таком случае уравнение (16) принимает вид
F(y)-Fi(x) + F2(Ax~y)=0,
который показывает, что Ах — у одновременно не зависит от х и от г/,
что невозможно, ибо это влечет за собой равенство нулю математического
ожидания (Ах — у)2,
201
Итак, все возможные законы твердой корреляции получаются
интегрированием уравнения (19).
Предположим сначала, что G ^ 0. Тогда общий интеграл имеет вид
2h2
" (*) = In ~^Z. ^-чт/ (200
откуда
Ф"(х) =
2W-
2'
(20)
е 2 — е 2
где Л и хо — произвольные постоянные, и так как Ф"<^0 несовместимо
с условием, что F(x, у) остается конечным, мы должны предположить1,
что G > 0. Интегрируя (20), мы получим
Ф(*) = -"^1п
+ 1х + т,
(21)
-
е
Х—Хо
h
2
—
- е
х—х0
h
2
2
а
где 1жт — две новые постоянные. Но выражение (21) для функции Ф(х)
неприемлемо, так как согласно (15)
где I ж т — функции у; следовательно, если х неограниченно возрастает
в том направлении, где lx <^0, fy(x) должно неограниченно увеличиваться
и не может удовлетворять (1). Остается, таким образом*, только один
случай, когда G = 0. Тогда
а(х) = кх + /, v(x) = kix + h,
откуда
Ф"(х) = aehx, Ф"(у) = aieh*,
(22)
где а и ах — две положительные постоянные, а к и /ci — две любые
постоянные.
Положим сначала к = /ci = 0. В этом случае
ф (я) = -|- s2 + for + с, ф, (у) = у г/2 + bty + cu (23)
и, так как из (17) следует, что <p(s) и ф1 (г/) — линейные функции, мы
заключаем, что первый член (16) есть полином второй степени от х,
a F(y), по аналогичным соображениям, есть полином второй степени от у.
1 Анализ предположения G < О, которое можно было бы сделать, предполагая,
что F (х, у) может неограниченно возрастать на конечном расстоянии, будет
произведен далее.
* Уравнение (19), кроме решения (20), в котором G должно быть
неотрицательным, имеет еще следующее решение:
2h2
Ф"(х) = — , (20' bis)
G [е(*-хо)'Ч2 + e-(x-x0)h/2] 2 v '
где 6^0. В этой работе решение (207 bis) осталось неизученным, соответствующая
ему плотность распределения приведена в комментарии. (Ред.)
202
Таким образом, согласно (14), — lnF(x1 у) есть полином второй степени,
и мы приходим к выражению (И), которое соответствует нормальной
корреляции.
Исследуем далее случай, в котором к ^0, h = 0; мы получим тогда
°{Х) = i вкХ + ЬХ + С' ф1 (^/) = у I/2 + hy + с. (24)
Легко видеть, что этот случай должен быть исключен. В самом деле,
согласно (17),
q>i'(y)aeklx-My» = <v'(x)ai;
таким образом,
Щ\ (y)e~h^y) = aq>'(x)e-kx = A,
где А — постоянная. Следовательно, существуют константы В и Ви такие,
что
- 4" е~Шу) = Ау +В, а1ф (х) = —еь* + Ви (25)
к к
и, подставляя (24) и (25) в (16), получили бы
-hiF(x, y)=F(y)- Ау^В екх + Ъ(х-^(у))+С =
к
2
Аек* В{
kui а{
2
Aekx Bi
У
/wt ai J
+ С+/",(*) =
где h — постоянная; мы видим, таким образом, что так как коэффициент
при екх может становиться положительным или отрицательным в
зависимости от выбора г/, то существуют значения у, для которых х
неограниченно возрастает в ту сторону, где кх > 0; тогда F(x, у) тоже
неограниченно возрастает, что недопустимо.
Мы имеем, таким образом, единственно возможное предположение,
что kki 5?0. В этом случае
ф (*) = TF екХ + Dx + с' ф1 ^ = "S екхУ + ЕУ + c*> (26)
и, так как Ф(^) и Ф{(у) не должны принимать бесконечно больших
отрицательных значений, нужно предположить, что Dk < 0, Eki < 0.
В таком ^случае уравнение (17) приводится к виду
аф/Ы^(*~ф1(1/)) = avy'(х) ек*У-^х)\
откуда
aiq>'(x)e-<kx+k*4Xx)) = acpl (у)е-^У+к^У^ = - Акки (27)
где А — произвольная постоянная.
203
Из (27) выводим с помощью интегрирования
а1е-*»Ф(*) = (Aekx + С)к?, ае~к^У) = (Aek>v + В) к2, (28)
где В и С — постоянные. Таким образом, уравнение (16) принимает вид
F(y)+ ehx(Aek>y + B) + D
= Fi (х) + ек>У (Aek* + С) + E
x + — ln(Aek>v + В)
к
у + —ln(Aek* + С)
к±
+ d =
+ du (29)
откуда следует, что
— In F(x, у) = Aek*+k>v + Bek* + Ce^v + Dx + Ey + #, (10)
где Н — постоянная, определяемая из условия
со оо
5 5 F(x> У) dxdy = !»
—ОО —ОО
которое может быть осуществлено, если А > 0, 2? > 0, С > 0, Z)/c < 0
и £fei < 0, ибо при этих неравенствах будем иметь для достаточно больших
х2 + у2
F(x,y) < e-<fi>*|+|*y|+H>.
Таким образом, теорема доказана.
3. Прибавим несколько замечаний. Уравнения (26), с точностью до
изменения начала координат, могут быть представлены в виде
Ф(1) = 2)(д;-у) + с, ф1(у) = е(у-^)±С, (26 bis)
Ai
так что минимум Ф(х) п Oi(y) достигается при х = 0, у = 0,
соответственно.
Таким образом, мы имеем
Ф*0/)= <>(» —ф(*)), /*(*) = Qi(^ —Ф1(У)),
(6 bis)
где
bit/
d(? -х Б I * -у
(30)
причем Xi и Л определяются из условия (1), так что
к / D \ * fct / £ \ *.
Xi =
S)
Я, =
К)
КГ
где Г — классическая функция Эйлера.
Формулы (30) обобщают закон ошибок Гаусса, который является для
них предельным, когда к и &i стремятся к нулю (при условии, что Ек\
и Dk стремятся к конечным отрицательным пределам).
Интересно отметить, что замена переменных ehx = и приводит, напри-
204
мер, первую из кривых (30) к виду
- Du
Ai
к
е
к
который представляет одну из кривых распределения Пирсона. Нет
нужды говорить, что после замены переменных и = ekx, v = ек^, которая
привела бы к распределениям вероятностей, не совпадающим с Пирсонов-
скимн, новые переменные не будут уже связаны твердой корреляцией;
позднее мы вернемся к этому вопросу обобщения твердой корреляции,
который, таким образом, естественно возникает.
Но прежде продолжим наш общий обзор свойств, которые
соответствуют поверхности распределения вероятностей, определяемой
уравнением (10). Легко видеть, что она имеет единственную вершину, которую
мы можем принять за начало координат (она будет модой хну); это
нас приведет к соотношениям между коэффициентами
(А + В) к + D = 0, (А + С)*, + Е = 0. (31)
Тогда, принимая во внимание, что, согласно (26 bis), а =—Dky
а{ = — Еки мы выводим из (28) и (31)
(А + С)е~кМх) = декх + с, (А + B)e~h^y) = Ае*я + В7
откуда заключаем, что
1 Aeh* + С t ч 1 Ае^У + В
— монотонные функции, которые обращаются в нуль при х = 0, г/ = 0,
соответственно. Кривые
1 1 Aek* + C 1 т Ле** + В
* А4 А Л-С к А Л- В К
— линии модальной регрессии у но х и х по г/, соответственно. Поскольку
мы имеем дело с твердой корреляцией, то очевидно, что мода
перемещается так же, как и среднее или медиана или любая точка кривой
распределения, сдвигающейся параллельно самой себе. Таким образам, те
же уравнения (32) представляют также, с точностью до изменения
начала, линии средней регрессии у и ху соответственно. Легко видеть,
что касательная, например, к первой из этих кривых имеет угло-
к А
вой коэффициент : ——, который стремится к постоянной
^ fci A + Ce~hx
(коэффициенту нормальной регрессии), когда Ач и к стремятся к. нулю.
Во всех случаях эта первая кривая имеет асимптотами
к 1 , А 1, С
У = -1ГХ-1ГЫ^ГТ^ и */ = - —1п-
Ai At A + С * ki A + C
в направлении, где кх > 0 и где кх < 0, соответственно.
Замечая, таким образом, что мода (рх(у) стремится к фиксированному
пределу, когда х возрастает в некотором направлении, мы видим, что
205
смещение кривой <рх(у) ограничено (в случае твердой корреляции,
определенной формулой (10)) по крайней мере с одной стороны.
Следовательно, нормальную корреляцию, рассматриваемую как
частный -случай твердой корреляции, мы можем характеризовать различными
способами. Так, например, твердая корреляция нормальна, если при х,
неограниченно возрастающем, неважно, в какую сторону, среднее у тоже
неограниченно растет.
С аналитической точки зрения нужно заметить также, что
дополнительное предположение, что In F(x, у) есть алгебраическая функция>
позволяет утверждать, что такая твердая корреляция нормальна.
Не настаивая на приложениях предыдущего, замечу еще, что
априорное распределение вероятностей, как легко видеть, представляется
функциями
в_
E
Л.
e~
Очевидно, что эти функции распределения имеют конечные моменты
всех порядков, вычисление которых производится с применением теории
эйлеровской функции Г, ибо, полагая — Djk = р, имеем
[ e-^kx-Dxdx = —-Г(Р)ц-Р = ф(р)
•> /С
Л
^ хше-№ -Dx dx = — ф(т> (р),
—оо
каково бы ни было целое т. Так, например, математическое ожидание
квадрата отклонения от среднего для кривой распределения (30)
/ kx
pi(x) = Xie v k
есть
ft2 \ Г(В) / Dk 2D2 •'"
причем асимптотическое разложение сводится к своему первому члену
1/Dk, когда кривая Q\(x) стремится к нормальной кривой, которая
получается при неограниченном приближении к к нулю и бесконечном
возрастании D.
4. Изучая до оих пор твердую корреляцию, мы предполагали F(x, у)
конечной для всех значений х и у. Допустим теперь, что F(x, у) может
в некоторых точках возрастать до бесконечности, оставаясь, вообще
говоря, непрерывной и обладающей производными первых четырех по-
206
рядков. При этих условиях все рассуждения п. 2 сохраняются, за
исключением вывода, что Ф" > О, Ф" > 0; следовательно, мы вновь приходим
к тому же уравнению (19), однако мы должны еще рассматривать
функцию (21), где G = — р < 0, что приводит к кривым распределения
вероятностей
/v(*) =
^e-/(x-<p,(y))
*-ф](У)
*-<Pi(i/) 12/Р'
h
Ф*Ы =
Xie-My-Mx))
(33)
у-ср(х)
у-(р(х) Т2/Рщ
— е
где Я, Xi, Z, /г, Zi, /г4 —постоянные, которые, без огранич-ения общности, мы
будем предполагать положительными.
Принимая во внимание (17), получим для определения у(х) и qpi(*/)
равенство
h% (У)
h*<t'(x)
х-Ф.(у)
x-q>i(y)
У-Ч>(х)
-hx
у-Ф(х)
— е
(34)
Придавая у два различных фиксированных значения г/о и уи выводим
отсюда, что
Aehx + В
е/г,ф(ос) _
Ceh* + D '
(35)
где А, Б, С, D — фиксированные постоянные. Замечая, с другой стороны,
что равенство (34) требует, чтобы q(x) и q>i(y) были взаимно обратными
функциями, мы можем представить (35) в виде
ph\x ._
Следовательно,
еЛ<р,(т/) =
• Ceh<y
(35 bis)
Наконец, из (2) мы выводим
р(х)
I
Р{У) Ъ
е-/(х-ф|(у))+7|(у-ф(зс))
, 2
/
А — СеЛч/
Dehv — В
hx
/£
у -В
"Сс.^у J
откуда
р(х)= lie
= и^-^
Aehx + 5
СеЛ* + D J
i hx
[(Aeb* + B){Ce** + D)\ *ev (36)
207
и
Р(У)= №~Uv
В — Deh*v
А _ Ceh*v
{ hxxj
h
[(B—Deh>v)(A—Ceh>y)] vcp, (36bis)
где |Lii и fi — постоянные, которые определяются из условия (3).
В силу (33) необходимо, очевидно, чтобы р > 2. Далее, если желать
только того, чтобы эти формулы были справедливы для всех значений
х > ф!(г/) иу>ф(а;), нужно, чтобы ф>'(х) < О, т. е., чтобы AD — ВС < 0.
При этих условиях будет достаточно предположить, кроме того, что
А/С > 0 и D/C < 0, ибо в этом случае линия перемещения у = <р(х) будет
находиться в первом квадранте, образуемом прямыми
y = iln4' *=iln(~^)'
которые являются ее асимптотами, и, кроме того, поверхность
распределения вероятностей х, у будет находиться в том же квадранте, причем
формулы (36) и (36 bis) будут применимы, поскольку множители Aehx + В
и В — DehlV не обращаются в нуль в рассматриваемой области.
Зависимость между у и х увеличивается и стремится к функциональной
зависимости, когда р уменьшается, приближаясь к 2. Теперь поверхность
распределения не может распространяться на всю плоскость, ее уравнением
будет
px(fc/p-Q+y(fct/p-Ji)
*■(*, у)
(Cexh+vh} + /?е*Л» — Aexh — В)
2/Р
Пусть, например, h = hi=A = C=— 2Э = 1; I = h== 1/р; тогда
(с точностью до числового множителя)
_ * _ i l
(х' У> " (е*+У — ех — еУ — В)21 ~~ (ev + В)21 (ех~^^ — I)21
где
еУ + В 1
ъ(у) = ъ-^> в>-и о<к-.
5. Замена переменных еах = X, еъУ = Y преобразует твердую
корреляцию в просто упругую корреляцию, т. е. такую, что при фиксированном
X кривая распределения ер*(У) испытывает определенное продольное
растяжение (или сжатие) (сопровождаемое соответствующей поперечной
деформацией), и наоборот. Таким образом, все виды просто упругой
корреляции получаются как следствия предшествующих формул.
Вообще мне представляется важным обобщение твердой корреляции
посредством замены переменных
X = f(x), У = Ф(г/); (37)
будем говорить, что X и Y находятся в относительно твердой корреляции,
если благодаря подходящему выбору / и ф можно образовать элементар-
208
ные количества х и у, которые находились бы в твердой корреляции.
Таким образом, наиболее общая относительно твердая корреляция,
соответствующая теореме из п. 2, представляется в виде
F(z, у) = е-^(^)ф(1/)-^Ьф(1/)/р-1(<г)ф?-1(1/)//(а:)ф'(1/), (38)
где р > О, q > О, или же
F(x, у) = е^*П*)+ЩхШу)+с<Г(у))/'(х)ч'(у) # (38 bis)
Можно доказать, что заменой переменных (37), где f(x) и ф(у) —
монотонные функции, возможно, вообще, преобразовать любую корреляцию
в прямолинейную (т. е. такую, где линии средней регрессии будут
прямыми). Прямолинейная корреляция, получаемая в результате этих
преобразований, будет нормальной только в том случае, когда поверхность
распределения задается формулой (38bis). Бели имеется относительно
твердая корреляция, характеризуемая (38), ее (невозможно свести
указанным преобразованием к корреляции одновременно прямолинейной и
твердой.
Таким образом, с нашей точки зрения, отсутствие относительной
твердости между двумя переменными я и у означает чаще всего, что их
разделение теоретически необосновано и что более рационально рассматривать
некоторые комбинации этих величин; проблема выбора этих функций двух
переменных требовала бы специального изучения в каждом случае, в
зависимости от физической природы вопроса.
Однако геометрические принципы, которые привели нас к понятию
твердой (абсолютно) корреляции, подводят нас к рассмотрению ее
обобщений, которые соответствуют случаю, когда кривые условных распределений
вероятностей fy(x) и <рх(у) по каждому переменному испытывают
параллельное перемещение, сопровождаемое расширением (сжатием).
В этом случае мы будем говорить, что корреляция изогенна.
Таким образом, изогенная корреляция характеризуется тем свойством,
что
fy(x) = fMy)x-<pi(y))Xi(y), )
1 (39)
ф*Ы = Л(М*)у--ф (*))*•(*)• )
6. Для того, чтобы показать, что предлагаемые нами обобщения не
являются произвольными, а соответствуют обычным понятиям теории
вероятностей, полезно будет представлять себе каждую из величин х и у
составленной из очень большого числа малых элементов h и щ,
соответственно. Не уточняя здесь наше утверждение, заметим только, что если
п
х = 2 £*! а Si независимы пли, вообще, зависимость между достаточно
удаленными элементами весьма слаба, то величина х удовлетворяет
закону Гаусса
1 е 2сг2
сгУ2лГ
зависящему от двух параметров а и о, первый из которых определяет
смещение распределения, а второй — его растянутость. Если влияние у
14 с. Н. Бернштейн
209
на х не является непосредственным, а состоит в том, что при фиксаций
у все элементы ^ величины х испытывают более или менее существенные
индивидуальные изменения, где случай вмешивается произвольным
образом, при условии лишь, что достаточно удаленные элементы |г- остаются
почти независимыми, можно утверждать, как это будет следовать из
дальнейшего изложения, что кривая распределения вероятностей fy(x)
величины х будет кривой Гаусса, у которой а и а могут быть функциями
от у.
Как следует из предыдущего, предположение, что а постоянная, т. е.
что х твердо относительно у и что у также твердо относительно х, влечет
за собой, что х и у нормально коррелировать (даже не предполагая, что
фя(у) есть кривая Гаусса, а допуская только, что смещение кривой
распределения х неограниченно увеличивается с у).
Мы пришли теперь к вопросу, какой же будет корреляция (не
твердая), которая следует из предположения, что fy(x) и q>x(у) — кривые
Гаусса, причем оба параметра первой суть любые функции у и оба
параметра второй также любые функции х.
Ответ на этот вопрос дает
Теорема. Если }у(х) и ц>х(у) — любые кривые Гаусса, поверхность
распределения вероятностей в наиболее общей форме представляется
(с точностью до изменения начала координат) функцией
z = pix^ у\ = }ie-(Cx2y*+Exi+E\y>-2Dx*y-2D{xy--2Hxy)^ fAQ\
где С, Е, Ei — положительные постоянные, удовлетворяющие неравенствам
СЕ > Z)2, CEi > В{, постоянная Н произвольна и h определяется из
условия
J \F{x,y)dxdy = l.
Если С стремится к нулю, D и Dt тоже должны стремиться к нулю,
и тогда (для того, чтобы F стремилось к нулю на бесконечности)
предыдущие неравенства заменяются неравенством ЕЕ^ > Я2, причем
поверхность распределения сводится к нормальной поверхности.
Действительно, по предположению, имеем
ЛУ)'
e-Hy)[x-viiu)]2
-М*)[1/-ф(*)Р
(39 bis)
Следовательно, беря логарифм обоих членов (4), получим
- lnF(x, у) = F(y) + U(y)[x - ф1(у)Р = Fi(x) + Цх)[у - q>(*)]2, (41)
где
Л(х) =-lap(*)--iIn-^
2 я
210
Дифференцируя (41) два раза по х и один раз по уч находим
й(у)=уЬ"(х)-(Ч*Мх))". (42)
Следовательно, к"(х) = 2С, (Х(х)ц(х))" = 2D постоянны, и необходимо,
чтобы
МУ) = СУ2 ~ 2D у + Е> Ч*) = Сх* - 2Dtx + Еи
Цх)<р(х) = Dx* + Hx + K ^
и, аналогично,
ЧУ)ф1([/)= D^ + Ha + Ki.
Из (41) мы выводим, таким образом, что
-1п/>, г/) = ^(г/) + (Сг/2-2Дг/ + £)о:2-2^(Аг/2 + Я^ + ^1) +
(Z)i?/2 -f Нху + #i)2
+ h-Wy + E = Л (*} + (Сг2 - 2DiX + Ei)y2-
- 2у (Dx* + Нх+К) + Щ^^ + *Г = CrV- - 2Dy^ -
C;z2 — W\X + £t
— 2Z)to:[/2 — 2Hxy + £z2 + E{y2 — 2Ktx — 2Ky + L,
где L — новая постоянная си #i = H.
Выбирая подходящим образом начало координат, можем сделать
Ki = К = 0, и мы приходим к формуле (40), причем указанные там
неравенства нужны для того, чтобы %i(x)> 0 и Х(х)>0; в частности, если
С — 0, мы получаем нормальную корреляцию, поскольку из Xi(y)>0 и
К(х) > 0 следует тогда, что Z> = Z>i = 0.
В общем случае, когда С > 0, линии средней регрессии имеют
уравнения
Д*2 + Яг Ау» + Ду
Г = Ф(*)=^2-2А* + ^ Z==(pi(y)= С*-2Ву+Е '(44)
Случай, когда С достаточно мало для того, чтобы значения х at у, для
которых ф'(#) и ф'(г/) меняют знак, были практически невозможными,
может быть использован в качестве второго приближения при изучении
корреляционных таблиц, когда аппроксимация, исходящая из
предположения нормальной корреляции, становится недостаточной.
Теоретически, предположение, что С > 0, означает, что, если одно из
количеств х или у принимает очень большие значения, другое стремится
к влолне определенному значению (ибо Х(х) неограниченно растет вместе
с х). Таким образом, исключая это последнее обстоятельство, которое
а priori представляется неправдоподобным, мы видим, что единственной
корреляцией, для которой fy(x) и <рх(у) суть кривые Гаусса, является
нормальная корреляция.
Таким образом, изогенная корреляция, частный случай которой, когда
/у(х) и фзс(у) — кривые Гаусса, мы изучали выше, означает, что
преобразование, которому подвергается кривая распределения одной из величин,
когда другая задана, состоит в твердом смещении, сопровождаемом расши-
211 14*
рением (или сжатием) кривой в одном направлении (которому,
естественно, должна соответствовать возмещающая его деформация в другом
направлении, чтобы общая площадь, ограниченная кривой, неизменно
оставалась равной 1).
Мы намереваемся найти все виды изогенной корреляции,
ограничиваясь, однако, предположением, что/(#) ж f\{y) в формулах (39)
являются полиномами любых степеней. Последнее предположение, очевидно,
эквивалентно тому, что lnF(x, у) есть полином относительно х и у.
Тогда мы имеем следующее предложение.
Если в случае изогенной корреляции — \ogF(x, у) есть некоторый
полином Р(х, у), то этот полином не может быть степени выше 2 ни по
одному переменному.
Действительно, пусть, по предположению,
Р(х, у) = F(y)+ 0(Xi(y)x-(pi(y)) = Ft(x)+ Ф1(Х(х)у ~ср(х)), (45)
где Ф и Oi — полиномы степеней /с и k^k^ 1, k\ > 2 соответственно.
Разлагая Oi(X(x)y — у(х)) по степеням у, мы получим равенства вида
%ъ {х) - Р {х), Л*»-1 (х) (ф (х) + а) = Pi {х),...
...М*) №*-*(*)+.-.+Ь) = Р*М*)> (46)
где правые члены в (41) —полиномы степеней не выше к. Исключая X (х)
из трех первых равенств, мы получим соотношение вида
Pi [ф2(*) + Ьср(х) + с] = РР2(у(х) + а)2.
Таким образом,
9(х) = А(х) + УвЩ~,
где А и В — рациональные функции; следовательно,
Pi(X)
имея аналогичный вид, будет, согласно первому из соотношений (46), или
полиномом, или квадратным корнем из полинома, причем последнее
обстоятельство может представиться только в случае, когда ki — четное. Из (47)
выводим
X(x)Pi(x) q(x)
где q (x) — рациональная функция, которая должна быть полиномом.
Действительно, ф (х) + а может обращаться в бесконечность только когда
Я(#)=0, следовательно, эти точки являются единственно возможными
полюсами q(x). Между тем, подставляя (48) в последнее из
соотношений (46), получим равенство
212
приводящееся к ввду
ц**-*(х) + aiQk^(x)X(x) -h ... + R(x)Xk^(x) = 0, (49)
где ai, а2, ...—постоянные, а Л (о:)—некоторый полином; итак, если бы
q(x) имел полюс, член наиболее высокого порядка в q^1_1 не имел бы
подобного себе. Более того, если п — степень Х(х), то целая степень т q(x)
^ к — п ^
удовлетворяет неравенству т <тг + — —. Естественно, что все преды-
/bi — 1
дущее в равной степени применимо и к Ф(Х{(у)х — cpi(y)).
Заметим также, что из (49) следует, что Qftl_JAftl~2 — полином, ибо если
кратность корня X была бы выше кратности корня Q, то порядок полюса
Qfel_1/^1-2 был бы выше порядка полюса q^^/X^-1'1 при I > 1. В частности,
когда X есть полином, имеющий лишь простые корни, q делится на X; точно
так же, если X2 имеет лишь простые корни, q/X2 будет полиномом.
Пусть сначала к = к{. Тогда степени п Х(х) и щ Xi(y) не превышают 1,
так же как и степени ф(х) и фцг/), которые не превосходят ; кроме
к — 1
того, для п= i/2 степень т q(x) должна быть равна 1, вследствие (48);
итак, мы видим, что или X — постоянная (причем у(х) будет полиномом
первой степени), или же, согласно предыдущему, q/X2 — постоянная, либо,
наконец, Х(х) и у(х) — полиномы первой степени. Этот последний случай,
который включает в себя, в частности, и тот случай, когда X — постоянная,
вновь приводит второй член (45) к виду
h
Fi(x) + 2 А*(ахУ + by + cx + d){;
следовательно, коэффициент при хк был бы постоянной или полиномом по
у степени к вида А + А\{ау + с)к, корень степени к или к/2 из которого
мог бы быть рациональным (при к > 2) лишь если Аа = 0; итак, Xi(y)
и; следовательно, (pi (у) одновременно линейны, и мы имели бы также
Xi(y)x — ф! (у) = аху + by + сх + d; полиломы Ф и Oi были бы
тождественны, и F(y) и Fi(x) сводились бы к постоянным, так что априорное
распределение вероятностей х и у можно было представить в виде
1 1
р(х) = и Р(у) = , что неприемлемо. (Невозможность
предав + b ay + с
положения q/X2 = const следует из рассуждений на следующей странице.)
Пусть теперь &i > к > 1. При этом, конечно, &i<; 2к, ибо в противном
к
случае Х(х) необходимо было бы постоянной и стецень q(x), т^ - —,
/ci — 1
была бы равна нулю (что означало бы, что х и у независимы). Итак2,
кг <; 2к, и ('за исключением случая, когда к = ki — 1) степень Х(х) равна
п = i/2 и q(^) должен быть линейным, ибо его степень т удовлетворяет
неравенству
1 к — V2
2 Это заключение осталось бы в силе, если бы мы допустили к = 1.
213
как следует из предыдущего, = 6 будет постоянной.
Х2(х)
Таким образом, после линейного преобразования х будем иметь
Х(х) = )/~г~, ср(х) = ~ а + ЬУх
Ф{(Х(х)у-ср(х))= 2 Ai[a+(y-b)1xY = f(x(y-b)*),
где / — полином степени kJ2 = /»:; согласно (45), мы тогда имели бы
%?(у) = А +Б(у-Ь)»
где 4 п5^0 — постоянные; таким образом, Л = 0, откуда
и ф!(г/) 'было бы также полиномом степени не выше 2. Окончательно,
после линейного преобразования г/, приходим к тождеству вида
к
F(y)-Fi(x)= 2 {^^"-^[^-(р^ + гу + г)]*};
таким образом, для того, чтобы исчез член с xhy2h, нужно иметь Вь — Ск,
и затем, чтобы исчезли последовательно члены с xh~iy2h, xk"iy2k~i, нужно,
чтобы р — О, q = 0. Но тогда тождество приняло бы вид
F(y)~Fi(x) = F2(xy2)1
а это потребовало бы, чтобы F(y) и F\(x) были бы постоянными.
Таким образом, единственным возможным еще случаем является тот
случай, когда Х(х) — константа, &i — 1 = к и у(х) — линейная функция.
При этих условиях тождество (45) имеет вид
F(y) + Ф(Ь(у)х - q>i(y)) = Fi(x) + Q>i(y - ax) (45bis)
и, дифференцируя по у, имеем
Р'(У) +W{y)x-4i{y)W (h(y)x-^(y)) = Ф1'(у-о*),
следовательно,
кУл'{у) (Ъ(у))к-1 = с,
где С — постоянная, откуда
и, согласно предыдущему, к^2. Пусть к = 2, тогда
ф1(г/)= Ci + ^i(y) (aiy + Ь)
и, поскольку можно, без ограничения общности, допустить, что Ф не имеет
члена стервой 'степени, то для того, чтобы коэффициент при х в первом
члене был рационален, нужно положить Ci = 0; легко видеть, что
тождество (45) может быть эффективно реализовано подходящим выбором
полиномов третьей степени F(y), Fi(x), Фх(у — ах), однако это решение
214
неприемлемо, ибо х, удовлетворяя иекоторому закону Гаусса, когда у
фиксировано, мог бы принимать все значения от — оо до + оо, что
невозможно, поскольку логарифм его априорной плотности, равный, с точностью
до константы, —Fi(x), был бы положительным и неограниченно
возрастал с одной стороны действительной оси.
Следовательно, доказано, что к > к > 2.
Мы уже изучали случай к = к[ = 2, который привел нас к (40). Это
•единственный случай изогенной корреляции, когда величины хну могут
принимать всевозможные значения. Однако изогенпая корреляция может
также представиться, когда 1) к — ki = 1 и 2) к = 1, /bi = 2.
Рассмотрим первое предположение.
I. В этом случае х и у могут 'неограниченно расти только в одном
направлении, и, без ограничения общности, мы можем предполагать, что
х >0, у> 0 и
}у(х) = (Ay + B)e-(Ay+W*+cy+D;
из
$ fy(x)dx = 1
о
мы заключаем, что С ~ D = 0, а также
ух(у) = (Ах + В^е-^+^Ч
Следовательно,
F(x, у) = Р(у) (Ау + В)е-(АУ+В^ = р(:г) (4я + B^e-^+sOy =
= he-(Axy+Bx+B>y\ (50)
где
fee-8'*/ /ге~Вх
полагая
1 ? е~ВхУ dy _ ? e_zdz
Т = J 4г/+В = ) Az + BBi ;
полученная таким образом изогенная корреляция требует только того,
чтобы А > 0, В > 0, Bi > 0, и изменением единиц ее можно свести к
канонической форме, когда В = Bi = 1. Не вдаваясь в изучение этой
корреляции, которая есть, впрочем, чисто упругая (п. 5), заметим, что, если у
задано, распределение х подчиняется простому экспоненциальному
закону (и наоборот), и значение математического ожидания $ftx—
= (Ay + I)-1 показывает, что линия средней регрессии х (та у) есть ветвь
гиперболы.
II. Пусть теперь к = 1, к{ = 2. Тогда будем иметь
- lnF(x, у) = Р(х, у) = х(Ъу* + 2fy + /) + ay* + ley + g =
f ,/■- fx + с \ 2 (/* + c)2
= 2/ У bx + a+ _ +lx + g .
V Vbx + a bx + a
215
Необходимо, чтобы Ъх + а* > 0; допустим, что х изменяется от 0 до оо и
а > 0, Ъ > 0. С другой стороны, при х заданном у меняется от — оо д.0
+ оо, следовательно, нужно предположить, что Ы — /2 > 0. В таком случае
будем, очевидно, иметь
fv{x) = (by2 + 2fy + l)e-«b№fv+i\
e-(ay*+2cy+g)
[y(bx+a)+fx+cf ,.
Фх(у)= e bx+a V ,
" я
Ах2+2Вх+С
e
/я
-
Ъх + а
где постоянная g определяемся из условия
оо
bx+a
l
A = lb-f, В = -1 (аЪ + bg) - /с, С = ag - с\
Можно снова привести (формулы (51) к канонической форме, положив
а = Ъ = il, / = 0.
Таким образом, мы нашли все поверхности изогенной корреляции,
которые, как это видно, ведут к некоторому новому обобщению нормальной
корреляции.
Было бы интересно рассмотреть тот же вопрос, не предполагая, что
\tiF(x, у) — полином.
Естественно, что изученное корреляции между несколькими
переменными привело бы к аналогичным результатам. Мы скажем, что три
величины #!,- х2, х3 твердо коррелировать, если, когда зафиксирована одна из
них, две другие твердо коррелированы. Мы получаем немедленно
единственную форму (имеющую в качестве предельного случая нормальную
корреляцию), обобщающую формулу (10)
— \&F(xu х2, х3) = Aek^+k^+k^ + i^gtaH-ftsxs + .. . + Е3х3 + Я.
Однако, если бы допускалось, кроме того, что корреляция a priori между
Xi и хг тоже твердая, то корреляция была бы необходимо нормальной.
12
СОВРЕМЕННОЕ СОСТОЯНИЕ ТЕОРИИ ВЕРОЯТНОСТЕЙ
И ЕЕ ПРИЛОЖЕНИЙ*
ДОКЛАД, ЧИТАННЫЙ НА ВСЕРОССИЙСКОМ СЪЕЗДЕ МАТЕМАТИКОВ
В МОСКВЕ 28 АПРЕЛЯ 1927 г.
Организационный комитет предложил мне сделать Съезду общий
доклад о современном состоянии теории вероятностей и ее приложений.
Вы знаете, как обширна указанная тема, и потому не должны от меня
ожидать сколько-нибудь полного анализа всей интересующей нас области,
для которого необходимо было бы несколько докладчиков и потребовалось
бы во много раз больше времени, чем то, каким я располагаю. При таких
условиях главная трудность, стоящая предо мною,— в выборе материала,
в выборе организующего принципа изложения.
Я полагаю, что в данном случае основной моей задачей должна быть
попытка представить некоторый синтез, методологически объединяющий
общие математические проблемы теории вероятностей и ее важнейшие
приложения. Поэтому мне придется, с одной стороны, умолчать о многих
математических исследованиях, представляющих лишь специальный
интерес, и, с другой стороны, при рассмотрении приложений теории
вероятностей, я буду больше останавливаться на вопросах, имеющих
принципиальное значение, чем на тех, которые играют важную роль в
соответствующей области.
Еще не так давно, до второй половины прошлого столетия, значение
теории вероятностей, как метода научного исследования, было весьма
ограничено; отдельные попытки ее приложения к изучению явлений
природы, связанные с именами Бернулли, Лапласа, Пуассона, Кетле и других,
были довольно слабо обоснованы и вызывали заслуженную критику,
которая нашла свое наиболее блестящее выражение в известном предисловии
Бертрана к его курсу теории вероятностей, написанному всего 40 лет
назад.
Однако скептицизм Бертрана не остановил и не замедлил
дальнейшего стихийного, если так можно выразиться, внедрения теории
вероятностей в различные области науки. Уже его современники Максвелл и
* «Труды Всероссийского съезда математиков в Москве 27 апреля — 4 мая
1927 г.», ГИЗ, М.—Л., 1928, 50—63 (122*).
217
Больцман превращают молекулярную статистику в важный
экспериментально обоснованный отдел физики; и, с другой стороны, благодаря
открытию элементарного закона наследственности Менделя, применение
теории вероятностей к биологии становится не только возможным, но и
необходимым. К этому же времени почти во всех областях знания
(в астрономии, метеорологии, демографии и т. д.) накопляется обширный
статистический материал, обнаруживающий таинственную связь между
случайностью и закономерностью, и анализ этой связи, проблема
классификации и характеристики статистических рядов на основе понятий
теории вероятностей становится в порядке дня.
В настоящее время мы можем сказать с полной определенностью, что
дальнейшая систематизация человеческого знания или развитие науки
невозможны без применения теории вероятностей, и поэтому прежде
всего требует ответа вопрос о том, не является ли наука, основанная на этой
теории, второсортной наукой или суррогатом науки.
Вот почему особо важное значение приобретает формально-логическое
обоснование теории вероятностей как единой математической
дисциплины, и только после того, как эта дисциплина будет очищена от
парадоксов и аксиоматически построена, наподобие геометрии, можно будет
пользоваться теорией вероятностей, как точным объективным познавательным
методом, приложимость которого в каждом частном случае требует и
допускает экспериментальную и математическую проверку.
Чисто математическая теория вероятностей может не интересоваться
тем, имеет ли коэффициент, называемый математической вероятностью,
какое-нибудь практическое значение, субъективное или объективное.
Единственное требование, которое должно быть соблюдено, это —
отсутствие противоречий, а именно: различные способы вычисления указанного
коэффициента при данных условиях и соблюдении принятых аксиом
должны приводить к одному и тому же значению.
Кроме того, если мы хотим, чтобы выводы теории вероятностей были
не простой игрой ума, а допускали эмпирическую проверку, то
необходимо рассматривать только такие совокупности предложений или суждений,
относительно которых возможно фактически установить, истинны они или
ложны. Познавательный процесс, необратимый по существу, в том именно
и заключается, что те или иные из признаваемых нами возможными
предложений становятся истинными, т. е. осуществляются, и тогда отрицания
их в то же время становятся ложными или невозможными.
Таким образом, построение теории вероятностей как единого
познавательного метода требует, чтобы истинность предложения однозначно без
всяких исключений характеризовалась определенным максимальным
значением математической вероятности, которое принимается равным
единице, а ложность предложения должпа быть адекватна наименьшей
вероятности, приравниваемой нулю. Для конечных совокупностей предложений
указанным требованиям нетрудно удовлетворить, но благодаря тому, что
категорическая необходимость их недостаточно отчетливо признавалась,
при рассмотрении бесконечных совокупностей возникали и продолжают
возникать парадоксы, па одном из которых я позволю себе здесь
остановиться.
21*
Я имею в виду известную задачу о том, какова вероятность того, что
дробь, написанная наудачу, окажется несократимой, решение которой
вслед за Кронекером и Чебышевым дано А. А. Марковым в 'его
классическом курсе исчисления вероятностей. Решение основано на допущении,
что вое остатки, получаемые от делеашя взятого наудачу числа N на
произвольное число а, меньше, чем Л', равловероятны, и, кроме того, каков
бы ни был остаток, полученный при делении Лг на число Ь, взаимно
простое с а, все вышеуказанные остатки при делении на а остаются равно-
возможными. Отсюда нетрудно вывести, что вероятность дроби быть не-
■пК
сократимой равна —, как пределу бесконечного произведения
где р — простое число. Однако при указанных допущениях вероятность
того, что N есть число простое, равна нулю как пределу произведения
Ц (1 ), точно так же равна нулю и (вероятность того, что N — 2р
73=2 V Р <
или Зр и т. д. Поэтому вероятность того, что Л' является произведением
двух простых чисел, равная пределу суммы конечного числа нулей, должна
быть равна нулю. Аналогичным образом равна нулю и вероятность того,
что число N состоит из трех множителей, из четырех множителей и т. д.
Следовательно, применяя снова теорему сложения вероятностей, находим,
что, вообще, вероятность того, что произвольное число N является
произведением конечного числа простых множителей, равна нулю; но, с другой
стороны, несомненно, что конечное число состоит из конечного числа
множителей; таким образом, мы приходим к противоречию: 0 = 1.
Итак, допущения А. А. Маркова явно неприемлемы; они, по существу,
эквивалентны предположению, что все значения целого числа,
написанного наудачу, равновозможны; но в таком случае вероятность определен-
1 л
ного значения числа равна — = 0, и поэтому вероятность того, что на-
оо
писанное число не превысит любое наперед заданное число М, также равна
нулю; но так как, с другой стороны, написанное число не может быть
бесконечным, мы приходим к тому же противоречию: 0=1.
Вышеуказанный результат Чебышева и Маркова и необходимо
связанное с ним заключение о том, что вероятность любому числу быть
простым равна нулю, следует, таким образом, считать, с точки зрения теории
вероятностей, лишенным смысла; и если бы мы пожелали все-таки
настаивать на правильности последнего заключения, то физики и
статистики с полным п(равом могли бы сказать нам, что если мы такому событию,
как написание простого числа, приписываем вероятность, равную нулю, то
наш закон больших чисел с теоремой Бернулли, который утверждает лишь,
что некоторые вероятности весьма близки к нулю, не может претендовать
на серьезное экспериментально-практическое значение. В
действительности полученный результат нужно бы формулировать так: если все
значения целого числа N, меньшие, чем данное число п, равновероятны, то
можно выбрать п настолько большим, чтобы вероятность числу N быть
простым была сколь угодно близка к нулю. Эта теорема по форме анало-
219
гична теоремам Бернулли и Лапласа, а указанная выше краткая ее
формулировка вполне соответствовала бы такой недопустимой форме
предельной теоремы Лапласа: каково бы ни было целое число N независимых
опытов, вероятность неравенства
m — Np
to < / < h
равна
—L- [ e-t2dt,
где p — вероятность события А в каждом опыте, m — число его
появлений при указанных N опытах, a q = 1—р — вероятность события,
противоположного А.
Психологически ошибка А. А. Маркова и других математиков,
применяющих термин «вероятность» в теории чисел, вполне понятна. Для них
вероятность не является величиной, которая, сохраняя во всех
применениях один lit тот же смысл, допускает во всех 'Случаях единообразные
способы объективно-статистического измерения; в теории чисел приходится
иметь дело с данными закономерными последовательностями чисел, и нас
интересуют не вероятности, которых мы никогда не станем
экспериментально определять, а предельные или асимптотические частости чисел
определенного класса; закономерно распределенных в указанных
последовательностях. Эти предельные частости представляют известные
аналогии с математическими вероятностями, эвристически весьма ценные для
теории чисел, но смешение этих двух понятий является недопустимым
недоразумением.
Аналогичные парадоксы мы встречаем и в некоторых геометрических
задачах теории вероятностей. Исследование этого вопроса с указанной
выше точки зрения единства теории вероятностей и возможности
эмпирической проверки ее выводов приводит к заключению, что далеко не все
абстрактные множества могут быть ею рассматриваемы; но при
соответствующем самоограничении и соблюдении некоторых предосторожностей,
на которых я не имею возможности подробно останавливаться, арифмети-
зация бесконечных совокупностей, т. е. определение вероятностей всех их
предложений, имеющих смысл, осуществима без противоречий. Замечу
только, что главным источником парадоксов было то, что арифметизация
бесконечных совокупностей проводилась более или менее интуитивно,
вместо того, чтобы отчетливо формулировать, какой из двух принципов
кладется в ее основу: принцип ли непрерывности или принцип
прерывности. Первый соответствует предположению, что утверждение равенства
двух величин лишено смысла, так как экспериментально равенство не
может быть осуществлено абсолютно точно, а лишь с некоторой
погрешностью; второй, напротив, имеет в виду величины, точное равенство
между которыми допускает фактическую проверку; совокупность последних
всегда исчислима, и они не могут быть все равновозможны (если
совокупность бесконечна). В каждом частном случае только опыт может и
должен решить, которая из гипотез справедлива.
Так, например, теория излучения черного тела, исходя из принципа
непрерывности, приходит к закону распределения лучистой энергии
220
Рэлея; то обстоятельство, что этот закон не согласуется с опытом,
заставило Планка принять принцип прерывности или скачкообразного
изменения энергии и создать свою знаменитую теорию квантов, которая нашла
полное подтверждение не только во всех явлениях излучения, но и в
свойствах теплоемкости тел при всевозможных температурах.
Более глубокая причина того, что классическая механика, законы
которой были выведены из наблюдений над движением материальных тел
конечных размеров, требует существенных изменений для интерпретации
явлений, связанных с излучением, заключается в том, что она приводит
к равномерному распределению энергии между бесконечным числом
степеней свободы, т. е., в сущности, к разобранному выше противоречивому
допущению бесконечного множества равновозможных несовместимых
случаев.
Квантовая механика также встречает на своем пути серьезные
затруднения, но они находятся не в плоскости теории вероятностей, а в области
наших механических и геометрических представлений, которые мы хотим
применять к таким никогда индивидуально не наблюдавшимся элементам,
как электрон.
Во всяком случае, с точки зрения, которая будет развита дальше, нет
необходимости искать определенной механико-геометрической модели
атома, и можно было бы удовлетвориться физической теорией,
построенной на схеме безобидной игры между всеми электронами данного тела,
правила которой диктуются наблюдаемыми нами макроскопическими
явлениями.
Возвращаясь к принципам теории вероятностей, можно считать, мне
кажется, что основные формально-логические трудности ее построения в
настоящее время преодолены. Мало, однако, признать, что, соблюдая
известные правила вычисления, принятые теорией вероятностей, мы можем
без логических противоречий приписывать различным фактам
определенные вероятности. Но имеет ли физический смысл говорить о том, что два
различных факта имеют одинаковые вероятности? Не грешим ли мы про
тив закона причинности, говоря, что в двух опытах, при бросании двух
одинаковых игральных костей, в обоих случаях вероятность появления
шести очков одна и та же, между тем как в действительности
оказывается, что на одной кости получилось шесть очков, а на другой пять?
Этому вопросу, имеющему как теоретическое, так и практическое
значение, уделялось много внимания и раньше, и в последние годы; если мы
теперь ближе к некоторому единомыслию в его решении, чем несколько
десятков лет назад, то этим мы обязаны не более углубленным
философским рассуждениям, чем те, которые высказывались Лапласом или Курно,
а экспериментальным успехам физической статистики.
У математиков принцип каузальности никогда, начиная от Галилея и
Ньютона, не пользовался особым почетом; гораздо важнее для нас
функциональные зависимости или уравнения между несколькими величинами,
которые позволяют определить любую из них, если известны остальные,
причем прочие элементы, не входящие в уравнение, не влияют на
значение искомой величины. Такого рода зависимостями выражаются так
называемые законы природы, как, например, закон инерции или закон
221
всемирного тяготения Ньютона, причину которых Ньютон не считал
нужным искать. И хотя в настоящее время оба эти закона объединены
Эйнштейном в высшем синтезе общей теории относительности, но мы так же
далеки, как и Ньютон, от знания их причины.
Новый современный этап развития научной мысли характеризуется
необходимостью введения понятия вероятности в формулировку
элементарных законов природы. И если мы не доискиваемся причины закона
инерции, который является свойством четырехмерного пространства Мин-
ковского, я полагаю, что мы с равным правом можем принять, как
характеристику изотропности пространства, закон, выражающий, что вдали от
притягивающих маос инердиальное движение имеет одинаковые
вероятности происходить внутри каждого из двух равных углов.
Аналогичным образом постулат о существовании независимых
величин и явлений, без которого не может быть формулирован ни один общий
закон природы, без которого и сама категория причинности потеряла бы
смысл, должен быть точно формулирован на языке теории вероятностей,
и, например, независимость двух движущихся по инерции точек
выражается в там, что все значения угла между их скоростями равновероятны.
(Я полагаю, что нет надобности повторять, что благодаря общепринятому
допущению непрерывности пространства здесь речь идет о фезически
измеряемых, а не об абсолютно точных арифметически определенных
величинах углов.)
Таковы исходные допущения статистической механики, которые в
кинетической теории газов привели Максвелла к его известному закону
распределения молекулярных скоростей и экспериментально вполне
оправдываются вытекающими из них согласно исчислению вероятностей
следствиями; парадокс необратимости тепловых процессов, являющихся
проявлением обратимых молекулярных движений, находит удовлетворительное
разъяснение в равноценных гипотезах молекулярного хаоса Джинса и
квазн-эргодической — Эренфеста, последовательно проводящих принцип
непрерывности.
Изучение собственных движений звезд обнаружило, что гипотеза
изотропности звездного пространства в вышеуказанном смысле должна
быть изменена, благодаря существованию асимметрического поля
тяготения. Но тем не менее Эддингтон и Шарлье, развивая идею Пуанкаре,
установили интересные аналогии между молекулярными и звездными
движениями, .где изотро-нный закон распределения скоростей Максвелла
заменяется аналогичным эллипсоидальным (законом распределения
звездных скоростей Шварщнильда, который довольно хорошо согласуется
с астрономическими наблюдениями.
Таким образом, вообще, наряду с законами природы, на основании
которых при наличности данных условий а и произвольности всех прочих
обстоятельств в рассматриваемых опытах, появление определенного
результата А во всех опытах необходимо, мы допускаем и такие законы, при
которых соответствующие условия а не всегда вызывают появление
события А] но каковы бы ни бьиги прочие обстоятельства, все эти опыты
характеризуются какой-то однородностью связи между а и А, которую мы
выражаем, говоря, что условия а определяют вероятность события А.
222
Такого рода законом является закон наследственности Менделя,
утверждающий, что при скрещивании между собой гибридов некоторых
определенных видов, например бобов светло-лилового цвета, вероятность
появления белых бобов (т. е. индивидов одной из чистых рас) равна lU.
Здесь не место останавливаться на генетических основах теории Менделя
и, вообще, на различных основаниях, которые могут руководить
исследователем, когда он выставляет гипотезу, что во всех опытах определенного
типа вероятность появления события А одна и та же.
Для нас важно было лишь выяснить, что существуют такого рода
различные опыты, при которых вероятность появления данного события
имеет одно и то же вполне определенное значение; подобного рода опыты с
костями, с урнами или с картами могут служить для статистических
экспериментов, дающих наглядную и педагогически полезную проверку
некоторых выводов теории вероятностей.
Общий постулат, на основании которого эта проверка производится,
заключается в том, что факты, имеющие вероятность, близкую к 0,
происходят весьма редко, и если эта вероятность достаточно мала, то
практически их следует считать невозможными, как в известном примере Бореля
с обезьянами *.
Исходя из этого постулата, мы должны заняться вопросом о том, как
проверить, что в данном конкретном ряде опытов вероятность появления
события А имеет одно и то же значение р. Прежде всего для этого нужно,
чтобы отношение т/п числа т появлений А к числу опытов п при
возраставший п приближалось бы к р, согласно теореме Бернулли.
Некоторые статистики, в особенности английские, формулируя более
категорически это свойство, рассматривают его даже как определение
вероятности, которое гласит примерно так: вероятность события А в каждом
из опытов, число которых неограниченно возрастает, есть предел частости
т/п, если при бесконечном возрастании п таковой существует. Это
определение, по моему мнению, страдает крупными недостатками, делающими
его неприемлемым.
Во-первых, существование предела эмпирически не может быть
доказано: дробь т/п могла бы значительно колебаться, пока п не достигает
многих миллионов, и лишь затем начать медленно приближаться к своему
пределу, и, наоборот, т/п могло бы сначала быть очень устойчивым, а
потом, вследствие появления тех или иных пертурбационных причин, сильно
уклониться от того значения, которое мы склонны были считать его
пределом. Таким образом, это определение, которое пытается обойти основной
вопрос о возможности принципиальной однородности опытов, приводящих
к противоположным результатам, не дает никакой почвы ни для
статистических экспериментов, ни для выводов, выходящих из рамок грубого
эмпиризма. Кроме того, теоретическое допущение существования предела,
предполагая более или менее определенный порядок в рассматриваемой
серии опытов, неявно вносит туманную идею какой-то особой
закономерной зависимости между последовательными независимыми, по предполо-
* См.: Э. Б о ре ль. Случай, ГМЗ, М.- Пг., 1923, стр. 114. (Ред.)
223
жению, опытами, вроде той, которая легла в основу рассуждений по
теории вероятностей философа Марбе.
Поэтому вместо вероятности, которая характеризовала бы некоторое
общее свойство всех наших опытов независимо от их порядка, мы имеем
здесь дело с каким-то подобием предельных частостей теории чисел,
которые, как мы видели, нельзя без логических противоречий отождествлять
с математическими вероятностями.
Ввиду этого, с нашей точки зрения, мы только тогда можем считать,
что событие А сохраняет постоянную вероятность, несмотря на некоторые
видимые различия постановки опытов, когда, разбивая все наши опыты на
соответствующие группы, мы констатируем во всех них известную
определенную устойчивость отношения т/п. В частности, если мы
предполагаем, что опыты независимы и число групп достаточно велико, то
необходимо, чтобы так называемый коэффициент дисперсии был близок к
единице. Этот признак, введенный Лексисом, является первым важным шагом
научной разработки статистических материалов.
Не только в специальных опытах с картами, костями, урнами и т. д., но
и в биологических опытах скрещивания коэффициент дисперсии оказался
близким к единице, подтверждая, таким образом, правильность или,
точнее, приемлемость гипотезы Менделя и непосредственную применимость
понятия математической вероятности в его простейшей форме к явлениям
наследственности.
Напротив, в большинстве рядов, встречающихся в практической
статистике, устойчивость отношения т/п оказывается менее прочной,
коэффициент дисперсии больше единицы, или, как говорят, дисперсия уже не
нормальна, а сверхнормальна; и почти исключениями являются примеры,
вроде частоты мальчиков среди новорожденных, где дисперсия при
соответствующем подборе условий оказывается нормальной. Таким образом.
за исключением случаев вроде только что упомянутого, где пол
новорожденного определяется, по-видимому, некоторым биологическим законом
вероятностей, почти не зависящим от экономических условий, в
большинстве социальных явлений мы не можем, по крайней мере в настоящее
время, выделить такие категории независимых фактов, вероятности
которых были бы постоянны. Это объясняется тем, что в отличие от
биологических и, в особенности, физических опытов, где мы можем почти
неограниченно увеличивать число объектов, находящихся в однородных
условиях, в обычной жизненной обстановке мы лишены возможности наблюдать
сколько-нибудь значительные совокупности индивидов достаточно
однородных, чтобы все они обладали в отношении какого-нибудь признака
вполне одинаковыми вероятностями.
Поэтому сверхнормальная дисперсия является, вообще, следствием
изменения вероятности при переходе от одного объекта к другому. Пока мы
не имеем теоретических указаний относительно характера и условий этой
изменяемости, возможно предложить самые разнообразные схемы законов
вероятностей, при помощи которых можно интерпретировать результаты
данных статистических наблюдений. Старые исследования Пуассона,
примыкающие к этому вопросу, за последние годы были уточнены и
существенно дополнены.
224
Сохраняя предположение независимости опытов нетрудно убедиться в
том, что рассмотренная выше частость ?п/п с возрастанием п
приближается к средней вероятности группы, причем, если последняя в разных
группах сохраняет одно и то же зпачение, то дисперсия должна быть еще
меньше нормальной, и этот случай, весьма редко встречающийся, не
представляет практического интереса; напротив, дисперсия становится
сверхнормальной, если средние вероятности не равны. В зависимости от закона
изменения средней вероятности при переходе от одной группы к другой
для дисперсии получаются определенные, более или менее сложные
выражения, которые были исследованы проф. Ястремским. Вообще можно
сказать, что в случае независимости элементов статистической
совокупности, чем значительней средняя изменчивость их вероятности, тем более
дисперсия превышает нормальную. При этом, каков бы ни был закон
изменения вероятностей, коэффициент дисперсии бесконечно возрастает с
увеличением числа элементов группы, если только среднее квадратичное
уклонение вероятностей от их общей средней не стремится к нулю.
Поэтому, когда мы имеем дело с обширными группами, еслп коэффициент
дисперсии не слишком значителен, можно утверждать, что
пертурбационное влияние различных побочных обстоятельств, именяющих вероятность
отдельных индивидов, невелико, и измерить средние размеры этих
пертурбаций.
Таким образом, во многих практических приложениях, где дисперсия
сверхнормальна, можно все-таки пользоваться простыми схемами теории
вероятностей, как некоторым приближением к действительности, подобно
тому, как техники применяют теоретическую механику. В связи с этим
особый интерес представляют те статистические ряды, в которых
дисперсия, хотя и не нормальна, но более или менее устойчива.
Такого рода статистические совокупности, как показал А. А. Марков
в своих известных исследованиях о зависимых опытах, могут быть
получены и в случае одной и той же постоянной вероятности для всех идиви-
дов совокупности, если только эти индивиды не вполне между собой
независимы.
Но прежде чем перейти к исследованию зависимых опытов,
необходимо заметить, что нормальность дисперсии сама по себе является в случае
независимых опытов только одним из необходимых следствий постоянства
вероятностей; аналогичных следствий можно указать бесчисленное
множество, и, например, вместо суммы квадратов отклонений," которые
фигурируют в дисперсии, возможно было бы рассматривать" любые степени
этих отклонений, так называемые моменты последовательных степеней,
отношение которых к соответствующим математическим ожиданиям, так
же, как и коэффициент дисперсии, должно быть близким к единице.
Вообще, при постоянной вероятности р, рассматривая как отдельный
элемент каждую из весьма большого числа S больших равных групп,
состоящих из п индивидов, на которые разбита вся статистическая
совокупность, мы знаем, на основании предельной теоремы Лапласа, что
значения уклонений т — гьр, соответствующих каждой группе, должны
расположиться по нормальной кривой Гаусса с тем большей точностью, чем
бодыпе числа -S и п.
15 С. H. Бернштейн
225
В случаях сверхиормалыюй дисперсии, о которой мы только говорили,
теоретически нормальное распределение необязательно; но если бы оно
было обнаружено при некотором устойчивом коэффициенте дисперсии, то
интерпретацию такой закономерности распределения можно получить,
сохраняя гипотезу постоянной вероятности, полагая лишь, что между
индивидами существует определенная в смысле теории вероятностей
зависимость.
Действительно, развивая идеи Маркова, можно показать, что при
весьма разнообразных зависимостях между опытами и закон больших чисел,
и предельная теорема Лапласа остаются в силе и, в частности, это имеет
место, какова бы ни была зависимость между близкими опытами или
индивидами, лишь бы только эта зависимость достаточно быстро ослабевала
но мере их удаления друг от друга. При этом коэффициент дисперсии
может получать какие угодно значения.
Наиболее простой случай зависимых опытов, образующих, по
терминологии Маркова, цепь, был исследован очень подробно им самим.
Примером такой цепи может служить совокупность букв в каком-нибудь
литературном произведении. Марков подсчитал частоту гласных в
последовательности из 100 000 букв в произведении Аксакова «Детские годы
Багрова-внука» и в последовательности из 20 000 букв в «Евгении Онегине»;
в обоих случаях он нашел хорошее соответствие между своими
статистическими наблюдениями и гипотезой постоянной вероятности для буквы,
взятой наудачу, быть гласной, при дополнительном условии, что эта
вероятность соответствующим образом уменьшается, если предшествующая
буква уже оказалась гласной: благодаря этому взаимному отталкиванию
гласных, коэффициент дисперсии значительно меньше единицы.
Напротив, если присутствие известного признака, например, заразная болезнь
одного индивида, увеличивает вероятность появления того же признака у
его соседа, то при постоянстве вероятности заболевания для отдельного
индивида коэффициент дисперсии должен быть больше единицы.
Подобного рода соображения могли бы, мне кажется, дать, хотя бы в первом
приближении, интерпретацию многих статистических рядов со
сверхнормальной, но более или менее постоянной дисперсией.
Разумеется, до тех пор пока у нас нет общей теории, объединяющей
всю совокупность данных, относящихся к известной области наблюдений,
как это имеет место в молекулярной физике, выбор между различными
интерпретациями отдельных статистических рядов остается в некоторой
степени произвольным. Положим, что мы нашли для частоты некоторого
признака не только нормальную дисперсию, но, беря подряд более или
менее значительные группы, убедились даже, что и отклонения
подчиняются нормальному закону Гаусса. Мы вправе заключить отсюда, что
средняя вероятность для всех групп одна и та же, и, варьируя размер групп,
можем признать, что вероятность признака, вообще, постоянна для всех
объектов совокупности; однако независимость при этом вовсе
необязательна. Если, например, все объекты скопляются тройками, в которых
число обладателей признака А всегда нечетное (1 или 3), и все четыре
типа таких троек (с А на одном из трех мест или на всех трех местах)
равновероятны, то та же нормальность дисперсии и нормальность распре-
226
деления уклонений будет иметь место, как если бы все индивиды были
независимы и вероятность обладания данным признаком была равна V2.
А между тем, в каком бы случайном порядке ни располагались наши
тройки, среди пяти последовательных индивидов, очевидно, всегда по крайней
мере один будет обладать признаком Л.
Из этого примера ясно, что все попытки дать исчерпывающее
определение вероятности, исходя из свойств соответствующих статистических
рядов, обречены на неудачу. Наивысшим достижением статистического
исследования является утверждение, что известная простая теоретическая
схема согласуется с данными наблюдений, между тем как всякая другая
интерпретация, совместимая с принципами теории вероятностей, должна
была бы быть гораздо сложнее.
В связи с только что рассмотренным и другими аналогичными
вопросами особое значение имеет математическая задача обобщения
предельной теоремы Лапласа и родственная ей проблема исследования условий
приложимости закона случайных ошибок или нормального распределения
Гаусса. Первоначальный вывод закона случайных ошибок, основанный на
правиле средней арифметической, данный Гауссом, не удовлетворявший,
впрочем, и его самого, подвергся глубокой критике Маркова и, в
особенности, Пуанкаре; и в настоящее время закон Гаусса находит более
солидное обоснование в допущении, что ошибка и, вообще, величина,
распределение которой подчиняется этому закону, слагается из большого
числа более или менее независимых величин; таким образом, нормальное
распределение является следствием предельной теоремы,
распространенной на соответствующие суммы малых величин.
Я не буду утомлять вашего внимания точной формулировкой
результатов, относящихся к условиям, необходимым и достаточным для
применимости предельной теоремы, полученным различными математиками.
Исследования в этой области, отличающиеся чрезвычайной тонкостью и
глубиной, связаны с основными вопросами анализа и пользуются двумя
по внешности различными методами.
Один из них — метод математических ожиданий последовательных
степеней, или моментов, идея которого принадлежит Чебышеву,— лежит в
основе фундаментальных работ Маркова и заключается в решении
системы бесконечного числа уравнений с бесконечным числом неизвестных,
которое осуществляется при помощи алгорифма непрерывных дробей
и непосредственно связано с задачей суммирования везде расходящихся
строк Тейлора.
В основу второго метода — метода характеристической функщги,
примененного Ляпуновым,— положен прерывный множитель Дирихле,
связывающий вычисление предельной вероятности с теорией особенных
интегралов и тригонометрических рядов.
Случай сумм независимых величин с исчерпывающей полнотой
исследован в работах только что названных ученых, и позднейшие работы
Линдеберга, Полна и других, не внеся существенно новых идей, лишь
упростили некоторые доказательства и дали другую, иногда более общую
формулировку результатам Ляпунова и Маркова.
227 15*
Отмечу здесь только одно, особенно важное для статистической
практики, и, в частности, для обоснования выборочного метода, следствие из
теоремы Ляпунова: каково бы ни было распределение величин данного
признака среди индивидов некоторой основной совокупности, средняя
арифметическая этих величии, при достаточно большом числе
наблюдений, всегда подчиняется закону Гаусса.
Исследование сумм зависимых величин, один из примеров которого
был нами рассмотрен раньше, представляет особые трудности; однако и в
этой области получены уже довольно значительные результаты, дающие,
в частности, возможность объяснить, почему большинство кривых
распределения признаков, встречающихся в более или менее однородных
биологических совокупностях, как это было замечено еще Кетле, подчиняются
в первом приближении закону Гаусса. При помощи аналогичных методов
удалось также дать математическое обоснование теории нормальной
корреляции, основные формулы которой были указаны Браве и применены
Гальтоном к изучению явлений наследственности.
Я не стану излагать здесь статистической теории наследственности
Гальтона, которую подробно развил впоследствии Пирсон. Сущность
теории Гальтона заключается в его законе наследственной регрессии, по
которому между размерами какого-нибудь количественно измеряемого
признака родителей и детей существует нормальная корреляция.
В настоящее время, благодаря опытам, связанным с менделизмом,
следует считать экспериментально установленным, что теория Гальтона не
обладает той универсальностью, какую ей приписывал Пирсон, опираясь
на свои многочисленные статистические наблюдения.
Однако вышеупомянутые математические исследования позволяют
доказать, что, если даже закон Менделя не является единственным законом
наследования элементарных признаков, закон наследственной регрессии
Гальтона должен быть применим ко всем сложным признакам (как,
например, рост человека), которые слагаются из большого числа
элементарных признаков.
Эти же теоремы объясняют, почему Пирсон и его ученики могли во
многих случаях статистически обнаружить также существование нормаль-
пой корреляции между размерами различных органов у индивидов одной
и той же расы, но, вместе с тем, те же исследования показывают, что и
нормальная кривая Гаусса и нормальная корреляция являются лишь
предельными случаями некоторых общих теоретических схем, и потому
вполне естественны наблюдающиеся в действительности более или менее
значительные уклонения от них.
Таким образом, мы подходим к новому циклу вопросов теории
вероятностей, составляющих теорию распределения и общей ненормальной
корреляции. В этой области наиболее значительное место в практическом
отношении занимает английская школа Пирсопа, который произвел
огромную организационно-статистическую работу и имеет также большие
теоретические заслуги, в особенности потому, что он ввел целый ряд
новых понятий и открыл практически важные пути научных исследований.
Обоснование и критика идей Пирсона являются одной из центральных
проблем современной математической статистики, в разработке которой
228
достигли значительных успехов,, например, Шарлье и Чупров, в то время
как многие другие статистики продолжают практическую работу
Пирсона, окончательно отрываясь от теории вероятностей, и, пользуясь его
формулами без критики, заменяют науку вычислительной техникой.
Чисто теоретическая задача аналитического выражения любой
статистической кривой, как всякая задача интерполирования, всегда может
быть решена, и притом бесчисленным множеством способов; в частности,
благодаря более или менее значительным отклонениям от теоретической
кривой, которые теория вероятностей разрешает статистическому
распределению, мы имеем полную возможность, даже располагая небольшим
числом произвольных параметров, получить удовлетворительную
теоретическую кривую. Практика показывает, что во многих случаях этого можно
достигнуть, применяя кривые Пирсона, зависящие от четырех параметров;
по теоретически, в смысле соответствующей схемы теории вероятностей,
эти кривые обоснованы лишь в случае небольшого уклонения от
нормальной кривой. Поэтому интересно было бы найти причину этого
соответствия в тех случаях, где оно действительно имеет место при большом числе
наблюдений *.
С другой стороны, теория Брунса, дополненная Шарлье, которая
вводит в функцию Гаусса или Пуассона пертурбационный множитель, дает
теоретическую возможность интерполировать любую статистическую
кривую. Только для этого в случае кривой, очень уклоняющейся от
нормальной, может понадобиться большое число параметров, и теоретический
смысл пертурбационного множителя тогда также неясен.
Таким образом, за исключением случая кривой, приближающейся по
форме к кривой Гаусса или Пуассона, соответствующей так называемому,
по терминологии Борткевича, закону малых чисел, т. е. членам бинома
возрастающей степени при стремящейся к нулю вероятности,
интерполирование статистических распределений носит эмпирический характер и
мало помогает нам понять сущность и закономерность рассматриваемых
явлений. В этом отношении известный интерес представляет мало
употребительный прием, предложенный Фехнером и примененный позднее Кап-
тейном и некоторыми другими, который состоит в том, чтобы при помощи
соответствующей замены переменной превратить данную статистическую
кривую в нормальную. Действительно, как мы видели, весьма
разнообразные схемы теории вероятностей приводят к нормальному распределению,
поэтому естественно ожидать, особенно в биологии, что во многих случаях,
когда измеряемая нами величина не подчиняется закону Гаусса, она
может так или иначе быть выражена как функция одной или нескольких
основных случайных переменных, которые подчиняются этому закону.
Не ограничиваясь техническим интерполированием, а нащупывая и
проверяя эмпирически теоретические схемы, соответствующие
статистическим кривым, которые повторяются, как постоянные признаки,
закономерно связанные со статистическими совокупностями определенного типа,
нужно стремиться постепенно прийти к цельной теории рассматриваемых
явлений; в этом отношении очень поучительна молекулярная физика,
* См. работу [7]. (Автор.)
229
которая должна была бы служить образцом для теоретических построений
в других отделах статистики.
Основными причинами, облегчающими в физике решение
поставленной задачи, является, во-первых, почти неограниченная возможность
экспериментирования в точно определенных условиях; этим же
преимуществом отчасти обладает и биология по сравнению с общественной
статистикой. Вторым благоприятным обстоятельством является огромное
число элементов, молекул или электронов, с которыми имеет дело физика,
благодаря чему закон больших чисел в применении к телам обычных
размеров, являющимся колоссальными статистическими совокупностями,
приводит к тем абсолютно постоянным закономерностям, которые до
последнего времени считались единственно возможными формами законов
природы. И только после того, как удалось экспериментально исследовать
явления, в которых участвуют сравнительно небольшие совокупности
молекул или электронов, как, например, движение Броуна, и установить, что
предусматриваемые теорией вероятностей уклонения действительно
имеют место, утверждение, что физические тела являются статистическими
совокупностями некоторых однородных элементов, превратилось из
гипотезы в несомненный факт.
Кроме того, наибольшей законченностью обладает исследование тех
явлений статистической физики, которые имеют стационарный характер.
Поэтому и в прочих областях теоретической статистики в первую очередь
следует изучать кривые распределения, соответствующие
установившимся режимам, которых, к сожалению, на практике встречается немного.
Образцом стационарного распределения, которое чаще всего
встречается в статистической физике, является простой закон геометрической
прогрессии или линейный экспоненциальный закон распределения энергии
между однородными элементами, обладающими одной степенью свободы,
соответствующий данному общему количеству энергии, отпущенному на
всю совокупность рассматриваемых элементов. Тем же
экспоненциальным законом регулируется и процесс естественного распада атомов
радиоактивных веществ.
Аналогичная проблема соответствует также экономическому вопросу
о стационарном распределении богатств среди индивидов данного
общества; закон, найденный в данном случае Парето, может служить примером
методологически правильного подхода к конструированию теоретических
кривых, с которыми следует сравнить соответствующие кривые
экономической статистики в поисках объяснения уклонений от этих кривых в
особенностях социальной структуры и динамике рассматриваемого общества.
Я не буду останавливаться на вопросе о принципиальном различии
постановки задачи распределения энергии в зависимости от того,
принимается ли гипотеза непрерывности Больцмана или гипотеза прерывности
Планка; заметим лишь, что в то время, как последнее допущение
приводит к задачам конечной комбинаторики, математическая проблема,
соответствующая первой гипотезе, заключается в определении наиболее
вероятного распределения вероятностей положительной величины,
математическое ожидание которой задано, и, при некоторых общих
предположениях, искомым паспределением является экспоненциальное. Если условие
230
[голожнтельности заменить дополнительным значением математического
ожидания квадрата, то мы приходим к экспоненциальной функции 2-й
степени, т. е. к закону распределения скоростей Максвелла, которому
соответствует нормальное распределение Гаусса. Обобщая дальше,
находим, что при тех же общих допущениях наиболее вероятная кривая,
соответствующая данным моментам первых к степеней, выражается
экспоненциальной функцией с показателем в виде многочлена к-й степени.
Поэтому, если бы оказалось, что в некоторых случаях способ моментов,
применяемый в статистике, является не только техническим приемом
вычислений, но моменты нескольких низших степеней действительно обладают
большим постоянством, то в качестве типичного (распределения такой
статистической совокупности следовало бы считать экспоненциальную
кривую с показателем соответствующей степени.
Общей математической теории стационарных статистических кривых
пока не существует; нахождение их в одних случаях, как в только что
рассмотренном, приводится к задаче вариационного исчисления, в других —
к функциональным и интегральным уравнениям. Последний метод
естественно применять в биологии, где тот или иной закон наследственности и
отбора играет роль итерирующей функции или оператора, определяющего
преобразование кривой распределения одного поколения в кривую
распределения следующего. Обратно, исходя из статистического распределения
последовательных поколений, можно искать простейшие итерационные
законы, совместимые с данным динамическим процессом. В частности,
таким путем удалось установить, что закон наследственности Менделя
является почти единственным элементарным законом наследственности,
который при отсутствии отбора осуществляет стационарный режим со
второго же поколения.
Переходя, наконец, к теории корреляции, следует, прежде всего,
указать, что большинство ее практических применений, кроме биологических,
основано на недоразумении.
Естественно желание все нефункциональные зависимости выразить
при помощи корреляции. Но все технические усовершенствования,
заменяющие гипотезу нормальной корреляции какой угодно криволинейной
корреляцией, не достигают этой цели, так как понятие корреляции в
теории вероятностей по своему смыслу предполагает стационарность,
заключающуюся в некотором неизменном законе распределения вероятностей
для каждой из величин; поэтому не имеет смысла, например,
рассматривать корреляцию между количеством денежной массы в стране и ценой
данного продукта или средним оптовым индексом. В таких случаях речь
должна идти, как мне кажется, о некоторых приближенных
функциональных зависимостях между несколькими величинами х, г/, z, и следует
искать, являются ли соответствующие гипотетические функции,
конструируемые на основании экономических соображений, действительно
достаточно устойчивыми и мало зависящими от времени и места. Роль теории
вероятностей в этих вопросах далеко не. проста, и формулы ее должны
применяться с большой осторожностью. При сравнении динамических
рядов самое понятие корреляции следует заменить, как это делают
некоторые авторы, термином ковариации, придавая ему чисто техническое
описательное значение.
231
Во всяком случае до настоящего времени многочисленные
исследования, относящиеся к коварпациям, носят чисто эмпирический характер и
находятся вне пределов теории вероятностей.
Ограничивая область применения теории корреляции более или
менее стационарными совокупностями, мы хотя и умаляем, таким образом,
ее практическое значение, но зато в этой области ее выводы обладают
безусловной ценностью, и в некоторых случаях корреляционные
зависимости являются выражением таких же закономерностей, как и
функциональные зависимости.
Необходимость закончить мой и без того чрезмерно затянувшийся
доклад лишает меня возможности остановиться на чисто математических
вопросах, связанных с теорией корреляции, которые еще не получили
полного разрешения.
Я надеюсь, что мне удалось показать, что методы теории вероятностей
достигли в настоящее время достаточной степени гибкости и
совершенства для того, чтобы не опасаться самой строгой научной критики и
служить прочной основой для дальнейшего развития науки. Необходимо
только помнить, что понятие вероятности есть точное математическое понятие
и не следует злоупотреблять им там, где нет твердых предпосылок для
его применения. Ибо, как сказал, кажется, Пуанкаре, теория
вероятностей не дает нам чудесного дара из неизвестного получать известное, но
представляет лишь своеобразный метод формулирования, комбинирования
и объединения нашего знания в стройную математическую систему.
13
ОБ ОДНОМ ЭЛЕМЕНТАРНОМ СВОЙСТВЕ
КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ *
Проблема. Определить наименьшее возможное значение
коэффициента корреляции между величинами х и у, если известно, что
математические ожидания их равны нулю и что существуют две константы L и X
такие, что всегда
0< *,<—<£. (1)
х
Чтобы ответить на этот вопрос, заметим, что неравенство (1) означает, что
I ± - l)^ - X) = ^ (у - Lx) (у - Хх) < 0.
Следовательно, беря математическое ожидание (у — Lx) (у — Хх), получим
of - (X + L) Raoi + LXa2 < 0, (2)
где af = эдгД а2 — $Rx2 ntylxy = 7?aoi, причем через R обозначен
коэффициент корреляции между х и у.
Но из (2) мы выводим, что
_o1±LXaL=_l_(ai + Lxa_\
(L + X)aoi L + X \ a 0i /
Для того чтобы получить наименьшее возможное значение, нужно
выбрать a Jo = и так, чтобы
было минимальным. Таким образом, минимум правой части в (3) будет
достигаться при и = iLX и будет равен
2VTX
L + X
* Sur une propriete elementaire du coefficient de correlation. «Зап. Харьк. матем.
тов.», 5 (1932), 65-66 (162*).
233
Итак, с необходимостью получим
iVlx
Для того чтобы равенство
R>- . (4)
L + X w
iVlx
L + X
было эффективно реализовано, необходимо и достаточно, чтобы постоянно
выполнялось одно ив равенств
у - Lx = 0, у — Хх = 0 с — = VIA.
о
Таким образом, минимум R достигается, когда у есть функция х,
которую можно даже предполагать монотонной, если имеем, например,
у = Хх, когда I х I < 1 и у = Lx, когда I x I > 1.
Пусть р — вероятность того, что | х I < 1, и q — вероятность того, что
1 «< I # I < 2 (р + 2 = 1). Допуская, что распределение вероятностей в
каждом интервале равномерно, имеем
- 2. 1
а2 = р \ x2dx + q\ x2dx = — (р + 7g),
о 1
а? = у (pX* + 7qL*),
1
7?aai = — (рХ + 7gL).
Таким образом, взяв р /(7L) = q/X, будем иметь Oil о2 = LX, и /?
действительно достигает своего указанного выше минимального значения
21UX
Еслрг,
например,
полагая
X
= 0,1,
а L
R
п =
L + X
= 10, то
2
10,1
700
: . П -
0,198,
1
(5)
701 * 701
Таким образом, будет достаточно, чтобы только один из 701 индивида
не подчинился господствующему закону пропорциональности у = 0,1 х,
чтобы коэффициент корреляции понизился до значения 0,198.
14
О ЗАВИСИМОСТЯХ МЕЖДУ СЛУЧАЙНЫМИ
ВЕЛИЧИНАМИ
ПЕРЕВОД ДОКЛАДА НА МЕЖДУНАРОДНОМ КОНГРЕССЕ
МАТЕМАТИКОВ В ЦЮРИХЕ В 1932 г.*
1. Одной из наиболее характерных особенностей современной науки
является крупная роль, отводимая ею схемам теории вероятностей. С
первого взгляда такое преобразование метода научных построений кажется
противоречащим детерминизму классической науки, согласно которому
всякое конкретное явление равнозначно совокупности некоторых
наблюдаемых величин, связанных дифференциальными, функциональными или
иными уравнениями, причем воздействие на рассматриваемое явление
всего остального мира в полной мере отображается пограничными условиями,
нужными для их однозначного решения.
Однако эта детерминистская формула является лишь принципиальной
декларацией, не допускающей общей экспериментальной проверки, так
как невозможно повторение опыта при совершенно тождественных
условиях; поэтому на практике точные науки пользовались всегда несколько
иной формулой — формулой причинности, которая лишь приближенно
совместима с вышеуказанной. А именно, реальное явление заменяется
абстрактной схемой, характеризуемой теми же величинами, причем
допускается, что пограничные условия могут быть экспериментально
заданы более или менее произвольно, независимо от общего состояния
вселенной.
Очевидно, что этот принцип причинности, единственно практически
полезный, не может претендовать на абсолютную и универсальную
применимость, не впадая в противоречие с данной выше полной формулой
детерминизма; и, кроме того, разбивая действительность на независимые,
вполне устойчивые области, он тем самым выявляет неизбежность особого
* Почти дословный перевод этого доклада был прочитан автором на юбилейной
сессии АН СССР, посвященной 15-летней годовщине Октябрьской революции, в
ноябре 1932 года. «Труды Ноябрьской юбилейной сессии АН СССР», Изд. АН СССР, Л..
1933, 38-62 (165*).
235
логического построения, которое объединяло бы в систему иного рода
совокупность явлений, признаваемых независимыми.
Например, допущение, что движение материальной точки не зависит
от выбора положительного направления на оси, имеет математическим
выражением утверждение, что оба знака скорости равновероятны. Точно так
же равноценность или симметрия билетов данной лотереи и физическая
независимость их владельцев от производства тиража означает, что
вероятность выигрыша для каждого пропорциональна числу имеющихся у
него билетов.
Конечно, допускаемая здесь независимость не абсолютна. Однако
построенные таким образом отвлеченные схемы, называемые
стохастическими, в такой же степени могут соответствовать действительности, как
и каузальные схемы классической науки, которые также всегда
предполагаются независимыми от прочего мира.
Математическая теория вероятностей, основанная на простой,
свободной от противоречий, аксиоматической базе, приводит при достаточно
большом числе наблюдений к конкретным предвидениям, практически не
менее достоверным, чем те, которые вытекают из обычных детерминистских
схем, и дает, таким образом, бесчисленное множество способов для
проверки соответствия между стохастическими схемами и изображаемыми
ими реальными явлениями. Я не буду останавливаться здесь на
принципах этой аксиоматики, данной мною пятнадцать лет назад*, которая
проникнута убеждением невозможности полного приведения
действительности к каким бы то ни было общим схемам.
Замечу только, что моя точка зрения, которая, надеюсь, выявится с
достаточной отчетливостью из дальнейшего, значительно отличается от
эмпирического воззрения, отождествляющего вероятность с частотой,
молчаливо допускаемого большинством практиков и систематически
проведенного в курсе проф. Мизеса. С другой стороны, я считаю существенным
отметить тут же, что для фактических приложений теории вероятностей
к реальному миру необходимо постулировать логическую однозначность
всех явлений, имеющих одинаковую вероятность, или, что то же самое,
признать, что вероятность 1 соответствует только абсолютной
достоверности.
В таком случае, когда мы получаем как результат вычисления
важнейшие для приложений теоремы типа закона больших чисел, согласно
которым вероятность данного исхода А некоторого опыта весьма мала, менее
1//V, где N — весьма большое целое число, это утверждение означает
попросту, что существует по крайней мере N несовместимых исходов данного
опыта объективно эквивалентных А (т. е. таких, что различие между
ними возможно лишь на основании признаков или соглашений,
независимых от хода опыта), из которых один только осуществляется.
2. После этих предварительных замечаний мы можем определить
элементарную стохастическую схему как идеализированный опыт, в котором,
при наличии точно определенного комплекса условий а, событие А может
произойти или не произойти, причем объективная связь между комплек-
* См. работу [2]. (Автор.)
236
сом а и событием А в полной мере характерпзуется скалярной величиной
р, называемой математической вероятностью А (при данных условиях).
Рассмотрим внимательнее эту простую схему. Обычно предполагается,
что опыт не только независим от всех прочих внешних обстоятельств, но
я то опыты, повторяемые при тех же условиях, независимы и между собой.
Однако это фундаментальное допущение Бернулли является не
единственно логически возможным, и уместно будет в этом простом случае
разобрать все многообразие связей, фактически встречающихся между
совокупностью явлений А, соответствующих одной и той же стационарной
стохастической схеме, т. е. имеющих постоянную вероятность р произойти
в каждом опыте, пока результаты прочих опытов остаются
неопределенными.
Если взаимная связь между всеми явлениями симметрична, т. е. не
зависит от порядка последовательности рассматриваемых опытов, то эта
связь вполне определяется функцией F(n), -выражающей вероятность, что
событие А неизменно будет повторяться в любых п произвольно взятых
опытах. В случае полной независимости Бернулли F(n) = рл, между тем
как в детерминистском случае, когда результат одного опыта предрешает
тождественный результат всех -опытов, соответствующих той же схеме,
F(n) = р, каково бы ни было п. Можно доказать, что бо всех прочих
случаях р > F(n)> рп и, кроме того, что функция F(n) подчинена вообп^е
только одному условию, что ( — l)hAhF(n) > 0, выражающему, что она
должна быть абсолютно монотонна, т. е. что 'самая общая форма функции
F(n) есть
од-J ***[>(*), (1)
о
где о|з (t) есть произвольная монотонная функция, удовлетворяющая
уравнениям
i i
$ dty(t) =1, ^ Щ(*) =Р-
о о
Отсюда следует, что (при симметрии связей) закон больших чисел не
может быть применим, так как, вследствие равенства (1), вероятность
неравенства
т
Ро < — < Pi
п
имеет пределом Ч> (р±) — г|э (ро), когда п — оо.
В качестве примера отметим случай, когда
где А > 0 — постоянная величина, рассмотренный Марковым и позднее
Полна (Polya), который интересен тем, что он дает для частоты х = т/п
предельный закон распределения
237
где
1 —р
В = А £-,
Р
соответствующий важнейшим типам известных статистических кривых
Пирсона.
3. Отбрасывая условия симметрии связей между опытами и, напротив,
полагая, что связи зависят от порядковых номеров, мы получим, очевидно,
еще значительно большее количество возможных разновидностей. Закон
больших чисел во многих случаях сохранится тогда в силе, и нетрудно
показать, что для этого, т. е. для того, чтобы частота т/п имела постоянную
вероятность р своим стохастическим пределом, достаточно, чтобы
коэффициенты корреляции между каждой парой достаточно удаленных явлений
равномерно стремились к нулю.
Это условие, как и другое, подобные ему, характеризующее лишь
попарную зависимость между 'опытами, недостаточно, однако, для
соблюдения предельной теоремы Лапласа. Но весьма интересно, что, допуская
соответствующую периодичность связей, которая регулирует настолько
чередования появлений и непоявлений события А, имеющего вероятность 7г,
что одинаковые результаты опыта никогда не повторяются, например,
более четырех раз подряд, возможно, тем не менее, констатировать, что
частота т/п (при п весьма больших) удовлетворяет предельному закону
Лапласа с так называемой нормальной дисперсией, характерной для
классического случая независимости Бернулли; так что никакое
макроскопическое статистическое наблюдение не могло бы вскрыть различия между
этими двумя случаями, и нужно было бы иметь возможность изолировать
небольшие группы опытов, чтобы обнаружить указанную
микроскопическую закономерность рассматриваемого ряда.
Все примеры, подобные этому, которые встретятся нам в дальнейшем,
где индивидуальные особенности местных связей не находят никакого
отражения в массовых или макроскопических проявлениях, имеют
основанием теоремы следующего типа.
Для того чтобы закон Лапласа — Гаусса с дисперсией Вп =
= 3R (т — пр)2 был применим к последовательности событий Ah,
имеющих постоянную вероятность р, достаточно, чтобы интенсивные
взаимодействия какого угодно характера между опытами были возможны только до
тех пор, пока разность i между их порядковыми номерами мепыпе числа
R (i<^R), называемого радиусом активности (воздействия), причем
R2/Bn —- 0, между тем как опыты более удаленные почти независимы, а
именно, колебания вероятности события Ah в зависимости от тех или иных
результатов опытов, лежащих вне его сферы активности, должны быть
меньше или равны Вп/п2.
Указанное условие, в частности, соблюдено в случае цепей Маркова,
о которых речь будет впереди. Условие R2/Bn ~-+ О в нашей теореме
существенно, так как легко построить примеры, для которых теорема
нарушается, если радиус активности больше (R2/Bn > к > 0).
Несмотря на значительную общность введенного здесь условия почти
независимости, очевидно, что оно гораздо ограничительной требования
238
равномерного стремления к нулю коэффициентов корреляции,
обеспечивающего, как было сказано, соблюдение закона больших чисел.
Аналогичные результаты распространяются на явления,
соответствующие более сложным схемам, содержащим произвольное число величии,
значения которых зависят от различных возможных исходов опыта. Так,
например, совершенная стохастическая схема, содержащая п случайных
непрерывных величин хи х2, .. ., хПч вполне определяется поверхностью
корреляции или распределения вероятностей * п измерений F(xuX2,...,
хп), обладающей, после установления данного комплекса условий а, такой
же объективной реальностью, как если бы она представляла материальную
вещь, неизменно сопровождающую осуществление комплекса а.
Простейший смысл этой поверхности на основании закона больших чисел
заключается в том, что она изображает приближенно относительную частоту
совокупностей различных значений (хи хо, ..., хп) при условии, что опыт
допускал бы достаточно большое число независимых повторений.
Однако за исключением случаев симметрии или изотропии, подобных
указанным вначале, совершенные стохастические схемы в большинстве
случаев возникают лишь как пределы многочисленных
последовательностей опытов, изображаемых стохастическими схемами, часто
несовершенными или не вполне известными, иногда неизменными (стационарными),
иногда дина(мпчески изменяющимися согласно достаточно определенному
закону.
4. Сейчас мы и займемся исследованием образования этих предельных
стохастических схем.
Рассмотрим последовательность случайных величин хи имеющих
нулевое среднее Жг2-= 0 и обладающих постоянной дисперсией gRj:2. = Ь2,
Закон распределения вероятностей х\ вообще может быть неопределенным;
предположим только, что вероятность, что х% во много раз превысит свой
штандарт ** Ь, достаточно мала, или, для определенности, допустим, что
■ остается ограниченным. Такими свойствами обладают проекции
Ь3
Xi на горизонтальную ось ОХ перемещений в течение промежутка
времени At частицы, находящейся в так называемом броуновском движении.
Предполагая, кроме того, что эти перемещения х\ независимы, находим,
на основании теоремы Ляпунова, что при неограниченном возрастании N
в ер оятность н ерав енств а
N
SQ<^Xi<Si
j
неограниченно приближается к
Si „2
1 \ e~^~dS.
j2nb2N JSo
Полагая t/kt = N, находим для полного горизонтального смещения
частицы S(t) в течение времени t предельную плотность распределения
* Имеется в виду совместная плотность распределения. (Ред.)
** Стандартное отклонение. (Ред.)
239
вероятностей
где
VAnDt
ь2
Г) =
2At
Таким образом, известная формула броуновского движения пли
диффузии является следствием теоремы Ляпунова, и после
экспериментального определения постоянной D диффузии получается дисперсия Ъ2
перемещения хи соответствующего промежутку времени At.
Однако следует помнить, что для конечных значений t эта формула
не является точной, так как At не может стремиться безгранично к нулю.
Действительно, xt < с At, где с — скорость света; поэтому Ь2 < с2 At2,
-следовательно, D = b2/(2At) < с2At/2, откуда At > 2D/с2. Кроме того, гипотеза
независимости соседних перемещений х% представляется a priori
неприемлемой для очень 'малых промежутков времени At, и естественно задать
себе вопрос, нельзя ли найти более удовлетворительную
микроскопическую интерпретацию закона диффузии, применяя обобщения теоремы
Ляпунова, аналогичные указанному выше для теоремы Лапласа.
Не входя в детали этих обобщений, применимых к любому числу
случайных величин и служащих, в частности, обоснованием теории
нормальной (корреляции, я укажу лишь одну типичную теорему, по которой можно,
мне кажется, составить себе довольно ясное представление о существе
дела.
Положим для определенности, что даны две последовательности
случайных величин: хи хг, • • •, хп, Уи 2/2, . • •, уп- Пусть
п п п
1 1 v 1 ;
( П \2 { * * \
з»(2*/* =cn, ж ^2**2 yi) = п»лпСп.
1 1 1
Если xi, хи, у и Ук могут быть сильно связаны только до тех пор,, пока
1 i — к | j i — к |
— L-+-0, — М-+0, где L и М — соответственно макоималь-
ные значения I х{ \ , \ у{ | , причем вне этого соседства величины х, у почти
независимы в аналогичном ранее указанному смысле, то вероятность
совмещения неравенств
71 П
Ып <^Xi< Mn, UСп < ^У* < Ь'Сп
1 1
имеет пределом
1
txU
Г+t -2Rtt
при п — ос , где R = lim#n.
n-^oo
■J J e 2(i-«f) dtdt'
и и
240
Отсюда следует, что в очень многих случаях повторение опытов,
соответствующих весьма разнообразным стохастическим схемам, которые
могут быть и несовершенны, лишь бы они становились почти независимымя
вне некоторой достаточно малой области активности, приводит к вполне
определенным совершенным стохастическим схемам, для которых
нормальная корреляция и, в частности, закон Гаусса имеет столь же
универсальное значение, как принцип инерции в механике.
Таким образом, бесспорно крупной является заслуга Гальтона и
Пирсона, основавших и развивших теорию нормальной корреляции и
предугадавших ее значение для приложений; но только благодаря теоремам,
аналогичным вышеуказанной, применения теории корреляции получают
достаточное математическое обоснование, и мы можем понять, например,
истинную причину приближенно нормальной корреляции между
размерами отдельных органов у данного вида животного, а также более или менее
точной применимости закона наследственной регрессии Гальтона к
признакам, зависящим от нескольких генов. Заметим, кстати, что закон
наследственности Гальтона, согласно которому коэффициенты корреляции
между последовательными поколениями убывают в геометрической
прогрессии, дает первый пример стохастических цепей, математическая
теория которых была построена Марковым на совершенно ином основании.
Возвращаясь к броуновскому движению, можно было бы из
формулированной теоремы извлечь бесчисленное множество микроскопических
схем, которые приводили бы к той же самой формуле диффузии. Обычные
макроскопические опыты не могут дать оснований для того или иного
выбора между этими различными интерпретациями, но, если бы
оказалось возможным произвести некоторого рода фильтрацию
микроскопических перемещений, соответствующих промежуткам времени, достаточно
малым, чтобы закон диффузии был еще неприменим, оказалось бы,
вероятно, необходимым заменить гипотезу независимости другой, более
подходящей.
Так, например, принимая возможно простую математическую гипотезу,
можно было бы положить
Xi+i = 11 — — J Xi + аж, (2),
где a,-+i — случайная величина, независимая от хи причем 3R«j = 0,ЭДаг-2 =
= р2, 3R | а< 13/Р3 ограничено, а (величина Л>1 — постоянная, которую в
дальнейшем (будем предполагать весьма большой, учитывая влияние
инерции в продолжение очень малых промежутков времени.
N
Легко показать, что полное смещение SN = 2 Xi #ля значений t = N&t
i
удовлетворяет при больших N формуле диффузии, где D = А2$2/(2№); и
если AAtr+О, то разность SNi-SNq, где Ni>N0, как в случае полной
независимости перемещений, удовлетворяет закону Гаусса с дисперсией
Л282
2D(U - to) = —7- (^ - No),
16 С. H. Бернштейн
241
поэтому все макроскопические явления тождественны. Увеличение А =
= о (1/А^) позволяет уменьшить элементарную дисперсию Ъ2 и
рассматривать меньшие значения Д£, не вводя неприемлемых скоростей, однако
требование AAt —* 0 (необходимое для сохранения макроскопических
эффектов) исключает возможность довести порядок малости Ъ2 до (Л£)2, и,
следовательно, при всяких условиях переход к пределу At — 0 является
механически недопустимым.
Я остановился довольно подробно на анализе этого классического
простого случая, чтобы показать с полной очевидностью, что метод
дифференциальных уравнений, введенный физиками Эйнштейном, Смолу-
ховским, Фоккером и Планком для исследования стохастических
зависимостей, 'занимающий видное место в современной теории вероятностей,
представляет собой, по преимуществу, полезный технический прием, при
пользовании которым не следует забывать о существенно прерывном
характере механизма образования стохастических схем, не поддающемся
точному дифференциальному изображению.
5. Итак, с указанной выше оговоркой относительно ее механического
смысла, мы можем определить случайную переменную S(t), зависящую
от t, строго подчиняющуюся предельному закону Гаусса
1 --£
4D*
V^nDt
при любом t и обладающую, на основании предыдущего, свойством, что
зноачения S(t), соответствующие двум моментам to, U > £0, связаны
нормальной корреляцией, при коэффициенте корреляции R(t0, и) = уи1к\
другими словами, если So = S(t0) задано, то условный закон вероятностей
для Si = S(ti), т. е. вероятность перехода, представлен функцией
(5,-So)2
1
каковы бы ни были значения S(t) в предшествующие времена t < t0.
В последнем случае, т. е. если вероятность перехода из So(to) в Si(ti) не
зависит от значений S(t), предшествующих моменту tQl говорят, что
значения S(t) образуют цепь; если, кроме того, корреляция нормальна, то и
цепь называется нормальной. Самому общему случаю нормальной цепи
соответствует коэффициент корреляции
p(t м- ф(*о)
я (го, ti) —-,
Ф (to
где ф(0~~ произвольная возрастающая функция.
В случае, когда €)S(t) = f(t) есть непрерывная функция, так же как и
R(to, t), и если кроме того R(t, t) = 1 (как в вышеуказанном примере),
мы называем переменную S(t) квази-иепрерывной или стохастически-
непрерывной функцией t. Я считаю предпочтительным не употреблять
здесь обычного термина непрерывности.
242
Действительно, нетрудно показать па данном примере, что вероятность
соблюдения неравенства I S{ — SQI < \ tt — t01 ,/2~a для всех значений
t0 < T стремится к нулю, каково бы ни было a > 0, если ^ стремится к t0;
однако ни для какой случайной переменной, связанной цепью, невозможно
указать такого модуля непрерывности со(Д£), чтобы неравенство AS <
<о)(Д£) было несомненно.
Регулярность изменении случайной переменной существенным образом
зависит от коэффициента корреляции R(tQ, ti)\ например, для того, чтобы
квази-непрерывная функция имела стохастическую производную (что в
случае цепи могло бы представиться лишь в отдельных точках), нужно,
чтобы
dR (t0, t)
dt
0.
i=*o
Так, например, если в уравнении (2) мы отбросим условие AAt =
= А/п —* 0 и допустим, напротив, что 1/А — 0, так что получим уравнение
вида
kiSi-i — at+i,
то при неограниченном возрастании п значения S(t) в разные моменты по-
прежнему связаны нормальной корреляцией, только переменная S(t) уже
не образует цепи, и коэффициент корреляции
Rfat)
-V'r[
R(t,t)= 1,
dR (t, t)
Ft
= o
и можно доказать, что вероятность неравенства
I S(ti)-S(t0) S(t2)—S(t0)
ti — U
t% — to
< e,
где e — данное положительное число н U < U < fe, приближается сколь
угодно к единице, если to — to достаточно мало. Не останавливаясь на
свойствах квази-непрерывных переменных подобного рода, замечу, что
если S(t0) и S(ti) известны, то закон распределения вероятностей S(t2)
в данном случае зависит и от значений S(t), предшествующих £о, но
влияние последних стремится к нулю, если £i —► t0; введение вспомогательной
переменной S'(t), наблюдение которой совместно с S(t) фактически может
быть неосуществимо, позволило бы получить двойную цепь.
Во всяком случае закон S(th) при заданных значениях S(tQ), S(tt),...
... ,S(th-i) в произвольных предшествующих точках t0 < U < ... <th-i
не может быть независим от значений t < U бег того, чтобы S(t)
образовывало цепь в указанном-ранее смысле, т. е. чтобы закон S(th) был вполне
определен после задания одного лишь значения S(th~i).
Образчиком одной из типичных важнейших задач, относящихся к
стохастически непрерывным случайным переменным, может служить
24?
16*
определение вероятности Ра,ь, что а < Si(t) <Ъ, если кроме начального
условия 5(0) = 0 требуется, чтобы S(t) все время, пока 0 < t < ti,
удовлетворяла еще неравенствам
Fi(t)<S(t)<F2(l),
где Ft(t), F2(t) — Rne данные функции t.
Непосредственное применение классических методов теории
вероятностей к подобного рода задачам, часто встречающимся в физике,
приводящее к отысканию предела некоторых интегралов бесконечно возрастающей
кратности, вообще, довольно затруднительно; напротив, применение к ним
линейных уравнений в частных производных оказалось весьма
плодотворным.
Я приведу в качестве примера решение указанной задачи в случае
закона диффузии, данное А. Н. Колмогоровым, значительно
содействовавшим математической разработке этого метода.
Известно и легко проверить, что вероятность W(S0, £0, S\, *i) перехода,
определяемая формулой (3), удовлетворяет как функция *Si, tt уравнению
dW dW
Z>-
dSo2 dt0 '
а как функция места So и времени U отправления она удовлетворяет
сопряженному уравнению
^ dW dW
dSo2 dt0 V ;
Довольно очевидно, что если положить Ра,ъ = Ра,ъ(0, 0), то вероятность
Pa,b(So, to), рассматриваемая как функция So, to, также будет
удовлетворять последнему уравнению (4) для всех значений So, U области со,
ограниченной прямыми t = 0, t = ti и кривыми S = Fi(t), S = F2(t). Функция
Pa,b(So, to) будет, таким образом, определена как решение уравнения (4),
удовлетворяющее пограничным условиям Pa,b(S, tt) = 1 при а < S < Ь,
Pa, b(S, U) = 0 при S < а и при S > Ъ, а также
Pa,b(Fi(t),t) = Pa>b(F2(t),t)=0.
Тот же метод применим всегда, когда вероятность перехода в цепи
удовлетворяет линейным уравнениям параболического типа.
Простейшим и, без сомнения, наиболее важным остается случай, когда
закон вероятности перехода представляет собой закон Гаусса; посредством
очевидной замены переменных он сводится формально к случаю, только
что рассмотренному. Кроме того, легко видеть, что если дисперсия этого
закона является функцией ti — to, то последний имеет вид
[S,-So~/«,)+/(/o)P
1
VinD(ti-to)
е mu-u)
и осуществляется, в частности, при предположении, что S(t), как ж
раньше, есть предел суммы Sn независимых случайных величин Д5* с постоян-
244
яой дисперсией, имеющих лишь, вообще, математические ожидания,
зависящие от t.
Интересен также случай, когда вместо дисперсии коэффициент
корреляции R(t0, *i) зависит только от ti — t0. Так как, согласно
вышесказанному, во всякой нормальной цепи R(t0, tx) = cp(£o)/<p(*i), то в данном
случае R(t0, ti) = p'l~'°, где р<-1, т. е. коэффициент корреляции должен
убывать в геометрической прогрессии.
Вообще, в наиболее общем случае, когда случайная переменная S(t)
связана нормальной цепью, она может быть получена, как предел суммы
SN зависимых величин AS{ = Si+i — S{, удовлетворяющих уравнениям
AS{ = CiSiAt + а*, (5)
где Сг есть данная функция i (или t), сц — случайная величина; не
зависящая от Si, причем Жссг = ciiAt, 3R а* = Ь*Д£, $511 а* |3/ Af(i ограничено
(где а{, bi — конечные функции t).
Рассмотрение аналогичных линейных уравнений в конечных разностях
с несколькими переменными также приводит к кратным цепям,
предельным законом которых является нормальная корреляция. В этом важном
случае переход к пределу может быть совершен с полной строгостью, и все
вычисления доведены до конца применением классических методов.
Положение вещей существенно иное, если уравнение (5) заменяется
нелинейным уравнением. В таком случае предельный закон не будет уже
законом Гаусса, и даже существование его, по-видимому, еще не доказано
в достаточно общем виде.
Для получения предельной плотности p(S, t) распределения
вероятностей предполагается, напротив, a priori ее существование и постулируется
даже, что она обладает производными нескольких порядков; при этих
допущениях: устанавливается затем, что p(S,t) удовлетворяет некоторому
уравнению в частных производных, открытому впервые Фоккером,
выведенному затем в более общей форме Планком.
Ввиду важности этого метода, я вкратце резюмирую общее
доказательство уравнения Фоккера — Планка, которое я представлю в форме,
несколько отличной от обычного вывода, введя в качестве неизвестной
S
функции интегральную вероятность P(S,t)= ^ p(S,t)dS вместо плот-
—оо
ыостж распределения вероятностей p(S, t), благодаря чему нам не нужно
предполагать эту последнюю дважды дифференцируемой.
Обозначая через Es(u)математическое ожидание и после того, как S
известно, допустим только, что
!&*•(-£)-«*"■ йаЦ^)-*<*«•
I ASI»
lim Es = О,
где функции / и 5, так же как df/dS .и dBjdS — непрерывны; допустим,
кроме того, что интегральная вероятность P(S, t) непрерывна и ограничена
245
вместе со своими производными первых двух порядков. Введем затем
трижды дифференцируемую произвольную ограниченную функцию F(S),
производные которой обращаются в нуль на бесконечности так, чтобы
соответствующие математические ожидания имели смысл. В таком случае
имеем:
F(S + AJS)-F{S)
lim 3R-
At-+0
М
lim ®*
At-+0 L
F'(S)bS + -^F"(S) (AS)* + -^F'"(S) (&S)>
M
Но левая часть равенства равна
оо
lim Г P(S,t + M)—p(S,t)
At-+Q —оо
dp
At
F(S)dS=^^ J^F(S)dS =
--$
dP
~~dT
F'(S)dS,
а правая часть равна
J° \F'(S)f(S, t) + ^-F»{S)B*(S, t)]p(S, t)dS =
—-oo L J
f(S, t)
dS
_i d__
2 dS
(ET-(S,t)p(S,t))
dS.
Следовательно, благодаря произвольности F'(S), необходимо иметь
тождественно
дР , п ч 8Р 1
= -f(S,t) — +
dt
dS
2 dS
&(S, t)
dP(S,t)
dS
Уравнение Фоккера — Планка получается отсюда
дифференцированием по S, если допустить дополнительно существование и непрерывность
dfjdS и d*B/dS2:
др_
dt
д Id*
(//>) + — — (В2р).
es
2 dS2
Вероятность перехода p(S0, to, S, t) от значения So в момент U к
значению S в позднейший момент t удовлетворяет этому уравнению;
рассматриваемая же как функция So, U, она удовлетворяет аналогичному
сопряженному уравнению. Подобный же результат получается для
случая нескольких переменных.
Заметим, что, согласно самому определению цепи, функция
p(Sa, U, St, tt) удовлетворяет интегральному уравнению
оо
P(S0, к, S2, h) - 5 p(So, to, Si, ti)p(Si, tu Sz, h)dSu to<ti< t2,
—oo
указанному Чапманом и еще ранее рассмотренному Смолуховским
п частном случае, когда вероятность перехода имеет вид p(S0, Su ti — t0).
246
В только что опубликованной работе * Гостинский непосредственно
изучает это интегральное уравнение, не вводя допущенных выше
ограничений, и решение в форме ряда, получаемое им, может и не
удовлетворять уравнению в частных производных Фоккера — Планка; было бы
интересно, как указывает Гостинский, и<сследовать полностью условия,
необходимые и достаточные для того, чтобы функция p(SD, t0, S, t)
удовлетворяла уравнению Планка.
6. Уравнение Чапмана при предположении, что допустимые в нем
значения £о, tu ti изолированы, представляет собой определение
дискретных цепей (для полной общности нужно было бы ввести в нем интеграл
Стиль тьеса), важнейшие свойства которых были открыты Марковым
в ряде классических работ (предшествовавших исследованиям
вышеназванных физиков), посвященных случаю, когда величина S(ti) = Х( может
принимать только ограниченное число значений а}, а2,.. .,ан.
В последнее время, благодаря популяризации и развитию идей
Маркова, главным образом в работах Романовского, Гостинского, Фреше
и Мизеса, теория дискретных цепей Маркова сделалась одной из
наиболее разработанных областей теории вероятностей, допускающей
многочисленные приложения и различные обобщения.
Следуя Маркову, мы говорим, что последовательность величин Xi
образует простую цепь, если имеется ряд стохастических опытов Ей
допускающих по h возможных исходов, приводящих соответственно к h
равенствам xi = а^\ к ~ 1, 2,.. h, причем вероятность pV+V равенств xt+i «
&= Sf+V вполне определена, как только установлено, что в опыте Ег
осуществилось равенство #* = а^\ независимо от результатов
предшествовавших опытов, так что схема опыта Е{+± становится совершенной после
того, как исход опыта Е{ известен.
Вообще, вероятность равенства xi+i = a^+v> могла бы, разумеется,
зависеть от всех предшествующих опытов; поэтому естественно определись
вместе с Марковым как первое обобщение простой цепи цепь второго
порядка, для которой вероятность равенства Xi+t = <я^+1> зависит также
от результатов опыта i£V-i (кроме Ег).
Изучение цепей высшего порядка, а также кратных, т. е. содержащих
несколько переменных, может формально быть сведено к простым цепям,
«ведением, например, для -случая второго порядка, новой переменной
%i = %Xi + \xxi-i (где Я, jut — два произвольных параметра), получающей h2
значений %а^ + \ш&~*\ Поэтому в нашем общем обзоре мы ограничимся
простыми цепями, не останавливаясь на некоторых интересных
особенностях цепей высших порядков.
Основной проблемой является вопрос о существовании предельного
закона равенств хп ~ а^п\ не зависящего от распределения вероятностей
первоначальных равенств Xi = a^\ Это исследование опирается на теорию
уравнений в конечных разностях, и для простоты мы остановимся на
важнейшем случае, когда вероятность перехода р^+1) = phi >0, так же,
как и значения я£> = аь, не зависит от г.
* Б. Hostinsky. Methodes generates du calcul des probabilites, Paris, 193L
(Автор.)
247
В таком случае, обозначая через Р^ вероятность равенства хп = иг
в п-м опыте, имеем, очевидно,
(п+1) ^ К'")
Pi =2 Pi pu, (6)
h
причем 2 P" = 1» так как значения ai (I = 1, 2, ..., /г) единственно воз-
*г=1
можны. Отсюда следует, что система h однородных уравнений с h
неизвестными Pi
h
1
h
допускает систему решений, отличных от нуля, для которой 2jPi = i,
1
и при помощи элементарных рассуждений можно показать, что всегда
существует по крайней мере одна система решений, где все Pi ;> 0.
Следовательно, каковы бы ни были вероятности перехода р,-ь> 0,
стационарное состояние цепи всегда возможно, и оно осуществляется,
если в первом опыте Pi = Pi. Это очевидно в простом и весьма важном
случае, когда Pik = рки т. е. если вероятность перехода от значения а,-
к ak та же, что и вероятность обратного перехода; стационарное решение
всегда будет тогда представлено равномерным распределением
вероятностей Pi = 1/А.
Для того чтобы система уравнений (7) допускала лишь одно
стационарное решение, необходимо и достаточно, чтобы единица, которая всегда
является решением характеристического уравнения
I Рп — X Ри ... рм I
Pl2 P22 — к . . . Phi _ n
I Plh ••• • • • Phh — h I
была простым корнем этого уравнения. По Мизесу, это условие,
соответствующее тому, что матрица II р^ II вполне неразложима, означает, что,
каковы бы ни были значки i, к, переход от аг- к а&, или, обратно, возможен,
по крайней мере после некоторого конечного, достаточно большого числа
опытов; таким образом, достаточно, например, чтобы хоть одно из
значений рм, рнг было отлично от нуля.
Важный частный случай, когда все pik > 0, был полностью разобран
Марковым, который показал, что при этом условии стационарная система
не. только единственна, но что, кроме того, при любом первоначальном
распределении вероятностей lim Pi = Рц так что предельное распреде-
П-*оо
ление вероятностей Pi равенств хп = аг- вполне определено матрицей
вероятностей перехода pik > 0.
Однако в самом общем случае единственность стационарной системы
не имеет необходимым следствием, что она должна служить пределом для
248
всех динамических систем, как это видно на простом примере матрицы
| 0 1 |
И1 о II *
Для того чтобы все динамические системы имели пределом
единственную по предположению стационарную систему, необходимо и достаточно,
чтобы характеристическое уравнение не имело другого корня, кроме
единицы, равного единице по модулю.
В противном случае, при котором будет существовать некоторая
степень т фундаментальной матрицы, которая будет вполне разложима, как,
например, в случае матрицы
II 0 а 0 р |
И « О
О р 0 а Г
|| ос О Р 0 ||
динамические системы вместо того, чтобы иметь пределом стационарную
систему, могут, вообще, стремиться к периодически меняющемуся
состоянию с периодом, равным т (в данном примере m = 2).
Однако даже в последнем случае, каковы бы ни были первоначальные
условия, средняя частота равенств хп = aL в совокупности опытов на
основании закона больших чисел всегда будет иметь пределом вероятность
Pi, соответствующую стационарному состоянию. Но обобщенная предель-
п
ная теорема Ляпунова, вообще, не всегда применима к сумме2j^- Дляее
1
применимости достаточны, однако, не только условия Маркова р[г£ > а > О,
но даже значительно более широкие условия, на которых я не буду здесь
останавливаться.
7. Исследование случая, когда величина х\ может принимать
бесконечную совокупность значений, сводится к предыдущему переходом к
пределу, причем интегральные уравнения дают вполне готовый аппарат
для этого, по крайней мере при условии, что совокупность непрерывна
и ограничена.
Предполагая для определенности, что а <^х{ <!&, уравнение (6)
заменяем уравнением
ь
Pn+i(x) = ]pn{y)f(y, *)dy, (6 bis)
а
где вероятность f{y,x)^0 перехода от у к х подчинена условию
ъ
/(г/, x)dx=l; стационарное распределение определяется уравнением
а
Ъ Ъ
Р(х) = \P(y)f(y,x)dy [\P(x)dx=iy
а а
и нетрудно доказать, что, при условиях Маркова, решение f(x, y)> О не
только единственно, но что, кроме того, Рп(х) —* Р(х), каково бы ни было
первоначальное распределение Pi(x).
249
1
В частности, очевидно, что если /(г/, х) симметрична, то Р(х) = .
о — а
Этот общий результат, распространяющийся на конечную область любого
числа измерений, во многих случаях служит обоснованием гипотезы
равномерного распределения вероятностей.
Случай, когда пределы (а, Ь) становятся бесконечными, представляет
исключение, которое следует отметить.
В самом деле, легко показать, что если непрерывная функция
перехода f{y,x)>0 симметрична, то при любых а, р для п достаточно
большого получим
0
j Pn (x) dx < 8,
а
как бы мало ни было заданное число е. Таким образом, случайная
величина должна была бы с течением времени исчезнуть из всякой конечной
области, каков бы ни был ее первоначальный закон распределения
вероятностей.
В силу этого, если случайная величина не перестает быть наблюдаемой,
то она либо ограничена по своей природе, либо вероятность перехода
f(y,x) несимметрична; в последнем случае асимметрия должна быть
такова, чтобы уменьшение рассматриваемой величины, когда она
достигает больших размеров, становилось более вероятным, чем ее увеличение.
Так, например, для существования предельного закона распределения
было бы достаточно, чтобы
^ x2f(y, x)dx<a+ qz/2,
где q < 1, напротив, если q ^ 1, то предела 1Может и не быть. Сущность
отмеченной особенности хорошо выясняется в случае закона
распределения вероятностей перехода
_ (*-сш)2
f(y,x) = —±=e ^~ т
который, при Q < 1, приводит к предельному распределению
1-02
~>2 --
Р(*) = —1/ -—?! р 2а2
2я
между тем как при Q > 1 получается бесконечное разрежение.
Возвращаясь к случаю, когда область значений рассматриваемой
случайной величины ограничена, нам нужно особо остановиться на
применении цепей Маркова к обоснованию кинетической теории газов,
заменяющему эргодическую гипотезу.
Как известно, состояние собрания молекул газа, обладающего данным
количеством энергии и находящегося внутри данного сосуда, обычно
изображается как положение точки А внутри некоторого определенного 6п-
мерного объема Vo, где п — число молекул. Положим; что вероятность рм
250
перехода точки А из положения Ан в момент t в положение Ai в момент
I 4- At равна вероятности pik перехода из А{ в Ah, лишь бы промежуток
времени At был не слишком мал. В таком случае, на основании
предыдущего, не вводя никаких допущений о природе явления, можем
утверждать, что, каково бы ни было исходное положение точки А, по истечении
времени £, достаточно большого по сравнению с At, все положения Ai
стремятся стать равновероятными, или, иначе, вероятность точке А
находиться внутри некоторой определенной области объема V стремится к
пределу V/V0.
Кроме того, в силу закона больших чисел, который применим к цепям
Маркова, если система предоставлена самой себе в продолжение достаточно
большого времени Г0, то вероятность, что длительность пребывания точки
А в объеме V будет равна Т = VT0/V0 (т. е. пропорциональна V), сколь
угодно мало отличается от достоверности. Эта почти-эргодяческая
теорема, лежащая в основе кинетической теории газов, которая, как мы видим,
является непосредственным следствием из простой вышеуказанной
стохастической схемы, не могла быть выведена до последнего времени из
рассмотрения системы дифференциальных уравнений, определяющих
траекторию точки А, так что под вопросом стояла совместимость этой теоремы
с классической интерпретацией механизма молекулярных движений.
Только недавно, введя некоторые достаточно общие ограничения,
касающиеся природы рассматриваемых уравнений, Биркгофу удалось
установить равнозначную теорему.
Это замечательное совпадение показывает, по-видимому, что, во-
первых, детерминистские схемы классической механики достаточны для
объяснения макроскопических законов теории газов и, с другой стороны,
что стохастическая и каузальная интерпретации явлений могут приводить
к равнозначным предельным выводам. В данном случае различие между
обеими интерпретациями состоит по существу в том, что механика
оперирует с бесконечно малыми промежутками времени, между тем как
применение цепей Маркова исключает стремление At к нулю; если бы этот
переход к пределу был законен, то стационарный режим осуществлялся
бы мгновенно.
Кроме того, нужно отметить другую характерную особенность
нестационарных цепей, отличающую их от динамических траекторий: это их
необратимость.
В самом деле, равенство pik — ры выражает только, что вероятность
перехода из предшествующего положения Ai в последующее Ah равна
вероятности перехода из предшествующего положения Ah в последующее
Ai\ поэтому, если p\h означает вероятность, что точка, прибывшая в Ah,
вышла из А{, та имеет место соотношение
D(n+1) / nW n
Ph pik = Pi Pffe.
Следовательно, пока стационарный режим не осуществился, вообще,
равенства 'p[h = Phi = Pik не будут справедливы; и, кроме того между тем
как согласно определению цепи значения pik определены независимо от
начального состояния, вероятности ргл, напротив, a prion не определены.
251
К тому же уже одно то обстоятельство, что разность между экстре!маль-
пыми значениями вероятностей Pi , на основания классического
рассуждения Маркова, должна быть меньше соответствующей разности для
Pi - показывает с достаточной ясностью, что стремление к равномерности
в обоих направлениях в цепях Маркова невозможно.
8. Таким образом, в то время как уравнения механики одинаковым
образом определяют будущее и прошедшее, с цепями дело обстоит иначе.
Поэтому, если мы хотим восстановить симметрию между прошлым и
будущим (в чем я лично не вижу необходимости), то следует отказаться
от схемы типа цепей Маркова и заменить их схемами иного характера.
Для этого рассмотрим последовательность случайных величин Xi
такого рода, чтобы закон вероятностей х\
стал определенным только после того, как (известно одно из его
предшествующих значений Xi-н и одно последующее Яг+ь, причем эта
вероятность не меняется, если дополнительно даются какие-нибудь значения,
предшествующие Xi-h или следующие за Xi+k. В таком случае мы будем
говорить, что значения х% образуют возвратную цепь (или стохастический
мост), которая характеризуется, следовательно, тем, что все ее
промежуточные звенья становятся стохастически совершенными, после того как
заданы первое и последнее звено: xt оа хн. (В обычной цепи все величины
Хг становятся стохастически совершенными, как только задано #i, после
чего дополнительное задание хь. лишь изменяет соответственные законы
распределения Х{.)
Допустим, чтобы указать пример достаточно общего характера, что,
вообще, Xi-i ^ Xi ^ хш и что функция / имеет вид
_ Chk [ Xi — Xi-h \
fihk = М( , (о)
где Chh — постоянная, определяемая условием
l
Chk ) fhh(z)dz = 1.
о
Можно доказать, что в таком случае закон вероятностей обязательно
выражается кривой Пирсона
fhh{z) = 2^-1(1 -Z)^~\
где X — произвольный положительный параметр.
Заметим, что
кх{-н + hxi+k
к + h
и дисперсия
02(ХЛ = kk ( Xi+h-Xj-h\ •
v х} Цк + к) + 1\ h+ к J
252
Если % имеет определенное значение и Л, к становятся очень большими,
то кривые Пирсона приближаются к нормальным кривым с дисперсией,
стремящейся к нулю, а при h = к = 0 точки xt были бы вполне
детерминированы и расположены на одной и той же прямой. Если же Я —* 0, так
что Кп — а остается конечным, то предельная возвратная цепь представит
монотонную квази-непрерывную случайную переменную, для которой
fhh(z) = 2a('-'°)-i(l - z)«^-t)-\
i i — h i + к
ще t ? to = , ti = . Таким образом, мы получаем общую
То То ТЬ
стохастическую схему образования и непрерывного преобразования
кривых Пирсона.
Интересный способ образования возвратных цепей указан Шрединге-
ром в его мемуаре «Die Umkehrung der Naturgesetze». Положим, что
величины xq, Xi связаны несовершенной корреляцией так, что распределение
/(яо, Xi) вероятностей xi известно только, когда дано х0. Для
определенности вместе с Шредингером допустим, что
(эсг-Хо)2
1
/(so,si)= , ,е 4*Ж'г-<о>. (3 bis)
VbnD(tt-t0)
(При этом напомню, что, как было замечено, распределение вероятностей
хо при данном х\ во всяком случае не может выражаться той же самой
функцией.) Наиболее общая корреляционная поверхность,
соответствующая данной вероятности перехода от хо к #1, будет
F(x0, Xt) = P(zo)f(z0, х^,
где P(xq) есть плотность распределения вероятностей х0, которая может
быть задана произвольно; закон распределения вероятностей xi
определится тогда формулой
00
Pi(xi) = $P(a;o)/(*o,a:i)dzo. (9)
—оо
Следовательно, не входя в противоречие с законом перехода f(xo, Xt),
невозможно будет при большом числе наблюдений получить частоты
Wo(xq) и Wi(Xi), зависимость между которыми значительно отклонялась
бы от (9). Однако при достаточном терпении ничто не мешает
коллекционировать по собственному желанию весьма мало вероятные пары
значений (яо, х^ и извлечь, таким образом, из данного распределения
произвольную, совершенно новую корреляционную таблицу.
При этом, если нас интересуют не совмещения хо, Xi в одной паре или
у одного и того же индивида, а только частоты w0(xq) и Wi(xi) различных
значений величин х0 и х^ рассматриваемых в отдельности, то составить
коллекцию такого рода можно будет сравнительно гораздо скорее, и мы
получим вполне определенную математическую задачу, ставя вопрос о
том, какова будет наиболее вероятная корреляционная таблица,
соответствующая такому отбору. Предполагая, что число отбираемых пар весьма
велико, Шредингер нашел, что новая поверхность корреляции будет
253
иметь пределом
^(*0, Xi) = /(So, Я1ЖЯо)ф(Я1),
причем а|э(яо) и q>(xi) определяются из интегральных уравнений
оо
w0(x0) = ty(xo) J /(so, si)(p(si)d:zi,
—оо
(10)
оо
Wi(Xi) = y(xi) ^ /(д:0, Xi)ty(xo)dx0.
—oo
Для случая, рассмотренного Шредингером, когда f(xo, rci) имеет форму
(9), можно установить, что система уравнений (10) допускает решение,
каковы бы ни были заданные непрерывные функции w0(x) и wt(x).
Поэтому, полагая далее, что величины яо, х, х\ образовывали
первоначально простую цепь, определенную вероятностями последовательных
переходов /о(#о, х) и fi(x,xi), заключаем, что после того, как между хо
и Xi установится выше образованная корреляция, закон распределения
вероятностей х будет
оо оо
w(x) = ^ ^ fo(xoJx)fi(x,xi)yp(x0)(f(Xi)dxodXi =
~оо —оо
оо оо
= ) /о(*о, x)$(x0)dx0^ fi(x^xi)^(xi)dxi = x¥(x)0(x), (11)
—оо —оо
и так как он станет определенным только тогда, когда обе функции
распределения w0(xq) и Wi(Xi) будут заданы, то вместо первоначальной цепи
мы получим теперь возвратную цепь.
В случае Шредингера
е kltD{t-U) e 4rtD(ti-*)
/о (s0, х) = f =г, /i (я, si) =
/4лЯ(*-*0) ' ' K4jcD(*i-*) '
так что xF(;r) и Ф (х) удовлетворяют соответственно сопряженным
уравнениям
д2{¥ 8W д2Ф дФ
D-— = ——» —D-
дхг dt дх2 dt '
обращаясь соответственно в г|)(#о) при t = £о и в ф(^) при £ = £4.
Если подчинить начальное и конечное распределение ^о(^о) и wi(xi)
некоторым дополнительным ограничениям, нужным для того, чтобы оба
оо оо
интеграла \ ^(x)dx, \ q(x)dx имели смысл [так, например, если
—оо —оо
X2 X2
е Ih2" e ihj
254
то нужно, чтобы | hi2 — h2\ < D(ti —10)], то возвратная цепь Шредингера
допускает следующую простую интерпретацию. Рассмотрим две
независимые случайные переменные х' и х", которые назовем сопряженными,
образующие две обыкновенные цепи противоположного направления,
имеющие соответственно вероятностями перехода /о(#о', #')> hWix")'i
и допустилг, что лишь тогда, когда величины х' и х" равны, интересующие
нас величины х становятся доступными наблюдению, причем х = х' — х,г.
В таком случае из теоремы умножения вероятностей непосредственно
следует, что Wq(xq), Wi(Xi) будут представлены с точностью до постоянного
множителя формулами (10), где ^(^о7) и ф^/')—начальные функции
распределения вероятностей сопряженных величин х' и х", и искомая
вероятность w(x) (с точностью до того же множителя) будет
представлена формулой (11).
Заметим, что возвратные цепи, каков бы ни был способ их образования,
становясь стохастически совершенными только при задании начального
и конечного 'состояния, очевидно, не могут представить совершенных
стохастических схем для состояний, предшествующих начальному или
последующих конечному; таким образом, они аналогичны динамическим
траекториям, рассматриваемым с точки зрения вариационных принципов, но
между тем как последние могут, вообще, быть однозначно продолжены в
обоих направлениях, возвратные цепи этим свойством не обладают: для
нх универсальной применимости было бы, таким образом, необходимо,
чтобы время было конечно. Как бы то ни было, форма, в которой мы
представили здесь возвратные цепи, значительно отличаясь от концепции
Шредингера, логически не зависит от времени и, следовательно, применима,
в частности, также и к статическим проблемам.
Я далеко не исчерпал всех исследований о зависимостях между
случайными величинами, но во всяком случае вы видите, как велико
разнообразие приемов, которыми теория вероятностей располагает в этом
направлении, и я надеюсь, что вы извините меня, если мне не удалось с
достаточной полнотой изложить все важнейшие современные идеи этой обширной
области.
15
О ДИФФЕРЕНЦИАЛЬНОМ УРАВНЕНИИ
ФОККЕРА - ПЛАНКА *
1. Пусть г/о, Уи • • •> Уп, . . . — последовательность величин уп,
связанных соотношением
&Уп = Уп+i — Уп = А,фп(#п, ап) + Я2/п(г/п, ап), (1)
где /п и фп конечны для всех конечных значений уп вместе с
производными первых трех порядков, а ап — последовательность независимых
случайных величин, имеющих заданный непрерывный и трижды
дифференцируемый закон распределения** вероятностей. Ясно, что при этих
условиях, если уо удовлетворяет закону распределения вероятностей,
обладающему производными первых трех порядков, или если г/о определена
так, что дфо/дао?§гО, то уп также подчиняется трижды
дифференцируемому (при достаточно малых X) закону распределения Рп(Уп).
Предположим, что при заданном у математические ожидания
ЗЛфп(.У, <Хп)= 0; дйфп(У, ап)= Вп(у); 9Ю/Л(у, а») = Лп(у),
и, кроме того, Ж I А г/13 = О (К3).
Положим далее t = пХ2. Известно, что при этих условиях, если рп(у)
стремится при Я —► 0 к дважды дифференцируемой функции р(г/, t), то
эта предельная функция удовлетворяет уравнению Фоккера — Планка
dp = д(Ар) 1 дЦВр)
dt~~ ду + 2 9г/2
если 4(£, г/) = ИтЛп(у), 2J(J, у) = Нт2?п(#) обладают соответствующими
производными.
Однако из обычного вывода этого уравнения ни в какой мере не
следует, что указанный предельный закон действительно существует и
обладает требуемыми производными.
* Sur requation differentielle de Fokker — Plank. «Comptes rendus», 196 (1933),
1062—1064 (163*).
** Имеется в виду плотность распределения. (Ред.)
256
2. В самом деле, можно указать простые и довольно часто встречаю-
щиеся случаи, когда этот предельный закон не существует.
Предельный закон p(y,t), обладающий производной dp/dt, не может
существовать ни для какого начального значения г/0, как бы ни было мало
t > О, если
Ап(у)>\у\*+*, ao<Bn(y)<at(l + y*), (2)
где Р > 0, ао > 0, ai > 0 — заданные константы.
Так, например, предельный закон, удовлетворяющий уравнению Фок-
кера — Планка, заведомо не может существовать, если уравнение (1)
представляет стохастическую модификацию уравнения
-§ = гЛ (h(y) = An(y)=y>), (Ъ)
соответствующую последовательным толчкам, равновероятным в двух
направлениях, с дисперсией Bn(y)kt = ВД£, не зависящей от у и t.
Не входя в детали доказательства, заметим только, что указанный факт
основан на чрезмерном стремлении у к бесконечности, проистекающем из
свойства соответствующего дифференциального уравнения (3) обладать
подвижными сингулярными точками.
3. Возможно, однако, дать достаточные условия для того, чтобы
придельный закон р(у, t) действительно существовал и удовлетворял
уравнению Планка, или тому, которое получается интегрированием по у: это
имеет место для всякого t ^ sf0, если можно указать такое достаточно
малое число 6 > 0, что априорное математическое ожидание Щ уп I 6 < L
равномерно ограничено для всех положительных значений % ^ ^о столь
малых, что Х2п <^ £0.
В частности, р(г/, t) будет удовлетворять уравнению Планка и будет
определена своим начальным значением р(г/, 0), если существует такая
положительная постоянная аи что
уА(у)<а,(у + у^) (4)
(например, если А (у) — -— у2к~1 + biy2h~2 + . . . есть многочлен нечетной
степени, такой, что уА(у)—+ —- оо при у —► ±<х>).
Метод доказательства состоит в том, что сперва устанавливается, что
при условии (4) предельный закон вероятностей р(у, t, а, Ъ) существует;
если предположить, кроме того, что у остается все время в заданном
конечном интервале (а, Ь), то функция p{y,t,a,b) удовлетворяет
уравнению Планка и полностью определяется своим начальным значением и
граничными условиями p(a,t, a, b) = p(b, t, а, Ь) = 0. Далее доказывается, что
p(y,t,a,b) стремится (вместе со своими производными первых двух
порядков) к определенному пределу при а —* — оо? Ъ —► оо.
4. Для того, чтобы предельное распределение вероятностей
существовало при t-*- оо, достаточно, чтобы условие ограниченности $$ | уп | 6 < L,
где L не зависит от t, было выполнено при сколь угодно больших
значениях t. Это будет иметь место, если можно указать такое достаточно
малое значение & > 0, что
уА + г(1 + у2)<П(1 + у*)\ (5)
17 с. Н. Бернштейн
257
где Н — постоянная. Это условие, однако, не достаточно для того, чтобы
предельное распределение удовлетворяло уравнению Планка. (В этом
легко убедиться, рассмотрев простой пример, где А = — У, В = у2; легко
проверить, что при t — сю вероятность выполнения неравенства I у I < 8
стремится к единице, как бы мало ни было е, в то время как
соответствующее решение уравнения Планка есть 1/г/4.)
Для того, чтобы предельный закон удовлетворял уравнению Планка,
достаточно присоединить условие, что решение
р(у) = {ёе4~*йУ (6)
этого уравнения может выть нормировано; это будет тогда [при
выполнении неравенства (5)] предельный закон распределения вероятностей,
каковы бы ни были начальные условия.
Так, например, если R(у)есть полином, имеющий только
действительные простые корни, а2(у)> 1, 6 > 0, то уравнение
Ду = - o2(y)[R2(y)YAt + бФ(у, a)V~& [Ж (ср*) = о*(у)]
приводит при At — 0 и t —*-. сю к предельному распределению
2Щу)
значит, если 6 очень мало, то у стремится постоянно пребывать в
окрестности корней уравнения #(?/)= О, причем продолжительность
пребывания около каждого корня а% стремится стать пропорциональной
1
—-—ч , _.——, каково бы ни было начальное положение *.
o2(ai) \R (си) I
* Более подробный вывод утверждений этой заметки дан в работе [18]. (Автор.)
16
ДОКАЗАТЕЛЬСТВО ТЕОРЕМЫ ЛЯПУНОВА
И ОБОСНОВАНИЕ ФОРМУЛЫ НОРМАЛЬНОЙ
КОРРЕЛЯЦИИ МЕТОДОМ ДИФФЕРЕНЦИАЛЬНЫХ
УРАВНЕНИЙ*
1. Пусть величина S = SN = zj + х2 Л- ■. . + xN слагается из
большого числа N независимых случайных величин. Для упрощения письма
положим $&Хг = 0. В таком случае, теорема Ляпунова может быть
формулирована следующим образом i. Обозначим
N
bi = «R х), а = ж I х\ I, в = BN =-2 ''.".
вероятность Rn(^) неравенства
SN<a (1)
имеет пределом
а с2
Р(а,В) = —= \ е~™ dS, (2)
V У2лВ Л*
когда
N
—^г-0- (3)
Новое доказательство этой теоремы, которое будет сейчас дано, имеет
основанием дифференциальное уравнение
дР 1 д2Р
дБ 2 да2 '
(4)
* «Теория вероятностей». М.-Л., изд. 2-е (1934), добавление второе, стр. 380-
395 '(д1я'о1гределенности мы ограничиваемся предположением (3), относящимся к
Щ xt |3 вместо общего условия Ляпунова.
17*
259
которому, очевидно, удовлетворяет функция Р(а,В), так как
ОР 1 - "2 д*Р а
= р гв _ 0 гв
да У2л5 да2 В^2пВ
дР 1 ?Г^ 1 - - S'
л
дБ У2лВ _^1 252 25 J 2£-)/2я£ У
Аналогичный метод может быть применен для нахождения предельного
закона вероятностей & ив более общем случае, когда величины Xi не
вполне независимы, лишь бы только закон вероятностей слагаемого х*+1
становился вполне определенным, когда известно значение суммы Si =
= Х{ + хг + ... + Xi предшествующих слагаемых, т. е., если Su S2, ..., Sn
образуют простую цепь Маркова. Тогда при соответствующих
ограничениях предельный закон для S удовлетворит уравнению, аналогичному (4)
(см. [35]).
Положим вообще
Sn = Xi + Х2 + . . . + ХП1 Вп = £}bi
при всяком n^N. Пусть tyi(x) будет интегральная функция распределения
вероятностей величины хи так что, по условию,
оо
оо с»
^ dtyi(x) = 1, ^ xdtyi(x) = О, ^ x4^i\x) = biy
J \Хг\Ч^(х) = а. (6)
—оо
Одной из технических трудностей исследования закона вероятностей
величины Sn является то обстоятельство, что при сделанных общих
предположениях относительно величины xi этот закон выражается, вообще,
прерывной функцией. Поэтому мы употребим прием введения
независимого вспомогательного слагаемого, который был впервые применен самим
Ляпуновым: достаточно ввести вместо Sn величину
S!n = хо + Sn, (7)
где х0 подчиняется непрерывному закону вероятностей; тогда и Sn также
будет следовать непрерывному закону вероятностей.
Предположим, что наша вспомогательная величина х0 подчиняется
закону Гаусса
л Хо - £
Ро(х0) = =_- \ е **дх
ау2я J
' —оо
со штандартом * о, значение которого мы пока оставляем неопределенным.
В таком-случае, интегральная функция вероятностей Pi(Si) величины
Si = Xq + Xi
* Т. е. стандартным отклонением. (Ред.)
260
будет определена формулой
Pi(S') = ^P0(S' — x)d^(x). (8)
—оо
Точно так же если обозначить через Pn(Sn) интегральную функцию
вероятностей Sn\ то
оо
P„+i(^) = J Pn(S'—x)d$n+i(x). (9)
—00
С другой стороны, покажем:, что
1 а -—
Р(а,В'п)= \е 2В»' dx, (2bis)
12кВ'^
где
В'п = о2 + Вп
есть дисперсия величины Sn и Р(а, Bn+i) удовлетворяет приближенно
уравнению (9), если подставим в нем P(S' — х, Вп) на место Pn(S' — х)
и P(S, Bn+i) на место Pn+i{S').
Действительно,
P{S'-x^)^P{S\B'n)-xdP^sB'n) +
х2 d*P(S',B'n) _ a;3 dsP{S'-Qx,B'n)
+ ~2 dS7* Т W* '
где 0 < б < 1. Поэтому получаем, пользуясь формулами (6),
00
\P{S'-x,B'n)d^n+i(x) =
—00
оо оо
= Р (S', Вп') J Л|)„+1 (*) - ^^д^ J X Л|>„+1 (Х) +
—оо —оо
, 1 &P(S\Bn') 7 ,. . х 1 г , d'P(S'-Bx,Bn')
—оо —оо
= P(S', Bn') + \ d2P{gS:2Bnl bn+i + 6ra+1, (10)
где
IWK^", (И)
о
обозначая через М максимальное значение модуля
д3Р _ Г _я* 11 е 2В»'
дх* "1-я/2 вя']у2Ж'
261
которое осуществляется для х = 0; поэтому
УгяВ'3
п
и, следовательно, неравенство (11) получает вид
I 6„+i | < •
Сп+1
Но
&У~2л(о* + Вп)3
P(S\B'ibi) = P(S',B'n + bn+i) =
(11 bis)
(13)
где
. bl+i d*P{S',Bn' + еЬп+1) ^ r Ьп+i ^ 3&n+i
Yn+i = < L < =
11 2 дБ"- 2 8#'2У2яе
обозначая через L максимальное значение
д2Р
дВ'1
П
Ъх
4У2я(5/ + 0Ьп+1)5 4У2я(5/ + Gfrn+i)7
3
е 2(Bn'+Qbn+i) <
3 \х\е 2(Вп'+0Ьп+1)
< max— ——r^iz-u_ <
4 У2я (В/ + Qbn+i)5 4 У2ле (Яя' + 0Ьп+1)s
(14)
Поэтому, сопоставляя (10) и (13) и принимая во внимание
уравнение (4), получим
оо
P(S',B'n+l)= J P(S'-x,B'n)(tya+i{x) + yn+t-61l+t. (15)
— 00
Следовательно, полагая
Рп{.т) = Р{х,Вп')+Хп(х) (16)
и вычитая (15) из (9), находим, что
оо
\n+i(S')= J kn(S'-x)dyn+i(x)+6n+i- Yn+i, (17)
—оо
откуда следует, что
^n4i <Д» + I fin + i I + I Y»+i I , (18)
обозначая через Хп максимальное значение \Хп(х) I .
Складывая неравенства (18) по всем значениям п от 0 до N— 1.
получим
А*<2[|6;| + |Y*|1 (19)
2 = 1
262
так как Ко = 0. Иными словами, при всех значениях «г,
N
м*)--Р(*,о2 + я*)|<2г|<Ч + М1<
j=i
<
1л . ,. L6(
+
3&;
1,
У2я .^. L 6(а2 + £г-_03/2 8Уе(а2 + Я^)2
или, принимая во внимание, что fc8/:<.c, и полагая а2 > Ьг-, имеем
(20)
1
N
PN(x) -Р(х, а2 + BN) | < -—= 2
<?г
2}/2я~ (а2 + Дг-1)3/«
<
<
г=1
J у С,- _ S / В
У2лГ а3 2i2n V ст2
(21)
2У2я .^ а3 2У2л V а2^
Таким образом, эта разность стремится к 0 при г —+ 0, если а2 не
слишком мало по сравнению с В. (Из условия а2 > Ве2/з, необходимого,
чтобы правая часть неравенства была мала, вытекает, что а2 > Ь*, так
как £е2/з>с2/3 >&ь)2
Теперь остается перейти от закона вероятностей Pn(S) величины S'
к интересующему нас закону вероятностей Rn(S) первоначальной суммы
Для этого замечаем, что неравенство
будет, несомненно, удовлетворено, если
S'N<a-ia (t > 1)
2 Неравенство (21) молото уточнить, если заменить условие, что
N
(1)
у _!!_ =
0,
немного более ограничительным требованием, чтобы
ct
btVT
■о,
(3)
(3 bis)
Принимая во внимание, что левая часть неравенства (20) не зависит от
порядка, в втором расположены слагаемые я*, можем расположить их тале, чтобы
дисперсии hi > bi+i шли не возрастая. Поэтому
2 <ет/в2' ■ <8i/J5 ---fTj "
£(о* + Bt^yh v tZA {G2 + B._iYi2 v La3 ^ (a2 + ^)3/:J
<
< ej/*J5
Г bi
cfz
(a2 + 2)3/2 J
] ,.__- r&i 2
+ ■
cr /a2 + В
3s ,—
<— Yb,
полагая, что a3 > гВ% откуда, как было замечено, вытекает, что 6i < а2.
Следовательно, неравенство (21) заменится более точным неравенством
За Г В
PW,)-P(,,a2+5)[<2-|/—.
(21 bis)
263
и I хо 1 < ta\ и, с другой стороны, неравенство (1) не может соблюдаться,
если
SN^ a + to
я в то же время
I хо I < to.
Поэтому
2 °° 2 °г
Рк(а + to) + —=- ^ e-^dc > Д^(а) > Pjv(a — to) =■ \ е~^Чх (22)
У2я fJ У2я j
(так как вообще (А ж В) = (А) — (В), а вероятность, что I х01 > £а, рав-
2 ?
на -=г \ e-^dx
У2я J
Принимая во внимание, что
\ е-*г/2<& < — \ xe~^dx = i— < е-'2'2,
* * I *
и пользуясь неравенством (21), выводим из (22), что
Р(а + to, В + a2) + Q>RN(a)>P(a-to,B + <t2)-q, (23)
где
Но из равенства
дР(а+ Qx4B + 6а2)
Р (а + х, В + а*) в р (fl| 5) + Л ^ +
(а+0х)2
;+<Г1^Г^1 o^o+JxLl (0<е<1)
Ly2n(5 + 0a2) 2У2л(5 + 9а2)3 J
заключаем, что
\P(a±ta, В + в*)-Р(а, В) ]<-£= + f <-J^
У2яВ 2вУ2ле zV 2яВ
полагая
o<VB~.
Таким образом, вследствие (23),
Atn
\RN(a)-P(a, B)\<q+ I (26)
ЗУ2яВ
264
Поэтому, полагая
откуда следует, что [см. (24)]
i^L-.v./llnlf
Кв К 2 е '
убеждаемся, наконец, что3
|i?N(a)-P(a, B)Ki*
1 +
W4
(27)
действительно стремится к нулю вместе с е.
2. Аналогичное рассуждение может быть применено для
доказательства теоремы, лежащей в основе теории нормальной корреляции, рас-
пространимой на любое число сумм.
Рассмотрим, для определенности, две суммы N случайных величин
(х{, у г), связанных только попарно:
Пусть
S = SN = Xi + x2 + ... + xN,
T=TN = yi + y2 + ... + yN
(3ft *,=*%* = 0).
ЗК x? - bh 2R y? = b/, 5R х{уг = hu
3R | Xi |3 = Ci, «K | у* I3 = c/;
(28)
6 Пользуясь более тачным неравенством (21 bis), указанным в сноске 2 на стр. 263
(при условии, что Ci/{bi^B) < в), мы могли бы написать
Q<
поэтому, полагая
/2 Г 3 / В у/,'
=е, '- V In-,
получим
откуда
3 _. to
2 /Я
\RN(a)-P(a,B)\< У1
265
3 2 , / Г
_ + —1/ 1п-
2 3 У е
(27 bis)
положим
п п п
2 &> = Ап, 2 ъ< = с«, 2 hi = 5n.
i=l г=1 г'=1
причем для краткости будем писать
AN = Л, Бдг = 5, CV = С.
В таком случае вероятность совмещения неравенств
SN <u7 TN<v (29)
имеет пределом 4
U V 2 2
л Cu+Avi—2Buv
P(u.v,A,B,C) = -—7===\ $e ~W^T"dadv, (30)
2л у AC — № -о° -оо
если величины
N N
2 с* 2с/
г=1 t=l
стремятся к нулю.
Доказательство существенным образом опирается на
дифференциальные соотношения
дР 1 д2Р дР 1 д2Р дР д2Р
дЛ 2 да2 дС 2 dv2 дБ диди
в которых убеждаемся непосредственным дифференцированием:
~-р * _ Си+А^—ЧВиъ
(32)
J в 2(АС-В-) Jt.f
<9гг 2лУ-4С-52
лр 4 _ Cu*+Av2-2Buv
dv 2я^AC - В2 ^
R2 J
Cu2+Au2-2But>
^ 1 р -i^EZ£^.fly_(7u
^=■5 J Г
ic — S2 J •> L
5a2 2я уЛ С - £2 _jm Л С - В
U V "2
и — Ви у С
■
2л}/АС — В2 J J LV АС — &> АС — В2-*
' —00 —ОО
дР
е 2(ас-в') du dv
= 2
ЗА '
4 Полагая В — R V АС, можно ввести явным образом коэффициент корреляции
R в выражении (31).
266
дгр ! " Bu-Av -Сц+л"-2Вц"
= \ в 2(АС-В') du
dv2 2л^ АС —В2 JAC — B2
—Со
Cu2+Ad2-2Buu
г г ^4^-^ у А_1 2(дс_в, ffaf/y =
2яУЛС-52 J J l\AC-B2J AC-B2
—00 —OO
-24p
d2P 1
ОС '
Cu2+Av2—2Buu
дидг; 2яУЛС-52
. e 2(AC-B!) _
6 г, л Cu'+Av'-2Buv
с Bu—Av
\ e час-]?) dv =
J Л Г D2
2niAC — B* j^AC — B
_ L Г С \(Cu — Bv)(Av — Bn)_ В
2л УЛС ~-^~В2 _J^ _J l (ас _ Д2)2 4c - £2
с?и d^ =
--£•
Вводим вспомогательные независимые слагаемые .Го и т/о,
подчиняющиеся закону Гаусса с соответственными штандартами а и $i
(Ж £о = 3Uz/o = 0) и составляем суммы
£п = аго + *i + ... + Яп = so + ^"> \
in = #о + Hi + .. . + Уп = */о + Л*, j
Обозначим через Ру,(и, v) вероятность совмещения неравенств
Sn' < a, TV < v (35)
и введем монотонные функции г|)п(£, г/) двух переменных х, у,
выражающие вероятность, что хп < х, уп < г/. Для большей общности, которая
необходима, если мы не хотим исключить из рассмотрения практически
важные случаи, когда, например, хп и уп могут получать лишь конечное
число различных значений, мы не налагаем никаких дополнительных
ограничений на функции уп(х, у), кроме тех, которые содержатся в условиях
теоремы, полагая, согласно принятым обозначениям,
оо оо оо \
$$ <%i(z, */)= 1, *)1 xdypn(x,y)= ^ус1^п(х,у) = 0, j
-оо ' I (36)
оо со оо j
3 }хЧ$п(х, у) =Ъп, 3 3 У2^п(х, у) = Ъп, 3 J zydHpn(x, y) = hn,
—со —со —со /
распространяя, таким образом, понятие интеграла Стильтьеса на случай
функций двух переменных.
Понятно, что если функция г|)п(я, у) имеет вторую производную
д ib (ос ту л
— '—- по х и у, то в соответствующих формулах фигурируют
обычае dv
267
д2$п
ные двойные интегралы, причем Fn (х, у) = -—— представляет тогда
ох оу
плотность распределения вероятностей для пары величин (хп, Уп).
В частности, последнее обстоятельство имеет место для введенной
нами пары (хо, г/о), для которой
х у х2 у1
Р0{х,у) = Ы^У)-^—\ [e'^'wdxdy. (37)
* — оо — оо
Таким образом, для любого п > О имеем соотношение
оо
Pn+iK v)= J J Pn(u — x, v - y)dtyn+i(z,y), (38)
—оо
которое выражает, что при любых заданных (xn+i, yn+i) неравенства
S п+1 < #, Т n+i < V
соблюдаются тогда и только тогда, когда
Sn' <U — -Zn+l, Тп < V — У п+1.
Подобно тому, как это было сделано в случае одной суммы, мы должны
прежде всего убедиться, что, благодаря дифференциальным уравнениям
(32), равенству (38) приближенно удовлетворяет
и v С пи2+А'nv-—2B nuv
P(u, V, А'п, Вп, Сп) = 1 \ \ в 2(A'nC'n-B^n) du dv
2л^Ап'Сп' - Впг J J
* —оо —оо
(30 bis)
где
Ап = о2 + Ап, Сп = (Ti + Сп.
Для этой цели замечаем, что
Р(и, у, A'n+i, Bn+U C'n+i) = Р (и, у, Ап + Ьп+1, Вп + hn+u Сп + bn+i) =
ЗР ЗР ЗР
= Р(щ v, An, Вп, Сп) + bn+i -^- + hn+i — + b'n+i~^r + Yn+i, (39)
n n л
где Yn+i есть остаточный член формулы Тейлора, представляющий
многочлен второй степени относительно fcn+i, hn+i, bn+i:
1 Г, 2 д*Р , , 2 <ЭФ 7 /2 5Ф _ т, д*Р
1Г 2 3*Р , <32Р _,2 d*P , а«Р
Y«+i - т [ Ьп+1 -^ + A»+t -^- + &я+1 ^j- + 2Ь„+1Ьп+1 ^ +
п п п п п
+ 2Ьп+1й»-и -^g- + 2b'n+ihn+l -1ёгШ~\. (40)
п п
в котором производные берутся для значений и, v, Ап + 8bn+i, Вп + Qhn+u
Cn + Qbn+i(0<Q<l).
268
С другой стороны,
оо
5J Р(и — х, v-y,A'n,Bn,C'n)dyn+l(x,y) =
—оо
оо
= 5 $ Р(и, у, X, Bn, Cn)dqn+i(z, у)-
— оо
оо
-И \*^r + v
дР дР
ди ди
1 г с Г 32Р 92Р
*l>n+i(s, */) +
<Э2Р 0 д2Р
d^n+i(x, у) + 6п+1
dif " dudv * ди2
= Р(и, у, Лп, £п, Сп) +
+ Т IV1* + ^"ШГ + bn+11* J+ бя+1' (41)
полагая
оо
6„+1 = - — 5 J [аох3 + Ьт&у + За2ху2 + а3у3] А|>я+1 (х, у), (42)
—оо
где, согласно разложению Тейлора по степеням (х, у) функции
Р(и - х, v -у, Afn, Вп, Сп),
коэффициенты ао, ai, Л2, аз представляют значения соответствующих
частных производных 3-го порядка функции Р для значений переменных
в-е*, р-еу, л!,, вп, с'п (0<е<1).
Следовательно, принимая во внимание (32), выводим из (38) и
(41), что
Р(щ v, Ап+и Вп+и Cn+i) =
оо
= 5 $ р(и - х-> v — У» ^*» 5"> C^d^n+i^, г/) + Yn+i - бп+i. (43)
—оо
Вычитая последнее равенство из равенства (39), получим
00
Яп+1 (u, v) = } j К {и — я, у — у) dipn+i (з, I/) + бп+i — Yn+i, (44)
—оо
где
ХП(Щ и) = Рп(и, у) - Р(м, у, Ап, Вп, Сп). (45)
Обозначая максимальный модуль %п{щ v) через Лп и максимальные
модули Yn и бп соответственно через уп, бп, заключаем из (44), что
Xn+i <"L + Yn+i + бп+i, (46)
откуда, складывая последовательные неравенства (46) для всех
значений п< N, получим
N
Л*<2[уп + ап], (47)
269
принимая во внимание, что ко = Ро(и, и) — Р(и, г, А0, /30, С0) = 0, где
А0' = а2, 7?0 = 0, Со' = ai2.
Чтобы указать верхнюю границу для 6„, замечаем, что
д3Р
<
2я (АС — ^)V2
Cu — Bv \2
__ _1 1 Г
|/2я .1—^- -оэ
У/1С-У?2
7?
./-':£
с
2(Л=-Л")
(/У =
- 1
K-f
2С
б/У <
<■
У **\л—с
tVP
ди2 дг
В
1 _ Г ~^ dv< 1
^ -со J/ 2л [Л--(
Bv—Cu
2я У (.4С — B*f
2л У"С
д3Р
#2 ч V:
JD 2
<
2я
тг<
<
2,[А — -7г) У2пС
диди'2
К
1
д3Р
Следовательно, из (42) и (48) получаем
<
/
2л [С
№\з
(48)
—со L
VV?
+
4-5
+
+
/."
с'
cl —
В1
+
А„
У
V'-l
<
гугл J.
Y<-$\\Y*.-$
Y*-2
п
dtyn+, (x, у) <
cN>+1 (х, У) =
3/2п
ТГ +
В2.'/.
(<-Э М)
(41))
так как а2Ь + ab2 < а3 + б3 при а > 0, &>0.
Для получения верхней границы тп+1 замечаем, что
270
1 d2P
\дА*
С?(2+Ли*-2Виг
8я U —-7Г Т^С.
z\
В
В
u-~c~v | U"1TV
v~%
В \2
с/у ■
<
Зе
С 2С
if:
с
дБ*
\ е dv <^
ЦА-^у^С ф-£)*
= 4
э,1 ас
1
2я Уа'С — Б*-
_В , (Сц—/??•)( Лг; — Дн)
лс* - в*
(АН —В*)*
1
2л(лс —;r-)
j*
\ AC-B^\
A—c-
B
v \ и — -pr- v
и
0 / u- ~ о
7
<
2я (ЛС — £2)
\J*\
Y'ac~b- ^ yrc
Yac-u*1 2C
<
I v \e
^ ■
I" I
2jt (ЛС — 5°-):
rm<-
2k [AC — №) ^ / ii- \ / #* \ '
d2P
| ЗАдВ I ' /lJt (ЛС - £*)V»
Сц— £г>
1^ ЛС — ^
С
Cii2+A^-2Buu
g~ 2(AC-i*J) _
Б
W*-£
— 1
В
n г- v
1 / ('
i/^?
2C
4я (Л —тг) "КЛС —^
<
<
В*
<
Вг \1г I В2 \/z
д*Р I 1
дВдС \< , ( л &\Ч „ 5гул:
д2Р
ЗС2
<
Я2
■<■
1
4 1С-— J У2яе 4^
В2\2
(50)
271
Поэтому, учитывая, что
(Вп + Sfen+i)2
Лп' + бЬп+i-
>Ап'-
Bt
С + 6Ь' С
п п+1 п
(0<е<1),
так как это неравенство равнозначно
ebn+iCn(Cn + вЬп+i) > Сп(вп + Qhn+iy - в2п(Сп + еь;+1),
или, по сокращении на 0, равносильно неравенству
bn+iCn + bn+iBn —~ 2hn+iCnBn > QCn (hn+i ~~ ^n+i^n+i),
которое соблюдено благодаря очевидаому соотношению bn+1bn+i > hn+u
мы имеем, вследствие (40):
1
i »«
!< 4-
ЬП+1 \ , / &П+]
^l+l + "2~&n+l&n+i
П+1 1 , I -П+1 I , '"■»■ * •~'L '^
+ 4
Ьп+А+1
Ьп+Лш
в»\*л
•-3)(«-S)
£2\1/s
n c
£2\°/2
5!
^+-3
&n+i&rm
c„ — ■
2 (<-£)(«-£)
bn+l6n+i
П+1 71-Ц / 71+1 , П+ L \
<
Следовательно, подставляя (49) и (51) в неравенство (47), получим
ЛГ-1
^N <C ZJ
1
:Го3"К2я
vn+i
п+1
я!\'л
(*-Э («-*)
+
W-1
+ 24-
п=0
Полагая
(52)
>.(„--*)■,.{>,(<;_»)
272
откуда следует, что
а3 > 2 с{ > Ьп3/2, а? > 2 *' > ЬгЛ
г=1 г=1
получим, таким образом,
IPw(»,i;)-/>(u,i;,^;,fiw,C'/(r)|-
| Р*(и, у) - Р(и, v,A + ог,В, С + at) | <
1 £ Г bl Ъ?
A N г- / л N
5У2я «tiLo3 at» I 3f£iL
+
3 ffi L о4 0l4
<
<±(-L + l)2(ii + ^
3 V У2я
К
.=1V О'1 Oi
<
i-^U^
с-»
A
Но вероятность Rn(Uj v) неравенств
Sn = Xi + X2 + . . . + xN < u,
ZV = г/i + г/2 + . . . + yN <
?}
(53)
(29)
безусловно больше, чем вероятность Pn(u— to, v — toi), уменьшенная
на вероятность нарушения неравенств I х01 < to, \yo\<toi (t > 2), т. е.
RN(u,v)<PN(u + to,v + Usi)+l+ — ^ ^ е 2 dxdy>
2 л —t —t
> PN (гг — to, v — tOi) у= J e 2 dx,
так как неравенства (29) осуществлены, если
S'N<u — to,
(54)
ic в то же время
rN<v-tat
\xq I < to, I г/о I < tou
С друтой стороны, замечая, что неравенства (29) будут нарушены, если
хоть одно из неравенств S'N ^ и + to, TN ^ v + tOi осуществится при
\ х0\ <to, I г/о I <tOi, заключаем, что
л * t Х'+У*
i — RN(u,u)>l — PN(u + to, v + toi) — 1 4- — J J e 2 dxdy,
2n ~t -t
18 c. H. Бернштейн
273
т. е.
1
Rn(u>, v)<Pn(u + to,v+ ta) + 1 J $ e 2 dxdy<
2я _* -^
< Pjvfzz + to, v + tOi) + —=- ? e-*72 da:.
У2я -J
Таким образом, учитывая (53), (54) и (55), получаем
Р(в — to, v — toi, Л + 02, 5, С + а*) — q < RN(u, v) <
<Р(и + to,v + tau A+ а2, В, С + а\) + Q,
(55)
где
А—-
Q<
S2 \ 3/=
~~с
£2\%
+ в'1
-/=/2
(56)
(57)
Но
2 ЙР
P(u + x, v + y,A + o2,B,C + oi) = P(u, v,A,B,C) + x— +
ди
дР JP дР
+ У -—■ + а2— + ov—,
где производные берутся для значений
и + вх, v + 0г/, А + бст2, В, С + бет2 (0 < 0 < 1).
Поэтому
I P(u ±to,v ± tou А + а2, В, С + о2) - Р(гг, у, А, В,С)\<
to toi
V 2лА V 2лС
Следовательно, полагая
+
Ох
2V2^{a-^) 2У2ле{с-^)
(58)
„г_(л-|)^Мс~|)^
находим, наконец, что
RN(u, v)-
1
2я Vac-в2
и
2(АС-В') rfu dV
<
<Q +
Zt
2У2л
(e'/« + s"/<).
Беря, кроме того,
-/>7b.
274
получаем шз (57)
О < Т (ev< + е"Л) + (е + г'У'< <2(г + г')\
откуда
и v Cu+Av—lBuv
Rx(u,v) [ [ е 2(ас-в>) duciv
2л1АС-В2 JL-L
<
< 2(е + е')'/< + -^- (е1/. + е"'<) л/ Ъ—^—у <
<2(e+e')V«[|/ln7i-7+l].
18*
17
О ЛИНЕЙНЫХ КВАЗИ-НЕПРЕРЫВНЫХ ЦЕПЯХ
МАРКОВА*
Час тъ первая
1. Я излагаю здесь несколько элементарных вычислений, некоторые
результаты которых я уже отметил в своем докладе [14].
Пусть будет
уп+1 = ауп + bzn + an, zn+l = а!уп + b'zn + Pn, (l)
где а, Ь, а!, V — постоянные, введенные ради краткости письма, а ап,
Рп — независимые случайные величины, причем для большей
определенности предполагается, что $&ап = ЗКРп = 0. Тогда величины (уп, zn)
образуют линейную цепь Маркова.
Легко видеть, что (z/n, zn) могут быть представлены как суммы
независимых величин.
Полагая 3Ri/n = Mn,$$tzn = Nn, мы прежде всего имеем
Mn+i = аМп + WV„, Nn+i = а'Мп + b'Nn, (2)
так что Мп и Nn непосредственно определяются по начальным условиям,
а уп — Мп и zn — Nn удовлетворяют 'тем же равенствам (1).
Положим далее
уп = С^ип + D^v71, zn = С^ип + DWvn, (3)
где и и v — корни характеристического уравнения
= 0; (4)
а — х а
Ъ V -х
мы будем иметь
Ъ&р = (и — а)№), Ыт = (и — а)1У£\ (5)
* «Донл- АН СССР», 1 (1934), сир. 1—9 (первая часть), стр. 361—365 (вторая
часть) (166*).
276
a Co" , -Do" определятся из уравнений
цп+1д£(п) + уп+1дд(п) = 0п>
U а и"+1ДС(") + - - vn+iAD^ = р„,
откуда следует
Итак,
п-1
_ ^ ai [ (у — a) и"-*-1 — (и — а) у"-*-1] + Ьрг- [у"-*-1 — и*-*-1]
i=b и — и
(6)
(так как
и — а = Ь' — у, (г; — а) (и — а) = —Ьа'),
когда начальные значения установлены.
Введем теперь переменную t соответственно каждому индексу i и,
принимая во внимание, что At представляет приращение t при
возрастании i на одну единицу, положим
а = 1 + РА*, Ъ = АД*, a' = ZA£, &' = 1 + QAt, (7)
так что уравнения (1) получат вид
Ауп = (Руп + kzn)At + an,
(8)
Azn = (lyn + Qzn)At + рп;
допустим, сверх того, что
SR an = a2A*, 3R р* = a?A«, *Ш anpn = Raa.At. (9)
В таком случае, полагая
х = 1 + ЕД*,
мы заменим характеристическое уравнение (4) уравнением
(р —Б)«? —Б) —лг-о (Ю)
и, обозначая через (|i, £2) его два корня, получим
у» = мп V-^r-S {(4 + 6*д0Л"~1 С*(Ь - *) - *М +
+ (1 + ЬДО п-*^ №Р* - (Ei - Р) а*]},
»* = л»+^г|7 2 {(* + ьд*) л~'-1 №* (ь - о - ад +
+ (1 + ЬАО л"г'-1 ttai - (Ь - (?) pd).
277
(11)
2. В приложениях часто бывает, что интервал At времени t, по
истечении которого (г/п, zn) получают приращения Ду и Д2, весьма мал; таким
образом, нам приходится отыскивать предельный закон вероятностей,
к которому может стремиться последовательность величин (г/п, zn), когда
At стремится к нулю.
Надлежит подчеркнуть, прежде чем перейти к расчетам, что
совокупность переменных (г/, z), удовлетворяющая искомому предельному закону,
является чисто фиктивной, совершенно так же, как и переменная z,
удовлетворяющая в теореме Лапласа нормальному закону, к которому
стремится закон —- при бесконечном возрастании числа опытов. На
У npq
самом деле истинный закон (г/п, zn), соответствующий At, превышающему
определенную заранее данную величину, лишь приблизительно равен
тому, который получается из предельных формул, и здесь именно и
возникает важная проблема: установить минимальный допустимый интервал
At посредством измерения расхождения наблюдений с предельными
формулами.
Добавим предположение, что
At At
когда At —* 0; этот случай представляется, в частности, если ап и р„
являются величинами порядка V At. При таких условиях применима
обобщенная предельная теорема Ляпунова.
Действительно, Мп и Nn будут иметь пределами величины М(t) и
N (t), определенные уравнениями"*
dM = PM + kN, d-£ = lM+QN (13)
dt ' ' dt
i-e^1
B(t) = lim 3R (yn - Jlf„)«= lim {fc=^ [(6,- Pf T~{1+да-
1 __ ^ I _ e(Zi+Zt)t 1
+ (li ~P)\_(i + b^tY - 2 (Si - P) (6, - P) i _ (1 + 5iA0 (1 + ьдо J +
й2<32Д<
1 - «*' _L 1 - ^' _ p J - eg.+6,)t I
т 4 i4_i_t..A/42 ^ a Mxt.Aiwixt.AH "T"
1 - (1 + libtf ^ 1 - (1 + 6tA0* 1 - (1 + lib*) (1 + |аДг)
2ДД51А< Г. p t 1 - е2^ , р n 1-е2*''
+ (b-ii)4 ( 6>) 1-(1 + £1Д02 +/C^-Si) 1_(1 + ^Д2)з +
+ (* ~ P) 1 - (l + |хдо (l + bAt) j J =
2gi ' 2|2 ' ""•" |! + 5,
&2a? Г ,ЯУ ^«'
■h
fc2°i Г e2^ a2^ 0 gfe^'X -1 1 2R<al rfe(P-62)(e2S-'-l)
+ (|2-Ii)2L 2£i + 26, Z 61+6, ] + (|а-Ы21 2gx
&(Р-Ег)(е1Ы-1) (Q-f)(<fa+m_i) ]
+ 2|, + ix+i, J-
а также
С (0 = Hm 8» (yn - Mn) (z„ - 7Vn) и Z) (*) = lim 2R (z„ - iVn)2
273
(14)
остаются конечными, и подобным же расчетом проверяется, что
9К | уп — Мп |3 и $R\zn — Nn\3 стремятся к нулю при At-^0,
Итак, предельный закон есть нормальная корреляция, и
поверхность корреляции имеет параметрами величины M(t), N(t), B(t), С (t)
и D(t), из коих лишь две первые, M(t) = $ty(t) и N (t) =®tz(t),
зависят от начальных значений. Кроме того, если значения у (to) = Уо и
zito)==zo даны к моменту t = t0^>0, то закон (?/(fi), zfa)) во всякий
момент ^1>/0 будет, очевидно, нормальным, причем три последних
параметра превратятся в B(tx— f0), C(tx —10), Z)^ —/0), в то время
как^М и iV (по уравнениям (13)) примут значения
м = 1гпг {[2/о (^2 ~ Р)" ь°] ^1('х"'§) + [2/о (Р"~Ei) + ь°'] e*2( Wo)}'
# = irhr {[*°(Ез" 0 ~ ад ^i~'e) + [z°(Q ~~li}+/2/o1 eUti~to)Y (i5)
Эти уравнения, таким образом, представляют плоскости нормальной
регрессии, соответственно, величин у(tx) и z(tx), когда последние
наблюденные значения двух переменных y(t) и z (i) соответствуют моменту t0.
В данном случае, чтобы получить цепь, надлежит одновременно
рассматривать у и z. Каждая из этих величин, взятая в отдельности, образует
цепь лишь тогда, когда будет, соответственно, к = О или I = 0. В том
случае, например, когда к = 0, получается
М = г/0вр«-Ч DW-y (*2Pi - 1) •
Если режим является стационарным (для чего требуется Р < 0), то
коэффициент корреляции
R{to,ti)=e*lb-** (to<ti),
но вообще будет
R(to,ti)=e*«*
V B(h)
В частности, если Р = 0 [броуновское движение, где i?(£) = at], имеем
R(to,ti) = y -j^;
легко видеть, что $Ry(t) получается прямолинейной интерполяцией, если
у(U) и y(h) одновременно известны; тогда
ду(0-<'-^--<'-*')у'.
#1 — h
3. В общем случае можно определить 5, С, D (если только их
существование обеспечено) посредством дифференциальных уравнений
°fL = 2P5 + 2fcC + a2, .
а*
— =lB+(P + Q)C + kD + Root, (16)
ей
4^= НС + 2QD + о*
at г
279
которые выводятся из уравнения (8). Достаточно, например, для
получения первого из них помножить первое из уравнений (8) на 2уп,
образовать математические ожидания его двух членов и перейти к пределу.
Рассмотрим еще случай, когда <? = (Зп = сг± = 0; Z = 1, который после
приводится к единственному уравнению второго
исключения уп
порядка
Д*
Д*
PAzn + kznkt + <xn.
(17)
В этом случае уравнения (16) будут иметь характеристическим
уравнением
(х — Р)(х2 — 2Рх — Щ=0. (18)
Следовательно, предполагая В(0) = С(0) = D(0) = 0, имеем
В = -■
+
2ka2ept
+
+
ka2ept
Р2 + 4к
С
IP (Р2 + ЩР
etVp4ih е-гУрцТк
-Р + У Р2 + 4к Р+УР2 + Ы
n^fi.Pt
-[e(f/2) уP'+ih e-itl2)YP*+ik]2
2J/> + 4k
(19)
D =
2a2ept
2kP (P2 + ЩР
+
■ZpPt
+
&e
P2 + 4k
etYp'+i.k
+
e-tVpi+ih
P + VP2 + 4/c P+VP2 + 4kj
В стационарном состоянии1, которое осуществляется при t — 00, если
Р < 0, к < 0, имеем
<т2 г&
с = о, в
D =
2Р ' ~ 2кР'
Коэффициент корреляции R между скоростью и положением равняется,
следовательно, нулю в случае стационарности. Во всех случаях Л> 0:
это означает, что если действием случайных ударов движущаяся точка
1 В общем случае уравнений (8) стационарный режим сможет быть
осуществлен, лишь если Р + Q < 0, PQ — Ы > 0. Имеем тогда М = N = 0,
Д-
с =
D
- с2 [<? (Р + (?) - Щ + 2А;(?Да(У1 - /c2ai
2(Р + 0)(Р0-«)
<?Za2 — 2PQRoOi + P/caf
2(Р + Q) (PQ - kl) '
- Z2a2t + 2ZPflaat - a* {P(P + (?) - AZ]
2(P + Q)(PQ-kl)
280
смещена с положения, которое она занимала бы в отсутствие таковых, ти
вообще вероятно, что в этот момент она стремится еще более от него
удалиться.
Рассмотрим частные случаи предельного характера.
1) Р = 0. В этом случае
В =
аЧ
— + —-(e2t^k - e-2t*h), С = — (е** - е~^к)2
2 8# 8/с }
D= -
оЧ
Н (e2t 1* — e~2t vfc).
(20)
2ft 8ft yft
Если одновременно ft = — L2 < 0, периодичность величин
M = — Lz0 sin Lt + y0 cos Lt, N = z0 cos Lt + -^°sin Lt
не сопровождается периодичностью дисперсий 5иД заключающих в себе
вековые члены
оЧ
а*
В = —— + ——sin 2L*, С = ЛГО
2 4L 2L2
sin2 Lt,
D =
аЧ
Ж 4L3
sin 2Lt.
(21)
В данном случае теорема живых сил, согласно которой имеем тождественно
л/2 + ш2 = у\ + щ,
приводит к
ш у2 + im%2 = у\ + т\ + в + ив = */2о + ьч\ + а8*.
Если
W = у2 + L42 = z'2 + L2z2
представляет энергию, это равенство попросту означает, что
математическое ожидание приращения энергии
W[W(t)-W(to)) = o2(t-t0)
равно приращению энергии случайных импульсов.
2) Р2 4- Ак = 0. В этом случае мы имеем
В =
2Р
- 1 + ept{ 1 + Pt +
P2i2\
с =
a2f2ep<
Z> =
2o2
[-
l + ep< 1-Pi +
РЧ2
(22)
281
3) к = О, Р ^ 0. Тогда
^ = -—(^-1). С = -^-(^-1)2.)
D =
J (23)
1
t + —— (3 - 4ер< + е2р<)
/в L 2P
J
В этом случае у образует изолированную цепь, a z может
рассматриваться как предел ^у% At или же как стохастический интеграл у.
4) р = к = 0. Тогда
а2*2 а2*3
5 = аЧ С = —, Л = —• (24)
Если начальные дисперсии 2?о, Со, Z?o не равны нулю, имеем
аЧ2
В = оЧ + Во, С = —- + 50i + С0,
Li
D = -^— + Д,*2 + 2C0t + А).
?«сто» вторая
1. Укажем в качестве примера физическую интерпретацию уравнения
•Ья-
*(£)-
РА* + а (Р<0),$а = 0,Жа2 = оШ. (17 bis)
Пусть (2t. z2, z3) будут координаты центра тяжести одной из молекул
некоторой изолированной газообразной массы. Не делая никаких
специальных гипотез о природе или форме молекулы (неизменной массы),
необходимо лишь принять, что математическое ожидание каждой составляющей
скорости молекулы равно нулю при макроскопическом равновесии. Кроме
того, какова бы ни была природа взаимодействий между молекулами,
естественно допустить, что если соответствующая Az/At для данной
молекулы имеет определенный знак, то воздействие окружающих молекул
стремится, в среднем, дать ей приращение противоположного знака, так что
математическое ожидание этого приращения равно, при At достаточно
малом,
( Az\ Az
3R Д (— = Р —А*, (25)
v At J At v '
где коэффициент Р < 0. Таким образом, мы приходим к уравнению
(17 bis), гдеЗИа = 0.
Следовательно, согласно результатам моего первого сообщения, мы
находим, что у = z = lim Az/At, т. -е. каждая составляющая мгновенной
скорости молекулы, соответствующая данной начальной скорости у = г/о,
подчиняется нормальному закону вероятностей (закон Максвелла) с
параметрами
Л/ = Уови_0, B--|L(e*w-l)-„-|L (26)
282
(при t—+ оо), где о2 At — дисперсия (т. е. средний квадрат) приращения
у' в течение бесконечно малого промежутка времени t. С другой стороны,
дисперсия D проекции z пути молекулы, которая также подчиняется
нормальному закону (закон диффузии), равна2
D
iiг
р2
i+2F(3-4^4-^)]-^^
(23 bis)
Коэффициент Р, как и а, обратно пропорционален массе т молекулы.
Поэтому limD не зависит от т, между тем как liml? обратно
пропорционален т. Можно заметить, что предельная формула (23 bis) выражает
в соответствии с теоремой живых сил, что, при установившемся режиме
(t — оо), математическое ожидание живой силы
а2
я*»©'
т
2Р
сохраняет постоянное значение (независимое от массы т молекулы),
так как
ЖА
Az \2
-Ж
Az
Аг
/Az \2
2. Возвращаясь к общим формулам (19) для В, С, Z), видим, что
В, С, Z) выражаются сходящимися рядами
С_
а*
В = t + Pt2 +
-2*+±fi +
3
_ /2 Р*8
а2
—+ — +
3 -т- 4 "Г •••
Следовательно (полагая z = zQ, у = у0 данными в первоначальный
момент), коэффициент корреляции 7? между (z, 2/) равен
Уг /л , р^
2
Л
1
■ +
).
т. е. для достаточно малых значений t имеем, при любых Р и к,
приближенное равенство
R » -— (27)
(вполне точное при Р= к = 0).
Другими словами, для малых значений At вероятность неравенства
Az
IT
J/o
<Ясг
Д£_
весьма мало отличается от
V.
2? -
2 dx4
т. е. для Я достаточно большого, сколь угодно близка к единице. В этом
смысле и следует понимать утверждение, что у является стохастической
производной или стохастической скоростью величины z, но, очевидно,
2 Коэффициент корреляции между z и z' стремится к нулю с возрастанием *.
283
в противоположность классическому определению производной, нельзя
указать такого значения t, чтобы неравенство | Az/At — г/о | < е, при
данном е, было несомненно.
3. Займемся теперь вычислением коэффициентов корреляции между
последовательными значениями переменных при t — t0, t = th где t0 < £ь
Для этого заметим, что так как C(t)/D(t) есть коэффициент регрессии
z' — у относительно z, то линия регрессии z\ — z(t{) относительно zo =
= z(to), т. е. 9Jt(zilz0) —математическое ожидание z\ при данном z0,
имеет уравнением
9К
*о = Rs = 1, д£° = я? = О, R^R^ ~y=
<*1-o) = a1 + g^f- [(Ь - £<«) **-« + (5^ - b) *"-" ] , (28)
где а0 = SR(z0), ai = 3R(zi). Поэтому коэффициент корреляции i?0 (zo, Zi)
между z0 и Zi равняется
V ' (61-61) /ДА '
где мы пишем для краткости С0,..., Dx и т. д. вместо C(t0),..., D(ti)
Аналогичным образом получаются остальные три коэффициента
корреляции:
*х (Zo'Zl) = (Ь-ЫУЫЖ '
Яг ^ zi) = ^с0-в0и^+(в^с^^^ f (29 bis)
*з (г;, z[) = - (fcC0 + l^o) еы'^ + {kCo + £2B0) е^Ч
Очевидно, при ^х —^ ^0
dR0 __ dR0 Л D D __ Cp
Укажем, в частности, формулы, соответствующие предельным
случаям:
1) к = 0 (1г = О, Е2 = Р)
R° ^Zi)=—тут—' Л (Zo-Zl) = Fs^re •
i?2(4Zl)=-p^=r + -^>/5(ep<'-«-l), i?s(Z;,%)= "j/l^-U;
2) Р2 + 4/с = 0 (^ = ^=4)
о , „ч 2D0 + (ti —«о)(2Со —РДо) £<<>--'.>
*•<*'*>- ^Ж **
р , ' , 2Co + (2Bo-PCo)fa-t0) ^d-'.) ,qm
«2 (Zo, zi) = ^у= е , (30)
*> ^ <;> - —W —е ;
234
3) P = к = О
Наконец, при стационарном режиме (Р < 0, к = — L2) имеем:
^«.-Ц - ^еЫи-to) еы-т/ ti-to п . 7 ti -t0\
л0(20, zi)= г- = fecos/г— Psmh—-— г>
Ь — si A \ 2 2 /
Л2(20, 2!) = - i?i(z0, zt) = — (eUu-to) _ еыи-и)) =
-/
1 + ^ e«*'-«* sin h^-~-; (31)
fls(«b',«i') = - r—£ = г (Л cos A———+
+ P sin h -
где первые значения соответствуют случаю вещественных корней
\ — 7г (-Р =t УР2 — 4L2), а вторые значения соответствуют случаю
комплексных корней g = V2 (Р ± Щ *. В первом случае имеем всегда
#o(zo, zi) > 0, Rzizo', Zi) > О, напротив, #i(zo, z/) < 0; между тем, i?3(V, z/),
уменьшаясь от +1 (при ti = to), становится отрицательным при h — to >
v. lnQ £2
^ —, где Q = • — < 1 и достигает отрицательного минимума 3
51 — S2 Si
1+0
m = — q*-Q
2 In о ,
при ^i — Jo = - —» стремясь к нулю (подобно прочим коэффициентам
61 — 62
корреляции) при i4—>- 00. В случае комплексных корней
последовательные значения z, соответствующие промежуткам времени 2я//г, образуют
простую цепь (так как R2 — Ri = 0).
Поступило
3 февраля 1933 г.
3 Как легко видеть, абсолютное значение тп растет вместе с Q, достигая значения
е~2, когда р —*- 1.
* Здесь обозначено h — V4L2 — р2.
^
18
0 ДИФФУЗИИ С ПОГЛОЩЕНИЕМ *
1. Пусть будет
&У = А (г/, t, y~At)M + f(au у, t, iIt)fKt (1)
уравнение, зависящее от одной или нескольких случайных величин а*,
причем величины щ, соответствующие последовательным мгновениям t,
являются независимыми.
Предполагается, что
SR/(a, ^УД*)=0,
lim = В (у, t) > О,
_ (1 bis)
.. & \f*(a,V,t,lAt)\
Jim _= = О,
lim A(y,t,№) = A(y,t).
Пусть ро(у) будет дифференциальная функция распределения
вероятностей у для t = 0; требуется определить функцию вероятностей p(y,t)
в любой момент t>0 в заданном интервале (а, Ь), предполагая, что в
уравнении (1), которому удовлетворяют последовательные значения г/,
приращение Дг стремится к нулю, и что, с другой стороны, как только
некоторое промежуточное значение у выходит из интервала (а, Ь),
последующие значения у перестанут удовлетворять уравнению (1) и должны
будут оставаться вне интервала (а, Ъ).
В моей заметке [15] я указал разрешение этой задачи, но в мемуаре
«Принципы теории стохастических дифференциальных уравнений» [19]
я не останавливался на данном вопросе. Существование решения может
быть установлено применяемым в указанном -мемуаре методом, но для
* О рассеянии с поглощением. «Докл. АН СССР», 1 (1934), 230—233 (167*).
286
устранения всяких сомнений нужно еще несколько дополнительных
замечаний.
Для этой цели заметим, что согласно теореме V приведенного мемуара
мы можем утверждать существование предельного (для At —* 0)
распределения вероятностей величины у , удовлетворяющей уравнению
Ауг=АХЦуе) + Щуе)УАГ,
где 1(у)= 1 при а < у < Ь, Х(у) = 0 при у<,а— г и при у > Ь + е,
если к (у) останется конечным со своими производными трех первых
порядков также в интервалах (а — е, а) и (6, Ъ + е), и к тому же плотность
вероятностей этого предельного распределения р (y,t) удовлетворяет
уравнению
др_ д(АУр) IfflWp)
dt ду 2 ду* ' ( '
которое для (а < г/ <Ь) приводится к
дР _ д(АР) 1 дцвр)
dt ду 2 дуг
(3)
если р(г/, 0) допускает1 конечные производные трех первых порядков
и р{у, 0)= 0 для у < — а и г/>Ь.
Ясно, что е -— 0 как раз отвечает условиям нашей задачи (поглощение
на концах я, Ь). Притом, р со своими производными первых двух
порядков будет стремиться2 в промежутке (а, Ь) к функции p(y,t) и
соответствующим ее производным, которые будут ограниченными (ом. [19]).
Следовательно, р(г/, t) будет удовлетворять тому же уравнению (3) в
интервале (а, Ь), приводясь при t = 0 к первоначальной функции р(г/, 0);
чтобы вполне определить это решение уравнения (3), мы должны
доказать, что
lim p = 0
8
е-* 0
для у = а и у = b при любом t > 0.
В самом деле, проинтегрируем уравнение (2) трижды по у (например»
начиная с у = 0 в предположении, что а < 0 < Ъ) и один раз по t
(от £0>0). Будем иметь, при любом е,
У У2 У\ У У\ t
{ [ 5 РейММй + J J J k2Apedtdy0dyt + C0(t)y2 + d(t)y + ф(*/) =
-yjjx^uidyi, (4)
0 0 0 0 0 *о
у t
0 *о
1 Можно было бы избавиться от этого ограничения, но мы здесь не займемся
этим вопросом, к которому в скором времени вернемся.
2 Когда е стремится к нулю подходящим образом.
287
где Со, Ci и ф ограничены, так же как и их производные первых двух
порядков3. Следовательно, приращение первой части равенства,
соответствующее переходу у от Ъ к Ъ + е, меньше Me, где М — постоянная, не
зависящая от е.
Итак,
b+e t
Ъ t0
и, следовательно, имеем также
^ \ X2Bpsdt1dyl < 2Me,
J jj bMfteMyi | <2Ml8,
ъ ta
где ikf2 независимо от e (так как -g- ограничено]
При таких условиях, дифференцируя уравнение (4) по у, мы видим,
что правая часть равенства
У Vi У t
5 5 Pedyodij! + \ \ VAPtdyidt + 2С0 (0 у + d (*) + ф' (у) =
0 0 0 /0
t
испытывает вариацию меньшую, чем iVe, где iV не зависит от е, при
переходе у от ft к ft + £J следовательно, принимая во внимание, что
\ (ft) = 1, A, (ft + б) = 0, имеем
_1_
2
*0
^Я(М)ММ)*<М*.
Из этого следует, что, переходя к пределу е—»-0, мы получим
i
$£(Ь, *)p(ft, *)<Й = 0,
значит, р(Ь, *) = О при любом £ >£0 > 0.
Указанные условия полностью определяют решение уравнения (3);
значит, предельное распределение является единственным, каким бы
способом ни стремилось к нулю е и при любом выборе функции % (у).
2. Задача может быть несколько обобщена, если вместо того, чтобы
полагать величины a, ft неизменными, положить их изменяющимися с L
Замена переменных позволяет свести этот случай к предыдущему.
Ci(t)=---^B(0, *i)p.(0, h)dtu
1 I ( д{Врг) \ 1 *f
*0 *0
У У 2 V[
фЫ=— \ \ \Рш(Уо9 to)dy0dyidy2.
288
В том случае, когда имеется лишь один поглощающий конец
[например, а = — оо и Ъ = ф(*)], достаточно положить х = у — ф(£).
В случае, когда оба конца q>(*) и ф(*) (ф > ф) являются конечными,
можно положить
Ф + гЬ а:
^= 2^ + Т(ф""^);
таким образом получается
Ах = —— ГлД* + /уКГ- -у (ф' + г|/ + V - st|/)
и о: остается в интервале ( — 1, +1), когда ф(/)< у < <p(t).
п ,чФ — 'ф/'ф + 'фа; \
Закон вероятностей pt (я, t) = ——^— р у + — (ф — ф), £ J,
таким образом, удовлетворяет уравнению
(Ф-Ф)-^--|[2Л+(Ф'-фО«-ф'-^Р1 + -?---^М.
Ot Ох ф — -ф д.г2
для '|.г| ^1 и pi = 0 для я = ±1. Значит, p(z/, £) удовлетворяет
уравнению
др _ д(Ар) 1 дЦВр)
dt ду 2 ду2
при условиях начальных и при условиях предельных
Р(ф('М) = Р(1>(*),*) = 0.
Заметим, что вероятность поглощения в интервале времени (t, t + dt)
равняется вообще
<р<*) _ 1 др
W) ~2~ду
ф(0
3. Пусть будет, например, <p(t)=b + ct, ty(t) = ct, A = О, В = о2
(свободное броуновское движение между двумя поглощающими концами,
находящимися в равномерном движении со скоростью с>0). Это
приводит нас к решению уравнения
др _ а2 д2р
lh=Y~dy2~
с предельными условиями p(ct, t) = p(b + c£, t) = 0. Получим такое
частное решение
тл ,
Pm(yj)= ем+огп* sin-—(у-ct),
где
т2л2о2
Ь2~~
с - i Г
19 с. H. Бернштейн
289
полагая у — ct = щ имеем
1 / с2 т?тс2о2 \ си
pm(u + ct,t)=e 2^ Ъ2 J «2sm-y-.
Общее решение представляется в форме
оо
р = 2 АтРт,
т=1
где ^4т — произвольные постоянные. Итак, если исходная начальная
плотность
су оо Ь
р(у, 0)=е *~ ^Amsm1^ (\ р (у, 0) dy = 1)
m=l 0
дана, то плотность вероятностей р(у, t) = р(ы + с£, t), отвечающая
равномерному движению со скоростью с поглощающих концов в точке, имеющей
относительную абсциссу и (0<.и<СЬ), равняется
p(u + ct,t) = e w P(u,t),
где
Я12Л%2 СУ
* - — тлу
т=1 Ь
Следовательно, коэффициент разреженности в момент t
т2я?оЧ
р(и + ct, t)
A S А^'^Г sin^-
= е 2cr2
р(и,0) ^ . тяг/
С)
в точке гг равняется произведению коэффициента, соответствующего
случаю неподвижных концов при исходном распределении Хеси№р(и, 0)
(% — нормирующая постоянная), на множитель е~сЧ12а2, не зависящий от и.
Поступило
19 января 1934 г.
19
ПРИНЦИПЫ ТЕОРИИ
СТОХАСТИЧЕСКИХ ДИФФЕРЕНЦИАЛЬНЫХ
УРАВНЕНИЙ*
§ 1. Введение
1. Пусть дано конечное непрерывное соотношение
А» = Ф(а, г/, *, i&T) iKT= А (г/, t, уд7)Д* + /(а, г/, t^Jt) уКГ, (1)
последовательно определяющее
J/i = Уо + Аг/о,..., Уя+1 = г/п + Аг/П
в моменты
k-i
tk = 2 Д^ А: = 1,2,..., тг + 1,
посредством случайных величин а, (3, ..., законы распределения
вероятностей которых известны (для упрощения письма мы предположим, что
имеется всего одна величина а). Мы полагаем, что величины а,
соответствующие двум различным моментам, независимы.
Вследствие (1) величина у имеет определенный смысл лишь в
моменты U. Можно предположить, если угодно, что у остается постоянным в
течение каждого промежутка времени At{ (которые не обязаны быть
равны) и мгновенно изменяется в конце этого промежутка.
Представление, которое наиболее соответствовало бы нашим привычкам, заключается
в допущении, что у непрерывно изменяется, переходя в течение
промежутка Atn от значения уп в yn+t- наклон этой интерполяционной ломаной
линии
Ay = Ф
A* YKt
будет, вообще говоря, очень велик при достаточно малом At. Кроме того,
при делении At на очень большое число частей к сумма соответствующих
приращений у будет в среднем в ~][к раз больше и, следовательно, не будет
* Principes de la theorie des equations differentielles stochastiques. «Труды физ.-
мат. ин-та им. Стеклова», отд. матем., 5 (1934), 95—124 (169*).
291;
19*
иметь верхней грани, независимой от к (как бы ни было мало At). Чтобы
избежать технических трудностей, мы допустим существование частных
производных функции Ф до достаточно высокого порядка, которые нам
понадобятся. Кроме- того, мы всегда будем предполагать, что
математическое ожидание / равно нулю
3»/(а,^*,улГ) = 0 (2)
при любых у, t, At, так как иначе у вообще возрастал бы бесконечно для
всех конечных t, когда At —«- 0.
Мы хотим исследовать существенные условия того, чтобы
интегральный закоп вероятностей Рп(у,а), соответствующий фиксированным мо-
моментам t, стремился к конечному пределу, когда At —+ 0 (и,
следовательно, п — оо).
Полагая, для краткости,
A(y,t) = A(y,t,0), f(a,y,t) = f(a,y,t,0), (З)
назовем уравнение
Ay = A(y,t)At + f(a,y,t)JAi (4)
приведенным уравнением данного уравнения (1).
Очевидно, что совокупность уравнений, соответствующих одному и
тому же приведенному уравнению (такие уравнения называются в
дальнейшем эквивалентными), весьма велика; следует особо отметить среди
них класс уравнений, которые мы назовем регулярными, обладающих тем
свойством, что можно указать такую постоянную а, что при любых у, а,
I, At
\А'у(у, t, lAt) УД*~| < а. \/у(а, у, t, i~At) | < а. (5)
Покажем, что каково бы ни было А (у, t), если
\fy(a,y,t)\<a, (б)
всегда существуют регулярные уравнения, эквивалентные приведенному
уравнению (4).
В самом деле, достаточно, например, положить
f(a,y,t,i~A~t) = f(a,y,t)
и заменить Ау через Aye~(-Av^2 ^Д<, так как
I А' УД* I e~<V ^ < — < —.
1 у ' У2е 2
Большинство результатов, которые будут 'здесь получены, применимо
также к более широкому классу уравнений, соответствующих любому
приведенному уравнению, называемых монотонными, если они
удовлетворяют условию, что
Ф;уд7<р<1 (1)
равномерно при достаточно малых At.
292
Достаточно, очевидно, применить к Ф/УД£ ту же процедуру, которую
4
мы выше применили к Ау^ЬЛ.
Монотонное уравнение (а такими, в частности, являются все
регулярные уравнения) характеризуется фактически тем, что уравнение
уп+1 = уп + Ф(а, уп, t, Т~А0УА^= ^(а, уп, *, у Д*) (1')
может быть однозначно разрешено относительно уп:
уп = F{yn+u а, *, УА«), (8)
так как
dF
—— > 1 _ Q > 0.
ду
В этом случае yn+i есть монотонно возрастающая функция переменного
Уп при фиксированном а.
2. Возвращаясь к общему случаю, формулируем прежде всего одно
предварительное утверждение, которое мы затем сможем уточнить,
добавляя соответствующие ограничения.
Лемма существования. Если для любого е можно указать такое
число А, что для всех t <^tQ и At < q0 вероятность Рп(А) — Рп(—А)
неравенства \уп\ < А превосходит 1 — в, то существует последовательность
kt{ —► 0, для которой Рп(Уп) стремится к предельному закону
распределения вероятностей P(y,t) при любом t<^t0. Кроме того, P(y,t) обладает
конечными и непрерывными производными по у до порядка к в любом
интервале, где Рп(у) обладает ограниченными производными до порядка
к + 1, причем эти производные функции Р{у, t) являются пределами для
соответствующих производных функций Рп{уп).
Действительно, полагая, например, все приращения At = t0/n равными,
можно выбрать такую последовательность щ, тг2,..., ns, что
соответствующая последовательность Рп(у) стремится к предельной функции Р(у, to)
на счетном всюду плотном множестве Е точек уъ. Так как множество
значений функции Р(г/, t) на множестве Е очевидно монотонно, то
значения Р(уг + 0, i0) и Р(у' — 0, *о) в произвольных точках у' также будут
определены как пределы при 6 и 6i, стремящихся к нулю, соответственно,
W+fl,*o) и Р(г/'-6,,г0),
где у' + 6 и у' — 6i — точки, принадлежащие Е. Итак, монотонная
функция Р(у, U), определенная таким образом на всей вещественной оси, будет
интегральным законом распределения вероятностей, так как для
достаточно большого А, по предположению,
Рп(-А)<е, 1-Рп(А)<г,
откуда
lira P(- A, t0) = 0, lim P(A, t0) = 1.
А-+оо .А->-оо
С другой стороны, если допустить, что
Рп'(у)<М
293
ограничена на некотором интервале, то
Рп(у + 6)-Рп(у) <М6,
откуда также
Р(у + 6)-Р(у) <М6;
Р(У) будет, таким образом, непрерывна (и даже удовлетворять условию
Липшица) и стремление к пределу на этом интервале будет равномерным.
Если предположить, кроме того, что Рп(у) обладают ограниченными
вторыми производными | Рп"(у) | < М, то (0 < а' < а, 0 < р' < р)
I Рп (У + а) - Рп (у) Рп (У) -Pniy — р)
I а Р
= | р; (у + а')- Р'п (у - р')| < Л* (а' + р')< М(а + р),
|Рп (у + а) - Рп (у) Рп (у + р) - Рп (у)
а Р
= | Рп(У + а') - РпО/ + П | < М(а + р);
и, стало быть, также
Р(у±с)-Р (у) Р (у ± Р) - Р (у)
а ' р
<Af(a + P),
р (у + й) — Р (г/)
а следовательно, стремится к пределу Р' (у) при /г —* 0.
h
В этом случае имеет место равномерная сходимость
ИтР'п(у) = Р'(У).
Действительно, при любых ns имеем
РпЛУ + О) - РпМ
Р'(У)
< Л/а,
Р (у + а) — Р (у)
-Р'(У)
<Ма.
Но можно фиксировать ns столь большим, что на всем
рассматриваемом интервале
откуда
\Pnt(v)-P(y)\<-£,
\Р'п(у)-Р'(у)\<2(М+1)а.
Для произвольного к нужно только шаг за шагом провести это же
рассуждение.
Следствие. Если для всех значений t^ tQ и At < q0 можно указать
такие два положительные числа L и X, что
00
ЖЫХ=$ \y\xdPn(y)^L,
—-оо
294
то существует последовательность значений At — 0, для которой закон
распределения вероятностей Рп(у) стремится к предельному закону
Р(У, t).
Действительно, предположения предшествующей леммы выполнены,
так как в силу классического замечания Чебышева
Pn(A)-Pn(-A)>i-
Ак
§ 2. Вывод обобщенного уравнения Планка
3. В силу соотношений (4) и (2)
^ = Ш^0Ж = А{у>г!}гщ (9)
стремится к пределу при Д^->0 и в силу (3)
lim ^ = lim А (у, t, У At) = А (у, t). (10)
Предположим еще, что
lim9R^£ =НтЖ(Ф2(а, у, гУЩ =
= Ит [Щ2 (а, 2/, t, У At) + А2 (у, t, У At) At] =
= lim Ж/2 = lim J? (у, t, У At) = В (у, t), (11)
и допустим, что
lim 3» L^JL = lim 8R | Ф3 (а, у, t, У At) \ yXt = 0 (12)
для любых конечных у и t.
Так как функция Ф непрерывна для всех конечных значений
переменных, то достаточно предположить, что 9К|Ф|3 конечно для всех
достаточно малых At, для того чтобы все нужные пределы, указанные
выше, существовали, и соответствующие сходимости были равномерны
на любом заданном интервале |y|<;L. Так как мы предположили,
кроме того, эту функцию дифференцируемой достаточное число раз, то
то же будет иметь место для соответствующих математических
ожиданий.
Поэтому лемма предыдущего параграфа может быть уточнена!
следующим образом.
Теорема I. Если уравнение (1) монотонно, то все предельные при
At —> 0 интегральные законы распределения вероятностей Р (у, t)
удовлетворяют уравнению
дР(-г)
dt
= (A'Py-V - \[А + ± В*) Р J Х) + 4" АР, (13)
ать также в виде
§ Pdydy =- § AdPdy + -i- \ BdP,
которое можно записать также в виде
dt
296
где
F(-D = ^Fdy, F(-2) - ^Fi-vdy
представляют последовательные неопределенные интегралы.
В силу предположения, что
F^y + OVKi
есть монотонная функция переменного у, уравнение
yn+1 = yn + ®(a,y,t, УЩУЬЬ, (1')
где г/n+i задано, может быть, как мы уже отмечали, разрешено
относительно уп и мы можем записать обратное уравнение
уп =F(yn+u *,a, УДГ), (8)
где F также есть (обратная i7) вполне определенная монотонная функция,
которую мы можем разложить по степеням iAt до степени (УД£)3- Перед
тем как перейти к выкладкам, заметим, что разность
z/n+i — уп = Н iAt
имеет порядок величины УД£, и, таким образом, множитель Н ограничен
вместе со 'своими производными, если известно, что yn+i (или уп)
принадлежит заданному конечному интервалу. Таким образом, мы имеем
Уп+х = Уп + /(а, уп, t) i~Ki + A{yn, t)At + H{Af^ (1")
где буква Я обозначает, как и далее, величину, ограниченную в указанном
выше смысле.
Полагая
уп = yn+t + фо(Уп+1» t, a)iAt + ф1(г/п+1, t, a) At + H2A?I\ (8')
подставляем это значение уп в равенство (1"). Получим
0 = фо"|/Ъ + qaAt + /(а, уп+1 + фоУД^ + H3M,t)fKt +
+ Л(yn+i + IhfAt, t)At+HsAf/> =
= (фо + f)jKt+ (<pi + фо/' + A) At + НьЫ\ (14)
и значит
ф0 = — /, ф! = — Л + //.
Таким образом,
уп = F(yn+u t, а, УДГ) = yn+i + 6 =
= Уп+i - /(г/n+i, *, а) iAt + {jf ~A)At + HAt^. (15)
Следовательно, имеет место следующее соотношенние между
плотностями вероятностей pn+i(y) ж рп(у) величин z/n+i и уп
Рп+1(У)=1 Pn(F(y))F'(y)dx(a), (16)
где х (а) — интегральная функция распределения вероятностей величины
а (которая может зависеть от п и t). Для того, чтобы избежать некоторых
296
второстепенных трудностей, можно считать эту функцию постоянной для
достаточно больших | а |. В дальнейшем будет ясно, что не потребуется
никаких изменений в рассуждениях, если вместо одной случайной
величины имеются несколько.
Р1нтегрируя обе части равенства (16) по у от z/0 до г/, получим
рекуррентное соотношение между интегральными законами распределения
вероятностен
Pn+i(y) - Pn+i(yo) = $ [Pn(F(y)) - Pn(F(yo))]dx(a)
(мы пишем для краткости F(y), но
F(y)=F(y,t, a)
зависит, вообще говоря, также и от t и а), которое можно записать просто
в виде
Pn+i(y)= ]Pn(F{y))dx(a) + Cn, (17)
где Сп —некоторая постоянная (относительно у). Выбирая эту
постоянную так, чтобы, как обычно,
Ря(-оо) = Рп+1(- оо)= О,
полагаем Сп = 0.
Заменяя F(y) ее выражением (15), получим
Pn(F(y)) = Pn(y) + Рп(у)6 +1 Рп(У)Ь2 +
1 z
+ -~{Pn{y + u6)(l-uydu. (18)
2 о
Следовательно, равенство (17) приводит к
Рп+1(у) = Рп(у) + Р'п(У) Sbdx{a) + A2K{y) J 62^(a) +
+ И I &!*"'{у + иб) (1 -u)*dudx(a) = Pn{y) +
и
+ [Рп(У) J Uf-A)dx(a) + -2Pn(y)\fdx{a)\
М + \хМ\ (19)
где \i — конечная величина, которая, однако, будет равномерно
ограниченной для всех п только при ограниченности Рп"{у)-
Полагая на вреМя, что д3Рп/ду3 = д2рп/ду2 ограничена, сразу получим
уравнение Фоккера — Планка. Действительно, разделов обе части
равенства (19) на Д£, получим
"»Лу)-рЛу1 =
At
^(П'-л
+ TP"n(y)®p + liyte.
Но по лемме предыдущего параграфа можно тогда утверждать, что
предельный закон P{y,t) для Рп(у) дважды дифференцируем и
дР ,. 8Рп др д*Р ,. д*Рп
д3Р
так как ^ " ограничена.
ду3
297
Следовательно, при принятой гипотезе правая часть в силу (10) и (11)
стремится к определенному пределу
дР 1 V ду
— А— ' у
ду 2 ду
и так как левая часть стремится к тому же пределу, то
Далее мы покажем, что при некоторых ограничениях можно
действительно ограничить | д2рп/ду21 сверху, что и оправдывает вывод
уравнения (20). Если же не желать вводить сразу эти ограничения, то прядется
поступать по-другому.
Проинтегрируем трижды равенство
Pn+i(y)=lPn(F(y))dx(a) (17')
по у, чтобы исключить из правой части производные функции Рп-
Действительно, после первого интегрирования
P(F(y))(-V = \ Pn(F(y))dy=Pn(-V(y) +Pn(y)6- \ Pn(y)6'dy +
+ уРп7(у)б2 - Рп^бб' + ] Рп(у) (66" + 6'*)dy +
б3 с Рп"0/ + *гб)(1-и)2
2 J 1 + иб'
[ J ] Р«"(У + **) (j^7 ) (1 - "Vdudy
исключается Рп'"(у).
После следующего интегрирования получаем
[Pn(F(y) )]("2) = [Рп(у))(-Ъ + [Р„(!/)6](-1> -
-[Рп(у)бТ*> + YPn^62 - ЦРп№Щ-1) +
+ [Рп(у)«иг + б-)](-2» + *5 p'*« + "W--*>Ldu-
2 * (l + иб')2
О
i+-TTiir(Tw)'r>(1-K)2dtt +
+4- f {*; (У+Вв) [T1V(T^)' jp a _ В).Л,
о
298
где Рп присутствует только в остатке. Последнее интегрирование дает
[^« (Р Ы)](-3) = [Рп (y)](-s) + 1Рп(у) б]<-2> -
- [Рп (у) б'](-з) + ± [Рп (у) 62](-» - 2 [Рп (у) вб'](-« +
+ [^п(г/)(66" + 6'2)]<-з) + ЯДг2,
(21)
где Н ограничена в смысле, указанном выше, так как остаток зависит
только от Рп и содержит множитель б3 или его производные.
Следовательно, тройное интегрирование равенства (17') дает
[^VкM]<-3, = \[Pn(F(yW-»dx(x) =
= lPn(y)V-» + \{[Рп(у)фЬ" + Ь'°--Ь')у-з) +
+ [Рп (у) (6 - 266')]<~2> + 4" 1Рп (У) 62]<-4 dx (ос) + ЯдД,
(22)
откуда
[Рп+1 (2/)]<-з> - [Рп (y)lt-3) = М \\[Рп(у) Л']<~3> -
- [Рп(у) (А + //')]<-*> + -1_[рп(2/)/2](-1,}^(а) +
+ НМ* = М|[Р„ (у) Л'](-з) _ [/>„(у)
5'
+
+ 4- [Р5](-1) + //АгП
(23)
Константы интегрирования остаются неопределенными, и левая и
правая части отличаются, вообще говоря, на произвольный полином второго
порядка переменного у.
Чтобы освободиться от этой неопределенности при переходе к пределу,
можно взять третьи разности обеих частей, соответствующие одному и
тому же приращению h величины у. В таком случае правая часть,
разделенная на Д£, стреагатся к определенному пределу, этот же предел будет
иметь и левая часть, и мы получим
= (PA'V-*> —
(РА')
Р[А+—В'
(-2) 1
+ — (PB)W (24)
(с точностью до полинома второго порядка по у). Так как производная
правой части, представляющей сумму неопределенных интегралов по у,
существует, то полученное равенство можно один раз продифференцировать
по г/, после чего мы получим, наконец, равенство
дР(-2) г / 1
dt
i (-1) 1
(13)
которому должен удовлетворять всякий предельный интегральный закон
распределения (неопределенность двойного интегрирования приводит к
наличию слагаемого, представляющего собой двучлен ау + 6, линейный
по у).
299
4. Рассмотрим теперь случай, когда t —+ оо (полагая А и В не
зависящими от t); мы определяем предельное распределение Р(г/, оо) =^
= Р(у) как предел при t —* оо предельных распределений P(y,t)
при Д£ —► 0.
Итак, предельное решение, если оно существует, представляет собой
не что иное, как предел решения P(y,t) уравнения (13) при t — оо.
Так как правая часть равенства (13) при заданном у стремится к
фиксированному пределу, то то же имеет место и для левой части dP^-^jdt\
следовательно, этот предел равен нулю, и Р(у) удовлетворяет
уравнению
(РА')
(-2).
Р (а +1-Я')1( ° +1.рВ = ау + Ъ,
(25)
где а и Ъ — константы. Так как оба слагаемых в левой части
дифференцируемы по г/, то производная правой части также существует, и,
следовательно,
(РА')(-Ч-
А+±В'
+
1 д
2 ду
(РВ)
или
5 АйР + ■
-Р'В = а.
(26)
Первое слагаемое имеет производную, и новое дифференцирование
приводит к равенству
■рА+— _^ = 0.
2 ду
(27)
Следовательно, предельное распределение удовлетворяет стационарному
уравнению Фоккера — Планка (27) во всех точках, где В > 0.
Но, в силу леммы существования, если 3R | у \k <C L для всех t, то
можно выбрать последовательность приращений величины t с At —- 0,
приводящую к некоторому предельному распределению. Поскольку
уравнение (27) допускает единственное нормированное решение
Р = Те
С 2 J (A/B)dy
(28)
где С — нормзирующая конотанта, то этот предел не зависит от способа
приращения величины t.
Заметим, что если неравенство $ю|уп |я<^ L выполнено для некоторой
последовательности Д£г- •—* 0 приращений величины t, то в силу общего
рассуждения, с помощью которого была установлена теорема I,
предельный закон всегда удовлетворяет уравнению (25).
Таким образом установлена
Теорема II. Если неравенство 2К |уя|я^1/ имеет место, как бы
велико ни бъто t, и если А(у) и В(у) — функции, зависящие только от у,
300
то всегда существует предельное при t —► оо распределение, при котором
удовлетворяется уравнение
(ЛФ)<-2>- [{а + ±w) pj(_1) + 1р5 = aj/ + Ь. (25)
Кроме того, если 2?(г/)> 0, то предельное распределение однозначно
определяется формулой
Jj р Те • (28)
где С — нормирующая константа.
Если В = О для некоторых значений у, то во всех других точках либо
р = 0, либо р также определяется формулой (28); первое имеет место,
когда А = 0 одновременно с В.
Рассмотрим следующий пример:
^y = —y{afKt + At),
где
Ж а = 0, ЭДа2 = £о,
кроме того, предположим, что а ограничена, так что при начальном
значении г/о > 0 значения г/i, г/2, . . . ,г/п будут также положительны для
достаточно малых At (если At < 1/а2). Имеем
Ж г/п+1 = (Ц - ДО Ж г/п,
следовательно \
3R г/п = г/о(1 - Д0П = г/о ( 1 -^-)П - г/о*"'. (29)
Так как ЗЛг/п = Ж I Уп I, то условия наших теорем выполнены.
Впрочем, можно непосредственно найти предельный закон, применяя теорему
Ляпунова.
Действительно, имеем
Уп = y0(l-aiY"A*~A*)- ..(1-апУД^-Д0 =
ап УД*
= М1-А*)»П(1 4_A,
полагая
. " / . а„уд7\ Уд7 £, Д< А ,
^lnI](l--_j=__— S°«-2(1_At),S«r —■,
мы видим, что zn удовлетворяют при At —»» 0 закону Гаусса со средним
nAt tBQ
—Во = —
1 Цолагая все приращения At равными для упрощения записи.
301
it дисперсией nAtB0 = tBQ. Следовательно, yn = y0e(zn-V будет иметь
предельную плотность распределения вероятностей
(2*+tBo+2 In (у/у0))2
!
p{y,t) = —=-е 8tB° =
г/У2я^0
1 Уо) 2В°
yi2jttB0 У
В 4-2
f (Bo+2)2 In2 (у/уо)
е 8В° 2<*° (30)
Этот предельный закон, будучи дважды дифференцируемым, для любого
конечного t не только удовлетворяет обобщенному уравнению Планка (13),
но и самому уравнению Планка (20). Но p(y,t)—+0 при t —- оо для
у 3g 0 и не стремится к пределу2 при у —* 0. Соответствующее решение
стационарного уравнения Шсанка не может быть нормировано:
. е Л J ВоУ —
с Boy2 £0*/2(1+1/Bo)
Это обстоятельство вытекает в силу теоремы II из того, что В = В0у2
обращается в нуль лори у = 0.
Предельный интегральный закон распределения Р(у) в силу
элементарной теоремы Чебышева (так как 2& | Уп I —► 0) является разрывной
функцией: Р(у) = 0 при у < 0 и Р(у) = 1 при у > 0, эта функция Р(у)
удовлетворяет по существу обобщенному уравнению
- (?)<-2> + [(1 - Во) yPY'V + jB0y*P = ay + b,
где а = Ъ = 0, если интегралы в левой чаопи берутся от — оо.
5. Предыдущие результаты, естественно, приводят нас к исследованию
более или менее общих услоазий, гарантирующих выполнение основного
свойства 3R I г/Ч < L.
Теорема III. Если в монотонном уравнении
Ау=А (г/, t, УД*) Д* + /(а, у, *, У~Д*)У Д*
г/Л<а(1 + ?/), Д<а(1 + ^), (31)
2 При у = 0 имеем тождественно р (0, г) = 0; но для
у = Уое-(1+во№*
значение
et(l + Bo/2)
р (у, 0 ,
уоУ 2jt£ff0
неограниченно возрастает. Интегральный закон Р (у, t) стремится к пределу
Р 1У- °°), но dPjdy = р не ограничена и Р (у, <*э) не непрерывна.
302
где а — константа, то предельный закон для любого конечного значения t
существует и удовлетворяет уравнению (13).
Достаточно доказать существование предельного закона, а для этого
достаточно показать, что $& у2 ограничено.
Имеем
Щ2п+1 = Ы(уп+ Aynf = Щ1 + 2Щп [AAt + f VET] +
+ Ж [AAt + f VAt]*<Щ1 + 2aSR (1 + 2/n) Л* + Ж [В + A2At] At.
Итак, учитывая (7),
%1ц<%1 + *АЙ»(1+у»),
где к — ограниченная постоянная.
Таким образом, полагая ЗКгД = Мп, имеем
Мп+1 < Мп (1 + Ш) + к At,
откуда
Мп< 2 (1 + кЩ (1 + М0) - 1 <
г=1
<(l+ikf0)(l + -^)n<(l+Mo)e^,
где t = ^Ati.
1
Условия теоремы III недостаточны для того, чтобы предельный при
t~+oo закон существовал. Вот несколько более ограничительное
достаточное условие.
Теорема IV. Если в регулярном уравнении
Ау<-г(1 + у*) + Н(1 + уГи> (32)
где г и Н — две положительные постоянные, то предельный при t —* oa
закон существует.
Для доказательства достаточно показать, что $&F(yn) остается ограни-
4
ченным при бесконечном возрастании t, если F(y) = ]/1 + у2. Для этого
заметим, что производные F(y) ограничены:
F{y) 2(1+ »T F{y)~2 (1 + уГ '
таким образом,
®F(yn+l)=WF(yn)+ Ш'(уп)Ау +
+ —Шр"(у+вАу)Ау* (0 < в < 1).
Li
Но в силу регулярности
Ay<ai(l + y2)At;
303
значит
F"(y + ^y)W<
^У2
2[1 + (у + вДу)*]
v.<
<
а2Дг
i + y\ < аШ
[1 Н-уа — 2а | з/1 1^(1 + У2) Д«]л
для достаточно малых А* ( KAi < -g—j .
Следовательно,
g»F(yM.1)<a»^(y„)4-a»
*^uy»
i+^
+ a2A< =
= »Ы
1 +
лу„Д'
+ a2 A* <
<SRF (yn) [1 - еД*] J- (Я + а2) Д*.
** (г/о) + ^] t1 - -т)" < ^'+ *F Ы
откуда получаем, что
ограничено для всех t.
Рассмотрим, например, уравнение
Ay = (l-y*)(b + y)At + ayVAi,
где Зйос = 0, 2Ка2 —1. Условие последней теоремы выполнено.
Формула (28) дает
-1/«-2b(y+U
р = Се х "',
что в предположении Ь^>0 справедливо лишь для у^>0, в то время
как для г/<^0 имеем р = 0 (в соответствии с теоремой II).
Заметим, что линейный случай Л = а — у, / = a -f- (Зг/, где а и
[3 — случайные величины, такие, что
Ш = Щ = О, 9Яос2 = Ь, Щ2 = Ьь Жар - ЛМ>Ь
|Л|<1,
приводит вследствие теоремы IV к предельному распределению Пирсона
г (a-v)dy
V Ь + 2ШЬ1У + Ь1У*
годному для всех значений у; именно этот случай кривых Пирсона не
поддается стохастической интерпретации Маркова. Наоборот, случай
Маркова, при котором полином В (у) второго порядка имеет два вещественных
корня, не может иметь место при линейной функции /: нужно взять
/ = а У 5, где Ж а2 = 1, полагая 5 = 0 там, где оно отрицательно.
Рассмотрим еще следующий случай: если R(y) — полином, не имеющий
простых вещественных корней, о2(у) > 1, 6 > 0, то уравнение
АУ = - o2(y)[R2(y)]'At + 6Ф(г/, a)fKt (gRcp2 = o2(y))
приводит при At —+ 0, t —* оо к предельному распределению
2Н2(у)
Р(У) =
б2
02(У)
304
ятак, если б очень мало, у стремится оставаться в окрестности корней
уравнения R{y) = 0, продолжительность пребывания около каждого
корня йг стремится стать обратно пропорциональной о2(а{) | R'(а{) |, каково
бы ни было начальное положение.
§ 3. Некоторые свойства уравнений
параболического типа
6. В силу теоремы I можно утверждать, что при весьма общих
условиях, соответствующих лемме существования, уравнение (13) имеет
решение, принимающее значения Ро(у) при t = О, где Р0(у) —
интегральный закон распределения вероятностей величины г/о. Однако, вообще
говоря, это решение не обязательно единственно. Заметим, что в случае,
когда область изменения у ограничена, доказательство этого не
представляет трудности. В этом случае, как мы убедимся в дальнейшем, можно,
кроме того, легко доказать, что Р удовлетворяет уравнению (20).
Итак, легко видеть, что уравнение
дР л 1 д(Вр)
= ~Ар+- К—У-- (20)
dt 2 ду
не может иметь двух различных решений, принимающих одинаковые
значения Ро(у) при t = 0. Действительно, так как разность z между двумя
такими решениями, удовлетворяющими одному и тому же уравнению (20),
обращается в нуль при £ = 0 и ограничена каково бы ни было t > 0, то
она не может быть положительна, так как вдоль линии ее абсолютных
максимумов по у будет dz/dy = 0 и d2z/dy2^0 и в силу (20) будет
dz/dt <^ 0. Тем же рассуждением доказывается невозможность того, что
z принимает отрицательные значения.
Таким образом, единственность предельного распределения
вероятностей для всех эквивалентных монотонных уравнений установлена
каждый раз, когда можно утверждать, что это распределение удовлетворяет
уравнению (20).
Не принимая этой гипотезы, а предполагая только, что А и В не
зависят от t, мы покажем, что предельное распределение единственно во всех
случаях, когда выполнены условия теоремы I.
Для этого положим
i
R(y,t)=l J P{y,t)dt
0 0
и проинтегрируем уравнение
<9Р(-2)
__=(РЛ')--
P[A+jB'
+ j-PB + ay+b (13)
по t, после чего мы вправе дифференцировать по у, так что будем иметь
dt2 dt dt 2 dt
20 с. Н. Бернштейн 305
проделав еще раз ту же операцию, получим
6R
R'A + jj-(BR')+ta'(y),
dR/dt
(13')
0. Кроме того, при
так как при t = 0 имеем тождественно R
* —- 0 получаем — = Р(у, 0) = Ро(у)] стало быть о![у) = Ро(у)
(так как l\m R/t = 0 для любого у). Значит, если уравнение (13) имеет
два различных решения, соответствующих одному и тому же значению
Ро{у), то же имеет место и для уравнения (13"), и, следовательно, их
разность z удовлетворяет уравнению
1 d(Bz')
Т ду
обращаясь в нуль при t = 0; значит, тождественно z = 0.
7. Предполагая по-прежнему А и В не зависящими от t, докажем
несколько лемм, (имеющих целью ограничить сверху последовательные
производные функции Р (в предположении, что они существуют) на заданном
интервале с помощью ее начальных значений и значений функций А и В
на том же интервале.
Предположим временно, что А = 0(1), В = О (у2), хотя это
ограничение отпадет само собой, как мы увидим, так как границы не будут
зависеть от значений функций А и 5, принимаемых вне рассматриваемого
интервала.
Лемма I. Пусть Р — монотонное и ограниченное решение уравнения
дР
АР' +
Л_д{ВР')
~2 ду
(20)
дифференцируемое достаточное число раз по у и t; тогда, если для t = 0
при любом у имеет место
\A(y)P0(y)\<j,
то для всех значений t будет
дР
дВР'о(у)
ду
<N,
dt
<N.
(33)
(34)
Действительно, невозможно, чтобы при t = to для любого у > г/о имело
место dPjdt > q, где Q — положительная постоянная; интегрируя обе части
равенства (20) по г/, найдем, что Вр должно иметь порядок не ниже у при
очень больших г/, так как интеграл §A(dP/dy)dy конечен, что означает,
что р(у) = дР/ду стремится к нулю не быстрее, чем 1/у. Однако это
недопустимо, так как интеграл
J P(y)dy
сходится.
306
Таким образом, dP/dt будет иметь абсолютный максимум при некотором
конечном значении у0 величины у. Но в этой точке d2P/dtdy = О,
dsP/dtdy2 <0; следовательно, дифференцируя уравнение (20) по *, будем
иметь в этой точке
д2Р
дР
д2Р 1 ду ^
+ — „ . <0,
чго доказывает, что абсолютный максимум функции dP/dt всегда убывает;
применяя то же рассуждение к абсолютному минимуму, мы придем к
выводу, что | dPjdt | максимальна при t = 0, и следовательно,
дР
\Ж\<*- (34)
Лемма II. При предположениях леммы I для всех значений t на
любом интервале длины I, где I А I < А0, имеем
дР . М 2(A0 + Nl)
ЗУ
Л/
m
(36)
где тгг u M — соответственно минимум и максимум функции В на этом
интервале.
Действительно, интегрируя уравнение (20) по у от какой-нибудь
точки у интервала до точки у0, в которой р (у) принимает минимальное
значение, получим
м
В(уо)р(уо) ^
<Ло$ pdy + Nl+-^p(y0)^A0+Nl +
М_
21
так как минимум функции р на интервале длины I не может быть
больше, чем-у- . Следовательно,
Лемма III. В том же интервале имеем
ml
др_
ду
<-£-[N + Lp] = plt
(36)
(37)
где
L = max
_\_дВ_
2 ду
на рассматриваемом интервале.
Для того, чтобы в этом убедиться, достаточно заметить, что в силу
(20) имеем
4*
дР
ду
<
дР_
dt
+
'(■
2 ду)
Лемма IV. Если N' есть максимум абсолютной величины
dHL - a ^JL л- J- д* {Вр)
dt2 """ dt ~г~ 2 дуд*
+^
2 ду
- 4
а Ир)
02/
1 &*(Вр)1 ,
2 3i/« J-T
а2 (Лр) 1 а8 (ад
ду2 + 2 ay3 J
307
20*
при t = 0, то для любого t в интервале, который рассматривался выше,
~^>
д3Р
N, д^Р_ < 2(A0 + N'l) Л/_ _ др_
JV ' а«9(/^* т "h ml dt '
(38)
ay»
<
*£. + pL' + Pl{A0 + 2L)
где
U = max
д_л_
2 ду*
в этом интервале.
Действительно, невозможно, чтобы при фиксированном t для всех зна~
чений у > Уо было d2P/dt2 > q > 0, так как для этого нужно, чтобы после
интегрирования уравнения (35) по у от у0 интеграл правой части
возрастал как qz/, а для этого нужно, чтобы Bdpjdt возрастало как 2рг/, т. е.
чтобы для всех достаточно больших у было
dp Qi
dt * у*
дР г pidy
где Qi — положительная постоянная. Отсюда следует, что —> \
at J у
растет как Qi In у, что противоречит тому, что I dP/dt ] <J Лт.
Отсюда вытекает, что d2P/dt2 достигает своего абсолютного максимума
по у в точке у на конечном расстоянии; следовательно, учитывая
равенство
дР\
(39)
д3 [В
д3Р д3Р 1 \ ду
dt3
дРду
дРду
полученное дифференцированием (35) по t, и то, что вдоль линии
максимумов функции d2P/dt2
д3Р
dt2 ду
будем иметь вдоль этой линии
= о,
д»Р
д'*Р
дР дф
<0,
<о,
что доказывает первое из неравенств (38).
Для того, чтобы доказать второе, достаточно применить к д2Р/ду dt
неравенство (36) леммы ТТ. Затем, чтобы получить третье неравенство,
заметим, что
В_^Р__др_ (дА
2 'ду2~~ "dt + Р\~ду
1 д2В\ др_( дБ
2 ltf'+lj\ ~fy
308
§ 4. Уравнение Фоккера — Планка
8. Возьмем теперь снова монотонное уравнение
&У = А(у, y~Ki)M + /(а, 7/, УД*)УД* (40)
и заменим А(у,уМ) на AL(y, /Д*) и / па /L, определяя значения
-4ь(у, У Л<0 и /l условиями:
^(у,УА*)=Л(у,уд?), jL = f (41)
при | у | < Zr и
|4L(j/,yA*)| <ML,
(42)
|/ь(а,у,У"д7)| < Л/,
при | у | > L, где ML — постоянная, зависящая от L.
Таким образом, можно положить (для у > L и // < — L соответственно)
AL = Ae-№Vh4 fL = {e-^L)h
где h — фиксированное целое число, что обеспечивает непрерывность
производных по у до порядка h — 1.
Это второе условие может быть, таким образом, реализовано так, что
производные функций AL и BL до некоторого заданного порядка
(например пятого) остаются ограниченными для всех у (естественно, что общие
верхние границы указанных производных неограниченно возрастают
вместе с Z^, но они остаются теми же, что и для А и В на всем
фиксированном интервале, где AL = A, BL = В).
Чтобы привести к цели указанное преобразование, достаточно
предположить, что А и / имеют на бесконечности стеленной порядок роста.
В силу теоремы I закон распределения вероятностей величины уп,
определенный указанным образом измененным уравнением при трижды
дифференцируемом заданном начальном распределении Ро(у), стремится
к вполне определенному предельному закону PL(y,t) для всех
конечных £, причем этот предельный закон удовлетворяет уравнению (13).
Докажем, что Pl(v, t) удовлетворяет уравнению Планка. Это
утверждение является следствием следующей теоремы, к доказательству
которой мы переходим.
Теорема V. Если в уравнении21
Дг/ = А (у, t, y~Kt)At + /(а, у, t, УД*)У"Д* (1)
все частные производные функций А и f до достаточно высокого порядка
ограничены при любом у, то распределение вероятностей, соответствующее
3 Такое уравнение принадлежит, очевидно, классу регулярных уравнений.
309
трижды дифференцируемому начальному распределению, стремится к
предельному закону р(у, £), который удовлетворяет уравнению Планка.
дР = _ д(АР) 1 дцвр)
dt ду 2 ду* ' ( >
Так как уравнение (1) регулярно и a fortiori монотонно, то имеет место
интегральное уравнение
Pn+i(y)=lpn(F(y))F'(y)dx(a), (16)
где
Р{У) = У-НУ, t, a)yTt + (ff-A)At + HAt\
в силу сделанных предположений относительно / и А для любого у
производные функции Н по у до некоторого порядка ограничены. Отсюда
следует, что
р (у) = 1 - /' y~Ai + [Г + if - А'\ At 4- Н'Ы\
следовательно, обозначая Мп абсолютный максимум функции рп(у),
имеем
М
n+i<MnlFn'(y)dx(a) <Mn(l + hM), (44)
где h — положительная постоянная (не зависящая от и, t и At).
Следовательно,
Мп < Мо[\ (1 + АД*)< Mo [ 1 + — J < M0eht, (45)
где t= 2 A*.
i
Точно так же, обозначая Мп максимум |pn(*/)|, мы выводим из
соотношения
pl+i(y)= ] ШР(У))Р'ЧУ)'+ Pn(F(y))F"(y)]dz(a), (46)
что
Л/п+1 < Мгп J F'*(y)dz(a) + Мп | J F'(y)d*(a) | <
<АГ*(1 +2АД0+ kMnAt,
где /с —- также ограниченная постоянная.
Следовательно, для всех значений t <^ £0, полагая R = kM0ehto, имеем
м«+1 <K(i + 2Ш) + ДД«.
откуда
310
Поступая таким же образом, мы выводим та
P»+i(iO= J \Pn(F{v))F*(y)+ 3pn(F(y))F"(y)F(y) +
+ Pn(F(y))F'"(y)]dxia), (48)
что последовательные максимумы Мп" функции |рп"(у)| удовлетворяют
неравенствам
Mn+i < M'i (1 + ЗАД*) + ЗШ'П(1 + hAt)At + Шп,
где I — новая ограниченная постоянная; отсюда мы получаем для Мп"
аналогичное неравенство
МП < Ce3h\ (49)
где константа С определяется начальным максимумом М'£ функции
Wv)\-
Эти неравенства достаточны, как мы заметили в § 2, чтобы оправдать
вывод уравнения
др л 1 д(вР)
= -Ар + -~\^-. (20)
dt 2 ду
Продолжая эту же процедуру, можно ограничить сверху [//"(у)!;
следовательно, из леммы существования § 1 можно заключить, что
предельный закон P(y,t) также обладает третьей производной д3Р/ду3 =
= д2р/ду2. Значит, правая часть уравнения (20) может быть
продифференцирована по у, и, следовательно, р(у, t) удовлетворяет уравнению
Планка
др _ д(Ар) 1 дЦВр)
dt ду 2 ду2 ' [ '
Применяя этот результат к уравнению
Ау = Аь (у, t, fit) At + fL (a, y, t, удГ) ЦТ, (50)
мы устанавливаем, что соответствующий предельный закон Р^(г/, t)
удовлетворяет уравнению
^r—Ty<A^+-rw{BpL)- (43'}
Доказательство последней леммы предыдущего параграфа
предполагает существование д3р/ду3 и дкр\дук. Для того, чтобы его можно было
использовать, достаточно, таким образом, применяя тот же прием,
постулировать существование производных функций А и / до пятого порядка.
Исходя из этого, если А ж В не зависят от t, то в силу лемм § 3 можно
указать на любом фиксированном интервале не зависящие от L верхние
границы для pL(y,t), d2PLjdt2, dpjdt, dpjdy, d2pjdy2 для достаточно
больших L. Следовательно, существует такой способ возрастания L, при
котором монотонная функция Рь{у, t) будет на всем заданном интервале
стремиться к функции Р(у, t), имеющей производные первых двух
порядков по у и первого порядка по t и удовлетворяющей, следовательно, на
311
этом интервале, как и все функции, пределом которых она является,
уравнению
д[ В—
дР дР 1 v ду
— = — 4 \-— -?— (20)
dt ду ^ 2 ду к ]
кроме того, она стремится при t — 0 к начальной функции Ро(у) (так как
dP/dt ограничена).
Итак, если установлено существование решения уравнения (20), то в
силу доказанной в § 3 (в условиях теоремы 1) единственности
предельного закона из этого следует, что этот закон должен удовлетворять
уравнению (20).
Существование у функций Ли/ производных до достаточно высокого
порядка дает возможность продифференцировать уравнение (20) и
записать уравнение Планка в виде (43), но представляется предпочтительным
иметь дело с уравнением (20), что исключает ненужную произвольную
функцию переменного t, которая появляется при интегрировании
уравнения (43).
Таким образом, можно утверждать, что во всех случаях предельные
•законы распределения вероятностей, соответствующие измененному
уравнению (50), стремятся к определенным пределам. Но эти функции Р(у, t)
не являются пределами законов Рп{уп), соответствующих уравнению (1),
если только не выполнены условия, аналогичные тем, которые были даны
в § 2.
Итак, теорема I для случая, когда Ли/ не зависят от t, может быть
уточнена:
Теорема VI. Если монотонное уравнение (1) (дифференцируемое
достаточное число раз) не зависит от t, то оно имеет при условиях леммы
§ 1 предельное распределение вероятностей Р(у, t), удовлетворяющее
уравнению Планка (20), при любом трижды дифференцируемом начальном
распределении.
В случае, когда начальный закон распределения вероятностен Ро(у)
переходит от 0 к 1 при у = а, нельзя утверждать, что соответствующий
предельный закон удовлетворяет уравнению (20). Достоверно только, что
найдется предел решений этого уравнения, трижды дифференцируемые
начальные значения которого стремятся к Ро(у)\ вообще по теореме 1 он
удовлетворяет уравнению (13) и для того, чтобы он удовлетворял
уравнению (20) (которое выводится двукратным дифференцированием),
необходимо и достаточно, чтобы это последнее имело решение, соответствующее
рассматриваемым начальным значениям.
Заметим, что условие, что А и В не зависят от t, не является
существенным. Действительно, легко доказать, что интеграл уравнения (20) в
случае произвольных А и В ость предел соответствующих интегралов, где
А и В постоянны (относптельно t) на интервалах (ti+i — £*), стремящихся
к нулю.
9. Напротив, легко построить пример, когда предельное распределение
не существует. Докажем, в частности, что если в предельном уравнении
Ay = AAt + fi~At
312
регулярного уравнения имеем А> \у\ *+Р, где р > О u$l f2 = В
постоянная, то закон Pn(y,t) не может стремиться ни к какому пределу при
Пусть F(y) —функция переменного у, обладающая ограниченными
производными, и положим, кроме того, что
4 Г ч У3
для очень больших у. Имеем
Р{У + Ay) - F{V) - F'(y) [AM + ffKt] + l^L[AAt + ffKtf +
+ H(AAt + /у"Дз?)3; (51)
значит при фиксированном у
WF(y + Ay) _ F(y) + (аГ(у) + BF^V) ) At + H^fb,
где H[ — ограниченная величина (не зависящая от г/), так как в силу
регулярности
A2 At2 = Л2Д^.Д^ < а2(1 + г/2)Л^,
где л — определенная постоянная. Следовательно, если $RF (у$
существует и остается ограниченным, каково бы ни было г, то то же самое
имеет место для $R AF' (у^)\ следовательно, суммируя от 0 до п, имеем
MF Ы - Ш Ы = М 2 Ж (И4/Г' (У1) + -f /," (У1))... Н,At1
О
и, устремляя At—>0, получим
t
Ш (у (t)) -Ш< (у (0)) = J 9» ( --1^-1- -?- f")Л- (52)
О
где 3RF (?/(0) — предел 3RF(yn) при At-*0.
Пусть, в частности, F (у) ■■= у, тогда
t t t
%(*)—%(0) = \зй^Л>\®|//|1+3Л> \[%]1+рЛ. (53)
0 о о
Следовательно, если М0 = % (*0) при t == t0, то, полагая M(t)--=$fty(t),
откуда при £>£0
1 ">t-t0;
следовательно,
Afo
л/(0 >
pyi-pilfg(*-fc.)
313
становится бесконечным до того, как t достигнет значения to + 1 /((JAfg).
Кроме того, M(t) есть возрастающая функция переменного t, каково бы
ни было Mq.
Пусть у и z имеют одинаковые начальные значения при I = 0 и Az =
= /УД£, тогда у > z; так как z представляется как сумма z = 2 /УД*
независимых величин, таких, что 3R Дз = 0, $5lAz2 = BAt, то в силу
теоремы Ляпунова она удовлетворяет закону Гаусса для t0> 0 при
Д£->0; 'Следовательно, предельная вероятность RZq неравенства z > z0
будет равна
СО 2
Rz = 1 С f ^<° dz (54)
в момент £о, если предположить, например, 2 = у = О при t = 0;
вероятность PZo неравенства у > zo будет также велика. Следовательно,
принимая во внимание, что математическое ожидание величины у в момент
t > t0 представляется как сумма
(i-PJMi + PzM2,
где первое слагаемое соответствует гипотезе, что у <С £о при £ = £о, а
второе слагаемое соответствует противоположной гипотезе, мы констатируем,
что эта сумма будет бесконечной, как только t = to + 1 /({te&), так как
второе слагаемое неограниченно возрастает, а возрастание первого
слагаемого исключает возможность отрицательной компенсации. Мы должны,
таким образом, признать, что математическое ожидание $51 у (t) величины у
должно неограниченно возрастать, каково бы ни было t > 0.
Предположим сначала, что |3 > 1, и возьмем снова уравнение (52),
полагая
у
*<*)- \ (1+Уу»)М" (55)
так что F(y) ограничена вместе со своими производными; мы видим, что
yl+Э I
3 о3 d + г/2)
W*
ограничено (так как ограничены SR F и 3RF'B).
Итак, имеем
Ы1+р / Ы ^ 1
(1 + г/2)Р/2 1 ' чУ1 + у2/ 2Р/2
откуда
г
j Ж [ у | Л
также ограничен, что противоречит результату, полученному выше [так
как. в силу (53), $5ty(t) возрастает с ростом t]\ следовательно, никакой
314
предельный закон не может существовать, если р > 1. Аналогичная (но
несколько более длинная) выкладка для случая 0 < (3 ^ 1 приводит к
тому же результату.
Закончим эту первую часть замечанием, что в предположении, что А
и В — аналитические функции, предельное распределение вероятностей
будет всегда представляться аналитической функцией переменного у в
силу одной общей теоремы об уравнениях параболического типа,
установленной мной в 1905 году4.
Поступило
5 апреля 1933 г.
4 S. Bernstein. Sur les equations du type parabolique, [4] (том III).
20
О МАТЕМАТИЧЕСКОМ ОЖИДАНИИ ПРОСТОЯ
РАБОЧИХ ЕДИНИЦ ПРИ СЛОЖНОМ
ПРОИЗВОДСТВЕННОМ ПРОЦЕССЕ *
i. Предположим, что для совершения сложного производственного
процесса необходимо участие к независимых факторов Аи А2, ..., Ak.
Первый фактор А\ заканчивает свою работу в течение промежутка
времени #i, фактор Аъ затрачивает время хч на свою долю работы и т. д. Таким
образом, если времена х\, ..., х\ не равны, то весь сложный процесс будет
завершен за время X, равное наибольшему из значений х\ (i = 1, 2,..., к).
Все прочие рабочие единицы, или факторы А, должны будут ждать от-
k
ставшего, и сумма потерянного времени будет равна 2 (Х — Х{). Тре-
буется определить математическое ожидание этой суммарной потери
времени, которая при многократном повторении процесса представит (на
основании закона больших чисел) среднюю потерю времени, то есть
непроизводительного простоя на каждый процесс.
Согласно свойству математического ожидания суммы имеем
к
Eih)= 3»Z (X-xi)=kT(k)-ti-t2-...-th, (1)
7=1
обозначая
Ь= 3R*i; Tih)= « (2)
Определение U и Тщ может быть сделано статистически: U — средняя
продолжительность времени, затрачиваемого фактором Аг на выполнение
своей доли работы; T(k) — средняя продолжительность совокупного
процесса.
Указанные величины могут быть вычислены, если известны кривые
распределения вероятностей для каждой из величин Х{. Положим, что
Pi{x) есть вероятность, что х{ *^х, так что Р%(х) возрастает от 0 до 1,
когда х растет от 0 до /V, где /V такое положительное достаточно большое
число, чтобы можно было утверждать, что в течение времени /V каждым из
факторов At работа будет закончена.
* «Уголь», .Х° 117 (1935), 109—111 (175*).
316
В таком случае
f.= 3R*< = J xPi'(x)dx = NPi(N)-^ Pi(x)dx = N-^ Pi(x)dx. (3)
0 0 0
С другой стороны, вероятность, что все факторы закончат свою работу
за время х<^Х (по теореме умножения вероятностей), будет р»авна
Pt(X)P2(X)...Ph(X).
Поэтому
*№ =SR X = J s&Pi («) ^2 (х)... Рк (х) ]'dx =
о
N
= Л'- lPi(z)P2(x)...Pk(x)dz. (4)
о
Следовательно, в силу уравнений (2), (3) и (4), формула (1) перепишется
так:
N
Ет = A:[iV - J P,(z)P2(*) .../>*(*)<&] -
о
N N 1 Л"
- [WV- J jPi(^)dr- J P2(z)dz- ...- J Pft(a:)da:] =
0 0 0
iV JV
= $ Л(;г)с£г + $ Р2(я)Же + ...
о о
...+ J /\(*)Де- к J Р1(л:)Р2(^).. .Ph(x)dx. (5)
о о
2. Предположим, в частности, что все распределения вероятностей
одинаковы Рг(х) = Р(х), откуда ti = t = Г(1). Тогда
N iV
E(h) = А[Г(Л) -i] = i[jP(a;)ir-j Ph{x)dx
*- о о
(6)
В дальнейшем будем предполагать, что Р(х)= 0 при х < а и Р(х) = 1
при х > b = а + h, так, что А — максимальная разность возможных про-
должительностей индивидуального процесса, то есть размаха его
колебаний.
В таком случае
d+h a+h ^
E(k) = k\ J P(x)dx— J Ph(x)dx . (6 bis)
a a
Сделаем еще допущение, что распределение вероятностей симметрично
около средины промежутка (а, Ь), так что
Р(а + 6) + Р(Ь — 6)= 1, 0<6<Ь-а. (7Ч,
В таком случае
Г(1)-а= $ P(x)dx= J [1-P(x)]^ = —
a a
317
и вообще
a±h
5 Pk(x)dx = J [1-P(x)fdz.
(8)
Поэтому находим тождество
a+h a+h
J P2s+i(x)dx = ~'\j [i-(2s + l)P(x)+s(2s+l)P2(x) +
a a
... + (2s + 1) P2s (x)]dx,
откуда
Например,
2J(2s+1) = (2s + l) Ты - s(2s + l)^-!) +
... + s(2s + l)r(2)-(2s-l)r(i).
(9)
TW = "у Г(2)
1
41);
:(5)
(4)
5Г(3) + 52",
(2)
T(D >
(10)
каков бы ни был закон распределения Р(х) (указанной выше формы).
Поэтому (6) при тех же условиях примет вид
i?(3) = 3
Т(з) — T(i)
= 3
L 2
:(2)
•(1)
■ (2) — * (1)
-Et
(2) ■
(11)
Таким образом, если при двух факторах простой равен Е$), то при трех
факторах он увеличивается в 2*Д раза и становится равным
■Я® = -г Е&) •
Относительно Е@) можно дать в общем случае (то есть независимо от
Р{х)) только неравенство
так как из неравенства
a+h
Я(2)<Т,
a+h
(12)
I2 h*
т
вытекает
откуда
ft J P2(x)dx> Г J />(«)! =
(/ а
a+h
С 3 *
Г(2) = а + h - \ P2(;r)dr< а + ---А = Г(1) + —,
J 4 4
#(2) = 2 [Г(2) — Г(1)] < — .
(12')
Пользуясь уравнением (11), имеем также
E(3)<-^-h.
318
Средний простой каждого фактора
1
ф* = ТЕ{к) = Т{к) ~~ T{i) ^13^
возрастает с увеличением к вследствие возрастания Тщ] например, по
формуле (И) имеем
3
фз = уф2; (И bis)
вообще из формулы (9) получаем1
1
Ф25+1 = — [(25 + 1)ф2в - S(2S + 1)ф2з-1 + . . . + S(2S + 1)ф2]. (14)
Так как
a+h
J Pk(x)dx-^ О,
а
когда А: —>- оо, то
h h
Фь — — и фк < —.
Стремление к пределу более или менее медленно, в зависимости от
функции распределения Р(х), но вообще, как показывает (12) при к = 2 и
к = 3, имеем еще всегда
h 3
Ф2 < — , Фз < — h .
Эти неравенства можно уточнить, если известна дисперсия а2
распределения Р{х), а именно из неравенства
а+Л a+h
3
5 P(z)<fe^i_|^ J (г-а)Р(г)й*
и из равенства
a+h a+h
S (z-a)P(z)dz = £-l- J (Z-a)^'(2)d2 = lA*_^-
2
a
находим
3 /3
b<a + ,__l^2-y))
откуда
"-'•-'««Tt'-Tlv-^fl (15)
Это последнее неравенство (15) не может быть улучшено, так как оно
обращается в равенство при равномерном распределении вероятностей,
1 Например, ср5 = 5/г [ф4 — 2ф3 + 2<р2] = 5/г [ф4 — фг]. Так как ф5 > q>4, то отсюда
получаем обязательное неравенство 5/г [ф4 — Фг] > Ф4, откуда ф4 > 5/з фг.
319
когда Р(х) = 0 при х<.а; Р(х) = (х — a)/h при а<х<а + Л; (Р(.г) = 1
при х > а + /г. В этом случае легко вычислить
л
О
в частности,
h
ф2 =
h,
2
А + 1
с другой стороны,
h J
6 '
поэтому вторая часть неравенства (15) также дает
3/3 1
h
"2 l
l
2 ^ 4
12
3. Рассмотрим еще пример, когда Р(х)=0 при х < а; Р(х) =
sin2 n/2h(x — а) при a < х < a + fe; P(x) = 1 при х > я + Л; так что
Р'{х)
В таком случае
ял:
—— sin —- (х — а) при 0 < х — а < h.
2h h
Щ = Т{
(к) — J- (1)
к Г
sir
Я2
~2/T
sin
2fe
ял
~2/Г
<iz =
2 \ я J / 2 L 4-6... 2A: J
Нетрудно проверить, что срз = 3/2 ф2, так как.фг = А/8, фз = З/г/16. (В
данном случае a2/h2 = 1/4 — 2/я2, и общее неравенство (12)
ф2 < h
L 16 2я2 я4
дает превышение меньше 10 процентов.)
4. Если общий закон продолжительностей х\ есть закоп Гаусса, причем
математическое ожидание х\ равно t, а стандарт сг, то вероятность, что
х^х, равна Ф(х), где
1 * JZ*L
Ф(х) = =_- \ е 2°2 dx.
Теперь h теоретически бесконечно, и те из наших результатов [как (12)
и (15)], в которых фигурирует h, становятся фактически бесполезными,
но прочие формулы (9), (10), (14) остаются в силе.
320
Рассмотрим случай к — 2; тогда
оо
Г(2)= ®1Х = 2^ Ф(х)Ф'(х)х(1х =
(x-tf
Z-_ \ Ф(х)е 2«2 (x-t + t)dx
а У2л ^
(х-*)2
2|я
=Ф{х)е 2°2
jx-tf
+ -^[ф'(х)е* 2°2 dx +
2а
2Уя
+ 2^ Ф(*)Ф'(:г)Лс = -\ е 2а2 йж + * = -р + ^
JC
В случае Л = 3, по общей формуле (10) (симметрических раснределе-
НИЙ),
3 1 За
2 2Уя
Следовательно, при законе Гаусса
£(2) = 2(Г(2) — 0 =
2а
Уя
£(3) -
_9а
2Уя"
а
Ф2 = ——
Уя
За
Фз
2Уя
21 С. Н. ^ернштейн
21
ОПРЕДЕЛЕНИЕ НИЖНЕЙ ГРАНИЦЫ ДИСПЕРСИИ
СУММ ВЕЛИЧИН, СВЯЗАННЫХ В СИНГУЛЯРНУЮ
ЦЕПЬ МАРКОВА *
1. Рассмотрим последовательность п величин xi, x<i,..., хп,
образующих цепь, где Xh может принимать к + 1 значение а&\ а^\ . .., а^).
Мы говорим, что эти величины образуют сингулярную цепь, если веро-
(h) (/i-l)
ятности перехода Ра величины Xh-t из значения я/i-i = яг- в значение
хн = й^ не удовлетворяют условию Маркова, заключающемуся в том, что
существует положительная постоянная р (не зависящая от га) такая, что
Р*и ^ Р' ^ы намеРеваемся изучить здесь общий случай, когда
^>6д>0, (1)
предполагая, что 6л стремится к нулю вместе с 1/п.
Основная трудность исследования условий, достаточных для того,
чтобы предельная теорема Ляпунова была применима к сумме
Sn = Xi + хг + ... 4- хп, (2)
заключается в определении достаточно точной нижней границы
дисперсии B(Sn) величины Sn.
Последний вопрос я изучил двумя различными методами; метод,
который я сейчас здесь изложу, основывается на рассмотрении условной
дисперсии
b(xh; а(Ь-*\ а^))
величины хн, когда а^~^ и а^+1) известны. Этот метод, как это будет видно,
не ограничен предположением, что число к + 1 значений, которые может
принимать х^ фиксировано: к^О может зависеть от /г, и только
для того, чтобы не увеличивать число индексов, мы обозначаем число
возможных состояний одной и той же буквой к. Кроме того, обозначим через
bh{a^1)) среднее этих условных дисперсий, соответствующих фиксирован-
* Determination (Tune limite inferieure de la dispersion des sommes de grandeurs
liees en chaine singuliere. «Матем. сборник», 1 (43): 1 (1936), 29—37 (177*)'.
322
ному a(h-l\ полагая
Ptj&i b(xh; a{ , ai )=Ьп(а{ '), (3)
iTte у, Z пробегают все значения от 0 до /с.
Наконец, мы назовем средней условной дисперсией хп о б-
щеесреднее
bh^pf-*-bh(afl)) =
2 = 0
- 2.'/* P*j Pji *№; ^г , ai ), (4)
где J°^_1) означает априорную вероятность равенства Zh-i = a^~lK
Пусть ад(аг* , аг ) — условное математическое ожидание хп, когда
(h-i) (h+i)
Xh-i = сц ж Xh — ai
Приняв это, мы можем представить дисперсию
V (О (2) (Л) (п) (1) (2) (п)
B(Sn) = 2jPi{ Pilh...PzA„xih.. • «„.,!>,+ я/о.Ч- ... + */„- ЛР, (5)
г#е суммирование происходит по всем значениям индексов Z1? /2, . . . , ln и
А = (5П) есть математическое ожидание Sn* в виде
B(Sn) = Ъ2 + 54 + . .. + 5, + ^ Р(/)р(2) . .. р(Л) ...
...р™ 1[ау+а2(а^а®)+а® + ...-А?. (6)
'n-1'a 4 'i *3 '3
(Очевидно, без ограничения общности, можно предполагать п четным, ибо
можно добавить xn-\i — 0.)
Действительно, полагая h произвольно выбранным, произведем
суммирование в (5), предварительно представив каждый член из B(Sn) в
виде
D(l) <2) (Л) (h+i) (и) /Г/,(1), , Ah-l) , „ /J'*"1) Л(Л+1)\1
+ a(*+4> + . .. + a(n> — Л] + W) - ^(a^-1), a<*+1>)]}2.
'л + i 'n lh lh-l lh + l }
Таким образом, выделяя множители, не зависящие от Z&, и принимая
во внимание равенство
ак{а^),а№))У.№ , PfV] =2<°Р|Л) , Р(;Л!1} >
'л-1 'л + i — *л—1*л lhlh+i hi lh-ilh lhlh+i
hi hi
мы получаем, после возведения в квадрат выражения в скобках,
B(Sn) = Bh(Sn) +Rh,
где
Bh(S )= У Р(1)Р(2) ... Pih) PW ••• Р(?) , W + ^"^ +
h>l2>~"lh
+ ah (a&-*\ а(л+4>) + a<h+4> + ... + a<"> ~ 4]2
*Л_1 'Л+i 'a + 1 'n
ft+1
323 21 «
и (согласно (4))
Rh = J pii¥2) ■ -Pih) •••P(n) t«(ft) — Ма(Н~1\ a(h+1))p =
= у Р^-^)рФ) p(h+i) [ah _aft(a(ft-l)) a(h+i))]2 =
'ft-i' zfc' lh-ri
S Pih-VpM 7 p№) b(xh;a№a№)=b^. (4bis)
Так как то же преобразование может быть применено к Bh{Sn)j при
условии, что индекс i выбранной величины х\ отличен от h — 1 и ft + 1,
то действительно все индексы можно взять четными (или нечетными),
что приводит к формуле (6).
Из формулы (6) мы выводим следующее важное неравенство
B(Sn)> Ь2+ Ь4 + ... + Ъп. (7)
При этом знак равенства в (7) на самом деле может быть достигнут.
Действительно, достаточно положить xi = хз = ... = хп-ч = О,
предполагая независимыми величины Х2, #4, . •., хп для четных индексов, так что
их дисперсии совпадут с соответствующими средними условными
дисперсиями.
2. Мы хотим получить теперь нижнюю границу для B(Sn), добавив
к условию (1) одно, очевидно, необходимое предположение о
величинах а^\ Предположим, что
iaf)=0' ,4т2(^)2 = 4; (8)
этаа два равенства эквивалентны (с точки зрения значения B(Sn))
единственному равенству
Л k
—7.2(аГ-Ь)2 = ^, (9)
где
1=0
Ah), №), , Ah)
s, = ^П • (Ю)
Напомним также, что к не предполагается независимым от h.
Заметим, что, согласно (5), В {Sn)~ линейная функция относительно
величин рМ, где оба индекса h и i фиксированы; следовательно, замечая,
что
k
ZiPV = ** PU ^.O/i,
минимум
k
В(5») = С + 2,^Л
324
каковы бы ни были С и А^ будет достигаться, когда к переменных рп.
будут равны 6/i, а последнее будет равно Дл = 1—кди (где предполагается,
разумеется, что 6н^1/(к + 1)).
С другой стороны, (имеем, очевидно,
Ьн 5? mmbh(ai ),
где
Мы можем предположить, что этот минимум соответствует, например,
индексу i = 0 и положить, для краткости,
Тогда
, (Л-1) (Л+1)ч /п
ал(а0 ,а* )=аь(/).
B^Spwpj^^-^WF, (И)
где, занумеровав надлежащим образом величины а^\ можем положить
рМ = Д/i и р(£? = 6/г для /" > 0; точно так же, каждому значению ; будет
соответствовать единственное значение I = /о такое, что р<!\+1) = Дл+i и
р(л+1) = бд+i при I 55 /о, в частности, мы можем положить Р(0^+1) = Дл+i.
Таким образом, неравенство (И) примет вид
k
5л^Дл[Дл+1(а?° - af )2 + 6,l+l2 («о0 - Ml) )*] +
z=i
k
4-6*2 [A/l.H(af)~a/l(7o))2 + 6ft+12 («f}-a/i(0)2L (12)
j=i i§io
и тем более получим тогда
к к
5л>АлбЛ+12,(«оЛ)-ал(0) +йлАл 2 (а^-М/о))2, (13)
Z=0 j=l
где, чтобы взять самый общий случай, мы подчеркиваем, что число к' + 1
возможных значений xn+i может быть отличным от числа к -Ь 1
значений ГС/г.
Обозначив через \ih наименьшее из произведений Д/Дн-i и б^Дл+ь
имеем, следовательно,
Ьл \inMh, (14)
где Мл — минимум квадратичной формы
к' к
^=2(^-а(г))2 + 2,а/;-а(7о))2 (15)
1=0 j=0
при условии, что
к к
2w = 0. ^yl = (fc + l)dl (16)
i=o i=o
325
Чтобы вычислить Mh, применяя классический метод, начинаем с
дифференцирования по Уз(]>0); мы получим
W-a(/o) = ^ + v, (17)
откуда следует, что для к $? 1 два различных значения индекса ; не могут
вести к одному и тому же значению /о. Исходя сначала из этого
предположения, приравниваем нулю производные по а (/о), что дает
,.ч Уо + У 5
а(/о) = ,
тогда как дифференцирование по a(Z), которое не участвует во второй
сумме, дало бы a(Z) = г/о. Следовательно,
^ = 4-2 0/о-У;)2 = 4-Ы + 2#о2+2 2/Я =
Z j=i Z L 1 J
Наоборот, полагая X = 1, получим а (/о) = — v, согласно (17), для всех
значений / > 0; таким образом, мы имели бы
к к
F = i(i/o + v)2 + 2(r/j + v)2= (*-l)(y0 + v)* + 2 0/i + v)2 =
= (Л- 1) (г/о + v)2 + (к + 1) (i/o + v)2 >(k + l)<Pft.
Следовательно,
Mh=^^dl (19)
откуда
ЬЛ>^р<РЛцЛ. (20)
Таким образом, окончательно, имеем
1 ft/2
Я(£п)>-9- 2 (А + l)uW (21)
и точно так же (используя аналогичным образом величины с нечетными
индексами) согласно (9)
\ п А
B(Sn)^—^ (к + l)dhlih = -7-ЕМ*?0-Ы2- (21 bis)
Пусть, в частности, к не зависит от h и
^>-—-гг—; (22)
(& + l)na v '
тогда имеем
-[
(А + 1)тга
326
(А + l)^a
откуда
ь—£d *
2па^ (к+1)па
1
5^>>^iu~A-iu-
4яа ~' 4гаа и
(23)
Вообще, если имеем
h>ih w
при всяком /г, получим
Д(Л)>^^2.& (25)
Таким образом, если рассматривается сумма независимых величин
2П = г/i 4- г/2 + ... + уп, где уп может принимать те же значения, что и
хн, которые все равновероятны, то
В(Sn) > cy(1-g) 5(2n), (25bis)
где B(Zn) — дисперсия 2П.
3. Аналогичный результат получаем в случае, когда хп может
принимать все значения из некоторого конечного интервала (ал, Ън), причем
плотность вероятности перехода из xn-i (ал-i < ял-i < Ьл-i) в £/г равна
<р(ял-1,#л) при
ьЛ
) Фл(^л-1, я)<& = 1.
Действительно, предположим, что
фл(У, *)> ^/i (ah-i < У < bh-u ah<x< bh) (26)
и
Ч (ЬА-аА)/2
Ьл-OfcJ V 2 У ЬЛ-вЛ J 12
а,, О
(27)
Разбивая каждый интервал (а/,, Ьд) на /с + 1 достаточно малых равных
частей, мы можем рассматривать настоящий случай как предельный при
Л- —- сю того случая, когда хк принимало бы к + 1 различных значений,
принадлежащих, соответственно, этим различным частям, причем
вероятности перехода равны
Фл(*л-1, хк) ,, ч ^ Gh(bh — ah)
_____ (Ь, _ ah) >____=бд.
327
Таким образом, \х будет равно наименьшему из чисел
бл [1 — сгл-1 (bh-i — ah-i) ]
и
бл—i [1 — Oh(bh~ah)l
и неравенство (20) принимает вид
~Ък > 0/ [fa — ohah-i(bh — ah) (ЬЛ-1 — ал-i)], (28)
где Хл — наименьшее из двух чисел Gh{bh--ah) и Oh-i(bh-i — tf/i-i).
Следовательно,
1 п
5(^) > — 2. (ьл - ад)2 [Ял - алаЛ-1 (ЬЛ-1 - аЛ-0 (6л - ал)]. (29)
4о 1
В случае сингулярной цени вн стремится к нулю вместе с 1/и; пусть,
например,
М
фЛ(у, а;) > аЛ = —— [ah-i <y< bh-U ah < у < ЬЛ], (30)
где £л = Ьл — ак и Af — заданная положительная константа.
Тогда, для достаточно больших п, имеем неравенство (асимптотическое)
*№)>wJH <з1)
которое эквивалентно (23), и в случае, когда интервал Lh = L постоянен.
сводится к
ML2
В(Sn) >-£-*-*. (32)
да pW удовлетворяют, кроме того, условиям
4. Рассмотрим еще более частный случай, когда вероятности перехо-
го, условш
Sp№) = 1
и в то же время
Р?= 4
fc + 1'
где к будет предполагаться не зависящим от h.
В этом случае мы можем дать точную (асимптотически) нижнюю
границу B(Sn), которая оказывается вдвое больше той, которую далп бы
нам полученные выше оценки.
Сначала вернемся к выражению (5) для B(Sn)y которое мы будем
рассматривать как линейную функцию от (Л + I)2 положительных
переменных pW с неотрицательными коэффициентами A^h)
i, Z=0
328
Речь идет о минимизации этой функции при условиях
2^ = i. 2p£}-i (зз)
№ -1. S "№)
г=0 /=0
р$> > в,
где
б<
к + 1
причем коэффициенты Ац заданы.
Легко видеть, что абсолютный минимум будет достигаться на такой
матрице llp^ll, У которой в каждой строке и колонне все элементы,
за исключением одного, равны б, причем исключительные элементы,
следовательно, равны А = 1 — /сб.
Действительно, так как число независимых переменных, в силу (33),
сводится к /с2, все экстремумы B(Sn) будут соответствовать тем случаям,
когда к2 величин р&) будут равны б, таким образом, найдется самое
большее 2к + 1 значений, отличных от б. Следовательно, найдется по крайней
мере одна колонна, которая будет содержать лишь один элемент, отличный
от б, который, таким образам, равен А = 1 — кб. Но тогда
соответствующая строка тоже не может содержать других элементов, отличных от б,
ибо сумма элементов в такой строке стала бы больше 1. Таким образом,
предполагая, для определенности, что рассматриваемый элемент А = ри =
= phk, т. е. принадлежит к последней колонне и последней строке, мы
имеем определенные значения для всех элементов pik, Ры, и мы пришли
к минимизации оставшейся суммы
fe-i
i, 1=0
от к2 переменных р&\ где i = О, 1, . .., к — 1, I = О, 1, ..., к — 1,
подчиненных условиям
2р£>- 1 - б, 2рЯ°= * -б-
Таким образом, согласно тем же рассуждениям, мы видим, что
оставшаяся матрица содержит тоже по крайней мере одну колонну с
единственным отличным от б элементом, необходимо равным А, причем этот
элемент, следовательно, будет единственным отличным от б элементом
в соответствующей строке.
Продолжая так шаг за шагом, мы приходим, таким образом, к
желаемому заключению, что матрица llp^ll, соответствующая экстремумам
5(iSn), содержит в каждой строке и каждой колонне только один
исключительный элемент А, причем все остальные элементы равны 6.
Таким образом, абсолютный минимум B(Sn) будет иметь место, когда
каждое значение xk-y = а*/1-1) влечет за собой почти наверное вполне опре-
деленное значение хп — о^\ причем соответствие между величинами а^~4)
329
и а^ взаимно однозначное, т. е. определяющее некоторую замену индек-
'Л
сов /л-i индексами h.
Но, поскольку порядок, в котором мы располагаем величины с№\
безразличен, так как мы a priori не накладываем никакой связи между
величинами аУУ я a{h+l\ можно, для упрощения записи, предполагать, что
матрица || р№ || расположена таким образом, что рп = А для всех элементов
главной диагонали ш ри = 6 для всех остальных элементов (i$? Z);
другими словами, исключительные значения, соответствующие а^ и а^+1),
могут предполагаться имеющими одинаковые индексы (не будучи,
разумеется, необходимо равными!).
Приняв это, будем иметь, согласно (4) и (4 bis),
1 h
bn = : У
о
* + *w
A2(ai —ah(cii , a{ )r +
+ Аб2(«Г)-а,(«Г),аГ)))2+АбЗ (а? - ah(«Г», af+V +
+ б2 2j (ai — a^(a^ , Щ ) )2 >
>^ 2[S (»*-a(i,Z))*+ S(^~aa/))2 ],
г=0 l^i j^i
где, для сокращения письма, положено у г вместо а\ и a(i, l) вместо
, (Л-1) (М-1)ч
Таким образом, минимум второго члена будет достигаться при
сф,0 = g '
поэтому
2А6 ^ / т - г/, \2 Дб k
5»>^2(-^) -^Si^ + ^-^ + DAedi (34)
г=0 ' Z=0
7=0
Следовательно, при условии (22), неравенство (34) дает
*(*»)>o^2<& (23 bis)
что представляет собой асимптотически точную нижнюю границу B(Sn)
при /г — оо (для a < 1), как это легко подсчитать для случая, когда хи
принимает только два значения ± d, причем изменение знака имеет
вероятность
Те же самые неравенства распространяются на непрерывные распре
деления вероятностей.
Поступило
22 октября 1935 г.
=^=
22
0 НЕКОТОРЫХ ВИДОИЗМЕНЕНИЯХ НЕРАВЕНСТВА
ЧЕБЫШЕВА*
Пусть zi, 22, ..., zn представляют последовательность случайных
величин, обладающих свойством, что условное математическое ожидание
'^(i)Zi+i = 0, каковы бы ни были значения предшествующих величин z\,
п п
Z2,..., Zi. В таком случае дисперсия суммы 2 z* равна Вп = 2 Рь где
i=i i=i
Р* = 3Rz2. Относительно суммы величин z2- могут быть установлены
следующие предложения.
Теорема I. Вероятность, что при всех i ^ n будут одновременно
соблюдены неравенства
\zi + z2 + ... + zf\ ^tiBn (i = 1,2, ...,и) (1)
больше, чем 1 — l/£2.
Я не буду останавливаться на доказательстве этой теоремы,
являющейся непосредственным усилением неравенства Чебышева, так как оно
проще и аналогично доказательству следующей теоремы, соответствующей
одному из моих прежних уточнений последнего неравенства.
о
Теорема IL Пусть Р*,л-1= 9Й(ь-1)2а есть дисперсия zk при
заданных значениях zu z2,. . ., Zfe-i; пусть
— < Rk. (2)
2?&/ш существует такое число Е, что
M^K-^f^-H1-2», (3)
го вероятность Р совмещения неравенств
zi + z2 + ... + zi<2ti'B'n (i = l,2,...,n) (4)
П
оольше, чем 1 - е-<2, лишь бы 0< * < 1~Вп'/(2Щ, где Яп' = 2 Л*Р*-
л=1
Для доказательства положим е > 0 и обозначим через Qi вероятность
* «Докл. АН СССР», 17, № 6 (1937), 275-277 (184*).
331
совмещения неравенства
с неравенствами
ee(zi+z2+...+zk) <l (g)
при любом к < i. В таком случае
п
<? = 2 Qt (?)
1=1
представит вероятность, что найдется такое i ^ п, при котором
неравенство (5) осуществится.
Пусть
/= д»(ве<г1+-+гп)). (8)
Если zi ,22 , ..., zi представляет некоторую совокупность значении zb
Z2, ..., Zt, удовлетворяющую условию (5) совместно с (6), то
соответствующие слагаемые суммы / представятся в виде
р{ее(ч +•■■+** )$R(i)ee(zi+i+-+zn\
где pi есть вероятность равенств z\ = zff\ z2 = 2(2*\ .. z* = z<£\ между тем
как условное математическое ожидание 9R(*)e8(zi+i+-+zn)^>l вследствие
очевидного неравенства
У Phe°k > 1,
имеющего место при условиях 2 Рь = 1,2 РкОк = О, Р& > 0. Поэтому, беря
сумму /W всех слагаемых /, удовлетворяющих (5) и (6), и замечая, что
2 Pi = (?, заключаем, что
а следовательно,
п п
/> №>Ь 2 & = ■*#>
1=1 г=1
т. е.
<?<f (9)
С другой стороны,
Z=3 *
и вследствие (3)
00 2
<*:-!)*"« ^ 1 + р,-, г-i 24r(^)z"2 < 1 + е2Р«, г-i < e**«. <-i, (10)
2=2 ^
332
полагая
е#<у (И)
Поэтому, принимая во внимание (2), находим тем более, что
откуда следует, что
I <e i==i = e£iBn\ (12)
Таким образом, на основании (9), имеем:
Q<~L~' (13)
где Q представляет вероятность, что найдется по крайней мере одно i ^ пу
при котором осуществится неравенство
e(Zi + z2 + ... + Zi) >\x\L. (14)
Положим
lnL = *2 + s2B'n.
В таком случае неравенства (14) равнозначны
t2
Zi + z2 + ... + Zi ^> — + eB'n (15)
8
и вероятность Q, что по крайней мере одно из них (i ^ п) осуществится
удовлетворяет неравенству
Q < ег*\ (16)
В частности, полагая е = ЩВпг [причем для соблюдения (11) достаточно,
чтобы ^У5П7(2Я)], убеждаемся в правильности высказанной теоремы.
Из теоремы II нетрудно вывести распространение «закона повторного
логарифма» при Вп —* оо на рассматриваемые в ней величины Z{, в
формулировке которого ничего не меняется, когда Rn —* 1 при п —► со.
Аналогичным образом преобразовываются и другие уточнения
неравенства Чебышева, которые указаны в моем курсе теории вероятностей
и в статье «Об одном видоизменении неравенства Чебышева и погрешности
формулы Лапласа» ([5]).
Поступило
14 ноября 1937 г.
23
СТОХАСТИЧЕСКИЕ ДИФФЕРЕНЦИАЛЬНЫЕ
УРАВНЕНИЯ *
1. Известно, что обыкновенное уравнение
%-A>(y,t) (!)
при весьма общих условиях может быть рассматриваемо как предельное
при At -— 0 для уравнения в конечных разностях
Ау = А (у, t, At) At = А0(у, t)At + At{y, t) (A*)2 + ...,
где A(y,t,At) является аналитической функцией относительно At, при
At достаточно малом. На этом свойстве основан классический метод
Коши — Липшица, доказывающий существование решения y(t), которое
при t = О принимает значение г/о- Если предположить, что приращение
у в конце каждого интервала At изменяется добавлением случайной
пертурбации f (у, t, At, at) At порядка At, где случайные величины а*
независимы и таковы, что математическое ожидание
®tf(y,tiAt,at) = C(y1t,At),
легко видеть, что при тех же** условиях для С (у, t, At) и, кроме того,
если Ж/2 < оо, предельная пертурбация не будет стохастической природы
и предельная функция будет определяться уравнением
$jL = AQ(y,t)+C(y,t,0).
Таким образом, при предположении, что С (у, t, At) —> 0, влияние
случайной пертурбации стремится к нулю; поэтому для того, чтобы это
влияние стало ощутимым, необходимо, чтобы случайные скачки были
бесконечно большими по отношению к определенному приращению у.
* Equations differentielles stochastiques. «Act. Sci. ind», 738. Confer, internat. Sci.
math. Univ. Geneve. Theorie des probalites, V. Les fonctions. aleatoires. 1938. 5—31
(203*).
** Что и для А (у, *, At). (Ред.)
334
Мы приходим, следовательно, к необходимости рассматривать разностные
уравнения в виде 1
Ау< = Ф(#г, U, УД^, а*.) УД^- =
= А (г/г, *,, УА^, at.)Ati + f(yit tu уЖи at .)iKt{: (2)
где
Mf(y,t,fKt,at)=0, ®P(y,t,ybt,at) = B(y,t,lM) J
Очевидно, можно, не нарушая общности, предположить, что
А (у, t, У At, at) = А (у, t, У At) не зависит от а*.
Интерес проблемы предельного распределения вероятностей P(y,t)
величины у при данном t = 2Д£2- состоит, главным образом, в том, что
Р(у, t) весьма близко к распределению, соответствующему малым At{
(при этом Ati не обязательно должны быть равными); я не буду
возвращаться здесь к вопросу, рассмотренному мной в другом месте2, о
значении, которое следовало бы придавать фикшвной величине у,
удовлетворяющей предельному распределению.
Я бы хотел здесь изучить основные необходимые и достаточные
условия существования предельного распределения. Некоторые результаты
этого исследования установлены в моей статье [19]; изменения и
дополнения, которые я здесь ввожу, делают его более эффективным и
непосредственно применимым к системе уравнений со многими неизвестными.
Однако, чтобы не загромождать изложения, я буду заниматься, главным
образом, случаем одной переменной.
2. Для того, чтобы уяснить природу необходимых условий, к которым
я еще вернусь несколько позже, рассмотрим прежде всего частный
случай, именно, уравнение
Ay = y2At + а УД7, (4)
гдо а может получать два значения ±1 с вероятностью 1/2, предполагая,
что все интервалы At равны. Я хочу показать, что каково бы ни было
начальное значение у = Уо и каково бы ни было N > О, можно указать такую
положительную величину с (уо, t), независимую от N, что вероятность
неравенства у> N в любой заданный момент t > О будет больше c(y0l t) для
At достаточно малого.
Например, если уо = 5, t = 2, как бы велико ни было iV, вероятность
</(Л\ 2), что y>N, превосходит 0,9997, когда At достаточно мало.
Чтобы в этом убедиться, заметим, что вероятность того, что
г
2 аА УД*~> — z0 yriiAt = — z0 y^i
Wo
1 Можно показать, что если / имеет множитель Дг'/а+е (е > 0), случайная
пертурбация в пределе исчезает, если / = О (у).
2 См. работу [14].
335
для всех значений i ^~ п, имеет пределом
О
когда At —* 0.
Следовательно, вероятность того, что для всех i <^ щ
У1>Уо+ 2 У\ А* ~~ Zo ^щ^
k«o *
имеет тот же самый предел; таким образом, для At достаточно малого
вероятность того, что
У г > Уо + щМ(у0 — z0 УщМ)2 — 20 yriiAt, (5)
a fortiori будет больше чем 2O(z0).
Пусть, в частности,
1 1
щМ =ti= —, zo = — jA», у0 > 0;
Уо 3 °
неравенство (5) превращается тогда в
1 ( уо)2 уо Ю
yni>yo+-y-[l/o-T)-T = Yyo. (G)
Аналогично, для ущ в момент tt положим
1 1 /10 \3/2
h — ti = (п2 — щ)М = —, Zl = _^.>z0l —. I .
2/п, о 1 У
Тогда вероятность того, что одновременно выполняется (6) и
в момент fe, будет больше, чем
/"~2 Т — /"~2~°° -—
Продолжая так дальше, мы видим, что вероятность получить
v. I 10 Y
в момент
*-L+-L+....+ -L<jLifj-)'-i2.
Уо Ui J/ft-i Уо Т V 10 / уо
336
для At достаточно малого, будет превосходить
z02 / 10 \ ЗД
-Ь-1
1 —
l/fS S .--*>i-|/|2
//=п я/>/о г л , Л
/.=о з„/2 ' -ft=o2f10V"/2'
z0(10/9) z0 I
■(?)'
каково бы ни было к > 0.
Для г/о = 5 имеем z2 = 125/9, и так как последовательные члены
последней суммы убывают быстрее, чем геометрическая прогрессия со
знаменателем (9/10)^е-53'271/294 < 1/10, то получаем
. оо z2
q(N, 2)>1—i£ у ^J 7~dz> 0,9997.
Заметим, что даже в случае г/о<0, с(г/0, *) > 0, каково бы ни было
*>0.
Так, например, когда г/о = 0, вероятность того, что у > 5 при £0 = 4
оо
будет больше, чем (1/у2я)) e~z2/2dz; поэтому вероятность того, что у =
2,5
= оо, при £ = б становится больше, чем
0,9997 г -—
~^=- \ в 2 dz> 0,0061
Метод, которым мы исследовали рассмотренный пример,
непосредственно оправдывает заключение, что закон распределения вероятностей
решения у для (2) в момент t > 0 не может стремиться к пределу в
обычном смысле (если вероятность у = со по определению равна нулю)
в случае, когда В и В~{ ограничены3, если
A(y,t,At)>\y\^ (p>0).
3. В дальнейшем мы всегда будем предполагать, что функция
Ф(г/, t, УДг, at) остается непрерывной и конечной для всех вещественных
значений г/, t ^ 0, At < А., где % является достаточно малым числом, и для
всех возможных значений случайной переменной а*, и дифференцируемой
по у столько раз, сколько это понадобится. Такое уравнение мы назовем
обычным.
Мы говорим, что два уравнения
Дг/ = Ф У Д7, Дг/ = Oi У~Д£
эквивалентны, когда
Oi-0 = Q(y,t,y~Ai,at)At,
где функция Q остается конечной для всех рассматриваемых значений
переменных, т. е. можно указать возрастающую конечную функцию
3 Как мы увидим далее, зашпачение имеет место и тогда, когда В = О (у2).
22 с. Н. Бернштейн 337
Q*(\ylt) от \y\ и t такую, что для всех значений переменных
\Q(y,t,Ut,*t)\<<?(\v\,t).
Мы говорим, что обычнее уравнение (2) регулярно*, если
д/ и cU ^-
<Эу И 5у_
ограничены; следовательно, при у-*±оо возрастание Ф(у, t,VAt, <xt)
такого же порядка, что и \у\ (когда 0<^<Г<оо).
Уравнение (4), которое мы только что рассматривали, не регулярно,
но оно эквивалентно регулярному уравнению. Действительно, легко
показать, что любое уравнение (2), в котором — ограничена и,
следовательно, f того же порядка, как и \у\, является эквивалентным
регулярному уравнению. Для этого достаточно заменить Ау на Ауе~~{А» At''
положив
О
так как
a„Yb\ = \Ave-(A'vVTVV^<Y~<\
А — а
V't
= \Q(y, t,VAt, at)| <
' 0
Таким образом, в рассмотренном примере получим
v
1
-I
уег
2y*At
dy
^d—-);
однако легко проверить, что, несмотря на эту регуляризацию,
предшествующее рассуждение и заключение о несуществовании предельного
распределения полностью имеет место*
Далее мы увидим, что условие, заключающееся в том, чтобы
' была ограниченной, является необходимым для существования пре-
ду
дельного распределения; впоследствии мы всегда будем считать его
выполненным, за исключением особых случаев.
Мы будем говорить, что уравнение (2) квази-линейно, если I дА/ду |
также ограничена, мы предположим еще, что производные dkA/dyk и
dkf Jdyh ограничены до определенного порядка (например 1 < А<4)
и при у —- ± оо стремятся к нулю, как у1"*. Квази-линейное уравнение,
очевидно, является регулярным. Мы докажем теорему существования для
4 Определение регулярности здесь несколько общее, чем в [19]. В [19] уравнение
(2) называлось монотонным, если для At, достаточно малого, будет равномерно
| Ф'у | lAt < р < 1. Здесь я освобождаюсь от этого определения. Заметим, что
всякое обычное уравнение эквивалентно монотонному уравнению.
338
квази-линейных уравнений и даже для клаоса уравнений немного более
общих, на которые мы укажем позднее.
Данные определения распространяются на случаи системы уравнений
с несколькими переменными. Так, мы будем говорить, что система
Ду(А) = Ok(u{i\ У{2\ • •., г/*\ /, У~Д1, at)/At =
= AkAt + fkyTt (к= 1, 2 &■).
где Ж/л = 0, квази-линейна, если dAh/dy^\ djhldy^ ограничены {t^ T)
и частные производные порядка г (1<г<4) не превосходят
S
а[1 + 2 | У{{) |]"(г"1), где а > 0 —константа (* < Г).
4. Теорема.
Пусть
Ayt = Ф(Уь U, УМ, а*.) УДГ* (2)
уравнение, эквивалентов квази-линейному5. Пусть Р0 (*/) = Ро(#) —
исходная плотность вероятностей у при t = 0, причем ро(у) имеет непрерывные
производные первых двух порядков. Каково бы ни было подразделение
£ = .2 ^ яа части Д^*, интегральный закон распределения вероятностей
г/n в момент t = tn стремится к определенному пределу Р(у, t), который
удовлетворяет уравнению Фоккера — Планка
— = -Ар+-т—^-, (7)
где
Мы докажем сначала эту теорему в предположении, что А и /
ограничены вместе с их производными до определенного порядка (не
предполагая, что последовательные производные стремятся к нулю на
бесконечности). В таком случае мы говорим, что уравнение является
ограниченным.
В самом деле, заметим, что если
Ум = Уп+ф У'Ьй = F (Уп> 'п, У*Ъ> *0« (2 bis)
то
Уп = Упм + 6* (V^V '"' УА*п> Л'п)
(лишь бы Atn были достаточно малы для того, чтобы \ФууЫп <1у-
Чтобы определить 6*, можно считать в
Ф (t/n, *П| КДЦ", a,J = Ф (уп)
5 Вместо одной случайной переменной а* , соответствующей моменту £*, может
иметься несколько переменных а , Р , у ,..., и, как будет видно в д^иьнейщем,
ч ч ч
это существенно не меняет ход рассуждений.
339 22*
величины tn, V&tn, atn постоянными параметрами и разложить решение
z = у уравнения у = z + Ф (z) 'к по степеням X = У~К1 по формуле
Лагранжа; для % достаточно малого получим
Ш,А , V дФЦу) Xs д°-ФЦу)
Так как, по предположению, уравнение (2 bis) является регулярным
(\ Ф'(у)\ < с), мы получим
= - / (у, t, VTt, <xt) }/Д* + (//' - -4) At + p (Д<)%.
где Н и q конечны, вместе с г/ л i.
Если мы, наоборот, будем отправляться от уравнения
Уп = 2/„+1 Ч- 6 (</п+1> '«• V^*». «О = ^ (уп+1, *п, /Д£, «О- (8)
где
6 (у, *, КД^, а,) = - / (г/, *, J/T*, а,) ]/Д* + (//' - A) At,
то получим уравнение
Уп+1 = У„ + /(У„. *». J^ «О^Д* + [//' - (//' -A)]At + Q [М)\ (8bis)
эквивалентное (2 bis), так как Q остается конечным вместе с у и t и
//'-(/у- ^) = л.
Можно было бы рассматривать само уравнение (2 bis), но лучше
оперировать с эквивалентным уравнением (8 bis) для того, чтобы иметь
возможность использовать формулу (8) (без остатка).
Но если х (а) — интегральный закон7 распределения вероятностей
случайной переменной а*, то мы получаем интегральное соотношение
P<«(y)=lPi(F(y))dx(a), (11)
где Рп(у) — интегральный закон распределения вероятностей уп. Далее
мы будем писать
дРп(у)
Рп(у)
ду
5. Легко найти верхнюю грань Mt величины |рп(у)| как функцию от
М0 — максимума |ро(у)|, независимую от способа подразделения t = tn,
в случае квази-линейного уравнения, и, тем более, если А и / ограничены;
точно так же мы укажем верхние грани M'v M"v М'" величин \р' (у)|,
в См. лемму III, § 8.
7 Этот закон может зависеть от i, но мы пишем, рада краткости %(а) вместо
%t (a); кроме того, ничего не изменится, если число случайных переменных а больше
одного.
340
I#"(2/)I> |p"'(l/)I» которые последовательно определяются с помощью
M'Q M" М'£', соответствующих значению t = 0.
Действительно, дифференцируя уравнение (И), мы имеем
pn+i(y)=] pn(F(y))(l + 6')dx(a), 1 + 6'>0; (12)
тогда, если рп (у) ^ Мп, то
Л/П+1<Л/П$ (1 + б')^х(а) = Mn{i + J [-/' (у) iKt+ QiM]dx(a)} <
<лгя(1 + hbt),
так как можно зафиксировать константу h так, чтобы для всех значений у
\Г+Я"-А'\=\(Ц\<Н,
а с другой стороны, имеем тождественно
S /i(y, *, УД*, at)dx(a) = 0.
Таким образом, для данного t имеем
( Ы\п
Мп<М0 1 + — <М0еи.
v п'
Также имеем
dy2 =Pn+i(y)=4{Pn(F(y))(l + b')z + Pn(F(y))6"]d1(a). (13)
Следовательно, полагая |р'г(г/)| ^М'п, получаем
M'n+i<M'n 5(l + 6')2^X(a) +
+ | J lPn(y) + ЬРп(у + Щ]Ь"*Х(а) |, 0 < 0 < 1.
Замечая, что 6" = - f"(y, t, jEt, a) l[Kt + Q2At, где | q2 | = | 3/7" +
+ /"' I < h ограничено, каково бы ни было у, и
$/'(», *,УД*,<х)<*Х(а) = 0,
получим
Мп+1<М'п 5 (l + 6')2dX(a) + itfn|$ 6^x(a)|+«nS \Ы>"\*%(а)<
<Мп[(1 + 2hAt)+ J (б'2 + | 66" \)dx(a)] + MnhAt.
Но величина 6'2/Д£ ограничена, так же как и 66"/ Д£; пусть /г их общая
верхняя грань, тогда окончательно
Mn+i <Мп(1 + 4ЛМ) + hM0ehtAt.
Отсюда получаехм, полагая M0eht = N,
341
Аналогично предыдущему, имеем
К+1 = Pn+i = 5 [Рп (Ш)(1 + Ь'У + Зр'п (*(»)) (1 + W +
+ ря(/|(у))б//1йх(а)= Spn(^(^))(l + 6/)3^(a) +
+ 3 J [pl (/У) + Ьр'п (У + 66)] (1 + 6')6"dX(a) +
+ \\PAV) + bpn{y + Щ]Ь"' dt(a).
Тогда, пюлагая | рп" (у) | < Мп", видим, что первый интеграл
ограничен величиной вида Мп" (1 + hAt); второй — 3Mn'hbt + %Mn"hAt и,
аналогично, третий будет равномерно ограничен величиной hMnAt-\-hMn'At,
так как
Эффективное определение верхней грани Мп" получается, как и выше.
В случае необходимости мы можем аналогично установить границы
модуля производной
&Рп I
K'iv) =
dy"
Такое же рассуждение, очевидно, применимо и к случаю квази-линейной
системы с несколькими переменными.
С другой стороны, возвращаясь к уравнению (12), которое мы можем
представить в форме
Рп(у) + 6р'п(У) + -jPn (У + вв) J (1 + 6')dx(a), (12bis)
мы получим
+
\pn+i(y) — Pn(y)\<Mn\ 5 6'dx(a)\ +
Mfn\ \ 6(1 + 6')dx(a)| +-J-^nJ 62(l + 6')dx(a)<HM, (14)
где Я —константа, которая вообще зависит от у, но может быть
зафиксирована равномерно, когда у принимает любое значение в данном конечном
сегменте. Эта константа Н будет одной и той же на всей вещественной оси,
если данное уравнение ограничено.
Точно так же, если уравнение (13) представить в форме
p^x (у) = \ {\/п (у)+б/>; (у) + -у р"; {у + бб)] + (1 + б')2 +
+ [Рп (У) + *Рп (У + Щ] 6"} d% (a) =
= Рп (У) \ (1 + S')2 dt (a) + р'п (у) ^6 (1 + б')2 d% (a) + рп (у) \ ЬЧг (ос) +
+ \ \ \К (У + Щ б2 (1 + S')2 + 2рп (у + 6,6) 66"] dt (а), (13 bis)
342
мы получим
\Р'п+г(У)-Рп(У)\<М'п\\№' + Ь'2 + \Ы°\]<1х(сс)\ +
(15)
где величина Н имеет тот же самый смысл, что и раньше.
6. Мы сейчас располагаем всеми необходимыми элементами для
доказательства теоремы существования сначала в том частном случае,
когда Ли/ ограничены для всех вещественных значений у,
предполагая, что начальный интегральный закон вероятностей Р0(у) допускает
ограниченные производные первых трех порядков. Мы увидим, что при
этих предположениях, для данного t^> О, функция Рп(у), определяемая
уравнением
Pn+1(y) = \Pn(F(y))dt(a), (И)
стремится к определенному пределу, каково бы ни было подразделение
t = 2 Ati на частичные интервалы А^, стремящиеся к нулю, и этот
предел Р (у, t) удовлетворяет уравнению Планка
i^ = _ a^L - 1 v ^у)
dt ду ~Г 2 ду
Представим уравнение (И) в виде
(?)
*>»« (у) = \[ Рп (у) + бР'п (у) + ±-Р"п (у) + -|- Р-; (у +
dm (л).
Благодаря допущению, что А и / ограничены, и тому факту,
доказанному выше, что Рп (у) равномерно ограничена, получаем
Рп+1(У)~
Рп (У) + К (У) \ бХ (а) +\Рп (У) \ ЬЧ% (а)
<h(At)'f% (16)
где h является константой, не зависящей от у и п (при t<^T). Между
тем
\ 6d% (ос) = \ (//' - А) Ш% (а) = ДШ (//' - А),
\ 64% (а) = J [- / + (//' - А) /Д?]2 Ш% (а).
Поэтому
| d2dX(а)-Ж/2Д*|<Й! (**)''".
где 9К обозначает, как всегда, математическое ожидание
соответствующей функции при данном г/, a hx является ограниченной константой.
Поэтому из (16) следует, что
Рп+Лу)-Рп(у) +
1
Р,{У)(А(у,>,Г1,)-±-аВ^^)-
jK{y)Bt,y,t,Vbt)\U\ <(/1 + 2й1)(Д«)', = Я,(Д1)''. (17>
Из вышеизложенного следует, что постоянная #i ограничена для
— сю < у < оо, если уравнение (2 bis) ограничено; но в случае, когда урав-
343
некие (2 bis) квази-линейного, Н\ ограничена только в каждом
фиксированном интервале а < у < Ь.
Принимая это во внимание, рассмотрим 0 < t{ < t2 < ... < £n-i < tn = t
любое подразделение интервала (0, t), которому соответствует
интегральная функция Pn,t(y) в момент t. В том случае, когда уравнение (2 bis)
ограничено, нужно показать, что, для сколь угодно малого е > 0, можно
выбрать X (X > £j+i — ti) достаточно малым для того, чтобы \Pn,t(y) —
— Р*(у)\<£, где Р* соответствует любому подразделению каждого
частичного интервала (U, ti+i).
Обозначим через Р* (у) функцию распределения вероятностей,
li> 4 + 1
которая получается из Р* (у), если предположить, что интервал (£г-; ti+i)
не подразделен, так что, по определению, имеем те же соотношения
Pi+uti+t(y) = l Puti(F(y))d1(a),
Р* t (У) = \Р*(Р(у)Ша).
Следовательно, если для любого у
\Pi,u(y)-p;i(y)\<*,
то мы также будем иметь
\pi+it (y)-p*tt (y)\<\UPit (F(y))-P*t(F(y))]<h(a),\<*.
(18)
С другой стороны, вследствие неравенства (17), мы имеем
\P\.ttJy) ~PULy)+ [(^(yJuit^-U)--
дР]р) i _ &Р](у) ^
X—^ -BiyJultun-Uy
1 dB(y,tu1ti+i + ti)
ду
X
(ti+i -U) | <H(ti+[-ti)^.
(19)
ду 2~х*>-.. , — х -/ ду1
Между тем, подразделяя интервал (U, tг-+1) любым способом,
i
ti+i U = /j (*f, Л+1 ^i) /i)
/i=0
на I + 1 частей, мы можем шаг за шагом определить Р* (у) во всех точ-
*,-./i
ках ^-.л (£г\о = £*, Ч H-i = ^t+i) подразделения с помощью уравнения (И),
соответствующего этому подразделению.
Таким образом, мы получим последовательность неравенств,
аналогичных (19), в которых, в силу непрерывности А, 5, дВ/ду относительно t и
At и благодаря неравенствам (14) и (15), коэффициент множителя
U, h+i — tit h в первом члене будет отличаться от коэффициента
соответствующего множителя ti+i — ti в (19) на величину а, стремящуюся к нулю
вместе с ti+i — U- Следовательно, сложив все эти неравенства, соответ-
344
ствующие рассматриваемым подразделениям интервала (tu ^4-1), получим:
\Р] (y)-P't(y) +
A(y,tuyti+i — ti) —
1 дВ(у,и,уь+1—и\*Р\(У)
ду dy
i
— В (у, tu yti+i - U) d 2 + a
(ti+i — li) I <
<#2 (tuh+i — tuh)^<H(ti+i — U)\ (20)
/1=0
Вычитая это неравенство из (19), получим
\Р) t (У)-Р) (у)\<а(и+{-^) + 2Н(и+1-и)^<а0(и+1-и)у (21)
1 1г' 4 + 1 . 4 + 1 '
где ао может быть сколь угодно мало, если ti+i — t\ < X достаточно мало.
Следовательно, jb силу (18) и (21), если
\Рьф)-Р;.(у)\<ги
то
I Pi+i t (У) - К (У) I < 6i + °0(*<+1 ~ *<) = 8.+1.
Поэтому
n-1
2=0
и можно выбрать А, настолько малым, что dot < 8, каково бы ни было
заданное 8 > 0.
В соответствии с классическим рассуждением, которое лежит в основе
определения определенного интеграла, заключаем, что Р* (у) стремится
равномерно к функции P(t, г/), каково бы ни было деление сегмента (0,t)
па интервалы, стремящиеся к нулю.
С другой стороны, так как мы показали, что производные от Рп{у)
равномерно ограничены до третьего порядка, следует, что P(t, у) имеет
производные по у до второго порядка (производная второго порядка,
к тому же, будет непрерывной и удовлетворять условию Липшица), к
которым соответствующие производные Рп(у) будут стремиться равномерно
на всей вещественной оси. Кроме того, sb силу неравенства (20), которое
выполняется равномерно для любого £t-+i, мы заключаем отсюда, что
предельная функция P(t, у) удовлетворяет тому же самому неравенству
P(ti+U y)-P{tu у)+(л(у, tu yTi+i - tt) -^L'J4-_
{h+i — ^г)
< a0(£i+i — и),
2 dy
где ao равномерно стремится к нулю вместе с ti+i — tu
345
Следовательно, устремляя произвольным образом £t+i — U к нулю, мы
получим
№ вР 1 °^^т)
тг„ДШ,0)Ту + - j-—-. (7)
7. Таким образом, доказательство теоремы для случая ограниченных
уравнений закопчено. Но, если заметить, что единственное место нашего
рассуждения, которое отличает случай квази-линейного уравнения от
случая ограниченного, заключается в том только, что в этом последнем
случае мы можем утверждать, что ао в (21) стремится к нулю равномерно
для — оо < г/< оо, мы видим, что доказательство будет тоже закончено
в случае кв-ази-линейных уравнений, когда будет установлено, что Рп, t(y)
стремится к предельной функции P(y,t), так как последняя должна,
согласно тому, что было доказано раньше, иметь непрерывные производные
но у первых двух порядков, которые будут представлять собой
равномерные пределы от соответствующих (ограниченных) производных от Pn,t{y)
и будут удовлетворять, следовательно (благодаря неравенству
(17)),уравнению (7).
Прежде чем рассмотреть более детально распространение теоремы на
квази-линейный случай и на другие случаи, более общие, заметим, что
для уравнения (7) параболического типа мы фактически доказали
существование решения P(y,t), которое при t = 0 сводится к данной
монотонной (или ограниченной вариации) трижды дифференцируемой
функции Ро{у).
Для эффективного вычисления этого решения мы можем положить
1 / дБ
F{y)=y-^B(yyt)M + -\- A(y,t) Д*.
2 ч ду J
где а принимает значения ±1 с вероятностью 1/2. Таким образом,
определяя последовательно (к = О, 1,. .., п — 1)
+
,Wrt-iW44(-g"'Uj))7V'U*H]
W.t4<-£-'U*))i-iAU^]}.
найдем Рп(у), предел которой, когда п неограниченно возрастает, будет
искомым решением P(t,y).
Как только уравнение (7) установлено, получим дифференцированием
(что можно делать, так как существует и непрерывна дгР/дуг, если
допустить сверх того существование р'0"'(у)) уравнение
др _ д(Ар) 1 дЦВр)
dt ду ^ 2 ду* "' [^}
которое обычно рассматривают. Это уравнение могло бы быть получено
непосредственно, если вместо уравнения (И), связывающего Pn+i(y) с
846
Рп(у), взять в качестве исходного уравнение
Pi+u ti+i (У) = J ри и (F(y)) (1 + б')^(а)
и
Только вместо неравенства (18) на этот раз из
\PitU (У)-Р*.(У)\ <е»
получим
| Р«+ь ti+i (y) — p*tv ti+i (U) | < Ы J (1 + 6')<*х(а) = U [1 + h(tHi - *,)];
тогда, согласно такому же рассуждению, что и выше, следует
\pi+i,t,,. (У) — Р* , (У)| <8»[1 + Л (*{+! — **)] + Cto(^+i — U)= Ei+u
где й является фиксированной постоянной и ао стремится к нулю вместе
с U+1 — U.
Следовательно,
п—1 .
гп<— { X\[i+h(tw — U)] — i\<—(eh* — i)<aoeht.
Именно в этой форме следует применять метод в случае системы
уравнений с несколькими переменными. Таким образом, все что было раньше
применимо к системе
^yW = AkM + h yZF (к = 1, 2, . . . , s), (23)
в случае, когда /г- и Лг- ограничены, доказывает* существование
предельной функции p(y{i\ у{2\ . . . , */(s), t) для р-п(у{{\ у{2), . . . , z/(s)),
удовлетворяющей уравнению
j9p _ _ Л, d(pAj) J_ ^ ^ d^pRikOjCh)
dt £ ^) 2.^;^" dytibjfi)'' ' ( }
где
RikOiOh= 3R(/*A); 3» А = 0.
8. Для обобщений, которые мы имеем в виду указать, существенно
применение следующих лемм.
Лемма I.
Пусть zu z%, . . .', zn последовательность п случайных величин таких,
что математические ожидания 2Й z\ = 0, каковы бы ни были заданные
U'-D
значения предшествующих величин zu z2, ..., z-i-i; если. ЗКз2. = Р*,
п
V pt. = Вп, то вероятность Q того, что модуль самой большой из сумм
S{ = Zi + z2 + ... + Zi (i = 1, 2, . .., n) превзойдет tijBn (t > 0), будет
меньше, чем 1/t2.
* См. комментарий. (Автор.)
347
Действительно, мы имеем
9R (zi + *2 + . . . -Ъ znf = Вп
и
жцо.+ ... + *<;>, + zi+1+ ... + znf =
=I(^)i + . . . + 4Z)i)2 + ® (zi+i + • • • + *n)2, (*i)
(i)
если известно, что zb . . . , Zi получили заданные значения z^v . . . , z[l\;
предположим, что эти последние являются величинами,
удовлетворяющими неравенствам
\Si\>tV£n, \Sk\<:tV~B~n(k = l,2,...J-l),
и пусть Qi будет суммой вероятностей р{ г каждой совокупности
значений (z[l)v . . . ,z\l\), удовлетворяющих этим неравенствам
1=1
Тогда
где Qn+1 обозначает вероятность того, что 13* | ^ £ У Вп (к = 1, 2, . . . , п);
в силу (24),
fin-22 Ри®И'Л + • • • + zb +z^ + • • • + z^2>
i=iz=i (г)
n
откуда Q <-p -
Лемма II.
Если регулярное уравнение
Ау = Ф У At = A At + / У At (25)
квази-линейно или только удовлетворяет условию
уА<с(1+у% (26)
где с — постоянная, то возможно, как бы мало ни было е^>0, указать
достаточно большое L (независимое от п) и достаточно малое X, чтобы
вероятность совмещения неравенств |г/. |^L (i <^n) во всех п точках
п—1
подразделения t = V At{ = tn была больше 1 — 8, когда Д^<С ^-
о
В самом деле, пусть
*n=-yln(j£ + l);
тогда
г„+1 - г„ = ^_ ф y^i + ^-^ ф*д* + р (м)\
348
где _ _
_ (Уп + 6ФVKtf -з(Уп + еФKaq ф3 (о<0<1)
ограничено из-за регулярности (25).
Тогда, в силу (26) и регулярности, мы имеем
где сг является постоянной, а £п — случайной величиной, для которой
®l L = 0, каковы бы ни были значения |ь |2» • • • > Sn_, и ^1П2<СС2,
(п-1)
где с2 — постоянная. Следовательно, каково бы ни было i<^n, мы
получим
г—1
^о0 + ^+.2 ^К**»
*=0
но
®(ЯЗ^КА«)2<С2А^
Поэтому, благодаря лемме I, вероятность того, что для всех i<^n
одновременно
%tkYAt\^uVc,t
Л=0
1
будет больше, чем 1 ^. Таким образом, предполагая Lx достаточно
большим для того, чтобы вероятность неравенства zQ ]> L± была меньше
8 Is
-тр, и, положив — == —, видим, что вероятность Р одновременного
выполнения неравенств Zi<^Lx-\- L2 (i — О, 1, . . . , п — 1), где L2 ~
= c±t + l/ —^-больше, чем 1-е; следовательно, вероятность Р
одновременного выполнения неравенств
во всех точках подразделения t будет больше, чем 1 — е. Лемма II
аналогично применяется к системе уравнений с несколькими переменными,
если условие (26) заменить условием
S S
22/(<)^-<с(1+2 г/«2); (26 bis)
i=i 2=1
для того, чтобы в этом убедиться, достаточно положить
«--^(s^+i).
2 = 1
Лемма III*.
* В первоначальном тексте доказательство этой леммы основывалось на
неравенствах, где было пропущено одно слагаемое. Здесь воспроизводится точное
доказательство по моей заметке «Исправление одного доказательства», ДАН СССР, 25
(1939). 705-707, (206*). (Автор.)
349
Если уравнение
AY = ФУ At + Q(Y, t, У At, at) (At)^ (27)
эквивалентно квази-линейному или ограниченному уравнению
Ау = Ф YKi
(т. е. при | у |<L, £< Г,
\Q(y,t,1B,at)\<Q(L),
где Q{L) — некоторая конечная функция L), го распределение
вероятностей Yn при любом tn = t^T стремится, когда At — 0, к предельному
распределению уп, соответствующему тому же самому начальному
распределению.
Для доказательства заметим прежде всего, что лемма II без труда
распространяется на уравнение (27), если оно эквивалентно регулярному
уравнению (25) —квази-линейному или только удовлетворяющему
условию (26). В самом деле, воспроизводя сделанную в лемме II замену
переменных
Zn = iln(7n + 1),
мы находим, что
zn+i -zn = —^- ф уд^ + 2Д~^2- Ф2Д' + ее (М) (мп) \
где | 0 | < 1, $(М)— некоторая конечная функция М = maxZn. Теперь
мы уже не можем утверждать ограниченности q(M) при всяком М.
Отмечая только те пункты дальнейшего рассуждения, которые вследствие
этого необходимо дополнить, имеем, при всяком i <^?г,
г-i _
Zi < Z0 + c2U + 2. Efc 1^tn + tQ (Mi) УА,, ( lh = 0),
0
где Mi = maxZfc, ^ — ограниченная постоянная. Поэтому вероятность
неравенств
Zi < Z0 + c2* + —Ус^ + tQ(Mn)i%
6
при всех i <^ rc, где с3 — ограниченная постоянная, больше, чем 1-е.
1 —
Положим Z0 + erf H Ус3^ = йи возьмем X достаточно малым, чтобы
8
TQ(2R)iX<R]
в таком случае вероятность, что при всех j<^ n Zi < 2Д, а тем более, что
| Yi I < e2R = L, будет больше .1-е.
350
(25 bis)
Докажем теперь лемму III при предположении, что условие \А' \<^су
соответствующее квази-линейности, заменено менее ограничительным
условием Ау<^с, из которого вытекает (26). Положим ип = Уп — уп и
будем обозначать математическое ожидяние всякой функции ф(Уп, уп, ап)
при условии, что |yf[<L, |^|<1,для всех £<тг, через 3RLi|>(Уп, уП| ап).
Тогда
Wn+i — ип = [Ф (Уп, *п, j/д^, ап) — Ф (j/n, *п, /Д^, on)] КА^ +
-f ^ (Уп, *п, V&u, On) (A^n)3/2,
откуда
3Rlk£+i < 9RL [нп + (Ф (Yn, tn, VWn, Оп)-Ф (yn, *n, /Д^, ап)) /Д^ -Ь
+ Q (Atfr<WL[un + (<D(Yn, tn, УЖ, an) -
- Ф (t/n, *П| /Д^, an)) /Д^]2 + P (L) (&tn)v\
где Р (L)— некоторая данная конечная функция L, Поэтому, учитывая,
что 9RL/= 0, так как ап независимо от Уь yi, i<^n, имеем
WluI+1 < $KLvl + 2®lLun [A(Yn, tn, V^u, a.) - A (уЛч ta, УаГп, ал)] Мп +
+ ML [Ф (Уп, tn, VWn, On) - Ф (Уп: tn9 V~KTn, an)]2 Ata + P (L) (Atn)Vi <
< SRli£ (1 + АД*п) + P (L) (tonf* < 9RLu2a (1 + hton) + hbAtn,
P (L) —
где fe>l— данная постоянная, 6=—j—^W, Д^п<[г.
Следовательно, из и0 = 0 вытекает, что
«Rlw^i < (^L^n + 6) (1 +'M*n) - б < б [(1 + hAt0). . . (1 + hAtn) - 1 ] <
<6[е*<- 1]<P(L)^J/"JI.
Таким образом, беря [i ^ X достаточно малым, видим, что если все
| Уг | ^ L, | yi | < L (i <тг), то вероятность, что | Yn+i — Уп+i | < Р при
любом Р > О, больше, чем
р2
1Де 9п(р) —- 0 при п —► оо.
Положим теперь, что для некоторого определенного способа
подразделения £ = 2 А**> где овсе Д^->0 при я-^оо, функция распределения
Pn+i(y) величины Уп+1 стремится при п->оо к пределу Р(#) для всех у.
Неравенство z/n+i < у необходимо осуществляется, если имеет место
неравенство Уп+1 < у — р совместно с | Yn+i — y„+i \ < р; поэтому, обозначая
функцию распределения величины y„+i через Pn+i(y), будем иметь
Pn+1Q/)>P°„+i(2/-p)-3n(P)
и аналогично
PP+1(y)<P°„+i(J/+P) + 3n(P).
351
Следовательно, при всяком р
Р(У - Р)< limfn-n(y) < limPw+i(y) <*>(*/ + P),
откуда и следует утверждение леммы.
Следует заметить, что вое наши выводы остаются в силе, если в
определении эквивалентности уравнения (27) множитель (Д£)3/2 в добавляемом
члене заменить через At ср(Д£), где ф(Д£) —* 0 при At — 0.
9. По последней лемме теорема существования, доказанная выше
(в .случае, когда / и А ограничены), р^шрсмстраняетюя также и на эковива-
лентные уравнения. Благодаря этому, заменой переменной случай
квазилинейного уравнения можно свести к случаю ограниченного уравнения.
Действительно, положим
У
z(j/) = ln(j/ + lVTT) = S -=^-— • (28)
о Yj/2+l
Таким образом, когда у меняется от —оо до + 00, z(y) возрастает
от —оо до 4-°°) и если Рп(у) есть закон распределения вероятностей
для уп, a Rn (г) — для z (г/„) = zn, то получим Рп(у) = Rn(z(y)). Между
тем мы имеем
Дгп = z (г/п+1) — г (г/„) =
= z' (Уп) Ауп + \ z" (уп) (Дг/П)2 + 1 z" (уп + Шуп) (Дуп)» : =
= г' (Уп) / У&Л + [«' Ы Л + 4"z" (У«) /2] Af + Q Wh =
Л 2/„/2
2 \3/з
Kl+y» 2(l+2/2n)'
Д* + * /Л* + Q (Д*)% (29)
К1 + 2/2,
где 9RI— ) = 0 Кроме того, по предположению,
VTTy\
А
ограничены; поэтому уравнение
Vi + y*
A!-wh?(2A~^?)"+nr?VSi <30)
ограничено и из леммы III следует, что Rn(z) стремится к предельной
дважды дифференцируемой функции, удовлетворяющей уравнению Фок-
1
кера—-Планка, которое выводится из (7) заменой у = — (ez—e~z) и, еле-
довательно, Рп(у) стремится к P(y,t), которая сама удовлетворяет
уравнению (7). Более того, теорема существования может быть
расширена в следующих направлениях.
Во-первых, внимательное рассмотрение (28) показывает, что
преобразованное уравнение (29) будет квази-линейным по отношению к z, если А
порядка г/In у и f порядка г/У In г/. Таким образом, достаточно еще раз
провести то же самое преобразование, чтобы получить уже уравнение
ограниченное. Впрочем, легка проверить, что если \А\ и 1/1 могут быть
ограничены сверху возрастающими функциями F(y) ж FflF\ соответственно, где
352
z = \ dy/F(y) растет от — oo до + oo, когда у меняется от — оо до + оо,
о
tq теорема существования доказывается тем же рассуждением.
С другой стороны, условие квази-лмнейности можно заменить условием
уА<с(1 + ^), (26)
которое мы ввели в лемме II. Однако в этом случае нужно сначала
уравнение (25) заменить уравнением Дг/ = ALM + fL УД*, где AL = A1 fb^f
для | у | <£ и AL = Ae-(v±L)\ fL = /е-(у±ь)в При у > L и у < —Ц
соответственно, и применить способ перехода к пределу по L —-* оо, который
я применил в мемуаре [19] и который я изложу далее в несколько
измененном виде, не привлекая соответствующие свойства уравнений в частных
производных параболического типа.
10. Отметим еще, что квази-линейностъ уравнения (25) является
свойством инвариантным по отношению к монотонному преобразованию z(y)
(когда z изменяется от —оо до +оо), если z(y) ведет себя алгебраически
на бесконечности, так как z'(y)f и z'{y)A будут такого же порядка, что
и yz'(y) или z, и поэтому z"(y)f = Q(z). Поэтому невозможно дать
существенное расширение нашей теоремы существования какой-либо
заменой переменной.
Таким образом, в случае В= О (у2), исходя из рассуждения, которое
было сделано в начале, можно доказать, после того как произведена
указанная замена переменной, что предельный закон не существует, если
А>\уу+ь (р>0).
1+Л
В случае, если В = (1 + y2y+h (/ = а(1 + г/2)~, ^ > 0, Ж(а)=0,
ЭД (а2) = 1), уравнение не может быть сведено к квази-линейному. Однако
можно положить
v
dy
,(1 + 2/2)(Wi)/2;
в этом случае преобразование (29) принимает вид
A (i + h)y
Az =
-аг
(1 + у2)^+№ 2(1 + у2)^"^2 '
\t+ alto. (31)
Логически возможны три случая: либо z не имеет предельного
распределения; либо z допускает предельное распределение ж может получить
значение, большее по модулю, чем
dy
Zq
-J
о
(1 + г/2)(1+Л,)/2 '
или, наконец, z допускает предельное распределение и не может выходить
из сегмента (—z0, z0). Только в этом последнем случае у также будет
иметь предельное распределение.
23 с. Н. Бервштейн
353
Легко дать общие условия для того, чтобы быть уверенным, что этот
последний случай не может представиться (т. е., что не будет существовать
1 + h
предельное распределение): например, достаточно, чтобы А —Ъ2уХ
X (1 + y2)h, где Ъ = max | a |, не меняло знака, так как при этом мы всегда
будем иметь Az ^ а УД£ или Az ^ а УД£, так что | z | мог бы принимать
как угодно большие значения.
Бели предположить, например, что а может принимать только два
значения ±1 и Л = 1 (5 = (1 + г/2)2), то z = arctgy и уравнение (31) будет
иметь вид
Az = (A cos2z — tgz)At ± УД^
первый или второй случаи, очевидно, представляются при А^у(1 + у2)
и А ^ 1/(1 + у2); следовательно, в указанном случае предельное
распределение вероятностей у невозможно. Единственный сомнительный случай
тот, когда знак А — у(1 + у2) меняется, например, если А = 0.
11. Все эти результаты распространяются на случай нескольких
переменных. Тем не менее, по-видимому, невозможно свести общий случай
системы квази-линейных уравнений к случаю ограниченной системы
простой заменой переменной, аналогичной (28). Тогда удобно применять
прием, указанный в конце п. 9, который состоит в том, чтобы
рассматривать данную систему
Д»<А> - AkAt + h УД*"= Ф*УД^~ (к = 1, 2, ..., s) (23)
как предел системы, меняющейся вместе с L (когда L — оо),
Д7W = Ф*. ь УД~* (к = 1, 2, ..., s). (32)
где Фк, ь = Фк при | уЮ | < L (г = 1, 2, ..., s) и Фк, ь = Фь<г-2(у(0±ь)6, если
не все | yW \ <^ Ц где сумма 2 распространена на те индексы Z, для
которых | у® I > L, причем знак перед L в у® ± L противоположен знаку z/(Z).
Каково бы ни было данное L, система (32) ограничена.
Для сокращения письма мы можем положить s = 1, так как наше
рассуждение будет опираться только на лемму II (п. 8), которая справедлива
для любого s. По этой лемме, каково бы ни было подразделение t = tn =
= 2 А*г (и каково бы ни было п для заданного t), для любого е > 0
о
можно выбрать такое L, что вероятность одновременного выполнения
неравенств I г/г I ^L во всех точках подразделения U будет больше 1-е,
если переменная уг определена данным уравнением (32) (квази-линей-
ным или удовлетворяющим только неравенству (26) или (26 bis)). Тогда
мы получим для At достаточно малого
\Pn,t(y) -Pn,t(y,L) I <е,
где Рп, t(y) есть интегральный закон вероятностей для уп,
удовлетворяющего уравнению (23), и Pn,t(Y, L) — закон для Уп, удовлетворяющего
уравнению (32) в тот же момент t, с теми же самыми подразделениями
354
AU (так как вероятность равенства Yn = уп больше 1 — е). Поскольку
уравнение (32) ограничено, можно предположить, после того как L
зафиксировано, AU достаточно малыми для того, чтобы, каковы бы ни были
внутренние подразделения каждого AU (в соответствии с рассуждением
и обозначениями п. 6), получить
\Ptm(y,L)-Pn,t(y,L)\<e,
и как следствие мы получим
\P«Ay)-Pt*(y)\<2*-
Следовательно, каково бы ни было подразделение t на интервалы At{r
стремящиеся к нулю, Pn,t{y) равномерно стремится к функции P(t, у),
которая в квази-линейном случае будет обладать непрерывными
производными первых трех порядков благодаря тому факту, ЧТО лг п t(y) имеет
в этом случае ограниченные производные, и P(t, у) удовлетворяет (как
это следует из п. 7) дифференциальному уравнению Планка.
Однако, если уравнения (23) не квази-лтшейны, а только удовлетворяют
условию (26) или (26 bis), для того, чтобы установить, что предельная
функция P(t, у), существование которой доказано, удовлетворяет
уравнению Планка, нужно еще показать, что и в этом случае Pn,t(y) ограничена
вместе с ее производными первых двух порядков. Для этого мы заменим
условия (26) условиями немного более ограничительными
Ау <с + ХА' (34)
1 + у2 у
где % > 0 — постоянная. Это условие (которое эквивалентно (26), если
А ведет себя алгебраически при у —- ± оо) будет выполнено, если,
например, А есть полином от у нечетной степени т, член которого степени т
имеет отрицательный коэффициент (тогда достаточно положить X =
= i/m + 1). При условии (34) мы -можем показать, что если начальное
распределение удовлетворяет неравенству
Ро(у)<-
(1 + y2)ll2V
то можно выбрать постоянную h такую, что
Р*-*Ы <(! + ?)***'> (35)
и дать аналогичные неравенства для последовательных производных.
Достаточно будет установить неравенство (35), так как другие неравенства
устанавливаются аналогично. Действительно, допустим, что
Рп(у) (1 + J/2)' < Мп (*-^
355
Тогда, по (12),
pn+i(y) (I + у2)* <Мп $ ( 1+"У|у))'(1 + б')^Х(а) =
б2 г/66'
и, замечая, что — ——• и — г—— ограничены вследствие регуляр-
(1 + у2) At (1 + у2) At
ности, мы сможем зафиксировать постоянную hi, так, что
pn+i(y) (1 + у2У <Мп ] [l + 6'--^^ + ш] d%(a) =
Тогда, по (34), и принимая во внимание, что \В"7/2 | < hu мы получим
Mn+i < Мп
1 + At
(».+-г)]
< M0eht,
где h = 2ui + -т- > что и доказывает неравенство (35).
К
12. Недостаток места не позволяет мне остановиться ни на
рассмотрении предельных распределений при i-voo, которое я начал в
упоминавшейся уже статье [19] *, ни на проблеме предельного
распределения случайной величины уп> t, удовлетворяющей уравнению (2)
когда она, кроме того, подчинена неравенству a(t)<^ynj<^b (t),
которую я рассмотрел в заметке [18].
Я закончу замечанием, что неудобство изложенного метода,
требующего непрерывности и дифференцируемости определенного числа
раз начального распределения вероятностей Р0 (у), можно избежать
новым подходом к пределу, который становится возможным благодаря
следующей лемме:
Лемма IV.
Если у и z удовлетворяют одному и тому же квази-липейному
уравнению
Ау = фУм = AAt + f У At (2)
и для t = О ЭД (у0 — z0)2 = б, то при всяком подразделении t = tn =
n—l
i=0 3RQ/„-2n)2<6eb<,
где Ъ является постоянной (независимой от п).
В самом деле, мы имеем
Ж (Уп+1 - zn+1)2 = 3R [уп - zn + (ф (уп) - Ф (zn)) УШ]2 =
= 3R (г/„ - zn)2 + 23R (г/п - zn) (A (yn) - A (z„)) At + 5SR (Ф (уп) - ф (zn))* А*.
* См. комментарий. (Ред.)
356
Но, благодаря регулярности, существует постоянная h такая, что
[<S>(yn)-0(zn)]2<h(yn-zn)z
и, в силу квази-линейности,
A(yn) — A(zn)< h(yn — zn). (36)
Поэтому
ЯК (yn+i - zn+l)2 <Ж (Уп - zn)4l + ЗЛА*],
откуда немедленно и следует утверждение леммы.
Кроме того, заметим, что, так как неравенство (36) является
следствием единственного факта, заключающегося в том, что Av' < h для
любого у, лемма IV применима ко всем регулярным уравнениям,
удовлетворяющим условию Ay <h, которое эквивалентно условию (26), если
допустить, что А (у) ведет себя алгебраически на бесконечности.
Легко усмотреть, что во всех случаях, когда лемма IV применима,
Pn,t(y) стремится к определенной предельной функции, каковы бы ни
были подразделения Д£г —+ 0, если Р0(у) = 0 при у <^а, Ро(у)=1 при
у > а. В этом случае существование и ограниченность последовательных
производных могут быть получены из рассмотрения некоторых свойств
уравнения параболического типа (7)*.
* См. [35]. (Ред.)
24
НЕСКОЛЬКО ЗАМЕЧАНИЙ ПО ПОВОДУ
ПРЕДЕЛЬНОЙ ТЕОРЕМЫ ЛЯПУНОВА*
п
1. Определение. Пусть Sn = 2хи ОДе х\ — независимые случайные
1
п
ВеЛИЧННЫ, ®tXi = О, Ш? = Ь*, Вп = 2^Ж |^г|Р = Сгр.
i
Будем называть параметром Ляпунова порядка р отношение
п
Мпр = ,^j Cip/Bn , будем называть условием Ляпунова порядка р требо-
1
вание, чтобы
lim Мпр = 0. (1)
п-»-оо
Будем говорить, что к сумме Sn применима (нормальная) предельная
теорема порядка р > 2, если вероятность
f Sn \ 1 г -—
\ Т/Д„ / т/9,* J V '
У#7 ^"у У2я"£
(равномерно по t) и, кроме того,
Sn
t t2
lim 9R
v \ °° г
iBn ' У2я
(2)
(3)
Теорема. Условие Ляпунова Mnv —► 0 порядка р достаточно для
применимости к сумме Sn нормальной предельной теоремы порядка р и
необходимо, если величины х{ равномерно пренебрегаемы1 по сравнению с Sp.
Для р > 2 целого и четного высказанная теорема вытекает из
сопоставления теоремы Ляпунова с результатом алгебраического вычисления
* «Докл. АН СССР», 24 (1939), 3—7 (205*).
1 Величины х{ (i<n) называются равномерно пренебрегаемыми по сравнению
с Зп^если разность между вероятностями неравенств Sn < tiW~n=z и Sn - xt <
<iyBn=z при любом z равномерно стремится к нулю с возрастанием п: в данном
шах Ъ{
случае это услшие раадюзначш — *<). В дальнейшем при утветлкдешш
необходимости соответствующего условия мы всегда будем подравумшать, что
величины х{ равномерно пренебрегаемы. j™»mb, чш шмш
358
математического ожидания | Sn/iBn |p, произведенного акад. А. А.
Марковым, согласно которому
9Л
Sn
р
-#р = Фр(^пР), (4)
1Вп
где величина ц>р(Мпр) стремится к нулю вместе с Мпр и, кроме того, есль
max bi/Bn —► О и Мпр > М > О, то при п — оо фр (Л/пр) > Яр > 0.
Действительно, благодаря теореме Ляпунова из Мпр —► 0 следует (2),
а из (4) следует (3). Обратно, если бы мы имели Мпр > М> 0, то
предельная теорема порядка р не могла бы иметь место, так как равенство (3)
было бы невозможно вследствие второго свойства величины фр(Д/пр).
Прежде чем перейти к рассмотрению общего случая р > 2, заметим, что
из (4) вытекает, что условие Ляпунова четного порядка равноценно
одному лишь условию (3) того же порядка р, которое, кроме того, может быть
заменено еще менее ограничительным условием
On
lim Ж
п-*оо
< Rp, (3 bis)
llBn
так как знак неравенства (в случае пренебрегаемости слагаемых) вообще
невозможен. Кроме того, отсюда, между прочим, нетрудно вывести, что
если F(t) есть какая-нибудь предельная функция распределения для
Sn/iBn, отличная от G(t), то все ее четные моменты больше
соответствующих моментов G(t), и, следовательно, характеристическая функция Q(t)
функции F(t) либо не целая функция, либо такова, что при всяком ве-
Q(iy) + 0(— iy)
щественном значении у 2£ 0, > еу2/2
л
2. Введем теперь две леммы, доказательство которых не представляет
труда.
Лемма I. Если интегральные функции вероятностей Fn (х)
величин уп стремятся равномерно к F(x), т. е.
| Fn (х) - F(x) \<гп (- оо < х < оо),
оо
причем ®1\уп\р<С ограничено для некоторого р>0 и J \x\vdF(x)^
—оо
существует, то при всяком полояштелъном q < р
оо
I^H'-J \х\*Щх)\<Ъя(гп),
—ОО
где tyq(e) стремится к нулю вместе с еп (равномерно при q ^р' < р).
71 П
Лемма II. Пусть Sn = 2 хи Snf = 2.x*i гДе х* и Xi подчиняются
1 i
одному и тому же закону распределения вероятностей, причем все
величины Xi и хк независимы. В таком случае: 1) нормальная предельная
теорема порядка р одновременно применима (или неприменима) к Sn и
п
Sn — S'n = 2 (Xi "" х*) "» 2) параметры Ляпунова порядка р > 2, соот-
i
359
ветстовующие Sn и Sn — £л, одновременно ограничены и одновременло
стремятся к нулю.
Благодаря лемме II мы можем для упрощения выкладок ограничиться
предположением, что величины х\ подчиняются симметричным законам.
При этом предположении, полагая Sn = Sn — £;, имеем вследствие
симметрии (б = р — 2 > 0)
п
Ж | Sn \Н* = ^ ]>][4 | Sn |6 + XiStf | Sn I*] =
n
«£a»2*f8[||s<fl| + |si||« + ||^j-|^||e] +
^ 1
+ i-3R[|]1S(„i)| + |xi||«-||^')|-|xi||6].
Поэтому (б > 0)
n n
2R|.S„|e+2-(6 + l)gR2^|5^>= «RSr,, (5)
где
Ti = |{[*? + |^-|][|5™| + |х,|Р + [x? - Irrf|][|5®| -
Таким образом, при I xi I ;> I 5 n* I имеем
Ti = у | xt | {[| *f | + | 5 «|]<w + [| ^ | - |5„m|]e+i -
-2(б + 1)|^||5^|в} (б)
Ti=Y\xi\{[\S™ \+\Xt \?»-[ | S?\- | X, jpi-
o/x , .м- moW
1(6+1) |*4 | | 5^|»} (6 bis)
при |*f[<|$f|
Следовательно, если I x{ | > I Sn I, то
| Tt | < 2» | xt |«+2 (7)
и, кроме того, при б > 2
г<>4нв+2-
360
Если же |^ij^ |£(l)|, то из (6 bis) находим
5 [ ~ 18+2
Г^ |< 2й | ^
(0<о<2)
;ril<(6-HW-l) 2ьМ]3тГ {Ь>2)\ (7 Ыв)
24
и, кроме того, при 6>2
(6 + 1)6(6-1) г4|Ыг)|8-2^ (6 + 1)6(5-1) . S+2
Таким образом, из (5), (7), (7 bis) следует при 0<б = /? — 2<;2
шг
оп
Увп
-(p-i)S
£ *г
£«
а»
o(i)
р-2
<2^Мпр.
(8 bis)
(9)
. VBn
Пусть условие Ляпунова Мпр~>0 порядка р (2</?<^4) соблюдено.
В силу теоремы Ляпунова и леммы I
S{i) & 1 °° ~~
П { ^Y^ ] ^е 2dt = RP~* (°<S<2)-
limf
n-*oo
VBn I - У27
Поэтому из (9) и из соотношения J?p = (/? — 1) -/?р_2 следует, что
lim
п-*оо
On
VBn
i?„
<lim25Mnp = 0 (p<4).
(10)
Если />>4, то, пользуясь тем, что из Мпр~>0 следует Мп>р_2~>0,
можем считать, что равенство (10) уже доказано для 6 == /? — 2, но для
б > 2 из (7) и (7 bis) выводим, что
:^|<25
\*if+2+-^X$\Sn
Б-2
(6>2)
поэтому
ит|«|-$=Г-Л,
<
lim \2bMnp +-^—1)^(6 + 1)^,14i?p-41^0. (10 bis)
n-»oo L О J
Для доказательства обратного предложения заметим, что при 5^>2
мы имеем, вследствие (8) и (8 bis),
Тг>\ЫР.
Таким образом,
Ш
VBn
ь-ъъ-ж
c(i)
On
У"вп
Р-2
>тМПр(р>4),
откуда заключаем, что (при условии пренебрегаемости) выполнено
условие Ляпунова МПр~*0, если нормальная теорема порядка р применима.
Как видим, наше заключение не распространяется на случай р < 4.
Вследствие этого укажем еще другой путь доказательства, который
пригоден для всех р.
Положим
361
где сумма S'n =2 х'п содержит лишь значения Xi = х\, удовлетворяющие
1
неравенствам | я* | ^ т }ЛВП, где т > 0-—'произвольно малое число. В та-
ком случае, полагая
0{ = УлХг Оip = Ж I Х% J , L>ip = (sip —— Wp*
имеем
С другой стороны, при всяком jO*2, СгР <[ &i (тУ^Дг)5; поэтому
<2т&,
так как из применимости нормальной предельной теоремы порядка
р>2 следует, что Нт —— = 1. Следовательно,
1
#п
Ж|^-3»]^[р
^
BZ
<\ бпт ,
(И)
где Епт становится сколь угодно малым при т достаточно малом, а по
тому параметр Ляпунова
мпр=% ciP+c;P <2(т5 + 8пт)
1 р2
должен стремиться к нулю, если имеет место предельная теорема
порядка />>2.
3. Примечание. Условие Линдеберга lim-^— = 1, которым мы
71-*О0 -Оп
только что воспользовались, является, как известно, условием,
необходимым и достаточным2 для применимости предельной теоремы порядка
р = 2.
Но как я показал [8] в 1926 г., предельная теорема может быть
приложима даже и тогда, когда Вп не существует (стр. 131 и 142
настоящего тома), а именно (привожу дословный перевод данной мной
формулировки)3: «... если обозначить через ек вероятность неравенства
|bj|>£, предельная теорема будет приложима всякий раз, когда одно-
2 Для случая р > 2, согласно вышесказанному, необходимое и достаточное
условие также может быть представлено в виде (11), аналогичном условию Линдеберга.
3 На стр. 142 эта теорема распространена и доказана для почти независимых
величин.
362
L2 n
временно -p >0 и 28л_*® (где значение 5П вычисляется при предпо-
1
ложении, что |wft|^L для соответствующим образом выбранных L)»
Позднее (в 1935 г.) В. Феллер* получил эквивалентный результат и
кроме того, доказал, что указанное условие является также и
необходимым (если величины Хг пренебрегаемы и имеют 0 общей медианой).
Таким образом, если мое условие выполнено, дисперсия Вп', вычисленная
(укороченная) указанным способом, может быть меньше Вп также и тогда,
когда Вп существует; поэтому р < 2 при Вп\Вп < 1- Вследствие леммы I,
«ели Вп существует, Вп' I Bn> х> О, то порядок р<2 предельной
теоремы будет тогда сколь угодно близок к двум; в этом случае
Ш \Sn \vl{^Bn)v-^Rp для любого р < 2. Если Вп не существует4, то
максимум Ро ^ 2 порядка предельной теоремы (достигаемый или нет)
равен максимуму степени р; для которой Ж \Sn/iBn \p ограничено, и
может, таким образом, принимать любые значения ро (0 ^ ро ^ 2). Условию
применимости предельной теоремы данного порядка р < 2 можно также
придать форму, аналогичную условию Ляпунова.
Теорема. Пусть х = L/i/B' > 0 произвольно малое число, где В' —
укороченная дисперсия, соответствующая \хъ\^Ь\ пусть С* =«
Зй= ЗЛ \xk\v содержит лишь значения I xh I > L; в таком случае для
I ** I > L
применимости предельной теоремы данного порядка р необходимо и
достаточно, чтобы ^Chp/(Bn/)Pl2-+'0. (Условие необходимости предполагает
1
величины х% пренебрегаемыми и имеющими 0 общей медианой.)
Поступило
28 мая 1939 г.
* W. Feller. Ueber den zentralen Grenzwertsatz der Warscheinlichkeitsrechnung,
«Math. Zs.», 40, № 4 (1935), 521-559.
4 В примере, который был рассмотрен в работе [4], порядок предельной теоремы
имее.т недостигаемым максимумом 2; согласно произведенному там вычислению,
/ 6л 1П П /57 ZT~1
Вп ~ ; поэтому, например, дл [ Sn \ ~Ri\Bn ~ — уЗп In п.
25
НОВЫЕ ПРИЛОЖЕНИЯ ПОЧТИ НЕЗАВИСИМЫХ
ВЕЛИЧИН*
1. В моей статье [8] было доказано следующее предложение:
Пусть
2 2
Sn = wi + u2 + ... + ип- где $R щ = 0, b» = 3ft и*, 3R 5П = Вп.
Если а^ Рг представляют соответственно максимумы колебаний условных
математических ожиданий щ, и2., а сг- представляет максимум
математического ожидания I щ I3 тгргг произвольно заданных щ, и2, ..., Ыг-i, причем
2<** 2 р< 2
Сг
-1— -^0, - .0, - -О, (1)
то вероятность неравенства Sn < z^Bn имеет пределом
Z*
v^X
Это предложение было там же (стр. 142—144) мною обобщено, однако
практическое применение упомянутого обобщения часто требует
дополнительных вычислений, которых обычно можно избежать при
некотором изменении формулировки. Введем для этого следующие величины:
где ai представляет, таким образом, условное математическое ожидание
щ при заданных значениях щ, к2, . . . , Щ-ъ и условные дисперсии
**i Щ—1 «1 «i-1
По условию, ЗЙЯг == 3Rwi = 0 и, кроме того,
^ = SRaf + ЯЙ61. (2)
«Изв. АН СССР», серия матем., 4 (1940), 137—150 (211*).
364
Покажем, что в таком случае высказанное вначале предложение будет
справедливо, если условия (1) заменить менее ограничительными условиями1
-fc—"• -^C ~0' if~°- (3)
Доказательство аналогично данному в цитированной статье. Полоншм
щ — (ц = щ, 2 щ — Sn. Тогда $RSn = О,
вп = эг (£о2 = ж 2 **• (4)
1
Но так как из равенства
5; = Ж (Sn-^atf = Sn- 2Ж^2^ + 3R(2^i)2
i i, i
следует, что
/*(2<ч)*У" a»(S«.f R' /»(2«i)'Y' 9»(S«.)'
♦-Ч-вг-У +-§^<ж<1+21-Н + -яг--
то, благодаря первому из условий (3), имеем
1Г-1. (5)
Заметим также, что из (2) и второго условия (3) вытекает
i
о,
Вп
а потому из (4) и (5) следует также, что
■к 1. (5 bis)
Оп
.-«i/VSfc;
Положим теперь ук = щ/ \ 2 Ь% ; в таком случае, каковы бы ни были
1
значения г/г, ..., Ук-и условное математическое ожидание ЗЙ Уъ. = О
п
и $ЯУк ~ bk/ i2jj Ьг. Вычислим последовательно характеристические
1 Легко видеть, что условия (3) являются следствием условий (1), так как
I a{\ ^ ai и | hi — (аг-2 + а{*) | ^ | рг-, откуда | Ъ{ - Ь{* | ^ (3:- 4- а{2. Третье из
условий (3), совпадающее с третьим условием (1), можно было бы заменить соответ-
S
ш\
Пг
ствующим условием Ляпунова >-0, допустит лишь существование С{.
365
г6 2уА
функции <?т(£)=ЗЙ (e i )(m<rc), полагая — N<l<N, где N-
данное произвольно большое число. Для этого замечаем, что
Ж eilyk = 1
Vi Va-i
ь*#
+ бЛ,
2.2 Ъг
причем можно указать такую постоянную А, зависящую только от N, что
IA I ^ ЛСк
Таким образом,
т—1
* 2 ^ /
1
Ci2
V 22ь< /
1
м2
= Gm-i(E)(l--^-) +Дт(6),
где
m-t
<6 2 «*
|Д»(6)| = |®в (
2Sb«
+ б» <
)}
< ! !_ +
Следовательно,
где
Вп''> *
1
.(S)-IT(i
Е,
7 Е*№
22 Ь*
(6)
Поэтому, замечая, что |2?т/2?&] < 1 при т > А:, и ] Я*(Б)| стремится
1
к нулю при возрастании п вследствие (3), видим, что
т
\Gn(l)-Em(l)\< ]Rh(D] (т<п)
366
стремится также к нулю при бесконечном возрастании п. Но, беря
логарифмы обеих частей равенства (6) для т = п, находим без труда, что
lim En(Q = e Т,
п-*-оо
а потому и
lim Gn(£)=e T
П-*-оо
в любом промежутке — N < | < N. Отсюда, как известно, вытекает, что
вероятность неравенства
п
:2 У* < 2
имеет пределом
—=- \ е~ 2 dz.
У2я _1
Следовательно, благодаря (5 bis), к тому же пределу стремится
вероятность неравенства
п
Sn — ^*i = Sn<ZWn.
1
Наконец, принимая во внимание первое из условии (3), находим2, что
к тому же пределу (1/У2я) ) е-^гйъ стремится также и вероятность нера-
—оо
венства Sn <z^Bn, что и требовалось доказать.
2. Величины, удовлетворяющие условиям (3), где третье условие
можно было бы заменить любым другим условием Ляпунова или условием
Линдеберга, будем называть почти независимыми величинами.
п
В цитированной выше статье я показал, что суммы 2 хг случайных
1
величин, образующих цепь Маркова или связанных аналогичной более
общей зависимостью, приводятся путем надлежащей группировки
слагаемых и разбиения цепи к суммам почти независимых величин, вследствие
чего к ним применима основная предельная теорема теории вероятностей.
Здесь я хочу рассмотреть зависимые величины несколько другого типа,
для изучения которых оказалось целесообразным обобщить вышеуказан-
2 Первое из условий (3) можно было бы заменить немного менее ограничитель-
W I 2 at Iб
ным условием "О для некоторого б > 0. Легко видеть, что предельная
п
теорема, которую можно тогда назвать «несобственной», была бы также применима,
но дисперсия предельною закона могла бы при этом не совпадать с дисперсией
суммы (равенство Вп\Вп' —►■ 1 могло бы быть нарушено, если б < 2).
367
ным образом определение почти независимых величин, заменив условия
(1) условиями (3). Предварительно докажем следующую лемму:
Пусть рг = шах I Ь{ — b* I и $ц = max | Ь* — Ь* I, где b*t представляет
условную дисперсию ггг-, соответствующую лишь таким значениям щ, и2,.
..., щ-1, которые удовлетворяют неравенству
| щ + и2 + ... + и*-1 - (ai + a2... + a<-i) | < £ ySV (7)
n n
.# таком случае, если >2 {W-Sn-^0 при любом данном t > О, a 2 $i/Bn
i i
остается ограниченной, то соблюдается второе условие (3).
Действительно, вероятность, что неравенства (7) будут осуществлены
(ДАН, 17, № 6 (1937))* при всех *<и, больше, чем 1 — I/*2. Поэтому
»2|ь«-ь;|<2р« + 4-2р<-
1 i i
Следовательно,
3» I &, - Ьг
1
-*0 (Зп)
Вп
при —► оо.
Напомним, что первое из условии (3) влечет за собой В' /Вп —+ 1,
поэтому при наличии: этого условия в неравенствах (7), определяющих
Рг*, можно заменить В' через Вп.
3. В качестве примера ра!ссмотрим стохастическую схему,
предложенную мною в курсе «Теории вероятностей» (2-е'изд., стр. 135—139)**.
В ящике находится а белых и Ъ черных шаров. Производится п опытов,
заключающихся в случайном вынимании одного шара с возвращением
последнего и прибавлением еще R шаров, причем в случае появления
белого шара добавляем v белых шаров и q = R — v черных шаров, а в
случае появления черного шара добавляется vi белых шаров и Qi — R — vi
черных шаров.
Обозначая через хп число белых шаров в ящике после п опытов,
нетрудно проверить (там же, стр. 136), что
Ап = ®хп = —з—(дй + а + Ъ) + aQ ~bVi П ( 1 + ■ ?.■„) > (8)
vi + q vi + Q x x \ a + b + iR J
где б = v — Vi = Qi — q, за исключением случая vi = q = 0, когда An =
= a(nR + a + b)/(a + b). Кроме того (там же, стр. 139),
,. Вп i?vlQ62
lim— =
П-VOO <
п (Д-26)(Д-6)2
пзри условии, что 26/i? < 1, где Вп = 9R (хп — Ап)2. Покажем, что
вероятность неравенства
Хп — Ап <z^Bn
* См. работу [22] настоящего тома. (Автор.)
** См. «Т. В.», стр. 135—139. {Ред.)
368
имеет пределом (1/у2я) \ e~z2j2dz, если 26/R ^1 я 62viQ > О.С этой целью
положим
В таком случае
где
Xk+l-Xh(i+a + b\k^=ak- (9)
Г k~i 1
** = ft-i[a + 2^j (Ю)
*-ПК-т^г)
С другой стороны, заметим, что- после к опытов общее число шаров в
ящике всегда равно а + Ъ + kR, при этом, если число белых шаров оказалось
равным Xhy то каковы бы ни были результаты предыдущих опытов, хь+i
может получить липгь два значения хк + v или хи + vi с соответствующими
Xh . Xk тт
вероятностями — и 1 —-. Поэтому
F a 4- b + kR a + b + kR *
/ n VXk i. (л Xh
Ж (^+i-^) = —-——-—+ Vil 1
a + b + kR v a + Ь + &Я
Ьхк
= vi +
a + 6 + ЛД *
Таким образом, полагая a^ = vi + Zk, находим вследствие (9), что
ал zh = о. (ii)
zv .... zfc_4
Отсюда, в частности, следует, что^К Zh = 0, а потому ЭДаь = vi и из (10)
получаем формулу
/ Л~4 1 N
4А = 3R*A = PA-i|. a + Vi 2 ^ J (8 bis)
которую, при к = п, можно после простых преобразований привести к виду
(8). Таким образом,
Хп ~ An + оп,
где
n~i n
5Я = Pn-1 S "Б" = S "*• (12)
0 Fi 1
Нам остается только доказать, что величины щ = (Pn_i/P2-_i)zf-i почти
независимы, т. е. удовлетворяют условиям (3). Первое из условий (3),
благодаря (11), удовлетворено, так как
'Г Pk-
24 с. Н. Бернштейи 369
aA = 9R ttfc*4'-^ -gjj - Zfc-i ,= 0. (11 bis)
*i» •'•» Uh-i ^ Z0 Z*_2
С другой стороны, из (9) следует, что — v<afe<2vi + v, поэтому
| zk | < vi + v, откуда
|<(v1+v)|^- = (v1 + v) П(1 + -ГА^),
так что
б
71-1 1 —
а 2 ( п \R
|aA|<(vi + v)e ba+b+iR<C[T) , (13)
где С — некоторая постоянная.
Таким образом, третье из условий (3) также соблюдается, когда
26/R < 1, 62qvi > 0, так как, вследствие ЦВп = 0(1/п),
36
п п / \ R
^Ы3 2(т)
i <d- , (13 bis)
п
где Ci— некоторая постоянная. Но если 36/Л < 1, то 2j (njk)36IR = 0(п)\
1
п п
еслиЗб/Д=1,то2,(п/А:):=0(п1пп);е,сли36/Д>1'то 2("/А;)36/л=:0(ге36'л).
n / \
2(т)
1
Зб/Я
поэтому ► 0 при условии, что 26/Д < 1.
ri
Покажем, наконец, что проз: сделанных предположениях соблюдается
и второе из условий (3). Для этого мы воспользуемся доказанной выше
леммой; принимая во внимание, что Xh+i — хь. получают значения v и \'i
Xfi Xk
с соответственными вероятностями —— и 1 —-, имеем
а + Ь + kR а + Ъ +kR
* *-«h*-*»(i-fl+bfl+Jfcfl)-vi
|2
Zk (. bxh \2 / жл \ 62xfe
!\ a + b + kRJ { a+b + kRJ
a + b +kR\ a + b + kRJ \ a + b + kR J (a + b + kR)2
_ 62а:ь ( , Sfe \ #
a + b + kR \ a+b + kR <
поэтому
,.2 _ Pn-1 f>2Xk f Xk \
*+' P\ а + Ъ + kR^ a+b + kR^ l '
Следовательно,
b* = 3R ,.2 =
370
т. е.
26
\ь;-ьк\<с2(±у,
где Сг — некоторая постоянная; поэтому, обозначая по-прежнему р\
= max | bk* — Ьн\, имеем
2 Pfe < Cm,
(15)
где Cz — некоторая постоянная, а потому второе условие леммы соблюдено.
С другой стороны, из (14) находим, что
* cm 2 62jV-l
б2^п-1
ж
Хк
$&Xk
a + b + /сД (а + Ь + &Д)2
й Ah + fift
но неравенство
т. е.
P2fe L а + 6 4- A:i? (а + Ъ + АД)2
|ui + w2 + ... + uft| <^У5^,
(14 bis)
(7 bis)
равноценно неравенству
ft-i
lP*-l S ^| = |^-^|<-|tL-^5n<C4^(—)H, (16)
0 JTi i n—i \ П /
где, согласно предыдущим вычислениям, С4 — некоторая постоянная.
Следовательно (пользуясь обозначениями леммы), заключаем из (14)
и (14 bis), что
б
K+1,t -bft+i| = pft+M<
^2ft
2 гс4^ч-Ул
v ra
• + -.
5*
1
a + b + kR ^ (a + b + fei?)2J
<
! + .«.
<c5— + c6
i + A
k R
26_
nR
1 +
26
/26
b^1
(17)
к R
где С5 и Се — некоторые постоянные. Поэтому, при 6 > 0, 2 $kt =
1
п
= G(tnll*WR)] при б < 0, 2Рь* = °(tn4*), а следовательно, второе уело-
371
24*
вие леммы также удовлетворено, и тем самым наше утверждение
полностью доказано.
В случае 2б/Л = 1, как легко видеть (там же, стр. 139),
,. Вп QVii?2
lim— = ——-—— = Qvt.
птп 4(q + Vi)z
Кроме того, неравенство (13 bis) заменится неравенством
5% '«''.(inn)'/,
поэтому третье из условий (3) соблюдено. Неравенство (15) заменится
неравенством
п
S Р*< 2^2 (-) <С3П\ПП,
А А \ к /
1 1 ^ А-
поэтому второе условие леммы соблюдено, и, наконец, неравенство (16)
заменится неравенством
| хк — Ak | < Cii ik In л,
поэтому неравенство (17) заменится неравенством
Сб^г У In тг тг In к
РМ-1, * < 7Т/ \~ Съ-
№ &2
откуда
2Ра* = 0(*иУЪл),
1
и второе условие леммы также осуществлено. Следовательно, при 26/Я = 1,
предельная теорема также применима к Xk, т. е. вероятность неравенства
хп — 2vi7i < t fQVi/г In n
t
1 Г
имеет пределом —^^ \ • е~'2/2 dt.
У2я "-
В случае, когда 25/Д>1, условие (3) не соблюдается и можно доказать,
что закон вероятностей для хп уже не стремится к нормальному.
4. Сделаем еще несколько замечаний общего характера. Будем
называть систему случайных величин нормальной, если она удовлетворяет
третьему из условий (3)
2*
1
Вп'<*
(3m)
(или соотэз^тотвующему уолошю типа Ляпунова любой степени) си будем
говорить, что величины щ связаны зависимостью первого порядка, когда
372
соблюдается первое условие (3)
£ ► 0. (3.)
п
Теорема. Для того чтобы к сумме 2 и* нормальных случайных вели-
1
чин, связанных зависимостью первого порядка, была применима
предельная теорема, необходимо и достаточно, чтобы вероятность неравенства
2**'
L Вп
< е (18)
имела пределом 1 при п —• оо, как бы мало ни было данное е > 0.
Действительно, мы видели, что в случае зависимости первого
порядка (5)
Вп' .
-в-Г{
п п
и предельный закон вероятностей для 2. и{ЦВп тот же, что для 2. и//увп =
1 i
п
= 2 У г- В таком случае, благодаря условию (Зщ), характеристическая
1
п
функция Gn (£) для 2 У г равна
1
где, при 111 < N, 6и — 0 (&< п), когда тг —- оо; вследствие (Зщ) имеем
также bn/Bn -^0i
п п п
1 1 1
< J7-5 <-Б-Ц У° ПРИ "—"°°*
Вп* Sn% Я«'Л
поэтому
■>k&
■..n(i-^+fc)-V+?«-ii(w-fc
+ e„ (-7V<i<iV),
2B„
373
где s„ — 0. Следовательно,
I
\Gn(t)-We ~^Г|-+0 (/г —оо). (19)
Но полагая вероятность неравенства (18) равной Р, имеем
fc2 . . JZ?2
(l__P)_iLe 2 " < |SSRe 2БП
и
1-8
<~-e * +i_p<_LL-+l_-P.
2 1 — 8
Таким образом, если Р—* i при произвольном 8, то Gn(l)—ye-W,
и наоборот, если Gn{%) —► е~^2/2, то необходимо, чтобы Р —• 1 при любом
данном е.
Не исключена возможность осуществления условия, аналогичного
(18), где вместо Вп стоит другая величина Сп, тогда будет осуществляться
«несобственная» предельная теорема.
С предыдущим доказательством связано
Следствие. Если нормальные величины щ связаны зависимостью
первого порядка, то вероятность Fn(t) неравенства
sn<tiK (20)
стремится к некоторому определенному пределу F(t) тогда и только
тогда, когда вероятность неравенства
п
Ж
^—<сг (о>0) (21)
стремится к определенному пределу h(o). При этом
J°° e 2a
-=-dh(o) («3g0) ! (22)
И
JP( + 0)-F(-0)= A(+0).
В самом деле, характеристическая функция распределения,
определенного формулами (22), равна
со _^
G(6)= J e * dh(a) + h(+0). (23)
о
С другой стороны, обозначая через К(о) вероятность (21), имеем
п
1 °?
* = J e a dfen(0)+fe„(+O) (24)
2В.. —
•374
и видим, что если hn(o) —* h(a) во авсех точках непрерывности, то
71
а потому, в силу (19), <?п(£) —► G(Q), откуда следует, что вероятность
F„(t) неравенства (20) стремится к F(t). Наоборот, если £ п (t) стремится
к некоторому пределу, то необходимо, чтобы Gn(£>), а следовательно, и
Ш е 2Вп стремились к пределу; но так как (24) есть функция
абсолютно монотонная относительно — £2 (при £2 > 0), то предел ее должен
также представлять абсолютно монотонную функцию, т. е. иметь форму
(23), где монотонная функция й(а) должна быть пределом hn(e), так как
абсолютно монотонная функция допускает лишь одно единственное
представление в форме (23).
Таким образом, если некоторая случайная величина х может быть
рассматриваема как предел суммы бесконечно большого числа нормальных
величин, связанных зависимостью первого порядка, то ее также можно
рассматривать как принадлежащую к коллективу Q, являющемуся
пределом множества различных коллективов Q* с общим центрам 0, но с
различными дисперсиями а*, причем вероятность, что х взята из
коллектива Йг, равна Pi. Другими словами, закон распределения х может быть
представлен с какой угодно точностью при помощи распределения,
плотность которого равна
х"
т ~<>о~ т
Р(г)=2 Р'1_"* (р«>0, 2р<>1)
! У2яо,- 1
т
(при этом, если 2 Рг < '1» го равенство х = 0 имеет положительную веро-
1
ятность).
Следует еще отметить, что в данном случае, т. е. если закон
вероятностей F{t) определяется формулой (22),
оо
J a2dh(a)
3R*4 0 ^
3(Ш*)
2
> ~>\
-,2
\ odk(a)
о
причем оба знака равенства имеют место лишь тогда, когда dh(o)= 0
при всех значениях о, кроме одного, и fe(+0)=0; поэтому условие
Ш t*/3 [3R*2]2 = 1 необходимо и достаточно для того, чтобы закон F(t) был
законом Гаусса. (Нужно, однако, иметь в виду, что дисперсия, а тем более
математическое ожидание 4-й степени распределения F(t) могут не быть
пределами, соответствующими Fn(t).)
Замечание. Если бы мы отбросили одно из условий (условие
зависимости первого порядка или условие нормальности), наложенных на ела-
375
гаемьге щ суммы 2 ии то предельный закон вероятностей мог бы быть
совершенно произвольным. В самом деле, пусть х будет какая-нибудь
случайная величина с любым данным законом вероятностей, которую
для простоты предположим ограниченной | я | < с с Жа:=0, ®1 х2 = 1.
п
Пусть Sn = 2^'> гДе закон вероятностей щ совпадает с законом вероятно-
1
стей х и, кроме того, щ = uk (i^n, к^п). В таком случае Вп =®RSn = n2i
—<——- так что условие нормальности (3 ) соблюдено,
Bnk nh
п
между тем закон вероятностей для t = Sn/^Bn = 2 lliln при любом п
1
совпадает с данным законом (здесь условие (3i) очевидно нарушено).
Возьмем другой пример, где, напротив, условие (3 ) соблюдено, но
условие (Зш) нарушено. Предположим для определенности, что мы хотим
получить в качестве предельного закона какой-нибудь симметричный
закон, при котором равенства х = ± tk (к = 1, 2...) имели бы данные ве-
оо оо п
роятности phi y£jPk = l, 2 Ръ*ь ~® х2 = By Для этого полагаем Sn= 2 ии
причем каждая из случайных величин щ имеет вероятность рк быть
равной щ, k (равенства щ = щ,ъ. происходят совместно для всех i^n).
Каждая из величин щ, и может получать лишь оба значения ±W2 с
одинаковыми вероятностями или быть равна нулю. Кроме того, щ+i, и ^ О
г г
до тех пор, пока | 2 икъ\ < h\ если же |2 ики | = h, то щ+8,к = 0 при
всех s > 0. Очевидно, что в таком случае 9R щ+i = 0, т. е. зависимость
uv...,ui
между величинами щ первого порядка. С другой стороны, легко
проверить, что вероятность равенства Sn = ±tk, когда известно, что все
Щ = Щ,н, равна 1 — l/2tn/2J, т. е. стремится к достоверности при п —► оо;
следовательно, предельный закон вероятностей для Sn совпадает с дан-
( Г ( х \ 213/з
ным (^условие нормальности нарушено 9R I щ |3> (9Ra2 )% = SR у.. - ) ,
1 ^(1/8)5"Л J
поэтому —=гт— > — = -
Поступило
5 февраля 1940 г.
26
ЗАДАЧА ОБ УРНЕ С ДОБАВЛЯЕМЫМИ ШАРАМИ*
Из урны, содержащей а белых и Ъ черных шаров, производится п
извлечений; при этом после каждого извлечения вынутый шар
возвращается в урну и, кроме того, добавляется R шаров; в случае появления
белого шара добавляется v белых шаров и q = R — v черных шаров, в
случае появления черного шара добавляется vi белых шаров и Qi = R — vi
черных шаров. Требуется определить закон вероятностей для числа т
вынутых белых шаров.
В. П. Савкевич в своей статье** показал, что если б/Д > 1/2, где
б = v — vi, то предельный закон для т не может быть законом Гаусса.
В статье, печатающейся в другом месте***, я показал, применяя свои
общие теоремы о суммах зависимых величин, что рассматриваемый
предельный закон, напротив, должен быть законом Гаусса, если 6/й< 1/2
и qvi > 0. Непосредственное доказательство последнего утверждения
может быть дано и без помощи этих общих теорем и кажется мне не
лишенным интереса; поэтому я позволю себе привести его, ограничиваясь
для упрощения вычислений, как и В. П. Савкевич, симметричным
случаем, когда Q = Vi>0, a = b (и исключая здесь случай б/Л = 1/2).
Обозначая через фп(з) характеристическую функцию распределения
вероятностей величины отклонения т — /г/2, нетрудно установить, что она
удовлетворяет дифференциальному уравнению в конечных разностях
/ \ / \ z 26 , z
9n+i(<) = q)n(z)€0Sy + 2a + nR q/(z)siny. (1)
Задача сводится к нахождению асимптотического значения функции
Фп(я) при п —> оо, если qpo(z) = 1. При этом существенное значение имеет
то, что в зависимости от соблюдения неравенства 26/Л > 1 или 26/й < 1
математическое ожидание (ттг — лг/2)2 = 0(п2^п) или 0(п). А именно,
в случае 26/Л > 1 асимптотическое значение cpn (z) зависит от а и
выражение его в явном виде весьма сложно; напротив, в случае 26/Я < 1
фп(г)~ е~спг\ где с =————, т. е. соответствует нормальному рас-
nR
пределению с дисперсией ■ .
4(Д —26)
* «Докл. АН СССР», 28, № 1 (1940), 5—7 (212*).
** Там же, стр. 8—12. (Автор.)'
*** См. работу [25] настоящего тома. (Автор.)
377
Итак, при условии 26/Я < 1 положим q>n{z) = en(zVn), т. е. обозначим
т — п/2
через Qn(z) характеристическую функцию величины хп = =-; тогда
уравнение (1) преобразуется в
Jn+l
У п
^ ==вя(2)С08 +- ?-—еп zsm—=. (2)
2|/г 2а + nR 2^п
Принимая во внимание, что Ж^и®^ ограничены (при 26/Л < 1),
замечаем, что 9n(z)y 9n(z), 9n (z),9n (2) ограничены при всех
вещественных z.
Дифференцируя (2), имеем также
п + 1
п
Мм'^)-••'<*>('+*£*)
COS
2У/г
1 z 2бУм „, z
—=9n(2)sin =- + 9n (z)sin——
2у/г 2У/г 2a + nR 2^n
(3)
Поэтому, вследствие сделанного только что замечания, уравнение (2)
можем записать в виде
п(вг-н(*)-вп(г))= -4rQUi(z)-4-^(z) + ^-Qn(^) + o(--\ (2bis)
Z о л \ re
а уравнение (3) запишем в виде
1 п,
n(Q'n+i(z)-e'n(Z)) = - 2-e;+1(z)--^en(z) + (_-£-)e'„(z) +
о" (z) + о (i-). (3 bis)
bz n„
~R
Дифференцируя еще раз уравнение (3), убеждаемся также, что
e"+i(z)-e"(z) = o(i-).
Поэтому уравнения (2 bis) и (3 bis) можем представить в виде
»(On+1(*)-6n(z)) = B«(«) + 0l—I ,
4 п '
/ 1 \
n(Q'n+i(z) - Q'n(z))~ u'n{z) + 0{~- ),
где
(4)
Vn(z) = —|-вЛ(2) + Z (|— у) е'»+1(*).
Покажем, что ип(2;)—*0 равномерно в любом конечном промежутке
(— L < z < L). Действительно, из уравнений (4) следует, что
in+1(z)-wn(z) + — wn(z) + -re ^-2-~7f li'n+l(z)J<"^"' (5)
где С -— постоянная, зависящая только от L. Пусть Мп = max | un(z) |
в данном промежутке; в таком случае, учитывая, что в точке zn+i, где
достигается
Л/п+1 = maxl un+i(z)\,
имеем
Zn+lUn+l(Zn+i)lln+i(zn+i) ^ О,
заключаем из (5), что (6/R < 1/2)
zn+i\ , С
Мп+1<Мп\ l--^") + -г (л>0). (6)
о/г raz
Поэтому при любом q > О
*«* <*-1Т[«—^Нт] + ~-- m
Пусть теперь е. > 0 есть данное произвольно малое число; выбираем
;/о > 0 настолько большим, что 2С//г0 < е/2. Но, принимая во внимание
ограниченность 8n(<z) и Q'n(z), можем указать такую постоянную Л, чтобы
па всем промежутке (—L, Z) иметь | un(z)| < Л I я I при любом п > 0.
В таком случае произойдет одно из двух: либо найдется такое п >тг0,
при котором | zn | ^ е/2Л, тоща Afn < е/2 и, следовательно, благодаря (7),
Mn+q+i < е/2 -{- е/2 = е при всяком q > 0; либо | zn | > г/(2А) для всех
п > л0, но тогда, в силу (7),
Л/„11+(Ж < Afno [[
2=0
8
1 —
+ ",
32Л2(л0 + 0 J
а потому для q достаточно большого также должно соблюдаться
неравенство Mn0+q+t < e, которое, следовательно, осуществляется в обоих случаях.
С другой стороны, вследствие ограниченности Qn"{z), из
последовательности функций 9n(z) можно выбрать такую подпоследовательность, что
Qn(z) —* 9(2), B'n^-^O'fz) равномерно на (—L, +L) и, вследствие
uh(z) — 0, имеем
откуда 0(z) = е~сг2, где с = —— —■ [так как 9(0) = 1]. Следовательно,
8(/г — 26)
9n(z)—- e~cz* при и —* оо, а потому вероятность неравенства
2 К 4(Д —2в) v '
1 *
имеет пределам —==■ \ е~'г/2 dt.
У2я _i
Поступило
11 мая 1940 г.
=^^
27
О СУММАХ ЗАВИСИМЫХ ВЕЛИЧИН, ИМЕЮЩИХ
ВЗАИМНО ПОЧТИ НУЛЕВУЮ РЕГРЕССИЮ*
1. Рассмотрим совокупность случайных зависимых между собой
величин zi, ..., Хп, у которых ЭД хп = 0, и обозначим через Вп дисперсию их
п
суммы Sn = 2. хь-
i '
Мы говорим, что величины хк принадлежат классу (В), если
*(!«*)
2
0 (при и — оо), (1)
где ah = ak(xu ..., xh-u яа+i, • • •> £n) = ®* (яь | Si, •.., sahl, 3ft+i> • •., £n)
есть математическое ожидание £ft при известных значениях всех прочих
величин (zi, ). Нетрудно показать, что это условие
п п
означает, что дисперсии сумм 2 ixh — яа) и^ ^а асимптотически равны,
i 1
и в этом случае при п —+ оо разность между законами вероятностей для
2 х*> 2 (Xk~~аь)
1 i
и = стремится к нулю; поэтому исследование предель-
увп увп
ного закона вероятностей любых величин класса (В) может быть сведено
к случаю, когда общее условие (1) заменено частным условием
ah(xu ..., хк-и xk+u ..., хп) = О, (1 bis)
которым мы будем пользоваться в дальнейшем.
Кроме того, мы предполагаем, что величины хп асимптотически
нормальны (лрагяадлежат классу (N)), т. е. удовлетворяют одному из
условий Ляпунова
ея =
2а»|*<
£И-$/2
2+fi
О (S > 0) (2)
* «Докл. АН СССР», 32, № 5 (1941), 303-307, (215*).
380
(в дальнейшем для определенности оценок полагаем б = 1, но все
результаты и рассуждения остаются в сите и общем случае).
Те о ре м а 1. Если величины xiy ..., хп удовлетворяют условиям (1 bis)
и (2) и если для некоторой последовательности возрастающих значений п
вероятность gni неравенства
п
ип = АБ— <z (z>0) (3)
t>n
имеет пределом h(z), то вероятность совмещения этого неравенства с не-*
равенством
п
<t (4)
71 УК
имеем пределом F(t, z), где
1 -ё.
dF{t,z) = -7=e "dtdh(z) (*>0,z>0) (5)
у 2я
€о всех точках непрерывности, причем
F (h, +0)-F (t0, + 0) = 0 (t.h >;0),'
F(tlf+0)-F(*0, + 0)=A(+0)(*0
л>:о).\
Vi<0)-j
(6)
Нужно установить, что характеристическая функция
/0(S. n)=3Rei(5rn+1QUn) (7)
совместного распределения вероятностей величин Ип, г;п во всякой
конечной области действительных переменных £, т] стремится равномерно
к пределу
M+Ol+JJ^-d^M^M+Ol + l^ »'2c»i(z). (8)
—оо о г ^^^ О
[Заметим, что существование хотя бы одной последовательности, для
которой lim gn{z) = h(z), вытекает из того, что 9Юнп = 1.]
Полагая ук = ■ - , имеем
/n(£,Ti)=3R« ' * • (7 bis)
Положим для любого т, 1 < т < п,
£2 m n n
2 ук>+Ъ 2 уА+1Л 2 уА*
1 См. работу [25].
381
кроме Toix),
God, У]) = М5, Л). W
И
(tTi- )2уА2 ^ (1Л- )2
G»(6. Л) = 3»е 2 ' =\б 2 «ten (*) +*»( + <>). (9 bis)
6
Оценим разность
п п
/»(£, T|)-6«(S, л)=Ц[Ст-1(Е, 4)-G«(g, ri)] = 2^(s, П),
где
&2 m-i n n
(- +гт]) 2 Vk4i{\ 2 yft+Ti 2 yk*\
Мб, r,) = « « 2 ' m+l m+I X
1/да*Итц/да2
X [е^Ут+^Ут' — e 2 ].
Но, как нетрудно проверить, для любых действительных а, Ь
справедливо неравенство | е*-»* - в*<"+ь> + » | < 3 [ | а |'/« + | аЬ | + | Ъ |3 ].
Поэтому при | 11 < N, | Y) | < N (N > 1) имеем
(гг\- ) I'vft2+i 2 (6УЛ-И|Ук2)
М5> Л) = ® * 2 ' m+I [*&т + О^3 | 2/m |3 ],
где 191 < 9. Следовательно, принимая во внимание, что 9R (ут\уи • •, Ут-и
т+и ... Уп) = 0, получаем М£> Л) < 9iVsgR | У™ |3> откуда
п
|М1, л)~ G» (S,ti)| < 2|MI. T})|<9iV3Sn, (10)
i
и, таким образом, теорема доказана.
Заметим, что величины хи.. ., хп принадлежат классу (В), в
частности, в том случае, когда все условные законы вероятностей величин Xh
симметричны.
Из только что доказанной теоремы нетрудно вывести следующие
следствия.
Следствие I. Если величины xiy ..., хп удовлетворяют условиям
(J bis) и (2), то единственной формой предельного закона вероятностей
п
для уп =-= является функция вида Flv) = \ \ z=.dh(z)dv
IB* ± о 2 Уда
(у>0), где h(z)— некоторая (вообще, произвольная) монотонная
функция [h(oo)= 1], причем F(+ 0) — F(—0)= h(+ 0).
Следствие II. Если соблюдены условия (1 bis) и (2) и h(+0) =
= 0, то вероятность неравенства
п
1 =<«
/
2.^
i
382
г
1 л
стремится к пределу -—=. \ е~^2 dt, каково бы ни было значение
V2* _i
п
>jXk
1
я*
2. Условия, при которых справедливы эти утверждения, могут быть
несколько изменены.
Заменим условие (1) более общим условием
Ж
I 2jdk {xh ..., xk-i)
2
>0 (П-ОО), (11)
где a* = 3R (#A I zi,..., ^-i) есть математическое ожидание £ь, когда
известны лишь предшествующие значения хи. ..,#ь-1. Исследование
такой зависимости между величинами #1,... ,#п> которую я назвал
зависимостью первого порядка2, приводится к случаю, когда
а\ (хи..., xk-i) = 0. (11 bis)
[Таким образом, зависимость класса (В) является частным случаем
зависимости первого порядка.]
Мы скажем, что величины хк принадлежат к классу (А), если они
остаются связаны зависимостью первого порядка и после того, как извест-
п
но значение 2 хь> общий случай зависимости класса (А) приводится,
1
таким образом, к случаю, когда
п
ал Ы, п | xit п,..., Sft-i, n) = о, 2^2 п == !' (12)
где
Хк
х^ =■
1
В дальнейшем мы будем писать вместо Xk, n для краткости х', имея
в виду, что и сами величины хи могут зависеть от /г, так же как и во
всех моих предыдущих исследованиях (начиная с работы [4] 1922 г.,
стр. 66).
В таком случае имеет место следующее предложение, которое
аналогично следствию II.
Теорема 2. Если асимптотически нормальные величины х\,..., хп
принадлежат классу (А), то вероятность неравенства
п
2Xk
1
/
24
i
2 См. работу [25].
383
t
имеет пределом —-^=- \ е~'2/2 Й.
В самом деле, полагая
/n(|)=^e ' , Gm(g)=3Re ' 2 ' (m<n),
П
имеем вследствие 2 #ь'2 = 1, Gn(l) = e^2/n(g), и так как вообще
i
л
2 ^/2<1, то при т?г<7г |Gw(£)|<e2.
1
Таким образом,
<гж+1(б) = *» [e*fя*/+т?Xfc/i« (i + ^;+i + o(g)|*;+11» |*;,...,x'kji
где | 0 (g) | < | g |3 e^/2? так как
|в**+Г* l-l-i&k\<\lx'h\*e* " " <\l\3e
...... - ' - '3 z» 2
поэтому
11
следовательно,
11
\Gm(i)-l\<en\t\3e^,
n
где sn = 9R 2 I я'ь I3 —* О при n —* oo, откуда
l ' ftl
\In(l)-e~~\<lnN4~ (при||| <2V).
Из теоремы 2 вытекает, что следствие I остается верным, если
величины Xk вместо того, чтобы принадлежать к классу (В, N), принадлежат
к классу (A, N) (см. [25]).
Следствие III. Вели величины #i, ..., хп принадлежат классу (A,N)
или (В, N), то при п достаточно большом вероятность неравенства
i-Vi^-w,
~а\<—У ZO^-S)2. (14)
п 1
п
1
гдеа= ЭД"**(Л«4, ...,7*),g:= —2*fc,
^ сколь угодно мало отличается от
п 1
-J- \ e-**dt.
У2яД
Это следствие представляет распространение на случай зависимых
величин классов (A, N) и (В, N) весьма важной для приложений теоремы.
384
известной для случая, когда величины хк независимы. Здесь величина а
предполагается данной. Однако, применяя рассуждение, указанное в моей
статье3, можно доказать
Следствие IV. Если априорная плотность вероятности р(х)
величины а удовлетворяет условиям: р(£) > X > 0, непрерывна вблизи
наблюдаемого значения % и р(х)< N при любом х, где N — данное произвольно
большое число, то (сохраняя условия и обозначения следствия III) после
наблюдения п значений Xi, ..., хп (вероятность, что а удовлетворяет нера-
1 \
венству (14), сколь угодно мало отличается от —=_г- \ е~*2/2 dt при доста-
точно большом п.
Поступило
31 мая 1941 г.
3 Классы (А) и (В) не покрывают друг друга и не исчерпывают всех
зависимостей первого порядка. Ващпу этого в формулировке следствия в конце (стр. 374) моей
статьи [25] нужно добавить условие, что величины (xh) принадлежат классу (А) или
(В). Соответствующего добавления требует и вторая часть теоремы (стр. 373),
предшествующей указанному следствию, где утверждается необходимость условия (18)
статьи [25] для предельной применимости закона Гаусса. (Номера страниц указаны
но работе [25] настоящего тома. (Автор.))
25 С. Н. Бернштейн
28
О «ДОВЕРИТЕЛЬНЫХ» ВЕРОЯТНОСТЯХ ФИШЕРА*
1. Предлагаемая статья имеет целью зафиксировать и несколько
развить основные замечания, которые были мною сделаны после докладов
В. И. Романовского и А. Н. Колмогорова на совещании по математической
статистике в ноябре 1940 г. *.
Для лучшего выяснения принципиальной стороны дела я постараюсь
быть возможно более элементарным и рассмотрю случай, когда
«доверительная» вероятность основана на одном наблюдении. Но все наши
замечания применимы и в более сложных случаях.
Предположим, что производится одно наблюдение случайной
величины х {давшее х = £i), подчиненной непрерывному закону распределения
вероятностей, зависящему от одного параметра а. А именно, положим, что
вероятность неравенства
t0< х — a <tt (1)
равна \ f(t)dt ( например, fit) = ).
Согласно классической теории, только ев том случае имеет смысл
говорить о вероятности, что неизвестный параметр (после того, как
наблюдение дало значение х = xi) удовлетворяет неравенству
*о < xi — а < tu (2)
если и до наблюдения величину а можно было рассматривать как
стохастическую. В частности, если р(а) есть априорная плотность вероятности
* «Изв. АН СССР», серия матем., 5 (1941), 85—93 (216*).
1 Быть может, нелишним будет указать, что, подвергая здесь критике понятие
«доверительности», я ни в какой мере не хотел бы умалить значение той части
исследований Фишера и других английских статистиков, которая связана с задачей
построения таких функций F(x0, ..., хр, лр+1, ..., ak) от р + 1 независимых величин
х0, х^ ..., хр (0<р«С&), подчиненных одному и тому же закону вероятностей
Р {х, аи ..., ak), законы которых при любых данных значениях а{ (i = 1, ..., к)
не зависят от аА, ..., ар. Мои возражения относятся только к «доверительному»
истолкованию результатов.
386
а, то априорная плотность вероятности х равна
00
Р(х) = J p(a)f(x — a)da; (3)
—оо
поэтому, согласно формуле Байеса, вероятность неравенства (2) равна
\
* P(a)f(xi — ct)da i r
Ф(*и *o, *i) =2z* =^^^^$p{Xi-t)№dt. (4)
\ p(a)f(xi — a) da
—oo
Формула (4) дает, таким образом, вероятность неравенства (2), каков
бы ни был рассматриваемый нами промежуток (xi — tu Xi — £о). К
сожалению, обычно наши сведения о функции р(а) весьма неполны, а потому
и формула (4) дает значение Ф(я1, to, £i) лишь приближенно, причем
точность этого приближения зависит от степени точности наших знаний
0 функции р(а).
2. Это неудобство, соответствующее существу проблемы, явилось
причиной того, что английские статистики, во главе с Фишером, сочли
нужным отказаться от формулы Байеса и ввести некоторое новое понятие
или, вернее, некоторое новое слово «доверительность».
Рассматривается некоторая пара значений to, t{ таких, что \ f(t)dt =
и
= 1 — a(£o, *i) весьма близка к единице (например, a(£0, *i) = 0,05); они
обладают, следовательно, свойством, что вероятность неравенства (1)
отличается от еддницы на данную малую величину a(£o, ^i), и, после того
как наблюдение дало х = хи отрезок (х^ — tu xt — t0) называется
«доверительной» областью величины а, соответствующей «доверительности»
1 — а(*0, *0-
Против введения нового термина «доверительность» можно было бы
не возражать, если бы в это слово не вкладывалось содержание, отличное
от того, которое принято при его определении, и, кроме того,
принципиально противоречащее первоначальному определению.
Действительно, Фишер и его последователи считают, после того как х
получило значение #i, величину
t\
S f(t)dt = A-a(t0, *i)
доверительной вероятностью (доверительностью) того, что а находится
в промежутке (з?1 — *i, xt — t0). Но так как принципиально to, h могут
получать любые значения, то «доверительная» вероятность удовлетворяет
всем аксиомам, характеризующим классическое понятие вероятности, и к
ней применимы все теоремы теории вероятностей, а поэтому при каком-
то выборе функции р(а) в формуле (4) «доверительная» вероятность
должна совпадать с Ф(^ь t0l -it), т. е. мы имели бы
№)***-ТГт1 P(xt-t)f(t)dt (4 bis)
387
25*
при любых значениях хи к, tim Отсюда следовало бы, что при любых
значениях tt и Xi
... , P(si-*i)/(*i)
т ры~'
т. е. р(а) =Р(х) должно быть постоянным на всей действительной оси,
что невозможно (так как равномерное распределение вероятностей на
всей действительной оси невозможно). Кроме того, нетрудно видеть, что
равенство (4) ведет к тому же противоречию, если мы допустим его
справедливость только при одном xt для данного t0 и любого U > t0.
Нет надобности доказывать, что если доверительная область (xt — tu
Xi — t0) окажется частью области, где нахождение а заведомо невозможно,
то Ф(хи to, ^i) =0; если, например, известно, что | а | < 3, то ни один
здравомыслящий статистик не станет пользоваться доверительной веро-
2
ятностыо \ i(t)dt для промежутка — 2 < 5 — я < 2, если одно наблюде-
-2
ние дало случайно Xi = 5.
3. Равенство (4) может быть приближенно правильным при
некоторых более или менее определенных допущениях относительно
априорной вероятности р(а), означающих по существу, что «доверительная
область» является частью достаточно большой области, где р(а) более или
менее постоянна. А именно, верна следующая
•Предельная теорема. Если для любых положительных г < 1 и
L можно указать такое щ, что при всех целых /г > щ
Рп(х") ^Л ,
Рп (х)
когда \х/\ <Zr,|s"| < Z, и вообще рп{а)1рп(х/) < с, где с^ 1 + е не
зависящая от п постоянная, каково бы ни было значение а, то при
п —*- оо
3 Pn(xi — t)f(t)dt и
Фп(хи to, ti) = *L > 5 f(t)dt
\ Pn(Xi-t)f{t)dt
для любых Xi, t0, ti. [Стремление к пределу равномерно, если
доверительный промежуток (xi — tu Xi — t0) находится внутри произвольно данной
конечной Области.]
В самом деле, каково бы ни было наблюденное значение хи можем, при
данном произвольно малом s > 0, взять число L настолько большим, что
J f(t)dt>l-e
Xi—L
и кроме того L > | Xi — t01, L > | xi — ^ |. После этого, определяя щ со-
388
гласно условию теоремы, имеем при п > щ
рп(х') Л f(t)dt< J pn{Xi-t)f(t)dt< (1 + г)рп(х') J /(ОЛ.
to to to
Xi+L Xi+L Xi+L
pn{x') ,J /(/)Л< ^ Pn(Xi-t)f(t)dt< ([ + г)рп(х') j /(*)&,
cci—L ж i—L Xi—L
где Pn
(x') — наименьшее значение pn(x), когда | .г | < L. Следовательно,
оо
pn(a^)(l —e)< J p„(si —0/(0 *<Р» (*')[! -е2 + бс]<р„(х')(1 + ес),
—оо
откуда
-:--1— \ Ht)dt«bn(xu *0, U) <\+--\ J(t)dt, (5)
1 + ее •' 1 - е J
/о /о
что и требовалось доказать.
4. Без сомнеЕшя, вообще, у нас пет особых оснований надеяться, что на
практике условия теоремы выполнены. Поэтому теория вероятностей
определенно заявляет, что заключение, основанное на одном
наблюдении, вообще, ненадежно; но если положить а — 2К х,
то доказанная выше теорема будет применима для определения а^п после
п наблюдений хи..., хп. А именно, из только что доказанной теоремы
следует, что вероятность неравенства
toKXi-ailnTKti, (6)
* * л Xi +Х2 + • • • + х* v я
после того как было наблюдено ^ = Xi при достаточно
in
большом п, сколь угодно мало отличается от доверительной вероятности
и
этого неравенства2 \ fn(t)dt при единственном допущении, что р(а) не-
и
р(а)
прерывна вблизи а = Xi и —— < оо при всех a 2g Xim
Таким образом, теория вероятностей, без применения термина
«доверительность», с давних пор пользуется ею, как предельной вероятностью,
и дает совершенно точные указания, в каких случаях это законно; в
частности, поскольку закон больших чисел, в широком смысле слова, является
единственной основой изучения стохастических явлений, принципиальное
превосходство «доверительного» определения а из неравенства (6) при
помощи п наблюдений (вместо одного) заключается не столько в том, что
той же «доверительности» соответствует в У п раз меньшая область, как
в том, что эта область при каждом Xi более надежна, так как с уве-
2 См. «Т. В.» (добавление 4-е). Как известно, если существует IW(з — а)2—о2, то
1 _JL_
limC/n(*)d'=——^ е 2a'dt>
какова бы ни была данная функция / (t) = f{ (t).
389
личением п доверительная вероятность
приближается к действительной апостериорной вероятности.
5. Применение доверительной вероятности Фмшера к определенной
области (Xi— tu Xi —10) является практически приемлемым с
классической точки зрения и в том случае, когда можно быть уверенным, что
истинная вероятность неравенства (2) не может быть значительно меньше
«доверительной», т. е.
^'•''■'^ТТьЩ-у <7>
где 6 невелико.
Для этого достаточно, чтобы р(Ъ) ^ (1 + б)р(а), если а —любая
точка внутри доверительной области (xi — tl<a<xi — t0)1 между тем как
Ъ — любая точка вне этой области (b < Xi — ti или Ъ > xt — t0).
В самом деле, в таком случае
j p{xv-t)i{t)dt
Ф(хии,Ц) <° _
1-Ф(«1, «о, *i) и
J p(xl-t)f(t)dt + jj p(xi — t)f{t)dt
Pit)
$ f(t)dt
р{ц) h
$ f(t)dt+ ^f(t)dt
—oo tj
где £ есть некоторая точка внутри промежутка (xi — £t, xi — to), г] —
некоторая точка вне этого промежутка; поэтому, согласно принятому
условию, р(у\) (1 + б)р(|). Следовательно,
и
]f(t)dt
(1 + 6)- Ф^*0'^ - *° l-a(*0,*i)
l-<D(*i,*o,*i) U a(toJi) '
1- J f(t)dt
to
откуда вытекает (7) (например, если a(*o, *i) = V20, 6 = 1, то Ф(хи £0, *i) >
> 1 — V21 > 1 — Vto).
6. За исключением указанных или аналогичных случаев применение
доверительной вероятности для оценки вероятности неравенства (2),
после того как найдено определенное значение х = хи может иногда
приводить к грубым ошибкам. Правда, очевидно, что в случае a(£0, h) = О,
при любых предположениях относительно р(а) мы будем иметь
и
Ф(*1,*о,*1) = 5 /(*)*= 1.
Го
а потому чем меньше a(£o, £i), тем менее следует считать вероятным, что
разность между Ф(хи *о, ti) и }f(t)dt будет значительна. Точный смысл
390
этого утверждения вытекает из следующего замечания: интегрируя
равенство
tx
jP(ai)<I>(;Mo,*i) = J P(*i —*)/(*)*
и
по Xi -от — оо до оо, получаем
J Р(х!)Ф(о:1, t0, ti)dxi = J J p(xi-t)f(t)dtdxi=^f(t)dt, (8)
—оо _оо t0 f0
или, иначе говоря, доверительная вероятность является математическим
ожиданием апостериорной вероятности неравенства (2).
Вполне естественно желание, когда мы ничего не знаем о р(а)
(а следовательно, и о Р(х)), воспользоваться для определения
неизвестной величины Ф (хи t0, t±) известным нам математическим ожиданием
этой величины. Принимая во внимание, что дисперсия
и и
ЩФ{хии,и) - ]l{t)dtf= W$>2(xutoJi)-[\ f(t)dt*P<
to t(]
< (l-a(*o,*i)) -U —a(i0,«i)F<«(*o,*i)(l-a(*o,*i)) <o(t0,*i),
мы можем заключить на основании леммы Чебышева — Маркова, что
вероятность неравенства
и
| Ф (*i, «о, h) - J f(t)dt\>z ia(t0,k) (9)'
3
меньше, чем 1/z2 при любом £>1; полагая, например, 1/з2 = "|/a(io, *i),
находим, что вероятность неравенства
|Ф(*i,Mi)- $ /(0*|<УоГ(^Г*7)"
3
больше, чем 1 — У a(£o> *i), т. е. сколь угодно близка к 1, если a(t0, ti)
достаточно мало.
Поэтому статистик может в каждом частном случае пользоваться
доверительностью 0,999 только тогда, когда считается практически
допустимым пренебречь вероятностью 0,1 (а не 0,001), Но вообще, если о р(а) пи-
чсто ие известно, «доверительность» приобретает реальный смысл в
соответствии с ее первоначальным определением лишь тогда, когда она
применяется к большому числу независимых наблюдений
Х\, х2, . .. , хп, а именно, в силу закона больших чисел, частота случаев,
когда а будет находиться в соответствующих доверительных областях,
будет близка3 к доверительности (так же, как и средняя арифметическая из
Ф(#г, £о, *0). Однако, если во всех наблюдениях а оставалось неизменным,
Xi + Х2 + + Хп
то, как мы видели выше, определение а при помощи
п
будет не только в У п раз точней той же «доверительной» вероятности, но
она будет уже весьма близка к индивидуальной вероятности нахождения о
3 Согласно сказанному выше, это утверждение было бы, очевидно, неправильно,
если бы было нарушено условие независимости значений х\ и рассматривались бы,
например, только те из них, которые находятся в некотором данном промежутке-
391
( Xi + . . . + Xn tt Xi+ ... + Xn U \
в данном промежутке! ^_- "т--/
4 n yn n yn
так как для п достаточно большого регулирующее действие закона
больших чисел приводит уже к практически одинаковым значениям для
апостериорной вероятности при любых предположениях об априорной
вероятности р(а) (лишь бы они не были придуманы парочно вопреки всякому
здравому смыслу).
7. Для выяснения недоразумений, которые могут возникнуть на
практике при слишком большом доверии к «доверительной» вероятности,
рассмотрим следующий пример.
Предположим, что на складе имеется большое число ящиков (Аи
Л2, ..., Аи ...), содержащих объекты, потребительная ценность которых
xi рублей в ящике А * подчиняется закону Гаусса (1/У2л)е_(х-а^/2 с
дисперсией 1 и центром а\.
По техническим или экономическим соображениям в каждом ящике
А\ проверена ценность хц только одного объекта. Полагая tt = — t0 — 2,
получаем для каждого а\ доверительную область (хц — 2, хц + 2), соот-
2
ветствующую доверительной вероятности (1/"]/2л) \ е~1*12 Л «0,95.
-2
Продавец на всех ящиках наклеивает доверительные ярлычки:
I я* — хц I < 2 и считая, согласно Фишеру, излишним предупреждать
покупателя, что надпись ярлыка основана только на одном наблюдении, лшпь
честно объявляет, что имеется 5% ящиков с ошибочными отметками. Если
покупатель пришел в магазин с тем, чтобы купить любой из ящиков, то
лишь в одном случае из 20 содержимое ящика не оправдает своего
ярлыка; но если покупатель желает получить один или несколько ящиков с
определенным значением я* = а (с точностью до ±2), то мы бы ему
посоветовали обратиться в магазин, где сортировка товара производится
более осмотрительно. Действительно, если покупателю нужны, например,
ящики с объектами высокой ценности, соответствующими средней яг- = а,
которых сравнительно мало на складе (априорная вероятность р(а) мала
для больших значений а), то весьма вероятно, что из купленных им
двадцати ящиков .с требуемыми доверительными ярлыками негодным
окажется не один, а более десяти ящиков.
Если техническая трудность или дороговизна выборки настолько
велика, что из каждого ящика может быть исследован только один объект,
в таком случае необходимо было бы знать (априорную) плотность
распределения р(а) на складе. Тогда ярлыки, обеспечивающие не более 5%
ошибок, соответствовали бы промежуткам (xi ± t{) неодинаковой длины, но
они гарантировали бы покупателю, что каков бы ни был о пр едел ен-
ный ящик, который он приобретает, вероятность ошибки действительно
равна 0,05; U определяется из равенства
5 р(хц -t)e~~dt
Ф (хищ - tu U) = — = 0,95.
е
5 р{хц -t)e 2 dt
—оо
392
Я не буду останавливаться на вопросе о том, как практически
определить р(а) на основании известного для всего склада распределения Р(хц)
взятых из каждого ящика величин хц\ эта задача теоретически решается
при помощи равенства
_^
е 2 0в-(*) «0^(0, (10)
со со
1"Де бх^О = j Р(я) eitxdx, QQ(2) = j[ р (я) eifa da — соответственно, ха-
—оо —со
рактеристические функции #н и я*.
Равенство (10) полезно также иметь в виду для того, чтобы
предостеречь слишком усердных сторонников Фишера от поспешного вывода, что
поскольку при весьма большом числе опытов частота случаев, когда
t
| #н — #i I < £, приближается к тому же самому значению (1/]/2л) j e-v'i2dl
-t
независимо от того, считаем ли мы данным at или хм (я надеюсь, что
предыдущие страницы разъяснили читателю, что это утверждение
ошибочно),— продельные частоты или вероятности р(сц) и Р(хм) должны сои-
па дать4 или по крайней мере должны быть связаны симметрично.
Резюмируя вышесказанное, мы видим, что отказ Фишера от формулы
Байеса приводит к смешению статистической частоты с математической
вероятностью и к отождествлению случая, когда доверительность весьма
близка к действительной апостериорной вероятности, с тем случаем, когда
она является лишь какой-то средней из различных апостериорных
вероятностей. Поэтому в последнем случае (Применение доверительной
вероятности может приводить к тем же ошибкам, которые связаны с
рассмотрением общих средних для сложных совокупностей, как, например,
применение среднего коэффициента смертности или грамотности
стомиллионного населения данной страны к различным его группам.
Поступило
20 января 1941 г.
ХЦ + X2i + • • • + Xni
4 Если бы вместо хи мы рассматривали £Пг = -, то при
п
достаточно большом п распределение вероятностей £„,- действительно стремилось
бы к p(ai), так как обозначая через 8П(0 характеристическую функцию gnf, мы
имеем тогда вместо. (10) равенство е~1У2п Qa(t) = 6П (/), из которого .видно, что
0„ (t) -> 6а (t) при л -+ оо.
29
ОБ ОДНОМ СВОЙСТВЕ, ХАРАКТЕРИЗУЮЩЕМ
ЗАКОН ГАУССА*
Теорема. Пусть х и у будут две независимые случайные величины,
имеющие равные дисперсии. Для того, чтобы величины
и = х + у, z = x — y (1)
также были между собой независимы, необходимо и достаточно, чтобы
каждая из величин х, у подчинялась закону Гаусса.
В самом деле, пусть а = $Ях, at = 5R г/,
о* « Ж(* — а)2 = 3» (у — at)2.
Как известно, если величины х, у подчиняются закону Гаусса, то и =
= х + у, z — х-— у связаны нормальной корреляцией; поэтому для того,
чтобы и ж z были независимы, достаточно в таком случае, чтобы их
коэффициент корреляции
ЗЙ (х + у — а — fli) (х — у — а + аЛ
Я- -2 = 0; (2)
но это равенство очевидно, так как
Щ(х~а) + (у-а1)][(х-а)-(у-а1)] =
= Щ(х-а)*- (г/-а1)2]= а2 — а2 = 0 .
Менее очевидно обратное утверждение, что из независимости и ш. z
вытекает, что каждая из величин х, у подчиняется закону Гаусса. Для этого
заметим, что плотность распределения вероятностей (х, у) равна
P(x)Pi(y)i где р(х) и Pi(y) соответственные плотности распределения
каждой из величин х и у; поэтоду, если и и z также независимы, то имеет
место тождество
P{*)Pi{y) =2P(u)Pt(z), (3)
где Р(и) и Pi (z), соответственно, плотности и и z. Следовательно, полагая
Ф(х) =1пр(я), ф!(г/) =lnpi(y), /(и) =1пР(и), /i(z) =lnPi(2), имеем
<Р(*) + <Pi(*/) = /(* + ») + /i(s —у) +1п2. (4)
* «Труды Ленинградск. политехи, ин-та», № 3 (1941), 21—22 (217*).
394
Придавая х и у в отдельности и вместе произвольное приращение h,
получаем
<р(я + Л) +q>i(y) = f(x + y + h) +fi(x — y + h) + In 2, )
ф(*) +Ф1(2/ + А) =/(д: + у + А) +/1(х_у_й) + In 2, [ (5)
<р(* +А) +ф!(г/ + Л) =/(а; + г/ + 2А) +Л(х-у) + In 2 ,
откуда, складывая (4) и последнее из равенств (5) и вычитая первое и
второе из равенств (5), находим
0 = F(x + y,h) -Fiix-y^h), (6)
полагая
F(x + y,h) =f(x + y + 2h) -2f(x + y + h) + f(x + y).
F^x-y^h) =ft(x-y + h) -2ft(x—y) +fi(x — y — h).
Очевидно, что равенство (6), которое должно соблюдаться при всех
значениях х, у, возможно лишь при условии, что функции
F(u,h) = Fx(z,h) =C(h)
зависят только от h% Таким образом, при любом приращении h вторые
конечные разности функций f(u) и /i(z)
А2/И = A2/i(2) =C(h) (7)
не зависят от и и z. Но, как известно (и легко проверить)1, единственные
функции /(и), fi(z), обладающие этими свойствами, суть многочлены
второй степени. Поэтому вследствие (4) у(х) =1пр(я) и ф±(г/) =lnpi(z/)
также являются многочленами второй степени, что и требовалось доказать.
Поступило
28 яшгваря 1941 г.
1 Для этого достаточно заметить, что при любом данном h общее решение
уравнения (7) имеет вид
C(h)
f (В) = —1_L Ц2 + в (h) и + Л (h) + \|з (и, К),
где г|э (и, h) — произвольная функция, периодическая относительно и с периодом
Л, которая должна быть равна нулю, так как разность между двумя функциями
с несоизмеримыми периодами отлична от многочлена.
30
ВОЗВРАТ К ВОПРОСУ О ТОЧНОСТИ
ПРЕДЕЛЬНОЙ ФОРМУЛЫ ЛАПЛАСА*
Предлагаемая статья дает удобную для приложений оценку
погрешности классической формулы Лапласа в общем
случае схемы Берну л ли
1. Перебирая старые бумаги перед отъездом из Ленинграда, я случайно
разыскал черновой набросок своей статьи1 «Об одном видоизменении
неравенства Чебышева и о погрешности формулы Лапласа», во второй части
которой был указан новый подход к оценке погрешности формулы
Лапласа и, в частности, была доказана следующая теорема:
Пусть производится п опытов по схеме Бернулли, причем р есть
вероятность появления события в каждом опыте (? = 1 — р), npq^* 365.
Вероятность Р что число m появлений события удовлетворит
неравенству
mo ^ m < ttii,
где то, т^ — целые числа, равна (1 /Уя) \ e-z2 dz, где z0 и zx определяются
zo
из уравнений
q — p 2
z0 ^2npq + — z0 = m0 — np + a,
(1)
Zt 12npq +
q-p 2
— Zi = mi — np + a,
в которых а есть какое-то число, удовлетворяющее условию
3 1
-т<«<т,
* «Изв. АН СССР», серия матем, 7 (1943), 3—14 (223*).
1 Работай-
396
при предположении, что О ^ z0 < z{ ^ i2npq
(m0 —np>—, ^i —?ф< —+ (2npq)^ + ----- (2npq)l^)>
В найденном черновике сохранилась значительная часть довольно
кропотливых вычислений и оценок, которые были мною опущены при
печатании статьи, и, так как попытки нескольких студентов, получавших от
меня задание восполнить недостающие в статье звенья, не удались, я
считаю небесполезным восстановить все вычисления, причем, благодаря
некоторому улучшению оценок, оказывается, что значения тг, для которых
теорема верна, могут быть снижены более чем в пять раз, а именно,
достаточно, чтобы
npq > 62,5 (2)
(вместо npq > 365).
2. Мы исходим из известной формулы
J-m,n —
m\(n— m)\
pmqn-m
для вероятности появления события m раз при п опытах и, пользуясь
неравенствами
1 i ^ *
— п\ еп —
?24п < =<ei2n (n> 1),
пп У2я/г
получаем
■Lm,n — -| / П
У 2ппг(п
On
пр
2nm(п — m) \ m J \ n— m
nq
е 12m(
х ( 1
n-m) —
V 4
<0<1 (3)
при 0 < m < /г.
Полагая
w =
m
пр
п — m
nq
\
(*)
m
= np + zl2npq+Y(V-P)> J
•находим
(9-P)
In w = [ np + z i'Znpq +
In
!+•
a — p
z^lnpq + ^-r-^-z2
np
+
+
nq — z i'2npq
q — p
z T/2npq +
In 1
L nq
397
= т^— Uflnpq + i—Pz2T +P^-^f2 \zfZnpq + 1—Pz*]
2npq L 3 J 6nzp2q2 L 3 J
+
2npq
p3 + #3
+
12n3p3g
,3,,3
г У'2прд +
3 — P
:2 + . .. = z2 -'
5(g —p)2z4 (g — p)3zr'
(q-p)W ^ p*-(-?)'
+
162n2pV ^fc (/(;+!) (герд))
3. Покажем, что в формуле (5)
[ф
а — v
\npq + -z2
18npq 9npq^2npq
•4
если
о<ф<1Г,
i2npq 5
\k+l mz4
= z2 + -— .(5)
"P«
(6)
(7)
В дальнейшем мы всегда предполагаем неравенство (7) выполненным
(изменение знака t соответствует перестановке р ж q). Таким образом,
+ ~- (Р3 + Я3) ( 1 + -~у *)* +f (Р4-S4) < (l + ~ tf + г, (8)
где
1 ^-, 71* — I— П\Ь
р« — (— о) ft г 2 ТИ-1
Р К Я> t^[2 + -(q-p)t
1 г 2 12г
= -2 с«^-»[2+— (e-p)tj ,
1=3
Ci =
Г T,2i-l + g2i-i
2*
2г — 1
+ (p2i-<?2i)
2* + ^(«-Р)^2
27Т1
>0;
поэтому е > 0. Кроме того, при q < р
Ci<
+
28
2г L 2« — 1 75(2г+1) J
<
"450
поэтому
152*2 ^, 152
225
4725
при q > p, f = Vs,
1 Г p«-t + q>g<-* | 2_(p2i —q2i) "1 - 1 / 1
Ci^2iL 2* — 1 "'" 5(2i"+l)~J
(2r + l)
398
2i\ 2i — 1 5(21 + 1)
поэтому, принимая во внимание, что е растет вместе с t,
( 16 ^
8
е <
V15 J
21
»-«г
< 0,03.
Таким образом, полагая д — р = б, имеем
Ф =
18 9 81 42 V 3 У
_L4(1 + *)((1+«)"+._.»._£_« ,<_,,,.
5
б2*2
162
(45+2Э62)-
б3*3
81
(47+456*)
12 36 45
б4*4 f 71
324
+ 2362
65f5 66f
(1 + 62)--—— (1 + 62)+ e.
81
1215
Следовательно,
Ф>
1 1
37
32
12 36 75 81-25 81-425
2 2
81-3125 1215 (125)2
81-375
>0.
(9)
С другой стороны, замечая, что сумма членов, содержащих t в степени
выше третьей, отрицательна, имеем
1 б2 б* б2*2 г
"<T2~m-Z5'-i-'")-mlm+iim + c
(так как [ 6f | < 1/5). Поэтому, пользуясь формулой для максимума
многочлена второй степени, находим, что
1 б2 (4-б2)2
Ф < — — — +
810 _1_ _8_ 1_
12 36 ' 4-452 191 + 11562 + е<12 + 955~ + 8<8' ( *
Заметим еще, что
т п — т
пг>
X
zV2npq +
пр
д-р
zy2npq +
д-р
4 +
X
пр
( г y2npq
пр
+
= 1 + -—— I г -]/2прд +
прд
д-р
')-
iZZ.,2
пгрд
= l + 2(q-p)t
399
а — р
4p<7*2 (
1 +
q — p \2
t =l + 26f
1+T^
(l-62)t*[i+-jtY
(11)
при данном t (0 < £<i 1/5) возрастает вместе с б; поэтому
28 т п — т 32
1 — — < < 1 + —.
75 пр nq 75
Следовательно, из (3), (4), (5) и (6) заключаем, что
/
1,1
п
2лт(п — т)
. е 8npq 8npq < /^
V 2пт(п -
o-z*
2лт(п — т)
(12)
4. Для доказательства высказанной вначале теоремы введем
величину Zi>£, определяемую равенством
m-\--^ = np + z1 У 2npq + ^—^ z\\
в таком случае
72 72 = —
zi z 2
2i + 2
>
/2nM + 2-r£(«i + «) V^ + yfo-rt*
(13)
(14)
Кроме того, если
Я — Р,
т + т = пр + (2l + Ai) Г2пм + Ч~^ Ы + АО2,
то
Ai
\V2nTq + А (<? - р) (*х + 4 Ai) ] - 1.
Поэтому можем написать
г/ *
Г 2т (п—т)
\ (п —т)
1 + T71^(Zl+TAl)
4 + S? Д1" S5 )
Пользуясь левой частью неравенства (12), покажем, что
/от,п>^е-2'. (15)
Таким образом, нужно проверить, что
[1 + ?M(Zl+^Al
8np<2 8Tipg
2"^2лр? + -з-(9 — p)z*
>1
71 jP
1 —
*"К2яИ + -з (g-rtz»
nq
(16)
400
при условии -== <z< j/ 2npq и z ^-=■ У 2npq (последнее неравен-
У2npq о
ство, очевидно, будет вытекать из первого, если 7г/?д>62,5).
1) Пусть #>/>. Тогда, вследствие (14),
1,1
G>
1 +
2 д-р \ У555 + | <»-*»* 8"P« 8"*«
3 V2npq '
V1 + hpf [z ^2п™ + Y <* - р) z2] ~ 7^ [z Y2npg + i(? " p) **]
>
>
2 g — p \/ z*
1 + 3" УЩ1Z) V1 ~~8^ ~~ 8n~^) e
1,1 \ >^2npa + j (3—p)z
^
q — p
npq
z Ylnpq + -o- (q — p) z2
->
■^ ч 3 V2npqZ)\ SnP<3 %npq) + у2npq^
i + il-F)
Vlnpq
>{1-8^-8^ + 7^[1 + |-^-^(1-
z* 1Д_
8лру 8/грд,
■)!
X
X\l-(q-p)
1
1,1 V
20 Snpg)m
Ylnpq
>{i
Snpq Y2npql
\1-т + т(я-Р)
X
1-^-^)yfc}>1-8^ + 7fc[l-(^)
X
1 3 + 30 +
i + JLLY
17z2
12npq)j 24npq
Ylnpq
>1
1,1
Snpq
Snpq l y~2/
0,38
X
pql
OAnnn *^
Ylnpq ^npq
<
2) Пусть q<CP- В таком случае, учитывая, что Zj—г + у Ai<(
5
4У2прд '
имеем
1 +
2 д-р
*4
5(?-/>Г
3 У2гар9 12W
G>-
1 +
1,11
2 8npg 8л/>?
У 2лр? + j(q— р)г
}Л +
2 q — p ,5 (q—p)
npq
1 1,1
*K2eW+iyf«')
>
5 (9 — p) 2
>-
Y2«W" i2»^ 8»W 8«M ^2rap? i2^jv-5_ + |(?_^J
]/l + 9-£r(^2^.
«P?
^,)
>
>{l +
5 (<?-/>) 1,1
+ '
12npq Snpq ' у"2лде
25
X(^ +
blnpq
m
4 ]/~2/*p?
+ fa-/>)X
"^2/г^
12 zz
При z > ' воспользуемся (как и раньше) неравенством ^ 1
y2npq y2npq
и, замечая, что коэффициенты при z в обоих множителях положительны,
26 С. Н. Бернштейн
401
видим, что
X
/ 5(g—p) 1,1
G > (l + - -—
3 . ( 2 25
12/грд
^+ (9-РИ-Т +
1,2
- + -г-1— X
8?гр# 2/грд
U
52npq
]}{
0,6 (д-р)
^>
»Р?
V 24про 52n2p2g2 A """ '
1 12
При <С z < — восаользуемся оценкой
npq
z3
.< —
У2гард
случае
У2прд
Г , 5(д-р) 1,1
С>11 + -^
+
У2>гр? 2?г2р2д2
1
-; в таком
npq 8npq 2npq
X
х[1-8^+(9-р)(т+-£рт)]Н
i+P-^}>
>
v-
2,5
8npq 104ra2pV 16/i3p3g:
2npg
i_iri+J_l>i.
16/iWjL 2npq I
5. Перейдем теперь к выводу неравенства
I < — е-*>
где'
1 Q — р 2
т = zQ 12npq Н — z0 + np ,
Z о
т. — = (z0 — До) У2гсрз Ч — (20 — До)2 + пр ,
(17)
(18)
так что
1 =Ао
д-р
У2прд + 2_£1 (2^о - А0)
Таким образом, нужно проверить, что при 0<A0<z0<z<;
^-=-|/Г2прд соблюдается неравенство
1+#йгЛ-а°>
/
1
1 +
Zy2npq+-j(q — p)z2
пр
zV2npq + -j(q—p)z2
nq
<1.
(19)
1) Пусть q > р. Принимая во внимание, что знаменатель растет
вместе с z и что
1 2 + 20 . . 20
*' — Z? =
о" 2
/2пМ + 2-^ (z + z0) V2npq + ^(q-p)z0
402
достаточно показать, что
2 Я — Р \ yr2npq+ -| (д-р) 2,
z0 ) е 3
(1+TfdH
/■
3 l/2n/)(7
<1,
т. е., полагая f 0 = Jg_-< •=-, 6 = ? —£>0, что
■фг /i+2^о(1+4^о)-(1-б^^(1+4io)2
е 3 < 2~ •
1 + -д 6*0
Но, замечая, что подкоренное количество больше, чем 1 — fjj-f-
+ 26<0(l ^-1 , достаточно проверить, что имеет место неравенство
/
1_*2 + 2д*о(1-4-'о)/ 2
2 \2 2 ;(1+^о + |б^)>1?
1 + у^о
в правильности которого убеждаемся, принимая во внимание, что
левая его часть достигает наименьшего значения при 6 = 0.
2) Пусть q<^p. Заметим прежде всего, что из z0 — Ло>0 следует,
благодаря формуле конечных приращений, что
3
— = (z-z0 + Д0)
где 0<V<z, откуда
V2npq + -g(q — p)z'
2l/2n^ /2пде 4np?
Кроме того,
Л i / i
An = z z <
„Яй + £^<*,_ад уЩ1 + Ш=М
•<z-z0<
2^ ^(' + 1^)'
откуда
15
z0>z-
Z2
2bV2npq '
z 15
^ V2npq iOAnpg '
403 26*
Поэтому неравенство (19) приводится к
4 , 2 д-р
X
3 Ylnpq
<
15 г
+
104njt»g ]/l np?
X
/
1 +
zY2npq + -^(q— p) z2
nq
1-
j
ng
т. е., полагая p — q = x^>0, к неравенству
l<-^z-
3rep# (1 ^-tx
+
+ (1-4f+<)/1-2te(1-'T)-(1-a;2)i2(1-
tx_\*
T
(20)
VI
Полагая сначала #>—~—, мы уменьшим корень, стоящий в правой
части неравенства, заменив его через У\ — 2tx + i2x2 = 1 — tx\ поэтому
в этом случае достаточно показать, что
1<—to-
Зпрд [ 1 ^-tx
+ 1
15
I04raj9g
t) (1—to).
т. е.
15 г /1 15
104nM < t ll ~ Х (Т ~ lQAnpq + *
Snpq (1 ^ tx
При возрастании х правая часть убывает; поэтому остается
проверить, что
15
и так как при
iOinpq
3
<*
Г 2 15
3 + Шпрд
— t
1
npq(2> — 2t) '
knpq
венство приводится к
15
<<<
g- правая часть растет вместе с t, то нера-
3 /2
63
104' < 4 1 3 Шпрд ,
)
3 1-
УЪ
2npq
Если х < -у-, то подкоренное количество в (20) можно заменить
меньшей величиной 1 — 2ta — г2. После этого правая часть неравенства
l<Ttx-
Snpq [l — — tx
+ 1
15
lOinpq
+ t)yi — 2tx — t%
404
1/3
достигает наименьшего значения при х — -^—; поэтому достаточно про-
верить, что
"l/3y
^3 бад^Г1 104^
и так как вторая производная по t отрицательна, то правая часть
достигает наименьшего значения при крайних значениях t. Но при
1
t = -=- имеем
о
_! 1 /6 15 N./24 Т/3
5 V3 2пм (l/3-l) V 5 104nW J К 25 5 ^
^5 1/3 25(51/3-1)+ ' К 25 5 >U
3
при f = —, имеем также
inpq
уъ г ° ~ «q > /
Anpq '
4-/Ч I 63 \\' j У3 9 -ч
"*" ^ ' iOtoipq I У Anpq 16тг2/>2?2
•^ 12пде 12nVY ^ (/ ^ 104nW J ^ 4пм J >
6. Таким образом, мы показали, что
е><1т,п<-^-е° (21)
при условии, что в равенстве (4) z ^У 2npq, zQ — А0 > 0 ( т. е. если
т — пр 9~>0) K?W>62,5. В таком случае, вследствие убывания
функции e~z\ заключаем 2, что
— Г <г*'<й</т,я<-7= J <r*d*.
У я j У я J
гх z0-A0
Поэтому
ГГц-1
удовлетворяет неравенству
-i-'J e-! dz < Pm ,m < 4- S e"** dz, (22)
уя J • • у я J
2 Принимая во внимание направление выпуклости кривой e~z\ можно было бы
при z < l/VT" в первом из интегралов заменить пределы интегрирования через
z и z + Az, а при z > 1/]/"2 заменить пределы во втором интеграле через z — Д и *.
405
где До, bo, (ii, &i. определяются соответственно из равенств
2
1
т0 + — = пр + а0^2прд -\ — а0,
2 о
и*! + — = пр + Ь0 У2прд Н — Ь0,
2 о
3 ,- д-р 2
тп0 = пр + fli У2пр4 + —- - ах,
^i -- = пр + &i У2прд + —— ЬГ, J
(ai>0,
bi < У2гсрд,
npq~^> 62,5).
(23)
Следовательно, высказанное вначале утверждение вытекает из того, что
при непрерывном изменении а от — 3/2 до 7з интервал j е-*1 dz, где z0 и zi
zo
определяются равенствами (1), проходит через все значения между3
^ e-z2dz и ^ е-22Й2.
Иначе говоря, если а и b определяются из равенств
то-
— = пр + аУ2гср2 + —— а2,
лц-у = пр + ьугпрд+^-^Ь2,
(24)
то
так что
m0+i, m,+l
< 7=3 e""Z=dz < ^md-l, rn,-l,
Ул
•tm,—i, n -*m0—1, n ^ * m0» m, r- j ^ z #2 <C *m0, n ^m,, n>
V*o
откуда, в частности, следует, что
- — [
Тл0
</„
(25)
7. Для оцеетки погрепгаости формулы Лапласа при любых то < тп\
нужно воспользоваться уточнением неравенства Чебышева, данным в той
же статье; применим это уточненное неравенство в форме, установленной
на стр. 168 «Т. В.»; вероятность неравенства
(р3 + д3)*3
m >пр + zilnpq +q- -z2 +
ЗУ2?грд
(*>0).
(26)
8 Во всех наших вычислениях предполагалось, что я«ч у '2 ярд, но результат их
не изменился бы, если бы мы ввели немного более широкое условие: z0 — Ао *С
в
<f2npg.
406
меньше, чем e~z\
Таким образом, сохраняя лишь условие, что m0--3/2>rcp (#i>0)t
находим, что вероятность Рт ,<» неравенства т^^т равна
Рт0,со = тт-Д e~*dz+Pmit00<:-^\ e-*'dz + <r<8,
где
т1=пр + *уЪ^ + £=^' + /y^f~ *3, (27)
причем можем принять, что т1 является наименьшим целым числом,
для которого значение z, определяемое из равенства
m1—-j = np + z yinpq + Цр^ z2,
больше, чем -\f2npq\ в таком случае t, определяемое из (27), будет
a fortiori больше, чем yr2npq.
Следовательно,
Рт„ оо< -L [е~* dz + е~ ^ ,
У п .3
(28)
где
т
0-^ = пр+аг VZnpq + (q 3 P) а2.
С другой стороны,
3
■ V 2npq
1v 2npqr . со ,/
г» 1 г e-V2npq
^«ц.ов>^= \ ^ck>-i=\e-*cfa е , (29)
V Jit У V Л «) 9 1/ тг. УОипл
где
7И,
+ тг = пр + а0 j/2rap0 + 2__Р а§#
8. Применяя те же неравенства к п — т, находим, что при
я^ + -п~^ир вероятность Р ', неравенства
т^т'0
удовлетворяет неравенству
.со 3
р , < JL ( <г* <fe + в" ^2пр*, (28 bis)
-oo,mo+i -j/д t^
где
т. е.
и — л^ — -у = пр - f- a[ У 2npq + £-y^ ai2
™о + -j = ИР — йо yinpq + -Цр До2.
407
С другой стороны,
р
(29 bis)
где
т0 — -^ = тг^ — ао У 2гс/?<7 -1 д— а° *
Поэтому вероятность РМо, т* неравенства
/ 1 1
равная 1— P-oo.JVfo — Лп„,оо> удовлетворяет неравенствам
(30)
1 7 -/2пр<2
2npq 1 С . , б"
<^..^+1<-т= er"dz + —
е- V 2?Ф<7
У л yr2npq
т. е.
-1= \в-*&-2*-Г«™<**..*1+1<:^= \ ^ЙМ-Т7=-^==-, (31)
У я; J У л; «J У л у 2гг^д
где
Мо + -о" = ^ + 2о V2n/?g + 4f (g - /?),
1
3
Мх- -^ = лр + гг У2п^ + -i (g - />),
/2
(32)
М0-т - п/> + 2; V^pq + ±-(q - />),
3 /2
мх + т - пр + *; Кгп^ + -4- (я - р).
Заметим в заключение, что произведенные выше оценки могли бы
быть несколько улучшены, если бы мы исключили значения \q — р\
близкие к 1. Так, например, при предположении
т. е.
\я-р\<-^,
0,1<р<0,9,
неравенства (6) остаются в силе при t = <J -у- и, почти не меняя
ylnpq 4
дальнейших вычислений, можно убедиться, что окончательный
результат остается тогда верен при npq^32. Впрочем, поскольку в
дальнейших вычислениях требование z^yr2npq сохраняется, оценка,
вытекающая из связанного с этим условием неравенства (31), быстро
ухудшается с уменьшением npq.
Поступило
11 июня 1942 г.
31
О РАБОТАХ П. Л. ЧЕБЫШЕВА ПО ТЕОРИИ
ВЕРОЯТНОСТЕЙ*
1. Число работ П. Л. Чебышева по теории вероятностей невелико —
всего четыре: магистерская диссертация «Опыт элементарного анализа
теории вероятностей» П, изданная в Москве в 1845 г.; вслед за ней в
1846 г. в «Journal fiir die reine imd angewandte Mathemalik» появляется
статья «Demonstration elementaire d'une proposition generale de la theorie
des probabililes» [2]; после более чем двадцатилетнего перерыва, в 1867 г.,
Чебышев публикует одновременно в «Математическом сборнике» и в
«Journal de matheraatiques pures et appliquees» работу «О средних
величинах» [3] и, наконец, снова проходит более 20 лет до наиечатания в 1887 г.
его последней работы — «О двух теоремах относительно вероятностей» [4]
в «Приложении к Запискам Академии Наук», т. 55, № 6.
Работы [2], [3] воспроизведены в I томе (1889) и работа [4] — во II томе
(1907) Собрания сочинений П. Л. Чебышева, изданного С.-Петербургской
Академией Наук. Магистерская диссертация [1] не вошла в упомянутое
собрание сочинений, так же как и курс лекций Чебышева по теории
вероятностей, читанных >в С.-Петербургском университете с 1860 по 1882 г.,
которые лишь недавно были опубликованы по сохранившимся записям
(1879—1883 гг.) его знаменитого ученика академика А. М. Ляпунова.
То обстоятельство, что Чебышев, едва окончив университет, выбирает
предметом своей магистерской диссертации теорию вероятностей,
свидетельствует о его особом интересе с самых ранних лет к этой своеобразной
области математики.
2. Как известно, теория вероятностей при своем зарождении была
далека от общего движения наук о природе, и единственным экспериментом,
на котором выросли и уточнились ее важнейшие -понятия и основные
принципы, были азартные игры. На этой иочве Яков Бериулли более 200 лет
тому назад открыл свою знаменитую теорему, -которая дает ключ к
пониманию процесса возникновения массовых закономерностей из
независимых индивидуальных случайностей и представляет первую точно
доказанную, хотя и весьма частную, формулировку закона больших чисел.
* «Научное наследие П. Л. Чебышева». М. — Л., т. 1, 1945, стр. 43—68, (230*).
409
Важнейшим следующим этапом развития теории вероятностей были
классические исследования Лапласа и в первую очередь предельная теорема
Муавра — Лапласа, которая устанавливает предельный закон
вероятностей
х—а
для уклонения числа х появлений некоторого случайного события Е от
математического ожидания а = пр числа х при п опытах,
соответствующих элементарной схеме Бернулли, в которой Е имеет постоянную
вероятность р (при этом дисперсия а2 числа х равна, как известно, пр(1 — р)).
Таким образом, закон больших чисел и нормальный закон G(x) Лапласа,
имеющие фундаментальное методологическое значение, были установлены
в своей простейшей форме еще в XVIII столетии; крупной заслугой
Лапласа было также и то, что он предугадал чрезвычайную общность этих
законов, и из узкой сферы азартных игр вывел теорию вероятностей на
широкую арену научного естествознания.
Благодаря влиянию Лапласа первая половина прошлого столетия
знаменуется повышенным интересом к теории вероятностей и увлечением
ее приложениями; но многие из этих приложений были недостаточно
обоснованы, и некоторые из них, поддерживаемые даже самим Лапласом и
Пуассоном, были столь явно ошибочны, что впоследствии Джои Стюарт
Милл вполне заслуженно квалифицировал их как «математический
скандал». В результате таких неудач увлечение сменяется разочарованием,
и среди западноевропейских математиков становится широко
распространенным убеждение, что теория вероятностей является лишь своего рода
математическим развлечением, не допускающим существенных научно
обоснованных приложений и едва ли засдужишающим внимания
серьезных ученых.
3. Иначе отнесся к назревшему в теории вероятностей кризису Чебы-
шев. Со свойственным ему практицизмом, не останавливаясь на глубоком
философском обосновании теории вероятностей как метода научного
исследования, которое стало возможным лишь в наше время, Чебышев понял,
что если существуют реальные случайные явления (азартные игры), на
которых с максимальной точностью подтверждаются простейшие
математические выводы теории вероятностей, то содержание и более общие
выводы теории вероятностей должны найти практическое применение
подобно тому, как из дрименимости формул геометрии к вычислению
площади прямоугольника вытекает также применимость ее формул и в случае
более сложных, достаточно точно определенных плоских фигур.
Необходимо лишь в терминах тех же основных понятий строить более гибкие
теоретические схемы, точно математически определенные, приспособляя эту
конструкцию к свойствам наблюдаемых в действительности случайных
событий и величин. «Наука о вероятностях, известная под именем теории
вероятностей,— говорит Чебышев в своей диссертации,— имеет
предметом определение вероятности события по данной связи его с событиями,
которых вероятности известны». В частности, стержневыми проблемами
•110
для Чебышева были две основные задачи, от решения которых зависела
дальнейшая судьба теории вероятностей: точная формулировка и строгое
математическое доказательство, соответствующие возможно широкому
классу случайных явлений, во-первых, закона больших чисел и,
во-вторых, предельной теоремы для сумм независимых случайных величин. Из
этих двух вопросов, далеко не одинаковой трудности, поставленных в
молодые годы, первый был им блестяще решен в работе [3], а второй был
предметом глубоких размышлений Чебышева до конца его жизни, и лишь
б мемуаре 1887 г .«О двух теоремах теории вероятностей» он пмгучил, по
существу, полное решение.
В настоящем очерке мы постараемся проследить в общих чертах,
насколько это возможно на основании рассмотрения опубликованных
им работ, главные этапы творческого пути Чебышева в этом
направлении.
4. На первой работе Чебышева [*] мы долго останавливаться не будем;
она важна только своей целеустановкой: точно формулировать общие
теоремы теории вероятностей и доказывать их, выдвигая на первый план
неравенства и оценку погрешности предельных формул. Таким образом,
закон больших чисел, так же как предельный нормальный закон, имеют
для Чебышева смысл не как математические характеристики некоторых
бесконечных множеств, а как приближения к количественным
отношениям, наблюдаемым в достаточно многочисленных реально существующих
объединениях тех или иных случайных элементов; при этом
существенно, чтобы слово '«достаточно» было вполне определенно математически
расшифровано.
Основные положения теории вероятностей, указываемые Чебышевым
в начале диссертации, не отличаясь по существу от принятых его
предшественниками, сводятся к следующему: «Если из определенного числа
различных событий при известных обстоятельствах одно необходимо
должно случиться и нет особенной причины ожидать какого-либо из этих
событий преимущественно перед другими, то такие события отличаем
названием случаев равновозможных. Итак, 1 и 0 суть пределы вероятности
событий, из которых первого оно достигает, увеличиваясь, для событий
необходимых; второго, уменьшаясь, для событий невозможных. Для всех
же других событий, в которых нет необходимости и невозможности,
вероятность остается отличной от 1 или 0. Здесь приближенно мы считаем
несомненным, что события будут или не будут иметь места, если
вероятности их мало разнятся от 1 или 0. Таковы все заключения, выводимые
из наблюдений и свидетельств».
Не может быть сомнения в том, что Чебышев ясно видел
недостаточность использованного им «элементарного алгебраического метода»; в
частности, теорема Пуассона (закон больших чисел) доказана была им в
работе [1] лишь для случая ограниченного числа различных вероятностей.
По-видимому, в поисках новых путей он только во время печатания
диссертации нашел общее элементарное доказательство теоремы Пуассона
с соответствующей оценкой погрешности, представляющее первый пример
экстремального рассуждения, характеризующего все дальнейшее
творчество Чебышева. Изложению этого доказательства посвящена работа [2]
411
1846 г.1, являющаяся ценным оригинальным добавлением к диссертации.
Приведу текстуально характерное для П. Л. Чебышева начало статьи:
^Предметом этой заметки будет доказательство следующего предложения:
можно всегда назначить столь большое число испытаний 2, при котором
будет сколь угодно близка к достоверности вероятность того, что
отношение числа повторений некоторого события Е к числу испытаний не
уклонится от средней арифметической вероятностей события Е свыше данных
пределов, как бы ни были тесны эти пределы.
Это основное предложение теории вероятностей, заключающее как
частный случай закон Якова Бернулли, было выведено Пуассоном из
формулы, которую он получил, вычисляя по приближению величину одного
довольно сложного определенного интеграла («Recherches sur la probabilite
des jugements», гл. V). Однако, как ни остроумен способ, употребленный
знаменитым геометром, он не доставляет предела погрешности, которую
допускает этот приближенный анализ, и вследствие такой неизвестности
величины погрешности доказательство не имеет надлежащей строгости.
Доказательство Чебышева ооновано на следующем замечании:
вероятность Рт, что событие Е при \х испытаниях случится не менее чем т
раз, равна некоторому выражению, которое симметрично относительно
всех pk, где pk (к = 1, 2, .. ., \х) есть вероятность Е в к-м испытании, и
линейно относительно каждого из чисел Рк (например, р\ и р2); таким
образом,
Pm=U+V(Pi + p2) +WPiP2,
где С/, "Р, W уже не зависят от р\ и р2. Из этого равенства видно, что если
О <а = pi +р2< 1, то Рщ — U -\- Vet + Wp\p2 достигает наибольшего
значения либо при pi = р2 = я/2, либо при pi = 0; случай а > 1
приводится к предыдущему заменой написанного выражения Рт аналогичным
выражением, составленным при помощи qi = 1 — ph q2 = 1 — Р2. Отсюда
без труда получается такая теорема специфически «чебьгшевского» типа:
наибольшая величина, которую может иметь Рт в случае, когда
Pi + Рг + .. + р =5, соответствует величинам pi, ..., р , данным
уравнениями
Р1 = Р2 = ... = Р0=0, Pq+i = ...=Pq+g=1,
S-o
Pi = (q + а < £ < \i),
м- — е — сг
где q Г^ 0, а ^ 0 означают определенные числа.
1 В подзаголовке к этой работе, напечатанной в «Journ. fur die reine u. angew.
Math.», значится: Extrait d'un memoire russe sur Tanalyse elementaire de la theorie
des probabilites. Здесь, очевидно, имеется в виду диссертация [*], хотя главная часть
этой заметки в диссертации отсутствует; из этого можно заключить, что работа [2]
фигурировала при защите П. Л. Чебышевым его диссертации, которая состоялась в
Москве в 1846 г.
2 Следовало упомянуть, что испытания независимы (поскольку фактически Че-
бышев здесь, как и во всех своих работах, рассматривает лишь независимые
события). Принципиальная ошибка Пуассона, фактически исправленная Чебышевым,
заключалась в том, что он применял свою теорему без разбора ко всяким событиям.
412
Таким образом,
(jx — q — a)! / S — а \т~° ( jx — £ — q у-т-и
(w — а)! ([л — яг — q)! ч ja — q — a j к \i — q — а '
X
jn — ттг — о S— а
1 + +
т — а + 1 |х — £ — q
заменяя прогрессией члены суммы, убывающие быстрее, чем в геометри-
\х — т — о 5 — су
ческой прогрессии с знаменателем , находим
т — а + 1 fx — *S — q
(ц,— q — or)! / 5 —a ^|w-a/ jx — £ — Qy-m-Q+im — a
m (то — a)!([x — 77i — q)!^ |x — q — cr ^ jx — q —- cr m — S'
После этого Чебышев замечает, что при т > S + 1 правая часть
неравенства увеличивается с уменьшением целых чисел Q > 0 и а > 0; отсюда,
полагая q = a = 0, получаем простое неравенство
т
Pm<Qm~ ~, (1)
/тг — о
где Qm есть вероятность, что число появлений события Е равно 771, когда
все вероятности pi (i = 1, 2, ..., [х) равны pi = р = S/\x (т. е. когда схема
Пуассона превращается в .соответствующую схему Бернулли). Благодаря
аналогичной оценке вероятности Р'п, что событие Е произойдет не более
чем то < S — 1 раз, доказательство заканчивается без труда; таким
образом, те же полученные в работе [!] для случая Бернулли весьма
точные значения нижней границы числа [х испытаний, достаточных для того,
чтобы вероятность выхода уклонения из данных пределов была меньше
некоторой произвольно малой величины, оказываются применимы к
общему случаю Пуассона. Возможно, что мысль о существовании
неравенства вида (1) появилась у Чебышева в связи с -фактом, который вряд ли
ускользнул от его внимания, что дисперсия числа появлений события
Е при jx независимых испытаниях, соответствующих данной средней
вероятности р = S/\i, максимальна, когда все вероятности равны. Как бы
то ни было, своеобразное остроумное доказательство этого неравенства
является лишь изящным эпизодом в творчестве Чебышева, не связанным
с методами математических ожиданий или моментов, которые он создал
значительно позднее. В то время он еще был далек от этих методов,
которые открылись ему в связи с решением конкретных проблем из других
областей математики; «трансцендентные» методы Лапласа его не
удовлетворяли, а обычные алгебраические методы оказались слишком
слабыми для того, чтобы существенно расширить поле надежных приложений
теории вероятностей.
5. Как известно, в течение ближайших лет после защиты
магистерской диссертации Чебышев написал ряд замечательных работ по
интегрированию алгебраических функций посредством элементарных функций и
обессмертил себя классическими открытиями по распределению простых
чисел, разрешив задачи, не поддававшиеся усилиям величайших
математиков.
413
Решение задач об алгебраических интегралах привело Чебышева к
углубленному изучению свойств алгебраических непрерывных дробей,
которые вскоре сделались его излюбленным орудием исследования,
оказавшимся в руках Чебышева исключительно мощным и плодотворным.
Трудно, однако, предположить, что Чебышев тогда уже предвидел, как
аппарат непрерывных дробей будет им использован в теории
вероятностей; впервые эта мысль могла явиться после того, как в 1855 г. Чебышев
применил непрерывные дроби к интерполированию по способу
наименьших квадратов [6]. Было бы большой натяжкой относить к теории
вероятностей работы Чебышева о способе наименьших квадратов, прямой
задачей которых являлось целесообразное изменение техники вычислений,
позволяющее уточнять в случае надобности полученные приближенные
выражения наиболее простым и экономным образом;
формально-алгебраические преобразования не имеют при этом никакого
теоретико-вероятностного значения. Глубокое теоретическое значение интерполирования
по способу наименьших квадратов заключалось для Чебышева не в том,
что при более или менее 'произвольных допущениях его можно связать с
теорией вероятностей; самым важным в его глазах было то, что этот
способ является естественным конструктивным подходом к задаче
разложения произвольной эмпирической функции в ряд полиномов (сходящийся
в некотором смысле наилучшим образом) в данном промежутке любой
длины, между тем как ряд Тейлора —- Маклорена достаточно хорошо
аппроксимирует функцию лишь при малых значениях независимой
переменной. Благодаря созданному им аппарату непрерывных дробей
Чебышев при помощи алгебры выходит далеко за пределы классической
алгебры в необъятную область общей теории функций; теперь вся область
ненадежных «трансцендентных» методов анализа доступна его точным
надежным методам расширенной алгебры, и с их помощью он
соответствующим образом должен поставить и со всей алгебраической строгостью
разрешить вышеупомянутые основные проблемы теории вероятностей.
Действительно, параболическое интерполирование функции Ц>(х) по ее
значениям в т точках х\ по способу наименьших квадратов заключается,
как известно, в том, что определяется полином Рп (х) степени п < т + 1
по условию, чтобы средняя квадратичная ошибка (при данных весах
02(*г))
т т
/«= 2[Рп(^)-Ф(^)]2е2(хг) 2е»(ц)=1| (2)
i=i l
была возможно мала. При т конечном минимум /п, уменьшаясь с
возрастанием п, обращается в нуль, когда п = т — 1, и Рп{х) стаповшгтся тогда
интерполяционным полиномом Лагранжа. Принципиально важное и
практически очень полезное упрощение решения этой алгебраической задачи,
на деталях которого мы здесь не будем останавливаться, осуществленное
Чебышевым, заключалось в том, что .он предстаавоил шгтерполяционный
полином Лагранжа Pm-i(x) в виде
Pm_i(;r)=2 4nM*). (3)
о
414
где tyk(x) — полиномы степени к ^ т — 1, построенные так, что полиномы
п
Рп(х)= %Аь$к(х) (n<m — i) (4)
Э
для всякого п < т — 1 обращают в минимум среднюю квадратичную
ошибку /^; оказывается, что этим свойством обладают знаменатели tyi(x)
последовательных подходящих дробей непрерывной дроби, возникающей
^ 92(*г)
из 2j » которые таким образом являются ортогональными поли-
А X Х{
номами при весе Э2(я), т. е. удовлетворяют условиям
т
2 V4xi)^s(xi)b(*i)=0 (зФг). (5)
В скором времени Чебышев распространяет свои выводы на случай,
когда т —► оо, т. е. конечная сумма (2) превращается в интеграл, и,
аналогичным образом разрешая задачу обращения в минимум интеграла
ъ
In= \ [Pn{x)-q(x)¥&(x)dx, (6)
о
строит на базе алгорифма непрерывных дробей общую теорию
разложения произвольной функции в ряд по ортогональным полиномам. Таким
образом, нельзя не признать, что Чебышев является основоположником
этого центрального направления современной теории функций. Правда,
полученные Чебышевым разложения по важнейшим ортогональным
полиномам носят по преимуществу формальный характер, между тем как
условия их сходимости не были им освещены с надлежащий полнотой;
по аналогии с тем, что в случае т конечного минимум средней квадра-
тичиой ошибки In обращается в нуль при п = т — 1, в примерах,
рассматриваемых им, Чебышев утверждал без доказательства, что минимум
о
1п стремится к пулю для п-+- оо также и в случае (6).
6. Эти общие идеи Чебышева приходят в соприкосновение с теорией
вероятностей в его статье «О разложении функций одной переменной»,
доложенной Академии наук 26(14) октября 1859 г., где Чебышев
впервые дает разложение произвольной функции F(x) на всей вещественной
оси по полиномам
Ъ(х) = екх'-^Г-, (7)
являющимся, как показывает Чебышев, знаменателями подходящих
дробей
1/ —\— du. (8)
у • л J х — и
' —со
Разложение это имеет вид
оо
415
где
l\(2kyAi=V --\e-k^i(x)F(x)dx.
—oo
Разложение (9), если f (x) = F (x) e~x^2 (к = 1/2) есть плотность любого
oo oo oo
нормированного I \ xf{x) = 0, \ f(x)dx = \ x2f(x)dx = 1 1 закона, по-
лучает вид
2 Г
/(ж) = ——
i + 2^*w
и после почленного интегрирования дает
1«Ь Л.
dr.
(10)
(10 bis)
Формула (10 bis) применяется в мемуаре Чебышева «О двух теоремах
теории вероятностей», где коэффициенты А\ выражаются посредством
моментов величины Хп = (1/iBn) 2 Ui-> являющейся нормированной суммой
1
независимых величин щ. Естественно поэтому предположить, что, найдя
формальное разложение (10 bis), Чебышев еще в 1859 г. видел более или
менее ясно путь к доказательству предельной теоремы теории
вероятностей, которое должно было бы установить некоторую границу для
1
У2я
X оо
2
е * ^\A{tyi(x)dx
—оо 3
стремящуюся к нулю, когда число п слагаемых щ неограниченно
возрастает. Поскольку коэффициенты Ai = (1/Z!) \ tyi(x)f(x)dx полностью оп-ре-
-°° h
деляются моментами, т. е. математическими ожиданиями Xn(A^Z),
очевидно также, что эти математические ожидания приобретают особое
значение. Несомненно, однако, что Чебышев вполне отдавал себе отчет
в том, что проблема анализа, стоящая перед ним, того же порядка
трудности, что и задача придать необходимую строгость «трансцендентным»
методам Лапласа.
7. С 1860 г. преподавание теории вероятностей в Петербургском
университете переходит от академика Буняковского к Чебышеву, что,
очевидно, является дополнительным стимулом для направления его
размышлений в эту область. Однако в течение ряда лет предельная теорема для
сумм независимых величин, по-видимому, не поддавалась усилиям
Чебышева, по-прежнему оставаясь недосягаемой целью. Значительно позднее,
в курсе лекций 1879/80 г. по теории вероятностей, записанном А. М.
Ляпуновым, Чебышев, не упоминая о методе моментов, излагает студентам
метод Лапласа и, обращая внимание на его недостаточность, говорит:
«...этого предела не может дать околько-нибудь удовлетворительным
образом математический анализ в настоящем своем состоянии».
416
Напротив, первую задачу — дать общее элементарное доказательство
закона больших чисел, доступное среднему студенту,— Чебышев блестяще
разрешил в 1866 г. Благодаря введению полной четкости в
математические определения п рассуждения теории вероятностей и, в частности,
благодаря точному установлению общих свойств математических ожиданий,
он приходит к своему знаменитому выводу так называемого неравенства
Чебышева, из которого непосредственно вытекает данная Чебышевым
классическая формулировка закопа больших чисел:
«Если математические ожидания квадратов [независимых] величин
ии иг, из, ... не превосходят данного конечного предела, то вероятность,
что средняя арифметическая N таких величин от среднего
арифметического их математических ожиданий разнится меньше, чем на какую-нибудь
данную величину, с возрастанием числа N до оо приводится к единице».
Статья [3] «О средних величинах», содержащая это исследование
Чебышева, была доложена Академии наук в 1866 г. и напечатана в 1867 г. в
«Математическом сборнике», т. II, и в том же году -- в Журнале Лпувил-
ля, т. XII. В том же томе Журнала Лиувилля была воспроизведена статья
французского математика Бьенэме (Hionaime), которая содержала в
несколько менее общей форме неравенство, подобное неравенству
Чебышева. Это обстоятельство в некоторой мере лишает нашего великого
соотечественника /приоритета. А. А. Марков в своем курсе «Теория
вероятностей» (стр. 89, изд. 4-е, 1922) называет вышеупомянутое неравенство
неравенством Бьенэме — Чебышева и па стр. 92 мотивирует ото
следующим образом: «Мы соединяем с этим замечательным простым
неравенством два имени Бьенэме и Чебышева по той причине, что оно впервые ясно
высказано и доказано Чебышевым, но основная идея доказательства была
значительно раньше указана Бьенэме, в мемуаре которого «Considerations
a Tappui de la decouverte de Laplace sur la loi de probabilite dans la metho-
de des moindres carres» (Coniptes Rend us, XXXVII (1853); Journ. de Liou-
ville, II serie, XII (1867)) можно найти и самое неравенство,, обставленное
только некоторыми частными предположениями». Упомянутая работа
Бьенэме имела своей целью защитить теоретико-вероятностное
обоснование Лапласа метода наименьших квадратов, оспариваемого Коши.
Познакомившись с этим мемуаром Бьенэме, Чебышев, по-видимому, нашел
мысли, близкие к своим собственным. В связи с этим приведем полностью
начало доклада Чебышева «О предельных величинах интегралов» [8],
прочитанного в августе 1873 г. в Лионе на Конгрессе Французской
ассоциации для преуспевания наук: «В мемуаре весьма интересном во многих
отношениях, который был прочитан Бьенэме в Академии наук в 1833 г.
и который был напечатан в Comptes Rendus и воспроизведен в Журнале
Лиувилля (2-я серия, т. XII, 1867) под заглавием «Considerations а Гаррш
de la decouverte de Laplace sur la loi de probabilite dans la methode des
moindres carres», знаменитый ученый предлагает метод, заслуживающий
особенного внимания.
Этот метод состоит в определении предельной величины интеграла
а АЛ
f(x)dx по величинам интегралов J f(x)dx, ^ xf(x)dx, ..., где А > а.
О 0 0
27 С. H. Бернштейн
417
a f(x) неизвестная функция, подчиненная только одному условию —
сохранять знак « + » между пределами интегрирования. Простое и строгое
доказательство закона Бернулли, находящееся в моей заметке под
заглавием «О средних величинах», представляет один из результатов, легко
получаемых из метода Бьенэме, при помощи которого он сам пришел к
доказательству одного предложения о вероятностях, из которого закон
Бернулли вытекает непосредственно».
Фактически мемуар Бьенэме не содержит других результатов
применения рекомендуемого им здесь метода, который, с другой стороны, в
полной мере соответствовал собственному ходу мыслей Чебышева. Вот почему
Чебышев, подготовленный своими предыдущими исследованиями к
решению общей задачи, поставленной Бьенэме, усматривая в ее решении
верный путь к доказательству предельной теоремы, продолжает свои
размышления в этом направлении, результатом которых является
открытие знаменитых неравенств Чебышева, опубликованных в упомянутой
статье [8].
Пусть
в в в
со = \ f(x)dx, ci= \ xf(x)dx1...i cm = ^ xmf(x)dx>
л л л
так что имеет место формальное равенство
J
л Z — X
А
Если q>{z)lty{z) есть одна из подходящих дробей, получаемых при раз-
в
f(x)dx
С Т(Х)ах
ложении \ в непрерывную дробь, и если zt, £2, ..., z\, zi+u
J 7. — т.
л Z —X
А
..., zn, ..., zm суть корни уравнения (степени ш) *ф(я) = 0,
расположенные в порядке возрастания, то всякий раз, когда между пределами х = А,
х = В функция f(x) остается положительной, величина интеграла
J №dx
удовлетворяет неравенствам
7l-i Zn
лм<1>^<ш--
при этом пределы неравенства (12) не могут быть сближены.
Неравенства (12) являются, коротко говоря, выражением того факта,
*«
что крайние значения ] f(x)dx для всех возможных положительных
функций f(x), для которых разложение (И) в непрерывную дробь имеет
ту же самую подходящую дробь <p(z)A|?(z) (т. е. те же моменты с0, ...
..., Cm), соответствуют случаю, когда непрерывная дробь (11) конечна.
418
8. Из этой фундаментальной теоремы видно, что, установив
неравенства (12), Чебышев нашел общий метод для решения основного для теории
вероятностей вопроса, в какой мере данные математические ожидания
последовательных степеней, или так называемые моменты случайной
величины (которые, как известно, не произвольны, но должны всегда
удовлетворять некоторым условиям), определяют закон вероятностей этой
величины. Кроме того, эти неравенства открывают путь для ответа па вопрос,
определяется ли однозначно закон вероятностей f(x) случайной величины,
если известны математические ожидания всех ее степеней (проблема
единственности в теории моментов). Действительно, из неравенств (12)
следует, что для этого необходимо и достаточно, чтобы с увеличением m
разность между соседними корнями zi, zi+i знаменателей г|з(я) степени m
соответствующих подходящих дробей для любого I стремилась к нулю,
так как в этом и только в этом случае всякое вещественное число а
является пределом z\ и разность между левой и правой частями (12)
стремится к нулю. Таким образом, ключ к доказательству предельной теоремы
был теперь найден Чебышевьш: более углубленное исследование нспре-
/ к 1г e~kx2
рывной дроби J/ — j ■ dx, важнейшие свойства которой, как мы
—оо
видели (стр. 415—41G), были ему известны уже в 1859 г., должно
показать, что нормальный закон вероятностей однозначо определяется
совокупностью всех присущих ему моментов. Затем остается еще уточнить
доказательство факта, который, как увидим дальше, стал для него, по-
видимому, несомненен уже в молодые годы при изучении классиков и
служил ему все время путеводной звездой, а именно, что при возрастании
числа п независимых величии щ, ш, ...,ип
Sfl> (Ц1 + ^2+ ... + ип)1
/ п \2 п
где Вп =3Rf ^ m ) = 2 ®luu ^Ui = ^> имеют пределами соответствую-
^ 1 ' 1
щие моменты степени I нормированного нормального закона Лапласа —
Гаусса.
Однако, Чебышев, не имевший до сих пор соперников в созданных им
новых областях математики, не спешил ни с публикацией доказательства
своих неравенств 1873 г., пи с преодолением последних препятствий,
отделявших его от давно намеченной цели; работы всего следующего
десятилетия относятся к другим направлениям его многостороннего
творчества, по большей части посвященным также давно стоящим па очереди
исследованиям и конструкциям механизмов на основе созданной им
теории функций, наименее уклоняющихся от нуля.
Между тем в 1883 г. в «Сообщениях Харьковского математического
общества» появилась статья А. А. Маркова «Доказательство некоторых
неравенств П. Л. Чебышева», содержащая общий, весьма остроумный и
простой вывод вышеуказанных неравенств Чебышева. После появления
этой замечательной статьи А. А. Маркова, так глубоко проникшего
в сущности идей и упростившего методы своего учителя, Чебышев
419
27*
немедленно приступает к завершению своего многолетнего
исследования о предельном законе для суммы большого числа независимых
величин.
9. Решающий шаг в этом направлении сделан в работе «Об
интегральных вычетах, доставляющих приближенные величины интегралов»,
доложенной Академии паук оО (18) ноября 188G г.
После некоторого видоизменения выражении, стоящих в левой и
правой частях неравенств (12), вытекающего из тождественных
зависимостей между числителями и знаменателями последовательных подходящих
дробей, Чебышев применяет здесь свои неравенства к оценке крайних
пределов, между которыми должен быть заключен интеграл
сел и
J f(x)dx (/(*)> 0),
оо оо оо
J/(s)da: = l, J */(*)(& = О, J x2f(x)dx = — ,...,
«'
1-3...(2те —3)
J x*m-*f(x)dx = — -g;;_2—'-, J *2»-i/(a.)rfx==0. (is)
—оо - —со
Вышеупомянутое преобразование неравенств (12) приводит к выводу, что
если две функции f(x) > 0, fi(x) >0 удовлетворяют условиям (14)
(т. е. определяются моментами до (2т—1)-го порядка включительно),
г;
соответствующим нормальному закону -- _^_\ е~^х2/2dx, то при любом т
У2я J
' —оо
V V
| Г f(x)dz- \ h(x)dx\ < , (14)
о
ф? (v) . n 2/ dle-#*-/2
где Гг = .. ,, , обозначая через i|>z(z) = е*"2'2 —— указанные выше
г!#г ал'
_ q г°° е-в1^ ,
знаменатели подходящих дробей, возникающих из — _=zz- \ dx.
Любопытен прием, посредством которого Чебышев получает нужную
ему нижнюю границу суммы
m-i
Sm-i = 2 TU (15)
о
которая бесконечно растет с увеличением m (откуда вытекает, что закон
вероятностей, обладающий всеми нормальными моментами, должен быть
тождественен нормальному закону). Из уравнения в конечных разностях
$i(v) + qzv$i-i(v) + (Z - 1) q^i-ii») = 0 (<jp0(v) = 1),
определяющего полиномы tyi(v), которое связывает знаменатели
последовательных подходящих дробей, без труда получается уравнение для Ti(v)
ITi - (qW - I + 1) Гм + (qW - I + 1) 7M - (I - 2) TVs = 0,
420
которое Чебышев решает, вводя производящую функцию
8(0=2^'- (16)
О
Для определения Q(t) после простых преобразований получается
дифференциальное уравнение
(1.+ t) (1 - t*)Q'(t) = [<fv°- -(gV- - 1)* + /2]0(O,
откуда q2v4
где постоянная С = 1, так как 9(0) = Го = 1. Из (17) сразу видно, что ряд
неотрицательных чисел 2^ расходящийся, т. е. Stn-i = 2 ^i бесконечно
о' о
растет при т —+ оо. Но для дальнейшего этого недостаточно, так как
вообще для Чебышева, как мы видели, более существенное значение, чем
предельная формула при т —* оо, имеет ее погрешность при т конечном,
именно в этом главная цель и достоинство его неравенств (12).
Интересно отметить, что прием, посредством которого Чебышев
получает нижнюю границу для Sm-i, применимый к любому степенному ряду
с неотрицательными коэффициентами, связывается у него с простым
частным случаем неравенств (12), который в сущности лежит в основе его
классического доказательства закона больших чисел; при этом следует
также обратить внимание на то, что Чебышев здесь вводит, в других
только обозначениях, интегралы Стильтьеса: «Чтобы приложить к суммам
оо
2 ТУ, T0 + Tit + ... + 7W'-',
и
— говорит Чебышев, —то, что там3 было дано для интегралов, мы
представляем эти суммы под видом интегралов
оо т—1
\ Ytxdx, \ Ytxdx,
изображая через Y функцию, равную нулю при всех величинах х, не
смежных с О, 1, 2, . . . , а при величинах х, бесконечно близких к О, 1, 2, . . . ,
со 1
имеющую такие значения, иркг которых интегралы \ Y dx, \ Y dx,
О 1-(0
2
\ Y dx,... с приближением со к нулю беспредельно приближаются к ве-
2-со
личинам Г0, Т\, Г2, Для функции У, таким образом определенной, будем
яметь
оо оо
'о о
\ Ytx dx = To + Tit + . .. + Tm-iim-h.
m—i
3 Т. е. в неравенствах (12).—С Б.
421
Достаточно изменить обозначения Y dx = dT, где Т — соответствующая
ступенчатая функция, чтобы получить интеграл Стильтьеса. Отсюда видно,
что введение интеграла Стильтьеса в теорию вероятностей ощущалось
Чебышевым как техническая необходимость, и в своих исследованиях он
фактически пользовался аналогичным аппаратом.
tb"(t)
Полагая та — 1 = —- h 1, Чебышев находит4, таким образом, что
O'(J)
m~1 t\ft'(t)]2
^T"'>^-irwrm (0<(<1) (1S)
для любой функции 0 (t) с неотрицательными коэффициентами;
неравенство (18), очевидно, не может быть улучшено, так как в случае Q(t) =
= То + Tm-it™-! оно приводится к Т0 + Тт-^т^ > Т0. Из (18) следует
тем более, что
^-ЦТ1>™- *-'т+т- <19)
tb"(t)
если гп — 1 = "7777—^ 1- Подставляя в (19) значение функции 9(£) =
о (t)
q*v4
е 1+* , Чебышев после небольших преобразований и упрощений
У.1 - Р
правой части (19) находит, что
ЗУЗ(/гг2-277г + 3)^ (eV + 4)8
откуда следует, вследствие (14), теорема:
Если функция /i(z), оставаясь положительной, удовлетворяет (13), то
I j ft(x)*_i t .-^■(1,|<чв<-,-й* + "1<!У + 1)'
1 Л V2jt-oo ' 2(ттг-3)3Ут-1
(14 bis)
(т. е. стремится к нулю с возрастанием m не медленней, чем величина
порядка 1/Ут).
Как было замечено выше, этот строго доказанный фундаментальный
результат Чебышев имел право формулировать в общепринятых теперь
обозначениях интеграла Стильтьеса.
10. Последний шаг для завершения доказательства предельной тео-
4 Неравенство (18) легко получить непосредственно, замечая, что
m_i оо оо
е« - y,Tit* = y^Ttt^ :У^^
Jmmi ^-J т— 1 ^
771 — 1
от т
откуда
771.—. 1
2 т -^ <в'(0 W(t)]2
о m-i «S^ (0 + 9' (0
422
ремы о суммах независимых случайных величин сделан Чебышевым
в работе 1887 г. «О двух теоремах относительно вероятностей» [4]. Первая
теорема, о которой здесь идет речь, это теорема, доказанная им в 1866 г.
в мемуаре «О средних величинах» (закон больших чисел), которую Чебы-
шев, как бы подводя итоги всем своим исследованиям по теории
вероятностей, воспроизводит в начале статьи, прежде чем приступить к
доказательству и формулировке второй теоремы.
Чебышеву оставалось лишь доказать, что
/^ \'1к / П \2M-1
lim ~к =1-3...(2А-1), lim „...-Л о, (21)
П-+0О JLJyi П-+ОО J->U
п
где Ж т = О, Ж щ = а% , ЗКюГ = а™ , Вп = 2 а» » так как он считал оче-
1
видным, что если последовательность законов вероятностей Рп (х) такова,
со со
что Нш \ xkdPn{x) — си = \ xhdP(x), где моменты сц, однозначно опре-
—со —со
деляют пекоторый закон Р{х), то Рп(х) — Р(х). Это последнее свойство,
которое действительно нетрудно установить, было впервые выведено
с полной строгостью Л. А. Марковым при помощи неравенств Чебышева.
Надо признать, что доказательство Чебышевым предельных равенств (21)
не вполне удовлетворяет требованиям строгости, которые он
провозглашал в молодости ([*], [2]); здесь Чебышев применяет метод, основанный
на преобразовании Лапласа, отличный от его обычных методов зрелого
возраста, и возможно, что, если бы он не торопился с опубликованием
этой последней работы, появившейся всего несколько месяцев спустя
после только что нами рассмотренной [9], он заменил бы весьма
интересный эвристический «трансцендентный» метод, вероятно, давно им
найденный, бол!ее точным алгебраическим доказательством.
Меняя несколько обозначения Чебышева, изложим ход его
рассуждений, отметив, в чем заключается его недостаток, и как, без особого труда,
Чебышев мог бы его исправить.
Чебышев рассматривает функцию
V ик ик
(22)
где s — произвольное постоянное. Существует ли это математическое
ожидание? Для чисто мнимых s оно, конечно, существует, но
Чебышев этого не оговаривает и, кроме того, без всяких объяснений
разлагает в ряд
ик
ш >^=1 + ±**_+_ + £_^_+.... (23)
Л*п т\Вп
Однако ряд этот вообще не будет сходящимся ни при каких |s|>0.
423
Для законности этого разложения при [$|<Д, например, достаточно
было бы внести ограничение, что
UH
вТ-. <т\а?1п (т> 2),
(24)
где Хп-^-0 при п—»ос.
В таком случае из (23) следует, что
suk
meY1Fn
— 1
2Вп
/7(2)
(2Ь оо
(25)
полагая |s \ <^ -у.
Беря логарифм от (23), Чебышеи получает формальное разложение
Без условия (24) эта операция незаконна; но при услоьии (24)
получаем
1 + Ж"(1+°'Л,,)](|Ь'14 2 ' |0"I<2J
In M
•> (2)
2£,L
■)-
откуда
п Г 2 ® "12
bXn(s) -2 In f'i + -i^- (1 + W I = 4- (1 + °*»
fe=i L 2/j„ -1 z
+ (-!)'
c2m
)+...+
2[«h (1 + елли)]'» + ... (|ei<2). (20)
»»(2fin)mfttr
Таким образом, вое коэффициенты, кроме первого, этого степенного ряда,
сходящегося при Is | < 1/2, будут стремиться к 0, если
2(«iV 2(«12))'
ft=i
fe=i
Но, вследствие (24),
2 -*"
— 0.
(27)
ah
k=l
2 afm) ^ ВГ1 2 Л„ (2m)! = (2m)! В™К,
h=i fe=l
т. е. для каждого данного т
ХЧ (2m)
2jr
|ЛЛ
fe=l
Б"
< (2/7l) ! Xn У 0 (И К ОО ) ,
откуда вытекает (27), так как (a/t )т^а& .Следовательно, lim ]nxn(.<?) =
п ->-оо
= s2/2 при | s | < 1/2, и, по свойству коэффициентов строки Тейлора, из
этого равенства вытекает, что все коэффициенты сходящегося при Is I <^
•С 1/2 ряда Xn(s) стремятся соответственно к коэффициентам ряда
424
e3"/2=Y. * l-3...(2t—,1). Как мы видим, условие (24) достаточно
для того, чтобы сделать вполне строгим рассуждение Чебышева, не
прибавляя к нему ничего существенного. Таким образом, по справедливости
следует считать, что предельная теорема о суммах независимых величин
по существу вполне доказана Чебышевьгм при условии (24). Условие
(24) охватывает все практически важные случаи. Действительно, оно
соблюдается, если5
I u>k I
-—=.- < Ап {лп — 0 при п — оо), (28)
так как тогда | а<™) | < а^(%п увп)т~2 при т > 2 и
I /т(т)1
-^4- ^ СЛ? < m! af Xn. (24 bis)
П
К сожалению, Чебышев не ввел ограничения, подобного (24), и
предельная теорема в данной им чрезмерно общей формулировке неверна.
В 1898 г. А. А. Марков [17Ь] посредством прямого алгебраического
вычисления показал, что предельные равенства (21) верны, если только
соблюдается условие
k~Bmlz ~ 0 (29)
п
для всех целых т > 2, которое несколько слабее ограничения (24),
восполнив, таким образом, и этот технический пробел гениального
доказательства Чебышева, основанного на методе моментов.
11. Несомненно, самым ярким выразителем идей и направления
Чебышева в теории вероятностей был А. А. Марков, наиболее близкий
своему учителю по характеру и остроте своего математического дарования.
Если Чебышев, в особенности к концу жизни, а также и в своих лекциях
иногда сам уклонялся от требуемой им четкости формулировок и
строгости доказательств в теории вероятностей, то классический курс
исчисления вероятностей А. А. Маркова и его оригинальные мемуары,
являющиеся образцами точности и ясности изложения, в наибольшей степепи
содействовали превращению теории вероятностей в одну из самых
совершенных областей (математики и широкому распространению направления
и методов Чебышева. Как мы увидим дальше, глубокий анализ в духе
Чебышева зависимостей между наблюдаемыми случайными явлениями
позволил Маркову позднее расширить -существенным образом область
теории вероятностей, введя в рассмотрение зависимые случайные
величины.
В мою задачу не входит обзор всех современных достижений теории
вероятностей, которые были бы невозможны без твердой математической
базы этой теории, возведенной трудами Чебышева и закрепленной
Марковым. Я хотел бы лишь отметить этапы дальнейшего развития проблем,
связанных с законом больших чисел и предельной теоремой, которые все
5 Из условия (28), как доказано было впоследствии, легко выводится самая
общая форма предельной теоремы [11с].
425
непосредственно примыкают к исследованиям ^ебышева и развивают его
идеи.
Остановимся сначала вкратце на законе больших чисел. Простое
замечание А. А. Маркова [17d], непосредственно вытекающее из неравенства
Чебышсва [3], что для применимости закона больших чисел к величинам
Hi, и2; ..., ип ($&т = 0) достаточно, чтобы Вп/п2 —+ 0, где Вп =
= Зй (hi + иг + ... + &п)2, привело его и впоследствии других авторов
к целому ряду (интересных достаточных условий для применимости закона
больших чисел как в случае независимых, так и зависимых величин щ.
При этом, вводя вспомогательные величины и/ по условию, что и/ = 1ц,
когда I Ui I < Ln (i< п) и щ' = 0, когда | щ | > Ln, Марков получает
возможность доказать применимость закона больших чисел также и в ряде
случаев, когда 3R^f, а следовательно, и Вп не существует. Например, он
следующим образом обобщает теорему Чебышева [3]: если для некоторого
р > 1 Зй I щ \р < L, где L — некоторая постоянная, то к независимым
величинам щ применим закон больших чисел.
Из других обобщений, получаемых аналогичным образом, отметим
замечательную по своей простоте и максимальной общности (в некотором
смысле) теорему А. Я. Хинчина [21Ь]. Если все независимые величины щ
подчиняются одному и тому же закону вероятностей, причем 3R щ
существует, то к величинам щ применим закон больших чисел.
Вывод более или менее общих необходимых условий для применимости
закона больших чисел к независимым величинам также опирается на
неравенство Чебышева и на простое замечание [lld], что закон больших чисел
не может быть применим к величинам щ в частном случае, когда законы
вероятностей щ симметричны и таковы, что существует число с > 0,
обладающее свойством, что вероятность неравенства | щ | > сп, по крайней
мере для одной из величин щ (i<^n), не стремится к нулю с
возрастанием п.
Существенное дополнение к неравенству Чебышева дает следующая
теорема А. Н. Колмогорова [13], основанная на соответствующем развитии
классического рассуждения Чебышева.
Вероятность осуществления всех неравенств (i = 1, 2, ..., п)
| Щ + и2 + ... + Щ | < t IjBn,
где щ — независимые величины, больше, чем 1 — 1/£2. Эти неравенства
Колмогорова распространены были С. Н. Бернштейном [llg] на зависимые
величины щ, обладающие свойством, что $&т = 0, каковы бы ни были
значения гг±, ..., щ-i.
Задача определения более точной, чем 1 — 1/£2, верхней границы
вероятности неравенства Чебышева
2и,]«£*уяя (я„=2с*2))
при любом п по необходимости требует введения некоторых более или
менее значительных ограничений. Отметим [11Ь], например, оценку
вероятности <2, что
71
2»<>2*у1£; (30)
i
426
эта оценка
Q < е-*2
(Щ
верна для всех п, t > 0, если t ^ У#п/(2#), при условии
где 7/ — некоторая постоянная. Доказательство представляет также пеко-
торое развитие идей классического рассуждения Чебышева. Кроме того,
та же оценка получается и для зависимых величин при условии, что
У&Щ = 0 и $RUi = Ci , каковы бы ни были предшествующие зпачения
щ (к < £), и эта же оценка сохраняется [llg] при замене неравенства (30)
соответствующими неравенствами, как в теореме Колмогорова.
12. Столь же фундаментальное значение имеют работы Чебышева для
дальнейших исследований об условиях приложимости предельной
теоремы. Здесь необходимо сначала остановиться на случае, когда величины
Щ независимы. Мы уже говорили о тех уточнениях доказательства
Чебышева, основанного на методе моментов, которые внес А. А. Марков,
придав рассуждениям Чебышева безупречную строгость при условии, что
величины щ не только имеют моменты, т. е. -математические ожидания
любой степени, но, кроме того, удовлетворяют требованию (29).
Таков результат, полученный А. А. Марковым [17с] в 1898 г. Вскоре
(в 1901 г.) ограничение (29) было замечательным образом ослаблено
А. М. Ляпуновым [16 а> ь].
А. М. Ляпунов, как известно, был также одним из ближайших
учеников Чебышева, испытавшим на себе его глубокое влияние. Известно,
например, что проблема фигур равновесия вращающейся жидкости, которая
занимает центральное место в исследованиях Ляпунова, была ему
предложена Чебышевым, что свидетельствует, между прочим, о том, что
интересы Чебышева выходили за пределы областей математики, в которых
проявилось его личное оригинальное творчество. Однако влияние
Чебышева на Ляпунова, который по силе дарования не уступал ни одному из
своих современников как в России, так и на Западе, было не столь
исключительным. Ляпунов лучше других представителей петербургской школы
понимал и умел ценить достижения западноевропейских математиков
второй половины прошлого столетия, которые ввели в точные рамки методы
классического «трансцендентного» анализа, сделав их не менее
надежными, чем алгебраические методы Чебышева. Именно это обстоятельство
было причиной того, что Ляпунов более независимо подходил к
проблемам Чебышева, чем другие его ученики. Между тем как Марков
обострял методы великого учителя и, совершенствуя их, применял к новым
задачам, Ляпунов, размышляя над сущностью предельной теоремы
вероятностей, понял, что метод моментов не облегчает проблемы и лишь
перемещает центр ее трудности. В самом деле, преобразование Лапласа,
которым пользуется Чебышев в своем последнем мемуаре 1887 г.,
заключается в рассмотрении математического ожидания.
00
3R6sx=xW= \ esxf(x)dx
—оо
для произвольного значения параметра s.
427
Вместо совокупности моментов ст = $Кхт функция
X(S) = SC-~ (22bis)
О
сама может служить характеристикой плотности f(x) (пли интегрального
х
закона вероятностей F(x) = \ f(x)dx), если только ряд (22 bis) сходится,
—оо
что, как мы видели, является существенным условием также и для того,
чтобы соответствующая часть рассуждения Чебыгпева была правильной.
Но вовсе нет надобности пользоваться разложением (22 bis) в
степенной ряд; нет надобности даже предполагать, что моменты с* существуют,
если мы будем придавать s только чисто мнимые значения s = it, так как
интеграл
оо оо
B(t)= %(it)=> J. eitxf(x)dx~ $ e«*dF{x) (31)
—oo —oo
имеет смысл при всех действительных значениях t.
Функция 6 (£), которую теперь принято называть характеристической
функцией закона распределения величины х, однозначно определяет закон
вероятностей F(x) независимо от существования моментов Ch\ кроме того,
рассматривая специально случай, когда
1
хп = 2 щ-
Ляпунов доказал, что для сходимости характеристической функции закона
оо
1 г
вероятностей величины Хп к е~И2 = —= \ eltx e~x2/2 dx, т. е. к характе-
У2я io
л х
ристичесокой функции нормального нормированного закона —^= \ e~x^2dx,
достаточно, чтобы хотя бы для одного б > О
2(2+6)
_
-— =47— — О «2+6> = ®\uk\^). (32)
D1+6/2 Mnt6 k I I V
Условие (32) является, таким образом, достаточным для того, чтобы
предельная теорема была применима к сумме независимых величин щ.
Следуя завету Чебышева, Ляпунов указал также верхний предел
погрешности предельного закона, порядок которой равен, например, 1пМп^/Мп,\
в случае б = d.
Таким образом, Ляпунов с полной строгостью установил совершенно
иным методом предельную теорему для сумм независимых величин приг
условии значительно более общем, чем Марков.
Однако Маркову удалось реабилитировать метод моментов. Дополнив
его небольшим рассуждением, аналотчнъгм тому, которое он применял
для обобщения условий приложимости закона больших чисел, Марков
428
получил полное доказательство предельной теоремы при общем условии
Ляпунова.
Впоследствии [11с], в 1926 г., пользуясь по существу том же самым
замечанием Маркова, я дал еще более общее условие применимости пре-
2
дельной теоремы6, которое охватывает также и случаи, когда Iuj не
имеет смысла. Например, если величины щ могут получать значения ± Ут,
где т — любое целое положительное число, с вероятностями рт = 3/(я2ттг2)
$Riii = 0, $ftui = (6/я2) 2 1/тт? = оо ) то вероятность
— Уб/г1п?г < У] Mi < — Уб/i In 7;
Л Л Я
зтмеет пределом
ti
У2л I
В связи с этим примером следует обратить внимание на то, что
предельная теорема, в зависимости от соблюдения тех или иных условий,
имеет не вполне одинаковый смысл. В то время как самый метод
доказательства Чебышева и Маркова свидетельствует о том, что при условиях
Маркова все моменты суммы
п
стремятся к нормальным нормированным моментам (например,
Jim ®flXn = 3), и доказательства Ляпунова этого совершенно не видно,
и, поскольку условие (32) но исключает того, чте 9К I щ |2+б' при 5i > 6
не имеет смысла, ЭД | Хп |2+б) будет также лишено смысла. Можно
доказать [llh], что условие Ляпунова с данным б > 0 необходимо и достаточно
для того, чтобы 9R | Хп |f (р< 2 + б) имело пределом соответствующий
нормальный момент. В рассмотренном только что примере условие
Ляпунова не соблюдено ни дл!я какого 6 > 0; в этом случае имеем
Г!->-00
Я 2 и*
У&п In n
У2я
х I /} (> 2 dx
только для р <С 2. Норвежским математиком Линдебергом [15] вьпзедено
условие, достаточное для того, чтобы № Хп "^ 1 (р = 2).
Вообще за последние 20 лет появилось немало работ, осветивших с
разных точек зрения некоторые важные свойства нормального закона и
условий ©го (приложимости к суммам независимых величин; но
полученные здесь результаты далеко не столь фундаментальны, как результат
Чебышева и его учеников Маркова и Ляпунова.
6 Феллер [20] показал, что это условие является также' необходимым (ирод
естественном предположении пренебрегаемости каждого слагаемого по сравнению со
всей суммой).
429
Следует, однако, отметить, что за это же время был поставлен и
разрешен ряд совершенно новых вопросов, из которых принципиально
наиболее интересным является вопрос об общей форме предельного закона
для сумм независимых величин в тех исключительных случаях, когда
этот закон не является нормальным. Эти тонкие исследования,
важнейшие из которых .принадлежат А. Н. Колмогорову, А. Я. Хинчину и П. Ле-
ви, основанные на соответствующем применении метода
характеристических функций Ляпунова, потребовали углубленного изучения свойств
характеристических функций и обнаружили неожиданный факт, что так
называемый закон Пуассона является в некотором смысле еще более
универсальным, чем нормальный закон Лапласа [21 с].
Любопытно, что закон Пуассона, который в статистике называют
законом малых чисел, играющий также значительную роль в физических
приложениях теории вероятностей, совершенно выпал из поля зрения
петербургских математиков.
13. Переходя к вопросу о распространении основных законов
вероятностей на зависимые величины, напо-мним, что сам Чебышев этим
вопросом не занимался, но, поскольку основоположником этой центральной
области современной теории вероятностей является А. А. Марков,
последовательно развивавший здесь идеи Чебышева и, в частности, метод
моментов, мы должны вкратце на этом остановиться.
Следуя Чебышеву в том отношении, что к каждой новой общей
области исследования надо подходить через рассмотрение соответствующих
типичных задач, имеющих ясное реальное значение, допускающих точную
математическую постановку, Марков обнаружил при этом глубокое чутье
выдающегося естествоиспытателя и устремил свое внимание на
исключительно важный для приложений класс зависимых случайных явлений,
который он назвал «цепями» и за которыми в науке утвердилось название
цепей Маркова. Впервые такого рода зависимости рассматривались при
некоторых частных предположениях известным английским биологом —
статистиком Гальтоном, который пытался на основе довольно обширного
экспериментального материала облечь в математическую форму теорию
наследственности Дарвина.
Однако ни у Гальтона, ни у физиков, которые, почти одновременно с
Марковым, также пришли к построению вероятностных схем,
аналогичных цепям Маркова, мы не находим сколько-нибудь удовлетворительного
математического исследования их свойств. Близость идей Маркова к
идеям, возникшим в то же время в различных областях естествознания,
свидетельствует об их жизненности и методологической важности.
Действительно, цепь Маркова является вероятностным преобразованием
обычного детерминированного процесса, который характеризуется тем, что его
динамическое состояние в данный момент вполне определяет его
дальнейшее течение, независимо от всех предшествующих состояний. А
именно, Марков называет цепью последовательность случайных величин (или
событий, или состояний) Хи Х2, ..., Хп, ..., характеризующуюся тем, что,
после того как величина Хп получила какое-нибудь определенное
значение, вероятность, что следующая величина Хп+1 получит то или иное
значение, вполне определена и не зависит от того, каковы были значения
430
предшествующих величин Х{ (i<n). Исключая случай, когда цепь
беспредельно (приближается к детерминированному процессу, Марков
показал7, что зависимость между достаточно удаленными звеньями цепи Xi
и Xi+k настолько быстро ослабевает, что закон вероятностей величины Хп
при возрастании п стремится к закону, не зависящему от начального
состояния Х\. Эта важная теорема при некоторых весьма общих
предположениях может служить оправданием гипотезы равномерного
распределения вероятностей при установившемся режиме, лежащей в основе
различных физических теорий. Распространение закона больших чисел при
тех же условиях также выведено Марковым (при помощи
вышеуказанного обобщения неравенства Чебышева) «а-к следствие из того, что
зависимость между отдаленными звеньями цепи весьма мала.
Более значительные трудности представляла задача о предельной
применимости к сумме слагаемых, образующих цепь, нормального закона.
Метод моментов требовал вычисления математических ожиданий
Ж ( 2 —-__L- ] для всех целых положительных т и доказательства, что
2 = 1
они стремятся к соответствующим нормальным моментам. Метод
производящих функций в простейших случаях приводил к цели, но алгебраический
прием, аналогичный тому, который Марков применил в 1898 г. к
независимым величинам, оказался в данном случае очень громоздким, и только
благодаря своему мастерству Марков получил требуемый результат при
довольно общих условиях.
Впоследствии результаты Маркова были обобщены в моих работах.
В основе этих работ лежит метод характеристических функций Ляпунова,
который, однако, непосредственно был здесь неприложим, так как
преимущество характеристической функции, заключающееся в том, что для
независимых слагаемых характеристическая функция суммы двух
независимых величин xt + x2 равна произведению характеристических
функций каждого из слагаемых, в случае зависимых величин отпадает.
Поэтому нужно было присоединить к этому методу идею секционирования
цени таким образом, чтобы после удаления ряда промежуточных звеньев
предельный закон вероятностей всей суммы не отличался от предельного
закона остающейся суммы, «которая будет состоять из достаточно слабо
связанных между собой, в некотором точном смысле почти независимых
групп слагаемых. Эта идея применима, очевидно, не только к цепям
Маркова, но и к более общим классам зависимых величин. Наиболее трудным
и интересным является исследование случая, когда цепь Маркова
сингулярна, т. е. весьма близка к строго детерминированному процессу.
Рассмотрение результатов, полученных, в этом направлении, выходит из
рамок настоящей статьи; замечу лишь, что направление и многие полезные
вспомогательные леммы в этих работах непосредственно примыкают к
проблематике Чебышева. Укажу, например, на следующую теорему в
стиле Чебышева [п *]:
7 Тот же результат в некоторых частных случаях независимо от Маркова был
получен почти одновременно Пуанкаре (18].
431
Дисперсия B(Sn) суммы величин Sn = Xt + Х2 + ... + Хп для любой
цепи Маркова удовлетворяет неравенству
B(Sn) >7;2 + й4 + ...+ Ъ .
" I 2 1
где Ьл озпачает среднюю условную дисперсию Хп, после того как известно
значение Хл-t и Х^+Г? граница фактически достигается, когда величины
Х\, Хз, ... детермитсированы, а величины Х2, Х4, ... независимы.
Вопрос о предельном законе суммы Sn для случая, когда этот
предельный закон отличен от закона Лапласа — Гаусса, представляет большой
теоретический и практический интерес: эти работы по большей части тесно
связаны с цепями Маркова, но область эта содержит также ряд новых
идей и -слишком обширна для того, чтобы говорить о ней здесь.
Заканчивая краткий обзор дальнейшего развития идей Чебьтшева, в
котором в первую очередь участвовали его знаменитые ученики Марков и
Ляпунов, мы видим, что трудам Чебышева и его школы теория
вероятностей обязана зрелостью, обеспечивающей ее надежное применение к
самым разнообразным реальным явлениям, которой она достигла в паши
дни; кризис теории вероятностей, который остановил ее рост 100 лет тому
назад, был преодолен гением Чебышева и его сподвижников, далеко
опередивших в этой области западноевропейских математиков.
ЦИТИРОВАННАЯ ЛИТЕРАТУРА
Работы П. Л. Чебьтшева по теории вероятностей:
1. Опыт элементарного а налила теории вероятностей. М., 1845.
2. Demonstration elementaire d'une proposition generate cte la theorie des probabili-
tes. «Journal fur die reine und angewandte Mathematik», 1846.
3. О средних величинах. «Математ. сборн-», т. II, 1867.
4. О двух теоремах относительно вероятностей. Приложение к т. 55 «Записок
Императорской Акад. наук», № 6, 1887.
5. Курс лекций по теории вероятностей (читанный в С.-Петербургском
университете б 1879/80 г.; изд-во Акад. наук, 1936).
Прочие цитированные в настоящей статье работы П. Л. Чебышева:
6. О непрерывных дробях. «Ученые записки Акад. наук», т. III, 1855.
7. О разложении функций одной переменной. Собр. соч., т. I, 501 — 508.
8. О предельных величинах интегралш. «Journal de Liouville», т- XIX, 1874.
9. Об интегральных вычетах, доставляющих приближенные величины ингогралов.
Собр. соч., т. II, 444—478.
Работы других авторов
10. Bernoulli. Ars conjectandi. 1713.
11. Бернштейн С. Н. a) Sur le theoreme limite du calcul des probability, «Math.
Ann.», 85 (1922), ([4]).
b) Об одном видоизменении неравенства Чебышева и о погрешности
формулы Лапласа. «Учен. зап. н.-и. кафедр Украины», отд. мат., вып. I
(1924) ([5]).
с) Sur l'extention du theoreme limite du calcul des probabilites aux sommos
de quantites dependantes. «Math. Ann.», 97 (1926) ([8]).
d) Теория вероятностей, иод. 1-е, 1927, изд. 2-е, Ш4.
е) Addition a l'artice «Sur les sommes de quantites dependantes». «ДАН СССР»
(1928), 55—60 ([10]).
f) Determination d'une limite inferieure de la dispersion des sommes des
grandeurs liees en chaine singuliere, «Матем. собрн.», 1 (1936), 29—37 ([21}).
4S2
g) 0 некоторых видоизменениях неравенства Чебышева. «ДАН СССР», 17
(1937), 275-277 ([22]).
Ь) Несколько замечаний по поводу предельной теоремы Ляпунова. «ДАН
СССР», 24 (1939), 3-7 ([24]).
)2. Bienaime. Considerations a l'appui de la docouverte de Laplace sur la loi do
probabilite dans la methode des moindres carres. «Journal de LiouviUe», 12 (1867).
13. Колмогоров A. H. Uber die Summen durch den Zufall bostimmten unabbangi-
gen Grossen. «Math. Ann.», 99 (1928).
14. Laplace. Theorie analytique des probabilites, 1812.
15. Lin d berg. Eine neue Herleitung des Exponentialgesctzes in der Wahrscheinlich-
keitsrechnung. «Math. Zs.», 15 (1922).
16. Ляпунов А. М. a) Sur une proposition de la theorie des probabilites. «Изв. Акал.
наук», 13, № 4 (1900), 359—386.
b) Nouvelle forme du theoreme sur la limite des probabilites. «Записки Акад.
наук», 12, № 5 (1901), 1—24.
17. M а р к о в А. А. а) Доказательство некоторых неравенств П. Л. Чебышева. «Сообщ.
Харьковского матем. об-ва», 1883, 105—114.
b) Закон больших чисел и способ наименьших квадратов. «Изв. Физ.-мат.
об-ва при Казанском университете», 8, № 3 (1899), 110—128.
dle~x2
c) Sur les racines de l'equation ex2 = 0. «Изд. Акад. наук», 9, № 5
dxl
(1898), 435-446.
d) Исчисление вероятностей, 1900, 1913, 1924.
e) Распространение закона больших чисел па величины, зависящие друг от
друга, «Изв. Физ.-мат. об-ва при Казанском университете», 15, № 4 (1906),
135-156.
f) Распространение предельных теорем исчисления вероятностей на суммы
величин, связанных в цепь. «Записки Акад. наук», 22, № 9 (1908), 1—29.
g) Исследование общего случая испытаний, связанных в цепь. «Записки
Акад. наук», 25, № 3 (1910), 1—33.
h) Об одном случае испытаний, связанных в сложную цепь. «Изв. Акад.
паук», 5, № 3 (1911), 171-186.
i) Об испытаниях, связанных в цепь ненаблюдаемыми событиями. «Изв.
Акад. наук», 6, № 8 (1912), 551—572.
j) Recherches sur un cas remarquable d'epreuves dependantes. «Acta Math.»,
33 (1910), 87-104.
k) Применение способа математических ожиданий к связанным рядам
величин. «Изв. Акад. наук», 9, 14 (1915), 1453—1484.
18. Р о i n с а г ё. Calcul des probabilites. 1906.
19. Р о i s s о п. Recherches sur la probabilite des jugemonts. 1837.
20. Feller. Ober den zentralen Grenzwertsatz der Wahrscheinlichkeitsrechnung. «Math.
Zs.», 40 (1935).
21. Хин чин А. Я. a) Sur la loi forte des grands norabres, «C. R.», 186 (1928).
b) Sur la loi des grands nombres, «C. R.», 188 (1929).
c) Предельные законы для сумм независимых случайвых величин. М., 193&.
28 с. Н. Бернштейн
32
О ПРЕДЕЛЬНОЙ ТЕОРЕМЕ
ТЕОРИИ ВЕРОЯТНОСТЕЙ *
1. Одной из самых фундаментальных теорем теории вероятностей
является следующая теорема, доказанная А. М. Ляпуновым в 1901 г.
Теорема Ляпунова. Пусть
Sn = Xi + хг + . • • + хп
будет суммой независимых случайных величин Х{, причем
П 71
Шхг = а{, $k(xi — ai)2 = Ьи Ап = 2а*> Вп = 2 Ь*-
1 1
Ес/щ для некоторого б > 0 9№(2-* — аг)2(1+6) = Сг*? б ^ с возрастанием п
^».» = -jS3-*0, (1)
го вероятность Fn(t) неравенства
Sn-An
1Вп
равномерно стремится к пределу
<t (-oo<i<oo)
f
G{t) = -L= \ e 2 dt. (1)
' —oo
Как замечает Ляпунов, если Мп,б—>0 для некоторого данного б, то
тем более Мп, к —+ 0 при любом положительном /г < б. В настоящее время
известны более общие формулировки этой предельной теоремы.
Наиболее общая формулировка 1 предельной теоремы была дана в моей
статье [8], где намечено весьма простое рассуждение, показывающее, что
это обобщение является почти очевидным следствием из теоремы
Ляпунова.
* «Изв. НИИ мат. и мех. при Томском гос. ун-те», 3, вып. 1 (1946), 174—189
(241*).
1 Впоследствии равнозначная формулировка была дана Феллером в 1935 г.
(«Math. Zeitschrift», 40, 4, 521—559).
434
2. Я воспроизведу здесь в несколько более развернутом виде данное
в упомянутой статье (стр. 133) доказательство, которое затем было
распространено мной на случай почти независимых величин (стр. 142—143).
Из теоремы Ляпунова, как легко видеть и как было замечено самим
Ляпуновым, вытекает
Следствие I. Если все I х\ | <^£, то
|*n(t)-G(t)|<9(-JL),
где ф(б) — функция, стремящаяся к нулю вместе с 6. Это вытекает из
ТОГО, ЧТО Сг,5<Ьг(2£)26.
Следствие II. Пусть
&п — У\ #г,
где Xi, ^2, ...,хп — любая последовательность независимых случайных
величин; пусть Ln будет какая-нибудь последовательность чисел,
возрастающих вместе с щ пусть %%,ьп = %i, когда I х\ I ^ Ln и %г,ьп = 0, когда
\х{\> Ln; пусть Ei )L есть вероятность неравенства I Xi |<Ln;
^-)-S^b; a. -a»X|i •
г=1
1 1
В таком случае, вероятность Fn(t), что
Sn —An, Ln
, <*, (2)
1вп,Ьп
удовлетворяет неравенству
\Fn{t)-G(t)\<y(-?i^) + z{Lr,). (3)
Действительно, благодаря следствию I, вероятность Fn(t,Ln), что
п
— <*, (4)
iBn.L,
удовлетворяет неравенству
Ln }
\Fn(t,Ln)-G(t)\<y{—^). (5)
Но, с другой стороны, вероятность, что Sn^2jXitL > меньше, чем г(Ьп) =
1
я
= 28- 5 поэтому, замечая, что неравенства (2) и (4) тождественны,
1
П
когда 5Л = 2 X,- г > заключаем, что I Fn(t) - F(t, Ln) I < e(Ln), откуда,
вследствие (5), получаем (3).
435 28*
Из следствия II непосредственно вытекает
п
Обобщенная теорема (Ляпунова). Если сумма Sn = 2j xi пеза-
i
висимых величин Xi такова, что при п —- оо существуют такие Ln, что
тп = Ln/yBn>L и г(Ьп) одновременно стремятся к нулю, то вероятность
Fn(t),4TO
SnZ±±«-<t, (2)
УВп,Ьп
равномерно стремится к G(t) (нормированному закону Гаусса).
Действительно, если соблюдены условия теоремы, то вторая часть
неравенства (3) ф(тп)+ г(Ьп) стремится к нулю при п —*■ оо.
Введя интегральные функции распределения вероятностей tyk(x)
величин Xk, можно условие нашей теоремы представить в следующем виде.
Для применимости предельной теоремы достаточно, чтобы при
соответствующем выборе Ln величины
п L
e(Ln) = 2 3 d^k(x) и Тп=—^=5=- (6)
1 lxl>Ln УВп^п
одновременно стремились к 0 при п —* оо, где
п
5п,ьп=2 J (x — aKLn)2d^k(x),
n
aK lu = \ xd^k (x), An,L n — 2^, ьп-
J*l<Ln X
Покажем, что наша теорема включает, как частный случай, теорему Ляпунова,
сформулированную вначале.
Не нарушая общности, положим
+ 00
ah = \ х dtyh (х) = О,
— оо
тогда
+ оо
bk—bk>L =• ж2 <%(*)— ) (*—ahtL )2dtyh(x) =
«J *2d% (*)+[$ *<%* (я)]2.
Поэтому
0<Ь* — bfct ьп< 2 С, *2ЛМ*)^
2С*
следовательно,
1*1 >L n £
436
С другой стороны,
п п -t-oo
n
' |«|>Ln L2+26 ' -
^n,6
£2 + 26 у L2
n n
Таким образом, если условие I Ляпунова соблюдено при некотором б > 0, то,
2 8/(1+6)
полагая Ln = ВпМп , где 0 < G < 1, мы удовлетворим обоим требованиям
г (Ln) — 0 и %п -* 0, причем £n, L /Bn—*1.
п
Подобно тому, как при применении теоремы Ляпунова можно сдвигать
величины хн произвольным образом, Феллер в упомянутой работе предполагает их
сдвинутыми так, что U является медианой для каждого хк, т.е. -фА (—- е) ^ 1/2 ^ "фд. (е)
при всяком е > 0; такие распределения вероятностей он называет
«центрированными» (я предпочитаю, во избежание недоразумений, применять термин «медиани-
зированный»).
Тогда
L>n Ln
т* = и zn = .
V Вп,ъ " J/ Bn (Ln)
п
где Bn(Ln) = 2j \ xzdtyh(x), стремятся к нулю одновременно.
1 |*| > Ln
В самом деле,
С x*d$h(x)^ Г С ж d^A(яг) I ^ И" xdtyk(x) I = fl2ft l ;
~~ n "~ н ~~ n
С Z2^ft(*)>a2
.) ft. in
о
поэтому
in in
С хЩк (x) >2a2 = 2 С cF2<h|)fc (ж) — 26
J ft» in J А, Ln
—bn —in
откуда
in
^ *2<ft|)A (Д?) <26*,Ln.
Следовательно,
£n>L <5n(Ln)<25n>L , (7)
В качестве иллюстрации разберем пример, указанный мною в
цитированном месте.
п
Пусть Sn = 2 хк, где все величины хк подчиняются {одному и тому
1 _
же закону вероятностей, а именно хк = ± утп, где m любое целое по-
3
ложительное число, с соответственными вероятностями —%—§ I как извест-
00
но, —«-У.—о- = 1 1 . Тогда $51хк = О, но SRz* не существует, так как ряд
л2 ~ тп2 J
437
со
-^2— расходится. Однако, если положим Ln = AnYlnn, где 4>0
л* ^ т
некоторое определенное число, то
и ч- Ст v JL/J™. Г dx _ 6п <: i_
стремится к нулю с возрастанием п, и в то же время
[L2]
D 6?г v 1 бтг -.2 блг In тг
Яп,^--^- 2j-^^i^ m^n~—-^ >
поэтому
Тп =
./n^AnVlnn _ f пгА
V Gnlnn |/ бТ/Тпп
также стремится к нулю. Следовательно, вероятность, что
о ^ -. Г блг In га
*«<гУ -7?-
равномерно стремится к G(t).
Ввиду того, что предельная вероятность неравенства (2) не может
зависеть от выбора Ln, при котором г(Ьп) и тп стремятся к нулю, мы
видим, что каковы бы ни были числа Ln, удовлетворяющие
требуемому условию, An>Ln .
где 5П и Сп не зависят от Ln. При этом, если limCn>0, Ton^4n>Lri—
независимо от Ln.
3. Условие (I) теоремы Ляпунова, как и указанное нами обобщение,
влечет за собой (после соответствующего сдвига) пренебрегаемость
каждого из слагаемых хк по сравнению со всей суммой, заключающуюся
в требовании, что если G(t) есть предельная интегральная функция
вероятностей для
71 _ г*
1 п
то вероятность для каждого хь. (к <^ п) превысить по абсолютному
значению %~УВ* при любом произвольно малом т равномерно стремится
к нулю при возрастании п. Сохраняя это требование пренебрегаемости и
предполагая все слагаемые медиаиизированными, Феллер доказал в
упомянутой работе, что условие нашей обобщенной предельной теоремы
является также и необходимым.
Теорема Феллер а. Если при бесконечном возрастании п
вероятность неравенства
-h--Cn<t
равномерно стремится к G(t) и каждое из независимых слагаемых х\ пре-
небрегаемо, то при произвольно малом т > О существуют значения
Ьп=тУВп,Ьп
п
для которых e(Ln)=*weitь стремится к нулю при возрастании п.
i n
438
Доказательство Феллера может быть несколько упрощено. Прежде
всего, полагая Zk = хъ + ун, где х^ и ук независимы и закон
вероятностей для у к тот же, что для —-- Хк, можно, следуя Феллеру, ограничиться
случаем, когда закон вероятностей для каждого слагаемого симметричен.
После этого, предполагая уже симметричность, из которой следует, что
Сп = 0, доказывается невозможность существования такого Q > О, чтобы
п
сумма 2а* вероятностей а* неравенств I х\ I > То У£п*, где То > О —
1
данное произвольно малое число, оставалась больше q при сколь угодно
большом п.
п
Для этого нужно лишь убедиться, что если бы q/ = 2 а* > Q» т0
вероятность Нп неравенства
Sn>NxoW
' п
была бы недопустимо велика при достаточно больших целых значениях
Лг. Действительно, для его осуществления достаточно было бы, чтобы Лт
из величин Xk были больше т^В*, в то время как сулша остальных
слагаемых неотрицательна. Но в силу симметрии и независимости этих
величии такое совпадение имеет вероятность, равную
_1 PN
где
Pn ^^fHt • • • aijf (1 — о^+1).. .(1 - а»я)
представляет сумму всевозможных произведений указанного вида, ъ
которых h, . •., in — любые N из всех п индексов.
п
Принимая во внимание, что увеличение q' —^а* может только уве-
n i
личить Нп, достаточно предположить, что q' < 1/2; в таком случае
(1-^+1)---(1"«--n)>1-Q/„>|
поэтому .
^>y2flv-«'V (9)
Но если п настолько велико, что, вследствие условия пренебрегаемости,
все щ <^ q/N, to, принимая во внимание, что при заданном значении
п
суммы 2а* пРавая часть неравенства (9) будет наименьшей, когда наи-
1
большее число из величин а* равны нулю2, заключаем, что
>.>№•
2 Это вытекает из того, что сумма, стоящая в правой части (9), относительно
любых величии аг-, си может быть записана в видео А +В(<ц + a^) -fCa^, где
Л. В, С;>0 но зависят от а* ш ah; поэтому три данном («,• + си) опа будет
минимальна, когда так — 0.
439
а потому мы имели бы при всяком данном произвольно большом N
Я„>—— ^ > 4 iV^v '
когда re — оо; но это несовместимо с требованием, что
ос _,• _&™
limHn = l-G(Nx0) = —.= J е ¥Л < в 2
так как при N достаточно большом
-^ > In4 + 2ЛГ1пЛ'- NIuq.
Положим теперь, при т0 произвольно малом, zh = хк, когда | х \ ^ т0 ljB*n =
= Ln и 2k = 0, когда |а;|>ТоУБ^, в таком случае, по доказанному,
интегральная функция вероятностей для —=- равна G(t) + Qn9n(0i гДе
iB*
1 п
j 6n I < 4 и q' —* О при п —+ оо. Поэтому при любом Af > 0
Но
м м
5 t4Qn(t)= M*(Qn(M)-Qn(-M))-2 jj *en(0*<2ilf2 +
+ 2 J 111 Л = 4М2.
-м
Следовательно, как бы велико ни было М, полагая га достаточно
большим, можем сделать M2q/ сколь угодно малым, а потому
Вп,
В*
п
- = V§K(2^)2>1-6n'
где 6n~^0 при возрастании п, и из р-аведстоаа т0у.В* = тУ#п, ь следует,
что т < — —— < 2т0 при п достаточно большом.
(1 — ОпГ
4. Замечу, что данная вначале классическая формулировка теоремы
А. М. Ляпунова также допускает дополнение, аналогичное тому, каким
является теорема Феллера по отношению к моей формулировке, так что
условия (I) Ляпунова также являются в некотором смысле
необходимыми и достаточными. Для простоты я остановлюсь на наиболее интересном
440
для практики случае, когда в условии (I) Ляпунова 6 = 1, сохраняя
обозначения, принятые вначале.
Для 6 > 1 целого рассуждение то же, но нужно воспользоваться
вычислениями 'математических ожиданий высших степеней, которые
произведены А. А. Марковым3.
Теорема. Условие, необходимое и достаточное для того, чтобы
вероятность Fn(t), что
стремилась равномерно к G(t) и в то же время, чтобы
mSn-Anf
1 °° - -
— 3 = —^J *4e 2 dt, (10)
В2 У2я
заключается в соблюдении условия (I) A. M. Ляпунова при 6=1.
(Здесь, как и в теореме Феллера, величины хъ. предполагаются прене-
брегаемыми по отношению к их сумме Sn.)
Действительно, не нарушая общности, можем положить ЗКяь = 0.
Тогда
г %k = 35n + 2j Ck, l — 3 ^j
i>k 1 1
Эд5„ = У, ch,, + б 2 ®*i xl = зв; + 2 ck, i - з 2 ъ\.
1
откуда
п п
г4 2 СЬ»1 2Ь~
^~ = 3 + -^ 3^т-• (И)
тг тг п
Таким образом, если условие (I) соблюдено, то не только верна
предельная теорема, но и
WSn
— 3, (10 bis)
так как bk <J Ck,i.
Наоборот, вследствие пренебрегаемости хн, вероятность неравенства
1вп
также равномерно стремится к пределу G(t), т. е. равна G(t)+en{t),
где tn(t)< г равномерно стремится к нулю при п — оо. Поэтому
^[Sn-xhf Bn-bh 1 ? --'-- ¥
> 1 — -L ^ f-e 2 ^ - 4М2е„.
1**„|>*
3 А. А. Марков. Исчисление вероятностей, изд. 4, М., 1924, стр. 147—152.
441
Следовательно, при произвольно малом б можем выбрать М настолько
большим, чтобы
1 г -— б
У2я, J °
|/|>м
и затем увеличить п так, что 4М2еп < 6/2, а поэтому
Вп — Ъи
Вп
>1-6,
т. е. bk/Bn < б стремится к нулю при возрастании п равномерно для всех
к^п. Отсюда следует, что
п п
2 ък ьвп 2 **.
_' < ! =6 — 0.
В2 В2
п п
Поэтому, если имеет место (10), то, вследствие (И),
п
2jCk,i
Б2
0.
(I)
Примечание. Следует заметить, что если функция распределения
вероятностей Fn(t) величины Sn/^Bn равномерно стремится к пределу
F(t) (в данном случае F(t) = G(t)), причем ®& I Sn/yBn |p ограничено, то
lim 9k!-5L-
П-00 I УВП
J |*|*dF(rj
при 0 < q < р, предполагая, что последний интеграл имеет смысл4.
Действительно, из условия
Ж
= J \x\vdFn(x)<C
УВп
следует, что при любом L > 0
С другой стороны,
L L
J |*|*^(x)- J \x\*dFn(x)\=L*\F(L)-Fn(L) + Fn(-L)~
-L
L
-F(-L)+q J |o:|^(/Tn(x)-f(a:))&|<(2 + 2^L^n-
-L
4 Нетрудно видеть, что то те утверждение будет тюрно и для q = р, если только
с№1\ Sn 1^Вп\ р стремится равномерно к определенному пределу.
442
полагая, что [ Fn(x) — F(x) | < еп при любом х. Поэтому
оо оо
| J \x\*dF{x)- J \x\*dFn(x)\< J 3fldF{x) + 1^ +
—оо —со |x|>L
+ (2 + 2<?)L«e„ < ol + (2 + 2<7)L«e„,
где, выбирая L достаточно большим, чтобы сделать
aL<Y,
можем после того, увеличивая п, сделать также и (2 + 2q)L^en < а/2.
Отсюда при любом а > 0 для достаточно больших п
Я»
J \x\<*dF(x)
IK
Поэтому, в частности, если
<а.
lim Ж
1Вп
2+26 1 ™
У2д J M
для некоторого б = 60, то это равенство справедливо и для всех 6 < бо.
Вообще, говоря о применимости предельной теоремы к некоторой
т | sn |нм
сумме On, нужно различать случаи, когда — стремится также
£>п
1 °°
к пределу Сга = —=• \ I £ |2+2бе~'"/2& для всех значений 26 ^ 260.
У2я -i ' '
Мы будем говорить тогда, что к сумме Sn применима предельная теорема
порядка 2бо. Таким образом, на основании только что сделанного
рассуждения, находим, что условие, необходимое и достаточное для
применимости предельной теоремы порядка 2бо, где бо целое число, заключается
в соответствующем условии (I) Ляпунова.
Условие Ляпунова является удобным практическим приемом для
выяснения применимости предельной теоремы порядка 2бо, но интересным
фактом является и то, что для применимости предельной теоремы норяд-
3RISJ2+260
ка 2бо необходимо и: достаточно, чтобы —^— ^^2б0* ^ случае б > О
71
не целого доказательство технически усложняется, для его проведения
нужно было бы установить, чгго при любом бо > 0 (не только делом).
п
Ус
Ж I «Sn |2+26° 1 ' "' 6о
условия LJ; ► С2бо и -gj^- - 0 эквивалентны.
71 П
Пока это не установлено, мы должны ограничиться несколько меноч
законченным утверждением для бо не целого.
Теорема. Условие Ляпунова при любом б < бо (бо > 1)
1 п
443
необходимо и достаточно* для применимости предельной теоремы
порядка 25 при всяком 6>60.
Для этого замечаем, что
|25 | о(г) | 2Ri
сзг|snг* = а»2*?|■*»Р + а»2XiS ■ И5»I-1^ ' ь
1 1
где s!p = Sn—£г не зависит от а*, а потому QStxiSn]I£п-125 = 0- Но
Т{^х\\ Sn f + rf [| Sn f - I £<*> |25] > a? I Sn |*
когда a;^^ > 0; в случае XiSn] < 0
Г, = ^f [ ^n |25 - | ^^> | [| ^ |25 - | ^> i2S],
поэтому при IЖ{|<215^ I имеем |*Sn| = \\S(n \ — |zt||< I SnX) I, *и
неравенство Ti> x\|SnI25 сохраняется; если же \xi\ >2 |^l) |, то | £n| > \Snl) |,
и мы получаем
Ti > xl | Sn |28 - | x^» I Sn f >xt\Sn f - ~'x\ 1Sn |25 = -i *?'| £„ |25.
Следовательно,
n 1 n •
gK|ASn|2+28 = gR2ri>4®S^2l^n|25.
i z i
Но, принимая во внимание пренебрегаемость величин х\, вследствие
- Sn
которой ■ подчиняется закону вероятностей, имеющему пределом
уВп
Git), замечаем, благодаря симметричности G(t), что вероятность для S^
1
иметь определенный знак, а именно знак xif стремится к -у
$1x11 Sn |25 = Ж | я?** + S%> |25 > (1 - вп) SR | ^i|2+25 ,
где вп-*0 при возрастании п. Следовательно,
Поэтому
8RI&
12+25
Д
,1+5
1/1
и из ограниченности Ж
2+25
вытекает ограниченность Afn>§.
Для доказательства достаточности, покажем, наоборот, что из
ограниченности Мп, 5 (а тем более из Мп, s —► 0) следует ограниченность
Ф
2+25
Увп
Для этого воспользуемся неравенством
|6|||а|25_1й|25|<(2б + 1)|а^6|[|а|25+|6|25],
которое справедливо при любых а, Ъ и б^>0. Поэтому
Ti <х\ | £п |25 + (26 + 1) ж? [| Sn|28 + | £<*> |28] = (26 + 2) [xl (| Sn |25 -
-12xi|25) + 225 (Xi |2+28] + (26 + 1) x\ | 6f> |28,
5 Ограничение б0 > 1 используется лишь при доказательстве необходимости.
444
ц, вследствие неравенства I а + Ъ I26 <; I 2а I26 +- I 26 |26, верного для любых
а, 6, 6>0,
Ti< (26 + 2) [х\ 12^> |25 + 2*\xi |2+2S] + (26 + 1)x\ | £<?> |*
откуда
Ж
2+25 ,. 925+2 /в , /|ч n
228- (6 + i) m„, , + 2 ^° + ^ 2 ьт i ■&» i28.
!Г4
Следовательно, если б < 1 или уже установлена ограниченность
^м 1
£6
то, вследствие | £п |26 < | 2£п |26 + | 2xi |26, из ограниченности Afn, б по-
SKI 5П|2+26
лучается ограпиченно<сть —— , которая, таким образом, доказана
п
для всех б < бо. Благодаря сделанному выше примечанию, отсюда
следует, что
ЗЯ|£ 12+26 л +«> **
lim '""' = _-L [ \t\2+Me~2 dt = Ci6.
В*+й У2я J ' '
5. Как известно, условие Линдеберга, заключающееся в том, что, как
бы мало ни было а > О,
lim—-2 J **<%(*)= 1, (12)
72-)-00 Х>П 1 ,—
-аувп
является необходимым и достаточным для применимости предельной
теоремы нулевого порядка (бо = 0).
При невыполнении этого условия наша обобщенная теорема
(Ляпунова) приводит к случаям, когда применима предельная теорема лишь
отрицательного порядка 2бо < 0.
Во всяком случае, если закон г|)& = i|) (x) всех слагаемых хь одинаков,
00
то при существовании Ъ = J x2vdty(x) применима предельная теорема
—оо
порядка 2р — 2, каково бы) ни было р > 1/2.
Это вытекает из выше сделанного примечания (и сноски4). Таким
образом, в нашем примере предельная теорема применима с
отрицательным порядком, сколь угодно близким к нулю. В частности, полагая р = 1/2,
паходим, что, в условиях этого примера,
о ? - JL 2
to\xi+... + Xn\ УЗпЫп \ te 2 dt = — iSnlnn.
1 ' я J0 л:
Заметим, что если закон вероятностей суммы независимых (медианизи-
п
рованных) величин 2 хг стремится к закону Гаусса, то этим же свойст-
1
вом обладает 2j ПРИ всех положительных £< 1. Действительно,
х%
445
согласно теореме Феллера, существуют такие Ln, что одновременно
п j 2
2 J <%(*) —0, - — 0;
п
1
J
|x|>j
Lin
x2d\ph(x)
Ln
HO
яоэтому при том же Ln имеем также
L2t
►О,
2 J \x\2tdtyi(x)
1 М> Ln
и, следовательно, применима наша обобщенная предельная теорема
(Ляпунова).
В заключение докажем еще следующую теорему: Если законы
величин Х{ симметричны и к сумме Sn = хг + • • • + %п применима пределъ-
нал теорема нулевого порядка или отрицательного порядка при ~ огра-
Ип
ничейном, то к сумме
S(n} -= У, + Уг + • • . + уп,
\xi\t+1
где yi = ———, при всяком положительном t <^ 1 применима предельная
Xi
теорема любого порядка ниже — 1.
Рассмотрим сначала первый случай, при котором соблюдается
условие Линдеберга (12). Тогда
n n аУвп
Bn{t) ■-=« (S\l])2 = ^\x{f > 2 l_\xf c% (x) >
1 1 -aYbn
> S S_ *2 (« VB»)21-2 db (t) > BW1'2 (1 - en), (13)
i -*Увп
где 8П, вследствие (12), стремится к нулю при п-+эо. Поэтому
п
г- = Y< г~* 0,
[£„(')]' [£„(<)]' (1-е«)(
т. е. условие Ляпунова порядка -у (— 1 ) соблюдено.
Во втором случае рассуждение то же, только на основании обобщенной
446
теоремы Ляпунова в (13) нужно заменить Вп через В* и принять во
внимание, что
2® i у i * _вп
вп в*
п
ограничено.
Пусть, например, х{ = ±1 с вероятностями 1/2 — 1/22 и xi = ± | i \l
с вероятностями 1/£2. При £ = 1 Вп ~ 2п\ применяя обобщенную теорему
Ляпунова, имеем
i>L l Ь 1 |x|<L i *
поэтому
1 ^
вместе с 1/L, если /> = па (а < 1/2); следовательно, предельная теорема
применима при Вп = п (условие Лшгдеберга нарушено). При t < 1,
согласно доказанному, соблюдается условие Ляпунова (Bn(t) ~ п). Напротив,
при t > 1 условие обобщенной предельной теоремы нарушено, п закон
вероятностей суммы Sn к закону Гаусса не стремится.
33
ТЕОРЕМА, ОБРАТНАЯ ТЕОРЕМЕ ЛАПЛАСА,
И ЕЕ ОБОБЩЕНИЯ*
1. Если известно, что событие А имеет постоянную вероятность р,
причем a priori вероятность неравенства ро<Р < Pi равна
J f(p)dp,
где f(p) > 0 — непрерывная функция, то в случае появления события Л
при п опытах m раз вероятность неравенства
^fm(n-m) m Л f m(n — m)
ZoV —Ц—L<P <Zi]/ -±—3 -, (I)
f n3 n V nJ
когда n —► oo, имеет пределом
A * У
—z=~ [ e 2 dz,
' 2o
лишь бы только
/(—)>*,> О, (II)
4 п J
полагая
m
1-а>— >а, (III)
п
где а > 0.
Для доказательства замечаем, что согласно формуле Байеса в
случае, когда вероятность a priori предположения, что х < р < х + dx,
равна f(x)dx, вероятность w неравенства (I), после того как дано число га,
равна
* «Т. В.» (242*), добавление ч:етвертое«, стр. 458—464.
448
m/n-H/i
J f(x)xm(l — x)n-mdx
m/n+yo
W
1
^ j{x)xm{i— x)n~mdx
где
Уо — zo
min — m)
Vi
% /m(n-
m)
Полагая
получаем
V\
m
x = h y,
n
\fm . \mf n~~m v--'n
Jo
W =
(n — m.)i a
r . f m \ ( m \mf n — m .
[- + У ){ — + y) у) dy
V\
J \ n J \ m J \ n
ny
{n—m)/n
j ,(»+,)(1 + jsl)-(,__
J V n J \ m J \ n
-m/n
m
ny
dy
m
dy
Положим L = У/г, тогда
-. /niin — m)
_ I / m
- - ( 1 )n 12 — 0.
n
В таком случае, при п достаточно болыиом, | z0 | < L, I Zi | < Л, имеем
I II Пг л П& ^ л
{/о < е, h/i < б и < 1, < 1.
' I' т п -- т
Поэтому, применяя теорему о средней, имеем
2/о
W = ■
{т—п)/п
гдеС = (1 + ^-Ги
-8 "" —m/n
n—m
/f— + y*)\Gdy + M\ \ Gdy+ \ GdiJ\
Kn ^~ l-iin i J
#o <y < у и -e < у* < s, a M > 0
т ; \ п — т
есть некоторое значение функции /(р) в промежутке (0,1).
29 С. H. Бернштейя
449
Следовательно, принимая во внимание, что вследствие непрерывности
функции f(p), как бы мало ни было б, имеем, при е достаточно малом
<6;
заключаем, что
/(
/(
4 п
т
п
'- + у
+ У*
Уа
пу
■т
dy
(1 + e) _v
>
пу
п — т
dy
пу
н^л*-^
m
dy
>w>(l — b)
н«
+
пу \m ,
m
1 *y-Y-mdy + R
n — m J
(i)
где
R
—m]n
(n—m)/n
1 +
ny
m
ny
n — m
dy +
[ (' + -*-)"('-.-:
ny
•m
dy
Но при | у | < e
In/ = ln 1 +
ny
m
ny
n — m
= m In 1 +
ПУ
m
+ (n— m)ln^ 1
— (n — m)
ny
n — m
ny
■ +
m
n2y2
Щ п2У2 , n3y3
m 2m2 3m3
+ ■
n3y3
t-n — m 2(n — m)2 3{n — m)3
+ ...
+
n2y2
2m
(1+Yi)-
n2y2
2(/г — m)
(1 + Y2),
где величины Yi и у2 стремятся к нулю не медленнее, чем е. Поэтому
In/
п3у2
2т(п — т)
где А остается конечным при возрастании п,
450
(1+^е),
Таким образом, полагая
т(п — т)
,-=v
имеем
пу\ш! ну V1""' -• uv' a-tAe)
!+_£_) 1 _ - . . * . . ) = е 2rn(n~m) =
/7г - * п — т J
7х г2
...Z * (1 + Ап .. z
= t 2 =6Г 2(1+ Ю
при ] z ] <^ L = ?il/i2, где (3 — величина порядка ir4\
Замечая, с другой стороны, что / убывает с возрастанием \у\, так как
dl т / п п \ — n3yl
= I x -
dy ( 1 + j^__ , ^_ (m + иу)[и — (т + пУ)]
т п — т *
имеет знак, противоположный г/, при
т ?i — m
<у< ■
П П
заключаем, что
- -±_ (1+А8) - ZL-
/<е 2 = е 2 (1 + (3),
где Р — малая величина порядка п~ч\ когда J г/ J > 8 (т. е. | z | > L).
Следовательно, в правой части неравенства (1)
п Ш Т-
Д<~—£ 2 .
А
Поэтому как в правой, так и в левой частях неравенства (1)
знаменатели при возрастании п имеют пределом
lim cf1 + ^rfi—^-Y"mdy =
п-юо is\ т J \ п — т. J
= lim \ e 2~(1 + р)ггз = У2я,
V.2
а числитель, равный
имеет пределом
J е * (l + p)dz,
2l 2
\ е 2 dz, •
451 29*
откуда следует, что
lim w = \ е 2 dz.
Допущения (II) и (III) в условиях теоремы играли существенную
роль в нашем доказательстве. Хотя эти ограничения формально могли
бы быть немного смягчены, но принципиально они неустранимы.
Действительно, если отбросить условие (III), то и прямая теорема Лапласа
теряет смысл. А если вместо условия (II) допустим, что существует такое
определенное произвольно малое е > О, что f(p)= 0 при | р — т/п | ^ е,
то, поскольку неравенство (I) при достаточно больших п a priori
невозможно, оно остается невозможным при любых результатах опыта.
2. Для обоснования выборочного метода при больших выборках имеет
существенное значение следующее обобщение обратной теоремы Лапласа.
Теорема. Пусть вероятность неравенства
tQ<Xn-a<ti (2)
при любом заданном а равна Fn (£t) — Fn (t0), причем, как бы малы ни были
е > О, б > 0, существует столь большое щ, что, для всех п > n0, Fn(e)~
— Fn(—е) >1 — 6; пусть априорный закон вероятностей величины а имеет
непрерывную плотность р(а) ^ L. Если Хп получает1 значение £, для
которого р(£)>Я>0, то при п достаточно больших вероятность
Фп(£о, tu £)» чт0 а удовлетворяет неравенству (2), сколь угодно мало
отличается от Fn(ti) —Fn{to).
Допустим для упрощения техники доказательства, что Fn(t) имеет
при всяком п непрерывную производную Fn'(t) = fn(t). В таком случае
плотность вероятностей Рп(Хп) величины Хп определяется равенством
оо
Рп{Хп)= \p(Xn — t)fn(t)dt, (3)
—оо
а плотность вероятностей <рп(а, £) величины а, когда известно, что Хп = £,
дана равенством
Pn(Z)4n(a,Z) = p(a)fn(l-a). (4)
Поэтому, выбирая е так, чтобы при 1£ — а | <; е иметь 1 — б < р(а)1р(1) <
< 1 + б, выводам из (3), что, согласно условию теоремы, при га> щ
8
Рп{%)= $p(g)(4±e6)/„(*)d* + eiL \ f„(t)dt =
= р(!)(1 + #6) (0< 9<,1, 0< 04<1),
где - 2 < Н< ЦК.
Следовательно, из (4) получаем
Ф-<«,6)- Р(в)М|-в)
(1+ЯА)р(£)
1 В пределах точности наблюдений.
•432
и, в частности, при \а — £ I ^8
1-6 и($-а)<уп(аЛ)< / + * /n(S-fl). (5)
Поэтому вероятность Фп(*о, *i, £) = \ фп(а, Qda неравенства (2), когда
1-й
известно, что Хп = |, удовлетворяет при 1101 ^ е, | ^ | < е неравенству
и _ и
Id*,
z6 lfn(t)dt«t>n(ti,tu i)<-±±^^fn(t)t
1+—6 <°
A
откуда
-(i+Y)6<|On(^^s)-[fnW-fnN]|< t^626 <46, (6)
предполагая б < 1/8. В частности, Фп(— в, в, I) > 1 — (2 + L/X)b и, тем
более, Фп (е, 8 -f Л, |) + Фп (— е — Ai, — е, £) < (2 + 1Д) 6 для любых
fe > О, /ii > 0; поэтому, если одно или оба значения U, h выходят за
пределы (— е, + е), то положительное приращение разности, стоящей в
середине неравенства (6), остается меньше, чем (2-Ь1Д)6, а отрицательное
приращение остается по абсолютной величине меньше, чем б.
Следовательно, для любых £о < h
\On(to,ti,l)-[Fn(ti)-Fn(t0)]\<(& + ^-)b (7)
равномерно стремится к нулю с возрастанием п.
Следствие. Пусть случайная величина х имеет определенный
непрерывный дифференциальный закон вероятностей u$Rx = a,$R(x — а)2 = а2.
Пусть априорная плотность р(а) вероятностей а непрерывна и ограничена.
Если производится достаточно большое число п независимых наблюдений
величины х, дающих соответственно х = X\ (i = 1, 2, ..., га), причем сред-
. xi + хг + ... + хп
няя §= такова, что р(1) > А > 0, то, каково бы
ни было а > 0, вероятность, что а удовлетворяет неравенству
t0<l-a<tu (8)
сколь угодно мало отличается от
■j/тГ
— to
а
Действительно, при п достаточно большом, для любого данного а
вероятность Fn(ti)—Fn(to) неравенства (8), согласно следствию на стр. 424
«Т. В.», сколь угодно мало отличается от G(ti^nle) — G(tQ^nlo). Поэтому
Fn(t) удовлетворяет условиям доказанной теоремы (непрерывность функ-
453
цыи Fn(t), дополнительно допущенная при доказательстве, здесь
осуществляется благодаря условию, что величина х имеет непрерывную плотность
вероятностей (однако это ограничение может быть отброшено) 2.
Полагая к = z0o/i?i, t{ = zia/У/г, можно заменить неравенство (8)
неравенством
-i£_<6-a<-^, (8bis)
Xi + Х2 + . . . + Хп
вероятность которого, после того как найдено, что = §,
отличается, таким образом, сколь угодно мало от G(zi) — G(z0), если п
достаточно велико.
Благодаря неравенству (7) при соответствующих предположениях
относительно р(а) погрешность определяется без труда, если известна
погрешность приближенного равенства Fn(t) ~ G(tin/a), вытекающего
из прямой предельной теоремы Ляпунова.
В частном случае, когда величина х в точности подчиняется закону
Гаусса, так что Fn(t) = G(t~]/n/o), нет надобности даже предполагать, что
р(а) <! L для всех вещественных а. Действительно, в этом случае, при
я> Щ будем иметь не только Fn(e) — Fn(—г) > 1 — б, но также FnJ (t) =
= fn(t) < АД если I"* | !> е; поэтому из (3) получаем
8
0<Pn(l)-lp(l-t)fn(t)dt<Xb, т.е. I — 26< P"(g) < 1 + 26.
Следовательно, при | а — £ | <^ е
1 — 6 1 + 6
-U Ц — а)< фп (а, |) < —-fn (Ъ — а); (5 bis)
1 + 26 J ^ ' ^ ч '"'1-26
поэтому неравенство (7) заменится неравенством
|On(*o,*i,g)-[^«(*i)-^n(*o)]|<86. (9)
Цаконец, так как в силу закона больших чисел вероятность неравенства
(--lj<6, где a = I/ £
f 71-1 ~'
при любом e > 0 сколь угодно близка к достоверности для п достаточно
большого, заключаем, что вероятность неравенства
ZOO"' _. , ZiO'
—== < I - а < —__- (8ter)
после того как наблюденные значения х оказались равны хи х2у ..., хп.
имеет пределом G(zi) — G(z0) при п —> оо.
2 Поскольку правая часть неравенства (7) не зависит от F*n (t), оно остается в
силе и без предположения о существовании жюизводной F» (*), (которое было
сделано для того, чтобы обойтись без интеграла Стилыъеса при доказательстве.
34
КЛАССИФИКАЦИЯ ЦЕПЕЙ МАРКОВА И ИХ МАТРИЦ*
Введение. Рассмотрим общий случай простой цепп и докажем, следуя
А. А. Маркову, одну из важнейших теорем теории цепей.
Т ео р е м а. Пусть 2?i, п, ^2, п, • . •, Еппп будут hn<^H единственно
возможных несовместимых исходов п-го из опытов, образующих простую
иепь; пусть р(п+1} будет вероятностью Е&, n+u когда известно, что в п-м
опыте произошло Eiy n; пусть Рг , ..., Р' , с одной стороны, и
Р" , ..., P"h , с другой стороны, будут соответственно вероятностями
Е[, п, ..., Ehn, п в п-м опыте, когда в первом опыте Ei% i, ..., Efli, t имели
вероятностями соответственно P[t 1,..., Рни и и Р/, i,..., Phlt i. В таком
случае, если для каждого п > 0 существует, по крайней мере, одно такое
значение кп, что Р{^] >^>0 при всех i<^kn, то
hn+i
2 \P"n+i-P'it n+i | < 2(1 - X)* (10)
hn+l
и, следовательно, 2j I &u n+i — Pi, n+i I стремится к нулю с возрастанием
г=1
п, каковы бы ни были данные вероятности Pr i и Р" 1 (i = 1, 2, ..., hi)
различных исходов первого опыта.
В самом деле, поскольку нумерация исходов каждого опыта
произвольна, можем всегда приписать первый номер одному из тех исходов
(га+1)-го опыта, который имеет вероятность p^f^ > к > 0, каков бы
ни был результат предшествующего опыта, т. е. можем положить кп = 1
и записать соответствующее условие теоремы в более определенной форме
р%+Ч>Х>0 (и>0; 0<i<hn). (2.0)
Для последовательного определения Р'к имеем fen+i равенств
К
Р'К n+i = 2 Р'и п РиГ (к = 1, 2,..., hn+l), (30)
2 = 1
* «Т. В.» (242*). Введение - стр. 203-213, по. 1-6, стр. 465-484.
455
которые вытекают >из замечания, что Ek, >:+i наступает лишь совместно
с одним из единственно возможных исходов £\\ п при п-м опыте. Условие
Маркова означает, что в одном, по крайней мере, из уравнений (3.0) все
коэффициенты определенно положительны, и благодаря соответствующей
нумерации этих уравнений мы можем принять, что этим свойством
обладает первое из уравнений (3.0), т. е. соблюдаются неравенства (2.0).
При этом, вследствие необходимых равенств
hn + i
Sp&+1)=* (*=1,2,...,Ая), (4.0)
выражающих, что при каждом данном исходе га-го опыта факты Eh, n+i
остаются единственно возможными (к = 1, 2, ..., hn+i), складывая все
уравнения (3.0), получаем равенство
hn + l hn
(так как2 Р<, i = 1)> из которого видно (как и следовало ожидать), что
одно из hn+i равенств (3.0) является следствием из остальных.
Точно так же последовательные вероятности Р^ определяются
формулами
К
К n+i = 2 Pi,nPi!il) (к = 1, 2, . . . hn+t). (6.0)
i=i
Вычитая почленно каждое из равенств (3.0) из соответствующего
равенства (6.0), получим hn+i равенств
К
т>п d' V /d" d' \r^n+1>
^k, n+i — irk, n+i — 2j \^i, n — JPi, n)Pi, h
или, полагая 6г\ n = Pi,n — Pi, n-
К
6k, n+i = 2 e*. Л+1> (* = *. 2 йп+i). (7.0)
г=1
Принимая во внимание (5.0) и соответствующие равенства
К
замечаем, что
Лп+1 К
2 6а, я+i = 2 б*>«= °- (8-0)
h=i i=l
/
Обозначим через 2 &ь, n+i сумму всех положительных 6k, п+и
соответствующих данному п; таким образом, вследствие (8.0) имеем, очевидно,
2 S*> n+i = 2 ! S*> n+1 I = V 2 I б*> n+1 I ,
//
и точно так же, обозначая через2 ба, n+i сумму всех отрицательных
456
бь, n+i, соответствующих тому же самому п, имеем
4 n+1
• 2j 6&, n+i = ^, | 6^, n+i I = — 2j J 6ft, n+i ];
2^t
следовательно, полагая для всякого п > О
^n=2 |Kn-Kn|=2, |6ft,n|,
А=1 А=1
имеем вообще1
2.в*.п = -2 в*.»= уМп- (9-0)
Рассмотрим систему равенств (7.0) для некоторого определенного п\
положим, для определенности, что 6i>n+i ^ 0 (рассуждение, которое далее
следует, было бы вполне аналогично, если бы мы предположили, что
6i,n+ij>0). Сложив все те из равенств (7.0), ов левой части которых
6ft, n+i > 0, мы получим в таком случае, согласно принятым обозначениям,
6ft, n+i = -^Mn+i = 2 Si, n S^\ (Ю.О)
2 = i
где Of = JjPu ft представляет лишь часть суммы
hn+l
V n(n+1) - A
ft=i
содержащую только члены р^*^ с индексами к, удовлетворяющими
условию 6ft, n+i >0и поэтому, согласно предположению, что 6i, ?t+i ^ 0, сумма
Si заведомо не содержит piti . Следовательно, благодаря условию (2.0),
0 < Si < 1 — Л;
таким образом, отбрасывая в правой части равенства (10.0) все члены с
отрицательными ог-, п и заменяя коэфф1Щиеит oi при положительных
6f,n через 1 — X, мы ее увеличим, а потому, вследствие (9.0),
yMn+i<yMn(l-X). (11.0)
(Если бы мы предположили, что 6i,n+i ^> 0> то пришли бы к тому же
неравенству (11.0), складывая те из равенств (7.0), в левой части которых
6ft,77+t < 0.)
Применяя неравенство (11.0) последовательно ко всем значениям п,
начиная от п = 1, заключаем, что
Mn+i<Mi(l-X)-,
и так как
М1 = 2 | РI 1 - Р'гЛ | < 2 | Р" 1 + ^. 1 | = 2,
2 = 1 2 — 1
предполагаем Мп > 0.
1 Мп = 0 только тогда, когда все бь, п = 0, а потому из (7.0) следует, что
и bk, n+i — Mn+i = 0; исключая этот не нуждающийся в доказательстве случай,
457
то
Лп + 1
<i/n+i=2 |^!n+i-^U+i| <2(1-я)^.
2 = 1
Ввиду тою, что с возрастанием п правая часть этого неравенства
стремится к нулю, теорема доказана.
Примечание. Из доказательства этой теоремы Маркова2 видно
также, что если условие (2.0) заменить условием
оо
где %п зависит от п, то неравенство (1.0) заменится неравенством
Mn+i < 2 (1 - Х0 (1 - к2)... (1 — К); (13. 0)
таким образом, для того, чтобы основное заключение теоремы, чтоМи+1—~0
71
при возрастании п, оставалось в силе, достаточно, чтобы 2 ^г бесконеч-
1 = 1
п
но возрастала вместе с п, так как тогда произведение JJ (1—Лг) стре-
г=1
мится к нулю; например, достаточно, чтобы Хп 7> с/п, где с > 0 —
некоторая постоянная.
Предположим, что с каждым опытом связана случайная величина хп
так, что при осуществлении в тгчм опыте исхода Ei.n имеем хп = а<п>;
допустим, кроме того, что все значения а(п) ограничены, т. е. существует
независимое от п и i число L > I а<я> I . Рассмотренные выше вероятности
p(n+i) представляют, таким образом, вероятности перехода от значения
хп — а(п> в п-ж опыте к 'Значению хп+\ = а(£+1) в (п + 1)-м опыте.
Величины хп+1 становятся стохастически определенными, т. е. вероятности
равенств xn+i =» a(£+1) получают вполне определенные значения Рн, п+и если
известны вероятности Рг,п равенств хп = а(п> в предыдущем опыте, так
как, очевидно,, имеют место равеоавства
Pk,n+i= %P<,npi% (14,0)
2 = 1
тождественные равенствам (3.0) и (6.0). Следовательно, закон
распределения вероятностей величин хп при любом п > 1 вполне определяется,
если известен закон распределения вероятностей первой величины хи т. е.
если даны вероятности i\i равенств х^ = а(1). Теорема Маркова означает,
что при соблюдении условия (2.0) (или 12.0) величина хп с
безграничным возрастанием п стремится стать независимой от х\. В частности, если
все а(гп) ограничены, | а<Л) | <[ L, то из теоремы Маркова вытекает, что,
каковы бы ни были начальные вероятности PiAl существует одна и та же
2 Хотя доказанная выше теорема несколько более обща, чем теорема,
формулированная Марковым, но, поскольку доказательство ее, в основном, совпадает с
доказательством Маркова, мы буднем называть ее теоремой Маркова. (Марков
предполагал, что условию (2.0) удовлетворяют все вероятности пересхода Р**1)-
458
независимая от P,,i функция <р(и) такая, что
lim [SB*,, —<р(п)] = 0. (15.0)
71-»-°°
Действительно, вследствие ограниченности значений а(гг), при любом
выборе начальных вероятностей P2)i, математическое ожидание хп
существует и равно
К
где Pi>n последовательно определяются из равенств (14.0), если даны
Pi, 1. Поэтому, обозначая через хп' последовательные величины,
стохастически определяемые теми же вероятностями перехода р(п> , но
соответствующие каким-нибудь другим начальным вероятностям Р/, получим
^ = spur,
п вследствие (1.0)
|Ш'п - Шхп | < 12 (P'it п - Ри п)а? | <
< L 2 | Pi, n - Pi, n I < 2L(1 - X)»-« (16.0)
стремится к нулю с возрастанием п.
Заметим, что то же заключение остается в силе, если вместо (1.0)
применять (13.0), т. е. если заменить условие Маркова (2.0) более общим
условием (12.0). Из (15.0), очевидно, вытекает также, что
Г ®l(Xi + x2+ ... + хп) _ Ф(1) +<р(2) + ... +,ср(п)
?i-»-oo 72 П
= 0. (17.0)
Докажем еще, что при соблюдении условия (2.0) теоремы Маркова (но
не обязательно при соблюдении (12.0) 3 к величинам х±, Хч-, . • ., з?п? • • •?
образующим цепь, применим закон больших чисел, т. е. каковы бы ни были
начальные вероятности, вероятность неравенства
xt + х2 + ... + хп ф(1) + ф(2)+ ... +,Ф_(/1) I < g (18 0.
п п I
стремятся к достоверности для п —-► оо, каково бы ни было е > 0.
Для этого достаточно убедиться, что
^_о
3 См. работу [3], тде дается, между прочим, условие, необходимое и достаточное
для применимости закона больших чисел к цепям событий, из которого выводится,
что хотя условие (12.0) и влечет за собой. (17.0), однако при этом существуют иногда
начальные распределения вероятностей, при которых закон больших чисел может
быть нарушен. Из данного ниже доказательства видно, что закон больших чисел
всегда применим, если п\п —+ <х>, так как Вп/п2 < 4Z2/(nXn) (вследствие (23.0)).
459
где
Вп =3» [Xi + x2 + ...+хп-ц>(1) — <р(2) — ...ф(?г)]2 =
п п—1 п—г
= 2^fe-cp(0]2 + 2 2 2дй^"Ф(0][^+л-ф(* + А)]- (19.0)
г=1 г=1 fc=l
Вследствие (17.0) мы вправе принять, что выбранная выше
функция (р(п) = $Яхп для всех я, т. е. соответствует рассматриваемому
начальному распределению вероятностей величины хг. В таком случае
Ж [х. — ф (г)]2 - «Dtef — ф2 (г) < L2
и
Ж [^ - ф (г)] [xi+k - ф (г + А)] = Жа* [.<ri+A - ф (г + к)]. (20.0)
Но, обозначая через <fi+k (xi) математическое ожидание xi+k после
того, как значение Х{ определилось в г-м опыте, имеем
Зйдчач+л = ^x^i+fe (ж4). (21.0)
Кроме того, так как последовательность величин хи х^ъ • • •> ^г+/с
образует цепь, удовлетворяющую условию Маркова (2.0), то имеем,
вследствие (16.0)
IФ1+Л(of) -Ь+к(°$>)|<2L(1 -X)*,
каковы бы ни были два различных значения ос№ и схФ величины х.;
принимая во внимание, что ЗКяч+а = ф (г + Л) есть некоторая средняя
из всех условных .математических ожиданий величины £г+ъ
соответствующих всем возможным значениям хи заключаем, что для всех х\
IФ* *(*ч) - Ф(i + А) |<2L(1 - Х)\ (22.0)
Поэтому, вследствие (21.0) и (22.0)
\№xi[xi+k — ф(1 + А)]| = |©а:*[<р<+ь(:е*) — ф(* + к)] \ <
<9R | Xi | 2L(1 - Я)* < 2L2(1 - X)fe . (23.0)
Следовательно, благодаря (20.0) и (23.0), получаем из (19.0), что
n—i n—г
S„ < rcZ2 + 4L2 2 2 (1 —М* =
»=i k=i
V-
^ + 42
г=1
"_1(1 — X)—(1— Л,)»-*+*
<i41+iaFx,)<^1
а потому
/г2 Ал
Предположим, что вероятности перехода удовлетворяют не только
обязательным для всякой цепи равенствам (4.0), но подчиняются также
условиям
К
2 Puti] = cn+i (к = 1, 2,..., hn+l), (24.0)
где Cn+i не зависит от к.
460
Это обстоятельство представится, в частности, при перемешивании
колоды из h карт, где механизм последовательного перемешивания,
соответствующий цени Маркова, должен быть таков, что вероятности перехода
р{1^] карты с £-го места на к-е место не зашисят от того, как
расположились карты при 72-м размешивании. В таком случае, принимая во
внимание, что каждое из h мест в колоде (например, первое) должно быть занято
одной (картой и прийти на это (первое) место она должна из какого-нибудь
из k мест, получаем по теореме сложения вероятностей, что
2 р№ = 1.
Таким же образом получаем все h равенств (24.0) при любом к. (В
данном случае hn = h не зависит от п и сп также не зависит от п.)
Условия (24.0) являются не только необходимыми, но и достаточными
для того, чтобы из равенства вероятностей Pi,i = Ргд = .. • = Р h t всех
исходов первого опыта вытекала равновозможность Р±>п = Рг,п = ... =
= Ph „ всех исходов и в последующих опытах. Действительно, если усло-
вия (24.0) соблюдены, то из (3.0) следует, что Pi, п = Рч,п = ... =
= P'h „ = Рп влечет за собой
P'L n+i = PnCn+i = Pn+i (к = 1, 2,.. , hn+i) .•
Замечаем при этом, что так как г-а —
l/hn и Pn+i = l/hn+и то постоянная
cn+i в равенствах (24.0) должна иметь вполне определенное значение
Сп+1 = т^—. (25.0)
n>n+i
В вышеуказанном примере, где hn = hn+i = h, постоянная cn = 1. Из
(3.0) вытекает, что и обратно, если хотим, чтобы Л, п = Рп = 1 An и
Pk, n+i = Pn+i = 1 Ап+1, то необходимо должны соблюдаться равенства
(24.0), где Cn+i имеет значение hn/hn+i.
Применяя теорему Маркова, выводим отсюда важное
Следствие. Если hn — h и вероятности перехода Pi, ъ.
удовлетворяют обобщенному условию Маркова (12.0), то условия
2РЙ" = 1 (k=i,2,...,h) (26.0)
2 = 1
необходимы и достаточны для того, чтобы при п — оо все h исходов п-го
опыта стремились стать равновозможными (т. е. получить вероятность
1//г), каковы бы ни были их вероятности в первом опыте.
Действительно, в неравенстве (1.0) можно положить Pi, n = l/h при
всех i ж п.
Например, если перемешивать карты (соблюдая азьтшеуказашпное
условие независимости, т. е. «честного» перемешивания), то при всяком
данном расположении карт в колоде все расположения стремятся стать
равновозможными после достаточно большого числа п перемешиваний, если
только существует по крайней мере одно место, &i-e, куда карта может
461
прийти из любого места (р(п+1) > А, > 0 при всяком i) после одного пе-
*,*,
ремешивания*.
Весьма важным случаем соблюдения равенств (26.0) является случай.,
когда матрицы Маркова, составленные из вероятностей перехода:
IKTH =
р(п+1) р(п+1)
ю(п+1) v(n+l)
^ 1,2 г 2,2
п(п+1)
n(n+i)
,(71+1) п(П+1)
^ 2,Л
• P'
.(n+i)
h,h
симметричны, т. е. p(.n+1} = Р^+Ч так что (26.0) совпадает с (4.0).
Именно этот случай обычно кладется в основу стохастической
интерпретации физических явлений. Пусть некоторая физическая система Е
допускает конечное, хотя, обычно, весьма большое число h возможных
состояний: 2?i, Е2, • • -, Ен. Предполагается, что для некоторого весьма малого
промежутка времени At вероятности перехода Pi,k(t) из состояния Е\
в момент времени t в состояние Еь. к концу промежутка At удовлетворяют
условиям
Pi,k{t) = pkti(t)>b>0.
В таком случае из предыдущего вытекает, что, в каком бы состоянии ни
находилась система Е в момент to, по истечении достаточно большого
отрезка времени Т = nAt все состояния ее Е{ в момент ti = t0 + Т
стремятся стать равновозможными, т. е. получить вероятности, равные l/hr
а вероятность, что Е будет в момент U находиться в каком-нибудь из
I < h определенных состояний Ей Ег, ..., Ei, стремится к l/h. Поэтому,
принимая во внимание, что, согласно вышедоказанному,
последовательные состояния системы Е в моменты t0 + Д£, U + 2Д£, ..., t0 + nAt
образуют цепь Маркова, к которой применим закон больших чисел,
заключаем, что вероятность, что отношение т/п числа раз га, когда Е
оказывается в одном из указанных состояний, к общему числу возможных
состояний сколь угодно мало отличается от отношения l/h, стремится к
достоверности при п достаточно большом. Иными словами, полагая, что
переход из одного состояния в другое происходит мгновенно, можно
также сказать, что при всяком 8 > 0 вероятность неравенства
\Ti I
[ Т h
где Ti = lAt есть общая продолжительность пребывания Е в одном из
I < h данных состояний 2?*, стремится к достоверности.
В этом случае физики говорят, что к рассматриваемой системе Е
применим эргодический принцип.
<е,
4 Последнее условие будет, например, осуществлено, когда перемешивание
сводится к простому перекладыванию одной карты с любого случайного места на
первое; но оно не будет соблюдено, если производится круговое перемещение карт, т. е.
если на первое место всегда кладется последняя карта, и к* «перемешиванию»
такого рода теорема Маркова была бы неприменима.
462
Заменим условие (26.0) более общим условием, что для всех п
существуют одни и те же постоянные Ри ..., Рп, не все равные
нулю, удовлетворяющие уравнениям
Pk = ^j PiP^ (£ = 1,2,..., h).
(27.0)
7 = 1
Заметим, что для каждого данного п система (27.0) линейных
однородных уравнений с h неизвестными Pi (i = 1, 2, . .., h) допускает
отличные от нуля решения, так как, благодаря равенствам (4.0), определитель
п(я+1)
М,1
1 р
(71+1)
2,1
in+i)
,2
n(n+i) __ 1
r 2,2
n(n+i)
F h,2
n(»+l)
n(n+i)
^2,/i
вследствие того, что сумма элементов каждого его столбца равна нулю.
Как мы увидим, уравнения (27.0) (при данном /г) всегда допускают
систему решений Рг^0 (i = 1, 2, ..., h). В частности, решения уравнений
(27.U) не зависят, очевидно, от /г, когда все элементы матрицы \\Pi,k II,
т. е. вероятности перехода p(.n.+1) = Pi.fe, не зависят от гг. В этом частном
случае цепь Маркова называется стационарной. Однако ясно» что, как и
в случае уравнений (26.0), постоянство р,-,/г отнюдь не обязательно для
того, чтобы (27.0) допускала любую заданную систему решений Pi, не
зависящую от п. Если, например, для всех п имеем Xip^+v = tap^*1) при
любых данных А,*;>0 (i = 1, 2, ..., /г), то из (4.0) следует, что уравнениям
(27.0) будут удовлетворять
Pi = ch,
где постоянную с нужно взять равной с = 1 / 2 ^ь для того, чтобы удоб-
i=\
лотворить требованию «нормировки» вероятностей
2*-1.
г=1
(28.0)
Вообще, когда матрицы Ир^+Ч! цепи Маркова таковы, что уравнения
(27.0) допускают не зависящую от п систему решений Pi, Pi, ..., Рк (где
не все Pi = 0), будем говорить, что цепь Маркова квазистационарна
Эргодическая теорема Маркова. Если квазистационарная
цепь Маркова удовлетворяет условию (2.0) или (12.0), то все решения Pi
уравнений (27.0) — одинакового знака и определяются однозначно
условием «нормировки» (28.0); кроме того, каковы бы ни были начальные значе-
ния Pi, 1, при неограниченном возрастании числа опытов п вероятности
Р'. различных исходов п-го опыта имеют соответственно пределами
ИтР[,п = Р{ (i=l,2,..., Л). (29.0)
463
В самом деле, если бы не все решения Pi уравнений (27.0) были
одинакового знака, то, полагая для определенности Pi < 0 и складывая все те
из равенств (27.0), в левой части которых стоит Ри > 0, мы получили бы
h
*Z'Pk=^PiSitn+u (30.0)
1=1
где Sit n+i = S'P^t15» так же как и 'сУмма 2'^*» распространена на
индексы Л, для которых Рк > 0. Отбрасывая в правой части (30.0) члены
с Рг<^0, мы ее не уменьшим; поэтому, замечая, что вследствие (2.0)
Si,-n+i < 1 — К мы должны заключить из (30.0), что
2'рА<(1—а,)2'л,
т. е. приходим к невозможному неравенству 1 < 1 —- Я. Следовательно, в
каждой системе решений уравнений (27.0) все Pi — одинакового знака, а
потому они определены с точностью до постоянного множителя; таким
образом, значения PL однозначно определяются дополнительным
условием (28.0). Наконец, принимая via начальные вероятности Р1Л = Ри
выводим утверждение (29.0) из доказанной выше основной теоремы Маркова
(неравенство (1.0)).
Будем называть свойство цепи Маркова, выраженное предельным
равенством (29.0), где Pi не зависят ют начальных вероятностей Рг\ь
эргодичностью, и цепи, обладающие этим свойством, назовем эргодичными
цепями. Доказанная сейчас теорема дает весьма общее достаточное
условие для того, чтобы цепь Маркова была эргодична. Однако это достаточное
условие может быть еще несколько расширено5. Заметим здесь только, что
условие квазистационарности цепи можно заменить условием
асимптотической квазистационарности, а именно, предположением существования
таких постоянных Рг, что
h
lim [Рк— 2 pWPi] = 0 (к = 1, 2, .. , h). (31.0)
(Это условие, очевидно, необходимо для того, чтобы цепь могла быть
эргодичной.)
Действительно, если Рг-, удовлетворяющие соотношениям (31.0),
существуют, то при условии (2.0) или (12.0), повторяя буквально первую
часть доказательства, находим, что все Рг > 0. Однако для окончания
доказательства теперь уже нельзя прямо сослаться на основную теорему
Маркова, так как вообще нет оснований для того, чтобы из Рс\ == Pi
следовало Г \, 71 = Pi три любых п. Поэтому необходимо даполпштелыно
использовать условие (31.0) в виде
h
Р* = 2 PTk)Pi + e(k} (.A = 1, 2, .. , й), (32.0)
г=1
полагая | гк | < гп, где еп — 0 при п —* оо. -Вычитая из (32.0) соответ-
5 См. ниже, п. 3.
464
ствующие равенства (3.0), находим
h
xk, n+i = 2 p{iX)x^ * + 8(2}>
где ха, п = Pk — Pkt п. Обозначая ilf n = 2 ] ^ft, п |, находим затем (рассуж-
дая, как при выводе неравенства (11.0)), что
п
Mn+i < Мп(1 -%) + hen < М\ (1 - Л)* + /г2 ег(1 - Л)ПЧ
Но 8г < /г при любом / > 0 и, кроме того, при данном произвольно малом
а > 0 можно указать такое число /го, что е* < aX/h для всех Z > щ\ поэтому
А 2 г'(1 — Я,)»-'<аЯ2(1— А,)* = а,
По
М(1 ~ А.)и + А 2е'(1 ~~ М??_/ < А2(4 ~ *) w~Wo 2 (! ~ ^)fe
Zj1
/=1 А=0
x <а'
когда 7i > 7г0 достаточно велико. Следовательно,
limA/n = 0,
к эргодичность цепи доказана.
1. Исследуем более подробно случай стационарной цепи, когда
вероятности перехода р(!?)Л = р?, & не зависят от п.
Сделаем предварительно несколько замечаний, относящихся к
матрицам Маркова Dh = II Pi, ь II порядка h > 2, элементами которых служат
вероятности перехода рг\/<>0, удовлетворяющие условиям (4.0)6
(2 J4 л — 1 ) • Из теорем сложения и умножения вероятностей вытекает,
что в случаю наступлешгя Е\ в ячм ю/пыте (вероятность иаснпуллешш Ej.
в (п + 2)-м опыте равна
h
2
Pi,h=ZiPi,iPuh (i= 1,2, ...,/г; А = 1,2 ,..., /г), (1)
7=1
где верхний указатель «2» при р2. , конечно, не является показателем
степени в обычном арифметическом смысле. Точно так же вероятность
наступления Ей в {п + 3)-м опыте в случае наступления Е\ в п-и опыте
равна
h h h
Plk = ^ Pi, l Pi, К = 2 Pi,lPl,h = 2 Pi,liPli,hPl.,b-
/=1 1=1 /i=i
/2=1
6 В дальнейшем мы будем иметь дело лишь с такими матрицами, т. е. с
матрицами Маркова; поэтому необходимо помнить, что во всем последующем изложении
эти два свойства неразрывно связаны с термином «матрица», который, таким
образом, всегда будет применяться только к матрицам Маркова.
30 с. Н. Бернштейн 465
Аналогичным образом определяются вероятности перехода р£ k от Е{ в л-м
опыте к ^ в (и + а)-м опыте при любом целом а>1: значения р*
представляют собой элементы матрицы Ilp?ft II == II Pi, ft IIа. Вообще, имеем,
при всяких целых а, (3,
так как переход от £i в га-м опыте к Еь. в (л + а + Р)чм опыте может
совершиться при осуществлении в (гс + а)-м опыте любого из исходов
Ей ..., #л-
Если после появления £\- в п-ж опыте появление Ек невозможно
ни в одном из следующих опытов, т. е., если ра. k — О при любом целом
а > 0, то говорят, что рассматриваемый индекс к недосягаем для данного
индекса ц мы будем выражать это свойство двух данных индексов
равенством 7
(i,A;) = 0. (3)
Принимая во внимание, что все слагаемые в сумме
неотрицательны, замечаем, что равенство р™+* = 0 для данных i и к
означает, что при любом выборе (с возможными повторениями) т индексов
lu h, ..., lm из всех h индексов по крайней мере один из множителей
произведения р . ., р. ,,..., р7 . равен нулю. Поэтому, если р0: = 0 для
а = il, 2, ..., fe, го имеем также ра. = 0 гари, любом а > h, т. е. имеет
место равенство (3), выражающее, что индекс к недосягаем для индекса i.
Напротив, говорят, что индекс к досягаем для данного индекса г, и
выражают этот факт неравенством
(*,*)> 0, (5)
если цосле появления Ег в n-м опыте появление 2?а возможно в
некотором (п + а)чм опыте (а>0), т. е., если существует такое а <С"А, что
ра , > О
h
Матрица
Dh = II Pi, л II (6)
называется простой, если все ее индексы общедосягаемы, т. е.
если любая пара индексов г, А удовлетворяет неравенству (5).
Наоборот, если существует по крайней мере одна пара
индексов /о, &о, удовлетворяющая равенству
(Л, Ао) = О, (3 bis)
то матрица Dh зазывается непростой. Из (2) вытекает, что если
(/о, fco) = О,
^7 В частности, нетрудно построить матрицу, в которой есть индекс i,
недосягаемый для самого себя, т. е. (*, i) = 0, что означает, что исход Et может произойти
че более чем один.раз во всей серии опытов.
то
(/о, I) (Z, Ао) = О, (7)
каково бы ни было I «= 1, 2, ..., /г, т. е. для всякого Z имеем по крайней
мере одно из двух равенств
(jfo, Z) = О или (Z, &о) = 0.
Следовательно, в случае непростой матрицы Dh, исходя из какого-
нибудь присущего ей равенства (3 bis), возможно выделить из нее группу
индексов аи а2, . . ., я™ (0 < т < /г), содержащую все индексы, для
которых (у'о, i) > 0 (а потому (/, /с0) = 0), так что для остальных h — т
индексов #i, я2, ..., #ь-т имеем
(/о, з*) = 0;
таким образом, хь, Sf: сц, что мы запишем сокращенно в форуме (х) = (а).
Вследствие
0= (у0, xh) = (/о, а*) (аи хк) = 0
и так как
(/о, а£)>0,
имеем
(flf, аъ) = 0 (i = 1, 2, ..'., га; /с = 1, 2, ..., h — га).
Таким образом, существует такая группа индексов (а), что все прочие
индексы недосягаемы для индексов группы (я), или короче
((«), (а)) = 0. (8)
Условие (8), характеризующее непростую матрицу || р*, &||,
равнозначно условию, что
Pi,h = 0 (it {a), A: 6(a)), (8 bis)
т. е. рг-, & = 0, когда i есть какой-нибудь из индексов группы (а), 'между
тем как к есть какой-нибудь из прочих индексов.
Действительно, если (£, к) — 0, то и подавно р*, fe = 0; с другой стороны,
в каждом из слагаемых р.. , р. , ,... ,р_ ,, составляющих р*, и (а > 0),
где i fc (а), /с 6 (а), есть по крайней мере один множитель рг\ g, первый
индекс которого принадлежит группе (а), а второй — группе (а).
Матрицу || р^, ^ || порядка га <h, содержащую все индексы
"•ь "■и? •••>Ч^иг
«1, <22, ..., ят рассматриваемой группы (я), для которой все прочие
индексы недосягаемы, называют частичной матрицей данной непростой матрицы
Dh= lip*, fell = II Рг, h Hi, 2, ...,л; частичная матрица, как и данная 2)л,
обладает тем свойством матрицы Маркова, что сумма элементов каждого ее
столбца 'равна 1. Поэтому, либо частичная матрица Hp*,fcll a —
простая, либо она, в свою очередь, имеет частичную матрицу, которая,
очевидно, служит также частичной матрицей и для всей матрицы Dh\
в последнем случае мы можем продолжать то же рассуждение, пока не
дойдем до частичной простой матрицы, содержащей лишь часть а{, а , ..,
а\ (0 < g < га) индексов группы (а), которые, согласно определению
467 30*
простой матрицы, между собой взаимно досягаемы Цаг-, а&)>0, когда
I = 1и /2? ..., Z#; к = Zi, Z2 Zg). В отличие от общепринятой
терминологии, мы будем называть непростую матрицу разложимой тогда и только
тогда, когда она имеет по меньшей мере две частичные простые матрицы;
следовательно, по нашему определению, неразложимой является не только
простая матрица, но и непростая матрица, имеющая лишь одну
частичную простую матрицу8.
Таким образом, разложимая матрица Dn — II Pi, k II характеризуется темч
что существуют по крайней мере две различные простые частичные
матрицы IIPi,fellaia2) a , ИР*.ь11Ь1,ьа, ...,ьт (котоРые> очевидно, не могут
иметь общих индексов), обладающие тем свойством, что
((а), (<*)) = О, ((&), (5)) = 0, (9)
или, что то же самое,
Vih = о (i 6 (я), к 6 (а) или i 6 (Ь), А: 6 (5)).
Из (9) вытекает, что
((а), (Ь)) = ((Ь), (а)) = 0,
(10)
т. е. (индексы группы (а) и индексы группы (Ь) взаимно недосягаемы
(следует, однако, заметить, что из (10) не вытекает (9), так что
условия (10) недостаточно для разложимости матрицы).
Приведем схемы непростой (слева) и разложимой (справа) матриц:
шшщ
Заштрихованные прямоугольники соответствуют частям матрицы, в
которых все элементы должны быть нулями.
Число X простых частичных матриц матрицы Dh назовем ее
характером.
Характер неразложимой матрицы X — 1, все индексы ее единственной
простой частичной матрицы, таким образом, общедосягаемы, т. е. д о с я-
гаемы для всех индексов i<^h матрицы DjL.
8 Предлагаемое нами отклонение от обычной терминологии упрощает
формулировку важнейших свойств цепей Маркова; но я оставляю в стороне вопрос о том,
следует ли распространить это изменение терминологии на матрицы с любыми
элементами аг\ а, не подчиненными обоим условиям
Яг, h> О,
>^j1 &t\ k = 1,
k = i
которые нами включены в само определение матрицы. (Замечу, что таблица
элементов .рг.ь, соответствующая индексам из (а), вообще не будет хгредставлять матрицы
в нашем смысле, поскольку суммы элементов ее столбцов могут быть < 1; только
если все эти суммы рашкы 1, т. е. ((а), (а)) = 0, оета также будет частичкой
матрицей D.h.)
468
После выделения, из h индексов, всех групп индексов,
соответствующих различным простым частичным матрицам матрицы Dh, которые
назовем основными индексами, вообще, останутся еще s остаточных
индексов vi, v2, ..., vs (s < А), которые недосягаемы ни для одного из
основных индексов, причем для каждого из остаточных индексов v*
досягаема, по крайней мере, одна из групп основных индексов; число 5
остаточных индексов назовем дефектом матрицы Dh.
У простой матрицы X = 1, s = 0. Если остаточных индексов нет (s = 0)
и X > 1, будем говорить, что матрица просто разложима; в таком случае
цепь Маркова распадается на X самостоятельных цепей, соответствующих
всем простым частичным матрицам9. Например, если матрица Dh
симметрична (pi, k = Pk,i), то она либо проста, либо просто разложима.
2. Из данных выше определений следует, что неразложимая матрица
Dh характеризуется тем, что среди ее индексов есть, по крайней мере,
один индекс &0, досягаемый для всех индексов: (i, к0) > 0 при i = 1, 2,..., h\
а именно, в случае простой матрицы всякий индекс обладает этим
свойством, в случае же неразложимой и простой матрицы Dh все индексы ее
единственной частичной простой матрицы досягаемы для всех £ = 1, 2,. .., h.
Таким образам, условие Маркова (2.0) достаточно (но не необходимо)
для того, чтооы соответствующая матрица была неразложима (хотя
последняя может при этом быть и непростой).
Теорема единственности. Для того, чтобы стационарная цепь
Маркова допускала только одно постоянное, сохраняющееся во всех
последовательных опытах, распределение вероятностей Ри Ро, ..., Ph, которое
удовлетворяет уравнениям
h
Ph = '%PiP<.k, (и)
необходимо и достаточно, чтобы ее матрица Dh была неразложима. Для
того, чтобы все Pi > 0, необходимо и достаточно, чтобы матрица Dh была
простой10.
9 Вообще цепь Маркова распадается на две (или более) самостоятельные цени
тогда и только тогда, когда остаточные индексы v;- могут быть разбиты на такие две
части: v1? v2,..., vs ; v1? v2 ..., va (st + s2 = s, $t > 0, s2 ^ 0)„ что ни одна из групп
1 2
основных индексов недосягаема одновременно для v* и vk\ однако, при 5 < 0 по
крайней iMepe у одной из этих самостоятельных ценен матрица не будет простой.
В этом случае (включающем в себя как частный случай простую разложимость
(5 = 0)) обычно (говорят, что матрица Dh вполне разложима.
10 Из нижеследующего доказательства нетрудно заключить, что для того, чтобы
квазистационарная цель (27.0) допускала только одно постоянно сохраняющееся
распределение вероятностей Р,-, достаточно, чтобы, по крайней мере, одна из
матриц Dh п — \\р(п) II вероятностей перехода (не смешивать р<п> с рп !) была не -
i, h i, k i, k
разложима. Если такая матрица существует, то для того, чтобы все Pi > 0,
необходимо и достаточно, чтобы все матрицы, Dh, n были простыми или просто
разложимыми. Вообще для того, чтобы цепь могла быть квазистационарной, необходимо,
чтобы все матрицы Dh, n имели одни и те же основные индексы, так как для всех
остаточных индексов при постоянно сохраняющемся распределении вероятностей
Pi = 0 (см. следующую сноску).
469
В самом деле, пусть хи хг, ..., хн представляют некоторую систему
решений уравнений
h
*k =\^Pi,kZi (к= 1, 2, ..., h) (11 bis)
h
( 2 ^? > 0) • Складывая какие-нибудь т <. h из этих уравнений, которые
/ 2.
при соответствующем (изменении нумерации можем всегда считать
первыми т пз наших h уравнений, получим
т т
Xi + Х2+ ... + Хт = Х{ 2^1, k + . . . + Хт ^ Pm, ft +
m m
+ :rm+i 2 Pm+i, k + ... + Xn2jPh,k
ft=i ft=i
и, принимая во внимание (4.0), находим для любого т < h
h h
xi 2 Pi, fc + • • ■ + Sni 2 Pm, ft =
ft==m+i ft=m+l
m m
= #m+l 2 P^+i, ft + • • • + %h 2 P^> &• (12)
ft=i ft=i
Допущение, что
яч < 0, ..., xm < 0, xm+1 > 0, ..., xh > 0, (13)
не противоречит (12) только в том случае, когда
т т
2 Pm+iji = ... = 2'P'i.ft = °» (14)
ft=l ft=i
так как иначе правая часть равенства (12), будучи положительной,
не могла бы быть равна левой его части, которая быда бы неположительна.
Но равенства (14) означают, что матрица II р2\ ft 11?п-и,...,л. есть частичная
матрица, т. е. что матрица Dh = II Pi, ь. II непростая. Следовательно, если
матрица Dh простая, то все значения Х{ должны быть одинакового знака
и отличны от нуля, а потому система решений Pu Pi, • •., Рн уравнений
(11) совместно с
2 Pi = 1 (15)
положительна и единственна.
С другой стороны, допущение, что существуют такие числа т{ и яг2
(О < т{ < т2 < h), что
Xi <0, ..., ГСт1<0, Xmi+i = ... =Zm2=0, (16)
> 0, .. . , xh > 0,
не противоречит равенству (12), где положено сначала т = ти а потом
и* = т2, только тогда, когда
h h
2 Pi. ft=-..= 2 Pml5ft = 0
И
Zi.Pm^+Uk = • • . =2 РЛ, A = 0»
ft=?i ft=l
470
■г. е. лишь при условии, что обе матрицы || pit k |[lf 2f..., mt и |[ p«, ft И m2+i,..., л,
не имеющие общих индексов, являются частичными матрицами матрицы
Dh] но это условие означает, что матрица Dh разложима. Следовательно,
если матрица Dh неразложима, то неравенства (16) невозможны, т. е.
система решений Ри..^Рк уравнений (И) совместно с (15) должна
быть неотрицательна и единственна (так как, если бы существовала
вторая система решений Р*и . . ., К, то разности ал = Р[ — Ри . . ., xh = Ph -
— Ph удовлетворяли бы (11 bis) и неравенствам вида (16). Кроме
того, если матрица Dh неразложима, но непроста, то требуемое
единственное решение получаем, полагая Pi = Р2 = ... = Рт = 0 для всех
(остаточных) индексов, отличных от индексов, входящих в единственную
простую частичную матрицу II р», a ||m+i л; после этого система с h
неизвестными (11) и (15) превращается в аналогичную систему h — m
уравнений, которые однозначно определяют h—m неизвестных Pm+i >
> 0, ..., Ph > 0. Наконец, если матрица Dh разложима, то выбор значений
i, для которых Pi = 0, может быть сделан столькими различными
независимыми способами, сколько простых частичных матриц имеет матрица Dh и.
Следовательно, в случае непростой матрицы не все Р{ > 0, а в случае
разложимой матрицы значения Pi не определяются однозначно. Таким
образом, все четыре утверждения теоремы доказаны.
Отметим, ^п в силу вышеуказанного признака, характеризующего
неразложимую матрицу, первой части только что доказаннной теоремы
единственности можно придать форму, сходную с условием Маркова (2.0):
Для того, чтобы стационарная цепь допускала только одно постоянно
сохраняющееся распределение вероятностей, необходимо и достаточно,
чтобы по крайней мере один из индексов ко матрицы || рг\ k II был досягаем
для всех индексов (общедосягаем), т. е. (i, к0) > 0 для всех i = 1, 2, ..., h.
3. Единственность постоянного распределения вероятностей, а вместе
с тем и только что установленное условие для этого, является, очевидно,
необходимым условием для того, чтобы цепь Маркова могла быть
эргодичной; при этом пределы вероятностей РггП должны совпадать
с единственными решениями Pi системы уравнений (27.0) —(28.0).
Следовательно, если стационарная цепь эргодична, то все Km Pi, n = Pi> 0
(i = il, 2, ..., /г), тогда' и только тогда, когда матрица Dh проста.
Достаточным условием эргодичности цепи является, как было показано, условие
Маркова. Необходимое и достаточное условие для существования
предельного распределения вероятностей, не зависящего от начальных вероят-
11 Мы показали в ходе нашего рассуждения, что если матрица Dh неразложима,
то в система решений уравнений (11 bis) все я*, соответствующие остаточным
индексам i = vi, V2, ..., vs, должны быть равны нулю. Но, принимая во внимание, что
эти s неиавостных xi удовлетворяют s линейным однородным уравнениям, не
содержащим других неизвестных, указанное свойство рассматриваемых уравнений (при
котором их определитель А8 ^0) ни в какой мере не зависит от прочих элементов
матрицы Dy, следовательно, и в том случае, когда матрица Dh равложима, во всякой
системе решений уравнений (И), т. е. во всяком постоянно
сохраняющемся распределении вероятностей Р4| ..., Рд цели /\ == 0 для
всех $ остаточных индексов.
471
яостей, занимает промежуточное место между этими двумя
условиями.
Условие эргодичности. Для того, чтобы стационарная цепь
Маркова была эргодична, необходимо и достаточно, чтобы существовали
такие целые числа а0 и индекс А0, что р<*° k >0 для всех индексов
i (1 ^ i ^ h) (т. е. чтобы в матрице I! pa*k II = II р . k \\a° = D«* была но
крайней мере одна строка без нулей).
В самом деле, если это условие соблюдено, то вследствие эргодической
теор<емы Маркова, примененной к цепи с матрицей 23*°, после п = А ао + Ъ
опытов, где Ъ < ао и N — целые положительные числа, все Pi, п стремятся
при Лг —► оо к пределам Pi, которые не зависят от Pi, ъ и, следовательно,
не зависят от Pi, 1. Обратно, если lim Pi, n = Pi (i = 1, 2, ..., /г), то
П->сю
h
(вследствие 2 Л = 1) среди чисел Pi есть по крайней мере одно Ph > О,
i=i °
поэтому существует такое число ао, что Р п > 0 при всех и ^ ао,
каковы бы ни были начальные вероятности Pi, i и, в частности, когда
Pi, 1 = 1 для некоторого произвольного £; но если Pi, i = 1, то 2^ п = р^ k .
Следует заметить, что найденное нами условие эргодичности р°.° h > О
более ограничительно, чем условие (i, h)>0 досягаемости ко для
всякого i, являющееся, как было показано, необходимым и достаточным для
единственности значений Pi, так как (i, к0) > О означает только, что для
всякого i существует целое число а* > 0, для которого pbh > 0, но эти а;
могут быть различны.
Полезно дать другую форму (необходимому и достаточному) условию
эргодичности стационарной цепи, введя в рассмотрение целые степени
D* = || р7} || матрицы Dh. Мы будем называть матрицу Dh регулярной,
если все степени ее 29™ имеют один и тот же характер Хп = X, т. е., если
число Хп простых частичных матриц D™, которое вообще не бывает
меньше X, не зависит от п. Таким образом, в частности, неразложимая матрица
(X = -1) будет регулярной тогда и только тогда, когда все ее степени
неразложимы. Кроме того, следует обратить внимание на то, что
остаточные индексы матриц 2Э£ всегда те же самые, чгго и у Dh, независимо от
того, регулярна ли Dh или нет.
Вторая форма условия эргодичности. Для того, чтобы
стационарная цепь Маркова была эргодична, необходимо и достаточно, чтобы
ее матрица Dh была неразложима и регулярна; в частности, для этого
достаточно (и необходимо), чтобы была неразложима матрица Da\ где
ао (1 <^. do <^ h) — наименьшее из чисел, для которых найдется такой
общедосягаемый12 индекс &о, что соответствующий ему элемент главной
диагонали о*?0 t > 0.
До» «о
В самом деле, если для некоторого а > 0 матрица Dah разложима (т. е.
Dh не является одновременно регулярной и неразложимой), то возможно
выбрать два различных начальных распределения, которые будут сохра-
12 Напомним, что в случае простой матрицы все индексы общедосягаемы. Таким
образом, в частности,, ©ели у простой матрицы, по крайней море, оджн элемент
главной диагонали отличен от нуля, то она регулярна.
472
пяться неизменными nipir всех п = та, ще т — целое число, и таким
образом единого предельного распределения, не зависящего от начальных
вероятностей, в этом случае не будет. Напротив, допустим, что выбранная
согласно дополнительной части теоремы матрица D^° неразложима.
Рассмотрим сначала частный случай ао = 1, т. е. р > 0, и покажем,
что в этом 'Случае из неразложимости матрицы Dh = \\pi,k II, для которой
ко является одним из общедосягаемых индексов, вытекает, что р™ k > О
для всех п > h при любом i = 1, 2, ..., h, а потому цепь эргодична (и
матрица Dh регулярна). Действительно, мы знаем, что для всякого i
существует такое положительное число а* ^ /&, что р?* > 0, но в таком случае,
благодаря р. . > 0, имеем также рЬ*1 > О, т. е. рп , > О при всех п > h.
Яд, До 2, Яо ^> "-0
Таким образом, только при р = 0, т. е. лишь при равенстве нулю всех
элементов главной диагонали, соответствующих общедосягаемым индексам
неразложшмой матрицы, некоторая степень ее могла бы оказаться
разложимой, так что цепь могла бы не быть эргодичной. Пусть теперь ссо (1 <
< а0 ^ h) — наименьшее число, для которого pG* > 0 (cto ^ ^)13. Если
матрица || pa«k || неразложима, то система уравнений
h ( h \
Pk=yPiP«:k 2^=1 (17)
i=i ' i=l
имеет, как и система (И) —(15), только одно решение, и это решение
не может быть отличным от решения системы (И) -(15); поэтому
общедосягаемые индексы в обеих системах совпадают, и, в частности, (индекс ко
остается общедосягаемым и для матрицы D*» = \\ра°к\\. Следовательно,
на основании предыдущего рассуждения для любого п ^ h имеем
рооп > о при всех г = 1, 2, ..., h. .
Принимая во внимание, что в случае неразложимости и
регулярности матрицы Dh к цепи с матрицей D^° непосредственно
применима теорема Маркова с законом больших чисел, получаем:
Следствие. Если матрица Dh стационарной цепи Маркова
неразложима и регулярна, то ко всякой последовательности случайных величин
я и х2, . •., #п, • •., принимающих при наступлении 1-го исхода в п-м
опыте значение a2-(i = 1, 2, ..., h), применим закон больших чисел, причем
стохастическим пределом средней — V. хк является математическое
ожидание хи(к = 1, 2, ..., /г), соответствующее единственному
постоянному распределению вероятностей цепи ( 3R£/t — 2j a\Pi i •
Замечание. Если Df° (p^° , > 0) разложима при и ер аз ложи-
.4 /i(j, по
мости Dh, то и Д^оП разложима при любом целом п, но D™ неразло-
жима1**, если М и ао — числа взаимно простые, так как в таком случае
всегда существуют такие целые числа U > 0, h > 0, что аг- + liCto = Я,-Л/,
а потому из рЬ+1ао>0 при любом целом Z> 0 вытекает, что индекс ко
13 Легко видеть, что ao^h — s, где s — дефект матрицы £>л.
14 Это же утверждение остается в силе и в том случае, когда всо р = 0,
лишь бы Dao имела по крайней мере, одну регулярную частичную простую матрицу.
473
в матрице И рм II = D** общедосягаем. Кроме того, так как все
регулярные простые частичные матрицы матрицы D^\ в частности, те, которые
имеют в главной диагонали, по крайней мере, по одному элементу,
отличному от нуля, при дальнейшем возведении в степень Da^ будут оставаться
простыми,— то существует определенное наименьшее число Нг для
которого все простые частичные матрицы матрицы D1* остаются простыми
при возведении в любую степень, так что D^ является регулярной
матрицей; при этом, если чпсло п не делится на Я, то число Хп простых
частичных матриц матрицы D™ менее числа Хн простых частичных
матриц матрицы DHh, т. е. Dnh нерегулярна.
4. Нам остается еще исследовать асимптотические свойства
стационарной цепи Маркова, когда она не удовлетворяет необходимому и
достаточному условию эргодичности, которое, как мы видели, заключается в том,
что ее матрица Dh должна быть 1) неразложима и 2) регулярна.
Заметим сначала, что, какова бы ни была матрица Dh = \\p%tk II и
каковы бы ни были начальные вероятности Рг, t (i = 1, 2,.. ., /г),
limP =0 (18)
7l->00 A
для всех s остаточных индексов vi? V2, ..., vs матрицы Dh-
Действительно, обозначим через X характер матрицы Dh, т. е. число ее
простых частичных матриц, соответствующих всем группам основных
индексов (а), (Ь), .. ., (/). Обозначим далее
S
(а) ф) (/) fc=i *'
соответственные вероятности, что исход п-то опыта будет иметь индекс,
принадлежащий к некоторой определенной из X основных групп (а),
(Ь), ..., (/) и совокупности остаточных индексов.
Если Rn о = 0 для какого-нибудь п = по, то мы, очевидно, будем иметь
Rn = 0, для всех п > и0, и весь дальнейший ход событий будет таков же,
как при s = 0, т. е. как в случае просто разложимой матрицы
Ап = Ащ, Бп = ВПо1. . ., Fn = FU{j, (20)
так как остаточные индексы недосягаемы ни для одного из основных
индексов, а основные индексы, принадлежащие к различным группам,
взаимно недосягаемы.
Из этих же двух свойств основных и остаточных индексов заключаем,
что если i?i > 0, то, во всяком случае, Rn не может возрастать, а
вероятности Ап, Вп, ..., Fn не могут убывать с увеличением п; при этом, из того,
что для каждого из остаточных индексов Vk досягаем, по крайней мере,
один основной индекс gk, т. е. ра > 0 для некоторого a^s, следует,
VA' *ft
что ра^ ^ ра (в правой части неравенства показатель а имеет обычный
арифметический смысл), где р > 0 есть наименьшая отличная от нуля
вероятность перехода р . (к = 1, 2, ..., s; i = 1, 2, ..., h). Следовательно.
Rn+s <#„(1-PS), (21)
474
а потому, каково бы ни было i?i, lim Rn — О, откуда вытекает (18).
П->оо
Таким образом, асимптотическое поведение любой стационарной цепи
качественно не изменяется от того, что i?i > 0. Количественная разница
заключается в том, что
lim Ап = A, lim Вп = 5, ..., lim Fn = F, ]
причем с возрастанием я увеличение каждой из начальных групповых
вероятностей А\, Ви . .., F\ происходит лишь в том случае, когда
соответствующая группа досягаема не менее чем для одного остаточного индекса
-Vfc, начальная вероятность которого Pv ± > 0; следовательно, величина
А, например, зависит только от At и от начальных вероятностей тех из
остаточных индексов va, для которых группа основных индексов (а)
досягаема (А = 1, если X = 1). Все предельные групповые вероятности
А, В, . . . совпадают с соответствующими начальными вероятностями Аи
Ви ..., когда регулярная матрица Dh проста или просто разложима.
Общая кв азиэрго дическая теорема. Для того, чтобы при
любых начальных вероятностях Р±Л, Ргд, •.., Pnti существовали
WmPiyn = Pi (i = 1, 2, .. ., h) (23)
(зависящие, вообще, от начального распределения вероятностей),
необходимо и достаточно, чтобы матрица Dh была регулярна.
В самом деле, регулярность матрицы Dh означает, что все ее Х(]> 1)
простых частичных матриц, соответствующих группам основных
индексов (а), (Ь), ..., (/), регулярны. Но, согласно доказанному выше условию
эргодичности, регулярность каждой из этих простых матриц является
условием, необходимым и достаточным для того, чтобы предельная
групповая вероятность, приходящаяся на долю всей группы ее индексов,
распределялась между ними при п —► оо в вполне определенной пропорции
(независимой от начальных вероятностей); предельные вероятности
остаточных индексов во всяком случае равны нулю.
Таким образом, общая теорема квазиэргодичности, которая в случае
неразложимой матрицы (X = 1), уточняясь вследствие того, что
предельная групповая вероятность А = 1 для единственной группы основных
индексов превращается в вышеупомянутое общее условие эргодичности,
аналогично уточняется при всяком Х> 1, когда цепь уже не эргодична
(матрица Dh разложима): пусть pai > 0, Ра2 > 0, ... будут единственными
постоянно сохраняющимися вероятностями каждого из индексов группы
(а) цепи Маркова с простой регулярной матрицей \\ ра., ak II,
соответствующей группе основных индексов (а); пусть ръх > 0, Ръ2> 0, . . . будут
аналогичными постоянно сохраняющимися вероятностями,
соответствующими цепи Маркова с простой регулярной матрицей \\ рьр ък II, и т. д. В
таком случае
IimPa.,n = Pa. = 4pa., HmP6,,n==iV==£p6.,..., limPv = 0, (24)
7l->00 71->0О П->00 «
где Vk — любой из остаточных индексов, а А, В, ... — указанные в (22)
475
предельные групповые вероятности, которые являются единственными
величинами в формулах (24), зависяищми от начальных вероятностей,
и могут получать произвольные неотрицательные значения
(удовлетворяющие условиям (22)).
Предположим теперь, что случайные величины х\, хг, ..., жп, ...
образуют цепь Маркова с разложимой регулярной матрицей Dh, так
что при наступлении в п-м опыте исхода Е\ величина хп = а, (i = 1,
2, ..., /г). Обозначим через Ма не зависящее от п частичное
математическое ожидание хп, соответствующее случаю, когда вероятности Pi, п
постоянны и отличны от нуля только для индексов i из группы основных
индексов (а), так что
Ма = Paiaai + Pa2aa2+ . . . I 2 Pi = *
V(a)
Аналогичным образом определим частичное математическое ожидание для
группы (Ъ)
Мь = Ръ, аьг + ръ2ъъ2 + • • • ( 2 Р^ = Ч '
и т. д. В таком случае из (24) следует, что при любых начальных условиях
lim Жхп = АМа + ВМЪ + ..., (25)
где каждое из последовательных слагаемых в правой части равенства (25)
соответствует одной из X групп основных индексов матрицы Dk. Но,
принимая во внимание, что при любых начальных вероятностях вероятность
рПо =i?ii?2 • • • Rnn
того, что при щ опытах будут все время повторяться исходы с остаточлым
индексом, согласно неравенству (21) весьма быстро15 стремится к нулю с
возрастанием п0, причем, как только наступает исход с каким-нибудь
основным индексом, все последующие опыты допускают исходы исключительно
с индексами, принадлежащими той же самой простой частичной матрице,
приходим, благодаря следствию из условия эргодичности (стр. 473),
к следующему выводу:
Видоизмененный закон больших чисел для
стационарной цепи Маркова с разложимой матрицей Dh. Каково
бы ни было начальное распределение вероятностей, можно утверждать с
вероятностью, сколь угодно близкой к достоверности, что при п достаточ-
но большом — 2jXk будет сколь угодно мало отличаться от одного и того
п fe=i
же из X чисел Ма, Мь,...; при этом, если начальное распределение
вероятностей разрешает появление основных индексов только одной группы или
если становится известным, что исход одного из опытов цепи имел какой-
нибудь определенный основной индекс матрицы Dh, то сразу определяется
та из величин Ма или Мь или ..., которая слуоюит стохастическим преде-
1 п
лом для — 2 хъ-
nk=i
15 А именно, не только рп, но и Урп убывает в опеомстрической -прогрессий.
476
В частности, если хп — 1 при наступлении исхода Е{ в п-и опыте (где
i — некоторый данный основной индекс) и хп = 0 тгри прочих исходах
1 п
тг-го опыта, так что — ^ хк есть отношение к п числа /тгг- появлений 2?*
1 п 1 п
при га 'опытах, то либо — УУ\хь, = О тождественно для всех п, либо —У! хк
nk=i *£i
имеет стохастическим пределом pi.
В действительности мы доказали «видоизмененный закон больших
чи'сел» только для случая регулярных матриц Dh, однако он остается
в силе без изменений, как мы скоро увидим, и когда матрица сингулярна
(не регулярна).
5. Итак, перейдем к рассмотрению асимптотических свойств цепи
Маркова с сингулярной матрицей Dh, когда, следовательно, цепь не
только не эргодична, но и не квазиэргодична (хотя, согласно (23),
вероятности Pv пвсех остаточных индексов все равно стремятся к нулю).
Положим сначала, что матрица ^неразложима. Тогда, как было
замечено раньше, можно указать такое число Н, что матрица DH
регулярна; при этом для любого п > О характер ее Хн > Хп >Х = 1, где Хп есть
характер матрицы Dnh (Хп — Хн только при п делящемся на Н). Назовем
число 77 периодом неразложимой нерегулярной (сингулярной) матрицы.
Применяя кзвйзиэргодическую теорему к цепи Маркова с регулярной мат-
рицей Dh , мы заключаем, что каковы бы ни были вероятности Pi, По
(i — 1, 2, ..., h) в tiq-ta опыте (1^ я0<^#), вероятности P. no+NH при
Л' — оо стремятся к определенным пределам, которые зависят от Рк,п0
(к = 1, 2, .. ., h) указанным в формулах (22) и (24) образом. Обозначим
через (ау), где у— 1,2, ...,ХЯ, группы основных индексов, на которые
разбиваются все h — s основных индексов данной сингулярной
неразложимой матрицы Dh при возведении ее в степень Н; тогда (групповая)
вероятность того, что индекс i исхода Е\ в {щ + NH)-m опыте будет
принадлежать к иэутше (ау), стремится при N —^оо к пределу Ау(щ), зависящему
от вероятностей16 Рн, п,{к = 1, 2,..., h). Следовательно,
lim Pi, n0+NH = Ay(n0)pi (i€ (ay)), (26)
где pi — вероятности единственного постоянно сохраняющегося раснре-
деления, соответствующего простои частичной матрице матрицы Dh,
которой принадлежит индекс г. Отсюда для случая сингулярной нераз-
л о ж и м о й матрицы получается.
Асимптотическая теорема. Если матрица Dh цепи Маркова
неразложима, но сингулярна, т. е. имеет период Н > 1, то при п —* оо
вероятности Pijn стремятся к периодическому повторению с периодом II;
16 Точное говоря, зависящему только от суммы "S[ Pk, п о, распространенной
(а )
У
на все индексы из группы (яу), и от вероятностей Pv, n остаточных индексов Dh.
Таким образом, если матрица Dh проста (s = 0), то предельное равенство (26)
превращается в точное равенство
P =Ау(п0)Рг (id (ау)).
477
при этом
1 '
lim —2/>,,» = />«, (27)
71=1
где значения Pi не зависят от начального распределения вероятностей
(определяясь единственным образом из системы уравнений (11)).
В самом деле, полагая
1 н
^/ = тг2ЛМ, PiAv = pi (*£ (ау),у = 1,2, ...,ХН) (28)
Н По=1
и замечая, что
н я ъ.
^j Ph, n0+l+NH = ^j ^/j Pi, kP%, n.+NH,
n0=i n0=i г=1
заключаем из (26), во-первых, что
h
Pk = ^Pipith (ft = 1,2,..., Л), (И bis)
г=1
а потому Pi являются постоянно сохраняющимися вероятностями данной
цепи, и, во-вторых, что
Л * Л NH
lim —2 Pi,n= Ит —-2t pi*n = Pi-
Замечание. Ввиду того, что, как было показано раньше, в случае
разложимости матрицы Dh цепь Маркова допускает более одного
постоянно сохраняющегося распределения вероятностей, неразложимость
матрицы Dh является не только достаточным, но и необходимым условием
4 '
для того, чтобы пределы Pi средних вероятностей - - 2 Pi, n в формуле
1 n=i
(27) не зависели от начального распределения.
Докажем еще, что:
Закон больших чисел применим к любой последовательности величин
с:п> образующих цепь Маркова с.неразложимой матрицей Dh, также и в том
случае, когда Dh сингулярна,
В самом деле, нетрудно видеть, что для доказательства нашего общего
утверждения достаточно показать, обозначая через т{(п) число
появлений исхода Ei с каким-нибудь основным индексом i при п
последовательных опытах, что mi(n)/n имеет стохастическим пределом Pi. Принимая во
внимание, что вероятность появления остаточных индексов стремится к
нулю с возрастанием п, можно ограничиться предположением, что матри-
XX
ца Dh проста (5 = 0), так что регулярная матрица Dh просто
разложима.
Обозначим через 6У (у = 1, 2, ..., Хн) наименьшее значение га, для
которого индексы из (ау) изолируются и образуют в Dh регулярную
частичную простую матрицу; иными словами, 6У есть наименьшее целое
число, обладающее тем свойством, что
р'Х>0 (*v *(«»), ку${ау)) (29)
478
при всех достаточно больших I. В таком случае
*£ х.) - °- (30>
у у
если п не делится17 на бу (т. е. рп = 0, каковы бы ни были индексы
гуку
iy, ky из К)). Кроме того, если18 pf XaJ > 0, p(a^)(a }> 0 (z ^ г/), то
p^+Y > 0, а потому р + Y = 0 (mod 6У); следовательно, если р& >
> 0 и й' > 0, то pi = (3 (mod бу), откуда заключаем, что каждой из
Хн групп индексов соответствует не более одного из Ьу чисел: 1, 2, ..., бу,
т. е.
XH>d, (31)
где
d = max бу.
Таким образом, если в п0-м опыте наступает исход Е\ с индексом из (ау),
то (/г0 + гг)-й опыт имеет исход с индексом ив той же группы (ау) тогда
и только тогда, когда число п кратно бу, так что наступление событий Е
с индексами, принадлежащими той же самой группе (ау), происходит
периодически с периодом Ьу. Поэтому
NH
2 mi(NH) = —-, (32)
и так как NH = У\ mi(NH), следовательно
Из (33) заключаем, что
н
хн
2
у=1
<d
1
6у
1
= 1.
max
t=i,....
by.
н
(33)
(34)
..., н
и, сопоставляя (34) с (31), находим, что
Хн = d. (35)
Таким образом, полагая 6У = 0yd, можем записать равенство (33) в виде
1 d 1
-Ц-=1 (0<9,<1),
17 Действительно, если бы мы имели рп > О, то Pl\n >0 (ij, G («v)>
(а )(а ) t ft
У У У У
ку £ («у)) при всех достаточно больших Zi, а потому и pl&y+lin > 0, так что,
обозначу
чая через б<бу общий наибольший делитель п и бу, мы получили бы, что р1* > О
iyk-V
дЛя всех достаточно больших I.
18 Здесь Р^О (mod бу), так как иначе для всех достаточно больших I мы
имели бы р1Ьу > 0, т. е. группы (fly) и (az) не были бы различны; отсюда также
следует, чгго рп >°, когда л = О (mod6y).
479
откуда следует, что все 0У = 1. Следовательно, все 6У = d — #, т. е. все
группы индексов имеют один и тот же период
поэтому
6у-Я = Хя (у = 1,2,..., Щ;
(36)
iim minL=l (j,el>2>...ijH)i
п Н
(32bis)
ГПг (п) Pi
и имеем стохастическим пределом тг- (г = 1, 2,.. ,/г), где, согласно
принятым выше обозначениям, pi есть вероятность единственного
постоянно сохраняющегося распределения вероятностей, соответствующего
простой частичной матрице матрицы 22^, которой принадлежит индекс i.
cm тг (R)
Принимая во внимание, что по доказанному выше, ^ — PiAy = Pi
[см. (28)], заключаем, что все
л = ¥
1 н
(37)
(так как если случайные величины хп, стохастически стремящиеся к
некоторому пределу а, имеют математические ожидания, стремящиеся к Ь,
то а = Ъ).
Обобщение асимптотической теоремы для случая разложимых
сингулярных матриц не требует никаких добавочных разъяснений.
Общая асимптотическая теорема. Какова бы ни была цепь
Маркова с матрицей D^, имеющей периодом Н 19, все вероятности Pit n
стремятся при п —* оо к периодическому повторению с периодом Н,
удовлетворяя равенству (27), где средние предельные вероятности не зависят
от начальных условий тогда и только тогда, когда матрица Dh
неразложима. (Вероятности Р. остаточных индексов всегда стремятся к нулю).
Эта теорема ъключает в себя и общую квазиэргодическую теорему, так
как только в случае регулярной матрицы период Н = 1.
Для распространения видоизмене'нного закона больших чисел на
случай сингулярных разложимых матриц достаточно заметить, что, как
только что было показано, сингулярность неразложимой матрицы Dh не
нарушает применимости закона больших чисел к цепи Маркова,
соответствующей матрице Dh-
6. Примеры. 1). Пусть цепь Маркова имеет матрицу
D* =
а
— а
0
0
0
6
1-0
0
0
0
0 0 0
0 0 0
0 1 0
0 0 1
10 0
(Х = 2, s = 0).
19 Который равен наименьшему кратному периодов всех частичных простых
матриц матрицы Dh.
480
Матрица D5 сингулярна, так как D5 имеет четыре простых частичных
матрицы (Н = 3, Хз = 4). Как и все цепи с просто разложимой матрицей,
данная цепь распадается на две самостоятельные цепи: первая
соответствует индексам 1, 2, вторая — индексам 3, 4, 5. Вероятности для каждой
из этих цепей определяются отдельно. Поэтому, полагая
Pi =
Р
1 + Р — а '
1 —а 1
Р2 ^ А , о 1 ' РЗ = Р4 = Р5 = — ,
1 + Р-а'
At = Рм + Р2,и
находим, что
lim Pi, nQ+3N =
N-+oo
Лф r D A^l-a)
л , q » lim ^2, n0+32V =
1 + P — a jv^oo 1 + P — a
не зависят от п0. Но вследствие сингулярности частичной матрицы с
индексами 3, 4, 5, период которой равен 3, замечая, что Рз,1 = Ръ,г = Рь,г, Рь,1 =
= Р3,2 = P*>,Z, Ръ,\ =■■ Р-4,2 = Рз,Ь, ИМвем.*
P-JJN = Рб,1,
-P4.3N = -Рз,1,
P5.3IV = ^4,1,
Рз, 3iv+i = Рз,ь
Pk, 3JV+1 = Р4Д,
Рб, 3IV+1 = Рб,1,
Рз, 3iV+2 = Ра,1,
Pi, 3N+2 ~ Рб,1,
Рб, 3iV+2 = Рз,Ь
В случае s > 0 (т. е. непростой или не просто разложимой матрицы с
дефектом s) величины Ау(щ) получаются переходом к пределу,
требующим предварительного вычисления вероятностей Pvk,n всех s остаточных
индексов, которые определяются из 5 линейных однородных уравнений в
конечных разностях.
2) Пусть цепь Маркова имеет матрицу Db:
D* =
О 0 a p Ъх
О 0 р а Ъ2
а р О О Ь3
р a 0 0 h
0 0 0 0a
Dl =
a2+ p2
2up
0
0
0
2aP
a2+p2
0
0
0
0
0
a2 + p2
2сф
0
0
0
2ap
a2 + p2
0
ab3 + $Ъь + bid
Р&з + ah + b2a
abt + $b2 + b3a
P&i + at>2 + ha
a?
(a + p = h + b2 + b3 + b4 + a = 1).
В данном случае матрица D5 неразложима, но не проста, так как она
имеет s = 1 недосягаемых индексов; кроме того, Db сингулярна, так как
D% разложима: Я = 2, Хн = 2. Для определения групповых вероятностей
Ап, Вп индексов (1, 2) и (3, 4) и вероятности Rn = Ръ,п остаточного ин-
31 п н. Бернштейн
481
2
декса 5 заменяем матрицу Db матрицей 3-го порядка (соединяя элементы
одной и той же группы индексов)
II 1 0 . aci + с2
Dz = О 1 ас2 + ci
II О О а2
полагая с4 = ЬА + 62, сг = Ьз + Ь4. В таком случае
Л =4 + (act + c2) R
2N+2+nQ 2N+nQ ' v x z/ 2iV+n0 '
(38)
Каждое из первых двух уравнений, соответственно примененное к
последовательным целым числам, дает (в результате суммирования) :
N-l \
k-° \ (39)
N-i
В
= Бп, + ^ + «> 2, д^.. ]
2iV-f-n0 in» fe^O
поэтому остается лишь определить вероятность остаточного индекса из
последнего уравнения (38) относительно Яж+пй; при s = -1 это сводится к
определению общего члена геометрической прогрессии, так что
R =R а2\
2/t+Ho /Jo
Таким образом, из (39) находим:
1 — а2п
Л™.^ = А„п + («* + C*)R
2N-\-nQ no v n° 1
2ЛГ+Пп Пп \ Л х/ •>
2JV+n0 По V no .1 а2 '
следовательно (так как а < 1)
где
At = Рм + Piti, В, = Р3,1 + Л,1, #i = Л.1,
Аг = Р4,2 + Р2,2 = Bi + ct Р5Л, £2 = At + сгРъл, R-2 = а Р5,, .
Применяя формулу (26), имеем:
1
lim Р,ОЛГ, = lim Р,олг =— lim S
tf-+co 8^+я» *->оо 4>2*+»° 2 л^оо 2*+Л°
482
lim PM = lim Рг,п = 4 (M + -у 4" Ръл ) ,
1
Ci + a
I n —нечетное;
lim Р3,« = lim P4,n = -=r[Bi + ^—-Piti
П-roo П-+00 Л 1 -f~ CL
lim Р,,„ = lim P2,n = 4" (si + 4^~?5.1 ' '
lim P3,„ = lim Pi,n =—[Al + ~^ P5.i) • |
2 ч 1 + a J \
n — четное;
t
lim i-2 P£|W = i- (S = 1, 2, 3, 4), lim ft,n = 0.
f->oo t n=l 4 n->oo
483
31*
=^
35
СТОХАСТИЧЕСКИЕ УРАВНЕНИЯ В КОНЕЧНЫХ
РАЗНОСТЯХ
И СТОХАСТИЧЕСКИЕ ДИФФЕРЕНЦИАЛЬНЫЕ
УРАВНЕНИЯ *
1. Отметим ** прямую связь между цепями Маркова и
стохастическими уравнениями в конечных разностях
Yn+l = Fn(Yn, an, Pn,.-.) (* = 0, 1, 2,...), (1)
где ao, Po,..., ctn, Pn,... — стохастические величины, независимые между
собой; поскольку (для данного п = п{) Yn, полностью определяется
начальным значением Y0 (не зависящим от а0, ро) и значениями а*, рг,.. .(i < щ),
величина УП| также не зависит от <хП|, Рп,,.... Пусть % (а) % (Р) ...
будет интегральный закон распределения вероятностей совокупности
независимых величин an, Pn,...; тогда условный закон распределения
вероятностей Pn+i(y; Yn) величины 7n+i при данном Yn получается
суммированием или интегрированием вероятностей в области Q (у) значений an,
рл,..., для которых Fn(Yn, an, pn) < у, т. е.
п+1
(У\ ^)=И dXa (a)djc (P)... . (2)
о у (у)
Формула (2) 'сводит полностью теорию стохастических уравнений (1) к
цепям Маркова; однако, за исключением частных случаев (например,
когда an, pn,... могут принимать лишь конечное число значений)
применение ее затруднительно. Заметим только, что теоретически формула
(2) дает решение задачи последовательного определения законоэ
распределения вероятностей Рп(у) (величин Fn, когда дан начальный закон
Ро{у) величины У0, так как, пользуясь этой формулой (2), мы получаем
уравнение
оо
Pn+i(y)- \ Pn+i(j/; z)dPn{z), (3)
* «Т. В.» (242*), добавление шестое, стр. 485—546.
** Настоящая статья является развитием и завершением результатов работ [19]
и [23]. (Автор.)
484
которое в данном случае эквивалентно оистеме уравнений (3.0) работы
[34], служащих основой теории цепей Маркова.
Мы будем заниматься здесь только монотонными уравнениями (1),
т. е. такими уравнениями, в которых Fn(Y, an, рп, ... ) есть функция,
возрастающая вместе с У при всех возможных значениях ап, Рп, . •. , так что
Fn(Y, a,p,...)<Fn(Z, а, р,...), если У < Z. (4)
Ввиду того, что наши рассуждения и выводы не зависят от числа
стохастических величин а, р,..., входящих в функции Fп, будем для краткости
писать уравнение (1) в упрощенной форме
Yn+i = Fn(Yn, an) (5)
и, как сказано, будем всегда подразумевать, что Fn(Y, a) < Fn(Z, а) при
Y < Z. Отсюда вытекает, что
Yn = Fn(Yn+u an) (6)
является монотонной (неубывающей) и непрерывной функцией величины
УЛ+1, так как Yn+u убывая (или возрастая), может стремиться к
конечному пределу Y лишь тогда, когда Уп, убывая (или возрастая), стремится
к соответствующему пределу; при этом, если функция Fn(Yn, an) лмеет
разрыв в точке Yn = и, так что
Fn(u-0, а„)= Ь, Fn(u +0, а„) = Ъ + h (h> 0),
то мы полагаем Fn(Yn+u ап) = и при Ь*С Уп+1 < Ъ -f- h. (Впрочем,
в дальнейшем мы будем иметь делю только с функциями Fn(Y, а),
непрерывными по У.)
Таким образом, неравенство Уп+1 < у равнозначно неравенству
Yn <Fn{y, an); поэтому, обозначая через Рп(у) интегральную функцию
распределения вероятностей величины Уп, имеем
Pn+i(y) = ^Pn(Fn(y, a))dxn(a), (7)
(a)
где Xn(ct) есть интегральная функция распределения вероятностей
стохастической величины an, не зависимой от Уп, причем интеграл берется по
всей области возможных значений an (или вообще всех величин an,
рп,..., которые фигурировали бы под знаком функции Fn).
Из равенства (7) однозначно определяются законы распределения
вероятностей Рп(у) последовательных величин Yn для любого п, если
известен закон вероятностей Ро(у) начальной величины Уо. Равенство (7)
будет играть фундаментальную роль в дальнейшем исследовании
уравнения (5), являясь обобщением равенства (46iv) книги «Т. В.», которое
легло в основу доказательства теоремы Ляпунова, соответствующего
частному случаю, когда Fn(Yn, an) = Yn + an.
Укажем сейчас же два общих свойства последовательности величин
Уп, образующих цепь Маркова, соответствующую монотонному
уравнению (5): устойчивость и непроницаемость.
Общее свойство устойчивости. Пусть Уо,..., Yn,...
определяются уравнением (5) при функции распределения вероятностей Ро(у)
для начальной величины Уо и, с другой стороны, Уо7,. .., Yn', .. определя-
4815
ются также уравнениями
Уп+1 = МУ«,ап), (5bis)
где законы распределения вероятностей Xn(ct) независимых между собой
случайных величин ап совпадают с соответствующими законами
распределения вероятностей величин ап, причем интегральная функция
распределения вероятностей Р'о(у) начальной величины Y0 удовлетворяет при всех
у неравенству
\Ро(у)-Ро(у)\<г; (8)
в таком случае, обозначая через Рп(у) функцию распределения вероят-
ностеи Уо, имеем также
\P'n(v)-Pn(v)\<* (9)
при любом п > 0.
Действительно, вычитая из равенства
Pn+i(y)=l P'n{Fn(y,a))dxn(a),
которому удовлетворяют Рп(у), равенство (7), получаем
Pn+i(y)-Pn+i(y)=l l?n(Fn{y,a))-Pn(Fn(y,a))]dxn(a); (10)
(a)
поэтому, если для некоторого п неравенство (9) уже установлено, то для
п + 1 имеем
| Pn+i (у) — Pn+i Ы | < J 6 d%n (a) = е.
(a)
Из равенства (10) вытекает 1 также
Свойство непроницаемости. Если (при тех же обозначениях ?
PUy)<Po(v),
то Рп (у) < Рп {у) при всех п > 0.
Другой способ определения Рп(у) заключается в непосредственном
решении уравнения в конечных разностях (5), которое представляется в виде
Гп+1 = Fn(Y, a0, ai,..., an), (11)
где F — определенная функция п + 2 независимых стохастических
величин. Этот прием может быть применен, например, когда функция
Fn(Yn, an) линейна относительно Гп, Fn(Yn, an) = AnYn + J5n, причем
Ап и Вп — либо независимые стохастические величины, либо являются
заданными функциями одной или нескольких независимых случайных
величин an, j3n, • • •, т. е. связаны известной корреляционной
зависимостью; в этом случае функция Fn также линейна относительно Y0 и легко
проверить известную формулу
п п п
Yn+i = Yo]\Ai+ YsBi П Лк.
1 Свойство устойчивости присуще всем цепям Маркова, как это видно из
доказательства (см. [34], стр. 455—458) теоремы Маркова,, (из которого следует, что
Mn+i^Mn да/же, если Я = 0); напротив, свойство нехгровжцаемости существенно
связано с монотоиностыо уравнения (5) я отсутствует, например, в случсае
уравнения Yn+i = (-l)nYn + an.
486
(В частности, если Аь — детерминированные постоянные, то Fn+i является
суммой независимых случайных величин.) Кроме того, в случае линейности
Рп(Уп, (in) = AnYn + Вп
имеем линейные уравнения в конечных разностях
Уп+1 = AnYn + Вп,
Yn+i = AnYn + 2А nJDnYn ~Г Вп И Т. Д.
для определения $RYn = Yn из первого уравнения, после чего из второго
уравнения определяем $KYn = Yn и т. д.
Отметим еще третий метод исследования стохастического уравнения,
который является непосредственным развитием способа конечных
разностей, примененного к решеиию нескольких задач в главе VI части II
книги «Т. В.».
Пусть С есть некоторое событие, вероятность которого есть определе-н-
(С)
ная функция Rn (х) при всяком n^N < оо, если Yn = х, каковы бы ни
были значения Y{ при i < п.
Но равенство Yn_t = х влечет за собой любое из равенств Yn =
= Fn-i(x, CLn-i) для всех возможных а = ая-1 с вероятностями dxn-i(a),
причем в случае равенства Yn = Fn-i(x, an-i) событие С получает вероят-
(С)
ность Rn (Fn-i(x, an-i)); следовательно2
7?^1(^) = 5JR(nC)(Fn_1(X, a))dXn-i(a). (12)
(a)
(С) (С)
Таким образом, если RN (х) известно, то Rn (x) последовательно
определяется формулой (12) для всех п = N — 1, Л* — 2,. .. , 0. В частности,
пусть событие С заключается в том, что YN < у — е, где 0 < г < 8с и 8с
есть некоторая независимая от всех Yn случайная величина с данным
непрерывным интегральным законом распределения вероятностей q(x)
(например, q(x)= 0 при х^О, q(x)= х/гс при 0 <^ х<^ес, q(x)= 1 при
х > 8с). В таком случае
Rf(x) = F(x<y-e)=F(e<y-x) = Q(y — x)
(С) (С)
(так что Rn (х) = 0 при х^у, RN (х) = 1 при х ^ у — 8с) и, подставляя
(С)
для n = N это значение RN (x) = q(ij — x) в уравнение (12), получим,
(С) (С)
опг>еделяя из него последовательно Rn-i(x), Rn-2(x), ..., функцию
i?o° (я), представляющую вероятность неравенства YN < у — 8, если на-
(С)
чальная величина Y0 = х. Принимая во внимание, что Ro (x) не убывает
с уменьшением 8с > е > 0, заключаем, что при ее —► 0 существует
lim Ro (x) = Rq(x), который представляет вероятность, что YN < г/, если
Y0 = x.
2. Перейдем теперь к рассмотрению стохастических уравнений в
конечных разностях, соответствующих стремящимся к нулю
последовательным приращениям независимой переменной, за которую мы примем для
определенности время t. Пусть стохастически независимые величины о^
2 Для получения равенства (Щ нет надобгаости предполагать уравнение (5)
монотонным.
487
имеют законы распределения вероятностей %t(a) i которые являются
непрерывными функциями t (или не зависят от t) в данном основном
промежутке 0<^ t ^ Т, так что каждому моменту U соответствует одна величина
at и значение, принимаемое ею, не зависит от значений величин а* в
другие моменты; мы будем говорить в таком случае, что в промежутке
(О, Т) существует данное стохастическое поле %t(a) (при этом
ничего принципиально не изменится, если наряду с at будет еще одна или
несколько независимых величин р/, yt,.. .)•
Пусть
Ф(у; t, At, щ) = /(у, t, At, at) + A (y, t, At, at) fAt, (13)
где / и А — данные функции, непрерывные относительно переменных
у (— оо < у < оо), t.(0 < £<С Т), At (0 < Д£<1 X) для всех возможных
значений а*, причем
Ж f(y, t, A*, at) = Myf(y, t, At, at)=0 (14)
для любых данных у и №yA (у, t, At, at) = А (у, t, At); знаком ЭДу будем
вообще обозначать математическое ожидание соответствующей величины
при данном у.
Произведем какоечнибудь разбиение основного промежутка (О, Т) на
N
части: Т = ^AU, 0 < АЦ = U+i — U ^ X, и рассмотрим соответствующее
г=0
ему стохастическое уравнение в конечных разностях
Yi+i —Y{ = AY{ = Ф(7,, th AU, at.) У At] =
= f(Yi, U, Atu at.) -fAt'i +A{YU th Atu at.) Ah
(f = 0, 1, ...,tf), ' (15)
где at. — независимые величины указанного выше стохастического поля.
Совокупность всех уравнений (15), соответствующих любым
подразделениям 0 < AU^ X, где X — произвольно малое число, мы называем
стохастическим дифференциальным уравнением, определяемым полем Х*(аЬ
и записываем его просто в виде
ДУ = Ф(7, *, Д*, аО-УА* = /(3^, t, At, at)lAt + A{Y, t At, at)At
(«/ = ®y/ = 0; ЖYA(Y, t, At, at) = A(Y, t, At). (15bis)
Согласно предыдущему, при любой заданной начальной функции
распределения вероятностей Ро(у) величины Го в момент £=0 получаем
вполне определенный закон Pn{y,t) распределения вероятностей для
величин Yn, определяемых уравнением (15) во все моменты
71-1
t = tn = 2 д*г (/г < TV + 1).
Основным является вопрос, будет ли Рп(у, t) при фиксированном
п-1
2=2 ^i{ (0 < ^ ^ ^) стремиться к определенному пределу Р(у, t), не
г=0
п-1
зависящему от способа подразделения t = tn =2 &U на части Atiy если
7=0
488
с. увеличенном числа делений п все AU —- 0. Прежде чем перейти к
общему исследованию этого вопроса, остановимся на двух простых частных
случаях стохастического дифференциального уравнения (15 bis), которые
уяснят нам как смысл поставленной задачи, так и то, почему целесообразно
рассматривать стохастические уравнения именно вида (15).
1) Предположим, что функция Ф(г/, t, At, at) = Ф(/, A*, at) не зависит
от г/. Тогда, складывая уравнения (15) (i = 0, 1, ..., п — 1), получаем
значение
п—i n-i
Yn = ^о 4 2 Ф(**, Д*<, at )УМг = 2 (Л-УА^г + А{Щ (16)
г=0 ?-=о
(©Л = 0)
в момент t ~ tn^T (tt^iV+1) в виде суммы независимых случайных
величин. Положим 9Я /2 = Ь',(г? д*) > о,Зй А = а'^*, Дг). Допустим, что
| /(f, Af, a*) | < L (0 ^ f ^ J, 0 ^ Af ^ X) для всех возможных значений
at, так что
Ж J f(tu Atu at.) \*<L «R/*(*<, Ati7 at ) = Lb\ (tu Д**). (17)
Кроме того, вследствие непрерывности f ж А относительно t и At
непрерывны также и функции at (f, At) и bt (f, At). Поэтому
n-i t
lim 2 bl (*<, Д*0ДЬ = J ь< (*> °)dt = b(*> °) = fe W'
At .-»»0 г==0 0
г
n-i *
lim 2 «t (^ Д*г)Д*г = 5 e{ (*. 0)^ = a(*' °) = <*(*)•
At.-+0 г=0 0
г
Из (17) следует, что сумма (16) удовлетворяет условию Ляпунова
2 »| /(**, Д*<, at ) |3 Д^3'' L 2 Ь< (*<> Д*<) Д*<%
2=0 2=0
< <
,- П-1
2 ь^ (u, Au)au j [2b* (*»■« д*<)д*<1
г=0 . ~ г=0
L max yA^-
V 2 &*'(**, д*од**
а поэтому при любых промежутках Aft — 0
i y — a(t)— У0\
)imPn(y,t) = P(y,t) = G У- =--), (18)
Vb(0 J
2
X X
где G(#) = \ е 2 dx. Таким образом, при любом подразделении
У2я J
' —оо
n-i
£ = tn = 2 Д^, полагая 70 заданным числом, закон распределения ве-
i=0
роятностей Pn(y,t) величины Yn в момент £ стремится к закону Гаусса
с центром a(t)+ У о и дисперсией b(t). Найденная предельная функции
489
Р(г/, £), как легко проверить, является решением уравнения
параболического типа
дР дР 1 д2Р
* = -°'«>^+т6«>^г. <19>
где a'(t) = 9R A (t, 0, а*), Ь'(£) = ЭД/2^, 0, а*), соответствующим
начальному условию Р(т/, 0) = 0 при у < 0, Р(у, 0) = 1 при г/ > 0. Отсюда
следует3, что. если 7о имеет любой закон распределения вероятностей Ро(у),
то
оо
]hnPn(y,t) = P(y,t)= \ g( y~a^T—)dPu{x) (20)
io v ib(t) '
и Р(у, t) удовлетворяет также уравнению (19) с начальным условием
Р(у,0) = Р0(у).
2) Пусть дано обыкновенное дифференциальное уравнение
-§-=Ф(У,*,а), (21)
где функция (p{y,t, а) при всех конечных значениях у, t та параметра а
непрерывна по обеим переменным у, t и удовлетворяет условию Когпи —
Липшица, обеспечивающему существование и единственность решения
y(t) в некотором промежутке t0<^ t<^ t0 + h при любом а, когда у (to) = z/0.
Если бы мы хотели считать параметр а стохастической величиной с^
определенного выше поля %t(a) для всех значений I промежутка (t0, t0 + h),
то уравнение (21) было бы, вообще говоря, лишено смысла, хотя бы
потому, что производная у'(t) функции y(t) по известному свойству
производной должна проходить при a <t < Ъ через все промежуточные
значения между у'(а) и у''(b) (например, уравнение dy/dt = at = ± 1, где
при всяком t значения ± 1 равновозможны, математически
бессмысленно). Поэтому дифференциальное уравнение (21) может быть связано
с данным стохастическим полем только так, что параметр а получает
новое значение а*, в определенные моменты t0 <C tt < ... < tn ^ U + h,
сохраняя его в промежутке (£*, *ж), причем в этих точках (разрыва) под
производной следует понимать производную справа. Таким образом, для
определения y(t) в промежутке U < t <^ti+i нужно решить уравнение
du
~~ = Ф(У, t, at.) (t <* < ti+[) (21 bis)
для данного начального значения y(U) в момент t = U\ решение
получается, как пзвестно, в виде
y(t)= у(и) + А[у(и), tu t-U, atAit-ti),
3 Заметим, что то же заключение остается в силе, когда функции f(y, t, At, at)
и А (у, t, At, at) зависят также и от у, лишь бы при произвольно данном значении
леличины у математические ожидания fflyf2(y, t, At, at)— \ f2(y, t, At, at)d%t(o>) —
<at)
= bt'{t, At) и УЯуА(у, t, At, at) =atr{t, At) ®e зависели от у, так как тогда (16)
представляет сумму почти независимых величин, к которой применима основная
лемма моей работы [8].
490
где функция А непрерывна относительно всех входящих в нее
переменных (удовлетворяя условию Липшица относительно */(£*)), причем
A(yj,0,at.) = y(y,tu at.).
Следовательно, указанное прерывное изменение дифференциального
уравнения в стохастическом поле %t(a) приводит к стохастическому
уравнению в конечных разностях
AYi = A (Yi9 t» Afc, a,.) Ah (22)
(WYA (У, t, At, at) = А (У, t, А*)),
которое является стохастическим уравнением вида (15), где положено
/ = 0. Предположим для простоты, что ср (у, t, at) для всех
возможных at остается ограниченным при 0^*^7\ — оо <^у<^оо, а потому
существует такое L>0, что | А (У, t, At, at)|<L. В таком случае
нетрудно показать, что при любых подразделениях с А^->0 Yn(t) в момент
п—1
t = £n = 2j Ati имеет стохастическим пределом y(t), где у (t) есть реше-
ние дифференциального уравнения
-#■ = Фо (У> t) = %(f (у, U Щ) = %Л (у, t, 0, a,) = YirnA (у, t, At), (z3)
определенное начальным условием у (0) = у0.
В самом деле, уравнение (22) можем записать в виде
AYi = A (Уь tu Ati) Ah + mAti, (22 bis)
где
Ui = A {Yi,tu Atu *ti) — Л (Yi9 U, Ati),
так что Жг/г = $RVkUi — 0 и $RV}u\<^L2 при всяком Yi и каковы бы
ни были uk(k<^i). Так как, хотя величины и{ и зависимы между
собой, Ho9RWAMi = 0, каковы бы ни были значения предшествующих
uk(k<^i), то $RuiU]C = 0 при г^А, и к сумме V^A^ применимо
обобщение теоремы Колмогорова 4, позволяющее утверждать, что совмещение
для всех т<^п неравенств
= z У 2 9»и|Дг| <zL)/ 2 Af?<zLyl6"== e (24)
i=0 i=o
1
имеет вероятность i\£, большую, чем 1 $■ , если все Д^<^б. Таким
образом, при данном произвольно малом е>0, Рь в больше, чем
е2
4 А. N. Kolmogoroff. Ueber die Summen durch den Zufall bestimmten unab-
hangigen Grossen, «Math. Ann.», 99 (1928), 309—319.
Условие независимости, используемое Колмогоровым, может быть заменено более
•общим условием, что 9йх& не изменяет своего значения, каковы бы ни были
значения, полученные всеми предшествующими величинами я4, х2, ..., *a_i (cm. работу
122]).
491
Следовательно, благодаря (22bis) совмещение неравенств
т—1
\Ym-Y0- 2 A(Yi, *и М{)М{\ < е ("1 = 1, 2,..., щ Mi<6) (25)
2 = 0
имеет вероятность Р6 > 1 — 2Лб/е2, которая при б — 0 стремится к 1.
Но, с другой стороны, при помощи классического рассуждения Кошп —
Липшица доказывается5, что решение y(t) уравнения (23),
соответствующее начальному значению z/(0) = z/o, является пределом yn{t) при п —-* оо
(Ati < 6 — 0), если уп(и) = у г определяется уравнением
уш— уг = А(уи t{, М{) М{ (* = 0, 1, ..., n — 1; tn = t), (26)
так что при 6 > 0 достаточно малом | yn(t) — y(t)\ < г.
Следовательно, если все значения у*, определяемые уравнением (22),
удовлетворяют неравенствам (25), то, полагая Гг- — у\ = q2-, имеем (Qo = 0)
m—1
!Qm|<e+ | 2, [A(Yi9tuMi)-A(yhtuMi)]Mi\
и благодаря условию Липшица существует такая постоянная h > 0, что
т—1 т—1
| Qm | < е +■ 2 А 17* - У* | Afi = е + h 2 | Q< | Д^> (27)
г=0 г=0
причем из Qo = 0 следует | Qi | < е. Я говорю, что при любом т > 0 имеет
место неравенство
\Qm\<eehtm ltm = '%Mi). (28)
2=0
В самом деле, положим, что неравенство (28) верно для всех т <^то
(в случае т = 1 это нам известно); в таком случае из (27) следует, что
т0 гпо+1
| Qmo+i | < в [1 + *2 e"'iA^ < в [1 + Л '$ е« <Й] = ee^'+i,
г=0 0
а потому неравенство (28) справедливо для всех целых т >0.
Таким образом, как бы мало ни было 8 > 0, при достаточно малом 6
71-1
вероятность, что Yn(t) в любой момент t = tn= ^p, Д£г- ^Г удовлетво-
1=0
рит неравенству
|Уп(0-У(0|<е(1 + в"), (29)
больше, чем 1 —/^Гб/е2, т. е. имеет пределом 1, когда AU < б —► 0.
Рассуждение, которое привело нас к последнему результату в случае
/ = 0, не только дает утвердительный ответ на поставленный вопрос
о независимости предельного распределения вероятностей Yn(t) от спо-
71-1
соба подразделения t = 2 &U(Mi —►О), но показывает также, что в дан-
г=0
ном случа,е влияние стохастического поля в пределе равносильно простой
3 Если t не превышает некоторой границы, которой нам здесь нет надобности
уточнять.
492
замене данного дифференциального уравнения другим обыкновенным
дифференциальным уравнением. Из нашего рассуждения видно, что то же
заключение остается в силе для стохастического уравнения
ДГ = /A*v + AM (3Ry/ = 0), (3Uj
если у > Vi; стохаотичность величин Yn при Д£ —* 0 в случае у > ili
стремится обратиться в детерминированность, и, наблюдая физическое
явление, соответствующее уравнению (30), при весьма малых Д£, мы могли бы
лишь с трудом обнаружить ничтожные отклонения от закономерности,
определяемой обыкновенным дифференциальным уравнением
-^-= limSVA (23 bis)
3. Таким образом, естественно положить у = 7г в уравнении (30), что
и приводит нас к данному выше общему определению стохастического
дифференциального уравнения (15 bis), в котором, без ущерба для
общности, можно было бы считать А не содержащим а*, присоединив разность
между А и его математическим ожиданием к функции /.
Дифференциальное уравнение (23) является обыкновенным дифференциальным
уравнением, производящим стохастическое дифференциальное уравнение (15)
при добавлении стохастической пертурбации, заключающейся в слагаемом
/ УЛ£, которое при Д£ — 0 вообще бесконечно велико по сравнению с
детерминированным членом Akt.
Среди обыкновенных дифференциальных уравнений существенно
выделить класс (L) уравнений, общее решение которых остается для любого
начального значения г/о конечным при 0<t <^ 2\ где Т не зависит
от г/0. К этому классу относятся, например, уравнения (квазилинейные
справа)
-f = My,t), (31)
в которых
Ay(y,t)<c (0<г^П, (32)
где с > 0 — некоторая постоянная, так как тогда
A(y4t)<A(0,t)+cy (при у>[)),
A{y,t)>A(0,t) + су (при у<0),
откуда при всех у
уА(у, t)<cy* + уЛ (0, t) < су* + -1[у2 + А*(0, 01 < с,(У2 + 1),
где Ci > с + 7г, ct> 4М2(0, £) (0 < £ < Г). Поэтому из уравнения (31)
вытекает
следовательно,
^0
493
Напротив, если, например,
A(y,t) >c|y|J+o (в>0), (33)
то соответствующее уравнение (31) не будет класса (L), так как при
г/о > 0 получаем из уравнения (31)
y(t)> ^Ц —.
(1-CQtyo)^
О
а потому y(t)-+oo при t-+l/ (cqj/q), так что нельзя указать такого
Г >0, что все решения уравнения остаются конечными для t <^T.
Из дальнейшего будет видно, что вообще для того, чтобы функции
распределения вероятностей величин Yn(t), определяемые
стохастическим дифференциальным уравнением (15), стремились при At —► 0 к
некоторым предельным законам, существенно, чтобы производящее его
обыкновенное уравнение было класса (L); но так как в последующем
изложении в центре нашего внимания будет установление достаточных
условий, то уместно будет выяснить на простом типичном примере
причину этого факта.
Возьмем стохастическое дифференциальное уравнение6
Ay = ati~At + Y2At, (34)
имеющее
dy 2
производящим дифференциальным уравнением, причем независимые
стохастические величины at ограничены и имеют один и тот же закон рас-
пределения вероятностей, 3R а* = 0, Жа* = 1, полагая, например, для
определенности распределение вероятностей at равномерным на отрезке
(—УЗ, УЗ). Пусть начальное Y0 = а0 будет какое-нибудь данное число и
Т > О также будет определенное произвольно данное число. Я утверждаю,
что существует такое определенное число д(ао, Т)> О, зависящее только
от а0 и Г, что, как бы велико ни было £>0, вероятность Pjv(L) неравенства
N
YN(T) <L в момент Т = 2 Д*г меньше, чем 1 — Q, если только все
г=0
At; < 6l достаточно малы. Иными словами, если бы даже при некотором
N
способе разбиения Т = 2 Д*г н& части, Д£г- —* 0, существовал бы
lim Рн(у) = Р(у, Г), то мы имели бы Р(оо, Т) < 1 — q < 1, т. е. функция
JV-+00
Р(у, Т) не представляла бы закона распределения вероятностей.
Для доказательства мы используем * уточненное обобщение неравен-
6 Нетрудно видеть, что все нижеследующие рассуждения и оценки вероятностей
остаются неизменными, если заменить У2 любой функцией А (У) > У2.
* См. работу [22]. (Автор.)
494
ства Чебышева, согласно которому вероятность совместного
осуществления п неравенств
h+i-l
2 а/ УД*А > — 2 у*п+Л — ^
Л+n-i (35)
(i = 1,..., л; tk+h — th= 2 А^)
больше, чем 1 — е~^2. Положим сначала, что а ^ 10/7 = у0 и,
обозначая через yi = (10/9) г/о,..., Ун = (Ю/9)/1г/0 члены возрастающей
геометрической прогрессии со знаменателем 10/9 (при h достаточно большом
У к > Ц где L > 0 — любое заданное наперед число), рассмотрим
последовательные промежутки времени
11 1
То = И = —, Ti = *" - if = —,..., Xh = #*+*)- ^A) =
так что
\M-l
1 1
ДО+i) = — + ... + _ = T
Уо Ун
1
10
Как было выше замечено, при любых подразделениях То на /го > 0
■л о—1
промежутков То = 2 ^ вероятность совмещения всех щ неравенств
г=0
г-i
2а*. iltk >z0if^ (i = 1,... , no) (35bis)
больше, чем 1 — e~z2o/2. Следовательно, вероятность, что при всех i ^ п0
i-i
/2
Ь=0
У«>0о + 2ПА^-20Уто, (36)
1 г/о
также больше, чем 1 — е~2^г\ поэтому, если положить zo = = =
3 Уто
1 _12
== Т ^°)3/2' так что Уо — 2о Ут0 = г/о — — Уо = — Уо > 0, неравенства (36)
о о о
имеют следствием
У£>(уо-*оУ^)2 = ^г/о2 (Л = 0, 1 По-1),
а потому из неравенства (36) вытекает также, что
— 4 2 4 10
Yn6 (to) > Уо - zo Уто + — у\ то = — Уо + у Уо = y У* = У*' (37)
Следовательно, при любых подразделениях промежутка т0 вероятность, что
10
Yn0(i*)>yi = Yyor (37bis)
больше, чем 1 — е~ *>3°/18. Применяя то же рассуждение к промежутку
Xi = t" — f= i/yu находим, что если в момент т0 = if неравенство
(37bis) осуществилось, то (©водя zi — уо1*/2 вместо z0 = уо(2/Ъ) веро-
495
ятность осуществления неравенства
10
Уп0+Щ (*")>У2 = уУ1 (38)
в момент t" = tf + Ti (при любых подразделениях ti на rii частей AU)
больше, чем 1 — е~^3/18. Поэтому вероятность неравенства (38), если
известно лишь, что начальное значение Y0 = а0 > г/0, должна быть больше
произведения
У о3 V? Уо3 У\г
(1 — е~^)(1 — е~ "")> 1 — ё~т* — e_1F.
Повторяя то же рассуждение для последующих промежутков t2, тз,...,
9 V+1
Тд, находим, что при любом разбиении £(/1+1) = Т '
'"'io
на
Л' = ?го + Щ + . .. -т- лл частей Д£ вероятность (при произвольно заданном
а0 >у0), что
/ 10 \Л+4
У*(^>)>^+1 = ^—J , (39)
больше, чем
Уо>
"IF
1
i-2^ 18>i-<r is 2 ^ * = 1
1=0 2 = 0
Учитывая, что вероятность 2j 0-t УА£ > 0 равна 1/2, видим, что при всяком
подразделении на тп частей оставшегося промежутка Т — £(Л-+1) вероятность
1
неравенств LN+m(T) > YN(t^h+l^) >> ун+i больше, чем -
e-yozns
1 _ £-Уо'754 J '
1 Г / 9 \h
если только все7 Д£г- < ть = — = -— ( -— \
у к 10 V 10 У
Ук
В случае а0 < у0 = 10/Г можно положить Г = 2Т0. Применяя сначала
теорему Ляпунова к 2 ati&t в промежутке (0, Го), находим, что предел
п-1
вероятности g неравенства 7n(^o)> 2z/0 в момент Го = 2 ^ (^'—^^),
г=0
7 То обстоятельство, что среди точек деления Т = ^piATi имелись
зафиксированные значения f = т0, t" = т0 -Ь х±, ..., г(Л) == т0 + т4 + ... + Тл, несущественно, так
как из нашего рассуждения видно, что при замене т* через т/. = т* + б* (0 < бг- < б =
= 11 Ун = тл), полагая z/ = z/t- / (ЗУт/) = У У* / (ЗУ1 4- 6i*/i) получаем (например,
для i = 0) неравенство Y (то') > (2/3) у0 + (4/9) у02т0' = (10/9) у0 + (4/9) г/02б0 > у*
вместо (37); [поэтому в данном случае вероятность неравенства Yn (To')<2/i>
соответствующего (,37), больше чем 1 — e~V2/2 > 1 — e-Vo8/[18(1+6vo)], и применяя тот же прием
оцеятси произведения множителей 1 — e~zi*l2, получаем аналогичную оценку
вероятности неравенства YN (Т) :> yh+i (Т — т07 + т/ + ... +1/; Л ^ д), заменяющего
(39).
496
которое наверное соблюдается, если 2 at i& ^ 2//о — а0, не меньше, чем
„ г(2уо — ао\
1 — Сг 1 -^^г- у = qy, поэтому для люоого 8 при достаточно малых А/
вероятность q неравенства Ya(To) > 2у0 больше, чем д0 — г > 0. Но если
Yn(T0) > 2у0 = 10/Го в начале Т0 промежутка (Г0, Т = Т0+ Т0), то в
в этом промежутке становится применимо проведенное выше рассуждение;
таким образом, в случае а{) < 10/Г (н частности, при а0 < 0) вероятность,
что YN(T) —> оо, когда At — 0, хотя и мала, но не равна нулю.
4. Из рассмотренного примера видно, что для того, чтобы
поставленный выше вопрос о существовании предельного закона -вероятностей
величин Yn(t) допускал положительный ответ, существенно, чтобы
соответствующее уравнение (15) обладало следующим свойством конечности.
Свойство конечности. Мы будем говорить, что стохастическое
уравнение
AYi = 0)(Yuti,ALi, atjyKh (15)
обладает свойством конечности (или удовлетворяет принципу конечности)
в промежутке Q^t^ T, если при любом данном распределении
вероятностей Pq(ij) начальной величины Y0 возможно для произвольно данного
6 > 0 указать такое значение L, что вероятность совмещения неравенств
| Yi(ti) \<L (i = 0, 1, ..., Л' + 1) (40)
N
во всех точках деления промежутка Т = jj А/* больше, чем I — ь\ каковы
бы ни были Ati ^ ue.
Таким образом, в частности, если дан некоторый определенный способ
последовательных подразделении Т на п + 1 части Дц — ч+i — tt , при
(п)
котором все Д^г < 6 — 0, когда п > ?г0 — оо, то тез принципа конечности
вытекает, что для каждого данного п > щ
Р(? (L, tf]) - РР (- L, t\n)) > 1 - г (i = 0, 1, ... , п).
где Р* (х, t* ) = P(Yi(tin ) < х) есть интегральная функция
распределения величины Y{(ti ), определяемой уравнением (15) при указанном
п
разбиении Т = £гГ-и = Д£г- на части.
Без каких бы то ни было ограничительных предположений о свойствах
функций Ф из одного только условия применимости к уравнению (15)
принципа конечности легко выводится следующая предвари тельная
предельная теорема, которая в дальнейшем будет уточнена.
Общая лредсварительная предельная теорема. Если
уравнение (15) удовлетворяет принципу конечности в промежутке
0 "О ^ Т, то, каково бы ни было данное распределение вероятностей
начальной величины Y0 и каково бы ни было конечное или счетное
множество G значений тъ. (0 < Хъ. ^ Т), существуют такие последовательные
32 с. Н. Бернштейн 497
разделения Т= 2 Д*Г на части Д^n = t'ili — t/1 -Ч), в которых для
п > пь одна из точек деления U совпадает с Хк = £* , чго закон
распределения вероятностей Р{П (у, Xk) каждой из величин 1\ (т&) стремится к
некоторому предельному закону распределения вероятностей P(y,Xk) при
■ оо
,Д*Г-0.
Формулировка теоремы не дает никаких указаний на то, как нужно
выбирать добавочные точки деления U (кроме точек ti = Xh из
множества С), чтобы предельные законы Р(у, Xk) существовали и вместе с тем
она ни в какой мере не гарантирует независимости предельной функции
Р(У> ть) от способа деления: это чистая теорема существования, которая,
подобно Беем такого рода теоремам, лишена всякого практического
значения, и в последующем изложении пользоваться ею не придется.
Для доказательства рассмотрим какое-нибудь счетное множество Е
точек ут, всюду плотное на всяком отрезке прямой (— оо < у < оо),
например, множество всех рациональных значений у. В таком случае, выбрав
произвольный способ последовательных подразделений Т на части Д£г- ,
содержащий при п-^оо (кроме точек из множества G) бесчисленное
множество значений t^ , не принадлежащих к G, можем, применяя известный
способ рассуждений, «выбрать» такую последовательность значений п —
(N)
= N-+00, при которых Pi (ym,tk) стремится к некоторому пределу
(N)
Hffl Pi (Ут, Xk) =Р(Ут, Xk)
для любых значений ут из множества Е и Xk из множества G. Принимая
во внимание монотонность относительно у функций Рг- (г/, t/t),
заключаем, что функция Р(ут,хк) также монотонна по у на множестве Е\ таким
образом, значения Р(у + 0, ть) и Р(у — 0, Xk) вполне определятся дли
всякого у:
Р(у + 0,хк)= Л\т P(ymxk) >P(y -0,ij= V\m P(ymi тА),
где Утх<у < Ут —точки из множества Е, сколь угодно близкие к у, так
что во всех точках непрерывности Р(у, xh) (относительно у)
Р(у, xk) = lim PlN) (ym> Xh) = lim PiOT(»m.f xh) = lim Pf° (y, xk).
N-+oo iV-voo iV-voo
До сих пор мы не использовали в нашем рассуждении принципа
конечности, но без него остается открытой возможность, что lim P(y,x0) < 1
и НтР(г/, Xk) >'0; в таком случае монотонная функция Р(у, хн) не пред-
у-+— оо
ставляла бы закона распределения вероятностей. Только благодаря прин-
ципу конечности, полагая «все Д*г- ->0 при га->оо, мы вправе утвер-
498
ждать, что как бы ни было мало е, найдется достаточно большое число L,
такое, что для всех достаточно больших N
а потому и
Pf)(L,tft)-Pf)(-L,Tft)>l-e,
P(L,xh) -P(-L,rh) >l-e.
т. е.
lim P(L, xk) = 1, lim P(- L, xh) = 0.
Кроме того8, если lim P^{y) = P(y) и все функции P{N)(y) равно-
мерно непрерывны в совокупности относительно у в некотором
промежутке а <^ у ^ Ь, так что при любом 6 > 0 можно указать такое h > 0, не
зависящее от iV, что
каковы бы ни были г/, z в промежутке (а, Ь), удовлетворяющие
неравенству | у — z | ^ /г, то имеем также
|P(y)-i>(z)|<6
и стремление P{N)(y) к предельной функции Р(у) (которая, таким
образом, непрерывна на (а, Ь)) равномерно в промежутке (а, Ь).
В частности, если для всех N функции P(N)(y) имеют во всех точках
(а, Ь) равномерно ограниченную производную
I dPW |
|__|<М (а<у<Ь), (41)
то, вследствие
\PW(y)-PW(z)\ <М|г/-2|,
предельная функция Р(у) удовлетворяет условию Липшица
\P(y)-P(z)\ ^M\y-z\ (42)
в промежутке (а, Ь).
Допустим еще, что все функции Р{К)(у) имеют также ограниченную
вторую производную
d2p(N)
<М, (а Чу <Ъ) (43)
(Mi не зависит от N).
8 Нижеследующие свойства последовательностей функций будут в дальнейшем
неоднократно.использованы; прилагая их к полученной только что предельной фун*с
ции Р{у, т), можно косвенно доказать ее независимость от выбора последователг-
ности чисел N (см. [19]), однако здесь, как в работе [23], этот факт будет доказан
непосредственно при соответствующем условии гладкости функции Ф.
499
32*
В таком случае, при любых а > 0, р > О (я <; у ± а <3, а^у ± р <
< Ь) имеем (О < а' < а, О < Р' < Р)
dPW(y + a') dPW(^-p')
d(/
dj/
P
<M1(a' + p') <Mf(a + p)
и точно так же
I P{m(y + a)-P{N>(y) _ &"ЧУ + P) --P(iY)(y)
I a P
т. е., полагая /г = ± a, hi = ± p, имеем
\PW(y + h)—PW(y) PW(y + /г()-№(у)
<Mi(a+ P),
Следовательно, при тех же h, hi имеем также
Г P(y + h)-P(y) P(y + hi)-P(y)
Mi(\h\ + |At|). (44)
h
откуда следует, что
hi
<Mi(\h\ + \hi\), (45)
P(y + h)-P(y)
h
стремится к одному и тому же
пределу Р'{у) при любом способе стремления h к нулю. Я говорю, кроме
dPW(y)
того, что
dy
стремится «а (а, Ь) к Р'(у) и притом равномерно на
всяком промежутке внутри (а, Ъ). В самом деле, из (44) и (45) вытекает,
что при всех N
PW(y + h) - РСП(у) dPW(y)
h
dy
АМН
P(y + h)-P(y)
h
(46)
-P'(y)\ <АМЛ|
и, с другой стороны, вследствие равномерной сходимости P<-N)(y) к Р(у),
имеем для данного h
h2 hz
\Рт(у)-Р(у)\<Т> \P(N)(y + h)-P(y + h)\<- (47)
для всех достаточно больших N (а < у < &, а <1 у + h К, Ъ); сопоставляя
неравенства (46) и (47), заключае/м немедленно, что для тех же iV
dy
Р'{У)
< (2Mi + 1)1 Л
Таким образом, если Р^'Цу) имеет па (а, Ъ) ограниченные
последовательные производные до (к + 1)-го порядка включительно
]#ч-фс*0(у)
dy1
г+1
<Mi (0<i <fc),
500
и последовательность функций P{N)(y) на (а, Ъ) стремится к пределу Р{у),
то Р(у) имеет внутри9 [а, Ъ) ограниченные последовательные производ-
&Р(у)
ные —у—{— до k-го порядка включительно:
№(у)
dy{
<М{-1 (0<i<k)
dkp(y)
(причем к-я производная — также непрерывна и удовлетворяет уело-
йу
вию Липшица), являющиеся внутри 9 (а, Ь) пределами соответствующих
&рт(у)
производных j~7~ ~' к К0Т0РЬ1М последние стремятся равномерно на
всем отрезке9 (а. Ъ). Это предположение для любого к > 1 получается из
предыдущего (к = 1) при помощи последовательного перехода от к к
к + 1.
5. Подчиним функцию Ф в уравнении (15) некоторым условиям, для
того чтобы превратить нашу предварительную предельную теорему в
предложение с определенным конструктивным содержанием.
Определения. Мы будем называть стохастическое
дифференциальное уравнение AY = Ф ^Al обычным в данном промежутке 0<^<^7
(и только такие уравнения будем теперь рассматривать), если оно может
быть представлено в виде
ДУ = Ф]/Д* = /(F, *, Д*, at).~)/'At + A(Y, /, Д*, at)M +
+ Q(y,t,M,at)M, (48)
где функции / и А при всех возможных значениях случайной величины
а* конечны и непрерывны относительно переменных у, t, At, а*( — оо< у <
< оо, 0 <; t <^ Г, 0 <; Д£<^ X) и имеют конечные и непрерывные частные
производные fy и Ау ото у; что (касается остаточного слагаемого дД£, то оно
является бесконечно малой величиной высшего порядка. Точнее говоря,
обозначая вообще в дальнейшем через А(б)>0 всякую определенную
убывающую функцию, зависящую только от 6, которая стремится к нулю
вместе с 6 и через R(L)> О всякую определенную 10 возрастающую
функцию L, полагаем, что при | у |< L (О С £< Т)
\f(y,t,M,at)\<R(L), \fy\<R(L),
\A(y,t,&t,at)\<R(L), \A'y\<R(L)1
|0(y, *, Д*, at)\<R(L)h(Al), (49)
так что на всяком данном конечном отрезке (-L <^ z/ < L) (но не па всей
прямой — оо, оо) q стремится равномерно к нулю при At —* 0. Кроме того,
9 В точках а ж Ъ то же утверждение относится, соответственно, к правой и левой
производным.
10 В некоторых случаях, чтобы отметить, что две функции R(L) (или h(б))
различны, мы будем снабжать их значками: #i(£), Ri(L).
501
полагаем
SRy/(F, t, At, a*)=3» /(У, *, A*, a<) = 0; (50)
очевидно, имеем также ЗЙу/' = 0.
Каждое обычное уравнение (48) представимо в указанном виде
различными способами. В частности, мы можем всегда (также бесчисленным
множеством способов) представить обычное уравнение в таком виде, что
\а'уЩ<1. (51)
Действительно, достаточно, например, заменить А.(у, t, At, at) через
а (у, t, At, at), где
ау = Аие у
так как
| ау VAt\ = \A'y Vtei*»1™* I < у=- < 1, (51 bis)
и (полагая А (0, t, At, at) = a (0, *, A*, ос,)) можно присоединить к
Q(Y,t, At, at) разность
Y
A (У, t, At, at) - a (Y, t, At, at) = J A„ (1 - e"< V**) dy,
о
заметив, что
Y , У
1 \ Ay (1 - *"( А^А0§) ^ | < | ^ | Л I3 tidy I < Л (L) At,
о
где i? (L) = max | у A v |.
\V\<L
В таком случае (т. е. при соблюдении (50) и (51))
fVKt + AAt
называется главной частью приращения АУ = f\TKt -\- A At + QAt.
Мы будем называть два обычных уравнения
АУ = Ф(У, *, A*, a^VKi = /]/д7 + AAt + QAt,
AY' = Фх (У, *, Af, a,) KA^ = Л VT* + ^ + 8lA*,
эквивалентными, если
|/(2/, t,At, a,)— Л (у,*, A*, a,) |< R (L) h (At) Л
| A (y, t, At) - Ax (y, t, АО |< Л (L) /г (A*), J
где A{Y,t, At)=®lYA(Y,t, At,at), М1(У/,^, At) = ^Y,A1(Y/, t, At, at)
и R(L), h(At), как Есегда, обладают соответственно указанными выше
свойствами функций R(L) и /г(б). Таким образом, замена
стохастического члена А (У, £, At, at) At детерминированным членом ®RYA.(Y, t, At, at)
соответствует замене данного обычного уравнения эквивалентным. Точно
так же замена А (у, t, At, at) через А (у, t, 0, at) и f(y, t, At, at) через
f(y, t, 0, at) с отбрасыванием остаточного члена рД£ не нарушает
эквивалентности.
502
Благодаря основному требованию, которому удовлетворяет обычное
уравнение (48), — что | Ф (у, t, At, at) |<Д (L) при |у|<£ для всех
возможных а,, условные математические ожидания всех степеней
Ф(У,£, А*, а,) при данном Y — y имеют смысл; поэтому, в частности,
АУ
At-+0 At д^0
= а»зг4(У,*>0,а,) = Л(У,0,
(АУ)2
д;—о At д^0
ДУ]2+* *
Д*--0 &t At-+0
J!nli3Ry'5F==l™3Ry MOM, А*, а,) + р(У,*, Д*,а<)] =
lim 8fty L_L = lim ЖУФ2 (У, t, At) = Жу/2 (У, *, 0, а,) = 5 (У, *),
lim Жу |a-f' = lim ЭДГ | ф |2+*Д^ = 0 (? > 0). (53)
Последнее из этих равенств аналогично условию Ляпунова и для
его соблюдения достаточно было бы только потребовать конечность
§Ry | Ф \2+q для некоторого q ]> 0. Вместе с тем важнейшие из
результатов дальнейшего исследования остались бы в силе, если бы
неравенствам (49) и другим подобным им была подчинена не сама функция Ф, а
соответствующие условные математические ожидания. На этом обобщении
технического характера мы здесь останавливаться не будем. Напротив, как
мы увидим дальше, для того чтобы основные наши выводы оставались в
силе, во многих случаях существенно будет ограничить класс
рассматриваемых уравнений.
Мы назовем обычное уравнение (48) регулярным, если оно может
быть записано в виде
ДУ = /УД* + AAt (3Ry/ = 0), (54)
где
|/;|<с<оо, |лда|<1; (55)
поэтому без нарушения регулярности можно принять, что А (У, £, At, щ) =
= А (У, t, At) не зависит от случайной величины at. На основании
сказанного выше обычное уравнение (48) эквивалентно регулярному уравнению,
если соблюдается одно только условие
|/;|<с<оо. (56)
Таким образом, случай уравнения, эквивалентного регулярному,
характеризуется тем, что возрастание \f(y,t,At,at)\<c\y\+ct при у — оо не
выше первого порядка; именно это свойство, которым в регулярном
уравнении обладает также и функция Ф(У, t, At, at), играет существенную
роль в некоторых доказательствах. Мы назовем регулярное уравнение
квазилинейным, если второе из неравенств (55) суживается и получает вид
\А'у\<с; (57)
регулярное уравнение называется квазилинейным справа, если, вместо
(57), кроме (56), имеет место только ослабленное требование
Ау < с. (58)
503
Таким образом, в случае квазилинейного уравнения имеем
\А(у, t, АО j < с\у J + d или --
<^ с при I у I —- оо,
а в случае уравнения, квазилинейного справа, имеем
yA{yJ,M)<c0{y2 + \), —^с при | у | — оо,
что, как мы видели, обеспечивает принадлежность к классу (L)
дифференциального уравнения, производящего стохастическое
дифференциальное уравнение (54), квазилинейное справа.
Введем еще один класс регулярных уравнений (являющийся частным
случаем квазилинейного), который будет нам весьма полезен при многих
рассуждениях; назовем регулярное уравнение ограниченным, если имеют
место неравенства
[ / | < с, \А | < с. (59)
6. Значение введенного выше понятия эквивалентности (52) двух
обычных уравнений заключается в следующем предложении:
Принцип эквивалентности. Пусть
bY = OJto = fij\t + Abt + Qbt, \
ду = ф4 уд* = U -J/AF + AtM + QiM j ( )
будут два обычных эквивалентных уравнения, обладающих свойством
конечности. Пусть начальные значения величин Yi(l{) и У2 (£г) будут
равны У(0) = Уо = У о, и оба уравнения рассматриваются для одних и тех
71-1
же подразделений tn = TJ Д£, причем независимые случайные величины
71-1
at в обоих уравнениях принимают одни и те же значения. В таком случае,
как бы мало ни было данное число р > 0, вероятность, что для данного
t (0<t^[T)
\Yn(t)-Y,n(t)\<^ (61)
стремится к 1, когда Mi < 1п —>• О (я —> оо). £с/ш при некоторых
подразделениях закон распределения вероятностей Рп(у) величины Yn(t)
стремится при Д£; —► 0 к пределу Р(у), то при тех же подразделениях
закон распределения вероятностей Пп (у) величины Yn{t) также
стремится к Р(у) во всех точках непрерывности функции Р(у).
В самом деле, положим У* (U) - У*(**) = щ(Ь{). Из (60) следует, что
Щ^-щ = [ф^[^иМиаг^ -Ф(Уг, tu Ми at.)]№i.
Условимся обозначать через -фь (Уп, У^, <х,п) функцию, определяемую
равенствами
^L(Yn,Y'n,atn)=,^(Yn,Y'n,atn)
при условии, что для всех i<n, | У4|<£,, | Y\\ <L и
Ь.(Уп, Y'n, atn)=0,
если выполняется по крайней мере одно из неравенств |Г*|>£,
504
\Yi\^>L (i^n). Таким образом, в частности,
un,L = un (£„) = Y'n — Yn при | Yt | < L, \Y\\^L (i ^ n),
«п. l = 0 в нротивном случае. Поэтому
^«li, l <® {«г, l + [Ф1 (Y'u U, Atu ati) - Ф (Yu U, Ah, a,t)] ]/Д^}2 =
- SRuf. L + 23RHJ. t [Ф, (Г,', if, A*4, a,,) - Ф (Y,, *г, Д<ь a(i)]L|/Ali +
+ 5R [фх (У;, fb АП, а,.) - Ф (Уь tu Atu cc(i)]2 A<; =
= 3Ruf, L + 23»^, L {[ylj (У,', ii, Дгь a,{) - A(Y[, tu Atit a,.)} +
+ [A {Y'u tu Atu a,j) - И (У{, tu Atu a,.)]} Ai +
+ €0J [/, (У;, *t, Mi, ati) - f (Y'u U, Atu a,,) +
+ / (Y'u tu Ah, ati) ~ f (Yit h, Atu ati)]l Ati + Я (L) h (Щ Atu
та it как
9R"i,L [h.i.(Y'i,tu Atu ati) - Jl (Yi, U Alt, a,.)] = 0;
принимая по внимание, что благодаря (49)
A (Y'i,th Atu a,,) - A(Yi,ti,Ati,ali)\L<i\Yi- У, j L R (L) = |Mi,L| R(L),
\j(Y'i\tuAluati) - f(YuU, Mit a,,) |< | uUL \H(L),
заключаем, вследствие эквивалентности, что
^ wli, l < ® «f.L [1 + lh (L) Aij] + Ri (L) }г(АЦ) At;<
< «Rm?.l [1 + 7?! (/.) Д*,] + i?! (L) /г (Я.(()Д*{ -
- [ffinf,,, + /t (X,,)] [1 -{- /?i (£) A*i] - k (Xn),
полагая все Ati ^ h„. Следовательно,
[Ж uf+liL + h (K)) < [1 -\- fij (L) AU\ [Wufj, -j- A (*„)j
и, перемножая эти неравенства, находим, что благодаря w0,l == 0
®и*.£. < А (Хд) {[1 + /?! (L) At0] ... [1 + llx (L) А/,^] - 1} <
П-1
< /г (Ьп) (е "° - 1J = ft (К) (e^L)l - 1).
Согласно сказанному выше, 9R гг2^ ость математическое ожидание
(Уп — ^п)2 при условии, что все | Yi\ -^ L, | }^ | <^ L(i — 0, 1,..., п).
Следовательно, в случае осуществления всех этих неравенств,
вероятность, что
|Fn- УпКЭ, (61)
больше, чем 1 > 1 —, так как при любых данных
(З2 2
е > 0, (3 > 0, L, ^ можем взять Хп настолько малым, что
505
Но, с другой стороны, вследствие применимости принципа конечности к
каждому из уравнений(60), при любом данном е>0 существует такое
L, что вероятнооть нарушения хотя бы одного из неравенств | Г* | ^
^ L (i ^п), каковы бы ни были Д£* ^ Це, меньше е/4, и точно так же
меньше е/4 вероятность, что хють одоно неравенство Y i > Li (i ^n)
осуществляется. Поэтому при всех Хп <^ |хе, удовлетворяющих (62),
вероятность осуществления неравенства (61) больше, чем 1-е. Положим
теперь, что для некоторого определенного способа подразделений t =
n-l
= 2 Д**> гДе все Д^г^^п-^0 при гс->оо? вероятность Рп(у) неравен-
ства Yn < if стремится при w-оок пределу Р(у) для всех у. Согласно
доказанному, вероятность неравенства (61) при любом данном р > 0
больше, чем 1 — #п(Р), где #п(Р) —>-0 с возрастанием п. Но неравенство
Yrn(t)<i z/, имеющее вероятность Пп(г/), необходимо осуществляется, если
имеет место Yn(t)<y— р совместно с (61); поэтому
Пп(») >/>«(»-р)-?п(р).
Аналогичным образом заключаем, что
Рп(у + М>11п{у) -в»(Р).
Следовательно, обозначая через lim Пп(*/) верхний предел и через
Jim Ип(у) нижний предел Пп(у), когда Д£г* при возрастании п указанным
образом стремится к нулю, имеем
Р(г/ + р) >1г^Пп(г/) >НтПп(у)">Р(у-Р),
и так как эти неравенства верны при всяком Р > 0, то находим вообще,
что
Р(у + 0) >Т^Пп(г/) >11тПЛ(у) >Р(г/-0),
откуда следует, что в точках непрерывности функции Р(у) (где P(z/ +
+ 0) = Р(т/ - 0) = Р(у)) Ип(у) имеет пределом Р(у).
Принцип эквивалентности позволяет, таким образом, заменять, для
нахождения предельного закона распределения, одно уравнение другим,
эквивалентным ему, если только известно, что эти уравнения обладают
свойством конечности.
7. Из нижеследующей леммы следует, что свойством конечности
обладают (а следовательно, удовлетворяют принципу эквивалентности)
уравнения, которые эквивалентны уравнению, квазилинейному справа, т. е.,
е частности, ограниченному.
Лемма конечности. Если обычное стохастическое уравнение
ДГ = Ф(У, *, At, at) УХ* = /УД^+ AM + QM (48)
удовлетворяет условиями
1/1 У А ^
-J—<c< —^—<с, («/ = 0), (63)
УУ2 + 1 У2 + 1
70 и «&мг/ применим принцип конечности.
11 Второе из этих условий ограничивает возрастание А при .| у | —► оо (| у | >1),
и так как уравнение (48) обычное, то | А |<с<оо при | у | <1.
50й
Положим
Zn = ~ln(Y2n + l), (64)
так что Zn p> 0 при всех значениях Г„. Применяя формулу Тейлора с
остаточным членом Лагранжа, находим вследствие
У 1-2/2 I г/3 — Зг/ |
,' = -" _ ' г'" I = 2 I < 2 ,
г/2 + Г (j/2 + l)2' I I ' (у2 + 1)3
что
у
AZn = Zn+t - Z« = -^7ГФ(У"''»' А'"' аО ^п +
n
+ -2?У:Т1^'Ф,(Уп' '"' АК Щп )Ah +
+ (У, + .ФУАЦ»-3(Г, + »ФУДМф,Д|,;,; (0<0<1)
3[(У„ + еФ]/дг„)2 + if
Поэтому, заменяя Ф его выражением, получаем
Zn+i - Z» = уа^ [/У^« + 4Д*„] + 2 ~ " fAi, + С1Д<„,
причем, согласно принятым нами обозначениям, имеем для | Zn | ^ М,
мЧ-уПГГе+(У2 +yin)2[(^+Q)/yA^n + -iM + Q)2^n
+
+ -^Ф3УДг„ <Д(ЛГ)А(Д*„) (65)
|(Уп + вфУдТ„)»-3(Гп'+вфУлТп)| \
у4 | = j _ < 1 j ?
[(Г„ + еФуд"и2+1?
где R(M) есть некоторая определенная неубывающая функция. Таким
образом, при всяком i > О
у. / AY- fi(l — Y?) \
Z;+i <Z,- + -^-—T-ZfYAitt + ^ у2 + 1 + 2(Г2 + l)2'J Afi +
^2(1 - Y?)
ya + .i'«'"*» 'V 72 + l ' 2(F2+1)2
+ R(Mi)h(Mi)Mu
где Д/г- есть наибольший из максимумов Zk, когда 0 <[ к <л. Складывая эти
неравенства для всех k<^i, получаем вследствие (63)
4 у
Zi+i <Z0+ ^fkylltlMk + Coti+t + R(Mi)h(X)ti+U (66)
507
где
1 i
Со _
ft=0
Полагая, что £n = t = 2 Д*ь зафиксировано, рассмотрим суммы
&+* = 2 д J\, уаг> (o< *• <»),
соответствующие £ = £n и всем промежуточным значениям t{. Пр1шимая
во внимание, что условное математическое ожидание каждого слагаемого
К ]/A£fe равно нулю, каковы бы ни были значения
предшествующих членов суммы, а условное математическое ожидание его квадрата
Y2
равно $Ryfk Д£Л < c2Atk, заключаем, что к суммам St применимо
обобщение неравенства Колмогорова; поэтому для всякого данного
с > 0 вероятность совмещения всех неравенств
< — |/ 2^^ =—У*~ (67)
8
(i = 0, 1,..., п-1)
больше, чем 1-е2. Следовательно, благодаря (06), заключаем, что upir
n-i
любом подразделении t — Atk вероятность осуществления всех нера-
венств
Zt+i < Z0 + —1/T+ c0t + R(Mi)h{X)t (0 <i < n)
8 '
больше, чем 1 — e2. Полагая данным начальный закон распределения
вероятностей величины Уо, мы можем, кроме того, указать такое значение
Mq > 0, что вероятность неравенства
Z0<Mo
больше, чем 1 — е2. Тогда вероятность осуществления при всех г(0 ^ i < п)
неравенств
Zi+i<M + R(Mi)hWt, (68)
где М = М0 + c^t I г + ?o*, будет больше, чем 1 — 2в2. Но, если мы,
увеличивая п, сделаем Я столь малым 12, что
R(2M)th(X) <Ж, (69;
12 Если уравнение (48) регулярно, т. е. $ = 0, то R(M), как видно из (65), может
к « F2 + 1
оыть ограничено постоянной с, не зависящей от М, так как —
(7+ бФ"^ А^)2 + 1
ограничено при — оо < у < оо ; поэтому значение Я >Л^ может быть зафиксировано
позависимо от М > 0, т. е. независимо от ie для всех регулярных уравнений,
коэффициенты которых удовлетворяют тем же самым неравенствам (63).
508
то Мо < 2Д/, п осуществление неравенства (68) при z — 0 влечет за собой
Mi <M + R(2M)h(X)t<2M
ii вообще, благодаря (68) и (69), из Л/,- < 2М следует таким же образом,
что Mt+i < 2М. Следовательно, вероятность, что вс всех точках делепия
(I = 0, 1, ..., п — 1)
Zi = 4~Ь(7г- + 1) < 2М, т. е. I Yi I < e2>r = L, (70)
больше, чем 1 — 2г2.
8. Свойство конечности, вследствие вытекающего из него принципа
эквивалентности, важно еще и потому, что благодаря ему становятся
законными соответствующие замены переменных, приводящие решение
данного уравнения к другому более простому уравнению.
Полож-им, что У удовлетворяет данному обычному уравнению
ДУ = fYM + AM + q{M)M. (48)
.Вводим возрастающую относительно у функцию
z = z(y,t) (z(- оо, t) = - оо, z(+ оо, t) = + оо), (71)
имеющую неп])ерывные частные производные первых двух, порядков13 для
всех г/, t (— оо < у < оо, 0 <l t < Г). Полагая
Zn = z(yn, *n),
получим, применяя строку Тейлора,
AZ„ = Zn+1 - Zn = zi(7n, /„)ДУ„ + zt (Г,„ ln)Mn +
+ у^а(У„, in) (ЛУ.)2 + Qi(A*n)A*,t = ^/УА^Г+
+ (4"^ + zyA + z't) Л*п + Q*(A**)A'*-
Если интегральный закон распределения вероятностей
Rn(z,t) = P(Zn(t)<z)
величины /j-n (t), при соответствующем разбиении
t = tn = 2 А^-, Д^-*0,
?=о
имеет предел i?(z, t), то при том же разбиении интегральный закон
распределения вероятностей Pn(y,t) величины Yn(t) равен Pn(yJ) = Rn(z(y,t),i)
и предел Рп(у, t) равен Р(у, t) = R(z(y, t),t), так как при любом z
уравнение (71) разрешимо относительно у, если z( — oo,z) = -- оо, z( + oo, t) = оо.
Если к полученному уравнению применим принцип конечности, то
предельные законы /?(z, £) не изменятся от того, что мы отбросим
остаточный член Q2(Atn)&tn, а вместо второго члена уравнения поставим
^yOA-z"/2 + z'А + z*'). Поэтому доказательство существования и нахо-
13 Существование второй производной по t не является необходимым.
509
ждение предельного распределения для уравнения (48) сводится к
решению той ж'е задачи для уравнения
AZ = zvfJAt+ (-z-z'yB + zvA + zt W (72)
Как будет показано дальше, при некоторых весьма общих условиях
предельная интегральная функция распределения вероятностей Р(у, t)
удовлетворяет уравнению Фоккера — Планка — Колмогорова14
дР л дР 1 д (п дР \
При замене переменной z = z(y, t) из Р(у, t) = R(z(y, t), t) получаем
дР _dR , dR дР _ dR , д*Р _ dR „ дШ /2
7t~^z~Zt + ~dt' ~dy~~~dTZy' ~w~~dz~zv^~d#Zv'
поэтому уравнение (I) равнозначно уравнению
dR dR , , . , ч 1 (дВ Ш ,, n dR „ n dm n\
dz\ * v 2 W 2 у dz V 9z J dz r
, dR 1 9 / dR \
где Ai = z,t + Azry + l/2Bz%, Bl = (z;)2£ =3Ry{z'yf)\ так что (Г) есть
уравнение Фоккера — Планка — Колмогорова, соответствующее
уравнению (72); таким образом, если будет доказано, что предельное
распределение Zn=z(Yn,t) удовлетворяет уравнению (Г), то тем самым будет
доказано, что предельное распределение Yn(t) удовлетворяет
уравнению (I).
Положим, например,
v ,
z(y) = Ы(у + It + 1) = ^ -,-,--, (73>
о 1У2 + 1
откуда
»(«) = у(е2-е-2).
Тогда указанное преобразование уравнения (48) приводит к уравнению
At + q(At)At,
AZ = —=L=lAt +
Vl + Y* 2У1 + 72
которое эквивалентно уравнению
PY
2А '
1 + у2 J
AZ УЛ* + — 1А At. (72 bis)
У1 + Y2 2У1 + P L i + 72J
Замечаем, что еа/ш уравнение (48) эквивалентно квазилинейному, то
14 А. Н. Ко л могор о в. Об аналитических методах в теории вероятностей.
«Ускехи матем. наук», 5 (1938), 5—41.
510
уравнение (72 bis) ограничено. Действительно, АЦ1 + у2 и //]/1 + у'1
ограничены. Таким образом, если мы решим задачу о предельном законе
распределения вероятностей для ограниченных уравнений, то тем самым
она будет решена и для квазилинейных.
Отметим также, что класс уравнений, приводимых к ограниченному
уравнению посредством преобразования (71), несколько шире
квазилинейного, а именно: если существует такая функция F(y)>0, что
у
z(y)=\-dy- (73 bis)
о Р(У)
растет от — оо до + оо при изменении у от — оо до + оо, то подстановка
(73 bis) преобразует уравнение (48) \в ограниченное уравнение (72),
когда A/f, f/F и fiF'/F ограничены, так как zyA = A/F, z]ff = f/F и
z/f7B=—BF/F2. Этот случай представится, например, когда |-4|<
< с | у\п у21 + си Я < су21 In у21 + с, (беря F(y) = с | г/In у2 \ + ct).
В данном случае уравнение (48) может быть не только квазилинейным,
но и нерегулярным.
Прежде чем перейти к общему доказательству предельной теоремы для
ограниченных уравнений, обратим еще внимание на уравнения, которые
посредством соответствующего преобразования могут быть приведены
к частному случаю15, когда функция Ф не содержит 2, так что
существование предельного закона распределения вероятностей, получающегося
из закона Гаусса простой заменой переменных, не требует нового
доказательства.
Пусть дано обычное уравнение
AY = atyB(Y,t) At + A(Yyt)At + Q(At)At (B(Y,t)>0),
(Wat = О, Жа?= 1),
удовлетворяющее условию
±оо
С-7А== + оо. (74)
I VB(y,t) -
Если, кроме того, существуют такие непрерывные (0 ^ t ^ T) функции
Ъ' (t) > 0 и a' (t), что
' *•»- И /Ж+Ц /Ж* - *<•>• <75>
то согласно (72), закон распределения вероятностей величин
Zn = г (Yn, t) = \ у *',®„ dy (71 bis)
О
B(y,t)
стремится (при Аи —> 0) к пределу, соответствующему ограниченному
уравнению 16
AZ = at VV (t) At + a' (t) At, (76)
15 См. сноску8. Уравнение (76) само соответствовало бы случаю, кота
f = а УЩуГТ), ЭДа = 0, Ш а2 - 1.
16 См. стр. 490. Согласно замечанию, сделанному в сноске на указанной
странице, заключения остается то же и в более общем случае, когда в данном уравнении
а, у В (Y. t) заменено на / (У, *), гдеЭЛ/ = 0, 9#у/2 = В (У, *).
511
т. е. (для данного начального z0) к закону Гаусса
1 Г .-(^^„ „/*-«(*)-z0
У 2кЬ (t)
С e"^mr~dx = c(- a{tJ— Z°) (a (0) - 6 (0) - 0). (18 bis)
Таким образом, предельным законом распределения вероятностей для
/ С° /" 6'(0) ,
У„ (г) будет I при данном начальном У0, z0 = ^ 1/ д, ^г аг/
]/6(<)
Например, если
то Zn = Yn + - - y73t удовлетворяет уравнению, эквивалентному AZJ-r
о
— ос^Дг, и ИРИ i'o = 2о = 0 подчиняется в пределе для каждого / >0
закону Гаусса G|—-=г), а потому предельным законом величины
Yn{t) будет G^^^-j-
С другой'Стороны, легко показать, что в случае, когда функции А(уч I)
uB(y,t) связаны соотношением (75), но условие (74) не соблюдено,
закон распределения вероятностей величин Yn(t), удовлетворяющих
уравнению (48), не может стремиться ни к какому предельному закону.
В самом деле, пусть по крайней мере один из интегралов
будет конечен; преобразование (71 bis) по-прежнему приводит к
уравнению '(76), из которого следует, что закон распределения вероятностей
Zn = z(Yn, tn) стремится для любого tn = t к нормальному закону
УЬ(0
c2ffl-a(t)-z0 \ / С!(«) —«(«) —z0
V ilh(t\ J ч У
W) y v ib(t)
Следовательно, каково бы ни было данное начальное значение Y0(— oo <
<У0<°°), вероятность qn(t), что Zn выйдет из пределов (ci(0, с2(0)
для данного t, т. е. будет принимать значения, которым не соответствуют
никакие конечные значения Уп, при и достаточно большом становится
больше ikq(t)> 0; поэтому функция распределения вероятностей
величины Yn(t) не может стремиться к предельному закону распределения ве-
512
роятностей ни при каком t > 0. Пусть, например, дано уравнение
ДУ = (1 + У2)[±уд7 + YM]
у
и начальное значение У0 = 0; преобразование z = \ = arctg у при-
_ о 1 + У2
водит к уравнению AZ = ± удг, предельный закон для Zn будет законом
Гаусса G(zftt), но ввиду того, что значения | z | > я/2 имеют вероятность
оо
У2/я j e~xy2dx >0, для Уп(£)не существует предельного закона. То же
я/(2у*7
заключение остается в силе, когда преобразование (71 bis) при
нарушении условия (74) приводит к квазилинейному уравнению, для которого
предельная область возможных значении Zn(t) простирается от —оо
до + оо.
9. Условимся называть предельной теоремой (а) для
некоторого дифференциального стохастического уравнения (48) утверждение:
при заданном законе распределения вероятностей Ро(у) для начальной
величины У0 закон распределения вероятностей Pn{y,tn) для велФиш,
Yn(t); определяемых уравнением (48), где tn = t = 2 ^г — произвольно
2=0
фиксированное число (0 <С t ^ Т), стремится к определенному
предельному закону Р(у, t), когда все AU—^0 при п—>- оо, не зависящему от вы-
бора промежуточных точек деления t(, причем \\mP(y, t) = Ро(у) во всех
точках непрерывности Ро(у).
Будем называть предельной теоремой (Ь) утверждение, что
вышеуказанная предельная функция Р(у, t) удовлетворяет
соответствующему (48) уравнению параболического типа
дР дР 1 д / дР \
w=-%+TTy{Bi^Y (I)
Нам нужно доказать, что обе предельные тгоремы (а) и (Ь) справедливы
для всякого обычного стохастического уравнения (48), обладающего
свойством конечности при соответствующих требованиях гладкости
коэффициентов А и f главной части (48). Таким образом, в частности, обе
предельные теоремы применимы к уравнениям, эквивалентным
квазилинейным справа.
В основе доказательства лежит инте1ральная формула (7), которая'
позволяет получить последовательные законы распределения
вероятностей величин Уг/, определяемых уравнением
Yn+i = Yn + Ф(Уп, tn, Мп, atn)yten = F(Yn, tn, ten, a,J, (48)
если только правая часть (48) является возрастающей функцией Уп; это
требование, очевидпо, удовлетворено17, если уравнение (48) регулярно
(J Ф у | < с), так как тогда 1 + Фу УМ > 0 при At < 1/с2.
17 Заметим, что всякое обычное уравнение эквивалентно уравнению, для которого
1 Ф' VAt | < q < 1, т. е. удовлетворяющему требованию возрастания, поэтому,
благодаря принципу эквивалентности, при отыскании предельного закона в случае
33 с. H. Бернштейн 513
Предположим сначала, что обычное уравнение (48) не только
регулярно, но эквивалентно ограниченному уравнению
ДУП = f(Yn, tn, ЩП)УМП + A(Гя, tn, atJAtn, (48bis)
ЯУ = 0, WvP = B(y,t), WyA(y,t,at) = A(y,t),
так что существует такая постоянная с, что
|/|<с, \Гу\<с, \А\<с, \А'у\<е. (59 bis)
Кроме того, мы полагаем, что функции А, Ау, В, Ву (которые, согласно
определению обычного уравнения, непрерывны по совокупности
переменных (y,t), а потому равномерно непрерывны в каждой данной конечной
области) равномерно непрерывны при — оо < */ < оо, 0 ^^ <^7\ Более
того, мы допускаем также, что А и / имеют непрерывные частные
производные по у, соответственно, до четвертого и пятого порядков
включительно, которые также ограничены 18. К этим требованиям гладкости
уравнения (48) прибавим еще соответствующее условие гладкости начальной
функции: Ро(у) должна быть непрерывна и четырежды дифференцируема
(т. е. плотность р0(у) = Р0' (у) трижды дифференцируема), причем все
производные р0(у) - Ро'Ы, Ро"{у), Ро'"(у), Р<РУ)(у) = Ро" (у)
ограничены при — оо < у < со. Докажем сперва, что при этих ограничениях
для уравнения (48) верны обе предельные теоремы.
Решая уравнение (48) относительно Уп, получим
Yn = Yn+i + Ф(Уя+1, tn, Atn, atn )УД77= F{Yn+u tn, Atn, а^ )Уд77,~ (77)
где
Ф(Гп+1, t, At, щ) = - Ф(ГЯ, t, At, at).
Положим Yn+i — y, Yn = z и будем писать для краткости 0(z) вместо
Ф(г, t, At, at) и Ф(у) вместо Ф(у, t, At, at), так что
у —2 = Ф(г)УА?=—.ф(у)Уд7. (78)
Тогда
®(У) = ~ Ф(У) + Ф(У)Ф'(У)№ + г,
где е — велсичина порядка At.
В самом деле (вследствие (78)),
8 = Ф(у)- Ф(г) + (z~ у)Ф'(г) + [Ф(г)Ф'(х)-Ф(у)ф'(у)]уКГ.
уравнения, обладающего свойством конечности, можно всегда считать это
требование выполненным.
18 Как видно из нижеследующего доказательства, ограничение производных
Л {у, t, а) ж /(у, *, а) могло бы быть заманено соответствующим ограничением
производных А (у, t) -myA (у, t, m) и В (у, t) = Wyf\
514
Но
Ф(у) - Ф(z) + (z~ y)O'(z) = у (у - z)*<S>"{z + 9(у - z)) =
= -jO2(z)O"(z + 0(y-z))At (0<0<1),
(<x>(z)<b'(z)--<t)(y)(b'(y))yJF = 1. (z-j/)№2(2 + о,(у-*))]" улГ=
= -у Ф(*)[Ф2(* + Oi(y - z))]"M (0 < Oi < 1).
Таким образом, если уравнение (48) совпадает с (48bis), так что
Ф(*) = /(*,*, аО + 4(М)УД£
то
Ф(У) = -/(I/, *, а,)-Л(у, *, аОУАГ+ [/(у, *, а,) +
+ А (у, *, a*)YAfl[/i(y, *, а,) + л'^у, *, at)fu\fbi + г =
= ~ /О/, *, а,) + [ff'y - А (у, t, а,)] УД* + 8i, (79)
где
з
8i = 8 + {А(у, t,at)f(y, t,at)ijAt + AAfvAt2
также является остатком порядка At.
Следовательно, наоборот, \мы получим Фо(я) = Ф(з) + 82, где 82 —
величина порядка At, и уравнение ДУП = ФоУД^п будет эквивалентно
уравнению (48bis), если, отбрасывая в формуле (79) остаточный член ei,
заменим Ф(у) через
- /(*/, t, at) + [ffy -Л {у, t, a,)№,
т. е. положим
Уп = F{Yn+u in, Atn, atn) = Yn+i + 6(Fn+i, tn, Atn, atn), (80)
где
6(Уп+1, tn, Atn, atn) = —/(Уп+ь tn, Atn, а«и)]/дГя +
+ {ffy-A(Yn,tn,atn)]Atn. (81)
Учитывая, что к ограниченным уравнениям применим принцип
эквивалентности, мы можем в данном уравнении (48) заменить Ф(я) через
Фо(я), а потому /у1(Уп+1, ^п, Д^п, cti ) задана формулой (80), и связь
между законом распределения вероятностей Р{+\(у) величины Уг-+1 с за-
515 33*
коном распределения вероятностей Pi (у) величины Yi получит на
основании (7) вид
Рш(у) = J Pi(F(y, U, Ли, a))dXt. (a). (82)
Так как по условию Ро(у) = Ро (у) есть заданная непрерывная функция,
то из равенства (82) мы получаем последовательно, для любого i,
рш(у) = P'i+i(y) = J P'i (F(y, и, Ми а)) (1 + 6y)dXti(a). (83)
Напомню, что согласно принятому в начале доказательства условию, как /,
так и ffу — А ограничены вместе со своими частными производными по у
первых четырех порядков: поэтому, в частности, существует такая
постоянная с, что
\f'v+ffv-A'y\<c.
Таким образом, если известно, что
Pi(y)< Ми (84)
то из (83) следует, что
Рг+1(У)< МШ<М1 S (1 + 6v')dxt. (a) = Mi{i - J // d%(a)iAt;+
+ 5 V'vZ + Щ-Ау')й%{а)Щ<M{(i + cAt{),
так как
J U{у, t, At, at)dxt(a) = Wyfy = 0.
Следовательно, полагая ро(у) ^ М0, имеем
п-1
с J At.
Рп(у) = Рп(у) < ^п < М0{1 + сД*о).. .(1 + сА^-0 < ЛГо е *=° =
= М0&*п <М0гсГ = TV, (85)
для всех tn ^ Т.
Аналогично из ограниченности начальных производных I ро (у) I ^ Л/о,
|Ро(^)|^^' |р'о'(^1 ^^q" вытекает ограниченность производных
jp^(2/)| (*^3) соответствующих порядков для любого п. В самом деле;
дифференцируя еще раз равенство (83), получаем19
diPi^V) РШ(У) - J {p/(^(»,*,A*,a))(l + ei)2 +
+ Pi(F(y,t, At, a))6^}dx(a).
Поэтому, полагая \р\ (у)\ <^М'., имеем
| Рш(у) | ^ Мш < Mi J (1 + i)2dx(a) +
19 Заметим, что сущеетво^ашоие производной любого &-го (порядка dhPi[dyk для
всех i вытекает из существования соответствующих производных у начальной
функции Ро (у) и не связано с их ограниченностью при — оо < у < оо, завися
только от существования производных / и Л, а не от их ограниченности.
516
и
+ \] Ыу) + ьр\ (у + об)](г. dx(a) | <л/;5 [(1 + б; )2 +
+ | М"у1\Ша) +Mi\l6"v.dX(a)\ (0 < 0 < 1). (86)
\ f'(yJ,At,at)dX(a) = 0;
» и
следовательно, существует такая постоянная си что
| $62dx(a)|<ClA*, J (б;2+|б6^|)йХ(а)<с1А^.
Поэтому из (86) следует, что
М'ш < М.\ Г J (1 + 2б'у)<*х(а) + с^Л + ДГ^Д* <
< Д/*'[1 + (2с + d)M] + NiCiM,
где Ni = М0есТ — найденная выше (85) общая верхняя граница для всех
М(. В таком случае, полагая 2с + ci = с2, имеем
M'i+l < М'(1 + c2A*<) + NtcAU = (М'{ + Ni) (1 + с2Д*г-) - Nu
откуда для всех п
М'п < (Mo + iVi) (1 + с2Д*0).. .(1 + c2A^n-i) - Ni <
< (Mo + Nt) e^n -Ni< (Mo + Ni) e^T = iV2. (87)
Таким же образом, дифференцируя еще раз, получим верхнюю границу
Af" <7V3 для | ^"(у)! из равенства
Pi"t(y) = p"+i(y) = J [р? №, *, A*, at)) (1 + 6i)« +
+ 3p'i(F(y, t, At, a,)) (1 + б£)б£ + Pi(F)6y/]dx(a) =
= J pi(F) (1 + aj)*dx(a) + 3 $ [pl(») + fipj'fo + 66)1(1 + 6'y)6^dx(a) +
+ $(р*(у)+бр*(» + в1б)]в^х(а)
(0 < 9< 1, 0< 9i < 1). (88)
Для этого, учитывая, что
Wyfy* = J /,/»' (у, *, Д*, a«)dx(a) = 0,
достаточно заметить, подобно предыдущему, что модули каждого из трех
интегралов, стоящих в правой части равенства (88), соответственно
меньше, чем: 1) М{"[1 + (Зс + с')Л*], 2) (М/ + М/')с'М, 3) (М{ +Mi')c'At,
где с' (как и с) — некоторая определенная постоянная. Таким образом,
для М\г получаем неравенство вида
откуда
Мш < М" (1 + czAU) + N2cBAtu
Мп < (Mo + N2) eCit = N3 для всех п,
517
где постоянная с ограничена вследствие ограниченности / и А с их
производными по у до четвертого и третьего порядка соответственно, а
постоянная N зависит также от M§r, MJ и М0. Очевидно, что тем же путем можем
получить и соответствующую верхнюю границу для | d4jPn/dz/4 | = J p'"(y) I,
так как производные / и А до пятого и четвертого порядка соответственно
ограничены. Возвращаясь к уравнению (83), которое представим в виде
[R2
Pi(y) + 6p't (У) + ~2 Р" (У + Щ
(l + 6„)dx(<x), (83bis)
заключаем также, что
\pi+i(y)-Pi(y)\<Mi\) 6у^х(а)\+М/\1 6(i+ by')dx(a)\ +
+ ~М/'1 62(1 + V)^x(a) < cuMi, (89)
где Со есть некоторая постоянная.
Аналогичное неравенство
P'i+l(v)-P'i(v)\<e°toi (9°)
нства
= Р'т М =" S [К (У) + 6Р" (У) + ТР"'(У + 9б).
является следствием равенства
X
X (4 +б; )»dx(a) + J ЫУ) + Щ (J/ + Otfi)] 6;'2dX(«) =
= ?i (у)5 (i + 6;)2dX(a) + P;'(y)'J 6(i + 6;)2dX(a) +
+ P*(»),J<e^x(a) + ^$Ъ>"'(У + 66)62(1 + б;)2 +
+ 2p'.{y + 0,6)66';.] dx(a),
из которого вытекает, что
| Pw(У) ~Pi(y)\< Mi I J fi£dX(a)| + M\ | J [26; +
+ 6/2]dx(a) | +Mt" | J 6(1 + 6y')2dX(a) | + -^- $ 62(1 + Ьу')ЧХ(а) +
+ M'i<\) \b6y>\dx(a)<coAti. (90bis)
10. Представим теперь уравнение (82) в виде
Pi+i(y) = J [Pi(y) + 6Р/(у) + j Pi" {у) +
+ -g-jy/,a/ + eo)Jdx(a); (91)
отсюда, благодаря доказанной выше равномерной ограниченности
\Р%'"{у) | = | Pi"(у) J для всех у, заключаем, что
\Pw(y)-[Pi(y) + Pi'(y) $в<*х(а) +
+ 4Рг//(^) 5 бадх(а) ] | < ^ J | бз | dx(a)< cAU\ (92)
518
где с — постоянная, не зависящая ни от Ati, ни от у, ни от U (0 < к *ч Т).
Но
$6<*Х(а) = 5 {ffv'-A)Atid1{a)=^yWy'^A)Ati = [~~-A)jAtu
J ЬЧг(а) = J [- / + (//; - Л) ум-]2 Д^Х И,
так что
| ^b2d%(a)-BMi] <cAU%
Таким образом, из (92) следует, что
Pi+i(y)-Pi(y) +
Pi'(y)U(y,tt)-± fyl
YpUv)B(y,ti)
Аи
< CiMi\ (93)
где постоянная ct по-прежнему не зависит от у, t{, А^г (0 ^ Ц ^ Т).
Пусть 0 = t0 < к < ... < tn < ... < tN < tN+i = Т будет некоторое
определенное разбиение (0, Т) на Л' + 1 весьма малых промежутков
( N \
Ati = ti+i — ti <Х[ 2±Ati = Т I; будем обозначать через P{N)(y, tn) интег-
\ г=о /
ральный закон распределения вероятностей величины Yn в момент tn,
определяемый уравнением (48), т. е. (91), соответствующим этому
разбиению. Нам нужно показать, что, каково бы ни было другое разбиение
N'
Т = ^Аи' на N' + 1 частей At/ < X, при любом данном е > 0
\&N4y,t)-Pi»')(y,t)\<2e
во всякой общей точке деления t = tn = t'n ^ Г, если только X достаточно
мало.
Для этого, возвращаясь к данному подразделению Т на N + 1
промежутков At^ разделим произвольным образом каждый из промежутков
Ati = 2 Mitk(i = 0, 1, . .., N) на к{ + 1 частей Д^у<. = *»•,*+! — **,ь, так что
**,о = *i, Чм-i — **+i = £ж,о и интегральный закон Yitk в момент ^д,
соответствующий такому дроблению, обозначим через Р*(у, tiik).
Предположим, что указанное дробление сначала произведено только для всех i < п,
промежуток же Atn оставлен преягаий, и обозначим соответствующий
интегральный закон для Y в момент £n+i через Р* (у, tn+i); таким образом
1 п
P*Jy,tn+i) = $ P*(F(y),tn)dX(a),
где для данного п функция F(y), нак я %(а), та же, что и в уравнении
PW(y, tn+i) = ^PW(F(y), tn)dx(a), (82)
соответствующем данным основным промежуткам Д^. Тогда, если изве-
519
стно, что для всех у
P*(y,tn)-PW(y,tn)\<en,
(94)
то имеем также
\P?n(y,tn+l)-PW(y,tn+i)\ =
J [P*{F(y), tn)-PW(F(y), tn)]dx(a)
<f„.
(95)
Кроме того, в принятых нами обозначениях неравенство (93) получит вид
1 дВ\ dP*(y,t„)
Pfn(y, tn+i) - Р*(у, *«) + [( Л(у, М-ТТ~) dy
1 в, * ,&P*(yJn)
Atn
< CiAtn\
(96)
а для частичных промежутков 6tn,k неравенство (93) превращается в
I Г{ 1 дБ \dP*(y,t„k)
\P*(yJn,k+l)-P*(y,tn,k) + \[A(y,tn,k)- --^ КУ'
2 ду ' dy
Atn,k\ <СаА?1>к
(А-0,1, ••.,*»)■ (96bis)
1 „, , ч d?P*(y,tn>h)
■TB(y,U*) ^г—
При этом, как бы мало ни было данное число (3 > 0, принимая во
внимание равномерную непрерывность А, В, дБ / ду относительно t и
ограниченность dP*/dy, d2P*[dy2, можем взять % > Atn достаточно малым, чтобы
заменить неравенства (96bis) неравенствами
1 дБ \ dP*(y,tn,k)
Р*(У, t„th+i)-P*(y, tn,k)+ \[ А (у, *„)-
1 я, , ,d?P*(y,tn,k)
YB(y,tn) 1-г— \Atn„
2 ду
dy
<ciAfi'+ рД*„, д.
п, к
Складывая эти неравенства для всех к = 0, 1, . .., кп, получаем
P*(y>tn+i)-P*(y,t) +
{ A(y,tn)-
1 дБ \ ^ dP*(y,tn,h)
2 ду J ^
dy
Atnyk-
7B(».MS
i=0
d*P*{y,tn,h)
dy2
Atn<)
< CiAtn3l> + $Atn. (97)
Учитывая, наконец, что, благодаря установленным выше неравенствам,
dP*(y,tntk+i) dP*(y,tn,h)
dy dy
d*P*(y,tn,k+l) d*P*(y,tn,h)
dy*
dy2
< CoAtn,k,
< c0Atn,k,
(89)
(90)
520
имеем для всех к <^кп
\ dP*(y,tn,h) dP*(y,tn)
dy dy
d^P*(y,tn>h) d*P*{y,tn)
dy2
dy*
выводим из (97), что
Kl дВ \
A^t^~Y~dy~)
< c0At„,
< c0Atn,
1 дВ \ dP*(y,tn)
(98)
dy
1 r/ * s ^P*{y,tn)
~TB{y'tn) dy*
< pA*„ + dAtn3'' +
i_ дБ
2 ~ду~
2 ду
Atn j <
— j В \\ CoAtl (97 bis)
+
Сравнивая это неравенство с (96), мы получим, вычитая одно из другого:
\P*(y,tn+l)-P* (y,tn+l)\<
< pAf„ + 2ciA*„'/» +
[
1
+ — | В j соД^п < 2рД*п, (99)
2 Т{Г
полагая X > А£ достаточно малым.
Следовательно, если имеет место (94), то из (95) и (99)вытекает, что
| Р*(у, *я+1)- PW(i/, *n+0] < en + 2(ШП = 8n+i,
поэтому, при всяком п <^N + 1, имеем
|Р*(у, *п)_ рс*>(у, fn)| <2p2 ^f<2pr = e, (100)
где, беря Я достаточно малым, 8 можем сделать произвольно малым.
N'
Но если дано какое-нибудь другое разбиение Т = У\ А£/, где также все
Atj ^Z X, то, соединяя вместе овсе точки деления tj и tt обоих разбиений,
получаем, что в каждой точке t = tn = tn, общей обоим подразделениям
7\ будет соблюдаться (100) и
поэтому
\P*(V,t)-PW(y,t)\<s,
\PW(yJ)-PW(y,t)\<2e.
(100 bis)
(101)
Следовательно, :каков бы ни был способ последовательных подразделений
Т на N + 4 частей А*, <А,, где К —- 0 при N —* оо, Р^(у, t) равномерно
стремится к одному и тому же предельному закону распределения
вероятностей Р(у, t) (Р( — оо, t)'= 0, Р(оо, *)= 1) для всех у{— оо < г/< оо)
и при всех t = tni являющихся точками деления Т для какой-нибудь
бесконечной последовательности значений N.
521
Кроме того, принимая во внимание, что частные производные Рот(г/, t)
по у до четвертого порядка включительно равномерно ограничены,
заключаем, что и ее производные по у до третьего порядка включительно также
равномерно стремятся к соответствующим частным производным Р(у, t).
Но, беря любое данное значение t = tn{0 <. t < Т) и любое Atn ^ А,,
замечаем, что неравенство (97bis)остается в силе при всяких разбиениях Atn
на части Д£п,л; поэтому оно справедливо также и для предельной функции
P(V,t):
1 дВ )JP{y1t_X_
ду
д2Р(у, t)
Р(у, t + At)-P(y, t) +
А(у, t)-
—2*(M)
для всякого t и 0 < At <. X, т. е.
P(y,t + At) — P(y,t)
ду2
At
2 ду
< 2рдг
At
+ [A(y,t)~
2 КУ' ' дуг
1 дв \dP(y,ty
2 ду
<2р.
ду
Отсюда следует, что при At —* 0 (так как при этом Р
P(y,t + At)-P{y,t)
At
который равен
0) отношение
dP(y,t)
стремится к вполне определенному пределу
dt
дР
dt
д\В^-
. дР L 1 V ду
= —А— h —
ду
ду
(I)
Таким образом, предельная функция Р(г/, t) при всех (г/, t) удовлетворяет
уравнению (I), и, квоме того, вследствие (98), ппи t—>~0, P(y,t)—>-
—*Р(у, 0) = Ро(у), Ру(У, t)-+P'o(y), Ру(У, t)—+Po'(v)- Так как мы
показали, что Р(у, t) обладает также непрерывными частными
производными по у до третьего порядка, то правая часть уравнения (I) имеет
непрерывную производную по г/, откуда следует, что при сделанных выше
дР(у, t)
предположениях предельная плотность вероятностей p(y,t) =
ду
удовлетворяет уравнению20
др
dt
ду 2
1 дЦВр)
ду2
(И)
Заметим мимоходом, что, по сути дела, предложенный нами метод
доказательства существования предела содержит эффективный способ
20 Собственно, именно это последнее уравнение было предложено Планком и
позднее установлено более удовлетворительно А. -Н. Колмогоровым (см. сноску 14,
стр. 510) (при предположении, что предельная плотность р(у, t) существует),
который, однако, оставил без рассмотрения вопрос об условиях, каким должны
удовлетворять функции А (у, £), В (у, t) для тога, чтобы функция Р(у, t) (или р(у, t))
существовала.
522
последовательных приближений для нахождения решения Р(у, t)
уравнения (1) параболического типа (В (у, t) > 0) при заданной начальной
функции Р(у, 0) =Ро(у). При этом выбор стохастического уравнения
(48) и полях* (<х) независимых случайных величин ограничен лишь
требованием, чтобы %Р = В (у, t). Таким образом, мы вправе принять, что
КУ, *) = atl/B(y, t), где а* принимает лишь значения ± 1 с вероятностью
7г; кроме того, мы можем при произвольно фиксированном t положить,
например, Mi = t/ n(i = 0, 1, ..., п — 1). Тогда интегральное равенство (82)
превращается в функциональное уравнение (к = 0,1, ..., /г — 1)
+A(, + .(,^)J.-/7[^EJZ)}.
1 дБ
где а(у, t) = -7г—~ А(у, t) и, по доказанному, Рп(у) имеет при вся-
Z оу
ком £>0 пределом искомое решение P(y,t), когда п-+оо (вообще
lim Pk(y) = Р(у, Щ, если lim— = К) .
Согласно сказанному в п. 8, из предельной теоремы, доказанной выше
для ограниченных стохастических уравнений, вытекает, что она верна
также и для всех уравнений, в частности, для уравнений,
эквивалентных квазилинейным, которые при помощи преобразования
вида (71) приводятся к ограниченным уравнениям (подчиненным так же,
как и начальная функция вероятностей Ро{у), использованным при
доказательстве условиям гладкости), причем предельные функции также
удовлетворяют соответствующему уравнению (I) и (II).
11. Требование гладкости коэффициентов A, f может быть сейчас же
значительно снижено, если мы хотим только, чтобы предельная теорема
(а) была применима к ограниченному уравнению (48): для этого
достаточно, чтобы функция А имела ограниченную частную производную Ау\
удовлетворяющую определенному условию Липшица \ Ау' (у + /г, t) —
— Ay (у, t) I < ch, функция f(y, t, at) имела ограниченные частные
производные первых двух порядков по у, а Ву*(у, t) также удовлетворяла
определенному условию Липшица (— оо < г/ < оо, 0^t<^T).
В самом деле, рассмотрим наряду с данным уравнением
AY = fiAt + AAt (48 bis)
уравнение
А7 = /<8)УД7 + Л(г)Лг, (48в)
где /(e) и А(г) зависят от параметра е и удовлетворяют для каждого данного
-8 > 0 ранее указанным требованиям гладкости, при которых предельная
523
теорема доказана, причем
\л-\Л<*>\А'у-л'т \<*>и-*п\<вЛГу-Г<*у 1<8>
К> ~ Гш\ <& (0 ^ ^ 7, - оо < j/ < оо) (102)
и, кроме того, | f 21 и | f^)y31 имеют общую верхнюю границу, не
зависящую 21 от е. Тогда, полагая, что начальный закон распределения
вероятностей Р(е)о(у) при t = 0 величин 7(8)г, удовлетворяющих уравнениям
(48g), тот же, Р (у) = Ро(у), что и для уравнения (48 bis), получаем
для определения последовательных законов вероятностей Р (у) величин
Y (вместо (82)) уравнение
P(ex+i(y) = S P<*)i(F*(y,tiAti,a))dx(a), (82e)
в котором
Ре(у,и,Аи,а) = у + 6(в)(у,*,Д*,<хО,
где
б(в)(у, *, А*, а) = - /(8)fAi + (MW - Аю)At. (81e)
Вычитая (82) из (82g), находим, что
+ J [Pw(F(y,ti,tei,a))-Pi(F(y,tt,Mi,<i))]dx(a),
где подынтегральная функция в первом интеграле равна
62(е)—б2
^ + V ~Л)^ + б) - К~ЬК»М +-V-P^ <**>'
обознач!ая через у* некоторое число, /заключенное между у + б и у + б(е};
21 Для построения функции Ащ можно при фиксированном t вписать ломаную
линию в линию А' (у, *)(1 + #2), беря вершины достаточно близкими, чтобы
осцилляция между соседними вершинами не превышала 2ie/jt. Закругляя
полученную ломаную линию во всех углах достаточно гладкой выпуклой дугой, построим
ф(е) (*/, t) /
линию <р(в) (у, t); тогда, полагая =А(6)у(у, t), имеем
1 + У2
у
\А$(у, t) -AWv(y, t) |<—J. -и|А(у, t)-A{z)(y, t) |< ~f -^-<e.
n 1 + у2 л J 1 + y2
о
Кроме того, А' удовлетворяют не зависящему от е условию Липшица и
потому, так как по построению они имеют производную, то А" ограничены по
(8)У2
совокупности. Аналогичный прием построения f(t) будет указан в сноске на стр. 539.
524
<
поэтому
<AM*.| $ (/(e/(e)y-//;-^(e) + ^)dX(a)| +
+ -t-^J|/ + /w+(^+^(.)-//;-
- V», )iU\\f-tw+(A-A (f)- /fy + /(/(£)y ) VAti | dX(a),
где Ni к N2 — соответственно найденные ранее, не зависящие от е, общие
верхние границы (85) и (87) для Р[г)(у) и для Р<е)*(у) ( — °о < у < оо,
0< Г).
Следовательно, полагая Ui(e)=max \P(e)i(y) — Pi(y)\, находим,
—оо<у<оо
принимая во внимание неравенства (102), что
иш(е)< ceAti +}Ui(e)d%(a) = щ(г) + сгМи
где с — не зависящая от е постоянная, откуда
п-1
ип(е) < сг У, А^ = cetn. (103)
1=0
Таким образом, при всяком п (tn = t<^T) и при любых подразделениях
N
Т = У Ati законы распределения вероятностей РОТ(у, tn) = Р (у) ве-
2 = 0
личин Y п стремятся равномерно к P{N)(y, tn) = Рп(у), когда & —- 0.
Кроме того, для двух различных 8i < е, ег < e имеем, вследствие (103),
и, так как мы знаем, что существует Нт РОТ (z/, £n) = Р (z/, £п)
ж Нш РОТ (у, *я) = P(£2)(i/, *я), то
| Р(е)(у, t)-P{e2)(y, t) |< 2с8* (0 < в! < 8, 0 < 82 < 8),
откуда следует, что существует lim Р(е) (у, t) = P(y, t). Но из
в-И)
| РОО(у, t) —Р<$(у, t) | < сгТ (103 bis)
при любом N вытекает
Pe(yJ)—ceT <]1тРОТ(^,*)<Пп\РОТ(г/,0<^(8)(2/^) + сеГ,
а потому
lim РОТ (у, *) = lim РОТ (у,*) « ПтРОТ(у, *) = Р(у, *). (104)
JV-*oo
Поскольку РОТ (г/, £) имеют частную производную по у (верхняя гра-
525
ница которой не зависит от N, у, t), стремление к пределу (104)
равномерно.
12. При условиях гладкости, аналогичных только что принятым,
докажем теперь предельную теорему (а) для любого обычного уравнения,
удовлетворяющего принципу конечности.
Итак, предположим, что
ДУ = fi~At + AM + Qkt = Ф УДУ (48)
есть какое-нибудь обычное стохастическое уравнение, обладающее
свойством конечности, где / и А имеют конечные (-но не ограниченные)
частные производные по у до порядка А; = 2 и /с + 1 = 3 соответственно
(0<£ <7\ — оо<у <оо).
Допустим сначала, что начальная функция распределения
вероятностей Ро(у) четырежды дифференцируема (но ограниченности этих ее
производных при — со < у < счз мы теперь не предполагаем). Вследствие
принципа эквивалентности можем без ущерба для общности положить
q = 0. Для доказательства будем рассматривать при том же разбиении Т
и том же начальном распределении наряду с уравнением (48) уравнение
ДГь = Фь(Уь, *, А*, а«) 1/Д^"= /ь УД* + ALAt, (105)
в котором случайные величины а* —те же самые, что и в уравнении (48) г
причем
Ob(y,t,to,at) =Ф(у,*,Д*,аО, «огда \у\ <L; (106)
но при I у I > L fb и Al вместе с соответствующими производными
остаются непрерывными и ограниченными. Например, если при I i/ I —► оо
I AW(y, t) | < e\v\\ | f£)(y, t) | < el< fe< 5,
можем положить
Фь(у, t, Д*, щ) = Ф(у, *, Д*, at)e-<y^)\
когда I у I > L, причем знак при L в показателе противоположен знаку у,
так что у ± L = 0 при Ы = L; тогда
дФь дф дФ
—- = —- e-to^)6 - 6 (у ± L)5 e-(v±V* ф = при г/ = ± L
ду ду ду
и для фиксированного L дальнейшее дифференцирование до пятого
порядка приводит также к ограниченным и непрерывным функциям
(— со < у < оо). Аналогичным образом можно изменить и начальную
плотность Р'0(у).
Таким образом, к уравнению (105) для всякого данного L применимы
обе предельные теоремы при к = 4 или только теорема (а), при
пониженной гладкости к = 2, т. е. закон распределения вероятностей Рь (у, tn)
величины Гп, L, соответствующей моменту tn = t, стремится равномерно
к определенному пределу PL (у, tn)
lim PW(y, t) = PL(y. t) (0 <* = tn < Г), (104 bis)
526
полагая Т = ^AU, где AU —* 0 при N —> оо. Но вследствие принципа ко-
2 = 0
нечности при любом данном ц > 0 можем указать такие а^> 0 и L ц> 0,
что вероятность соблюдения всех неравенств
\Yn\ <L^ (n = 0,1,..., Л'+ 1)
больше, чем 1 — т], когда N настолько велико, что все Д^ ^ А, . Поэтому,
благодаря (106), вероятность осуществления всех равенств
Гп= Yn,L (/г = 0, 1, .... Л'+ 1) (107)
для данного L > L также больше, чем 1 — г], откуда следует, что
\P{LN)(y,t)-P(N)(y,t)\<4 (108)
при всех г/ (— оо <; г/ < оо) и £ = £п (0 ^ 7г ^ 7V + 1) и для любого
данного L > L , лишь бы N > N0 было так велико, что Ati ^ К . Из пре-
делыюго равенства (104 bis) заключаем, с другой стороны, что, как бы
велики ни были два данные числа L > L , U > L , можно указать такпр
чшсло iVi > No, что при всех TV > TVi
\PL(y,t)-P™{y,t)\<i\, \PI/(y>t)-P^(y>t)\<^. (109)
Поэтому
|Pb(»,«)-P(W)(y,0|<2Tl, \Pv(v,t)-P™(y,t)\<2n. (110)
Следовательно,
а потому PL{y,t) стремзится при L —► эо равномерно к некоторой
предельной функции вероятностей Р(у, t) и
|Рь(г/,*)-Р(М)| <^Л (HI)
для всех L>L . Таким образом, из (110) и (111) вытекает, что
limPm(y,t) = P(y,t) (0<*<Г), (112)
iV->oo
причем для произвольно большого L > | z/J стремление P[N){y, t) к
предельной функции P(y,t) равномерно во всех точках деления tn = t
(0 < t < Г); поэтому имеем также UmP(y, t) = P(N)(y, 0) = P0(l/) =
= Р(у,0). Так как функции Pb(y,t) не зависят от способа деления
N
Т= 2 А** на промежутки А^, то предельная функция P(y,t) также
г—0
однозначно определена.
Заметим также, что в случае ранее допущенной повышенной
гладкости коэффициентов (к = 4) функции Рь(у, t) имеют непрерывные
производные по у первых трех порядков и удовлетворяют в произвольно
большой области Sl (0 <^ £<^ Г, | у | ^ L) уравнению (I), соответствующему
527
данному уравнению (48); но этого недостаточно для того, чтобы
утверждать, что P(y,t) дважды непрерывно дифференцируема по у
и также удовлетворяет тому же уравнению (I): для этого нам нужно
было бы дополнительно знать, что в каждой данной конечной области
вышеупомянутые частные производные Рь(у, t) ограничены в своей
совокупности, т. е. имеют некоторую общую, не зависящую от L верхнюю
границу. Поэтому распространение предельной теоремы (Ь) мы пока
отложим; но сначала установим предельную теорему (а) при пониженной
гладкости / и А (к = 2) без каких бы то ни было ограничений
относительно начальной функции распределения Ро(у). Общее свойство
устойчивости, которое, как мы видели, присуще всем стохастическим
уравнениям, позволило бы без труда избавиться от требования ди'фференци-
руемости начального закона Ро(*/), но, чтобы освободиться от не-
прерывнсти самой функции Ро(у), нам понадобится другое
аналогичное свойство, н ер а з рывн о связанное с принципом
конечности,—-устойчив ость в среднем. Для краткости мы
ограничимся случаем уравнений, квазилинейных справа,
представляющих наиболее важный класс уравнений, обладающих
свойством конечности.
13. Лемма об устойчивости в среднем. Если Yn и Zn
удовлетворяют одному и тому же (и с теми же значениями
стохастических независимых величин) квазилинейному справа уравнению
AY ^0(Ya,At,at)VW=fV~AT+ AAt,
г— ( (ИЗ)
AZ = Ф (Z, г, At, at) VAt, | Фу |< с, Ау<Сс19)
и если при t = О
Ж (У0 - Z0)2 < Ь\ (114)
П-1
то при всяком подразделении t = tn = V AU
a»(yn-Z„)J<W, (115)
где с0 = 2сг + с2.
В самом деле,
SR (Yi+1 - Zi+1)2 = 3R [Г: - Zi + (Ф (У«) - Ф (ZO) V&iY =
= 8R (У< - Z{)2 + 2 3R (Yi - Z,) (А (У() - A (Zj)) Ah + 5SR (Ф (У4) -
- Ф (Z*))2 A*j = Ж (7{ - ZO2 + 2 3K (Fi — ZO^A*, + 5K (У, - г{)2ф'2 Дг
и вследствие (ИЗ)
Ж (Yi+1 - Zi+1)2 < Ж (У( - Zi)2 (1 + 2dAf, + с2Д^),
а поэтому
3R (Уя - Z»)2 < Ш (У0 - Z0)2 П (1 + c0A«i) < 6V«<. (115)
г=о
Из неравенства (115) следует, что при условии (114) вероятность
неравенства
|Fn-ZJ<p (116)
§2ec0t
для всякого данного (J > 0 больше, чем 1 — т|, где г\ = -р- . Поэто-
5£8
му, если P (г/, zn), л (г/, г Л)—законы распределения вероятностей
величин Yn и Zn в момент г = £„, то
/Г(,-р)-^-<^(.,/)<^)(1/+^ + -^. ЦП)
Применим доказанную лемму к случаю прерывной начальной
функции
О при у ^ О,
ipn у > 0.
Возьмем вспомогательную непрерывную и четырежды
дифференцируемую начальную функцию Еь(у)
™-т-{\°±
Е6(у)=Е(у) при у^ 0 и при у > б> 0, |
У/А
9' г ' '
£б(^) в777Т^\ *(l-x)*dx при 0 < г/< 6. I
(4!)-0J J
Наряду с величиной Ze,n, соответствующей начальному закону Et(y),
введем еще начальную величину Z_6,o = Za,o — 6, имеющую функцию
распределения вероятностен Е-ь(у) = Ев{у + 6). Таким образом,
3R[Z6)0 - Z_6,o]2 = б2 > Ж (ZM - Yo)2, кроме того
ЕбЛУ) ^Е6(у) <£(*/) <Д-в(у) ^£-6,0/)
при 6i > 6 > 0. Вследствие своойства непроницаемости, при всяком
tn = t ^. Т и для любого подразделения Г = 2 Д*г соответственные за-
1=0
(N) (N)
коны вероятностей 2?б (у, in), Е-ь (у, tn) £(iV)(^» M величин Ze, n, Z-ь, n,
Гп также удовлетворяют нераэенствам
Еь?Шп) <E^(y,tn) ^EiN)(y,tn) ^E^(yJn) ^Е{Л\ {y,tn) (119)
(0 < 6 < *i);
поэтому существует limUe (У,tn) = Е0 (y,tn) ы 1шЕ-ь (y,tn) =
£Г(Мп) <£<">(*/, *n) <Яч?(Мп).
Но, благодаря (117), имеем также
Е%(у, tn) < яГ (j/ + р, tn) + -^i-j- (0 < 6 < 6,), (120)
откуда следует, что Е^2 (y,tn) < Яо^У + М«) для всякого (5 > 0,
(JV) (iV)
а потому Е-о (y,tn) ^.Eo (y + 0,tn). Следовательно, во всех точках
непрерывности монотонной функции Е0 {y,tn) имеем
EiN)(y,t„) =EW(yJn) = E("0)(y1tr}),
34 С. Н. Бернштейн 520
т. е. при любых подразделениях Т эти три закона распределения
вероятностей эквивалентны для всякого t = tn^,T.
С другой стороны, нами доказано, что для каждого б существует
limEbN){y, 1"п)=Еь(у, I), не зависящий от способа разбиения
Л*
Т= 2аМд*-^°Ь так же как И 1[ш Е™ (У> 0 = £-*(#, 0- Поэтому
;=о л*—оо
из (119) следует, что
Еб (У, t) ^E6{y,t) ^limEi«>{y,l) <lim£W(M) ^
^E^(y,t) ^E^(yJ), (119 bis)
откуда заключаем, как выше, что существуют Шп£б(*/, t) = Е0(у, t) и
]\тЕ-ь(у, t) = E~o(y,t) и
6-^0
Eo(y,t) ^limE^(yJ) <lto£W(j/,0 ^E^(yJ); (121)
но пз неравенства (120) получаем
£_6l(^ *) < Му + М) + ^ (в! > о)
и при fli-^О Я~о(М) <#o(y + M)i T- е-
£_о(г/, 0 <£o(y + 0,0-
Поэтому вследствие (121) Е0(у, t) ^ E-0(y, t) ^ Ео(у+ 0, t) и во всех
точках непрерывности £о(*Л t) имеем
£_o(z/, 0 = Ео(у. t) = limЖ*>(у, t) = £(*/, *).
ZV-*-oo
To же заключение, очевидно, остается в силе, если взять в качестве
начальной функцию Ро(у) =Е(у — х)9 соответствующую произвольно
фиксированному начальному значению Y0 = х. Обозначая через E(N)(y,tn; x, 0)
закон распределения вероятностей в момент tn = t соответствующей
величины Yn, удовлетворяющей тому же уравнению (ИЗ), найдем также,
что функция EW(y,tn; x,0) (монотонно убывающая относительно х)
стремится к предельному закону, не эавиоящему от способа подразделений
N
Т = 2 Д**, Е(у, t; х, 0) = HmEW(y4 t; x, 0), причем lim£(i/, t; x, 0) =*
1=0 N-+oo t-+Q
= Е(у — х) во всех точках непрерывности Е(у — х) (т. е. равен 0 при
у <х и равен 1 при у > х).
Поэтому, каков бы ни был данный начальный закон
оо оо
Р0(у)= ^ Е(у -x)dP0(x)= I EW(y, 0; x,0)dP0(x),
—оо —оо
получаем при всех tn = t ^ T (вследствие линейности равенства (82))
«о
Р™(У ,*) = J Е*){у; Ц х, 0) #>„(*),
—ОО
530
откуда
J E(y,t; x,0)dP0(x)= lim \ EW(y,i; x,0)dP0{x) =
—<*> ДГ—-oo -oo
= lim PW(y,t) = P(y,t). (122)
N-+00
Таким образом, предельная теорема (а)* доказана для всякого
квазилинейного справа стохастического уравнения (ИЗ) при условии, что
функция А дифференцируема по у два раза и / дифференцируема по у три раза.
14. Для доказательства предельной теоремы (Ь) нам придется
установить несколько важных свойств уравнений параболического типа.
Л емма I (П). Если ty(y,t) есть функция, трижды
дифференцируемая по у у удовлетворяющая уравнению параболического типа
*Е-«(М)|+Ь(М)*£ (Ь>0) (123)
в области SL (| у | <; Z/, 0<J t ^T), причем коэффициенты а и Ъ
непрерывны и имеют непрерывные частные производные а', У по у в
области Sl, то во всех точках у, t (I у I < Z, 0 < t ^ T) соблюдается одно и
то же неравенство вида
дер
< №-и)УТ (1»1</"0<'<7'Ь «м>
где для постоянной Gi может быть указана верхняя граница, зависящая
только от L, Т и от верхних границ \а\, \а' I, Ъ, 1/b, \b'\ в области S,
а М есть максимум | ф | в области S.
Лемма II (П). При тех же условиях во всех точках у, Ц\у\ <А
0<^ t <^L) имеет место неравенство
<-Jj^4- (|tf|<A 0</<Г), (125)
I дф
где Hi зависит от тех же величин (кроме Г), что М и Gi и от максимума
| Зф/Зг/1 при t = О (\у\ < L).
Следствие I (П). Если q>(y,t) имеет непрерывные частные
производные первых к + 2 порядков по у и удовлетворяет уравнению
параболического типа (123) в области SL(|z/|<L, 0<Л <Г), где a(y,t) и
Ь(г/, t) дифференцируемы к раз по у, то для всех I = 0, 1, . . ., к имеют
место неравенства
З'ср
ду{
GiM (Ы<£, 0<*<Г), (126)
где постоянные Gi могут быть ограничены сверху при помощи L, Т и
верхней границы | а |, | а' |, ..., | а<^ |, Ь, ..., | Ъ^ |, 1/Ь в области SL.
* Согласно определениям § 9. (Автор.)
531 34*
Следствие II (П). При тех же условиях
fry | ^ Hi
ду*
<
{Ь*-у*У
{\y\<L, 0О<Г),
(127)
где постоянные Hi зависят от тех же величин [кроме Т) и от верхней
границы модулей последовательных производных по у начальной функции
ф(г/, t) = ф(г/, 0) до порядка) i (при t = 0).
Лемма III (П). Пусть б (у, t) имеет производные по у первых двух
порядков и удовлетворяет уравнению
£-(*«>£+м*о£ + /о-.о.
(128)
Если \f(y,t)\<M в области Я*, (| г/1 <£, 0 < t < Т) и |6(у, 0)|<т),
\6(±L,t)\<r\,TO
\6(y,t)\<(M + r])(l + T).
Доказательство леммы I (П). Строим функцию
v(y,t)=tq(y)(-^y+ hq?(y,t),
(129)
(130)
где q(y) = (L2 — y2)2, а постоянная h > 0 пока остается неопределенной.
Можем принять, что максимум | Ф | в области SL равен 1, так как
присутствие множителя М в неравенстве (124) очевидно, вследствие
однородности уравнения (123). Таким образом, если максимум w достигается
при t = 0 или при | у | = L, то он не превышает h. Найдем верхнюю
границу, максимума w(y, t) в области SL, если он достигается в некоторой
точке А(у, t), где t > 0, |z/|<L; в таком случае в точке А имеем
dw/dt > 0, dwjdy = 0, d2wjdy2 ^0, т. е. необходимо, чтобы
dw л дер д2ср /ftp \2 ft 5ф
52и?
■м-
д(р
*+«ш^
о,
д2^ ^2 5ф <?3ф
<9г/
Зг/ ду3
н
+ 2h
№'+*
ду
д2ср
JyTl
<0.
(131)
Учитывая, кроме уравнения (123), уравнение
д\ , 3Ф а2Ф 7 33Ф
(132)
получающееся от его дифференцирования, и составляя (для исключения
из неравенств (131) производных д2у/ду dt и д3ср/ду3) выражение
bd2w/dy2 — dw/dt, которое, вследствие (131), не может быть положитель-
532
ным в точке А (у, t), получаем
d2w dw
2^
ду2 dt
-{'
дф
2 , , dw д2<р „ /' д2ю
ду ду2
ду2
dyt у ду
+ (a + K^l}-2ha^ + (2hb
я)
<9ф
<0.
(133)
Выделяя из левой части последнего неравенства hb(dyldy)2 — 2haydy/dy,
замечаем, что остающаяся ее часть представляет квадратичную форму
относительно дер/ ду и (L2 — у2) У t д2(р/ду2 (так как q' = —4у(1£ — у2)),
которая будет определенно положительной, если h взять достаточно
большим, чтобы
2b(hb -q + tbq" - 2tqa'y) -t[8by + (L2 - y2) (a + V )]2 > 0. (134)
Фиксируя таким образом h = /г0, видим, что тогда для осуществления
lb ^ с (по-
а
«; I, ь,
максимума w в точке А необходимо, чтобы | дер/ду j < 2 | а
стоянные ho и с зависят только от L, Т оа верхних границ22
1/Ь и \Ъ'у\). Следовательно, w = t(L2 — у2)2 (дер/ду)2 + /г0ф2 < о2Ш + h0
во всей области SL, а потому во всякой ее точке
дер
ду J
<
Ус2!,4?1 + hQ
Gi
=- (0<£ <7\ |»|<1). (124 bis)
(L2-i/2)y* (^2-i/2)Vi
Аналогично доказывается лемма II (П), только вместо функции и>
рассматриваем в области Sl функцию
w0 = q(y)
dtp
+ hep2,
где, по-прежнему, q(y) = (L2 — у2)2 и h — некоторая постоянная. Пусть
U — максимум I ф I в области SL и ро — максимум I дер/ду I при £ = О,
<£; в таком случае наибольшее значение w0(y,t) при 2 = 0 или
= L не превышает Z,4p2 + М/2; если же максимум Wo(y, t) в какой-
нибудь точке А внутри Sl (или при t = Т) превышает это значение, то
в этой точке
d2wQ
dwQ
-2g
ду2
дер
ду^
dt
ду
= b
дер
\Wd-l^L+2q
а- -l. + (а + V ) — ,
ду ду2
— 2haw — + 2hb
~дуТ)
ду \2
~ду~
<0.
Выделяя из левой части последнего неравенства hb (дер/ду)2 —
— 2haep дер/ду, замечаем, что остающиеся ее члены представляют
квадратичную форму относительно дер/ду, (L2 — у2) д2ер/ду2, которая будет
определенна положительной, если фиксируем /г=й0 достаточно большим, чтобы
2b(h0b + q"b - 2qa'y)-[8by + (tf - у2) (а + Ъ'у)}2 > 0;
22 В сущности, ироме L, Т — только от верхних границ
\ЪУ1Ъ\.
\ajb\, \avlb\,
533
следовательно, npir таком выборе h = h0 в точке А, где wQ достигает
максимума, имеем | ду/ду | < 2 | а | M/b ^ cL. Поэтому, полагая постоянную
£о > с^ с0 > ро, видим, что т(у, t) < c2^Lk + Л^2 во всей области SL,
откуда
Л , Ус2/> + /г0Л/2
дф
ду
<-JL = -#-— (0О<Г, Ы<£). (125)
Доказательство следствия I (П). Достаточно будет
рассмотреть случай к = 2, так как для к > 2 доказательство завершается
последовательным дифференцированием уравнения (123) и применением
математической индукции, использующей уже установленные неравенства
(126) для К к. Итак, полагая & = 2 в условии следствия I (П),
рассмотрим уравнение (132), полученное дифференцированием (123) по у,
которое запишем в виде
дф1 , dcpi 7 д2ф!
— = а„ф1 + а1— + Ъ-^, (132bis)
где фЦг/, t) = ду/ду, а0 = а/, а± = а + Ь' ; таким образом, фА имеет в
области SL частные производные по у до третьего порядка включительно,
а коэффициенты а0, а>и Ь ограничены в области SL и имеют ограниченные
частные производные a'Q a't, V по у. Возьмем внутри области SL
некоторую область SUt и (О < t0 < t < Г, | у | < L0 < L). Во всех точках этой
области, вследствие только что доказанной леммы I (П) (124 bis), имеем
W-l<lF^ryT<(^4)Ti7('-<'< г' 1»1 <зд' (135>
Исследуем, подобно предыдущему, функцию
/ 9ф1 \2 2
»i=(t-t0)qo(y){~j + /wp (goQ/) = (£0-*/2)2)
в области ^io Ьо; вследствие (135), на окраинах t = t0 и I # I = L0 этой
области iz;i <G2h/(L2 — L2Q)2tQ. Если же максимум wt достигается в
точке А внутри St., и (или при t = Г), то Ъ d2wjdy2 — dwjdt^ 0; но,
принимая во внимание получающееся от дифференцирования (132 bis)
уравнение
£%-<.* + <« + <)% + 1* + *% + ь%. азе)
имеем
- 2/гф1(а0ф1 + ai-^-) + (2Kb - ff0) (-у1)* <0;
534
выделяя из левой части этого неравенства
hlu(d(?A2 о... *Р1
1 о УФ1
—) — 2<21ф1 —— + а0ф2 J
ду ' 1YX ду
и полагая h = h0 достаточно большим, чтобы
26[h0b -q0 + (t- t0)[bq'{ — 2q0(a0 + a[)]} ~
- (t - *0) [8Ьг/ + (L2 - y*) (at + Ъ') ]2 > 0,
превращаем сумму остальных ее членов в определенно положительную
квадратичную форму относительно д^/ду и (Z2 — у2) yt — t0 d2yjdy'z.
Таким образам, необходимо, чтобы в точке А
0<Pi V п_ _ 3ф1
H-^-i -2а1ф1^+а0ф^<0,
т. е.
поэтому
дф!
ЗУ
| <h | + У| ^ — а0Ь |
< | Ф1 ( < с | ф1 I :
*i < [(* -*o)<?oQ/)c2 + Ы^\<^^^--
(вследствие (135)) во всей области S . Следовательно, во всякой точке
области (\y\<L0, *0<*<Г)
д2ц> I I 5ф1
<
G4 fc^r + Ло
(^-^Н^-?/2)^ ('-*<>)
в частности, можем положить
L2 - L\ = L2-y* =
о о у
U-f
t — to = to = — ,
после чего это неравенство обратится в
<92Ф
ду2
<
(Ь*-у*)Ч
(0<*<2\ \y\<L),
где
G2=8GiicWT + hQ.
Так как ход доказательства следствия II (П) совершенно тот же, то на нем
нет надобности останавливаться23.
23 Обе леммы с их следствиями доказываются аналогичным образом для общего
линейного параболического уравнения
#<р ду д2ф
= До (У, *) + at (yt t) Ф + а2 (yt t) — + Ь (у, t) — (Ь > 0),
dt ду ду2
где а<>, аи аг, Ь удовлетворяют тем же условиям гладкости.
535
Доказательство леммы Ш(П). Если 6 (у, t) удовлетворяет урав-
нению (128), то z = удовлетворяет уравнению
1 i *
dz < dz дЧ
— = (1 + * <*— + & —
z + {i + t)- = {\ + t) a— + b-—)+f(y,t). (137)
Если абсолютный максимум | z | достигается в некоторой внутренней
точке A(y,t), где 0<г<Г, |*/|<£, то dz/dy = 0, z&z/difi^O,
zdzfdt^O; умножая уравнение (137) на z, получим таким образом
*[*-/(У,*)]<0;
следовательно, | z | < М. Но, *если | z | достигает наибольшего значения
при £ = 0 или при | у | = L, то \z\ <r]. Поэтому24 во всяком случае
| z | <М + т] и
|в(у,*)1<(^ + т])(4 + Г). (129)
15. Применение первых двух лемм с их следствиями требует от
функции ф(у, t), удовлетворяющей уравнению (123), дифференцируемое™ по
у достаточно высокого порядка. Поэтому нам придется временно
значительно повысить требования гладкости коэффициентов i и/
стохастического (квазилинейного справа) уравнения (ИЗ) и начальной функции
распределения вероятностей Ро(у); а именно, будем считать А дифференци
руемым шесть раз и / дифференцируемым семь раз по у и положим, что
Ро{у) также имеет первые шесть производных. В таком случае, применяя
к введенному нами вспомогательному ограниченному стохастическому
уравнению (105) (с указанным там видоизмененным при |г/| > L
значением начальной функции Ро(у), после которого все шесть производных
начальной функции делаются ограниченными), при фиксированном L,
прием ограничения модулей последовательных производных по у функ-
ций Pl (y>tn), указанный в п. 9, мы найдем верхние границы для
последних до шестого порядка включительно (0 ^ £ < Г, | у J < L). При этих
условиях предельные функции Рь(у, t), которые, как мы знаем,
удовлетворяют своему уравнению (1ь), совпадающему с (I) при |у|<Д будут
пять раз непрерывно дифференцируемы по у при всех | у | < £, 0< i <^ Т.
Но уравнение (I) совпадает с уравнением (123), если положить
a(y,t) =-A(yJ) + i-Я/, b = \-Ву', (138)
отсюда видим, что условие Анкратной дифференцируемости a(y,t), b(y,t)
по у равнозначно условию существования частных производных по г/,
соответственно, до к-то и (к + 1)-го порядков у функций А (у, t) и В (у, t).
Обратим только внимание на то, что в то время, как во всех наших преды-
дугцих выводах (в частности, в выводе предельной теоремы (а)) не
исключалась возможность В (у, t) = 0, теперь мы вводим более жесткое требо-
24 Если одно из зна^ний М или г\ равно 0, то, полагая z = б {у, t)J(h + t), иахо-
дям тем же способом для.*] ==.0, что |Д| <ЖГ, и для М = 0* чтх> | 6 | <?п (первое
неравенство получаем, беря h —► 0, азторое — беря А—♦ оо).
536
вание b = 4/г В > 0, которое, таким образом, необходимо считать
выполненным при формулировке предельной теоремы (Ь) в общем случае
стохастического уравнения, обладающего свойством конечности.
Итак, на основания (127) (следствие II (П) ), мы имеем
dPL
d3PL
ду'
<
С,
L2-
д°-Рь
ду*
<
Сь
<Р-Уг)г '
CL
(127 bis)
<^j±^ (\у\<ь <*«т)'1
где численное значение постоянной Сь зависит только от производных
по у функций А (у, t) до третьего порядка и функции B(y,t) до
четвертого порядка и от производных до третьего порядка начальной функции
Ро(у) при | у | ^ L (усиленная гладкость коэффициентов требовалась
только для того, чтобы обеспечить существование пятых производных
PiAy,t), которое соответствует одному из условий следствия II (П)).
Из неравенств (127 bis) следует, что не только
lim PL(y,t)
P(y,i);
но, кроме того, производные dPL/dy и dzPJdyz стремятся равномерно в
любой конечной области к дР/ду и д^Р/ду2 (причем д2Р/ду2 непрерывна п
удовлетворяет условию Липшица). Поэтому уравнение (I) дает
v дрь л дР
lim —т— = — А ——
ь^со at ду
д\В
+ ■
дР
ду
ду
равномерно в любой данной конечной области. Но из равномерной
сходимости dPJdt к некоторой непрерывной функции следует, что эта функция
есть производная dP/dt функции Р. Следовательно,
дР_
"дТ
= -А
дР
ду
д\В
■ + ■
дР
~ду
ду
(D
16. Чтобы освободиться от ограничений, наложенных на начальную
функцию, покажем, что уравнению (I) удовлетворяет предельная
функция E(y,t), соответствующая начальной функции Е(у); для этого в
рассмотренной выше функции Е6(у), аппроксимирующей Е(у), вводим
У(Ь
131 г
функцию \ xe(I— x)edx,
обеспечивающую непрерывную дифференцируемость Е (у) до шестого порядка
включительно. Тогда соответствующая функция Е (y,t) будет также
удовлетворять уравнению (I) и при б —*- 0 будет также стремиться
к Е(у, t). Применяя соответствующие неравенства (126) следствия I (П)
в качестве линии смыкания
537
(к = 3), можем утверждать, что
dEt(y,t)
ду
I d*Ee(y + $,t)
it
&E6(y,l) I C,z
ду*
<
d*E6(y,t) I G8(P)
dy*
dy*
<
\ (126 bis)
fb
(|y|< У#-1, |у + 0|<У#-1, 0<f< Г) J
(где Gi, G2, G3 не зависят от б); поэтому Е(у, t) при в'сяком t > 0 также
имеет соответствующие производные и удовлетворяет уравнению (I).
Кроме того, применяя лемму II (П) и следствие II (П) в любом
прямоугольнике Scd (0<£<7\ с<г/<<2), где cd > О, находим, что dl?/dy,
д2Е/ду2, dE/dt ограничены внутри Scd) поэтому уравнение (I) соблюдается
во всякой конечной области (0^ t<^T) (за исключением точки у = t = 0,
дЕ . д2Е
где для Е(у, t) оно лишено смысла), и при у ^ 0 lim~^- = lim"
*о ду
t->o
ду*
дЕ
= lim—= 0 равномерно на всяком конечном отрезке (с, й), не содер-
жащем 0.
Таким образом, какова бы ни была начальная монотонная функция
00
Po(y) = l E(y-x)dP0(x) = ^ E(y,0; x,0)dP0(x),
—со —оо
оо
lim Р^(у, t)= lim J E№(y,t\ x,0)dP0{x) =
jY->-oo JY->co —00
00
= J E(y,t;x,0)dP0(x) = P(y,t) (122)
—00
не только существует при t > 0, но удовлетворяет тому же самому
линейному уравнению (I), и *во всех точках непрерывности Ро(у) > при £ = 0
имеет пределом Ро(у).
Покажем, наконец, что предельная теорема (Ь), которую мы сейчас
установили только при повышенной гладкости коэффициентов A, f
уравнения (113) (к = 6), верна также при значительно пониженном
требовании гладкости. Предельная теорема (Ь) применима к квазилинейному
справа стохастическому уравнению (113), если A(y,t) и B(y,t)> 0 имеют,
соответственно, частные производные по у до второго и третьего порядка25,
удовлетворяющие условию Липшица
\^(y + h,t)-A^{y,t)\<R(L)\h\, |
\B';'(y + h,t)-B'y'3'(y,t)\<R(L)\h\, \ (139)
(|2/|<£, |y + fe|<L, 0<*<Г).]
25 Существование производной f" также предполагается, но условие Липшица
для нее не обязательно.
538
Рассмотрим последовательность приближенных стохастических
уравнений, (аналогичных ранее введенным, в п. 11, при доказательстве
предельной теоремы (а)) о коэффициентами Ап, fn повышенпой гладкости, для
которых предельные законы определяются уравнениями
dPw
(140)
дРм . дР(п) 1 д\Вп~ ду
-W=-An-dy- + Т ду (1п)
при той же произвольно данной начальной функции Р(п)о(у) = Ро(у)
(Ап и Вп дифференцируемы по у, соответственно, до шестого и седьмого
порядка). Потребуем, чтобы ап = — Ап + 4iB'n 1 , Ъп = iliBn
удовлетворяли неравенствам
|а-ап|<еп, \а'у-*п,у\ < **> К' ~ <, * | < *п,
\Ъ-Ъп\<гп, \У-ЪГП9у\<гп, Щ-Ъ'^\<гп,
где еп —* 0 при п —* оо (0< £<7\ — оо < у < со) ж, кроме того, чтобы
в каждой данной конечной области SL (0 <I t <; Т, I г/1 <J L) I a'" 51,
j fr'",3| были одинаково (для всех га) ограничены26.
Полагая 6(y,t) = P. N— Р ., имеем
= "*bj+** Ip" + <а- - а-> ^г + <*«• -*-) ^г' (Ш)
причем 6 = 0 для £ = 0 (— оо < г/ < оо). Кроме того, вследствие леммы
конечности, при одной и той же начальной функции Ро(у) для всех
квазилинейных справа уравнений (соответствующих той же определенной
постоянной с, что и (113)) при данном произвольно малом г\ может быть
указана такая одна и та же постоянная L, что Р(П)(£, t) — P(n)(—L, t)>
26 Для построения an(y,t) (и сШ 3.ЛОПИЧН О О п
(y,t)) вводом, например, фупкцию
<p(z/, t) = (a" + а) (1 + г/2) (рассматргавая! £ как параметр^ относительно которого
а (у, t) в каждой конечной области SL по определению обычного уравнения
равномерно непрерывна) и впишем в нее ломаную линию так, чтобы колебание у (у, i)
между двумя соседними вершинами было меньше еп/2; закруглив каждый угол этой
ломаной линии при помощи достаточно гладкой вьшгуклой дуги, касающейся его
сторон, получим кривую фл(у, *Ь дифференцируемую требуемое число раз и
удовлетворяющую неравенству | ф(у, *)— <рп(у, 01 < 8п- После этого положим a"n + ап =
= Фп / (1 + у2), так что | (a"n - а") + (ап - а)\ < еп /(1 + У2)) тогда, полагая
л„(0, 0= я (0, 0> д/п(0, 0= а (0, 0» получаем
'р | sin (у — я) | dx л
|an"a|<enS—it?—<e"^-
о
. / /. ^ lrl\vos(y-x)\dx я
|a*-a|<eM iTP—<8n~T'
о
| a"„ - a" | < ert ( 1 + ~^-
РОроме того, так как q>(y, t) удовлетворяет (относительоао у) определенному
условию Липшица в данной области Sl, которому, следовательно, удовлетворяет и фп
f rtr
(у, t), то фп, у и ап, у3 одинаково (для всех п) ограничены в этой области SL.
539
> 1 — т). Следовательно, | 6(± L, t) | < ц. С другой стороны, | а„, — ап„ \<
< 2еПо, \Ъп, — Ьщ | < 2е„„, и, применяя в области SL (О <^<Г, |г/| < Li)
неравенства (127), находим (вследствие одинаковой ограниченности | а„ j,
I Ъп ] и их первых трех производных в этой области) общие при всех л
верхние границы
дР<п
(п)
ду
<Яь,
РРы
(п)
<ty2
ду3 ,<я, (|И^=У^-п.
Поэтому, применяя к уравнению (141) лемму III (П) в области SL, видим,
что во всех точках этой области
\Ь(у,Щ<(М + ц)(1 + Т),
где М < 4еПо-йь, т. е. находим, что во всех точках области SL
Таким образом, взяв т] достаточно малым (после чего определится
постоянная HL), можем взять т настолько большим, что во всякой данной
точке (y,t)
\РпЛу,*)-РпАу,*)\<ъ
как бы мало ни было данное а > 0, что означает, что Рп(у, t) стремится
к некоторому пределу Р(у, t) равномерно при всех у, t во всякой данной
области дУь. При этом, так как неравенства (140) покрывают неравенства
(102), то P(y,t) является предельным законом распределения
вероятностей, соответствующим данному стохастическому уравнению (ИЗ).
Остается показ!аггь, что эта предельная функция Р(у, t) (очевидно,
удовлетворяющая условию Р(у, 0) = Рп(*/, 0) = Ро(у)) удовлетворяет
уравнению (I). Для этого заметим, что из | д1Р\ду11 < HL (i = 1, 2, 3),
в той же области SL следует, что Р(у% t) дважды дифференцируема по у
и дР(п)/ду —► дР/ду, д2Р(П)/ду2 —* д2Р/ду2 равномерно в этой же области
(кроме того, д2Р/ду2 удовлетворяет условию Липшица). Из уравнения (In)
заключаем поэтому, что
дР
ш»*__л» + И%
п->-оо
dt ду 2 ду
Но если dP(n)/dt стремится равномерно к некоторому пределу, то
функция Р(у, t) имеет производную по t, и дР/dt = lim dP(n)/dt; следовательно,
( дР \
«•_ .^» + »_1_51. (1)
dt ду 2 ду
17. Таким образом (при соответствующих условиях гладкости
коэффициентов) мы установили, что закон распределения вероятностей
величин Yn(t) в момент tn = t, определяемых стохастическим уравнением,
удовлетворяющим принципу конечности27, при любом разбиении Г> t
27 Доказательство было проведено во всех деталях для уравнений,
эквивалентных квазилинейным справа.
549
на промежутки Д*г- —* 0 стремится к пределу
со
Р(у, t) = J Е(у, t; x, 0)dPo(x), (122)
—do
где Ро(у) есть произвольный начальный закон распределения
вероятностей, а Е(у, t; х, 0) определяется тем же стохастическим уравнением при
начальном условии Е(у, 0; х, 0) = Е{у — х), т. е. при условии, что
начальное значение Y0 = х. Обе функции Е(у,Ц х,0) и P(y,t) определяются
уравнением (I) с соответствующим начальным условием. Обозначая через
E(y,t; x,ti) решение уравнения (I) для t > Jt с начальным условием
¥(и) = х± в любой данный момент £4 > 0, мы получим также
оо
P(y,t)~ J Е(М; *i,-*j)(2P(a:i,*i) (*>*i>0), (143)
—СО
ввиду независимости предельной функции Р(у, £) от способа стремления
к нулю промежутков Д£* —- 0. Равенство (143), примененное к самой
функции Е(у, t\ х, ti) (t >ii> 0), получает вид
00
Е(у, t; x, 0) = J E(y, t; zh h)dE[xu tt; x, 0). (144)
—oo
Кроме того, так как мы знаем, что при t>ti функция Е(У, t; x, tt)
дифференцируема по у (два раза) и удовлетворяет уравнению (I), то, пола-
dE(y,t;x,t±)
гая р(у, t; х, ti) = ~ , можем продифференцировать уравнение
°У
(144) и заменить его равенством
р(у, t; х0, t0) =
оо
= I Р(У, t; я±, h)p(xu tt; xQl t0)dxi (t0 <ti< *<T), (145)
которое является исходным пунктом теории так называемых
непрерывных стохастических процессов28 или непрерывных во времени цепей
Маркова.
Из предыдущего вытекает, что непрерывный (который я назвал29
квазинепрерывным) стохастический процесс является математическим
пределом соответствующих прерывных процессов и имеет смысл при
соблюдении принципа конечности.
Не останавливаясь здесь на других проблемах, относящихся к
стохастическим дифференциальным уравнениям, необходимо лишь указать, что
при помощи изложенного выше метода решаются также задачи
следующего типа:
23 Уравнение (145), по-видимому, впервые встречается у Чапмана; в частном
случае оно ранее рассматривалось Эйнштейном и Омолуховским (А. Эйнштейн,
М. Смолуховский. Сборник статей по теории броуновского движения, ОНТИ,
1936). Но бесспорным основателем математической теории непрерывных
.-стохастических процессов является акад. А. Н. Колмогоров (см. сноску14, стр. 510).
2» См. [14].
541
Пусть Yn(tn) (0 ^ tn ^ T) будет последовательностью величин,
определяемых обычным стохастическим уравнением (48), при данном
начальном законе распределения вероятностей Ро(у); пусть а <Ь будут два
данных числа. Требуется определить предел вероятности P(t, а, Ь), что при
&ti —^ О все значения Yi(ti) (£2- <£) удовлетворят неравенствам
а<У(**)< Ъ (0<;< п; tn = t), (14G)
а также — предельную плотность р{у,Ь)а,ъ вероятностей величины Yn(t)
в момент t = tn при условии (146).
При соответствующих предположениях гладкости коэффициентов
уравнения (48) доказывается, что р(у, t)a,b является решением второй
краевой задачи для уравнения
при начальном условии р0(у) = P'Q (у) = р(у, 0)а, ь и краевых значениях
Р(*. *)а,ъ = Р(Ь, *)а,ъ = 0 (0< *< Г);
очевидно,
ь
Р(*,а,Ь)Ц$ p(y,t)a,bdy.
а
В данном случае, поскольку условие (146) само ограничивает значения
величин Yi(ti), принцип конечности является излишним, и
наше утверждение справедливо для любого обычного стохастического
уравнения (48). Кроме того, пользуясь установленными выше свойствами
решений уравнений параболического типа, легко доказать, что
Р(У, г)*,ъ — <р(*Л *),
когда а —- — со, Ъ —> со, где <p(z/, t) яввляется решением первой
краевой задачи для уравнения (II) при той же начальной функции ро(у).
Если стохастическое уравнение (48) удовлетворяет принципу конечности,
то
Р(*,-оо,оо) =}$ <р(р, *)dy = l,
—оо
и q>(yit)=p{y,t) представляет предельную плотность dP(y,t)jdy
распределения Yn(t) (при а — — оо, Ъ = оо). Напротив, в случае нарушения
принципа конечности
оо
P(t, -оо, оо)= J <p(y,t)dy<i,
—оо
т. е. решение первой краевой задачи <р(г/, t) не может быть плотностью
вероятностей. Иными словами, свойство конечности стохастического
дифференциального уравнения (48) является необходимым и достаточным
условием для того, чтобы решение первой краевой задачи для
соответствующего уравнения (II) (или (I)), существующее при любом начальном
законе распределения вероятностей Ро(у), имело всегда
теоретико-вероятностный смысл при t > 0.
КОММЕНТАРИИ
1. О ПРИБЛИЖЕННОМ ВЫЧИСЛЕНИИ ВЕРОЯТНОСТЕЙ
ПРИ ПОМОЩИ ФОРМУЛЫ ЛАПЛАСА *
1.1 Это первая из работ автора, посвященная оценке погрешности
классической формулы Лапласа. Подробно об этом цикле работ говорится
в комментарии к работе [30].
1.2. Случаи четного п, указанной в сноске на стр. 8. изложен также
в курсе «Т. В.», 252—253.
5. ОБ ОДНОМ ВИДОИЗМЕНЕНИИ НЕРАВЕНСТВА ЧЕБЫШЕВА
И О ПОГРЕШНОСТИ ФОРМУЛЫ ЛАПЛАСА *
5.1. Другие варианты уточнений неравенства Чебышева приведены
в главе 2 части III книги «Т. В.». Во всех этих неравенствах (называемых
теперь в литературе неравенствами Бернштейна) указанная Чебышевым
граница 1/t2 заменяется на e~kt\ к > 0. Улучшение границы достигается
за счет, во-первых, ограничений на роет моментов, и, во-вторых, более
полного (чем при доказательстве неравенства Чебышева) использования
факта независимости случайных величин.
Неравенство п. 1 заведомо применимо в случае, когда рассматриваемые
величины ограничены:
|*| <Д \y\<L.
В этом случае общее представление о его точности можно получить из
следующего результата А. Н. Колмогорова [4] (неравенства Бернштейна
вместе с этим дополнением использованы здесь для доказательства так
называемого закона повторного логарифма).
Для любого е>0 можно указать такие числа Т и г\, что при
Т <:t^r\lAjL вероятность неравенства (1) будет меньше, чем,
1 — 2е-^1+8).
При *, в несколько раз превосходящем отношение УЛ2/Д характер
границы меняется («Т. В.», стр. 165; этому же вопросу посвящена статья
Ю. В. Прохорова [2]).
* Этот комментарий написан по моей просьбе Ю. В. Прохоровым.
543
Более детальное изучение точности неравенства Бернштейна требует
весьма сильных средств. Применительно к случаю Бернуллп этим
средством может быть (при не слишком больших t) теорема п. 4 или ее
усиление из работы [30]. В общем случае может оказаться полезной
современная теория «вероятностей больших уклонений» (см. комментарий к
статье [30]; там же см. пояснения ко второй части настоящей работы).
5. 2. а) стр. 71, строка 9 св. Для отдельной случайной величины,
скажем х, существованпе указанного числа L равносильно аналитичности
соответствующей характеристической функции $fceisx в некоторой,
содержащей начало, области комплексных значений s.
б) стр. 73. Неравенство на строке И сн. должно иметь вид
( 2353 \
Это неравенство при целом т равносильно неравенству \т — 4081 < 142.
в) стр. 73, строка 7 сн. «... правильно с точностью до 1/1010». В
действительности приведенные в тексте числовые значения дают для
погрешности Д формулы Лапласа оценку—1-Ю"11 <С Д <С 2-Ю-11 (оценка сверху
следует из тривиальной верхней границы 1 для вероятности), т. е.
абсолютная точность формулы Лапласа даже больше, чем указано
автором.
Однако при переходе к противоположным событиям (типа | т — 408 |^
^ 142) существенной оказывается степень относительной точности. Так,
например, по неравенству (8) вероятность Р неравенства | т — 408 | ^ 142
не превосходит 3-10"11, теорема Лапласа дает значение 2-Ю"""11, в
действительности Р — 8-10~13.
ЦИТИРОВАННАЯ ЛИТЕРАТУРА
1. Колмогоров А. Н. Ueber das Gesetz des iterierten Logarithmus. «Math. Ann.»,
101 (1929), 126-135.
2. Прохоров Ю. В. Одна экстремальная задача теории вероятностей. «Теория ве-
роят. и ее примел.», 4, № 2 (1959), 211—214
7. О КРИВЫХ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ*
7.1. Настоящая работа посвящена обоснованию асимметричных
законов распределения, обобщающих нормальное распределение, путем
введения переменной дисперсии — так называемой дисперсионной
функции.
В курсе «Т. В.» рассмотрен ряд других вопросов, связанных с
анализом статистических кривых распределения, уклоняющихся от
нормального типа (см. главу II части V«T. В.»), в частности, с обоснованием
условий применимости наиболее важных кривых Пирсона (см. добавление 3
курса «Т. В.»—работа I1]).
* Этот комментарий по моей просьбе написан О. В. Сармановьш.
544
Здесь мы остановимся на двух вопросах, тесно примыкающих к рабо-
те [7].
7. 2. В книге «Т. В.» для выравнивания эмпирических распределений,
имеющих небольшие, отличные от нуля коэффициенты асимметрии S и
эксцесса Е, предлагается следующий вид плотности распределения:
_*?
f(x) =L-L\i+S( — -x)+e( — -2s* + l)l
У2я L v 3 v 3 J '
(см. формулу (28bis) на стр. 332 «Т. В.»).
Понятно, что при Е < 0 приведенное выражение является
знакопеременной функцией и может служить лишь приближенным выражением
плотности в конечном интервале вещественной оси, кроме того, при S — О
эта функция знакопеременна при Е > 1/о.
В. С. Паскевич в статье [2] нашла интервалы изменения параметров
S и Е, в которых функция f(x) положительна на всей вещественной оси.
Основной результат указанного исследования, проведенного В. С.
Паскевич, состоит в следующем: /(х) положительна, если 0<^£ < 1/г, а I S I •-^
-: В(Е), где В(Е) вполне определенная неотрицательная выпуклая
функция, причем В({)) = В({/2) =■• 0, а при Е ~ 0,3 она достигает максимума,
приближенно равного 0,525. Найдено, и точное аналитическое выражение
В(Е), которое является довольно громоздким.
7.3. В п. 7 работы [7] произведено сравнение распределения, имеющего
линейную дисперсионную функцию,— формула (21) с кривой Пирсона
четвертого типа. Стохастическому обоснованию кривых Пирсона позже
автором была посвящена специальная работа [*].
Начало стохастическому обоснованию кривых Пирсона, 'носивших до
сих пор чисто эмпирический характер, было положено в работах
А.А.Маркова. А именно, в работе [3] А. Л. Марков предложил следующую
стохастическую схему, приводящую в пределе к некоторым из распределений
Пирсона.
В сосуде находится а белых и Ъ черных шаров. Из сосуда наудачу
вынимается один шар, цвет его фиксируется, после чего пгар возвращается в
сосуд вместе с q шарами того же цвета. Тогда вероятность 7гг-кратного
появления белого шара за п описанных опытов, зависящая от а, Ь, т, п
и q, выражается следующей формулой
т a(a + Q)...[a + (?n- l)<j]b(b + q). . .[b + (n - m - 1)Q]
m,n n (a + b)(a + b + Q)...[a+b + (n — 1)q] ' ;(l)
вывод этой формулы, приведен на -стр. 74 «Т. В.».
В работе [;}] А. А. Марков исследует асимптотическое поведение
выражения РШъ п при условии, что п неограниченно растет, а отношения
(i/q = у1и Ь/q = В или постоянны, или меняются в широких пределах, при
этом находятся интегральные законы — вероятности неравенств вида
с < т/п < d 1гли с < тВ/п < d.
Вывод А. А. Маркова -основан на применении формулы Стирлиига для
факториалов и аналогичен выводу формулы Лапласа для схемы Бернулли.
35 с. H. Бернштейн
545
В работе автора [*] из выражения (1) непосредственно выводится
дифференциальное уравнение кривых Пирсона.
Приведем здесь этот совсем краткий вывод при постоянных А и В.
Из формулы (1) непосредственно следует, что
А — 1+(2-А — В)— +i—^-
* m+l, n ±т, n ^ ^
Рт, п т + 1 ( t . т + 1 . В
п ■— 1+ +
п \ п п
(2)
из
полагая т/п = х, (т + 1)/п = х + Ах, Рт, п = у, Pm+i, п = у + Ау,
(2) находим
1 Дт/_ А-1 +(2 — А— В)х + {1 — В)Ах
YAx~ (х + Ах) [1 + {В — 1)Ах — х]
откуда при п —* со Ах = я-1 —- 0 и мы получаем дифференциальной
уравнение
±.dJL ^ —1+ (2 — А — В)х = А — 1 + 1—В
у dx х{{—х) х 1—х
общий интеграл которого имеет вид
у = СхА-1(1 — х)в~К (4)
Нормирующий коэффициент С = Г (Л + В)/Г(А)Т(В), кривая (4) есть
известное бета-распределение Пирсона на отрезке [0, 1].
Фиксируя А > 0 и неограниченно увеличивая В для случайной
величины тпВ/п, можно получить в пределе при п —* сю гамма-распределение
Пирсона на вещественной полуоси (0, оо).
В работе [3] А. А. Марков, кроме гамма-распределения, рассмотрел еще
случаи, приводящий в пределе к нормальному распределению.
В работе автора И рассмотрены, кроме того, /7-образные кривые и
вообще дано стохастическое обоснование всех кривых распределения,
удовлетворяющих уравнению Пирсона
1 dy _ а-—сх
~yllx " р + ух + бх1'
знаменатель правой части которого имеет вещественные корни.
ЦИТИРОВАННАЯ ЛИТЕРАТУРА
1. Бернштейн С. Н. Кривые Пирсона, «Т. В.», добавл. 3, 448-457.
2. Паскевич В. С. Нормальная кривая с пертурбационным многочленом. «Труды
Ленинградского воен.-мех. ин-та», 5 (1956), 22—29.
3. М а р к о в А. А. О некоторых предельных формулах исчисления вероятностей,
«Изв. Акад. наук», 9 (1917), 177-186. Перепечатано в книге: Марков А. А.
Избранные труды. Изд. АН СССР, 1951, 575-585.
546
8. РАСПРОСТРАНЕНИЕ ПРЕДЕЛЬНОЙ ТЕОРЕМЫ ТЕОРИИ
ВЕРОЯТНОСТЕЙ НА СУММЫ ЗАВИСИМЫХ ВЕЛИЧИН *
8. 1. Развиваемый в этой работе метод изучения последовательности
зависимых случайных величин, состоящий в сведении их при помощи
секционирования к слабо зависимым величинахМ, приводит к ряду общих
теорем, представляющих собой обобщения центральной предельной
теоремы на суммы зависимых величин. Предельные теоремы для отдельных
частных случаев зависимых величии, в особенности связанных в цепь,
были установлены в начале XX века А. А. Марковым. Общие теоремы
типа теорем А, В, С и D, установленные автором в этой работе (а также
в работах [9] и [25], позволили существенно расширить область применения
обобщенных цепей Маркова.
Развивая идеи автора, О. В. Сарманов [*] изложил предельную теорему
для суммы почти независимых величин, удовлетворяющих условиям Лин-
деберга. Другие варианты общих теорем впоследствии были даны в
работах Гёффдинга и Роббпнса (W. Hoeffding and H. Robbins) [2], Лоэва
(М. Loeve) [3], Диананда (P. H. Diananda) [4] и др.
8. 2. Общие предельные теоремы в данной работе применены к
случаю величин, связанных в цепь. Таким образом получено значительное
усиление результатов А. А. Маркова. Отметим, что понятие цепи при этом
также обобщается, а именно, речь идет о последовательности -серий
величин Xin, i = 1, 2, . . ., п; п = 1,2, . . ., где в каждой из серий величины Х;п,
I = 1, 2, ..., п связаны в цепь.
8. 3. Одним из важнейших результатов работы надо считать
обобщение теоремы Ляпунова, формулированное в конце главы I. Указанные
здесь достаточные для нормальности предельного распределения условия
оказались, как это было выяснено впоследствии, также и необходимыми
условиями (при некоторых естественных предположениях), и которые,
следовательно, лишь по форме отличаются от найденных в 1936 г.
условий В. Феллера. Об этом см. [24], «Т. В.» (добавл. 1), [32].
8. 4. Другим важным новым результатом является доказательство в
главе III центральной предельной теоремы для сумм случайных векторов
(двумерных) как независимых, так и зависимых, что представляет собой
обоснование теории нормальной корреляции. Этот результат послужил
отправным пунктом для многочисленных работ других авторов о
центральной предельной теореме для сумм случайных векторов.
ЦИТИРОВАННАЯ ЛИТЕРАТУРА
1. Сарманов О. В. Распространение предельной теоремы теории вероятности на
сумму почти независимых величин, удовлетворяющих условию Линдеберга. «Изв.
АН СССР», сер. матем., И (1947), 569—575.
2. Hoeffding W. and Robbins H. The central limit theorem for dependent
variables. «Duke math. J.», 15 (1948), 773—780.
3. Л инн и к Ю. В. К теории неоднородных цепей Маркова. «Изв. АН СССР», сер.
pures et appl.», 24 (1945), 249—318.
4. Diananda P. H. Some probability limit theorems with statistical applications.
«Proc. Cambridge Philos. Soc», 49 (1953), 239—246.
* Этот комментарий написан по моей просьбе Н. А. Сапоговъзм.
547 35*
9. О СУММАХ ЗАВИСИМЫХ ВЕЛИЧИН *
9. 1. А. А. Марков в работе [*] рассматривал неоднородную цепь
величин Х{, i = 1,2,..., каждая из которых принимает только два значения. О
и 1 с вероятностями перехода
/ и
Pi = P{Xi = 1 | Xi-i = 1}, Pi = ?{Xi = 1 | **_! = 0},
удовлетворяющими условиям 0 < po < p' < 1 — Po; 0 < po < p" < 1 — po,
где po — постоянное. Вопрос о применимости центральной предельной тео-
п
ремы к суммам Sn = ^^ был оставлен им открытым, если допускается
1
неограниченное убывание ро при тг-э-оо. В работе [8] изучался этот во-
—а
прос и было установлено, что при условии ро = п~а, где а<1/5 предельное
71
распределение нормированной суммы Sn — ^xL должно быть нормальным,
i
а при условии а = 1/3 это уже не обязательно должно иметь место. В
настоящей работе, специально посвященной указанному вопросу,
центральным результатом является доказательство нормальности предельного рас-
п
пределения сумм Sn =У.яг-, если п1/*р0^ /ге, каково бы ни было г > 0, но
1
при дополнительном условии, что р'. = q", где q". = 1 — р'[.
ЦИТИРОВАННАЯ ЛИТЕРАТУРА
1. Марков А. А. Исследование общего случая испытаний, связанных в цепь.
«Записки Акад. наук», 25, № 3 (1910), 1—33. Перепечатано в книге: М а р к о в А. А.
Иабр. труды. Изд-во АН СССР, 1951, 467—507.
10. О СУММАХ ЗАВИСИМЫХ ВЕЛИЧИН
(ДОПОЛНЕНИЕ К РАБОТЕ [9]) *
п
10. 1. Здесь доказывается, что распределение сумм Sn = 2r* B пРеДе~
1
ле, при п —* оо, нормально, если nlhpo^ne, где е>0— любое число,
уже без дополнительного ограничения р'. = д", которое вводилось в
предыдущей работе [9]. Эта теорема вместе с установленным ранее
результатом, гласящим, что неравенство роя'/з > 1 не является достаточным
для того, чтобы Sn в пределе была нормальной величиной, было обобщено
и усилено в работах учеников и последователей автора. В работе [*]
Н. А. Сапогова доказано, что Sn в пределе нормальная величина, если
р0гс,/з —* оо при п—* оо. Ю. В. Линник [2] доказал нормальность предель-
п
ного распределения суммы Sn — ^ х\ ограниченных величин я*, связан-
1
* Этот комментарий написал по моей просьбе Н. А. Сапоговым.
548
иых в неоднородную цепь Маркова, если все вероятности перехода
отличаются от 0 и 1 не менее, чем на 72_1/3+е(е > 0 — любое число), и если каждая
из величин Хг принимает конечное число значении xt , 1 ^ к ,г. к{. причем
1
к* h=i
г А
S(h) I >ri (k)
ki
k=
С > 0.
В работе [3] Ю. В. Линника и Н. А. Сапогова изучаются суммы векторных
величин, связанных в цепь, и доказывается, что при пекоторых условиях
такие суммы в пределе, при п —* оо, подчинены нормальному
(многомерному) закону как в интегральном, так и локальном смыслах. Наконец,
Р. Л. Добрушин [4>5] дал общую формулировку теоремы о нормальности
в пределе суммы Sn, обнимающую, в частности, результаты из указанных
выше работ [1] и [2].
Ц И Т И Р О В Л 1111 Л Я ЛИТЕРАТУРА
1. Сапог он II. А. О сингулярных цепях Маркова. «Докл. АН СССР», 58 (1947),
193-196.
2. Лин ни к Ю. В. К теории неоднородных цепей Маркова. «Изв. АН СССР», сер.
матем., 13 (1949), 65—94.
3. Линник Ю. В. и С а п о г о в Н. А. Многомерные интегральный и локальный
законы для неоднородных цепей Маркова. «Изв. АН СССР», сер. матем., 13 (1949),
533-566.
4. Добрушин Р. Л. Центральная предельная теорема для неоднородных цепей
Маркова, I. «Теория верслт. и ее атримен.», 1 (1956), 72—89.
5. Добрушин Р. Л. Центральная предельная теорема для неоднородных цепей
Маркова, П. «Теория вероят. и ее примен.», i (1956), 365—'iUT).
И. ГЕОМЕТРИЧЕСКИЕ ОСНОВЫ ТЕОРИИ КОРРЕЛЯЦИИ*
11. 1. В 1926 г., за год до выхода в свет работы [11], в сборнике памяти
Лобачевского был опубликован первоначальный вариант этой работы:
«О применении одного геометрического принципа к теории корреляций»
(см. t1]). В настоящем издании помещена значительно более полная
статья, опубликованная в 1927 г. в журнале «Melron».
Приведем -здесь введение, которым начиналась работа [!].
«Как известно, гениальные идеи Лобачевского, которые произвели
коренной переворот в геометрии, лежат в настоящее время в основе
глубокого и .плодотворного пересмотра принципов механики и физики. Я не
сомневаюсь, что новая концепция 'пространства с его обобщенной
неэвклидовой метрикой окажет существенное влияние также и па развитие
теории вероятностей, поскольку последняя опирается на геометрию. В
настоящей статье я хотел бы, не выходя пока за пределы эвклидовой
геометрии, отметить важную роль для обоснования и
обобщения теории нормальной 'корреляции принципа
параллельного перемещения неизменной (абсолютно
твердой) фигуры. Таким образом совершенно новое освещение получает
* П. п. 2—4 этого комментария по моей, просьбе написаны О. В. Сармаиовьш.
549
закон случайных ошибок Гаусса, и естественно открываются некоторые
его обобщения. Развивая указанную геометрическую точку зрения на
почве идей Лобачевского и Римапа, удастся, быть может, найти все наиболее
математически элементарные и физически важные законы случая.»
Следует особо отметить возможные обобщения, которые могли бы быть
сделаны в связи с физической теорией относительности Эйнштейна.
11. 2. Как показано в статье р], уравнение (19) кроме решения (20')
имеет еще решение (207 bis), таким образом, общее решение этого
уравнения имеет вид
х , 2/г*
h h
Gle 2 ± e 2
Подобно тому, как это выполнено в работе [11], можно найти все
неизвестные функции, определяющие твердую корреляцию, исходя из решения
(20' bis).
В этом последнем случае плотность совместного распределения
вероятностей имеет следующий вид:
F(x, y)= 6elx+hv(cehx+k*y + аекх + Ъек^ + l)Cl,
а априорные плотности определяются формулами
и и
-- с, + _
р(х) = velx(cehx + Ъ) fel (aehx +1) *•
- 1- (\ + ±
Р(у) = viez'"(rr'"." + a) k (bek>v +1) к ,
где 6, v, vi — нормирующие константы. Наконец, функции', определяющие
величину сдвига условных кривых распределения у и х, соответственно,
имеют вид:
/ \ 4 1 i n i секх + ь / \ 1 1 i n i cehlV + a
ФМ=--1п|С1|^гтг; Ф1(,)=-Г1П|С1|^7ТТ
Если а, Ь, с — любые положительные числа, d < — 1, a fe, Z, &i, /4
удовлетворяют условиям Z& > 0, Uki > 0, | I \ < | &Ci |, | lt | < | kiCi |, то
соответствующая твердая корреляция распространена на всю плоскость,
причем у всех законов распределения существуют моменты всех порядков.
Бели Ci —■► — оо, а коистанты а, 6, с убывают, как | Ci |_1, то
предельным случаем только что описанной твердой корреляции является
корреляция (10), указанная в теореме § 2 работы [11].
11. 3. В п. 5 затронут вопрос существования монотонных функций f(x)
Ф(у) от переменных х и у, находящихся в произвольной криволинейной
зависимости, таких, что корреляция между /(я), <р(у)- была бы уже прямо*
линейной. Решению этого вопроса посвящен ряд статей О. В. Сарманова
(см., например, работы [3] и [4]).
И. 4. В статье [2] найден следующий общий вид плотности изогенной
корреляции
Р(х,у)=6[Р2(х,у)]с,
550
где б —нормирующая константа, С < — 1; Рг{х, у)— полином второй
степени относительно каждой из переменных, не имеющий
действительных корней и сохраняющий положительный знак на всей плоскости
XOY.
Если перейти к пределу при условии, что С— — оо, а все
коэффициенты при переменных в полиноме Рг{х, у) стремятся к 0, как I С Н, то
получается поверхность распределения, рассмотренная в п. 6 работы [11] и,
следовательно, получается новое доказательство теоремы этого
параграфа, утверждающей, что если \n.F(x, у) есть полином, то степень его не
выше двух.
ЦИТИРОВАННАЯ ЛИТЕРАТУРА
1. Бернштейн С. Н. О применении одного геометрического принципа к теории
корреляций. Сб. памяти Лобачевского, том 2, Казань (1926), 137—150. (109*).
2. С ар ман о в О. В. Об изогенной корреляции. «Изв. АН СССР», сер. матем., 9 (1945),
169-200.
3. Сарманов О. В. О монотонных решениях корреляционных интегральных
уравнений. «Докл. АН СССР», 53 (1946), 781-784.
4. Сарманов О. В. О выпрямлении несимметричной корреляции. «Докл. А Н
СССР», 59 (1948), 861-863.
14. О ЗАВИСИМОСТЯХ МЕЖДУ СЛУЧАЙНЫМИ ВЕЛИЧИНАМИ *
14. 1. За 30 лет прошедших со времени опубликования этого
доклада, теория зависимых случайнах величин бурно развивалась, и в связи
с этим возникла необходимость не только ввести ряд новых понятий, но
видоизменить и дополнить некоторые уже давно сложившиеся
классические понятия, связанные с зависимыми величинами. Остановимся на
некоторых из этих понятий.
14. 2. В связи с развитием теории информации, начало которой
положено работой Шеннона [*], и использованием понятия энтропии, для
измерения зависимости между двумя величинами с плотностью совместного
распределения F(x, у) было предложено количество информации о
зависимости [2], определяемой формулой
Ъ d
d Ь
где р(#)= \ F(x, y)dy и Р(у) = \ F(x, у)dx — априорные плотности
с а
распределения соответственно х ж у.
Этой же цели служит так называемый коэффициент сопряженности
(см. [3], стр. 312, 478-479)
" d[F(x,y)-p(x)P(y)f
*2=И-
■dx dy. (2)
Р(х)Р(у)
S2 -1
1/Хг , где %i — собственные числа в би-
*=1
* Этот комментарий написан по моей просьбе О. В. Сармановым.
551
линейном разложении ядра F(x, у) l~]fр (я)Р (у) по собственным функциям
(квадрат этого ядра предполагается интегрируемым по обоим
переменным) .
Собственные числа Х-:1 удовлетворяют условию
1>|А1|-1>|Х2|-1>... (3)
и являются коэффициентами корреляции между собственными
функциями <р,-(я) и tyi{y) указанного ядра:
ь d
— ==Я(фг(я), ЫУ)] = J J <Vi(x)$i(y)F(z,y)d*dy, (4)
1 а с
так как в силу ортонормированности этих функции,
Жфг(*)=Ж^Ы = 0; Зйф* W = g»t|??(y)= 1.
Пользуясь теоремой о среднем для логарифма, легко показать (см.,
например, [4], стр. 405), что количество информации / неотрицательно и
удовлетворяет условию / <^ А2.
В работе [5] в качестве меры зависимости между случайными
величинами с плотностью F(x, у) предложено рассматривать первое собственное
числю X"1, которое получило название максимального коэффициента
корреляции, так как в силу экстремального свойства первого собственного
числа
Ъ d
l^i)-1 = sup | ^ ^q)(x)q(y)F(x,y)dxdy\, (5)
Ф, ф а с
где верхняя грань ищется среди всех функций со средним значением,
равным 0, и дисперсией, равной 1.
Все три указанные меры зависимости являются исчерпывающими в
том смысле, что из обращения их в нуль следует независимость
случайных величин. (Известно, что из обращения в нуль обычного
коэффициента корреляции такого заключения сделать нельзя).
В случае нормальной корреляции, стохастическое обоснование которой
указано в пункте 4 работы [14] и более подробно проведено в работе [16],
максимальный коэффициент корреляции совпадает с обычным
коэффициентом корреляции, это же имеет место и в других видах прямолинейной
корреляции.
14. 3. Общая теория слабо зависимых величин, начало которой
положено в работе [4], детально разработана в мемуаре [8], примеры новых
применений ее мы находим в работах [25] и [27], а также в
многочисленных работах других авторов, часть которых указывается в комментариях
к работам [8], [9] и {10].
Остановимся здесь на совсем новом понятии, на так называемом
«условии сильного перемешивания», введенном Розенблаттом [б] и
основанном на рассмотрении меры зависимости а (9К', Ж) между двумя
552
алгебрами событий 9R' и $Г
а = а (9R',
*) = sup | Р (А'А")
А"еяг
Р (Л') Р (Л*)
(6)
Пусть £ (О — стационарный случайный процесс, для моментов времени
t и t ~\- х рассмотрим две б-алгебры событий Sffiioo, порождаемую
случайными величинами \ (и) при — оо <^ и <^ £ и ЗК^Т , порождаемую
случайными величинами £ (г;) при £ + т ^ г; <[ оо. Тогда из-за
стационарности процесса мера зависимости
<x(3Rioo, 8R£T) =а(т) (7)
будет зависеть только от т.
Если теперь а (т) —► 0 при i —> оо, то говорят, что процесс | (£)
обладает свойством сильного перемешивания.
Мера Розенблатта есть максимум модуля числителя коэффициента
корреляции
Г (А'А") — Т?(А')Г(А")
R (А\ А") -
]/Р(А')[1— Р(А')]Р{А") [1—Р(А")]
(8)
между двумя событиями А' и А", из которых первое взято из алгебры
Ж', а второе из алгебры 3R".
(Определение Я (Л', А") и описание его свойств можно найти в
курсе «Т. В.», стр. 33.)
Равенство ос = 0 несомненно обеспечивает независимость алгебр ЗЙ'и
3R", но если а мало, или даже, если а —> 0 при изменении некоторого
параметра £, от которого зависят алгебры W и 3R", то слабая
зависимость, которую гарантирует равномерная малость модулей
коэффициентов корреляции (8), отнюдь не следует из малости а (заметим, что
R (А\ А") тоже является исчерпывающей мерой зависимости, так как
для схем из двух событий понятия коэффициента корреляции (8) и
максимального коэффициента корреляции совпадают).
В самом деле, пусть имеются две простейшие конечные схемы (или
алгебры) событий, каждая из которых состоит из четырех событий:
3R' = (А', 1\ О', Q') и W == (А\ А", О", Q"), где буквами О и Q
обозначены соответственно невозможное и достоверное события в
рассматриваемых схемах.
Легко проверить, что для таких схем мера Розенблатта
a (W, Щ « | Р (Л'Л") - Р (А') Р (Л") | = | рп - Pl Л | .
Пусть вероятности попарных совмещений событий из (наших алгебр
зависят от времени t и задаются следующей симметричной матрицей:
Ра
Р12
Pl2
Р22
-kt Г p-U (
г V+0
o-kt
-kt
+
-kt
R(t)
-kt
-kt
[i-R(t)]
U-R(t)1
('-^)[
p-kt
(1-R(t)
553
откуда следует, что pi — Pi = ike Kt, где % — произвольное положительное
число, a R(t)—коэффициентт корреляции между событиями Аг и А",
такой что R{t) > - Чг e~u{i — 7г е~и) -1.
В нашем случае мера Розенблатта
■и / *-kt
При этом события А' и А" могут быть сколько угодно сильно зависимыми:
положив, натфимер,
1 — e~xt
Д(0 =
1 + е-"
получим, что R(t)-*1 при t-+- оо.
Приведенный гаример можно интерпретировать следующим образом.
Две двузначные случайные величины \{t) и т)(£) образуют двумерный
нестационарный вероятностный процесс с непрерывным временем L Матрица
/ Ри Р\2 \ „ t/,4 ,.ч
1 задает совместный закон распределения g(£) и r\(t) в один и тот
же момент времени (т. е., условие а(£)—> 0 не является сильным
перемешиванием в вышеуказанном смысле), причем с ростом t
стохастическая зависимость между £(£) и r\(t) возрастает, приближаясь к линейной
функциональной зависимости.
Можно было бы привести аналогичный, более общий пример, где £(£)
и y\(t) гс-значные величины, с симметричной матрицей двумерного
распределения вероятностей.
Мера Розенблатта нашла применение при доказательстве предельных
теорем, связанных со случайными процессами. Ее применение оказалось
успешным в тех случаях, когда из малости а следует малость
соответствующих коэффициентов корреляции, и действительно гарантируется
слабая зависимость между случайными величинами (которые порождают
рассматриваемое алгебры событий). Примером такого исследования
является, например, работа {7].
14. 4. В конце п. 6 работы [14] отмечается задача непосредственного
решения интегрального уравнения Чапмана, без сведения его к
дифференциальным уравнениям.
В статье [8] для уравнения Чапмана — Смолуховского в стационарном
случае
ь
P (*i + fe, х, у) = ^ Р (*i> х> z)P(t2, *, У) dz (9)
а
при условии, что
p(x)p(t,x, y) = p(y)p(t, y,z), (10)
где р(х) априорная плотность распределения я, найдено общее решение
этого уравнения в виде ряда
оо
Р(*,Х,У) = Р(У)И+ ^е-Ч<ук(х)щ(у)]. (И)
554
В формуле (11) {фь(я;)| — система ортонормированных функций в
отрезке [а, Ь] с весом р(х), а Хь. — положительные числа, удовлетворяющие
условию 0 < Ki ^ ^2 <^ .. . .
Кроме того, там найдены все имеющие вероятностный смысл решения
соответствующего уравнения Планка — Колмогорова в том случае, когда
щ(х) есть полином степени к, к = 1, 2, ... .
ЦИТИРОВАННАЯ ЛИТЕРАТУРА
1. Shannon С. Е., Weaver W. The mathematical theory of communication. Univ.
of 111 Press, 1949.
2. Колмогоров А. Н. Теория передачи информации. М., Изд-во АН СССР, 1956.
3. Крамер Г. Математические методы статистики. М., ИЛ, 1948.
4. Голдман С. Теория информации. М., ИЛ, 1957.
5. Сарманов О. В. Максимальный коэффициент корреляции (несимметричный
случай). «ДАН СССР», 120, № 4 (1958), 715—718.
■6. Rosenblatt M. A central limit theorem and a strong mixing condition. «Proc. Nat.
Acad. Sci. Wash.», 42, № 1 (1956).
7. Колмогоров А. П., Розанов Ю. А. Об условиях сильного перемешивания
гауссовских стационарных процессов. «Теория вероятн. и ее применения»,
5, № 2 (1960), 222—227.
S. Сарманов О. В. Исследование стационарных марковских процессов методом
разложения по собственным функциям. «Труды Математич. ин-та АН СССР», 60
(1961), 238-259.
16. ДОКАЗАТЕЛЬСТВО ТЕОРЕМЫ ЛЯПУНОВА
И ОБОСНОВАНИЕ ФОРМУЛЫ НОРМАЛЬНОЙ КОРРЕЛЯЦИИ
МЕТОДОМ ДИФФЕРЕНЦИАЛЬНЫХ УРАВНЕНИЙ *
16. 1. Доказывается классическая предельная теорема Ляпунова,
утверждающая, что сумма
Xi + . . . + Хп
независимых случайных величин х\ распределена асимптотически
нормально, если выполнено условие Ляпунова
— 0 при п —► сю,
Vi + .. ■ + У*
8
1+-
В 2
где
8> 0,
Уг = Ж | Xi - <Ц |2+е,
п
В = SBTg: (xk-ak)*.
Впервые опубликовано во 2-м издании книги «Теория -вероятностей»
в 1934 г. (добавление второе). В основном тексте книги «Т. В.» теорема
Этот комментарий написан по моей просьбе А. А. Петровым.
555
Ляпунова доказывается известным методом Линдеберга. В первом
добавлении было приведено доказательство методом характеристических
функций. Настоящее доказательство проводится методом дифференциальных
уравнений. Тот же метод применяется затем к выводу основной теоремы
теории нормальной корреляции.
Распространению теоремы Ляпунова на случай зависимых слагаемых
посвящены работы [4], [8], см. также «Т. В.» ч. IV, гл. III.
19. ПРИНЦИПЫ ТЕОРИИ СТОХАСТИЧЕСКИХ ДИФФЕРЕНЦИАЛЬНЫХ
УРАВНЕНИЙ
19. il. Эта статья является первой частью более подробных
исследований, выполненных мною на основе общих идей, изложенных в моем
докладе на Международном конгрессе математиков в Цюрихе в 1932 г. «О
зависимостях между случайными величинами» [14]. Некоторое развитие
методов и результатов дано в статье «О стохастических
дифференциальных уравнениях» [23]. Сюда же примыкают небольшие заметки «О
дифференциальном уравнении Фоккера — Планка» [15] и «О диффузии с
поглощением» [18]. Завершением этого цикла работ является статья
«Стохастические уравнения в конечных разностях и стохастические
дифференциальные уравнения» {35].
Дополнительным общим комментарием к этому циклу работ следует
указать еще мою (статью «Ограничение модулей последовательных
производных решений уравнений параболического типа» *
dz . . * , , * „ „ ( , dz „ дч
**Az+y. aiz'. + У. Bikz" [z'. = -—, z'' =
/1=1
20. О МАТЕМАТИЧЕСКОМ ОЖИДАНИИ ПРОСТОЯ
РАБОЧИХ ЕДИНИЦ ПРИ СЛОЖНОМ ПРОИЗВОДСТВЕННОМ ПРОЦЕССЕ '*
20. 1. Статья была написана в ответ на вопрос, вставший перед
специалистами горного дела и угольной промышленности, об определении
тех дополнительных потерь рабочего времени, которые связаны с
неритмичностью работы отдельных участков процесса. Стоит заметить, что
непосредственное экспериментальное определение этих потерь с помощью
хронометрических наблюдений было в то время, когда писалась статья,
связано с большими трудностями (см. статью горного инженера из
Научно-исследовательского угольного института И. М. Печука «Влияние а-риъ-
мичной работы отдельных звеньев на производительность рудника».
«Уголь» № 117 (1935), 99—108). Поставленная задача была решена
математически в простых и достаточно естественных предположениях дли
сложного процесса при параллельной работе звеньев. Кроме того, были
указаны плотность распределения вероятностей и математическое
ожидание фактической нагрузки, а также средняя потеря производительноста
* «Докл. АН СССР», 18, № 7 (1938), 385-388. [23] (т. III).
** Этот комментарий написан по моей просьбе А. А. Петровым.
556
магистрали. Соответствующее место из указанной статьи И. М. Печука,
написанное автором, ниже приводится полностью.
«1) Пусть у— производительность веток, х — производительность
магистрали в единицу времени, законы вероятностей соответственно Q*' (х)
и Р'(х). В таком случае фактическая нагрузка z будет равна меньшему
из значений х, у. Поэтому закон вероятностей для z будет:
R'(x) = F(z)[i~Q(z)) + Q'(z)[\-P(z)}; (12)
так как вероятность, что х = z и у > z равна
P'(z)[l-Q(z));
вероятность, что у — z и х > z равна
Q'{z)[i-P{z)].
2) При этих условиях
оо оо
А =Й2= ^ zRf(z)dz - $ z{P'(z)[l — Q(z)] +
—оо —оо
оо
+ Q'(z)[l-P(z)]} dz = a + b- J z(P'Q + PQ')dz, (13)
—оо
где а = ®ж, Ъ = ®ly. Формуле (13) можно (интегрируя по частям) дать
вид
оо
4 = a-J z[P'Q + Q'(P-\))dz =
—оо
оо оо
= e-J z[Q(P - \)]'dz = a- J Q(\-P)dz. (13a)
—оо —оо
Таким образом, средняя потеря производительности магистрали:
оо
е = J Q(l - P)dz- (14)»
—оо
21. ОПРЕДЕЛЕНИЕ НИЖНЕЙ ГРАНИЦЫ ДИСПЕРСИИ СУММ
ВЕЛИЧИН, СВЯЗАННЫХ В СИНГУЛЯРНУЮ ЦЕПЬ
МАРКОВА *
21. 1. Оценка дисперсии снизу для суммы величии, связанных в цепь
Маркова, является основным вопросом для теории суммирования величин,
связанных в цепь Маркова. Даже для случая однородной цепи Маркова
этот вопрос нетривиален, а для неоднородной цепи представляет
значительные трудности. Метод, указанный в данной работе (оценка дисперсии
сумм через сумму средних условных дисперсий), дал ключ к решению
многих задач теории суммирования величин, связанных в неоднородную
цепь Маркова, и применялся впоследствии в тех или иных вариантах
разными авторами.
Н. А. Сапогов применил этот метод для изучения сингулярных
неоднородных цепей довольно общего вида ■[*], а также для двумерных неод-
* Этот комментарий написан по моей просьбе Ю. В. Лишгаком.
557
нородыых цепей [2]. Далее, метод, изложенный в настоящей статье,
развивался Ю. В. Линником [3], Н. А. Сапоговым [4] и двумя указанными
авторами в их совместной работе [5]. В этих работах задачи теории
суммирования случайных величин, связанных в неоднородную цепь Маркова,
поставленные А. А. Марковым и автором, были решены в достаточно
удовлетворительной форме.
Далее продвинул и значительно обобщил эти задачи Р. Л. Добрушив,
также развивавший указанный метод в работах [6] и [7].
В локальных предельных теоремах для неоднородных цепей Маркова
указанный метод с успехом развивал В. А. Статулявичус в работах [8]
и П.
ЦИТИРОВАННАЯ ЛИТЕРАТУРА
1. Сапогов Н. А. Предельная теорема Лапласа — Ляпунова для сингулярной цели
Маркова. «Докл. АН СССР», 58, № 9 (1947), 1905-1908.
2. Сапогов Н. А. Двумерная предельная теорема для двумерной цепи. «Изв. АН
СССР», сер. матем., 13 (1949), 301-314.
3. Л и н н и к Ю. В. К теории неоднородных цепей Маркова. «Изв. АН СССР», сер.
матем., 13 (1949), 65—94.
4. Сапогов Н. А. О многомерных неоднородных целой Маркова. «Докл. АН СССР».
69, № 2 (1949), 133-135.
5. Лин ни к Ю. В., Сапогов Н. А. Многомерные интегральный и локальный
законы для неоднородных цепей Маркова. «Изв. АН СССР», сер. матем., 13 (1949),
533-566.
6. Добру шин Р. Л. Центральная предельная теорема для неоднородных цепей
Маркова, I. «Теорема вероятностей и ее примен.», 1, № 1 (1956), 72—89.
7. Добру шин Р. Л. Центральная предельная теорема для неоднородных цепей
Маркова, II. «Теория вероятностей и ее примен.», 1, № 4 (1956), 365—425.
8. Статулявичус В. А. О локальной предельной теореме для неоднородных
цепей Маркова. «Докл. АН СССР», 107, № 4 (1956), 516—519.
9. Статулявичус В. А. Асимптотическое разложение для неоднородных цепей
Маркова. «Докл. АН СССР», 112, № 2 (1957), 206.
22. О НЕКОТОРЫХ ВИДОИЗМЕНЕНИЯХ
НЕРАВЕНСТВА ЧЕБЫШЕВА*
22. 1. Последовательности случайных величин, рассматриваемые в
работе, были введены в теорию вероятностей С. Н. Бернштейном и
П. Леви [*]. В настоящее время такие последовательности принято
называть мартингалами. По мартингалам существует обширная литература.
С важнейшими результатами этой теории и относящейся к ней
библиографией можно ознакомиться по монографии Дж. Л. Дуба {2].
Теорема I представляет собой обобщение неравенства А. Н.
Колмогорова [3], которое было им доказано для последовательности независимых
случайных величин. Этому неравенству может быть придана еще более
общая форма. Именно, пусть случайные величины £i, . . . , £п образуют
полумартингал, т. е. для каждого к^п
Ж (6fc|Ei,...,S*-i) = 0.
* Этот комментарий написан по моей просьбе В. М. Золотаревым,
558
Возьмем функцию <р(я), определенную на полуоси х > 0 и обладающую
следующими свойствами:
1) Ф(0)=0,
2) Ф(х)>0,
3) ф(#) — выпуклая.
Обозначим далее £ь = £i + . . . + Ьь. и
ф(*]) = ^Ф^с/Т^г).
о
Еслж теперь предположить конечность Ж+ф(£я), то можно утверждать,
что для каждого е > О, для которого ф(е)> 0, справедливо неравенства
Pfsup&^eK ^. (•)
ft<n Ф(е)
Отметим при этом, что условия (1) —(3) являются наилучшими
достаточными в том смысле, что нарушение одного из них приводит к
нарушению неравенства (*) для некоторых последовательностей (даже
независимых) случайных величин.
Теорема II также допускает более общую формулировку при менее
ограничительных требованиях. Именно, пусть £i, . . ., £п образуют
мартингал. Возьмем функцию ty(x), определенную на полуоси х^О такую, что
1) гр(0) = 0, *(*)!> О,
2) *ф (ж) — вогнутая,
3) 'ф(ху) <ф(аг)гр(у).
Обозначим рг =^К | £* | *ф(| £* |) и предположим существование таких
положительных постоянных Я, Ru . .. , Rn, что
3» +%$(Ь) ^ (г-1)1 H'-%Ri
для всех i = 1, . . . , п и г = 1, 2, . . . .
Тогда имеет место неравенство
Prsup&k<4(l +А)Ву(В)у{~)}<
( ехр{~Л^(Б)г|) (^-)/ , если 0 < t < — g,
ехр{-Л-^г|>(Я)^ — J) , если *>-^9,
где 0 < ? < 1, А> 0 — произвольные числа, А = 2ф(1/4)/[4 (1 — 9)] и
п
величина В определяется из уравнения #ф(В) =2 Р^*-
1
22. 2. Стр. 333. «Из теоремы II нетрудно вывести распространение
„закона повторного логарифма" . . . ». Неравенство, устанавливаемое тео-
559
ремой И, дает лишь оценку сверху для вероятности Q — Р (| zi + . . .
. . . + zn I > 2tB} и потому приводит лишь к утверждению, что
та/т I21 + •• * + Zn\ ^ а \ а
Р | lim sup L <; 11 = 1.
VKlnlnSn
Для доказательства «закона повторного логарифма» в общепринятом
понимании (т. е. lim sup | zi + ... + zn | ЦВп 1п1п£п = 1) требуется нижняя
оценка вероятности Q (аналогичная по порядку верхней) типа той, что
приводится в работе А. Н. Колмогорова [4].
ЦИТИРОВАННАЯ ЛИТЕРАТУРА
1. Levy P. Theorie de l'addition des variables aleatories. Paris, 1937.
2. Д у б Дж. Л. Вероятностные процессы. М., ИЛ, 1956.
3. Колмогоров А. Н. Ueber die Summen durch den Zufall bestimmten unabliangi-
gen Grossen. «Math. Ann.», 99 (1928), 309—329.
4. Колмогоров А. Н. Ueber das Gesetz des iteriertcn Logarithmus. «Math. Ann.»,
101 (1929), 126-135.
23. СТОХАСТИЧЕСКИЕ ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ *
23. 1. В случае дифференцируемое™ начального распределения
вероятностей доказательство существования предельной функции,
удовлетворяющей уравнению (22 bis), методом автора при более общих условиях
осуществлено во всех деталях В. Н. Блюменфельдом в его кандидатской
диссертации [*]. Доказательство проводилось для сокращения записи для
случая s = 2. С помощью распространения леммы IV на случай системы
стохастических уравнений (23) В. Н. Блюменфельдом доказано также
существование предельного распределения и для разрывных начальных
данных; в этом случае предельная функция будет обычным решением
уравнения (22 bis), если квадратичная форма этого уравнения не может
вырождаться. В общем случае предельная функция удовлетворяет
уравнению (22 bis) в некотором обобщенном смысле (например, в смысле
С. Л. Соболева).
Отметим также, что В. Н. Блюменфельдом [2] для уравнения (22 bis)
доказана теорема единственности решения задачи начальных данных в
предположении, что предельная функция при каждом фиксированном /
стремится к нулю на бесконечности и непрерывна по t равномерно
относительно всех остальных аргументов.
23. 2. В мемуаре [19] автором были определены условия
существования предельного закона распределения
Р(у) = lim P(y, t) = lim [lim Pntt(y)l
* П.п. 1 — 2 этого комментария написалаы по моей просьбе В. Н.
Блюменфельдом.
560
где Pn,t(y) —интегральный закон распределения вероятностей уп для
фиксированного t = tn = 2 Ati определяется стохастическим дифференци-
о
альным уравнением
Аг/г = /(//,-, tu A*i, o.t.) yIti + A(yu t-l4 Л*,)Д*;. 0)
Именно, там доказана следующая теорема:
Если при любом сколь угодно большом t имеет место неравенство
5R I Уп Iя < L и А (у) и В (у) — функции только у, то всегда существует
предельное распределение Р(у) для t — оо, которое удовлетворяет
уравнению
(Л'Р)(-*)-{[л +i B/)pJ(""1) + yPfi=fly + b. (2)
Если, кроме того, В {у) > 0, то предельное распределение единственно
и определяется формулой
где С — константа нормирования.
Если В (у) = 0 для некоторых значений //, то во всех остальных
точках или р(у) = 0, или р(у) определяется также по формуле (3),
Первый случай имеет место, в частности, если А (у) =0 одновременно
<• В (и).
Г. М. Гинзбургом [я] были указаны необходимые и достаточные
условия единственности предельного распределения Р(у) при любом
расположении нулей функций А (у) и В (у), которые предполагаются
аналитическими на всей вещественной оси. Для случая, когда нули функций А (у)
и В (у) не совпадают, им доказано, что предельное распределение Р(у),
определяемое уравнением
А?/ =/(.У, а)УлГ+Л(у)Д*, (Ibis)
единствеппо в том и только в том случае, когда нули функции В (у), в
которых А (у) < 0, не предшествуют па числовой оси нулям той же функции,
в которых А (у) > 0.
Если допустить, что функции Л (у) и В (у) имеют несколько общих
нулей, то, исходя из произвольного начального распределения при t — to,
нельзя получить при помощи уравнения (1 his) единственного
предельного распределения, так как в зтом случае приращения предельной
функции распределения остаются в общих нулях функций А (у) и В (у)
неопределенными. Поптому предельное распределение Р(у), не зависящее от
распределения для у в начальный момент t — U, возможно только при условии,
когда функции А (у) и В (у) имеют не более одного общего нуля. В этом
случае, как показано Г. М. Гинзбургом, предельное распределение,
определяемое уравнением (1 bis), единственно и dP(ys)= 1 (у = у8 —
единственный общш нуль аналитических функций А (у) и В (у)) в том .я только
36 С. Н. Бернштейн
561
в том случае, когда при
Л(у)= (//-- Уз)т(р(у), фЫ= аф О,
}Цу)= (//--!/8)2ЧЫ, №) = '>> О
выполняются условия:
1) Функция А (у) положительна в нулях функции В (у), лежащих
слева от i/s, и отрицательна в пулях функции В (у), лежащих справа
от */,, и
2) а) т>2/г, или Ь) т = 2к - 1 и я<Ь(Л- - 1/2), пли с) /?г<2/г - 1,
/г/ — нечетно и а < 0.
23. 3. Приведем здесь полностью заметку [4], включенную с некоторыми
изменениями в работу [23].
ИСПРАВЛЕНИЕ ОДНОГО ДОКАЗАТЕЛЬСТВА
В моей статье «Los equations differentielles stochastiques» [23] дана
между прочим лемма III: если уравнение
AYn = ф(Уп> tni УД?*, ап) УД^п + Q(Yn, tn, VSFM> an) A*nv* (27)
эквивалентно квазилинейному или ограниченному уравнению
&Уп = Ф(//л, *и, УМм a„) fAfrt (251ня)
(т.е. при jy| <L, *<7\
(()(,/, /, ]/АЛ„ a) | <£(£),
где (?(/"')—некоторая конечная функция L), то распределение
вероятностей Yyt при любом tn = / *СГ стремится, когда At —♦ 0, к предельному
распределению уп, соответствующему тому же самому начальному
распределению (стр 350) *.
Но предложенное там доказательство неудовлетворительно, так как в
неравенствах, на которых оно основано, пропущено одно слагаемое. Хотя
в дальнейшем, в единственном месте, где эта лемма применяется (стр. 352),
она в сущности излишня, так как соответствующее уравнение (20) не
только эквивалентно ограт гачен ному уравнению, но и само ограничепо.
однако ввиду принципиальной важности этой леммы я считаю нужным
привести здесь ее точное доказательство. Для этого следует прежде всего
распространить лемму II (стр. 348) на эквивалентные уравнения.
Лемма II. Если уравнение (27) эквивалентно регулярному уравнению
&Уп = Ф(у„, in, УД^п, ап) iEtn =AMn +/Уд7„(Ж/ = 0, |Ф/|<сО (25)
квазилинейному [или только удовлетворяющему неравенству (26)
у А < с({ + г/2), где с и сА — постоянные], в таком случае, как бы мало ни
было e > 0, можно указать достаточно большое число L и достаточно ма-
* Указаны страницы настоящего тома. (Ред.)
562
лое К чтобы вероятность | У* | <£(*< л) *о *се#/г точках подразделения
тг-1
I = 2 Д^ ~ ?п была больше 1-е, когс?а Д/< < Я.
о
Воспроизводя сделанную там замену переменных
Z» = ^ln(Y*+l),
мы находим, что
где [ 9 J < 1, q(M) — некоторая конечная функция М — max Zn. Ввиду
того, что данная здесь формулировка леммы II включает уравнения (27),
эквивалентные уравнению (25), мы уже не можем утверждать
ограниченности q(M) при всяком М. Отмечая только те пункты дальнейшего
рассуждения, которые вследствие этого необходимо дополнить, имеем при
всяком I <J п
г-1
Zt < Z0 + e2ti + 2 IhiMn + tQ(Mi) УМ SR &Л = 0),
о
где М{ =max Zk, c2—ограниченная постоянная. Поэтому вероятность не-
равенств
1 —
Zi < Z0 + c2t + —iczt + tQ(Mn) УЯ
8
при всех i ^ n, где c3 — ограниченная постоянная, больше, чем 1 — е.
Положим Z0 + c^t ~Ь icztfe = Д и возьмем Я достаточно малым, чтобы
Г£(2Д)УГ<Я;
в таком случае вероятность, что при всех i<ln (полагая \|э = 0 в
противном случае)
Zi < 2/?,
а тем более, что |Уг| < еш = L, будет больше 1 — 8.
После этого доказательство леммы III не представляет труда даже
при более общем предположении, что условие J Jy|<c,
соответствующее квазилинейности, заменяется менее ограничительным условием
.4у<с, из которого вытекает (26). Для этого достаточно применить
рассуждение, аналогичное тому, при помощи которого установлена
лемма IV (стр. 356). Действительно, положим ип = Уп — упи будем
обозначать математическое ожидание всякой функции ф (Уп, yn, On) через
^l t|> (Уп, Ут «п) при условии, что | У* | < L, | yt | < L для всех i < п.
\& С. Н> Бершптейя
563
Тогда
[Ф (Гп> tn, Vten, a») - Ф (y„, tn, VAtn, an)] Y&n +
+ <? (Yn, tn, VAfn, an) Atf ,
откуда
®IluI+1 < 3RL [un + (Ф (Y„, <„, y~Ktn, a») — Ф (y„, «„, }^ЛГ„, an)) J/"A^ +
_з_
+ QMt ]2<^l [ип+(Ф (Yn, tn, VAJn, an) - Ф (yn,tn,V~&nAn))V~Un? +
3_
+ P (Ц Atf ,
где Р (L) — некоторая данная конечная функция L.
Поэтому, учитывая, что 9Kl / = 0, так как an независимо от Уь
Vi (i ^ n), имеем
SRL и2п+1 < ®lLu2n + 2®lLun [A (7Я, tni V~KtnAn) -
- A (i/n, tn, КаГп, an)] Atn + 3Rl [Ф (Fn, tn9 V"Atn, a*) -
_з_
- Ф (Уп, tn, VATn, On)? Atn + P (L) A*n2 < ®Lu2n (1 +
_L
+ hten) + P (L) At* < SRLi4 (1 + hAtn) + h6Atn,
где h>l — данная постоянная, б = P(L)i\x/h, Atn<^\i. Следовательно,
из uq = 0 вытекает, что
gRL.Mn+i < ($RLun + б) (1 + hktn) - б =
= б[(1 + ИМ,). • .(1 + hAtn)- 1] < fi[e«— 1] < P(L)ewy]T
Таким образом, беря |х ^ X достаточно малым, видим, что если все
|Гг-| <^L, |z/i| ^£ (i<^n), то вероятность, что
|Уп+1-уп+1|<Р, (1)
где р — данная наперед, произвольно малая величина, больше, чем
P(L)eht yjx
1 > ,1 _ 8? а потому вероятность неравенства (1) больше,
чем 1 — Зе.
Следует заметить, что все наши выводы остаются в силе, если в
определении эквивалентности уравнения (27) множитель At312 в добавляемом
члене заменить через Д£ф(Д£), где <р(Д£) —-0 при At—+Q.
ЦИТИРОВАННАЯ ЛИТЕРАТУРА
1. Блюменфельд В. Н. О существовании и единственности предельных
распределений для систем стохастических дифференциальных уравнений.
Кандидатская диссертация, Ленинград, ЛГУ, 1955.
2. Блюменфельд В. Н. О единственности предельного распределения для
системы стохастических дифференциальных уравнений. «Докл. АН СССР», 111, № 4
(1956), 739-741.
564
3. Гинзбург Г. М. Об условиях единственности предельных распределений. «И,т.
АН СССР», сер. матем., 15, № 6 (1951), 563—580.
4 Бернштейп С. Н. Исправление одного доказательства. «До.кл. ЛИ СССР», 25,
№ 9 (1939), 705-707, (206*).
27. О СУММАХ ЗАВИСИМЫХ ВЕЛИЧИН,
ИМЕЮЩИХ ВЗАИМНО ПОЧТИ НУЛЕВУЮ РЕГРЕССИЮ *
27. 1. Данная статья дополняет и развивает работу [25]. В обеих
статьях, в частности, изучаются предельные распределения сумм Sn,
слагаемые которых, хн, обладают следующим свойством:
$ц{хк \хих2..., xh-x) =-0. (1)
п
Если Xk удовлетворяют условию (1), то суммы 2\ хк в последующие
годы получили название мартингалов-последовательностей.
Вообще, последовательность случайных величин {Хп} образует
мартингал (см. монографию Дуба [*], стр. 88), если
эд (Xn+i\Xu Х2, ..., Хп) = Хп. (2)
Легко проверить, что если положить Хп — Su и предположить, что
выполнено (1), то
gR^n+iISi, 5г, ..., Sn) = 3R ([.г/)+1 + 5n]|*Sb So, ..., Sn) =
= 9R (Xn+i\xu X2, . .. , Xn) + $n = Sn,
то есть для {Sn} выполнено (2).
27. 2. Определение мартингала-процесса, зависящего от непрерывного
параметра, и подробное изложение свойств мартингалов можно найти в
монографии Дуба [*] и в книге Лоэва [2]. Заметим еще, что П. Леви [3] называл
вероятностную игру безобидной, если к моменту времени s выигрыш
игрока был равен xs, а условное математическое ожидание выигрыша xt в
момент времени f>s -равно xSi так что ^l{xt\xs) = xs. Такое представление
безобидной игры тоже соответствует понятию мартингала.
27. 3. Большой интерес для математической -статистики имеют
следствие III на стр. 384 и следствие IV на стр. 385.
Их можно интерпретировать следующим образом: «Отклонение выбо-
рочного среднего -- ^ Xh ~ ь от математического ожидания а, нормиро-
1 п
ванное корнем квадратным из выборочной дисперсии -• 2 (xk — I)2 = сг2,
h — l
асимптотически нормально с параметрами 0 и l/"j/ra».
Эта теорема, известная для независимых случайных величии хи,
распространяется здесь на случай зависимых величин рассматриваемых в работе
типов (классов (A, N) ж (В, N)).
* Этот комментарий нашисан по моей просьбе О. В. Сармановыи.
5G5 36*
ЦИТИРОВАННАЯ ЛИТЕРАТУРА
1. Дуб. Дж. Л. Вероятностные процессы. Москва, ИЛ, 1956.
2. Лоэйв. М. Теория вероятностей. Москва, ИЛ, 1962.
3. Levy P. Theorie de l'addition des variables aleatoires. Paris, 1937.
28. О «ДОВЕРИТЕЛЬНЫХ» ВЕРОЯТНОСТЯХ ФИШЕРА *
28. 1. Первая в советской математической литературе публикация,
посвященная критическому анализу теории '«фидъюшиальных»
статистических выводов (англ.—fiducial argument), принадлежащей одному из
создателей современной математической статистики — английскому
математику Р. А. Фишеру [!]. Формальная (вычислительная) сторона теории
Фишера обычно приводит к тем же результатам, что и широко
распространенная ныне теория доверительных интервалов, предложенная
американским математиком Ю. Нейманом [2].
Коренное различие концепций Фишера и Неймана заключается в.
истолковании полученных результатов. По Нейману, оцениваемый
параметр а трактуется как неизвестная постоянная величина; для
экспериментального определения а заранее (до опыта) строится доверительный
интервал (aid), #2(1)), концы которого представляют собой функции от
подлежащей наблюдению случайной величины g, подчиняющейся
распределению с неизвестным параметром а. При этом, если вероятность
одновременного выполнения двух неравенств ai(£) <а<Я2(§) не зависит
от а, то ее называют доверительной вероятностью, или коэффициентом
доверия (в более общем случае коэффициент доверия определяется как
точная нижняя грань вероятностей P(ai(£) < а < а2(с))} при всех
допустимых значениях а). Иными словами, доверительная вероятность есть
.априорная вероятность «накрытия» доверительным интервалом
неизвестного истинного значения параметра. Естественно, что такое истолкование
доверительной вероятности останется в силе и тогда, когда а —случайная
величина, так как эта вероятность вычисляется до опыта и поэтому не
зависит от априорного распределения параметра а.
По Фишеру, коэффициент доверия истолковывается как апостериорная
вероятность одновременного выполнения двух неравенств ai (х) < а <
аг(х) после того, как в результате эксперимента стало известно, что
случайная величина § приняла значение х. Если а—неизвестная постоянная,
то подобное истолкование будет дефектным: если х стало известно, то
границы ai(x) и аг{х) перестают быть случайными (в этих условиях
«доверительная вероятность» может быть либо нулем, либо единицей).
Пытаясь преодолеть это затруднение при истолковании коэффициента доверия
как апостериорной вероятности, Фишер дополнительно предполагает, что
каждый результат наблюдения % = х порождает так называемое «фидь-
юшиальное» распределение величины а, зависящее**, вообще говоря, от
* Этот комментарий написан по моей просьбе Л. Н. Болыпевым.
** По Фишеру, до опыта а — неизвестная постоянная; ее «фидьюшиалъное»
распределение, говоря словами самого Фишера, «проявляется лишь в свете выборочных
наблюдений». Такой подход, если ж может быть оправдан, то, по-видимому, лишь вне
рамок общепринятой теории вероятностей.
566
параметра х. Это распределение устроено таким образом, что «фидьюши-
альная» вероятность события \а±{х) <^а<^а2{х)\ обычно совпадает с
априорной доверительной вероятностью P(ai(£) < а < а2(1)\ (различие
«фидыошиальной» и доверительной вероятностей наблюдается лишь, тогда,
когда фидыошиальное распределение параметра а представляет собой
свертку каких-либо других «фидыошиальных» распределений, см. [3]),
С точки зрения классической теории вероятностей искусственное
введение «фидьюшиального» распределения следует рассматривать как
попытку исключить влияние неизвестного априорного распределения а на
апостериорную вероятность Phti(x) < а < а2(х) I I = х\
В статье [28] показано, что фишеровское истолкование
«доверительности» как апостериорной вероятности противоречит основам теории
вероятностей и, в частности, теореме Байеса. С помощью этой теоремы дока
зано, что в действительности доверительная вероятность есть математиче
ское ожидание апостериорной вероятности P{ai(:r) < а < а2(х) | £ = я]
(см. формулу (8)).
Следовательно, принятие концепции Фишера влечет за собой замену
апостериорной вероятности ее средним значением, что при малом числе
наблюдений может привести к грубым ошибкам. Таким образом, как
подчеркивается в обзоре [4], доказано, что при оценке неизвестного случайного
параметра а «по одному или по малому числу наблюдений исключить
указываемую теоремой Байеса роль «априорной» информации о значении а,
вообще говоря, невозможно»,
В современных учебниках по математической статистике
истолкование смысла и практических способов употребления доверительных
интервалов излагается по Нейману, концепция которого выгодно отличается
от концепции Фишера своей логически безупречной формой. Более
подробные сведения о затронутых здесь вопросах можно найти в
работах [5] и [б].
Замечание 1. В статье термин «доверительная вероятность»
эквивалентен английскому..статистическому термину the fidicial probability,
введенному Р. А. Фишером. Желая подчеркнуть принципиальное отличие
своей концепции от концепции Фишера, Ю. Нейман (предложил новый
термин the confidence probability, который на русский язык переводится
снова как «доверительная вероятность». Поэтому было бы более
естественно и точно говорить в первом случае «доверительная вероятность по
Фишеру», а во втором «доверительная вероятность по Нейману». Чаще,
однако, слова «по Нейману» опускают, поскольку в современной советской
статистической литературе теория доверительных интервалов излагается
только по Нейману. В тех же случаях, когда хотят подчеркнуть, что речь
идет о концепций Фишера, вместо слов «доверительная вероятность по
Фишеру», говорят «фидьюшиальная (или фидуциальная) вероятность».
Замечание 2. Заключительный раздел статьи посвящен примеру,
который показывает, что неправильное толкование коэффициента
доверия как апостериорной вероятности может привести к грубо ошибочным
результатам. Сформулированная в этом примере задача сортировки
довольно просто решается по формуле Байеса, если только известно апри-
567
орное распределение математических ожиданий а\. До сих пор остается
открытым вопрос о вюзможности решения этой задачи с помощью теории
доверительных интервалов (по Нейману): неизвестно, существует ли
такая процедура сортировки, которая (независимо от априорного
распределения а\) гарантировала бы потребителю с достаточно малым риском
ошибки получение не менее 95% ящиков, удовлетворяющих его
требованию \а\ — а\ < 2.
В этой связи следует еще раз подчеркнуть, что в статье [28]
демонстрируется не дефектность метода доверительных интервалов, а лишь
абсурдность неправильного толкования доверительной вероятности. Можно
легко убедиться, что в данном примере разумное истолкование и
применение этого метода не приводит к абсурду, а лишь свидетельствует, что
в случае введенной в этом примере процедуры сортировки упомянутая
выше задача без априорной информации о распределении at неразрешима.
Действительно, если покупатель намеревается отобрать несколько
ящиков, для которых | x^i—a | < h (h > 0 и а —заданные постоянные,
определяющие процедуру сортировки, указанную автором), то функции
распределения ценностей х^г отобранных объектов будут выражаться
формулами
Р {xui<x} = F(x, di) =C(flf) } е2 du,
a-h
где
1 ath . ? (u-aj
—— = \ e 2 du и a—h<x<a+h
C(ai) a-h
(эти функции задают условное распределение xi, * при условии
\xt,i — а | < К). Рассмотрим случайные величиныF(xui; а{). Легко видеть,
что еоли й{ изменяется от — оо до + оо? то Р(х^г; а{) монотонно убывает
от единицы до нуля. Таким образом, разность 1 — F(xu 2-; я*) как функция
от di представляет собой функцию распределения *.
Пусть А г и .В; — случайные величины, определяющиеся как решения
уравнений
F{xu <; Аг) = 0,975 и F(xi} f; B{) = 0,025.
Нетрудно убедиться, что при любых фиксированных а\ вероятности
событий {4г->а,-} и {Bi <aii} равны 0,025. Таким образом,
V{A{ <сц< В{ | а{) = 0,95
при любых di. Значит, при любом априорном распределении аг-
Т>{А{<(ц<В{\а1} = 0,9Ь.
Иными словами, (А{, Bi) — доверительный интервал для а{ с (априорной)
доверительной вероятностью 0,95. Длина этого интервала непостоянна и
* По Фишеру это распределение следует назвать «фидьюшиальным».
568
существенно зависит от xit i (если х^ i стремится к а — h или к а + й, то
В г — А\ -— оо). Поэтому при любам h > О нельзя сделать никаких
заключений о справедливости или ложности неравенств I а\ — а I < 2 для
отобранных ящиков.
ЦИТИРОВАННАЯ ЛИТЕРАТУРА
1. Fisher R. A. The fiducial argument in statistical inference. «Annals of
Eugenics», 5 (1935), 391-398.
2. Нейман Ю. Статистическая оценка как проблема классической теории
вероятностей. ,«Успехи матем. наук», 10 (1944), 207—229.
3. Neyman J. Fiducial argument and the theory of confidence intervals. «Biometrika»,
32, 2 (1941), 128—150.
4. Колмогоров А. Н., Сарманов О. В. О работах С. Н. Бернштейна по теории
вероятностей. «Теория вероят. и ее примен.», 5, № 2 (1960), 215—221.
5. Колмогоров А. Н. Определение центра рассеивания и меры точности по
ограниченному числу наблюдений. «Изв. АН СССР», сер. матем., 6 (1942), 3—32.
G. Neyman J. Silver jubilee of my dispute with Fisher. «J. Operat. Res. Soc. Japan»,
3, № 4 (1961), 145-154;.
29. ОБ ОДНОМ СВОЙСТВЕ,
ХАРАКТЕРИЗУЮЩЕМ ЗАКОН ГАУССА*
29. 1. Данная работа является первой, где рассматривается задача
характеризации законов распределения с помощью независимых
статистик.
Исследование автора развивалось далее Б. В. Гнеденко [*] и В. П. Ски-
товргчем и Г. Дармуа, получившими в 4953 г. почти одновременно в
известном смысле законченный результат в этом направлении:. Приведем его
в форме, приданной ему В. П. Скитоовичем [2].
Пусть -X"i, ..., Хп — независимые случайные величины;
Li = cliXi + ... + апХп, L2 = biXi + ... + bnXn
— стохастически независимые линейные формы от них, с постоянными
коэффициентами а*, Ь{. Для тех значений i, для которых a$i Ф 0,
величины Х{ будут нормальными.
Далее теория независимых статистик развивалась Г. Джейри и Э. Лу-
кач (США), Р. Лага и Д. Базу (Индия), Ю. В. Линником и А. А.
Зингером (СССР). Наиболее далеко идущие результаты получены А. А.
Зингером [3].
ЦИТИРОВАННАЯ ЛИТЕРАТУРА
1. Гнеденко Б. В. Об одной теореме С. Н. Бернштейна. «Изв. АН СССР», сер.
матем., 12, № 1 (1948), 97-100.
2. С к II т о в и ч В. П. Об одном свойстве нормального распределения. «Докл. АН», 89,
№ 2 (1953), 217—219.
3. Зингер А. А. Независимость квазиполиномиальных статистики аналитические
свойства распределений. «Теория вероят. и ее примен.», 3, № 3 (1958), 2G5—284.
* Этот комментарий записан по моей просьбе Ю. В. Линником.
569
30. ВОЗВРАТ К ВОПРОСУ О ТОЧНОСТИ
ПРЕДЕЛЬНОЙ ФОРМУЛЫ ЛАПЛАСА*
30. 1. Многочисленные примеры, просчитанные со времен Лапласа,
показывали высокую точность его формулы (см., например, А. А.
Марков [*], [2], или J. Uspensky [3]. Однако общие оценки точности формулы
Лапласа отсутствовали до работы [5]. Уместно отметить, что самая задача
об оценке точности формулы Лапласа может быть поставлена двояким
образам. При одной постановке отыскивается абсолютная погрешность
формулы Лапласа. Например, в [3] (стр. 129) для вероятности Рт>«> можно
найти формулу
рГП)00 = _к Г е 2dM_«Z=(i_g2)e 2+cd, (♦)
У2л * Qinpq
где £ определяется равенством пр + 1/2 + £ У npq = т и при npq > 25
, ^, ОДЗ + 0Д8 1Р — g 1 , ^npq , ч
со < i 1+е 2 . (••)
1 npq
Однако в часто встречающихся практических случаях, где npq
сравнительно невелико, a g имеет порядок нескольких единиц, и Рт, » и ее
приближение оказываются заметно меньшими правой части (**) и потому об
относительной точности приближения Лапласа мы не получаем никаких
сведений. Получаемые из (*) оценки сверху для ■* т ,оо оказываются при
этом худшими, чем те, что вытекают из неравенств Бернштейна
(уточненных неравенств Чебышева, см. (5]). Теорема настоящей статьи отвечает
второй постановке —- она позволяет оценить относительную погрешность
формулы Лапласа при малых npq.
Существенно отметить, что формула Лапласа в теореме автора
выступает в преобразованном виде. Эвристические соображения о выборе этого
преобразования приведены в п. 3 работы [5]. Дополнительный свет на это
преобразование (может пролить теория «вероятностей больших уклонений»,
в том: авиде;, как она развита в работах Г. Крамера [4], В. Феллера [5],
В. В. Петрова И и др.
В случае одинаково распределенных независимых величин
с нулевыми математическими ожиданиями и дисперсией а2 эта теория
устанавливает следующее: положим
P{zi +X2 + ...xn>koin} = 1 -Fn(k)
1 с -*
* Этот* комментарий ншшеаи по моей шросъбе Ю. В. Про^хоровым.
570
тогда при п —►• оо. к ^ 1, /с = о(п) (к может меняться вместе с п\)
1-Ф(Л) Угг
г<9е л (s) — степенной ряд, сходящийся при достаточно малых \s\. При
этом
1 Тз v4a2 — 3v3
6 a3 24a6
а Y2, Уз,- • • — семиинварианты величин хп:
Y2 = SR х\ = а2,
Ys =3Ra:r»,
уь = ®lXn — За4,
Если ограничить рост к вместе с п условием
й = 0(л'/«),
то из (***) получаем
i — F (к) —hi
Лоследнее равенство показывает, что относительная ошибка формулы
Лапласа — Ляпунова в ее первоначальном виде стремится к нулю только
при к = о(га,/в). Однако, если определить а = а (к) преобразованием
к = а -\ —а2,
6а3Уп
то при к = 0(п1!«)
Y3
(1-Ф(А)) с***»* = (1-Ф(а)(1 + 0(п-Ч*)),
и, таким образом, поправленная формула Лапласа — Ляпунова дает
относительную ошибку порядка гс~,/з для значений к = 0(/г1/с). Эти рассуждения
показывают общую полезность и границы применения указанного приема.
Разумеется, для практических применений приведенные предельные
соотношения должны быть дополнены оценками (некоторые шаги в этом
направлении сделаны в работе В. Феллера [5]).
Заметим, наконец, что вслед за автором В. Феллер [6], изменив план
доказательства, несколько сблизил границы для Pm m и уменьшил
допустимые значения npq до 9.
30. 2. а) стр. 396. Приводимая формулировка незначительно
отличается от формулировки в [5].
б) Стр. 397. К формуле (4). В дальнейшем под z понимается корень
уравнения
z2(q — р)
т = пр + z -\2npq Н — , т> пр,
5.71
определяемый формулой
— fZnpq+У 2npq + 4(m — np)~-?
О
z = —-—.
A 3
Это — единственный положительный корень при q> р и меньший
положительный корень при q < р. Как функция т z = z(m) возрастает.
в) Стр. 401, строка 1 св. Левая часть условия
I е
< z <; i2npq
y2npq
вытекает из предположений т — пр ^ 3/г, npq ^ 62,5.
г) Стр. 401. В неравенстве на строках 4—40 св. переход от 5 строки к 6
весьма трудно понимаем. Несколько изменив доказательство, можно его
упростить, охватив одновременно случаи д>рид<р.
Полагая б = q—р, t = zj^lnpq (так что переменные б и t изменяются
заведомо в пределах— 1<^6<^1, 1/(2гард)<^<; 1), находим
<4 K±tt JLL^.
8npq ^ 4 8npq ^ 4
Заметим, что знаменатель в правой части неравенства на строке 4 не
превосходит 1 + Ы. В соответствии с этим
' 2 ^ ' л "
G> '
1 + 6*
Рассматривая правую часть этого неравенства как функцию переменной б
(при неизменном £, 0 <^£ <1), мы легко устанавливаем, например,
прямым дифференцированием, что эта функция убывающая. Поэтому
2 \ -J—Lt-ijL*
1 + "о * Г*1* 4
О =Mt).
1 + t w
Как функция t{t >0) правая часть последнего неравенства есть функция
вогнутая и своего минимума на какомчлибо интервале достигает,
следовательно, на его концах. При t = 0 A(t) = 1 при t = Vs A(t) > 1.
Неравенство (16) доказано.
д) Стр. 402, строка 3 сн. Знаменатель в формуле (19) не растет, вообще
говоря (например, при q = р или q, очень близких к р). Поэтому
доказательство п. 1 должно быть изменено. Именно, заметим, что в силу связи
между z ж z0 подкоренное выражение в знаменателе правой части (19)
равно
[i+*(«+»+-^][i-*(«+V»)-y
572
Поэтому для доказательства (19) достаточно доказать неравенство
/■"
б \ ,. с , Л , в \2 h 1 <о
1+ .§-«. у/ l+26fe(lH-3A,J-(l-6')fg(l+3-f»j -j-3ST
1 +уб^о
Но. здесь подкоренное выражение больше, чем
Поэтому достаточно проверить неравенство
Вторая производная логарифма левой части отрицательна. Отсюда
легко вывести, что ее минимальное значение, соответствующее 6 = 0,
превосходит единицу, ч. тр. д.
е) Стр. 404. "Утверждение на строке 8 св. <<Полагая сначала
х !> 9 , мы уменьшим корень...», как можно видеть, неверно.
Соответственно, доказательство п. 2, начиная с этого места и до строки
4 сн. должно быть изменено.
Обозначим буквою г|) = г|э (£, х) выражение
^-Mliifa)+(i-^+t),i-tt'-
Так как при всех рассматриваемых tux
V
1 -2tx(l --^-)-(l -*2)t4l -|^)2>1 -tx-Ы2,
то для доказательства (20) достаточно доказать неравенство
/ 15 N 4-^2 + (1~:с2)(1-Т^2
i<^-{1—m^ + t) 2(i-te)-a» • (20а)
Считая ж > УЗ/2, заменим неравенство (20а) более сильными
1 3 1
Ki|j о^2 яри 7 <*<
3 4npq npq
3 1
1 < ib Tt2 при £ > .
4 ярд
Каждое из этих двух неравенств доказывается по тому же плану, что и в
тексте.
ж) Стр. 405. При npq = 62,5 выражение на строке 10 св. больше
единицы, а выражение на строке И меньше единицы, так что строка И
излишняя.
573
ЦИТИРОВАННАЯ ЛИТЕРАТУРА
1. Марков А. А. Исчисление вероятностей. М., 1924.
2. Марков А. А. О задаче Якова Бернулли. «Изв. Акад. наук», 8, № 3 (1914), 237—
246. Перепечатано в книге: А. А. Марков. Избранные труды. Изд-во АН СССР,
1951, 509-521.
3. Uspensky J. Introduction to Mathematical Probability. N. Y., 1937.
4. Крамер Г. Об одной новой предельной теореме теории вероятностей. «Успехи
матем. наук», 10 (1944), 166—178.
5. F е 11 е г W. Generalization of a probability limit theorem of Cramer. «Trans. Amer.
Math. Soc», 54, № 2 (1943), 361-372.
6. Feller W. On the normal approximation to the binomial distribution. «Ann. Math.
Stat», 16, № 4 (1945), 319-329.
7. Петров В. В. Обобщение предельной теоремы Крамера. «Успехи матем. наук»,
9, № 4 (1954), 195-202.
34. КЛАССИФИКАЦИЯ ЦЕПЕЙ МАРКОВА И ИХ МАТРИЦ *
34. 1. После выхода в свет в 1946 году курса «Т. В.», в котором
добавление V посвящено '«Классификации цепей Маркова и их матриц»,
появилось большое количество работ, посвященных неоднородным цепям
Маркова.
В большей части этих работ исследуется асимптотическое поведение
функций распределения сумм сшгучайных величин, заданных на
неоднородной цепи Маркова. При этом на цепь налагаются различные условия,
которые обеспечивают выполнение эргодического принципа. Эти условия
являются в большинстве случаев обобщением известного условия Маркова.
Приведем некоторые из этих работ.
В работе Ю. В. Линннка и Н. А. Сапошва [*] доказываются
интегральная и локальная предельные теоремы для конечных цепей Маркова в
предположениях, широко известных и состоящих в том, что
для всех т, п, г, /с, где Pik — вероятность перехода из /то состояния в А-е
состояние на 5-м шаге.
Р. Л. Добрушин [2] рассмотрел случай цепи с произвольным
множеством возможных состояний, которая задается последовательностью
переходных функций Ph (х, E).
При этом Pk(x, Е) определены для х 6 Xk и Е 6 &xk+v где Хк —
абстрактное пространство, &х k — сигма-алгебра на этом пространстве.
Для Pk (х, E) вводится коэффициент эргодичности
ak= suv\P(x,E)-P(y,E)\.
х, у ехк
вер
Далее в работе доказываются различные варианты центральной
предельной теоремы при условии, что w,/s Д ан —► оо.
ь=1
* Этот комментарий написан по моей просьбе Т. А. Сарымсаковым.
574
Из работ, посвященных собственно эргодическому принципу, следует
отметить работу Т. А. Сарымсакова и X. А. Мустафина [3].
В этой работе рассматривается класс матриц QW порядка $, который
определяется следующим образом. Пусть Q& — совокупность всех
стохастических матриц порядка s, a Q& — совокупность всех примитивных
стохастических матриц (относительно определения примитивной матрицы
см. [4], стр. 38)
Qz — это совокупность матриц Р 6 QiS таких, что произведение матри-
(s) (s)
цы Р на любую матрицу, принадлежащую Qi , снова принадлежат (?i .
В работе доказываются эргодические теоремы для цепей, матрицы
переходных вероятностей которых принадлежат классу Qi . Приведем одну из
этих теорем. Пусть рц (к)—наименьший из положительных элементов
матрицы Pk = Wpij(k) Hi.
Теорема. Если все Pk 6 Q2 и min р^ (к) ^ X > 0 равномерно относи-
тельно к, то цепь Маркова, управляемая последовательностью
стохастических матриц [Pk\, подчиняется эргодическому принципу.
ЛИТЕРАТУРА
1. Лин ник Ю. В., Cairo го в Н. А. Многомерный интегральный и локальный закон
для неоднородных цепей Маркова. «Изв. АН СССР»^ сер. матем., 13, № б (1949),
533—566.
2. Добр у шин Р. Л. Центральная предельная теорема для неоднородных цепей
Маркова, I, II. «Теория вероят. и ее примен.», 1, № 1, 4 (1956), 12—89, 365—425.
3. Сарымсаков Т. А., Мустафин X. А. К эргодической теореме для
неоднородных цепей Маркова. Ташкент, «Тр. Среднеазиатского гос. университета»,
вып. 74, физ.-матем. науки, кн. 15 (1957), 1—38.
4. Сарымсаков Т. А. Основы теории процессов Маркова. М., 1954.
ОГЛАВЛЕНИЕ
От автора 3
От редакции ]
1. О приближенном вычислении вероятностей при помощи формулы Лапласа 5
2. Опыт аксиоматического обоснования теории вероятностей 10
Глава I. Конечные совокупности предложений И
Глава II. Вероятности предложений конечных совокупностей 23
Глава III. Бесконечные совокупности предложений 33
3. О законе больших чисел 61
4. О предельной теореме теории вероятностей 66
5. Об одном видоизменении неравенства Чебышева и о погрешности формулы
Лапласа 71
6. Решение одной математической проблемы, связанной с теорией
наследственности 80
7. О кривых распределения вероятностей 108
8. Распространение предельной теоремы теории вероятностей на суммы
зависимых величин 121
9. О суммах зависимых величин 177
10. О суммах зависимых величин (добавление к работе 9) 192
11. Геометрические основы теории корреляции 197
12. Современное состояние теории вероятностей и ее приложений (Доклад,
читанный на Всероссийском съезде математиков в Москве в 1927 г.) . . . 217
13. Об одном элементарном свойстве коэффициента корреляции 233
14. О зависимостях между случайными величинами (Перевод доклада на
Международном конгрессе математиков в Цюрихе в 1932 г.) 235
15. О дифференциальном уравнении Фоккера — Планка 256
16. Доказательство теоремы Ляпунова ж обоснование формулы нормальной
корреляции методом дифференциальных уравнений 259
17. О линейных квази-непрерывных цепях Маркова 276
18. О диффузии с поглощением 286
19. Принципы теории стохастических дифференциальных уравнения .... 291
20. О математическом ожидании простоя рабочих единиц при сложном
производственном процессе 316
21. Определение нижней границы дисперсии сумм величин, связанных в
сингулярную цепь Маркова 322
22. О некоторых видоизменениях неравенства Чебышева 331
23. Стохастические дифференциальные уравнения 334
24. Несколько замечаний по поводу предельной теоремы Ляпунова 358
25. Новые приложения почти независимых величин 364
26. Задача об урне с добавляемыми шарами 377
27. О суммах зависимых величин, имеющих взаимно почти нулевую регрессию 380
28. О «доверительных» вероятностях Фишера 386
29. Об одном свойстве, характеризующем закон Гаусса 394
30. Возврат к вопросу о точности предельной формулы Лапласа 396
31. О работах П. Л. Чебышева по теории вероятностей 409
32. О предельной теореме теории вероятностей 434
33. Теорема, обратная теореме Лапласа, и ее обобщения 448
34. Классификация цепей Маркова и их матриц 455
35. Стохастические уравнения в конечных разностях и стохастические
дифференциальные уравнения 484
Комментарии
1. О приближенном вычислении вероятностей при помощи формулы Лапласа (543).
5. Об одном видоизменении неравенства Чебышева и о погрей шести формулы
Лапласа (543). 7. О кривых распределениях вероятностей (544). 8. Распространение
предельной теоремы теории вероятностей на суммы зависимых величин (547). 9. О
суммах зависимых величин (548). 10. О суммах зависимых величин (добавление к
работе 9) (548). И. Геометрические основы теории корреляции (549). 14. О зависимостях
между случайными величинами (551). 1С. Доказательство теоремы Ляпунова и
обоснование формулы нормальной корреляции методом дифференциальных уравнений
(555). 19. Принципы стохастических дифференциальных уравнений (556). 20. О
математическом ожидании простоя рабочих единиц при сложном производственном
процессе (556). 21. Определение нижней границы дисперсии сумм величин,
связанных в сингулярную цепь Маркова (557). 22. О некоторых видоизменениях
неравенства Чебышева (558). 23. Стохастические дифференциальные уравнения (5G0). 27.
О суммах зависимых величин, имеющих взаимно почти нулевую регрессию (565).
28. С) «доверительных» вероятностях Фишера (566). 29, Об одном свойстве,
характеризующем закон Гаусса (569). 30. Возврат к вопросу о точности предельной
формулы Ламласа (570). 34 Классификация цепей Маркова и их матриц (5(74).
Сергей Натанович Бернштейн
Собрание сочинений
Том IV
Теория вероятностей и математическая статистика (1911—1946)
Редактор издательства Д. М. Чибисов
Технический редактор В. В. Волкова
Корректор В. И. Шафран
Сдано в набор 4/VII 1963 г. Подписано к печати 12/Ш 1964 г.
Формат 70хЮ87ц. Печ. л. 36,25. Усл. печ. л. 49,66. Уч.-изд. л. 35,1.
Тираж 2700 экз. Изд. Jfl 1917. Тип. зак. М 2460. Темплан 446—1964 г.
Цена 2 р. 66 к.
Весь набор изготовлен на наборных строкоотливных машинах
Издательство «Наука», Москва, К-62, Подсосенский пер., 21
2-я типография издательства «Наука», Москва, Г-99, Шубинский пер., 10
ИСПРАВЛЕНИЯ И ОПЕЧАТКИ
Страница
8
16
45
47
67
144
194
237
287
305
325
333
337
429
489 \
494
505
545
548
549
551
563
570
571
574
577 J
Строка
3 он.
16 сн.
6 СИ.
3 ев,
8 св.
10 сн.
4 св.
15 сн.
3 св.
5 сн.
5 сн.
4 сн.
13 св.
18 св.
5 сн.
6 св.
4 сн.
9 сн.
10 св.
3 св.
9 сн.
13 св.
2 сн.
2 св.
2 сн.
9 сн. 1
Напечатано
резервуар
т
предел
= гк
п
S3i
1
VK
V/L
яп
I
0
приведенного
П/>(у.0Л
0 0
h HMh
и погрешности
1
2,5
и доказательства
Vb(t) )
I/O
у' — у'
* п л п
-а
&>&.
определяемой
уТ т Ъп = 0)
I
—оо
к* к
eVn Vn
П
А«1
принципы стохастических
Должно быть
результат
(3)
пределом
+«=*
п
1
«»
<ь
в.
1
i
о
указанного
t t
$$Pto,t)dtdt
0 0
h>lkhMh
и о погрешности
Г
s»s
из доказательства
,у — в (<) — Уо \
»?
^п-У«
с
»-"
fc<*i
определяемое
yji:(«5»=-o)
к
s
—оо
-£-х(-*-\
п
п
*=1
принципы теории стохастических
С. Н. Бернштейн