Титульный лист
Глава 1. Цепи Маркова с дискретным временем
Глава 2. Цепи Маркова с непрерывным временем
Глава 3. Статистика цепей Маркова с дискретным временем
Приложение I. Андрей Андреевич Марков и его время
Приложение II. Пирсон, Максвелл и другие знаменитые Кембриджские лауреаты: уроки, которые следует усвоить
Список литературы
Текст
                    М. Я. Кельберт, Ю. М. Сухов
ВЕРОЯТНОСТЬ И СТАТИСТИКА
В ПРИМЕРАХ И ЗАДАЧАХ
Том 2
Марковские цепи как отправная точка
теории случайных процессов и их
приложения


Глава 1 Цепи Маркова с дискретным временем § 1.1. Марковское свойство и немедленные следствия из него Нельзя выучить математику, только слушая лекции, точно так же как нельзя выучиться игре на пианино, только слушая пианиста. К. Рунге (1856-1927), немецкий математик-прикладник Теория марковских цепей — логическое продолжение основного курса теории вероятностей. Мы изучим класс случайных процессов, который описывает огромное множество систем, представляющих как теоретический, так и прикладной интерес (а иногда просто занимательных). Тот факт, что достаточно глубокое погружение в предмет возможно без привлечения сложного математического аппарата, также объясняет, почему цепи Маркова популярны в самых различных дисциплинах, кажущихся достаточно далекими от чистой математики. Базовой моделью первой части курса будет система, которая изменяет свое состояние в дискретные моменты времени, согласуясь с неким случайным механизмом. Множество всех состояний называется пространством состояний и на протяжении всего курса будет предполагаться конечным или счетным; обозначим его /. Каждый элемент / е / называется состоянием; наша система всегда будет находиться в одном из состояний. Иногда будет известно, в каком состоянии находится система, а иногда будет лишь известно, что система находится в состоянии / с некоторой вероятностью. Поэтому имеет смысл ввести вероятностную меру, или вероятностное распределение (или, для краткости, просто распределение), на /. Вероятностная мера X на / — это просто совокупность (X,-, i е /) неотрицательных чисел, сумма которых равна единице: Х,-^0, £>, = 1. (1.1.1) «б/
Плава 1. Цепи Маркова с дискретным временем Мы можем рассматривать (1.1.1) как распределение единичной «массы» по множеству /, причем точка / имеет массу X,-. По этой причине иногда удобно говорить о вероятностной функции массы i£/n X,-. Тогда вероятность множества УС/ равна Х(У) = ^ X/. /е/ Если X,- = 1 для некоторого / е / и X/ = 0 при / ф i, то распределение «сосредоточено» в точке /. Тогда состояние нашей системы становится «детерминированным». Такое распределение обозначим 5,. Иногда условие Х]Х,- = 1 не выполняется; тогда просто говорят, что /б/ X — мера на /. Если общая масса ^Х,- < оо, то мера называется конеч- 16/ ной и может быть преобразована в вероятностное распределение путем нормировки: Х, = Х,/^Ху будет вероятностной мерой на /, поскольку ^Х,- = Х^</Х)^7 = 1- Но Даж^ если ^Х,- = оо (т.е. если общая масса /б/ /б/ ' /6/ /б/ бесконечна), можно приписать конечные значения Х(У) = ^ X, конечным подмножествам У С /. ,6У Случайный механизм, вызывающий изменение состояния, описывается матрицей перехода Р с элементами рц, /, / е /. Элемент рц равен вероятности, с которой система перейдет из состояния / в состояние / за единицу времени. Таким образом, рц — это условная вероятность того, что система будет находиться в состоянии / в следующий момент, при условии, что в данный момент она находится в состоянии /. Значит, все элементы Р неотрицательны, но не превышают 1, и сумма элементов в любой строке равна 1: O^pa^W/iJel и J2Pi' = l V'eA (LL2) /6/ Матрица Р, обладающая такими свойствами, называется стохастической. По аналогии, вероятностное распределение (X,) на / часто называют стохастическим вектором. Тогда стохастическая матрица — это матрица, в которой каждая строка является стохастическим вектором. Пример 1.1.1. Простейший случай имеет вид 2x2 (пространство из двух состояний). Не ограничивая общности, можно считать, что состояниями являются 0 и 1; тогда элементы матрицы имеют вид рц, /, / = 0, 1, а стохастическую матрицу можно представить в виде /1-а а \ I p 1-р;- где 0 < а, р < 1. В частности, при а = |3 = 0 получаем единичную матрицу,
§1.1. Марковское свойство и немедленные следствия из него а при ос = В = 1 — антидиагональную матрицу: (о l)' (l о]' Система с единичной матрицей остается в начальном состоянии навсегда; в антидиагональном случае она меняет состояние в каждый момент времени, переходя из 0 в 1 и обратно. С другой стороны, при ос = В = 1/2 мы получаем матрицу /1/2 1/2\ U/2 \/2У 1/2 \/2) В этом случае система может либо остаться в том же состоянии, либо поменять его с вероятностью 1/2. □ Удобно представить матрицу перехода в виде диаграммы, на которой стрелками показаны возможные переходы, помеченные соответствующими О о о о 1/2^ J1/2 1 1 Рис. 1.1 вероятностями перехода («замкнутые» стрелки, ведущие обратно к своему началу, часто не рисуют, равно как и не обозначают детерминированные переходы). См. рис. 1.1. «La Dolce Beta» ' (Из серии «Фильмы, которые не вышли на большой экран».) Пример 1.1.2. Матрица 4x4 О 1/3 1/3 1/3N 1/4 1/4 1/4 1/4 1/2 1/2 О О 0 0 0 1 представлена на рис. 1.2. Состояния занумеруем числами 1, 2, 3, 4. □ Время принимает значения п = 0, 1,2, ... Чтобы дополнить общую картину, нужно указать, в каком состоянии наша система находится в начальный момент п = 0. Как правило, мы будем предполагать, что система Ср. с названием фильма Ф. Феллини «La Dolce Vita» («Сладкая жизнь»).
Плава 1. Цепи Маркова с дискретным временем •4 »3 Рис. 1.2 в момент л = 0 находится в состоянии i с вероятностью X,-, где X — заданное «начальное» распределение на /. Обозначим через Хп состояние нашей системы в момент п. Правила, задающие марковскую цепь с начальным распределением X и матрицей перехода Р, таковы: а) Хо имеет распределение X: P(X0 = i) = h, Vie/; б) более общим образом, Vn и i'o, • •., in £ 1 вероятность P(Xq = to, -^l = = /i, ..., Хп = /„) того, что система находится в состояниях /о, /|, ..., /п в моменты времени 0, 1, ..., п записывается как произведение P(Xo = k, X\ =i\, ..., Хп = in) = \iBpioil ...pin_xin. (1.1.3) Конечно, а) — частный случай б) при п = 0. Важным следствием соотношения (1.1.3) являются равенства для условной вероятности Р(Хп+\ = j\Xq = io, ..., Хп-\ = t„_i, Xn = i) того, что состояние в момент п + 1 есть /', при условии, что заданы состояния /о,-.., г'п-i и in = I в моменты времени 0, ..., п — 1, п: Р(^л+1 = / | ^0 = '0. • • •. Х-п-1 = 'л-1. ^vi = 0 = _ Р(^о = /р, .... Хп-\ = i„-\, Хп = i, Хп+\ =/') _ Р(^о = 'о, • ■ •, X„-i = гя — i, Хп = i) =-л = /?i/'- (I-1-4) A|0Pi0i| • • -Pi„-\i Таким образом, при условии, что Хо = io, ..., Хп-\ = i„_i иХ„ = /, Хп+\ имеет распределение (р;у, / е /). В частности, условное распределение ^л+| не зависит от io, ..., i„_iJ. е. зависит только от состояния i в последний предшествующий момент п.
§1.1. Марковское свойство и немедленные следствия из него Формула (1.1.4) иллюстрирует свойство «ограниченной памяти» цепи Маркова. Другое следствие (1.1.3) — это элегантная формула, содержащая произведение матриц, для маргинального вероятностного распределения Х„. Сейчас мы задаемся вопросом: какова вероятность Р^п =/) того, что в момент п наша система находится в состоянии /'. Например, для п = 1 можно записать: /6/ где / — все возможные начальные состояния. В самом деле, события {состояние i в момент 0, состояние / в момент 1} не пересекаются для различных / G / и их объединение равно событию {состояние/ в момент 1}. Теперь используем формулу (1.1.3) и напомним правила алгебры матриц: J2 Р(*о = i, *i = /') = £ ЪРч = №i- |'£/ 16/ Путем прямых вычислений эту формулу можно распространить на общие значения п: P(X„=j)= ^2 P{Xo = io, ■■■,X„-i=i„-i,X„=j) = = £ KPi0il...Pi„.j = ^Pn)h (1-1-5) 'О 'л-I где Рп — л-я степень матрицы Р. Таким образом, стохастический вектор, описывающий распределение величины Хп, можно получить, применив матрицу Рп к начальному стохастическому вектору X. Затем аналогично предыдущему P(Xn = i, Хп+\ = /') = 2J Р(-^о = 'о, •••, Хп-\ =i„-\, Xn = /, Х„+\ =/') = <0 ('л-1 = Y^ ^м ■ • • Р'1«-'iPi'= О^Ърц' 10.-.1/1-1 откуда следует, что P(Xn+i -i\Xn-i)- р^-— -^--Pli. (1.1.6) Иными словами, элемент рц равен условной вероятности того, что в следующий момент состояние будет /, если в данный момент оно есть i.
Глава 1. Цепи Маркова с дискретным временем Более того, P(X0 = i,X„=j)= £ P(Xo = i,Xl=il,...,X„-i=in-l,Xn=j) = = £ х^,...^_,у = х,.(я"),7 !| i/1-l И Р(Хп =j\Xo = i) = Р{Хр^=П1)= П = ^P = {РЛ)1г (MJ) Значит, элемент (Я"),/ матрицы Р" дает вероятность перехода за п шагов из состояния i в состояние /. Иногда мы будем обозначать эту вероятность р}". В общем случае P(Xk = i,X„+k=j) = QJ*)t(Pn),i и P(Xk+n-j\Xk-i) - ptf^ (ХР*). - (р )'/• (1-1-8) Как следствие, любая степень Р" стохастической матрицы вновь стохастическая матрица, т. е. ^ р\" =1 V/ G /. Конечно, этот факт можно /6' проверить с помощью непосредственных вычислений: J2Р? = £ Ри' ■ ■ ■ Pi°-ii = ЛРъ ■ ■ ■ £*"-"' = 1' /6/ 'I ('п-Ь/ 'I / поскольку на каждом шаге (начиная с £]) сумма равна единице в силу соотношений (1.1.2). ' Другое следствие состоит в том, что применяя к стохастическому вектору стохастическую матрицу (Р или в общем случае Я"), мы вновь получим стохастический вектор. Этот факт также подтверждается прямыми вычислениями с использованием (1.1.1): £<xn - £ МП, = £ h £(я% = £ х,- = 1. Окончательно обобщает соотношение (1.1.3) формула P(Xk, = i[, Xki = '2. • • •. Xkii = in) = = (XP*-),, (Я*»-*'),1/2 - -. (P*--*—)/„_,*., (1.1.9) верная для всех моментов 0 < k\ < k^ < ... < kn и состояний i\, ..., in£l-
§1.1. Марковское свойство и немедленные следствия из него Наступило время подвести итоги наших изысканий. Предположим, что X = (Xj) — стохастический вектор и Р = {рц) — матрица перехода на /. Случайное состояние Хп в момент п рассматривается как случайная величина со значениями /. Определение 1.1.3. Говорят, что последовательность случайных величин Х„ со значениями в конечном или счетном множестве / образует цепь Маркова с дискретным временем (ц.м.д.в.), или, коротко, цепь Маркова, с начальным распределением X и матрицей перехода Р, если Vio, • • •, in 6 / совместное распределение Р(Ло = fa, ..., Хп = /„) задается формулой (1.1.3). В этом случае мы говорим, что (Хп) — цепь Маркова с параметрами (X, Р), или (X, Р) — цепь Маркова. Теорема 1.1.4. Если (Хп) — цепь Маркова с параметрами (X, Я), то а) Условная вероятность Р(Хп+\ =/' I ^0 = '0. • • • ■ %п-\ = 'л-Ь Хп = 0 равна условной вероятности Р(Агп+| =j\Xn = i) и совпадает с рц. Эквивалентно, условное распределение Хп+\ при условии Хо = = fa %п-\ = in—it ^n — i не зависит от /о. • • ■, in-i " совпадает с (pij, j e /), т. е. с i-й строкой матрицы Р. б) Вероятность Р(Хп = i) того, что состояние в момент п есть i, равна (ХЯЛ);. в) Элемент р\"' матрицы Р" совпадает с условной вероятностью Р(Хь+п =j\Xk = 0i т-е- задает вероятность перехода из I в j за п шагов. г) Вероятность общего вида P(^ft, = »ii Хь2 = fa, ■ ■■, %k„ = in) задается формулой (1.1.9). Dial M for Markov2 (Из серии «Фильмы, которые не вышли на большой экран».) Пример 1.1.5. Предположим, что все строки матрицы Р одинаковы, т. е. р^ = р/ не зависит от i. Предположим также, что X; = ps, т. е. X совпадает с любой строкой матрицы Р. Тогда в силу соотношения (1.1.3) получаем Р(^о = fa, Xi=ii, ..., Хп = in) = piaph ... pin. 2Cp. с названием фильма «Dial M for Murder»
Глава 1. Цепи Маркова с дискретным временем Кроме того, в этом примере Р" = Р, так как /,,.. .,<„_| (i h i„-\ благодаря тому что ^Pi = 1. Значит, /е/ Р(Х„ =/) = (X/*); = 5><°? = Е^> = ^ 16/ /б/ Таким образом, Р(*о = «о, Xl=il,...,X„ = in) = Р(Х0 = io) P(*i = ii) • • • Р(*« = in). Следовательно, (Хп) — последовательность независимых одинаково распределенных случайных величин (или, коротко, н.о.р.с.в.). □ Пример 1.1.6. Если Р — диагональная матрица, то она должна совпадать с единичной матрицей, у которой строка с номером / задается стохастическим вектором 8,: '1 0 0 ... 0> О 1 0 ... О О 0 1 ... О уО 0 0 ... 1, В этом случае любая степень Рп вновь равна единичной матрице. Значит, в силу соотношения (1.1.4) мы получаем, Р(ХП — i) = Х,-, т. е. распределение случайной величины (св.) Х„ такое же, как и у Л'п. Другими словами, начальное распределение сохраняется во времени. □ Пример 1.1.7. Для ц.м.д.в. с двумя состояниями матрица Р равна ( ]. Элементы Р" можно найти с помощью непосредственного вычисления. Действительно, Р" = РП~1Р, откуда для элемента р^ получаем равенство рЙ,=рЙ",)(1-«) + рЙ-,,Р = =pa-,,(i-a)+(i-pa",))P=p+(i-«-P)p&-,). Это соотношение рекуррентно по п, с начальными значениями р^ = 1 и рдо = 1 - а. Значит, р$=А + В(1-а-рГ, где А + В=1, Л+5(1 — а - Р) = 1 -а,
.1. Марковское свойство и немедленные следствия из него куда с очевидностью следует, что + ТГ«(1-а-Р)Л' еслиос + (3>0, Р . * цемент р^ можно получить, меняя а и |3 местами, а элементы р$ и р^ — к дополнения до 1. □ Пример 1.1.8. В общем случае для вычисления элементов Рп мож- • использовать собственные числа и собственные векторы матрицы Р. 1ссмотрим пример с матрицей 3 х 3: / 0 1 О Р= 0 2/3 1/3 \1/3 0 2/Зу : собственные числа являются решениями характеристического уравне- я: /4x1 0 \ :t 0 2/3 - у. 1/3 \1/3 0 2/3-ц/ .3^4, 4 —Ix» + |lx»-±lx+l = -ax-l)(n«-ili + i)=0. куда получаем И-о = 1, Ц± = 1±/>/3 ^скольку все собственные числа различны, матрицу Р можно диагона- зовать: существует такая обратимая матрица D, что lPD = (\ 0 0 \ \° гда />" = £> 1 — гл/3 , т.е. P = D f\ 0 0 ^ о 1±±^ о /1 О i + iV3Y б о \о о l-i>/3 О"'. 7 1 -/ч/3\л D -I / тюбой элемент матрицы Я" имеет вид суммы А + в('1±^Х + с(1-1^я
Глава 1. Цепи Маркова с дискретным временем -5«W-5(c"5±"tai)- Коэффициенты А, В к С могут быть комплексными; они меняются от элемента к элементу, а найти их можно, подставляя я = 0, 1,2. Если п — 0, то Р° = I — единичная матрица (точно так же, как для скаляров р° = 1 для всех р (включая р = 0)); для п = 1 берем матрицу Р и при п = 2 возводим ее в квадрат, чтобы получить Р2. Например, предположим, что состояния системы — это 1, 2 и 3; в этом случае элементы имеют вид p]J , /,/'= 1,2,3. Тогда для р\2 пишем: p°g=A + B + C=0, pm=A + B±±{£ + C±=g£=l ,8-„+в(1^)Чс(Ц<*)'-§. Вычисления можно упростить, если избавиться от мнимых частей (поскольку элементы р^ матрицы Рп действительны и неотрицательны). С этой целью сперва заметим, что \х± — комплексные сопряженные корни, и запишем 1±<У5 I _1_± <\/3 1 _±ht/3 _ 1 6 3 Затем получаем (i^)--(i)V-*-(i)-(«?±<*„f) и где а = А, р = В + С и у = i(B - С) должны быть действительными. Снова получаем уравнения для п = 0, 1,2; для ру£ они имеют вид а+Р=о. «+!(!е+^)=., a+^+^)=f, откуда следует, что 3 о -3 9/5 В частности, lim pin' = 3/7. П Пример 1.1.9. Рассмотрим другой пример матрицы, соответствующей системе с тремя состояниями: Л/3 0 2/3> Р= 1/3 2/3 0 \1/3 1/3 1/3;
. 1. Марковское свойство и немедленные следствия из него перь характеристическое уравнение имеет вид V + fn2-5H = -(n-i)(n-5)n = o :обственные числа равны цо = 1, ^| = з* ^2 = 0. [ачит, элементы р\"' имеют простой вид pf=A + B^y + C-W. ювь используем три начальные условия, т. е. матрицы Р°, Р и Р2 (как ычно, считаем, что 0° = 1). Например, /?,, ищется из соотношений А + В + С-1, А + 1В=1-, Л + (1)25 = 1, куда получаем А = 1/3, В = 0, С = 2/3 и /?,, = 1/3, п ^ 1. Аналогично ^ = 1/3 - (1/3)" и р{$ = 1/3 + (1/3)". При п -> оо все элементы первой эоки матрицы Р" стремятся к 1/3 (что на самом деле верно для всех вяти элементов матрицы Рп). □ Пример 1.1.10. Сделаем ряд предварительных замечаний. Во-первых, — собственное число любой стохастической матрицы Р. Действительно, сть I — единичная матрица, т. е. элементы матрицы I равны 8,у, /, / € /. гда a) detail — Р) = det(^I - Р)т = det(^l - Рт), т. е. собственные числа трицы Р и транспонированной матрицы Р1 совпадают; и б) 1 — всегда ляется собственным числом матрицы Рт: соответствующий собственный ктор — это строка 1 = (1, ..., 1) из единиц. Формально \РТ = 1, или, 5 эквивалентно, Р1Т — 1т для столбца 1т. Чтобы проверить последнее венство, заметим, что каждый элемент столбца РХ1 равен 1: (Р1т),-=;г>7=1, скольку матрица Р стохастическая. Следовательно, характеристический многочлен стохастической матри- делится на \х — 1; в случае размера 3x3 частное является квадратным гхчленом, значит, все собственные числа можно найти явно. Во-вторых, если \±+ — комплексное собственное число матрицы Р, то пряженное комплексное число у.- — Ц+ также является собственным эчением, поскольку только это дает возможность получить действитель- й характеристический многочлен как произведение линейных одночленов
Глава 1. Цепи Маркова с дискретным временем (имеется в виду произведение ([о, - [!+)(ц - [i_) = [i.2 - ([i+ + U-)^ + Ц+И~ c действительными коэффициентами \j.+ + ^_ и \J.+[i- = \[i±\2). Используя запись Ц± = l^±k±/<f> = |^±|(coscp± /sincp), можно работать только с действительными слагаемыми вида р cos(/zcp) и ysin(rtcp). В-третьих, коэффициент А перед единицей в уравнении для p\J\ как правило, определяет предел Iim р),. Это следует из того, что Ы < 1 для п—юо ' всех собственных чисел [i матрицы Р и, «как правило» (хотя и не всегда), любое собственное число [о,^ 1 по модулю меньше 1, |jx| < I. Это более тонкий факт, к нему мы еще вернемся в последующих параграфах. Поэтому в разложении pf=A + £ В.Ц," собственные числа lAi/1 все члены, кроме А, исчезают при п—>оо. (В случае Р = ( А это неверно: собственные числа равны 1, и —1 и предел Iim /?', не существует, так как п—>оо ' Рп осциллирует между I для четных п к Р для нечетных п.) Необходимо отметить, что многие (даже очень простые) примеры могут привести к достаточно громоздким формулам для /?(• . Например, матрице Л/3 1/3 1/3N Р= 0 1/2 1/2 \1/3 2/3 О соответствует характеристическое уравнение V + ё^2 + fg^ - 9 = -^ _ ') (^ + 6^ ~ э) = ° с собственными числами , —1 ±л/Т7 1Ю=1, Ц± = j2 • Отсюда получаем уравнение где
§1.1. Марковское свойство и немедленные следствия из него Например, окончательное выражение для р)$ имеет вид 19+191уГ7 Л 12 ) \9\у/П )\ 12 ) ' a/{N- 1) Пример 1.1.11. Полезным свойством является наличие симметрии в матрице Р: оно может сократить число состояний исходной цепи Маркова. Например, матрица N х N вида I -a a/(N- 1) ... a/{N- 1)\ Р= |«/(Л/-1) 1-« ■■■ ol/(N-1) \ol/(N- 1) a/(N- 1) ... 1 -а / описывает модель мутации вируса, в которой вирус либо сохраняет свой тип, либо меняет его на любой другой тип с одинаковыми в этом случае вероятностями (типы — это 1, ..., N). Чтобы вычислить р\ | , сведем число состояний к двум (к примеру 1 и 0), рассматривая переходы из состояния 1 в него же или в другое состояние и обратно, без дальнейшей детализации (поскольку для полной постановки задачи все остальные состояния неразличимы). Приведенная цепь с двумя состояниями имеет матрицу перехода 2x2 1 —а а a/(N- 1) 1 -a/(N- l) Теперь можно применить формулы из примера 1.1.7 (с Р = а/(Л/ - 1)): („)_ а/(УУ-1) а. / а у Нп a + a/(N-l) T a + a/.(N-l)\ N-\)
Глава 1. Цепи Маркова с дискретным временем Кроме того, в силу симметрии Теперь пора установить знаменитое марковское свойство для ц.м.д.в. Оно состоит в том, что цепь Маркова стартует заново после любого заданного момента времени п. Теорема 1.1.12. Пусть (Хп) — цепь Маркова с параметрами (X, Р). Тогда, Vm ^ 1 и i€ I при условии, что Хт = i, процесс (Хт+п, п^О) — цепь Маркова с параметрами (8,-, Р). В частности, при условии, что Хт = i, случайные величины Хт+\, Хт+2, ...не зависят от величин Xq, ..., Хт~\. Иными словами, в ц.м.д.в. прошлое (Xq, ..., Хт_\) и будущее (Хт+\, Хт+2, ...) условно независимы при фиксированном настоящем (Хт = i). Доказательство. Напомним, что стохастический вектор 8, состоит из элементов 8,у, / G /. Нужно проверить, что для любого события А, определяемого величинами Xq, ..., Хт-\, и события В, определяемого величинами Хт+\, ..., Хт+\+п, для некоторого п, имеют место следующие утверждения: а) условная вероятность Р(Л П В\Хт = i) представляется в виде произведения Р(Л П В | Хт = /) = Р(Л | Хт = /) Р(В | Хт = i), (1.1.10) и б) условная вероятность Р(В\Хт = i) вычисляется, как в (8,-, Р)-ц.м.д.в.: p(B\xm=i)= y, Pih-Pi.-«,- o-i-ii) (/i Ул)ев Пусть вначале А и В имеют вид А — {Xq = г'о, • • •, Хт_\ = im-\}, В = {Xm+i =j\, ..., Хт+п+\ = /'«} для некоторой последовательности состояний г'о, ..., im-\, /ь • • •. /п£ /■ Произвольные события А и В являются объединениями таких непересекающихся «элементарных» событий. Для событий А к В указанного вида выполняются соотношения Р(ЛПВП {Xm = i}) = = Р(^о = 'о, • • • I Хт-\ = im-[, Хт = /, Хт+\ = /1, ..., Хт+п+\ = /'„) = = koPkii ■ ■ ■ Pi„,-\iPij\ ■ ■ ■ Pj„-ii„ ■ Для произвольного В нужно взять сумму по всем (j\, ...,/„)€ В: *iaPhi\ ■ ■ ■ Pim-\i 2—1 P'i* ' ' ' Pi"-'!"- Oi ы)ев
§1.1. Марковское свойство и немедленные следствия из него Сумма J2 дает УСЛ0ВНУЮ вероятность Р(В | Хт = /), значит, эта веро- (/ /«)ев ятность действительно вычисляется так же, как в (8,-, Р)-ц.м.д.в. Далее, для произвольного события Л просуммируем по (io,...,im-i)sA: Р(Л П В П {Хт = i})= Y, Xi«Pkh • • • Pi.-,/ P{B\Xm = i) = («о im-\)€A = P(An{Xm = i})P(B\Xm = i). Наконец, для вычисления условной вероятности Р(Л C\B\Xm = i) разделим ягР(Хт = 1): Р(АПВ\Хт = 1)=Р(АП/(ХПт^ = » = P(An{Xm=i}) P(Jf» = i) P(B\Xm = i) = P(A\Xm = i) P(B | Xm = i), что и требовалось доказать. □ В дальнейшем будем обозначать через Р,- условные вероятности р(. |^0 = /), взятые при условии, что состояние системы в момент времени 0 есть /. Пример 1.1.13. Три девочки Л, В и С играют в настольный теннис. В каждой игре две девочки играют друг против друга, а третья отдыхает. Победитель любой фиксированной л-й игры снова играет в (п. + 1)-й игре. Вероятность того, что девочка х победит девочку у в любой игре, в которой они играют друг против друга, равна sx/(sx + sy) для х,уе{А,В, С}, хфу, где sa, sb, sq соответствуют игровым навыкам этих трех девочек. а) Представьте этот процесс в виде ц.м.д.в., определив пространство возможных состояний и переходные вероятности. б) Найдите вероятность того, что те же две девочки, которые играли друг против друга в первой игре, будут опять играть друг против друга в четвертой игре. Покажите, что эта вероятность не зависит от того, какие именно две девочки участвовали в первой игре. Решение, а) Промаркируем состояния буквами А, В, С, определяющими, какая из девочек не участвует в заданной игре. Тогда матрица переходных вероятностей для {Л, В, С} х {А, В, С} имеет вид / 0 % SA+SC % \sA+: % Sfl + SC 0 sA+s, 'В sB Sg + Sq A sA SA+SC
Глава 1. Цепи Маркова с дискретным временем Этот процесс является цепью Маркова, потому что результаты последовательных игр независимы. б) Сейчас мы ищем вероятность того, что за три шага цепь вернется в заданное начальное состояние. См. рис. 1.4. я-Г у* с Рис. 1.4 В силу симметрии эта вероятность одинакова для любого начального состояния и равна (3) _ . _ 2sA sBSc n Раа -РавРав Рве Рса + Рас Рев Рва - (sA+sB)(sB + sc)(sc + sA)' U Пример 1.1.14. Рок-концерт, проводящийся в холле с N нумерованными местами, привлёк огромную толпу зрителей. Свет потушен, N — 1 место уже занято и последний зритель заходит в зал. Первым N — 1 зрителям распорядитель довольно легкомысленно посоветовал занять места случайным образом, но последний зритель настаивает на том, чтобы занять место, указанное в его билете. Если это место свободно, он занимает его, и концерт начинается. Однако если это место занято, зритель настаивает, чтобы место было освобождено. В этом случае зритель, освободивший место, решает поступать точно также: если свободное место соответствует его билету, он его занимает; в противном случае он настаивает, чтобы его место освободили. Ту же политику применяет и следующий неудачливый зритель и т. д. Каждое перемещение занимает 45 секунд. Какова ожидаемая задержка начала концерта, вызванная этими перемещениями. Решение (набросок). Здесь важно иметь в виду, что первоначально N — 1 зритель распределен так, что а) вероятность того, что место / свободно, равна 1//V, / = 1, ..., /V; б) при условии, что место / свободно, вероятность того, что первый зритель, вошедший в зал, займет место i\, второй займет место /г, • • •, (N — 1)-й займет место in-\, равна \/{N- 1)!, для любой последовательности i\, ..., /yv-i из множества {1, ..., /V} \ {/}. Рассмотрим ц.м.д.в. с состояниями /V, N — 1, ..., 0. Здесь состояние 0 обозначает, что зритель, пришедший последним, увидит свое место свободным, состояние п, 1 < п < N - 1, означает, что (N — п)-е передвижение было «неудачным», и N — начальное состояние системы. Тогда вероятность перехода из состояния п в 0 равна 1/п и вероятность перехода из п
§1.1. Марковское свойство и немедленные следствия из него в п - 1 равна (п — \)/п\ вероятность перехода из 0 в 0 равна 1. Пусть Е(п) обозначает ожидаемое число переходов (перемещений) до того момента, как ц.м.д.в. попадет в состояние 0 из состояния л; нас интересует E(N). Полезное замечание: Е(п) равно ожидаемому числу перемещений в зале с п местами. Ключевым в решении задачи является рекуррентное соотношение: E(n) = ^-[l+E(n-l)]+]--0=^-[l+E(n-l)], /i=l,2,..., где £(1) = 0. Отсюда следует, что Е(п) = -(л - 1 + л - 2 + ... + 1) = 2-Zl. Если N = 121 (размер небольшого зала), то ожидаемое время задержки ., 120 ._ _ 45 • -^- = 45 мин. П Пример 1.1.15. Мораль следующей задачи составляет то, что часто полезно ввести вероятности даже там, где изначально их не было. Предположим, что окружность единичной длины С\ = lz: \z\ = =- I разбита на два непересекающихся измеримых множества, одно из них, называемое красным, имеет общую длину 2/3, а другое, голубое, длину 1/3. Докажите, что всегда можно вписать в окружность квадрат так, что по меньшей мере три из его четырех вершин будут красными. Решение. При заданном разбиении рассмотрим квадрат, вписанный случайным образом, причем одна из вершин распределена на С\ равномерно; это единственным образом определяет квадрат. Пронумеруем вершины 1, 2, 3, 4, например, по часовой стрелке, начиная с той первой, которая распределена равномерно. Положим Xj = 1 (вершина i попала в красное множество), i = 1, 2, 3, 4. Тогда Е(числа красных вершин) = ЕЛ1! + ЕХг + ЕХ3 + ЕХ4 = 4 ЕЛ1! = 8/3 > 2. Таким образом, сумма ^ + X<i + X3 + Х^ принимает значения 3 или 4 с положительной вероятностью, значит, всегда можно вписать квадрат так, как указано в задаче. На самом деле можно оценить вероятность Р того, что по меньшей мере три из четырех вершин будут красными. Действительно, имеет место оценка: Р ^ Р$, где Pq = - есть корень уравнения О (1-Р0)2 + 4Р0 = |,
Глава 1. Цепи Маркова с дискретным временем которое соответствует ситуации, когда с вероятностью Pq имеется четыре красные вершины, а с дополнительной вероятностью 1 - Pq в точности две. □ Завершая данный параграф, мы хотели бы отметить, что в определении 1.1.3 мы ввели класс так называемых однородных, или однородных во времени, цепей Маркова. Мы будем опускать термин «однородный», кроме нескольких случаев, когда мы рассматриваем «неоднородные» цепи (что имеет место для цепей Маркова с непрерывным временем, см. §2.4). Отметим только, что в неоднородной цепи Маркова переходная вероятность из состояния i в у зависит от времени перехода. Следовательно, вместо одной переходной матрицы Р мы будем рассматривать семейство матриц Р„, п = 0, 1,2,..., которое описывает вероятности переходов из состояния i, в котором цепь находится в момент времени п, в состояние у в момент времени п + 1. § 1.2. Разбиение состояний на классы Борьба сообщающихся классов (Из серии «Кое-что из политики».) Разбиение на классы — это естественное разбиение пространства состояний /, порожденное матрицей перехода Р. Если не оговорено заранее, мы имеем в виду, что пространство состояний и соответствующая матрица конечны. Определение 1.2.1. Говорят, что состояния i и/ принадлежат к одному сообщающемуся классу, если /?}"'' > 0 и /?j"2> > 0 для некоторых п\, п%> > 0 (Напомним, что если п = 0, то Р° — единичная матрица I.) Этот факт обозначается /«-►/. Если выполняется одно из этих условий, то пишем /—>у или / —»/, а если мы хотим подчеркнуть, что одно из них не выполняется, то мы будем обозначать это как i -^ у или j ■/* i. Чтобы проверить, что это разбиение корректно определено, заметим, что а) каждое состояние сообщается с самим собой (/ «-* /, так как ри — 1), б) соотношение / +-* у симметрично, т. е. выполняется или не выполняется независимо от порядка внутри пары /, у (что очевидно из определения); в) если / 4-* у и у w k, то i ♦-» k (так как р$+П2) = £р!"')/>»2) ^ P^pW и аналогичные оценки верны для р£' ). Тогда в силу а) каждое состояние попадает в некоторый класс, в силу б) каждый класс корректно определен как (неупорядоченное) подмножество /, а в силу в) каждое состояние попадает не более чем в один класс. Состояния из разных классов, конечно, не сообщаются.
§ 1.2. Разбиение состояний на классы Полезно иметь в виду, что / —►/ тогда и только тогда, когда существует последовательность таких состояний *о = '» М. •••. tn-ii ln =j, что pi,il+t > 0 для любой пары (li, i/+i), 0 < / < п. Действительно, /?)• = — J2 Р"\ • ■ -P'«-\i и вся сУмма положительна тогда и только тогда, когда /|,...(„_1 по крайней мере одно слагаемое положительно. Определение 1.2.2. Класс сообщающихся состояний (класс эквивалентности, сообщающийся класс) С называют замкнутым, если для любых таких / € С и / G /, что i —► /, состояние / принадлежит С. Иначе говоря, невозможно выйти из замкнутого класса. Если состояние (или все состояния, что то же самое) выводит из класса, то такой класс называется незамкнутым. Состояния, образующие незамкнутые классы эквивалентности; часто называют несущественными, они и в самом деле несущественны с точки зрения асимптотического поведения цепи. Состояние i называется поглощающим, если plL — 1. Это эквивалентно тому, что сообщающийся класс поглощающего состояния i состоит только из этого состояния и является замкнутым. Цепь Маркова называется неприводимой, если все ее состояния образуют один класс сообщающихся состояний (который в этом случае должен быть замкнутым). Изучение цепи, имеющей более одного класса сообщающихся состояний, по сути сводится к изучению ее «сужений» на различные классы. Новый факт, доказанный мною, ... состоит в том, что классовая борьба неизбежно ведет к диктатуре пролетариата. К. Маркс (1818-1883), немецкий философ Пример 1.2.3. Пусть частица переходит из состояния i = 1, ..., N — 1 в состояние / +1 с вероятностью р, а в состояние /—1с вероятностью 1 — р, где 0 < р < 1. Из состояний 0 и N невозможны переходы ни в одно другое состояние, т. е. достигнув однажды состояния 0 или N, частица останется там навсегда. Этот пример описывает матч двух игроков, когда в каждой игре проигравший выплачивает победителю одну единицу («очко») и матч продолжается до тех пор, пока один из игроков не проиграет все свои очки. Другой интерпретацией является блуждание пьяного, который, выходя из пивной (паба), делает шаги либо в сторону дома (дом — это состояние 0), либо в сторону озера (озеро — это состояние N). В первом случае значение N — это общее число очков у обоих игроков перед началом поединка;
Глава 1. Цепи Маркова с дискретным временем вполне очевидно, что оно сохраняется неизменным в ходе игры. Во втором случае/V — это расстояние (число шагов) между домом и озером (паб находится где-то между домом и озером). Каждое состояние / = 0, 1, ..., N — это число очков у первого игрока или расстояние от дома; р и 1 — р — вероятности выигрыша и проигрыша первого игрока в каждой игре или вероятности сделать шаг в сторону дома или озера соответственно. Результаты игр являются независимыми, так же как и направления движения на каждом шаге. Здесь матрица перехода является (N + 1) х (/V+ 1)-матрицей вида / I 0 0 0 ... О 0 0\ 1 -р 0 р 0 ... О 0 0 0 I- р 0 р ... 0 00 Р = 0 0 0 0 0 0 0 0 . 0 0.. 0 0.. 0 р 0 . \-р 0 р . 0 0 1 \ 0 0 0 0 ... 0 0 1/ см. рис. 1.5. Сообщающимися классами являются классы {0}, {1,... ..., N — 1} и {N}, классы {0} и {N} замкнуты (т. е. состояния 0 и N являются поглощающими). Таким образом, состояния 1, .... /V — 1 являются несущественными, и игра обязательно закончится в одном из граничных состояний. □ <7 =1-Р Р Р N- 1 N Рнс. 1.5 Пример 1.2.4. Рассмотрим (6 х 6)-матрицу перехода на множестве состояний {1, 2, 3, 4, 5, 6} следующего вида: Р = <Л /* о о о * 0 0*000 о о * о о * 0*00*0 * о о о о * \о * о о о о/ где символ * обозначает ненулевой элемент, см. рис. 1.6. Сообщающимися классами являются классы С\ = {1,5}, Сч = {2,3,6} и Сз = {4}, из которых лишь класс Сч замкнут. Стрелки между классами показывают динамику цепи. Если мы стартуем из класса Сг, то остаемся в Сч навсегда. Если мы стартуем из Сз (т. е. из состояния 4), то попадаем либо в Сч (и тогда
§ 1.2. Разбиение состояний на классы остаемся в Сг навсегда), либо в С\. Интуиция подсказывает, что, проведя некоторое время в С\, мы должны покинуть этот класс, т.е. перейти в Сг- В действительности так и происходит, как мы вскоре увидим. □ Рис. 1.6 Приведем простой, но полезный факт. Теорема 1.2.5. Цепь Маркова с конечным пространством состояний всегда имеет хотя бы один замкнутый сообщающийся класс. Чтобы доказать это, рассмотрим любой класс, скажем С\. Если этот класс незамкнут, возьмем следующий класс, достижимый из С\. Если и этот класс незамкнут, будем продолжать этот процесс. В конце концов мы достигнем замкнутого класса. □ Замечание 1.2.6. Случай счетной цепи Маркова со счетным пространством состояний / более сложен. Здесь может не существовать ни одного замкнутого класса. Вдобавок в бесконечном замкнутом классе могут также быть «несущественные» состояния, в том смысле, что цепь может побывать в каждом из таких состояний только конечное число раз, а затем уйти в «бесконечность» (хотя все еще может оставаться в этом же замкнутом классе). б) в) Рис. 1.7
Плава 1. Цепи Маркова с дискретным временем Самыми простыми являются примеры, когда пространство состояний / представляет собой множество неотрицательных целых чисел Z+ = = {0, 1,2,...}. Три примера показаны на рис. 1.7; соответствующие матрицы перехода таковы: а) '0 1 0 0. 0 0 10. 0 0 0 1. :: i;;) . б) / 0 1 0 0. 11-р 0 р 0 . 1 0 1 -р 0 р . .. 0 ... .. 0 ... .. 0 ... в) 0 1 0 0 ... 0 1 -р, 0 р. 0 ... 0 0 1 - р2 0 р2 ... 0 Эти примеры описывают так называемые процессы рождения и гибели, когда состояние i представляет собой размер популяции, а при переходе к следующему состоянию может умереть одна особь или может появиться одна особь. В случае а) допускаются только переходы в сторону увеличения популяции и цепь является детерминированной. Здесь каждое состояние i образует незамкнутый класс и является несущественным. В модели б) «смерть» особи происходит с одной и той же вероятностью 1 — р, а рождение — с вероятностью р, независимо от размера популяции / в данный момент времени (если только, конечно, / не равно 0). Примером такого процесса может служить очередь «заданий», обслуживаемых некоторой системой (например, клиенты, ожидающие своей очереди в парикмахерской, в которой имеется лишь одно кресло для обслуживания, либо компьютерные программы, последовательно выполняемые процессором). Тогда / — это число заданий в очереди. Если до того момента, когда парикмахер закончит обслуживание текущего клиента, приходит новый клиент, то имеем скачок / —► i+ 1; в противном случае имеем скачок / —» / — 1; из состояния 0 возможен лишь скачок в состояние 1 (хотя в действительности парикмахер может ожидать некоторое время, пока появится первый клиент). Возможны два случая: р ^ 1/2 и 0 < р < 1/2. Интуитивно ясно, что если р ^ 1/2, то задания поступают по крайней мере с такой же частотой, с какой происходит их обслуживание, и очередь может превратиться в бесконечную (что, конечно, доставит удовольствие нашему парикмахеру). В этом случае, как мы далее увидим, каждое состояние / будет посещаться цепью лишь конечное число раз и Хп (размер очереди в момент времени п) будет бесконечно расти с ростом п. Если 0 < р < < 1/2, то задания будут поступать не так часто и система сможет достичь «равновесия» с некоторым стационарным распределением длины очереди.
§ 1.2. Разбиение состояний на классы Часто используется модификация примера б), когда состояние 0 полагают поглощающим с вероятностью роо = 1. В более общем случае в) правила динамики популяции таковы, что для каждой особи существует шанс погибнуть (но только для одного в каждый момент времени); например рп = Х/(Х + пи,), 1 - рп = пи./(К + пи.), где Х>0 и [i > О — «интенсивности» «миграции» и смерти; общая картина становится более сложной. В дальнейшем мы обстоятельно проанализируем некоторые из этих моделей в § 1.5—1.7. Рис. 1.8 Вернемся к цепям Маркова с конечным числом состояний. В общем случае если перенумеровать состояния, то матрица перехода Р с конечным числом элементов приобретает некоторую структуру, см. рис. 1.8. Обычно в левом верхнем углу размещают квадратный блок Оо, состоящий из вероятностей возможных переходов между несущественными состояниями (т.е. между и внутри незамкнутых сообщающихся классов). Этот блок может быть нулевым, если таковых переходов нет. Далее, квадратные блоки С|, ..., Ст размещены на главной диагонали. Эти блоки представляют замкнутые сообщающиеся классы различных размеров; они образуют стохастические подматрицы. Последнее означает, что для любых / = 1, ..., т и любых состояний /' G С,- сумма ^ Pjk элементов матрицы внутри класса А6С; С, вдоль строки / равна 1. Цепи Маркова, соответствующие блокам С\, ..., Ст, могут изучаться по отдельности (что проще сделать ввиду их меньшего размера). Блоки 0\, ..., От с правой стороны от Оо — это неотрицательные прямоугольные матрицы; некоторые из них (но не все) могут быть нулевыми. (Конечно, суммы элементов каждой строки матрицы
Плава 1. Цепн Маркова с дискретным временем Р всегда равны 1.) Если матрица не имеет несущественных состояний, то блоки Оо, 0\, ..., От могут просто отсутствовать. Пространство между блоками Оо, 0\, ..., От и С\, ..., Ст заполнено нулями. (Внутри матриц также может быть много нулей, см. ниже.) Рис. 1.9 Мы будем называть конечную ц.м.д.в. (Хп) (или, что то же самое, ее переходную матрицу Р) неприводимой, если она состоит из единственного сообщающегося класса С (который автоматически является замкнутым). Иными словами, конечная переходная матрица неприводима, если каждая пара состояний /, /' G / сообщается, а все множество состояний образует один замкнутый класс / = С. Графически в этом случае матрица Р сводится к блоку С, см. рис. 1.9 а). Отличительной особенностью здесь является то, что для любой пары состояний /, у е / элементы рц матрицы Рп (т. е. переходные вероятности из состояния / в состояние / за п шагов) строго больше 0 для некоторого п ^ 1 (которое, как правило, зависит от / и /'). Некоторые авторы рассматривают более сложную ситуацию и говорят, что ц.м.д.в. неприводима, если она обладает единственным замкнутым сообщающимся классом и несколькими незамкнутыми классами. В этом случае конечная цепь имеет единственное инвариантное, или стационарное, распределение, см. ниже. Соответствующая матрица приведена на рис. 1.9 6): имеется один квадратный блок С, который составляет стохастическую подматрицу, плюс квадратный блок Оо в верхнем левом углу, и отдельный прямоугольный блок 0\, или просто О. При итерации такой матрицы Р, т. е. при возведении ее во все более высокую степень п, блок Оо будет стремиться к 0 при п —» оо. Поведение блока О более сложно: мы проанализируем его позднее. Что же касается блока С, то он просто будет возводиться в степень п (что удобно).
§ 1.2. Разбиение состояний на классы Приведенные выше рассуждения наталкивают на мысль, что будет происходить при итерации конечной переходной матрицы Р с несколькими замкнутыми сообщающимися классами. Как и ранее, блок Оо матрицы Рп будет стремиться к 0 при я—>оо. Как и ранее, блоки С\,..., Ст матрицы Рп будут просто возводиться в степень п. Последнее замечание иллюстрирует тот факт, что приводимую цепь, содержащую более чем один класс, можно изучать, рассматривая отдельно каждый из классов. Для простоты предположим, что конечная матрица Р неприводима. Нетрудно догадаться, что внутри блока С у нас может быть периодическая структура, содержащая v клеток меньшей (одинаковой) размерности, циклически перемещаемых матрицей Р: клетка 1 «переходит» в клетку 2, и т.д., клетка v переходит в клетку 1, см. рис. 1.10. Пространство вне клеток снова заполнено нулями. Эта картина соответствует разбиению пространства / (которое, по нашему предположению, составляет отдельный (и замкнутый) сообщающийся класс) на такие периодические подклассы W\,..., Wv, что переход за один шаг возможен только из состояния /' е №, в состояние k Е Wi+\, i = 1, ..., v. (Здесь сумму / + 1 следует понимать как сумму по модулю v, так что Wv+\ = W\). Число v называется периодом класса С. В большинстве наших примеров период замкнутого сообщающегося класса равен единице, т. е. класс состоит из одной клетки. Такие классы (или, что то же самое, их переходные матрицы) называются апериодическими. Вообще говоря, если возвести переходную матрицу Р, соответствующую замкнутому сообщающемуся классу С с периодом v, в степень v, то матрицу Pv можно разбить на квадратные стохастические подматрицы, расположенные на главной диагонали. Образно говоря, периодические подклассы W\,..., Wv играют роль замкнутых сообщающихся классов для
Глава 1. Цепи Маркова с дискретным временем матрицы Р". (Нужно, правда, отметить, что формально такое утверждение неверно: некоторые из подклассов W-, могут состоять из нескольких непересекающихся замкнутых сообщающихся классов матрицы Pv.) Мы увидим, что полная структура конечной переходной матрицы Р может быть достаточно сложной. К счастью, большинство приложений и интересных примеров не требуют большой степени общности, и нам удастся сделать упрощающие предположения. Пример 1.2.7. Рассмотрим стохастическую 7x7 матрицу /О 1/2 0 0 0 0 1/2\ 1/30000 1/3 1/3 0 1/2 0 1/2 0 0 0 Р= 0 0 0 0 10 0 0 0 0 10 0 0 0 1/20000 1/2 \1/3 1/3 0 0 0 1/3 0 / Найдите все сообщающиеся классы соответствующей ц.м.д.в. Рис. 1.11 Решение. См. рис. 1.11. Сообщающимися классами являются {1,2,6,7}, {3} и {4,5}. Замкнутые классы — {1,2,6,7} и {4,5}; состояние 3 является несущественным. Класс {4, 5} имеет периодическую структуру. Следовательно, предел величины p)J' не существует (она осциллирует) при / = 3, 4, 5 и / = 4, 5. Для класса {1, 2, 6, 7} подматрица перехода имеет вид 0 1/2 0 1/2N 1/3 0 1/3 1/3 0 1/2 0 1/2 ,1/3 1/3 1/3 0 и обладает симметрией 1 <-» 6 и 2 <-> 7. Таким образом, если объединить состояния 1 и 6 в (новое) состояние I, а состояния 2 и 7 объединить
§ 1.3. Времена и вероятности достижения в состояние II, то получим цепь с двумя состояниями и матрицей перехода 12/3 1/3J- Характеристическое уравнение для последней матрицы имеет вид 2 I 2 п у. -з^-з=0- корни этого уравнения равны [irj = 1, [1\ = -2/3. Следовательно, элементы П" имеют вид А + В(—2/3)п. Подобрав должным образом постоянные, получаем п„ _ (2/Ъ + 3/5(-2/3)" 3/5 - 3/5(-2/3)л> ^2/5 - 2/5(-2/3)" 3/5 + 2/5(-2/3)" Таким образом, пл /2/5 3/5 \2/5 3/5 Тогда в силу симметрии для первоначального блока {1, 2, 6, 7} предельной будет матрица 1/5 3/10 1/5 3/10\ 1/5 3/10 1/5 3/10 1/5 3/10 1/5 3/10 ' 1/5 3/10 1/5 3/10/ т. е. pf, p(g -> 1/5 и р$, рУ -+ 3/10, i = 1, 2, 6, 7. Вероятности /»g> стремятся к - lim рг), /= 1, 2, 6, 7. Следует подчеркнуть, что такой способ вычисления пределов lim pfj п—юо ' не является оптимальным. В дальнейшем мы познакомимся с намного более эффективными способами. □ § 1.3. Времена и вероятности достижения A hit, a very palpable hit. Гамлет. В. Шекспир (1546—1616), английский драматург и поэт Напомним, что через Р; обозначается распределение ц.м.д.в. (Хп), которая выходит из состояния /G /. Аналогично будем обозначать через Е; математическое ожидание по мере Р,-. Пусть А С / — это некоторое подмножество множества состояний. Момент (первого) достижения (п)
Плава 1. Цепи Маркова с дискретным временем НА —это момент времени, когда цепь Маркова впервые попадает в А, т.е. НА = Ы{п^0:ХпеА}. (1.3.1) Вероятность достижения hf — это вероятность того, что цепь, стартующая из состояния /, когда-нибудь попадет в А: hf = Pi(HA<oo); (1.3.2) если А — это замкнутый класс, то hf называют вероятностью поглощения. Математическое ожидание величины НА обозначают kf: kf = Ei(HA)= ^ nPi(HA = n) + oo-Pi(HA=oo). (1.3.3) 0<л<оо Следовательно, если ?i{HA = со) > 0, то kf = оо. (По соглашению, оо • 0 = = 0.) Вычисление вероятностей достижения основывается на следующей теореме. Теорема 1.3.1. При заданном множестве Act величины hf представляют собой минимальные неотрицательные решения следующей линейной системы: jhf = \, ieA, \hf = EPiihf, i*A. (L3-4) ^ /6/ т.е. для любого решения g, ^ 0 системы (1.3.4) выполняется неравенство gi ^ hf, i el. Доказательство. Напомним, что hf вычисляется при условии, что Xo = i. Если /бЛ, то НА = 0, следовательно, hf = 1. Если i&A, то НА ^ 1, и тогда hf = £ Pi(HA < оо, Хх = /) = £ Р,(*, = /) Р,(ЯД < оо | Xi = /) = /€/ /€/ = (в силу марковского свойства) У^/ty' Р/(НА < сю) = ^p,jhA. i i Возьмем любое неотрицательное решение g,-. Если i G Л, то gi — hf — l. Если i & А, то 8i = Y1 р>& = И Р" + Y1 Р№ = Y1РЧ + Y1РЧ (Yl pik + Yl Pi*B*)= j j€A ЦА ieA ЦА \k£A к$А ) = Pi(X,eA) + Pi(Xl^A,X2eA)+ Y, P'iPikgk- j&A,k£A
§ 1.3. Времена и вероятности достижения Повторяя подстановки, для любого п находим gi = Р,(*, е А) + ... + Р,(*, £ А, ..., *п_, g A, Xn e А) + + J2 ■ ■ ■ 2 P'hPhh ■ ■ ■ Pj.-il.8i.- /ig-4 j„#A Поскольку gi ^ 0, опустив последнюю сумму, мы уменьшим правую часть. Первые же п слагаемых дают в сумме Р[(НА < п). Следовательно, gi > ?i(HA < п) Уп > О, откуда получаем gi > lim Pi(HA < п) = Pi(HA < со) = hf. D л—>оо В общем случае эти уравнения предоставляют мощное средство для вычисления вероятностей достижения даже в самых запутанных ситуациях, особенно, когда можно воспользоваться симметрией ц.м.д.в. См. следующие примеры. Пример 1.3.2. Постройте граф, имеющий семь вершин, следующим образом: возьмите правильный шестиугольник и соедините противоположные вершины прямыми линиями; пусть вершинами графа будут вершины шестиугольника и его центр симметрии; а ребрами графа будут стороны шестиугольника и отрезки, соединяющие вершины с центром. В дискретные моменты времени частица переходит от одной вершины графа к какой-то из соседних вершин случайным образом и независимо от прошлых переходов. Предположим, что частица начинает движение в вершине А шестиугольника. Найдите вероятность того, что частица вернется в А, так и не побывав в центральной вершине С. D Е ф Рис. 1.12 Решение. См. рис. 1.12. Положим hi = Р,(достичь А раньше, чем достичь С). Тогда искомая вероятность равна Лд и в силу симметрии Лд = йЛв.
Глава 1. Цепи Маркова с дискретным временем Далее, Лв = з + зЛ°' Л° = зЛв + 3Ле' и вновь в силу симметрии Тогда Наконец, 1 2 3 ho = з^в + g^D- т.е. hD = jhB. Лв = з + 7Лв' т-е-Лв = уд. Следовательно, Лд = 7/27. □ Пример 1.3.3. Процессы рождения и гибели; см. пример 1.1.7 6). Для процесса рождения и гибели положим Л,- = Р, (достичь 0), тогда Л,- является минимальным неотрицательным решением системы Ло = 1, hi = phi+i+(l-p)hi-i, />1. При р ф- 1/2 это решение имеет вид Л, = л + В(^£)' Если р < 1/2, из условия минимальности и неотрицательности следует, что В = 0 и А = 1, откуда получаем Л,- = 1. Если р > 1/2, заключаем, что Л = 0 и В = 1, и тогда При р = 1/2 решение имеет вид hi = A+ Bi и вновь из условия минимальности и неотрицательности следует, что В = О и Л = 1, значит, Л,- = 1. Отметим, что найденные значения не зависят от выбора вероятностей ро/. Заметим также, что Л, — это вероятность вымирания, а 1 — Л* — вероятность выживания (условные вероятности при условии Xq = i). Следовательно, вероятности выживания равны 1-(-^)', i>0, для ре (1/2, 1], D 0 для ре [0, 1/2].
§ 1.3. Времена и вероятности достижения В каждую секунду один человек умирает, . I а 1 — человека рождается. Ч. Бэббидж (1792—187)), английский математик Если мы перейдем к примеру 1.1.7 в), то уравнения становятся зависимыми от состояния: Л0 = 1, А,- = Pihi+{ + (1 - pi)hi-i, i ^ 1. Для отыскания решения перейдем к рассмотрению разностей Щ = А/_1 - Л/, где PiUi+i = (1 - р1)щ и - ' ~Piu - l ~Pi '-P'-' l ~ Pi „ И/+1 — Щ — . . . U\. Pi Pi Pi-1 P\ „ 1 - D,_| 1 - D\ Положим у,- = — ... —, тогда, поскольку Pi-l P\ u\ + ... + щ = A0 - hi, мы получаем /t, = l-y4(Yo + ... + Y*-i)- Здесь Yo = 1 и А = u\. Постоянная А определяется из того условия, что inf,- ht ^ 0: , оо ч -1 4 ;=о Таким образом, оо Л,- = 1, если У~] Y/ = °°> /=о и оо / оо оо ^ = ХЛ;/ ХД/' если ХЛ''<0°- /=« ' j=0 /=0 В частности, во втором случае, A;+i < А; и lim A,- = 0. Вероятности выжи- i-too вания теперь равны ( ОО / ОО ОО 1_&у7ХД/. если l^Y/<oo, /•=( ' j=0 j=0 оо 0, если У~] Y/ = со- /=о Для средних времен достижения kf справедлива следующая теорема.
Глава I. Цепи Маркова с дискретным временем Теорема 1.3.4. При заданном Л С / величины kf представляют собой минимальные неотрицательные решения следующей линейной системы: 'kf=0, /еЛ, № Таким образом, для любого решения gi ^ 0 системы (1.3.5) выполняется неравенство g,- ^ kf, i e /. Доказательство. Как и при отыскании hf, математическое ожидание времени достижения kf вычисляется при Xq = L Если i 6 Л, то НА = О, следовательно, и kf = 0. Если i tf. А, то НА ^ 1 и Ei(HA\Xl=j) = l+EiHA в силу марковского свойства. Таким образом, kf = е,(/ул)=y, Е<<яЛ' м = л)=Е р'№ = /) Е'^л I*«= /')= /6/ /• =i+е р<№ =/) еу^=!+е^-а- /(2Л /«м Пусть теперь gi — это любое неотрицательное решение. Тогда gt = kf = = 0 для i е Л. Если i g А, то 8i: = • + Е р'/£/ = ! + Е^l ' + Е ^'*г* /2Л у^Л ^ *£Л Представив 1 как Р,(#л ^ 1), а £ Ау как Р(#л ^ 2), находим /2Л й = Р,(//л > 1) + Р,(ЯЛ ^ 2) + 5>/ 5>/*ft. /0Л А0Л Повторяя подстановки, для любого я находим gi = l+Pl(HA>l) + ... + Pl(HA>n) + 1£...1£pihPhh---PU-ill,gJ.> ji#A j„<£A ^Р,(Ял^1) + ... + Р,(/Ул^/г), так как g, ^ 0. Тогда при п —► оо получаем оо й^хр'(/ул^/г) = Е'ял = /г-л- D л=1
§ 1.3. Времена и вероятности достижения Отметим, что единственным неотрицательным решением системы (1.3.5) может оказаться kf = оо, i g А. Как и в случае с величинами hf, уравнения (1.3.5) можно эффективно использовать, особенно в случаях, когда система обладает свойствами симметрии. Пример 1.3.5. Для процесса рождения и гибели из примера 1.1.7 6) положим ki = Е,-(//{°}); это среднее время достижения состояния 0. Тогда kj является минимальным неотрицательным решением системы k0 = 0, ki = 1 +pki+i + (1 - p)ki-\, i > 1. Общее решение имеет вид /г,- = А + Bi; постоянные А и В задаются равенствами А = 0, В = 1/(1 — 2р). Однако при р ^ 1/2 конечного неотрицательного решения не существует. Следовательно, для / ^ 1 имеем bJrhrp1 пРиО<р<1/2, п I оо при 1/2 < р < 1. Пример 1.3.6. Пролет лестницы состоит из N ступенек. Лягушка, начиная движение от подножия лестницы, пытается добраться до верхней ступени, совершая серию независимых прыжков следующим образом. Если лягушка находится на i-й ступеньке (0 < / < N), то ей удается перепрыгнуть на (i + 1)-ю ступеньку с вероятностью а (0 < а < 1/2), но с такой же вероятностью а она может упасть вниз на (/ — 1)-ю ступеньку и с дополнительной вероятностью 1 — 2а она вновь приземляется на i-ю ступеньку. Когда лягушка находится у подножия лестницы (нулевая ступенька), ей удается подпрыгнуть вверх так, чтобы попасть на первую ступеньку с вероятностью р (0 <р < 1), а с вероятностью 1 — р она остается на прежнем месте. Чему равно ожидаемое число прыжков, которые совершит лягушка, прежде чем достигнет вершины лестницы? Предположим, что та же лягушка начинает прыжки, находясь на расстоянии N ступеней от вершины на бесконечной лестнице. Чему теперь будет равно ожидаемое число прыжков, которые совершит лягушка, прежде чем достигнет вершины лестницы? Решение. Система уравнений для конечной лестницы [0, N] имеет вид kN = 0, ki = l+ a/z,_i + (1 - 2a)ki + aki+l, l^i^N-l, k0=\+(l-p)k0 + pkl. Общее решение имеет вид k^A+Bi-U2,
Глава 1. Цепи Маркова с дискретным временем а из граничных условии в точках i - N2 - i2 ki = 2а О и N следует, что N-i N-i 2а + В и N(N-l) N В случае бесконечной лестницы выражение А + Bi 2а1 невозможно сделать неотрицательным для всех /. Следовательно, /г,- = со. □ Пример 1.3.7. Рассмотрим ц.м.д.в. с пространством состояний {1,2,3, 4, 5, 6} и матрицей перехода /О 0 1/2 0 0 1/2\ 1/5 1/5 1/5 1/5 1/5 0 1/3 0 1/3 0 0 1/3 1/6 1/6 1/6 1/6 1/6 1/6 0 0 0 0 10 \1/4 0 1/2 0 0 1/4/ Найдите сообщающиеся классы для этой цепи и для каждого класса укажите, является он открытым или замкнутым. Предположим, что цепь выходит из состояния 2; найдите вероятность того, что когда-либо будет достигнуто состояние 6. Предположим, что цепь выходит из состояния 3; найдите вероятность того, что цепь попадет в состояние 6 ровно за п переходов (шагов), п ^ 1. Решение. Структура цепи представлена на рис. 1.13. Рис. 1.13 Состояния 1,3,6 образуют замкнутый класс, состояния 2,4 — открытый класс, а состояние 5 является поглощающим (и образует замкнутый класс).
§ 1.3. Времена и вероятности достижения Если hi = Р/(достигнуто состояние 6) то h\ = hz = 1, 1 1 2 hi = g/гг + g/z4 + g, /г4 = g/z4 + g/z2 + 2- откуда получаем hi = 13/19, /z4 = 14/19. Следовательно, ответ на второй вопрос таков: 13 Рг(достигнуто состояние 6) = —. Далее, для класса {1, 3, 6} матрица перехода имеет вид О 1/2 1/2^ 1/3 1/3 1/3 ,1/4 1/2 1/4, Для того чтобы найти ее собственные значения, решаем уравнение /-Х 1/2 1/2 \ det 1/3 1/3-X 1/3 =0, \1/4 1/2 1/4 —X/ x3-1x=-1x-1 = ,x-d(x= + Ax + 1)=o, и находим Х| = 1, Хг = -^, Хз = -g. Отсюда следует, что p%=A + B(-\y + c(-ff, « = 0,1,... При п = 0, 1,2 получаем равенства А + В + С = 0, А-\В-\С = \, Л + 1б + 1с=1|, откуда следует, что л_12 s_i c__8 значит. рзе -35 + б( 4) 7V б) •
Глава 1. Цепи Маркова с дискретным временем § 1.4. Строго марковское свойство Restore my Strong Markov property!3 (Из серии «Кое-что из политики».) Строго марковское свойство состоит в том, что процесс начинается заново не только после любого заданного момента времени п, но также и после случайно выбранного момента времени. Примером такого момента времени может служить /У' — момент первого достижения цепью заданного состояния i б /. Сформулируем это свойство в общем случае. Определение 1.4.1. Случайная величина Т, зависящая от Xq, Х\, ... и принимающая значения 0, 1, 2,..., оо, называется моментом остановки, если событие {Т = п} описывается только в терминах случайных величин Х\, ..., Хп без привлечения величин Хп+\, Хп+2, ... Образно говоря, наблюдая за цепью, вы знаете, когда вам следует остановиться, и предвидеть будущие состояния вам для этого не нужно. Время первого достижения НА является примером момента остановки, поскольку {НА = 0} = {Хо G А}, а при п > 1 выполняются соотношения {НА=п} = {Х0#А, ...,Xn-i#A,Xn€A}. Когда А состоит лишь из одного состояния /, время достижения часто называют временем первого входа: Н> = Щп^0:Хп=/}. Stop Man, Hit Woman4 (Из серии «Фильмы, которые не вышли на большой экран».) С другой стороны, последний момент пребывания LA =sup[n: Xn e А], вообще говоря, не является моментом остановки, так как для события {LA = п} требуется информация об ^„+i. Хп+2, ... Теорема 1.4.2. Пусть (Л'п.я^О) — это цепь Маркова (X, Я), и предположим, что Т — это момент остановки. Тогда, при условии Т < оо и Хт = i последовательность (Хт+„, п^О) образует (8,-, Р)-цепь Маркова. В частности, при условии Т < оо и Хт = i случайные величины Хт+\, Хг+2, ■. ■ не зависят от Xq, ..., Хт~ \. 3Игра слов, основанная на том, что слово property означает «свойство», а также «собственность» или «имущество». 4Ср. с названием фильма «Eat Drink Man Woman».
§ 1.4. Строго марковское свойство Доказательство. Пусть Л — это событие, которое определяется состояниями цепи до момента времени Т, т.е. величинами Хо, ..., Хт-\, а событие В определяется состояниями цепи после момента Т, т. е. величинами Хт+\, ..., Хт+п при некотором п. Мы хотим проверить, что для любых п ^ 1 и / 6 / выполнены следующие условия: а) Р(Л П В | Т < оо, Хт = 0 = Р(Л | Г < оо, Jfr = i) P(S | Г < со, Хт = /) и б) условная вероятность Р(В \ Т < оо, Хт = i) вычисляется так, как для случая (8,-, Я)-цепи Маркова: P(fl|7-<oo,^ = i)= J2 Pih---Pin-Un- (j i„)€B Как и при доказательстве марковского свойства, предположим вначале, что Л имеет вид {Xq = /о, • • •. Хт-\ = ir-i}, а В имеет вид {XT+i = /i, ..., Хт+п = in} ДЛЯ некоторых /0, ..., im-\, j\, .... /я € /. При заданном m событие АГ\{Т = пг}Г\{Хт = 1}=АГ\{Т = m, Xm = i} совпадает с событием {Хо = /о, ..., Xm-\ = im-\, Xm = /}, если T(io,..., im-\, i) = m, а если 7"(/о, • • •, i-m-\. О 7^w, то это пересечение пусто. Тогда вероятность события А П В П {Г = m, Xj = /} = Л П {Т = т, ^т = /} П 5 равна 4^01. • • • Plm-\iPi}\ ■ ■ ■ Pin-iin 1 (Д'О. • • • . im-\, 0 = т). В случае общего события В мы должны просуммировать по всем (/ь ... ...,/„) G В: KPkii ■ ■■Pim-liHT(h, ■■■, 'm-i. О = m) ^ р(7, ..-/?;„_,/„■ (/i,..,/»)Gfl Сумма ^Z не зависит от т; она равна условной вероятности Р(В \ Т < (/I,- :h)€B < оо, Хт = /) и вычисляется, как для (8;, Р)-ц.м.д.в. В случае события А общего вида мы суммируем по всем (г*о, ... ■ ■•, im-i)sA: P{AnBn{T = m,XT = L}) = = Yj KPhh • ■ ■ Pim-,iHT(h im-i,i) = m)P(B\T<oo,XT = i) = ('о im-i)€A = Р(Л П {T = m, Хт = 1}) P(B\T< оо, Хт = i).
Глава 1. Цепи Маркова с дискретным временем Суммируя затем по т, получаем Р(Л П В П {Т < оо, Хт = /}) = Р(Л П {Т < оо, Хт = «'}) Р(В | Г < оо, Хт = /)• Наконец, разделив на Р(7"<оо, Xr = i), находим, что условная вероятность Р(Л П В | Т < оо, Хт = i) равна Р(ЛП{7"<оо, XT = i}) D/DIT ^ v .ч Р(Т<оо,Хт = 1) F(B\T<0o<Xr = i) = = Р(А\Т<ос,Хт = i) Р(В\Т< оо, Хт = I), что и требовалось показать. Условную вероятность Р(Л П {Т = пг, Хт = i} П В |Ят = /) при условии, что Xm=i, мы находим после деления на Р(Л"Ш = /) = (ХЯШ),-: это отношение определяется значениями Xq, ..., Xm и условной вероятностью Р((Л П {Г = т}) П {Хт+1 = /1 А-г+п = /„} | А-ш = /) = = Р((Л П {Т = ш}) П {A-m+, =/,,..., А-т+п =/„} | Xm = i). В силу марковского свойства имеет место разложение Р((Л П {Т = т}) П {Хт+] = /,,..., A-m+n =/„} 1-Ут = 0 = = Р(Л П {Т = т} |Xm = i) P(Xm+i =/,,..., A-m+n =/„ \Хт = i) = = Р(Л П { Г = т} | Хя = /)р<7| ... ри_,/„. Следовательно, безусловная вероятность Р((Л П {Г = /п}) П {Хт+1 =/,,..., А-ш+п = /„} п {Хш = «'}) = = Р((Л П{Т = т,Хт = i}) П {А-т+1 =/, Хт+п = /„}) равна P(An{T = m}\Xm = i)P(Xm = i)pih ...pu_lU = = P(An{T = m,Xm = i})Pih...pin_ljn. Суммируя по т, находим Р((Л П {Т < оо, Хт = /} П {Хт+i =/,, ..., А-г+л = /„}) = = Р(ЛП{Г<оо,^7- = /})/7,7|...р/п_,Ул
§ 1.4. Строго марковское свойство и, разделив на Р(7" < оо, Хт = 0. получаем Р(Л П {XT+i = /1 Хт+п = /„} | Т < оо, Хт = I) = = P(A\{T<oo,XT = i})pijl...pu_lh. Теперь для события В общего вида, определяемого значениями Хт+\, ■.. ..., Хт+п, мы суммируем по всем (J\, ..., /'„) € б. □ Пример 1.4.3. Для однородного процесса рождения и гибели (см. пример 1.3.5) найдите распределение момента достижения /У(0) = inf{n >0: Хп = 0} (момента исчезновения). Другими словами, чему равны вероятности Р,(/У'0) = k) при заданных i и &? Эти вероятности могут быть найдены путем вычисления вероятностной производящей функции cp,(s) = Е,(5Я ) = = J2 sn Р,(//(0> = п). В силу строго марковского свойства 0^п<оо <?i(s) = (<?(s)Y, i>\, где cp(s) = ф1 (s). Достаточно рассмотреть случай t= 1. Тогда, при условии, что Хо = 1, функция cp(s) является корнем квадратного уравнения pscp2 - ф + qs = 0 и равна ф(*) = 2^0 "V1"4^2)' 0<s<1- 2ps - ,. ™^. □ Пример 1.4.4. Важным приложением строго марковского свойства является случай, когда цепь наблюдают только в определенные моменты времени, например, в моменты, когда она меняет свои состояния (т. е. когда Хп+\ фХп), или когда она попадаете подмножество/С/ (т.е. Хп е/). Новая цепь формально описывается введением моментов наблюдений Го, Т\, т.е. моментов Т0 = Щп>0: ХпфХп-i} или Т0 = М{п ^ 0: Хп 6 J} Тт+1=Щп>Тт:ХпфХп^1} или Тт+{ = Щп > Тт: Хп е J}. Тогда цепь (Yn, п ^ 0) определяется равенством Ym =Xjm- В обоих случаях каждый момент Тт является моментом остановки. В предположении, что Тт < оо для всех т, строго марковское свойство будет гарантировать, что (У„) действительно является ц.м.д.в. Переходные вероятн модели вероятности р\- для новой цепи вычисляются довольно легко: в первой ft/4J_pu' ".' '.' г'-/'е/- о-4-1)
Глава 1. Цепи Маркова с дискретным временем а во второй P!i=PH + Yl J2 PUf-PM при/,/6/. *=i/i /*е/\/ Здесь Р = (р^-переходная матрица исходной цепи (Хп). (1.4.2) П Р = р" pl\'.l рн\1 pl\J.I\J J l\J Рис. 1.14 Первая модель, в которой Yn+\ ф Y„, называется цепью скачков для исходной ц.м.д.в. {Хп)\ эта модель играет важную роль в анализе цепей Маркова с непрерывным временем, см. гл. 2. Вторая модель, у которой Y„ e J, называется частично наблюдаемой цепью. Для частично наблюдаемой цепи Маркова переходные вероятности pls можно записать в терминах матричных блоков PJJ, PJ,I\J, P'\J-J и P/V./V> выделенных из Р: p!j = (/>%• + [PJAJ(h\j -p'^r'P'XJJlr '"■ /е'■ (J-4-3) Здесь I/у обозначает единичную матрицу на /\/. См. рис. 1.14. § 1.5. Возвратность и невозвратность: определения и основные факты Вечное безмолвие этих бесконечных пространств наводит на меня ужас. Б. Паскаль (1623-1662), французский математик и философ Возвратность и невозвратность являются важными свойствами ц.м.д.в. со счетными пространствами состояний. В нашей книге мы перейдем от конечного случая к счетному, просто расширив основные определения на случай счетного пространства состояний /. Конечно, это предполагает, что задана бесконечная переходная матрица Р = (р,у, i, j g /); мы уже встречались с такими матрицами в примере 1.2.7. Теория бесконечных матриц
§ 1.5. Возвратность и невозвратность: определения и основные факты более тонка, чем теория конечных матриц; некоторые ее аспекты предполагают умение работать с бесконечномерными пространствами. Мы не будем слишком углубляться в эту теорию, остановимся лишь на свойствах, которые являются прямым обобщением конечномерных случаев или имеют четкий вероятностный смысл. Определение 1.5.1. Состояние i e I называют возвратным, если Р<(-^л = i Для бесконечно многих п) = 1, (1-5.1) и невозвратным, если Pi(Xn = i для бесконечно многих п) = О, (1.5.2) т.е. Pi(Xn = i для конечного числа значений п)=\. Отметим, что мы не упомянули промежуточные значения вероятности (т. е. лежащие строго между 0 и 1), что проясняет следующая ниже теорема 1.5.2. Положим fi := Pi(Xn = i для некоторого п ^ 1). (1.5.3) Теорема 1.5.2. Состояние i является возвратным, если /,■ = 1, и невозвратным, если /,■ < 1. Следовательно, каждое состояние либо возвратно, либо невозвратно. Доказательство. Воспользуемся моментом первого достижения состояния i (в зависимости от контекста мы будем называть его моментом первого входа, или моментом возвращения в состояние I): 71 = inf[n > 1: Хп = i] (1.5.4) и положим fi = P,-(7i < oo). (1.5.5) Тогда, очевидно, Т-, является моментом остановки. В силу строго марковского свойства Pi(Xn = / по крайней мере для двух значений п ^ 1) = /f, и, в более общем виде, Pi(X„ = i по крайней мере для k значений п ^ 1) = /f 4k. (1.5.6) Обозначим через BJ, следующее событие: {Л„ = i по крайней мере для k значений п ^ 1}. Тогда, очевидно, последовательность событий BJ, убывает
Глава 1. Цепи Маркова с дискретным временем по k: В, Э В(2 Э ..., и событие {Хп = i для бесконечно многих значений п} равно пересечению f] B^. Следовательно, Pi(Xn = i для бесконечно многих п) = lim Р(б[ ), (1.5.7) к—юо что равно 1, когда /,■ = 1, и 0, когда /, < 1, что и требовалось доказать. □ Увы, Ушло навек твое искусство, И никогда его не возвратить! Дж. Мильтон (1608—1674), английский поэт Мы также введем еще одну случайную величину (которая будет использоваться довольно часто) Vj = число посещений состояния / = У^ \(Хп = /), (1.5.8) л^О которая подсчитывает общее число посещений состояния / (учитывая и момент времени 0, если цепь стартовала из состояния /). Иначе говоря, V, подсчитывает суммарное время, проведенное в состояние i (включая, когда это необходимо, состояние 0). Уравнение (1.5.6) можно переписать в виде /? = Р,М>А). (1.5.9) Важным параметром является среднее значение Е,-V;, вычисляется по формуле со Е/^ = £Р«-М>и) = Х> (1-5.10) л=0 л^О С другой стороны, E,-V/ = 53E/l(Jr„ = 0 = E',«) (1-5J1) (здесь ри = 1, поскольку нулевая степень матрицы Р° равна единичной матрице I). Из (1.5.10), (1.5.11) заключаем, что верно следующее утверждение. Теорема 1.5.3. Состояние i возвратно, если Х>1п) = оо, (1.5.12) и невозвратно, если X>Ln,<°°. (1.5.13) л>0
§ 1.5. Возвратность и невозвратность: определения и основные факты Доказательство. В силу соотношений (1.5.10), (1.5.11) сумма 23 p\i совпадает с суммой геометрической прогрессии ^ ff. Эта сумма л^О л^О конечна, если /,■ < 1 (и равна 1/(1 — /,)), и бесконечна, если Д = 1. П Теорема 1.5.3 будет неоднократно использоваться для проверки возвратности и невозвратности состояний различных цепей. Альтернативное доказательство теоремы 1.5.3 опирается на использование производящих функций случайной величины 7}. Положим Л(") = Pi(7> = л) = = Pi(Xn=i, hoXi ^/для /= 1 п-l), О 1; (1.5.14) F(z)(=Fi(z)) = Ez*=Ylzn№. |z|<l, (1-5.15) л^1 тогда /,- = lim F(z). г—>1 С другой стороны, /#> = Pi(^„ = О = fi{n) + Ш - \)pu + ... + fi(l)P\"-l)' (1-5-16) откуда следует, что если t/(z)(=£/i(z)) = 53p{|,)zn, |z|<l, (1.5.17) л^1 TO £/(z) = F(z) + F(z)U(z), т.е. £/(z) = F{z) \-F{zY Следовательно, предельное значение lim U(z) конечно тогда и только тогда, когда WmF{z) < 1. Таким образом, неравенство (1.5.13) справедливо тогда 2->| и только тогда, когда /; < 1. □ Завершим этот параграф следующим замечанием. Равенство (1.5.2) можно переписать в виде Pi(Vj < оо) = 1, (1.5.18) а (1.5.13) можно записать как Е,1/,<оо. (1.5.19) Мы видим, что если св. V/ (общее число посещений состояния i) конечна с вероятностью единица, то она должна иметь конечное среднее; марковское (а точнее, строго марковское) свойство исключает возможность промежуточной ситуации, когда Р,-(У| < оо) = 1, но Е,-V; = оо.
Глава 1. Цепи Маркова с дискретным временем Однако если вернуться к рассмотрению св. Г; (время возвращения в состояние /), то ситуация становится более тонкой. Как мы уже заметили выше, состояние / возвратно тогда и только тогда, когда Р,(7",- < оо) = 1, т. е. время возвращения в состояние i конечно с вероятностью единица. Однако среднее время возвращения Е,Т,- (или, что эквивалентно, lim F'(z)) 2—► ! может быть как конечным, так и бесконечным. Это свойство подразделяет возвратные состояния на две различные категории: положительные и нулевые; см. далее. Сообщающиеся классы для счетной ц.м.д.в. определяют таким же образом, как и в случае конечных цепей. Для удобства мы еще раз приведем определение. Определение 1.5.4. Состояния i, j G / принадлежат одному и тому же сообщающемуся классу, если р\" > О и /?'" > 0 для некоторых п, п' ^ 0. (Как и в случае конечных цепей, будем обозначать через Р° единичную матрицу I со строками и столбцами, которые означают состояния цепи.) Как и ранее, сообщающиеся классы задают разбиение пространства состояний /, и некоторые классы могут быть бесконечными; число таких классов также может быть бесконечным. Далее, как и в «конечном» случае, сообщающийся класс С называется замкнутым, если для любого / G С, из условия / —► / следует, что / g С. Наконец, мы будем говорить, что цепь нвприводима, если она состоит из единственного сообщающегося класса (который в случае счетной ц.м.д.в. может быть замкнут или незамкнут). Замечание 1.5.5. Заметим, что если пространство состояний / конечно, то определение невозвратного состояния совпадает с определением несущественного состояния (т. е. состояния, принадлежащего незамкнутому сообщающемуся классу). Иными словами, в случае конечной цепи каждое состояние, которое формирует незамкнутый класс, является невозвратным, и каждое состояние, принадлежащее замкнутому классу, возвратно. Тем не менее, как мы отметили в замечании 1.2.6, в случае счетной ц.м.д.в. замкнутый класс может состоять только из невозвратных состояний, которые с «физической» точки зрения несущественны. Это показывает, что в «счетном» случае понятие невозвратности более уместно, чем понятие замкнутого сообщающегося класса. Мы намерены показать теперь, что если состояния /, / принадлежат одному и тому же сообщающемуся классу, то они либо оба возвратны, либо оба невозвратны. Иначе говоря, возвратность и невозвратность являются свойствами класса. Поэтому мы могли бы использовать следующее определение. Определение 1.5.6. Сообщающийся класс называется возвратным (невозвратным), если все его состояния возвратны (невозвратны).
§ 1.5. Возвратность и невозвратность: определения и основные факты Теорема 1.5.7. Состояния из одного сообщающегося класса относятся к одному и тому же типу (либо оба возвратны, либо оба невозвратны). Любой конечный замкнутый сообщающийся класс является возвратным. Доказательство. Пусть С — это сообщающийся класс. Тогда для любых различных состояний /, / £ С выполняются неравенства /?)• > О и Pjl > 0 для некоторых т, п ^ 1. Значит, для любого г ^ О выполняются неравенства (п+т+г) > (т) (г) (и) (п+т+г) > (т) (г) (я) Рц ^ Рц Рц Pji и Pa ^ Pji Pa Рц > поскольку в правой части каждого неравенства учитывается лишь часть возможных способов возвращения. Следовательно, г/Л> < Ел ИП ^ п(т)п(п) ' и для л ^ п + т справедливо неравенство (г) > (п) (г-п-т) (т) Pjj г Pji Рц Рц ■ Тогда оба ряда Y^Pu и Y,Pjj сходятся либо расходятся одновременно. Пусть теперь С — конечный замкнутый сообщающийся класс, и / 6 С. Тогда, если Лп =/' G С, то Хп € С \/п. Следовательно, существует состояние / 6 С, в котором цепь побывает бесконечно много раз: О < Pj{Vi = оо) = Pj(Ti < oo) Pi(Vi = со). Тогда P;(V, = оо) > 0, т.е. состояние i не является невозвратным, а следовательно, оно возвратно. Таким образом, каждое состояние из класса С возвратно. □ Определение 1.5.8. Матрица вероятностей перехода Р (а тогда и (X, Р)-ц.м.д.в.) называется возвратной (невозвратной), если каждое состояние i возвратно (соответственно невозвратно). Завершим этот параграф еще одним утверждением. Теорема 1.5.9. Если матрица Р неприводима и возвратна, то каждая случайная величина Г,- (момент первого посещения состояния /) конечна с вероятностью 1, т.е. Р(7', < оо) = 1 для любого состояния i и любого начального распределения X. Доказательство. В силу марковского свойства Р(7) < оо) = ^Х, Pt(Tj < оо).
Глава I. Цепи Маркова с дискретным временем При заданном i выберем такое т, что pjj" > 0. Запишем 1 = P/(V/ = оо) ^ Pj{X„ =j для некоторого п^ т) (очевидно, что здесь на самом деде имеет место равенство, но нас устраивает и неравенство). Далее, Pj(Xn =j для некоторого п^ т) = = У^ Ри! Р/'(^л = /' лпя некоторого п ^ т \ Хт — k) = =E"Jr)p»(7/<o°)<E"S,, = 1- Мы видим, что каждое слагаемое р% Р*(7) < оо) должно быть равно р[™ ; в противном случае (т. е. если р£ Р^(Т} < оо) < р? для некоторого k) мы должны были бы получить 1 < 1. Следовательно, PK7)<cc)p<m)=p<m), т.е. Р,(7)<оо) = 1. Это верно для любого /, следовательно, и для любого начального распределения X. Вдобавок это верно и для любого /'. □ Пример 1.5.10. Предположим, что матрица Р неприводима и возвратна и что пространство состояний содержит по крайней мере два состояния. Определим новую матрицу перехода Р = (р,у) следующим образом: 0, если i = /, (1 -Pu)~lpij, если 1ф\. РЧ=\,у _ л-1 Докажите, что матрица Р также неприводима и возвратна. Решение. Если матрица Р = (/?,;) неприводима, то рц < 1 для любого состояния i (за исключением случая, когда она состоит из одного состояния). Матрица Р описывает цепь Маркова, которая получается из заданной ц.м.д.в., если учитывать только скачки в новое состояние; очевидно, что цепь неприводима. Действительно, возьмем последовательность неповторяющихся состояний / = io, ■ • •, im =/', таких что Р/,,;,+, > 0, тогда и /?,-,,,■,_,., > 0. Теперь проверим возвратность матрицы Р: если для первоначальной цепи Ра = 0, то возвращение в состояние / для обеих цепей происходит в рамках одного и того же события, следовательно, и вероятность возвращения в состояние i будет одна и та же для обеих цепей. Если рп > 0, то в новой
§ 1.6. Возвратность и невозвратность: случайные блуждания на кубических решетках цепи вероятность возвращения равна Р,-(возвращение в i после момента времени 1 в исходной цепи) = 1 ~~ Ра . что равно 1. С другой стороны, hP = h тогда и только тогда, когда hP = h, т.е. решения обоих уравнений совпадают. Следовательно, минимальное решение уравнения hP = h, у которого А,- = 1, совпадает с таким же решением уравнения hP = h. Следовательно, это решение тождественно равно 1, и новая цепь возвратна тогда и только тогда, когда таковой является первоначальная цепь. □ § 1.6. Возвратность и невозвратность: случайные блуждания на кубических решетках Единственный смысл времени в том, что все происходит не вовремя. А. Эйнштейн (1879-1955), американский физик, выходец из Германии Случайные блуждания на кубических решетках являются популярными и интересными моделями счетных цепей Маркова. Здесь мы имеем дело с «частицей», которая совершает скачки в моменты времени /= 1, 2,... из своего нынешнего состояния i e Zd в некоторую другую точку / g %d с вероятностью рц независимо от прошлой траектории. Мы уделим внимание, главным образом, однородным случайным блужданиям «по ближайшим соседям», для которых вероятности рц положительны только тогда, когда / и / являются соседними точками, и эти вероятности зависят лишь от направления от / к / (т.е. определяются вероятностями рд,у, где /" — точка, соседняя по отношению к началу координат 0 = (0, ..., 0)). При d = 1 решетка Zd — это просто множество целых чисел; случайное блуждание в этом случае определяется вероятностями р и q = 1 — р скачков вправо и влево. д=\-р р р -А 1 1 1 1 1 1 -10 12 Рис. 1.15 Такие блуждания на интуитивном уровне можно представлять себе как обобщенную версию модели блужданий пьяницы (или процесса рождения
Глава 1. Цепи Маркова с дискретным временем и гибели), см. также пример 1.2.3. Пространство состояний здесь — это / = = Z(=Z'), а матрица вероятностей перехода является бесконечной и имеет отчетливо выраженную «диагональную» структуру /. . \ Р = q 0 р О О q 0 р О О q 0 р (1.6.1) где элементы р и q расположены соответственно над и под главной диагональю, а остальные элементы матрицы — нули. Если d = 2, то I? — это квадратная решетка на плоскости; здесь мы будем рассматривать симметричное случайное блуждание «по ближайшим соседям», когда вероятности скачков в каждом из направлений одинаковы и равны 1/4. О = (0,0) Рис. 1.16 Такие блуждания интуитивно ассоциируются с бесконечным двумерным обобщением модели блужданий пьяницы. Если d — 3, то Z3 — это трехмерная кубическая решетка; интуитивно ее можно представить себе как бесконечный (во всех направлениях) кристалл. Тогда блуждание нашей частицы можно моделировать как перемещение одиночного электрона между тяжелыми ионами и атомами, расположенными в узлах решетки. Вероятность перемещения в один из шести соседних узлов равна 1/6. Можно также представить и многомерные модели для любого заданного d. При этом вероятность скачков равна \/(2d).
§ 1.6. Возвратность и невозвратность: случайные блуждания на кубических решетках 1/6 V 0 =(0,0,0) Рис. 1.17 Теорема 1.6.1. При d = 1 случайное блуждание «по ближайшим соседям» на Ъ невозвратно, за исключением случая р = q = 1/2, при котором случайное блуждание возвратно. Доказательство. Очевидно, что рассматриваемая ц.м.д.в. непри- водима, следовательно, достаточно проверить, является ли возвратным состоянием начало координат 0. Оценим Х^Роо • Заметим, что р8? о. п нечетно, (2А)! k k о». -щ^Р Q , n = 2k четно, (1.6.2) поскольку необходимо совершать одинаковое число шагов вправо и влево. Воспользовавшись формулой Стирлинга находим Далее, С п\ и \/27ш"+1/2е_" при гс->оо. (2ft)a+i/2 V^Kft2*+1 ■А* = тМ 2"(pq)*. (1.6.3) pq = p(\-p)^-, O^p^l, причем единственная точка, при которой достигается равенство: р = q = = 1/2. Другими словами, р := 4pq < 1 при р ф 1/2 и р = 1 при р = 1/2. Следовательно, учитывая, что рт и -=р*, получаем V^ („)(<<», р Vю 1=0°. ' <оо, р^1/2, = 1/2. (1.6.4) □ Теорема 1.6.2. Симметричное случайное блуждание «по ближайшим соседям» на Zd возвратно при d — 2 и невозвратно при d = 3 (а также при d>3).
Глава 1. Цепи Маркова с дискретным временем Доказательство. Пусть d — % опять рассмотрим некоторое фиксированное состояние, скажем 0 = (0, 0). Каждый замкнутый путь на 1? должен состоять из одинакового числа скачков влево и вправо и одинакового числа скачков вверх и вниз, см. рис. 1.18. -0 = (0,0) Рис. 1.18 Тогда вновь р$ — 0, если п нечетно. Полезной оказывается идея спроектировать случайное блуждание на ортогональные оси, повернув эти оси на угол тс/4. Между движениями, рассматриваемыми в старых и новых координатах, существует взаимно однозначное соответствие: старые координаты: цепь (Хп) новые координаты: цепь (Х'п) перемещение на вектор ±(1; 0) <-> перемещение на вектор ±-^=(1; 1) перемещение на вектор ±(0; 1) «-► перемещение на вектор ±-^=(—1; 1). В новых координатах, с точностью до множителя —=., скачки происходят вдоль диагоналей единичного квадрата. Это означает, что в новых координатах цепь (Х'п) образована парой независимых симметричных случайных блужданий «по ближайшим соседям» на Ъ (в горизонтальном и вертикальном направлениях). Возвращение в состояние 0 = (0, 0) означает одновременное возвращение в состояние 0 для каждого из этих двух блужданий. Следовательно, при п = 2k выполняется соотношение (1.6.5) „(2*) /(2*0! 1 \2 ^ 1 РФ- \k\k\ 22V ~Kft- ,(2*) Таким образом, J2 Роо — оо, и случайное блуждание возвратно. k "
§ 1.6. Возвратность и невозвратность: случайные блуждания на кубических решетках \ ч \ V \ ~^Х'* • 0='(0,0) • • • N • \ \ <\ Рис. 1.19 Рис. 1.20 При cf = 3 по-прежнему имеет место равенство /?gg =0, когда п нечетно. Если п четно, траектория возвращается в 0 = (0, 0, 0) тогда и только тогда, когда совершено равное количество скачков для каждой пары противоположных направлений (вверх/вниз, восток/запад, север/юг). Таким образом, С = v (2ft)! /l\2*_(2ft)! v /_ft!_\2m2* 2L, (i!)2(/!)2(/!)46J (ft!)2 2-s \i\j\l\) {&) ^ ;+/+/=* i+i+l=k (2ft)! / JMJ_J_ \p ft! 1 ^ (ft!)2lmaX/!/!/!j3*22* 2-/ /!/!/! 3*" Далее, i,/,/>0: ft! Ti/m = 3*. (1.6.6) i.i.120: поскольку эта сумма представляет собой число способов разместить k шаров в трех ящиках. При k = Зт можно также записать (Зт)! , (Зт) т\т\т\ > i\j\l\ ' если / + /' + / = Зт. (1.6.7) Действительно, предположим, что / < т < I. Тогда, переходя от (/л!)3 к /!/'!/!, мы либо а) заменяем «хвосты» (i + 1)... т и (/' + 1)... / в выражении для т\ на произведение (т + 1)... (т + 2т — i — /'), которое равно (т + 1)... / при / < т, либо б) заменяем хвост (i + 1)... т произведением (т + 1) ...j(m + 1)... (3/л - / - /'), которое равно {т + 1).. .j(m + 1).../ при j > т. В любом случае мы увеличиваем знаменатель, следовательно, уменьшаем дробь.
Глава 1. Цепи Маркова с дискретным временем Тогда при п — 2k — 6т имеем (бт) . (6т)! (1\6т(3т)\(1\3т /l\6m(3m)!/l\3m Ы (т!)з1з; ' ((3m)!)2V2y (m!)3 что в силу формулы Стирлинга эквивалентно величине з Чте№* (1.6.8) (1.6.9) лы Следовательно, YIPqq" < оо. Но при т ^ 1 выполняются неравенства р^ > (1/6)2р<60т-2) и р<60т) > d/6)W , т.е. рГ"2)^2рГ и P060m-446Vr- Таким образом, Е^^ЕСо+б'+^Х00- (1.6.10) и блуждание невозвратно. Подобный подход можно использовать и при рассмотрении решеток более высоких размерностей. Однако существует другой способ установить невозвратность для всех размерностей d > 3. А именно, спроектируем случайное блуждание (Х%) на решетке Ъй на трехмерную решетку, игнорируя все координаты, кроме первых трех. Спроектированная цепь (Х%го>) на Z3 остается неподвижной с вероятностью (d — 3)/cf, когда исходная цепь совершает скачки в тех направлениях, которые мы игнорируем, а когда новая цепь совершает скачки, она ведет себя как симметричное трехмерное блуждание «по ближайшим соседям»: l/(2d) P(XZ\=L±e«\Xr=i) 1 где l-(d-3)/d 6' е' = (1;0;0), е2 = (0;1;0), в3 = (0; 0; 1). а= 1,2,3, (1.6.11) См. рис. 1.21. (d - Ъ)/й V 1/(24) Рис. 1.21
§ 1.6. Возвратность и невозвратность: случайные блуждания на кубических решетках Очевидно, что если первоначальное cf-мерное блуждание возвращается в состояние 0 = (0, ..., 0), то блуждание-проекция возвращается в состояние (0, 0, 0). Следовательно, если исходное cf-мерное блуждание (X'jj) возвратно, то и цепь-проекция (Х%0>) возвратна. Но тогда если в (Х%0>) проигнорировать все моменты, когда цепь не меняет состояния, а учитывать лишь скачки, то полученное симметричное случайное блуждание «по ближайшим соседям» (Хп ) на Z3 также должно быть возвратным; см. теорему 1.6.3. Однако эта последняя цепь невозвратна. Следовательно, невозвратна и цепь (Х%). □ Симметричные случайные блуждания «по ближайшим соседям» часто называют простыми блужданиями. Перефразировав известное высказывание, можно утверждать, что в двумерном случае все дороги простого случайного блуждания приведут вас к начальному состоянию (или к любой другой заданной точке), тогда как в трехмерном случае (и в случае более высоких размерностей) это уже неверно. Различие между размерностью 2 и размерностью 3 возникает в огромном числе самых различных ситуаций фактически во всех областях математики. Завершая этот параграф, проанализируем связь между произвольной ц.м.д.в. (Хп) и цепью (Уп), полученной из цепи (Хп) путем фиксации лишь изменения состояний. Предположим, что Р = (рц) — это матрица перехода цепи (Хп). Тогда элементы (р,у) матрицы перехода для цепи (Уп) имеют вид _ (0, * = /, Рц = {_£!!_ ,,, (1-6.12) Цепь (Yn) часто называют цепью скачков цепи (Хп). Теорема 1.6.3. Если цепь (Yn) невозвратна, то таковой является и исходная цепь (Хп). Доказательство. Если цепь (Уп) невозвратна, то для любого состояния i выполняется равенство // — Р|((^л) возвращается в /) < 1. Далее, для (Хп) имеем //:= Pi((Xn) возвращается в i) = р„ + У^Рг/ Р/({Хп) достигает /) = /¥<• = ри + (1 - ри) V т-^— РМХ") Достигает i) ^ —г' ' — Ра ^ ри + (1 - pu)Y^Pii pi((Yn) достигает i), /¥'■
Глава 1. Цепн Маркова с дискретным временем поскольку если (Хп) достигает i из /', то это же справедливо и для (Yn). Последнее выражение не превосходит Ри + (\ -Ри)1< 1. Следовательно, /, < 1, и цепь (Хп) невозвратна. □ Мы вернемся к этому утверждению в дальнейшем и приведем альтернативное доказательство. Пример 1.6.4. а) Пусть (Хп, Yn) — простое симметричное случайное блуждание в Z2, стартующее из (0, 0); положим 7- = inf{O0: тах{\Хп\, |К„|} = 2}. Определите значения ЕТ и Р(Хт — 2 и YT = 0). б) Пусть (Хп)п^о — ц.м.д.в. с пространством состояний / и матрицей перехода Р. Что подразумевают, когда говорят, что состояние / G / возвратно? Докажите, что состояние / возвратно тогда и только тогда, когда оо J2 Рп = оо. где Ра обозначает элемент матрицы Рп с индексом (/, /). п=0 Покажите, что простое симметричное случайное блуждание в 1? возвратно. Решение, а) См. рис. 1.22. Если &, = Е,Ти hj = Pi(XrYT = 0), то с учетом первого шага в силу марковского свойства и симметрии мы получаем ь — 1 _i_ ь h — i _i_ fe(°-°> i «(-'.-о и _i i «t-'.Q) «(0,0) — 1 + «(-1,0). «(-1,0) — 1 Н—^—I g—' Й(-М) — 1 "1 2—' «(0,0)-«(-i,o), «(-i,o) - 4 + -4- + —2—- "(-i.-D-^-• 0 Рис. 1.22 Следовательно, 9 1 £7" = «(0,0) = 2- «(0,0) = 2- В силу симметрии, Р(ХГ = 2 и YT = 0) = \hm = \.
§ 1.6. Возвратность и невозвратность: случайные блуждания на кубических решетках б) Состояние / возвратно, если /,- = P(7',- < оо) = 1, где 71,- = inf{n ^ 1: Хп = = /}. Если Vi — это суммарное (общее) время, проведенное в состоянии i, то Pi(Vj^ k+ 1) равно PiM >k)Pi(Vl2k+l\Vk2k) = Pi(Vl2W = ... = /f+1. Тогда оо оо Е((У,) = £Р(Ю £) = £/?. ft^l k=0 С другой стороны, оо оо оо Следовательно, /; = 1 тогда и только тогда, когда J2 Ри ~ °°- п=0 Пусть теперь (Х„) — это простое симметричное случайное блуждание в Z2. Оно неприводимо, следовательно, достаточно проверить, что оо ^2 Ри = оо для одного состояния / G Z2, скажем начала координат (0, 0). я=0 Обозначим символом (Xf) проекцию (Хп) на диагональ {х = ±у} в Z2. Тогда (Xf) — это независимые простые симметричные случайные блуждания на -pZ, и возвращение в (0, 0) цепи (Хп) означает одновременное v2 возвращение в 0 для каждой из цепей (Xf). Далее, Ро(^2А = 0) = Qft^*. и С = Ро(^ = 0)Ро(^ = 0). Формула Стирлинга задает для р00 приближение / v/2 (2k)2k 1 \2 1 . sa ' — = —-, при k —> оо. Следовательно, оо оо п=0 А=0
Глава 1. Цепи Маркова с дискретным временем § 1.7. Инвариантные распределения: определения и основные факты. Положительная и нулевая возвратность. 1 Время — это река событий, и сильно ее течение; чуть что-то показалось на горизонте, оно уже унесено течением, и ему на место приходит что-то другое, которое тоже пройдет. Марк Аврелий Антоний (121 — 180), римский император Пусть (Хп) — это ц.м.д.в. с матрицей вероятностей перехода Р. Определение 1.7.1. Начальное распределение вероятностей X называется инвариантным (или стационарным), если оно сохраняется во времени. Это означает, что X/ = Р(*о =/) = Р(*1 =/) = ..■ = Р(Хп =}) = ... V/ е 1. (1.7.1) Поскольку Р(Хп =/) = Yl^'Pij — (^P")j' вектор X = (X,) является инвариант- i ным вектором матрицы Р (т. е. собственным вектором, соответствующим собственному значению 1): ХЯ = Х. Обозначим стационарное распределение тг. = (л,-) и будем подразумевать выполнение равенства тг.Р = 7г. без дополнительных напоминаний. Конечно, вектор л удовлетворяет еще двум дополнительным условиям: а) он лежит в неотрицательном ортанте (тт., ^ 0 V/ £ I) и б) он лежит в гиперплоскости £]п,- = 1. Если условие б) не выполняется, будем использовать обозначение [I вместо тс и назовем \i инвариантной мерой: \i = ((!,), [lP = [i, ^i, ^ 0 для любого состояния i. Следует различать два уравнения: тг.Р = 71 (уравнение инвариантности) и Ph = h (уравнение времени достижения). Пример 1.7.2. Рассмотрим (2 х 2)-матрицу перехода Тогда: а) если а + В > 0, то матрица имеет единственное инвариантное распределение -( Р 71 U + P'a + p/' б) если а = В = 0, тоЯ=( j и любой вектор (х, у) является инвариантным. □
§ 1.7. Инвариантные распределения. Положительная и нулевая возвратность. I Пример 1.7.3. Пусть a,b^N,a,b,NeЪ. Рассмотрим ц.м.д.в. с состояниями п = О, 1,..., N и переходами в соседние состояния (т. е. рождением и гибелью) с вероятностями р„ и qn = \ — рп переходов в п + 1 и п — 1 из п, заданными соотношениями рп = ХП/(ХП + [in), qn = \Ln/(kn + [in), где ХП = (Л/ -п)(а- п), \±n = n(b-(N -п)). Проверьте, что инвариантное распределение является гипергеометрическим. *i = ^7W— - « = 0,1,..., ЛЛ □ Инвариантное распределение может оказаться не единственным, если цепь имеет более чем один замкнутый сообщающийся класс. Она может иметь стационарные распределения, заданные на разных замкнутых классах; см. рис. 1.8. Стационарное распределение не может быть задано на открытом сообщающемся классе, поскольку щ всегда равно нулю для состояний /, принадлежащих открытым классам. Неединственность инвариантного распределения возникает только в случае, когда число замкнутых сообщающихся классов превышает 1, так как неприводимая матрица имеет не более одного стационарного распределения (т.е. либо одно, либо ни одного). Конечная неприводимая матрица Р всегда имеет единственное стационарное распределение. Если матрица Р является (счетной) неприводимой и невозвратной, то для нее не существует инвариантного распределения. Если матрица Р неприводима и возвратна, то возможны два случая: 1. Матрица Р имеет (единственное) стационарное распределение к. Тогда все вероятности тс,- положительны. В этом случае говорят, что матрица Р положительно возвратна (имеет положительную возвратность). 2. Для Р не существует стационарного распределения. В этом случае говорят, что Р имеет нулевую возвратность. Более точно, каждая неприводимая возвратная матрица Р имеет инвариантную меру ^i, для которой [iP = у. и все компоненты ц,- положительны. Однако сумма компонент может быть как конечной, так и бесконечной, и в определении 1.7.6 мы будем разделять эти случаи: У^ [ii < оо: Р имеет положительную возвратность, 2_]У-i = оо: Римеет нулевую возвратность. Отметим одну из особенностей. Решения уравнения ^Р = Ц при сложении и умножении на постоянную вновь являются решениями: (у.[ +^2)^ =
Глава 1. Цепи Маркова с дискретным временем = [i]P+[i2P и (c[i)P=c([iP). Следовательно, можно выполнить нормировку (i,/^H/ = 71,-, чтобы получить равенство J]jr./ = 1 (при условии, что J2[ij < i i } < оо). Мы видим, что для неприводимой цепи все инвариантные меры \i пропорциональны друг другу: [i' =c\l. В частности, для всех инвариантных мер все [ii положительны для любого i Е /. Перейдем к доказательствам приведенных выше утверждений. Ключевым утверждением, которое позволяет доказать вышеперечисленные свойства, является теорема 1.7.4. Положим 7»-1 Е* (ожидаемое число попаданий в i до возвращения в k), если i ф k (для 1 ^ п < 7ft), (1-7.2) 1, если / = k (начиная с п = 0). Здесь, как и в соотношении (1.5.4), 7* есть время возвращения в состояние k: 7* = inf[0 1: Xn = k]. (1.7.3) Тогда 0 ^ у* ^ °°- Рассмотрим векторы у* = (yf, / Е /), зависящие от параметра k Е /. Заметим, что /] Y? = 1 + У", Еа (число посещений / до возвращения в k) = i€' 'е/:<¥* =1+ЕН7*-1) = Е*7У (1.7.4) Теорема 1.7.4. 1. Для любого состояния k выполняются соотношения (Y*^)/:= ХД''^ = у/*' l^k (инвариантность), (1.7.5) /б/ и {ykP)k '■= ^2 Ч?Р>ь ^ " = Та (субинвариантность). (1.7.6) 2. Соотношение (ykP)k = 1 выполняется тогда и только тогда, когда состояние k возвратно. Следовательно, вектор у* является инвариантным, т. е. у* = ykP, тогда и только тогда, когда состояние k возвратно. 3. Если матрица Р неприводима и возвратна, то 0 < у* < оо V/, k€l.
§1.7. Инвариантные распределения. Положительная и нулевая возвратность. I Следовательно, для неприводимой и возвратной матрицы Р вектор у* является «истинно» инвариантным вектором со строго положительными и конечными компонентами. Доказательство. 1. В силу марковского свойства для любого т ^ 2 и состояний 1ф k и }ф k выполняются соотношения Р*(7* > т - 1, *„,_, = 1)рц = Pk(Tk >m-\, Хп-{ = i, Xm=j) (1.7.7) и Pk(Tk >m-l, *m_i = i)Pik = Pk(Tk = m, Xm-\ = i). (1.7.8) Тогда при / ф k имеем Y/* = Eft Y, ЧХ"=Я= E £k4Xn=j,Tk>n) = = Y pk{X„=J,Tk>n) = |<л<оо =pv+ E YPk^Tk>n~l'Xn-i=i'Xn=^ 2<n<oo i: i^k а это выражение в силу соотношения (1.7.7) равно Pkj + Е Е Pk(Tk >n~l< xn-i = 1)Рч = 2<n<oo i: i^k =fob/ +Y, E E*l ^ > "• *»=*>'/=fr*^- Далее, при i = & имеем (Y*^)ft = E Y'-p'* = 4*P** + E Y*/>f* = =pw+EE*( E ,(^п=о)л* = = Раа+ Е Е }Ek\(Tk>n,Xn = i)Pik, i: i^k l^n<oo а это выражение в силу (1.7.8) равно te+E E Pk(Tk = n + l,Xn = i)=pkk+ Y Pk(Tk = n) = i: \фк 1^п<оо 2<п<оо = Е Р*(7* = л) = Р*(7* <«>):=/*<1=Y*- 1<л<оо
Глава 1. Цепи Маркова с дискретным временем Отметим, что в вышеприведенных рассуждениях возвратность не использовалась. 2. Из последнего соотношения следует, что (укР)к = 1 тогда и только тогда, когда /* = 1, т. е. состояние k возвратно. 3. Если матрица Р неприводима, то для любых i,k£l существуют такие т, п ^ 0, что pyk > 0 и ркп* > 0. При условии, что матрица Р возвратна, вектор у* является инвариантным и, следовательно, у*Ят = у*Ял = у*. Таким образом, С другой стороны, 1=Т^£тЯт^Т,ЧЛ), т.е. yf^-L. П / Pik Теорема 1.7.5. Предположим, 4mo\x = {\Xi) — инвариантная мера: \хР = ^i и [Li ^ 0 V/ е I. Дополнительно предположим, что \Xk = 1 для некоторого состояния k. Тогда 1) Юу* ViG/; 2) для неприводимой и возвратной матрицы Р выполнено равенство H/ = Y*Vte/. Доказательство. 1)Из инвариантности и равенства [ik = 1 следует, что для любых j G / и п ^ 1 выполняется равенство V-i = 53 &рЧ = [-РЫ+Л WH = Pki + 53 53 V-iPnPn = i i: i^k фк 1 =Pkj+53 ркрц+53 53 v-ipnPii=■■■= 1фк 1фк 1фк = Pkj + ^PkiPij + ---+ 53 PkU ■ ■ ■ Pin-ti + 53 №РИ| • • • PU-Ф ¥* i| ,.../„_ i^ft (,i'i 1„-\фк Теперь в силу неотрицательности последнее выражение ограничено снизу величиной Р*№ = /, Ты > 1) + Р*№ =/, 7* > 2) + ... + Рк(ХП =/, Г* > л), а эта сумма стремится к у* при п —> со. 2) Пусть теперь матрица Р неприводима и возвратна. Тогда у* является инвариантным вектором: у*Я = у*. Значит, вектор [i = \i — у* тоже
§1.7. Инвариантные распределения. Положительная н нулевая возвратность. I инвариантен: (I = р[Я, и в силу п. 1. он неотрицателен: ^i; ^ 0 Vi G /, а при / = k вектор \ik = [ik - у* = 1 — 1 = 0. Далее, для заданного i е / существует такое п ^ 1, что pfk > 0. Тогда, поскольку i получаем, что (1(. = 0. Следовательно, (I = 0 и ^i = у*. П Мы видим, что для неприводимой возвратной цепи условие ^ = 1 определяет все ее поведение. Более точно, если ^i — ненулевая инвариантная мера, т. е. [iP = \i, [i, ^ 0 и ji* > 0 для некоторого состояния k, то Отсюда следует, что все ненулевые инвариантные меры связаны отношением пропорциональности ц' = фи все их компоненты конечны и строго положительны. В частности, все векторы у* пропорциональны: Y/V°=Y*. i,kel. (1.7.9) Заключаем теперь, что для неприводимой возвратной цепи возможны два случая: а) все ненулевые инвариантные меры [I таковы, что £ц,-<оо, (1.7.10) и б) все ненулевые инвариантные меры [I таковы, что J] № = оо. (1.7.11) /6/ Определение 1.7.6. В случае а) говорят, что неприводимая цепь Маркова (или матрица Р) положительно возвратна, а в случае б) — нуль возвратна. Если число состояний #/ конечно, то случай б) невозможен. Следовательно, неприводимая конечная ц.м.д.в. всегда положительно возвратна и имеет (единственное) инвариантное распределение тс = (тс,). Более того, стационарные вероятности тс,- строго положительны. Теперь видно, что в общем случае, если матрица Р положительно возвратна, то нормировка \ij/Yl№ =гСу приводит к (единственному) стаци- онарному распределению, у которого все тс,- положительны. Тогда у* можно восстановить, выполнив деление: у* = 1тс, т.е.у? = ^. (1.7.12) Другими словами, нами получена следующая теорема.
Глава 1. Цепи Маркова с дискретным временем Теорема 1.7.7. В неприводимой положительно возвратной цепи со стационарным распределением к для любых состояний k Ф i выполняется равенство Еа(число попаданий в /, прежде чем цепь вернется в k) = —. (1.7.13) Для случая i = k имеет место следующий результат. Теорема 1.7.8. В неприводимой положительно возвратной цепи со стационарным распределением к для любого состояния k выполняется равенство mi, := EfcTi = среднее время возвращения в состояние k = — < оо. (1.7.14) Доказательство. Из уравнения (1.7.4) мы находим, что Eft7* = l+Eft(7-ft-l)=l+ Y, Y* = $>*<«>. i: ijtk i Таким образом, Етс, 1 — = —, откуда следует, что т* = 1/щ. □ Мы завершим этот параграф подведением итогов по утверждениям относительно возвратности и невозвратности, приведенным выше. 1. Для переходных вероятностей неприводимой ц.м.д.в. с более чем одним состоянием справедливы неравенства 0<р;т < 1 для всех состояний /, j £ /, где т ^ 1 может зависеть от i и / (поглощение отсутствует). 2. Неприводимая ц.м.д.в. (Хп) может быть невозвратной или возвратной: а) невозвратность: Р,-(время возвращения 7} < оо) < 1, т. е. P,-(7i = оо) > > О V/ £ /. Или, что эквивалентно, Pi((Xn) не посещала i после какого-то конечного момента времени) = 1 и ^Г р-"' < оо V/ £ /, или, что эквивалентно, hj1' = РДпопасть в /) < 1 для некоторых состояний у и i; б) возвратность: Р/(время возвращения 7} < оо) = 1, т. е. Р;(7} = оо) = О V/ £ /. Или, что эквивалентно, Pi((Xn) может попасть в / в бесконечно большие моменты времени) = 1
§1.8. Положительная и нулевая возвратность. II и J2 Ри = оо V/ G /, или, что эквивалентно, hj1' — Ру (попасть в i) = 1 для всех состояний /' и i. В этом случае для любого i для вектора у' = = (у') из равенства (1.7.12) вытекает, что 0 < у) < оо, и этот вектор задает инвариантную меру для (Xi); все такие инвариантные меры имеют вид ау'. В частности, вектор у* = (у^)-1 х вектор у' для любых состояний i, k. 3. Далее, для неприводимой возвратной ц.м.д.в. может выполняться следующее: а) нулевая возвратность: т,- = ЕДвремя возвращения 71,) — со Vi G /; в этом случае не существует такой инвариантной меры \х= (^,), что ^\Xj < I < оо; следовательно, не существует стационарного распределения; б) положительная возвратность: /л,- < оо Vi £ /; в этом случае для любой инвариантной меры \i = (^,) справедливо неравенство J2 My < °° i и существует единственное стационарное распределение тс = (тс,), где щ = = ==Р— > 0; в этом случае у* = т^тс, Е,Т,- = — и i Е,(время, проведенное в k до Т}) = — для любых состояний i, k. Конечная неприводимая ц.м.д.в. всегда положительно возвратна. § 1.8. Положительная и нулевая возвратность. II Не зиать того, что было сделано в былые времена, означает навсегда остаться ребенком. Не извлекая никакой пользы из прошлого, человечество навсегда останется в младенчестве. Марк Тулий Цицерон (106—143 до н.э.), римский оратор и государственный деятель В этом параграфе мы будем работать с начальным распределением Х = 8,, т. е. будем рассматривать цепи, стартующие из определенного состояния, и использовать обозначения Р,- и Е,-. Предполагаем, что пространство состояний / счетно. Чтобы упростить формулы, будем опускать индекс /: утверждения типа «Vi» означают Vi G /. Мы также предполагаем, что переходная матрица Р рассматриваемой ц.м.д.в. (Хп) неприводима. Начнем с повторения определений 1.5.1 и 1.7.6. Напомним, что Т[ = min[n ^ 1: Хп = i] обозначает время возвращения в состояние i.
Глава 1. Цепи Маркова с дискретным временем Определение 1.8.1. Положим /, = Р,-(7/ < оо) и /л,- — EJi. Состояние i называется возвратным (В), если /, = 1, или J2Pu<00< или п Pi(Xn = i для бесконечного числа п) = 1, положительно возвратным (ПВ), если т, = Е,Т, < оо, с нулевой возвратностью (НВ), если /л,- = Е,Т, = оо, но /< = 1, невозвратным (И), если /; < 1, или JZp'f < оо, или п Р,(^п = / для бесконечного числа п) — 0. (1.8.1) Эти свойства являются свойствами класса, и если переходная матрица Р неприводима, то все состояния ПВ, или НВ, или Н. Определение 1.8.2. Для 1 = 0, I,... определим последовательные времена возвращения Я(/) (= Н] ) в состояние / соотношениями Я(0) = О, Я<'> - Т\{) и Я,!" = inf[Otf-/_1)+ !:*„ = /], />1. (1.8.2) Разности 7</>_К,-"Г,). еслиЯГ"<оо, Т> '{О, если //«-'» = оо, (18'3) задают времена между (/ — 1)-м и /-м моментами возвращения в состояние / или продолжительность 1-й экскурсии из состояния /, /= 1, 2, ... Очевидно, Т^ = Тс см. рис. 1.23. «Живите всегда в интересные времена возвращения». (Из серии «Так говорил суперлектор».) Анализ положительной и нулевой возвратности, проведенный выше, в сочетании со строго марковским свойством приводит к следующему результату. Теорема 1.8.3. Предположим, что цепь (Хп) возвратна, и пусть i — произвольное состояние. При заданном распределении Р, случайные величины ц , Т\ , ... н.о.р., принимают значения из Z+ и конечны с вероятностью 1. Это означает, что при всех k ^ 1
§ 1.8. Положительная и нулевая возвратность. II Н*р: 1-е время возвращения в состояние / 7"/": продолжительность /-Й экскурсии из состояния i „(1) Я(2) время Рис. 1.23 и t\, ... tk £ Z+ выполняется равенство Pitf (i)_ t\ (k)-h) = = 0 = 1. (1.8.4) Ц Pi{Ti = tl) и Y, PW l</<ft /=1,2,... Далее, средние значения удовлетворяют условию 1/тс,-, если цепь (Хп) положительно возвратна, т, := Е,Т,- = < оо, если цепь (^п) имеет нулевую возвратность (1.8.5) или невозвратна. Здесь тс = (тс,) обозначает (единственное) стационарное распределение для положительно возвратной ц.м.д.в. (Хп). Приведенный пример независимых одинаково распределенных случай- / \ т(1) т(2) ных величин (н.о.р.с.в.) /> , Т- , ... довольно интригующий, так как их (совместное) распределение определяется переходной матрицей Р и меняется довольно сложным способом при изменении Р. Таким образом, чтобы проанализировать последовательность (7/ ), нужно разработать общую теорию н.о.р.с.в. (в частности, это один из важных мотивов для разработки этой теории). В качестве примера одного из основных утверждений о н.о.р.с.в., который мы будем использовать в следующей главе, приведем «усиленный» закон больших чисел (з.б.ч.) для последовательности (7/ ). Теорема 1.8.4. С вероятностью 1 среднее 1(7.(.) п ' г(2) <")\ + 7*" + ... + Т\п>)
Глава 1. Цепи Маркова с дискретным временем стремится к математическому ожиданию mi (приведенному в соотношении (1.8.5)) при п —> оо. Это означает, что P'(£mj£77, = '»') = 1- (1'8-6) Мы не будем обсуждать доказательство теоремы 1.8.4; заинтересованный читатель может прочитать его в книгах [D], [GS1], [Stl]. Пример 1.8.5. Случайные блуждания на Zd. а) Симметричное случайное блуждание «по ближайшим соседям». Мы уже знаем, что симметричное случайное блуждание «по ближайшим соседям» на Zd (называемое также простым случайным блужданием) возвратно при d=\ и d = 2 и невозвратно при d = 2>. Рассмотрим сначала случай d=\. Уравнения инвариантности в этом случае принимают вид и, очевидно, имеют неотрицательное решение л,- = 1 (единственное с точностью до положительного множителя). Поскольку сумма ^ 1 расходится, то блуждание имеет нулевую возвратность. '6Z Следовательно, любая инвариантная мера X ^0 имеет компоненты X,- = = const > 0. Тогда V/ ф k у* = Е^(числа посещений состояния /, прежде чем цепь вернется в k) — 1. (Это может показаться несколько удивительным, так как можно было бы ожидать, что должно выполняться неравенство 1 < у%+1 < у*+2 < ...) Точнее, Pk(числа посещений состояния /, прежде чем цепь вернется в k, равно п)= См. также пример 1.8.7 ниже. Кроме того, trik = Е^(время возвращения в k) = оо, k e Z. При d = 2 уравнения инвариантности выглядят аналогично: п<''ь'2) = 4 Z-s(n('i±i.h) + t(j|,i2±i)). L=(h, k) e Z2, и опять решением является jij = 1. Следовательно, блуждание имеет нулевую возвратность и, как и выше,
§1.8. Положительная и нулевая возвратность. II При d = 2> мера к,^= 1 по-прежнему является инвариантной (что в действительности верно вообще для всех d). Однако, поскольку блуждание невозвратно, векторы у- являются субинвариантными, а не инвариантными. Следовательно, тождество у~ = 1 уже не выполняется, хотя по-прежнему ГПк = ОО. б) Асимметричное случайное блуждание «по ближайшим соседям» на Z. Уравнения инвариантности в этом случае имеют вид щ = р%1-1 +(1 -р)к1+\, ieZ, где р ф 1/2. Случайное блуждание невозвратно. Общее неотрицательное решение *-МтУ зависит от двух параметров Л, В > 0 и не удовлетворяет условию ^тс,- < оо. i Мы видим, что не все инвариантные меры X пропорциональны. В этом случае опять векторы у* являются субинвариантными, а не инвариантными. Кроме того, они у* уже не могут быть представлены в виде Х,/Х*, где X — некоторая инвариантная мера. Однако, как и прежде, rtik = оо, поскольку 1 — fk = Р* (возвращение в k за конечное время не происходит) > 0. □ Пример 1.8.6. Однородный процесс рождения и гибели. Этот процесс является случайным блужданием на Z+, таким что Pu+i = р, рц-1 = 1 - р, i ^ 1, Po\=Q, Poo = 1 - Q, где 0 < р, q < 1. Рассмотрим случай 0 < <7 < 1 и 0 < р < 1, когда цепь неприводима. Тогда классификация такова: р < 1/2 : положительная возвратность, р = 1/2 : нулевая возвратность, р > 1/2 : невозвратность независимо от значения q. Действительно, уравнения инвариантности щ = рщ-1+(\-р)к1+и />1, я, =ф1о + (1 -р)тс2, 710 = (1 -<7)7t0 + (l ~Р)Щ, как и выше, имеют решение тс, = Л + В(р/(\ - р))\ / > 0.
Глава 1. Цепи Маркова с дискретным временем При р < 1/2 имеет смысл свести число параметров к одному, т.е. положить /4 = 0. Для i = 0, 1 мы получаем одно и то же уравнение q%o = pB. Чтобы нормировать, запишем 1=fl(E + fg- + ^ + .,.WE+ P/0-P) Л=Д'(1-2'9+0 V<7 i-p (1-р)2 / \д \-р/(\-р)) 9(1-2/7) откуда следует, что В = —^ Ртг-г. Таким образом, /7(1+9-2/7) яо 1-2/7 q p V ... + 9-2р' pV -P/ и цепь является положительно возвратной, что и утверждалось. Далее, при р < 1/2 выполняются соотношения у* = Е^числа посещений состояния /, прежде чем цепь вернется в к) — (jZT'J . 0<i, k<oo, i^ k, = *L = )l(_^_\\ 0 = *<i<oo, Kk p Vl ~pJ P(LLE)\ 0 = 1<к<оо, \q\ p ) гПк = Е*(время возвращения в k) = —, k G Z+. л* При p ^ 1/2 мы должны рассмотреть /,- = Р/(У,- < со). Записав Р0(7'о < со) = 1 - q + <7 Pi (достичь 0), мы видим, что если Pj (попасть в 0) < 1, то цепь невозвратна. Однако Р, (достичь состояния i — 1) = -, i ^ 1; Р см. § 1.5. Следовательно, при р > 1/2 цепь невозвратна. Остается рассмотреть случай р = 1/2. В этом случае /,• = 1 и цепь возвратна. Уравнения инвариантности 1 , 1 • . П/ = 2П'-1 + 2П'+|' l > ' имеют общее решение п,- = А + Bi, / ^ 1. При /=1,0 эти уравнения имеют вид Tti = ^к0 + 2^2, Ло = (1 -<7)по + 271!'
§1.8. Положительная и нулевая возвратность. II откуда следует, что В = 0 и 71/ = Л, г^1, по = ^--4, и неотрицательные инвариантные меры соответствуют значениям /4^0. Мы видим, что 5D П/ < оо только при /4 = 0. Таким образом, цепь не имеет / стационарного распределения и, следовательно, имеет нулевую возвратность. Значит, при р = 1/2 справедливо следующее: а) все неотрицательные инвариантные меры X = (X,) взаимно пропорциональны, и каждая такая мера, не равная 0 тождественно, имеет компоненты X/ = А > 0 при i ^ 1 и Хо = A/(2q) > 0. Кроме того, б) все векторы у*, k ^ 0, должны быть инвариантными и, следовательно, взаимно пропорциональными. При такой нормировке, что у% = I, единственно возможными являются случаи а) Y? = 1 и Yo — 1/(2<7) Vfc, i ^ 1 и б) у? = 2<7 Vi ^ 1. (Это выглядит еще более удивительным, так как можно было ожидать, что при k ^ 1 должно выполняться неравенство То < • • • < YJU < Yfe_i < 1 < Yft+i < Yft+2 < • • • . и в силу асимметрии модели нет никаких видимых оснований предположить, что возможно равенство у\_{ =Y*+i-) Наконец, нетрудно проверить, что yf = Р*(числа посещений состояния /, прежде чем цепь вернется в к, равно п) = (щ^) (l - а^)" *i > * > 1, как и в случае симметричного случайного блуждания на Z. □ Cherchez la Gamme: a Musical On Vectorial Return Times5 Ищите Гамму: мюзикл о векторных временах возвращения (Из серии «Фильмы, которые не вышли на большой экран».) Пример 1.8.7. Пусть X = (Хп: п ^ 0) — случайное блуждание на множестве целых чисел, причем шаги влево либо вправо совершаются с вероятностью 1/2 в любой момент времени. Покажите, что /1\2п Р(*2„ = 0|*о = 0) = СЦ±) , и докажите, что ц.м.д.в. X возвратна. 5Игра слов, ср. «Cherchez La Femme» («Ищите женщину»).
Плава 1. Цепи Маркова с дискретным временем Пусть Хо = 0, т — натуральное число, а N — случайное число попаданий в точку т, прежде чем цепь вернется в 0. Найдите P(N > 1) и докажите, что Решение. Изучим вероятность Р(Хгл = 01 Xq = 0) = р0$ того, что траектория длины 2я, которая начинается в точке 0, возвращается в точку 0 через 2я шагов. Каждая такая траектория должна состоять из п шагов вправо и п влево. Общее число таких траекторий равно С!!п, и вероятность каждой из них равна (1/2)2л. Эти рассуждения и приводят к формуле для Р(*2л = 0|*0 = 0). оо оо Сумма J2 Р(^л = 0|^о = 0) совпадаете £ Р(Х2л = 0|Х0 = 0) (возвраще- л=1 л=1 ние за нечетное число шагов невозможно), и ее можно оценить при помощи формулы Стирлинга: п\ и у/2кпп+^2е~п. Это приводит к ряду J2 1/\/^"> п который расходится. Таким образом, в силу теоремы о том, что состояние возвратно тогда и только тогда, когда YlPu ~ °°> заключаем, что п состояние 0 возвратно. Эти же аргументы можно использовать и для любого состояния /. Следовательно, цепь возвратна. (Это же утверждение следует из другой общей теоремы о том, что возвратность является свойством класса.) Символ Р будет означать здесь Ро, т. е. распределение цепи (So, P). Тогда P(yV > 1) = Ро(побывать в т перед возвращением в 0). Взяв условную вероятность по первому шагу, запишем P(N ^ 1) = - Р)(побывать в т перед возвращением в 0), где Р, обозначает распределение цепи (8,-, Р). Положим А,- = Р,(побывать в т перед возвращением в 0), тогда Общее решение имеет вид А,- = A +Bi. Из условий А0 = 0, Ат = 1 находим, что А = 0, В = 1/пг. Следовательно, Н\ = \/т и P(yV > 1) = l/(2m). Очевидно, 1 - т— = P(N = 0) = Ро(вновь попасть в 0, прежде чем попасть в т).
§ 1.8. Положительная и нулевая возвратность. II В силу симметрии Рт(вновь попасть в т, прежде чем попасть в 0) = 1 - ^—. Для того чтобы траектория, начинающаяся в точке 0, попала в событие {N = п} при п > 1, она должна пройти через т, прежде чем вернуться в 0, п - 1 раз вернуться в т, не попадая ни разу в 0, и лишь затем устремиться в 0, уже не возвращаясь в т. В силу строго марковского свойства '<" = "> = 2^0-гУ 2т' где последний множитель равен Рт(попасть в 0, прежде чем вернуться в т) и получен опять в силу симметрии. Отсюда и следует требуемый результат. □ Пример 1.8.8. Рассмотрим цепь Маркова с пространством состояний S = {0, 1, 2, ...} U {1', 2', 3', ...} и вероятностями перехода, показанными на рис. 1.24, где 0 < q < 1 и р = 1 - ц. ^Q^®^®^®-^ ■■■ Рис. 1.24 Для каждого значения q определите, является ли цепь невозвратной, положительно возвратной или имеет нулевую возвратность. В случае, когда цепь положительно возвратна, вычислите инвариантное распределение. Решение. При i ^ 1 положим а = Р,(достичь / - 1), b = Р,'(достичь /) (эти вероятности не зависят от значения / в силу однородности рассматриваемой цепи). Вычисляя условные вероятности относительно первого скачка и используя строго марковское свойство, находим а = q + pba2, b = q + pba, откуда следует, что b = r^, и a = q+ pqa2 I-pa' 4 1 - pa'
Глава I. Цепи Маркова с дискретным временем Таким образом, p(l+q)a2-{pq+l)a + q = 0, и решениями являются 1 Я а= 1 и а = Нас интересует минимальное решение а , у/Ь- 1 2 < I, что достигается тогда и только тогда, когда q < —~—. Следовательно, цепь возвратна тогда и только тогда, когда q > (\/5 — 1)/2, и невозвратна тогда и только тогда, когда q < (\/5-1)/2. Чтобы определить, имеет ли место нулевая или положительная возвратность, рассмотрим уравнение инвариантности л = пР, эквивалентное системе уравнений 7io = Щ<7. Я; = Щ+\Я + Ki>q, / > 1, 71)/ = ТСо, ТС/' = 7С(,_1)'Р + TZi-lp, l' > 2. Эти уравнения допускают рекуррентное решение: 1 711 = -710, 711/ = ТСО, тс2 = (1 - l)rc0 = ^^^о, тс2/ = {\-q)(\ + i)тю = ^_яо, и аналогично По индукции находим общие формулы l/l-flV-' /1-о2\«'-' to. и стационарное распределение существует тогда и только тогда, когда оба ряда, составленные из п,- и п,-/, сходятся, что выполняется при (1 - q2)/q < < 1, т. е. q>(y/5 — l)/2. Следовательно, цепь имеет нулевую возвратность, когда q = (\/5 - 1)/2, и положительно возвратна, когда q > (у/5 - 1)/2. В последнем случае '^(И^)' ?2 + ?-i <72 + 2?
§ 1.8. Положительная и нулевая возвратность. II В счетном пространстве состояний много точек. Больше, чем звезд на небе, и намного больше, чем песчинок в песках Сахары. (Из серии «Так говорил суперлектор».) Пример 1.8.9. Пусть (Wn) — это процесс рождения и гибели на Z+ = = {0, 1, 2, ...} со следующими вероятностями перехода: 1 -^ I Ри+1 =Ри-\ = 2' 1 * '• Р01 = 1- Сопоставляя (Wn) с симметричным простым случайным блужданием (У„) на Z или иным способом, докажите, что (Wn) — это возвратная ц.м.д.в. Докажите, что (Wn) имеет нулевую возвратность. Вычислите векторы у* = (у?, ' е ^+) А"я иепи (W«)> & G Z+. Наконец, пусть Wq = О, а N — число посещений состояния 1, прежде чем цепь вернется в 0. Покажите, что Po(N = п) = (1/2)", п > 1. Решение. Заметим, что (Wn) является неприводимой ц.м.д.в. Кроме того, W„ = |У„|, где (Yn) — симметричное случайное блуждание «по ближайшим соседям» на Z. Следовательно, P|i|((Wn) возвращается в i) > Р<((УЛ) возвращается в /) Vt G Z, но правая часть равна 1, так как цепь (Yn) возвратна. Следовательно, вероятность в левой части также равна 1, и цепь (Wn) также возвратна. Чтобы проверить нулевую возвратность, достаточно доказать, что цепь (Wn) не имеет стационарного распределения. Рассмотрим уравнения инвариантности 1 . 1 rco = 27ti. ^i=^o + 27t2. Уравнение во второй строке имеет общее решение вида гс; —А + Bi, i > 1. Из первой строки находим В = 0 и тсо =А/2. Следовательно, любая инвариантная мера тс имеет вид щ = А, />1, л0 = 2^. где А > 0. Для этой меры £}я,- = оо, за исключением случая, когда А = 0. Таким образом, стационарное распределение не существует и цепь (Wn) имеет нулевую возвратность.
Глава 1. Цепи Маркова с дискретным временем Следовательно, для ц.м.д.в. (Wn) выполняется равенство 1, i, k ^ 1 или / = k = О, Y? = J = <l/2, i = 0, *>1, [2, г>1, k = 0. Далее, в силу строго марковского свойства P0(N = n) = P0(N>l)x х (Р[ (возвращение в 1 без прохождения цепи через 0))п_1х х Pi (достичь 0 без возвращений в 1) = ^. Действительно, Po(N^l) = l (так какро1 = 1). Pi (возвращение в 1 без прохождения цепи через 0) = 1 — р\о = -г (так как цепь достигает 0 из 1 с вероятностью 1/2 и возвратна) и Pi (достичь 0 без возвращений в 1) = рю=~- □ § 1.9. Сходимость к положению равновесия. Предельные пропорции Время есть образ вечности. Лаэрт Диоген (II в. и. э.), греческий писатель Сходимость к положению равновесия означает, что с течением времени ц.м.д.в. «забывает» свое начальное распределение X. В частности, если Х = 8(,), мера Дирака, сосредоточенная в состоянии i, ц.м.д.в. «забывает» о начальном состоянии /. Очевидно, такое поведение цепи связано со свойствами я-кратной матрицы перехода Рп при п —> оо. Рассмотрим сначала случай конечной цепи. Теорема 1.9.1. Предположим, что (т х т)-матрица перехода F1 поэлементно сходится к предельной матрице П = (гс,/) Wmpf = ityYi,j^I. (1.9.1) Тогда а) каждая строка п(,) матрицы П задает инвариантное распределение ГС(,)Я = ГС(<) или Щ) = Y^ KilPlj.
§1.9. Сходимость к положению равновесия. Предельные пропорции б) Если матрица Р неприводима, то все ее строки к^ совпадают: п(|) = ... = п^ = п. В этом случае lim P{Xn=j) = Kj п—»оо для любого j G / и любого начального распределения X. Доказательство, а) Для любого состояния / можно записать /е/ б) Если матрица Р неприводима, то все строки 7i(/) матрицы П совпадают между собой, так как существует единственное инвариантное распределение. А также, lim Р(*„ =/) = lim y>/?{f = Y>i Mm pf = щ. (1.9.3) ' '' П Для счетной цепи в уравнении (1.9.2) следует обосновать возможность менять порядок перехода к пределу и суммирования. Однако формула (1.9.3) остается верной и в общем случае, при условии, что нам известно, что матрица Рп сходится к матрице П, у которой строки равны между собой и представляют собой инвариантное распределение п. Итак, когда же эта сходимость Рп —> П имеет место? Простой контрпример, когда такая сходимость невозможна: Р=\. Л- Здесь 1, «четно, II, п нечетно. В общем случае рассмотрим (т х т)-матрицу которая соответствует рис. 1.25. Тогда Р2 отвечает рис. 1.26 и так далее, т-я степень Рт — I соответствует рис. 1.27. Рисунок затем повторяется по модулю т. Опять стационарное распределение единственно: п = (1/т ..., 1/т).
Глава 1. Цепи Маркова с дискретным временем в ' „в _. х— ъ . т 2 \ т / \ \ V_o 3» (=}(Г>0 .3 Рис. 1.25 Рис. 1.26 Рис. 1.27 Мы знаем, что в этих примерах матрица Р периодическая. Напомним, что матрица Р — апериодическая тогда и только тогда, когда р» > О для всех достаточно больших п V/ € /. (1.9.5) Более того, если матрица Р неприводима, то p\f > О для всех достаточно больших п V/, /' G /. (1.9.6) Теорема 1.9.2. Предположим, что матрица Р неприводима, апе- риодична и положительно возвратна. Тогда Р" —► П при га —» со. Элементы в столбцах матрицы П постоянны. Иными словами, столбцы матрицы П состоят из повторений одного и того же вектора к, где к — (единственное) стационарное распределение для Р. Следовательно, неприводимая, апериодическая и положительно возвратная цепь Маркова забывает свое начальное распределение: lim P(Xn=j) = Kj VX ujel. n—»oo Доказательство. Рассмотрим две цепи Маркова: (Х„), заданную парой (8(,), Р), и цепь (Х„ ), заданную парой (к, Р). Тогда pf = Pi№=j), щ = Р№=1). Чтобы оценить разность между этими вероятностями, мы определим их «общую часть», склеив эти две цепи Маркова, т. е. рассматривая их совместно. Одна из возможностей — рассмотреть их как одну цепь Маркова, состоящую из двух независимых компонент. Это означает, что мы рассматриваем цепь Маркова (У„) на / х /, состояниями являются (k, l) где k,l£l, переходные вероятности имеют вид P{k,i)(u,v) = PkuPiv, k, I, u,ve I, (1.9.7)
§ 1.9. Сходимость к положению равновесия. Предельные пропорции а начальное распределение Р(Уо = (й, /)) = !(A = i)n,, А,/€/. Однако, лучший способ — рассмотреть цепь (Wn), вероятности перехода которой равны nw fpkuPiv, еслиА^/, P(kM".v) = S ,, ч и i k,l,u,vel, (1.9.8) ypku\(u = v), еслиА = /, а начальное распределение такое же, как и выше: P(W0 = (k, /)) = 1(A = i)Ji/, A, /€/. (1.9.9) В самом деле, уравнение (1.9.8) определяет матрицу вероятностей перехода на / х /: все ее элементы р^ыци в)^0и суммы элементов по строкам равны 1. Проверим это: {T,PkuT,Piv< еслиА^Л bJ если A = z} = 1- Далее, частичное («маргинальное») суммирование приводит к исходным вероятностям перехода Р Еи/ v~~^ \(/ P(k,l)(u,v) — Рки, 2^^(М(",«) — P'v Образно говоря, две компоненты цепи (Wn) по отдельности ведут себя как (Х„) и (X*); рассматриваемые совместно, они эволюционируют как независимые компоненты (т.е. как в (У„)) до того (случайного) момента времени Т, когда они совпадают Т = Ы[п^\:Х^=ХЦ после которого они движутся синхронно. Следовательно, <-*у = рЧл«=/)-рЧа;=/). Записав Р w(X® = /) = Р (Л*0 = /, Г ^ я) + Р(Х« =j,T>n) (1.9.10) и pw(^=y) = pW(^=A7-^n) + Pw'(^=A 7->я), (1.9.11)
Плава 1. Цепи Маркова с дискретным временем замечаем, что первое слагаемое в каждой сумме одно и то же: Р"(Х® = },Т^п) = Pw(K='h Т < «), так как события {Хп' = /, Т^п} и {X%=j, T^.n} совпадают. Следовательно, pf - к, = Р(Х® =j,T>n)-P(Fn=j,T> п) \pf ~ Щ\ ^ Pw(T>n) = PY(T>n). (1.9.12) Эта оценка называется неравенством спаривания (склейки). Таким образом, достаточно проверить, что PY(T > п) —> 0, т. е. Р(Г < < оо) = 1. Но (Y„) является неприводимой положительно возвратной цепью Маркова. (Неприводимость следует из того факта, что исходная матрица Р является неприводимой и апериодичной (см. уравнение (1.9.6)), а положительная возвратность следует из того факта, что (У„) имеет инвариантное распределение (п х п)^,п = тс^тс/.) Следовательно, в силу теоремы 1.5.9 для любых состояний / G / Р1'(Г(/./)<оо) = 11 где Так как Т ^ Тцд, отсюда следует требуемое утверждение. □ В случае конечной неприводимой апериодической цепи можно доказать, что скорость сходимости р\" к гсу — геометрическая: см. теорему 1.9.3. В действительности, если конечная ц.м.д.в. неприводима и апериодична, то существуют такие m > 1 и р € (0, 1), что р\^ > рдля любых состояний Z, /'. (1.9.13) Теорема 1.9.3. Если Р — конечная, неприводимая и апериодическая матрица, то для любых состояний i, j выполняется неравенство |p<;)-7t/|^(i-Pr/m-1, (1.9.14) где тир такие, как в неравенстве (1.9.13). Доказательство. Повторяем ту же схему доказательства, что и в теореме 1.4.2 мы должны оценить PY(T> n). Но для конечного случая можно записать «е/ ие/ т.е. P%j>(T>m)^(l-p)\/k,l€l.
§ 1.9. Сходимость к положению равновесия. Предельные пропорции Тогда в силу строго марковского свойства т\ ^Pw{T>m)Wm\ откуда и следует утверждение теоремы. □ Поучительным является следующий пример. Пример 1.9.4. Рассмотрим колоду карт, пронумерованных 1, 2,..., 52. Процесс тасования карт происходит следующим образом: мы снимаем верхнюю карту и помещаем ее случайным образом равномерно на одну из 52 возможных позиций, т. е. либо вновь на верхнюю позицию, либо под колоду, либо на одну из 50 позиций между другими картами. Как долго в среднем будет продолжаться этот процесс тасования до того момента, пока самая нижняя карта не окажется сверху? Пусть рп обозначает вероятность того, что после п итераций карты окажутся расположенными в возрастающем порядке. Покажите, что, независимо от начального порядка карт, рп имеет предел при п —> оо, и вычислить этот предел р. Сформулируйте точно все общие результаты, на которые вы будете ссылаться. Покажите, что, по крайней мере до того момента, пока нижняя карта не достигнет верхней позиции, порядок карт, которые будут располагаться под ней, является равномерно случайным. С помощью этого факта или иными рассуждениями покажите, что для всех п выполняется неравенство \рп -р\^ 52(1+ log52)/я. Решение. Занумеруем позиции, на которых могут находится карты, числами 1,2,..., 52, где 1 обозначает нижнюю позицию. Предположим, что нижняя карта достигла позиции т. Тогда верхняя карта может находиться где-то ниже с вероятностью т/52. Среднее время наступления такого события удовлетворяет уравнению &т = ' ( — 'ко ) т' откуда находим km = 52/m. Тогда общее среднее время достижения верхней позиции равно A,+... + A5i = 52(l + i + ... + !■). Тасование карт представляет собой цепь Маркова на множестве перестановок «S52 (группе перестановок). Эта цепь апериодическая, поскольку, сняв верхнюю карту, мы вновь можем положить ее на прежнее место. Эта цепь является также неприводимой, поскольку можно прийти к состоянию, когда карты расположены в возрастающем порядке: нужно всякий Pw(T>n)^Pw(T>
Глава 1. Цепи Маркова с дискретным временем раз, снимая верхнюю карту, класть ее на дно колоды, до тех пор пока на дне не окажется карта 1, затем, снимая верхнюю карту, класть ее на вторую позицию и т. д. В силу симметрии равномерное распределение на 5б2 является инвариантным. Следовательно, в силу теоремы о том, что для неприводимой апериодической цепи Маркова (Хп) со стационарным распределением и — (тс,-) выполняется соотношение lim P(Xn = j) = п; V/, получаем л—>оо ШоорП = Р = ^. Наконец, предположим, что в процессе тасования под нижнюю карту подложено k карт и эти карты упорядочены случайным образом, с равными вероятностями для каждого возможного порядка. Когда мы будем перекладывать следующую карту (под ту, что была первоначально нижней), то она равновероятно может оказаться на одной из k + 1 позиций, т. е. k + 1 карта по прежнему будут упорядочены случайным образом. По индукции это рассуждение применимо до момента, когда k — 51. Предположим далее, что Т—это время, когда нижняя карта достигнет вершины. Колода карт в момент времени Т + 1 упорядочена случайным образом. В силу строго марковского свойства она таковой останется и в момент времени (Т + 1) V n = max [Т + 1, п]. Следовательно, \Рп ~ р\ = I P(карты расположены в порядке возрастания в момент п) — - Р(карты расположены в порядке возрастания в момент (Т + 1) V n)\ ^ < ?{Т > n) < i ET= f (l + i + ... + ^) < f (1 + log52). □ То, что я говорю, — это пасьянс. Перетасовка карт. Дои Кихот. М. де Сервантес (1547—1616), испанский писатель Оставшаяся часть этого параграфа посвящена предельным пропорциям. Это предмет так называемых эргодических теорем, в которых изучаются временные средние вдоль траекторий случайных процессов (в нашем случае ц.м.д.в.). Одним из удивительных феноменов является то, что при предположении типа неприводимости предельные средние времена совпадают со средними значениями относительно стационарных распределений. Эти последние средние можно рассматривать как усреднение по пространству (т. е. усреднение по пространству состояний /). Таким образом, приведенный выше факт можно трактовать следующим образом: «усреднение по времени на большом временном интервале сов-
§ 1.9. Сходимость к положению равновесия. Предельные пропорции падает с усреднением по пространству»; так формально можно пояснить «свойство перемешивания» для случайных процессов (на самом деле существует целая иерархия таких свойств). Свойства перемешивания лежат в основе многих феноменов, наблюдаемых в природе, и во многих областях человеческой деятельности. Исторически, эти свойства связаны с именами двух знаменитых физиков XIX в. — американца Дж. В. Гиббса (1839—1903) и австрийца Л. Больцмана (1844—1906). Эргодические теоремы образуют фундамент эргодической теории, развитой области математики, которая включает в себя широкий спектр концепций и методов. В предельной пропорции мы все будем мертвы. Дж. Майнард Кейнс (1883-1946), британский экономист Приведем естественный пример. Пример 1.9.5. Рассмотрим число посещений цепью состояния i до момента времени п: л-1 ВД = Х)1(*а = 0. (1-9.15) Если существует предел lim Ш, (1.9.16) то его называют предельной пропорцией времени, проведенного в состоянии /. Вообще, если /: /—>К — это функция на пространстве состояний /, то можно рассматривать сумму л-1 V{f,n) = J2f(Xk) (1-9.17) и предел Игл ША. (1.9.18) л—»оо П Теорема 1.9.6. Для любого состояния i выполняется равенство >( Vm Ж = г.) = и (1.9.19) \л—>оо П ) где __ I л,-, если состояние i положительно возвратно, I 0, если состояние i нулевой возвратности или невозвратно. (1.9.20)
Глава 1. Цепи Маркова с дискретным временем Доказательство. Предположим сначала, что состояние i невозвратно. Тогда, как мы знаем, суммарное число V,- посещений состояния i конечно с вероятностью 1; см. формулы (1.5.8), (1.5.18). Значит, Vjn —>О при п —> оо с вероятностью 1. Так как 0 ^ К,(п) < V,-, мы получаем, что Vi(n)/n —> 0 при п —> оо с вероятностью 1. Пусть теперь состояние i возвратно. Тогда моменты времени 7",' , />',... между последовательными возвращениями в состояние i конечны с Р,-вероятностью 1. В силу теоремы 1.8.3 они являются н.о.р.с.в. со средним т,- = 1 /тс,- в случае положительной возвратности и с бесконечными средними в случае нулевой возвратности. Очевидно, 7™+ ...+ ?«<"»> п, но 7f+ ... + 7f'(n)-1)</t-l, см. рис. 1.28. Таким образом, мы можем записать Vi(n] (7f + + 7.W(«)-DK п £ Щп) ^ Vi(n) 1 (TJl) + ... + TJVi(n))). (1.9.21) yd) 7'.(2) 7,(3) fWn)-i) jWn)) Рис. 1.28 время время По теореме 1.8.4 с Р,-вероятностью 1 существует предел lim -У^7^' = я—»оо П.*—* = ITli i I - ^2 T\l) —♦ mi при п —» оо j = 1. (1.9.22)
§ 1.9. Сходимость к положению равновесия. Предельные пропорции Далее, так как состояние / возвратно, последовательность (V,(n)) бесконечно возрастает, и с Р,-вероятностью 1 выполняется соотношение P,-(V,-(n)/oo, прил->оо) = 1. (1.9.23) Тогда мы можем в формуле (1.9.22) суммировать до К,(/г) вместо п и соответственно разделить на Vi(n): Игл -гт^-т У^ T\l) = т,-. л-юо К; (Л) *-~< ' /=1 Это соотношение выполняется и на пересечении двух ранее упомянутых событий вероятности 1, которое, очевидно, имеет и Р,-вероятность 1. На этом же событии выполняется равенство lim jj-^ У^ T\l) = 1тц. л-»оо Vi(n) ^—< ' /=1 Иными словами, из формул (1.9.22) и (1.9.23) следует, что / V,(n)-\ V;(n) . 9\m £ ^-»'и i4j £ ^-""' пРи«-°° =1- о-9-24) Но тогда в силу соотношения (1.9.21) все на том же пересечении этих двух событий Р,--вероятности 1 отношение n/Vj(n) стремится к /п,-, т. е. обратное отношение Vj(n)/n стремится к г,- = 1/га,-. Отсюда следуют соотношения (1.9.19) и (1.9.20), что и завершает доказательство теоремы 1.9.6. □ Замечание 1.9.7. Аккуратный анализ доказательства теоремы 1.9.6 показывает, что если матрица Р неприводима и положительно возвратна, то можно утверждать, что в формуле (1.9.19) вероятностное распределение Р, может быть заменено на Ру или на распределение Р, задаваемое начальным распределением X. Это возможно благодаря тому, что суммы Т} +... + Т\ все еще асимптотически ведут себя, как если бы св. Т\' были бы н.о.р.. (На самом деле распределение первой св. Т\ = Г,- = Н\ другое и зависит от начального состояния.) Теорема 1.9.8. Пусть Р — конечная неприводимая переходная матрица. Тогда для любого начального распределения X и любой ограниченной на I функции f справедливо равенство Р( I™ Щ^=пф) = и (1-9-25) \ л—»оо П ) где к(Я = 5>/(0- (1-9-26)
Глава 1. Цепи Маркова с дискретным временем Доказательство является уточнением доказательства теоремы 1.9.6. А именно, соотношение (1.9.25) эквивалентно равенству '(.' Р lim V(f, n) -*(/) .0).,. Иными словами, мы хотим проверить, что с Р-вероятностью 1 выполняется условие V(f, n) -т ■ 0 при п —> со. (1.9.27) Записывая V{f, n) — J2 Vi(n)f(i) и 7т.(/) = Х^ я,/(/), мы можем преобразо- вать и ограничить левую часть соотношения (1.9.27) следующим образом: V{f. n) -*(/) i€/ <€/ Vj(n) п к,- 1/(01- Мы знаем, что Vj(n)/n —»к,- с Р,-вероятностью 1 для любого / € /. Замечание 1.9.7 позволяет утверждать, что V,(n)/n—>7Т.,- с Яу-вероятностью 1 (т.е. независимо от выбора начального состояния) или, более того, с Я-вероят- ностью 1, где Я— распределение (X, Я) ц.м.д.в. с произвольным начальным распределением X. Получаем соотношение (1.9.25), что и завершает доказательство теоремы 1.9.8. □ Пример 1.9.9. Опишите предельное поведение ц.м.д.в. на конечном пространстве состояний. Описание должно содержать обсуждение сходимости вероятностей, а также поведение почти наверное. Объясните, что происходит с невозвратными цепями. Решение. Пространство состояний распадается на открытые классы 0\, ..., О] и замкнутые классы С/+ь •••, С/+/. Если /= 1 (случай единственного замкнутого класса), то цепь неприводима. Выходя из открытого класса, скажем О,-, цепь попадет в замкнутый класс Си с вероятностью h\. Эти вероятности удовлетворяют уравнению /+/ = $>*' Здесь ~ри — это вероятность перехода из класса О, в класс Ог или Сг, и для г = /' + 1, ..., / + / выполняются равенства h) = 8Л*. Цепь имеет единственное стационарное распределение к(г\ сосредоточенное на Сг, при каждом /■ = / + 1, ...,/' + / (следовательно, единственное стационарное распределение при /= 1). Любое стационарное распределение представляет собой смесь стационарных распределений Jt(r'.
§ 1.10. Детальный баланс и обратимость Если цепь выходит из Сг, то для любой функции / на Сг выполняются условия - 2J f(Xt) —♦ 2J Ki /(') почти наверное. /=о iec, Более того, в апериодическом случае (когда НОД {п: р(аа > 0} = 1 для некоторого а € Сг) для любого /п £ СЛ имеем P(X„ = i|Xo = io)-»tf, и скорость сходимости геометрическая. П § 1.10. Детальный баланс и обратимость Поворот времени, поворот судьбы6 (Из серии «Фильмы, которые не вышли на большой экран».) Пусть (Хо, Х\, ...) — ц.м.д.в. и зафиксировано N ^ 1. Что можно сказать об обращенной во времени цепи (Хп), т. е. о семействе (Хн-п, п = = 0, 1 N) = (XN,XN.i,...,Xo)} Теорема 1.10.1. Пусть (Хп) — это ц.м.д.в. (к, Я), где к = (щ) — стационарное распределение для Р и щ > 0 V/ е /. Тогда 1) для любого N^ 1 обращенная во времени цепь (Х^,Хщ-\,...,Хо) является цм.д.в. (те, Я), где Р = (рц) задается равенством Ри = %рц; 0-10.1) 2) если матрица Р неприводима, то таковой является и Р. Доказательство. 1) Во-первых, заметим, что Р является стохастической матрицей, т. е. 'рц ^ 0 и Далее, вектор 71 является Я-инвариантным: 6Ср. с названием фильма «Reversal of Fortune».
Глава 1. Цепи Маркова с дискретным временем «Протащим» теперь множитель к. сквозь произведение: Р(Хн = in, ..., Хо = /о) = Р(^о = 'о. • • •. %n = in) — ^kPhh ■ ■ ■ P'«-ii« — = Pi|i0^i| • • -PiN-\iN = Pi\kPk'\^h • • • = Pi\ia • • • PinIn-^n = "^ifiPlnin-i • • ■ P'\k- Мы видим, что (Хн-п) является (к, Я)-цепью Маркова. 2) Если Я неприводима, то любые два состояния /, / сообщаются, т. е. существует такой путь i = /о, М, • • •, in =j, что U < pkh ... pi„_lin = — niophi[ ... /?,„_„„ = 1 - _ _L~ — ~P/i'on'i • • -Р'п-Оп —■■■—„ Phh ■ ■ • PinU-i^ia- Таким образом, #,,•„. ..pinin_, > 0, и состояния j, i являются сообщающимися и для Р. D Случай, когда цепь (Хн-п) имеет то же распределение, что и цепь (Хп), представляет особый интерес. Теорема 1.10.2. Пусть (Хп) — цм.д.в. Следующие два свойства эквивалентны: 1) для любого п ^ 1 и любых состояний г'о. • • •, in Р(*о = io, ...,*„ = in) = Р(Х0 = i„, ...X„ = /0); (1.10.2) 2) цм.д.в. (Хп) находится в состоянии равновесия, т. е. (Хп) ~ (к, Р) где к — инвариантное распределение для Р и KiPij = K/Pji для любых состояний i, j G /. (1.10.3) Доказательство. 1) =Ф- 2). Пусть п = 1, Р(*о = |',*|=/) = Р(Хо=/\*1=0. Просуммируем по /': J2P(X0 = i,Xi=j) = P(X0 = i) = h, 1 J2 ?(Хо = I *■ = 0 = Р№ = 0 = (ХЯ),-. /' Таким образом, X,- = (ХЯ),- Vi, т. е. ХЯ = X. Следовательно, цепь находится в состоянии равновесия с X = к. Далее, Р(Х0 = i, Xi =j) = iiipij = Р(Х0 =/', Xl=i) = KjPji Vi, /'. 2) =ф 1). Запишем P(X0 = /о, ...,Xn = in) = Kiopioil ...pin_xi„
§1.10. Детальный баланс и обратимость и воспользуемся уравнениями (1.10.3) чтобы «протащить» к. сквозь произведение: ГС|оРЫ| • • • Pin-ih — Pki\%h ■ ■ ■ Pin-\i* = ■■■ = Pi0i\ ■ ■ ■ Pi„ia-[^U = = ^i„Pini„-] ■ ■ ■ Phi, = p№) = i„, ..., Xn = i0). D Определение 1.10.3. Цепь Маркова (Хп), удовлетворяющая соотношению (1.10.2), называется обратимой. Уравнения (1.10.3) называют уравнениями детального баланса. Таким образом, утверждение теоремы 1.10.2 гласит: цепь Маркова обратима тогда и только тогда, когда она находится в состоянии равновесия и имеют место уравнения детального баланса. Уравнения детального баланса являются мощным средством для отыскания инвариантного распределения. Теорема 1.10.4. Если X и Р удовлетворяют уравнениям детального баланса hpij — \Pii, i. j € Л то X является стационарным распределением для Р, т.е. ХЯ = X. Доказательство. Просуммируем по у: h^2pij = h, I I Эти два выражения равны между собой для любого i, откуда и следует утверждение теоремы. □ Таким образом, если для заданной матрицы Р удается решить уравнения детального баланса (т. е. найти вероятностное распределение, которое им удовлетворяет), то решение является стационарным распределением. Более того, соответствующая ц.м.д.в. обратима. Интересным и важным классом цепей Маркова являются случайные блуждания на графах. Мы уже встречали примеры таких цепей: процесс рождения и гибели (случайное блуждание на множестве Z1 или его подмножестве), случайное блуждание на квадратной решетке на плоскости Z2 и, в общем случае, случайное блуждание на d-мерной кубической решетке Ъй'. Общей чертой этих примеров является то, что блуждающая частица может совершить скачок в любую из соседних точек; в симметричном случае все скачки равновероятны. Эту идею можно распространить на графы общего вида с ориентированными или неориентированными ребрами. Рассмотрим ненаправленные графы; под графом будем понимать набор G вершин,
Глава 1. Цепи Маркова с дискретным временем некоторые из которых соединены ненаправленными ребрами, возможно несколькими. Ненаправленность означает, что движение по ребру возможно в обоих направлениях; иногда удобно представлять, что ребро образовано парой стрелок с противоположными направлениями. Рис. 1.29 Граф называется связным, если для любых двух вершин существует связывающий их путь, составленный из ребер. Кратность о, вершины I определяется как число ребер в этой вершине. Связность ьц — это число ребер, соединяющих вершины / и /'. Случайное блуждание на графе имеет матрицу перехода Р = (pij) следующего вида: {Vij/vj, если / и / соединены ребром, (1.1 U.4) О в противном случае. Матрица Р неприводима тогда и только тогда, когда граф связный. Вектор v = (vi) удовлетворяет уравнениям детального баланса, т. е. для любых вершин /, j выполняются равенства ViPij = Vij = VjPji, (1.10.5) и, следовательно, он является Я-инвариантным. Немедленно получаем следующую теорему. Теорема 1.10.5. Случайное блуждание на графе с матрицей перехода Р вида (1.10.4) всегда имеет положительную или нулевую возвратность. Оно положительно возвратно тогда и только тогда, когда суммарная кратность Y^vi конечна, и в этом случае Щ = vi/Ylvi является стационарным распределением. Более того, i цепь со стационарным распределением к обратима. Простым, но хорошо известным примером графа является /-точечный сегмент одномерной решетки: в этом случае кратность каждой вершины равна 2, за исключением крайних точек, кратность которых равна 1. См. рис. 1.30).
§1.10. Детальный баланс и обратимость / = 8 /= 12 Рис. 1.30 Интересным классом является класс графов с постоянной кратностью: Vi = о; как простой пример приведем случай v = 2, в котором / вершин помещены на круг (или на правильный многоугольник). См. рис. 1.30). Хорошо известным примером графа с постоянной кратностью является полностью связный граф с заданным числом вершин, скажем {1, ..., га}: здесь кратности равны га — 1, и граф состоит из га(га - 1)/2 (ненаправленных) ребер. См. рис. 1.31. т = 5 т ■■ Рис. Другой важный пример — это правильный куб размерности d с 2d вершинами. Тут кратность равна d и граф имеет d2d~l (по-прежнему ненаправленных) ребер, соединяющих соседние вершины. См. рис. 1.32. £7 Z7 d = 2 d = S Рис. 1.32 d = 4
Глава 1. Цепи Маркова с дискретным временем Популярными примерами бесконечных графов с постоянной кратностью являются решетки и деревья. В случае общего конечного графа с постоянными кратностями vt = и сумма Y^vi равняется v х \G\ где |С| — число вершин. Тогда р,/ = р/[ = и1у/и, i для любых соседних вершин i, j. Это означает, что матрица переходных вероятностей Р = {рц) эрмитова: Р = Р7. Более того, стационарное распределение тс = (гц) равномерно: л,- = 1/|G|. В курсе линейной алгебры доказывается, что (комплексная) эрмитова матрица имеет ортонормированныи базис из собственных векторов и все ее собственные числа положительны. Это очень полезное свойство, которое было бы желательно сохранить. Для марковских цепей с дискретным временем даже в случае, когда исходная матрица Р неэрмитова, мы можем «преобразовать» ее в эрмитову, введя новое скалярное произведение. Мы будем использовать этот подход в §1.12—1.14. Time present and time past Are both perhaps present in the future, And time Future contained in time past. Настоящее и прошедшее, Вероятно, наступят в будущем. И время будущее присутствует в прошедшем. Т.С. Элиот (1888-1965), английский поэт. Пер. А. Сергеева Пример 1.10.6. а) Пусть задано конечное число аэропортов. Предположим, что любые два аэропорта i и /' связаны ежедневными рейсами, причем а.ц = ац, где а-ц — ежедневное число рейсов из i в /', а ау{ — из /' в i. Рассеянный путешественник ежедневно совершает перелет, выбирая рейс случайным образом из всех возможных. Подсчитайте, спустя сколько дней в среднем путешественник вновь вернется в /, если он вылетает из i. При решении этой задачи следует быть внимательным и предусмотреть случай, когда не существует рейсов между некоторыми заданными аэропортами. б) Рассмотрите бесконечное дерево Т с корнем R, где для всех m ^ О все вершины, находящиеся на расстоянии 2Ш от R, имеют степень 3, а все остальные вершины (исключая R) имеют степень 2. Покажите, что случайное блуждание на Т возвратно. Решение, а) Пусть Хо = / — начальный аэропорт, Хп — аэропорт «-го назначения, а / обозначает множество аэропортов, достижимых из L Тогда (Х„) — неприводимая цепь Маркова на /, следовательно, среднее время возвращения в / равно \/щ, где гс — единственное инвариантное распределение. Покажем, что 1/п,- = £) a-^j X) atk- У.А6/ kei
§1.10. Детальный баланс и обратимость В самом деле, Таким образом, вектор v = (Vj), где f/ = X)ay'' находится в состоянии /е/ детального баланса с матрицей Р. Следовательно, Ki = 5Z aikl S a*'- б) Рассмотрим расстояние Jn от корня R в момент времени п. Тогда (^п)п^о — марковская цепь рождения и гибели с переходными вероятностями qi = pi= 1/2 при/^2т, # = 1/3, Pi = 2/3 при1 = 2т. Стандартными рассуждениями находим соотношение для вероятности Л,- = = Р,- (попасть в 0): Ло = 1, hl = plhi+\+qihi-i, i > 1, Рг"(+1 = Я№, Щ = Л,-_1 - Л,-, <7,- (7;... <7i "i+i = T-"i =T««i. Yi = -r —. Pi Pi--- P\ и u\ + ... + щ = ho - hi, hi = 1 - mi(yo + • • ■ + Yf-1)- Заметим, что Y2m-i = 2_m и у* постоянны внутри блоков длины 2Ш, что влечет Х^у/ = °°- Отсюда следует, что и\ = 0, т.е. Л,- = 1 для всех /, так что случайное блуждание возвратно. □ Уравнения детального баланса дают мощный метод нахождения стационарного распределения: если мера X ^ 0 состоит в детальном балансе с матрицей Р и ]Г) X; < ее, то п/ = X,/ X) X; и есть стационарное распределение. ' ' Замечание 1.10.7. Свойство обратимости особенно полезно в случае непрерывного времени, см. гл. 2. Приведем краткую сводку наиболее существенных уравнений, возникающих при анализе ц.м.д.в. Мы познакомились с двумя видами уравнений: (I) для вероятностей достижения hf и средних времен достижения kf и (II) для инвариантных распределений к = (п,-) и среднего времени у* пребывания в состоянии /,
Глава 1. Цепи Маркова с дискретным временем прежде чем цепь вернется в k. Хотя эти уравнения и похожи, существуют также и различия между ними, о которых важно помнить. 1.1. Уравнения для вероятностей h\ = Р,(попасть в /') таковы: AJ = 1, A{ = £pl7A{ = (A'>T)/, 1ф), lei где h1 = (п{, i <=/) и AJ=1. При этом h\ = 1 всегда является решением: jPT = !, так как (1/>т), = J^ Ри = 1 V/ € /. 1.2. Уравнения для k\ — Е,-(время достижения состояния /') таковы: ftj = 0, k< = 1 + £ р«А{ = 1 + (k!P\, i ф /, где /./ = (jfe/, i G /) и *j = 0. Если условиться считать, что 0 • оо = 0, то k\ = (1 — 8,у)оо всегда является решением, если цепь неприводима. Эти уравнения получают, рассматривая условное распределение относительно первого скачка. Векторы h) и Ы имеют верхний индекс, обозначающий конечное состояние, в то время как нижние индексы их компонент h[ и tit обозначают начальные состояния. Решение, которое мы ищем, определяется как минимальное неотрицательное решение, удовлетворяющее условиям нормировки h1, = 1 и 6j = 0. 11.1. Уравнения для у* = Ей (время пребывания в /, прежде чем цепь вернется в k) таковы: i или у* = у*р, если k возвратно. Эти уравнения получают, рассматривая условное распределение относительно последнего скачка, и векторы у* имеют в качестве верхнего индекса начальные состояния. Решение определяется из условий у* ^ О и Y*= >-
§1.10. Детальный баланс и обратимость 11.2. Аналогично для стационарного распределения (или, в общем случае, инвариантной меры) выполняется равенство к = кР. Решение определяется из условий щ ^ 0 и ^ тс,- = 1. 11.3. Решение уравнений детального баланса TliPij = KjPji всегда является инвариантной мерой. Если при этом ^п,- = 1, то мы полу- чаем стационарное распределение. Как правило, найти решение уравнений детального баланса нетрудно (конечно, если решение вообще существует), поэтому эти уравнения являются мощным средством для отыскания стационарного распределения, и ими рекомендуется пользоваться во всех таких случаях. Мы закончим этот параграф обсуждением общей картины асимптотического поведения итераций Р" конечной переходной матрицы Р с несколькими сообщающимися классами; см. рис. 1.8—1.10. Как мы уже говорили в § 1.2, блок Оо стремится к 0. Предыдущие результаты показывают, что если блок С,- соответствует апериодическому замкнутому сообщающемуся классу, то в процессе итераций при п —> со этот блок будет сходиться к блоку П,-, образованному повторением строки 7tw = (лу, j е С,), представляющей собой единственное стационарное распределение класса С,. Далее, если блок О, расположен над апериодическим замкнутым классом С,-, то он имеет предел при п —> со. Предельный блок — это такая субстохастической матрица, что сумма элементов вдоль каждой строки лежит между 0 и 1, но не обязательно равна 1. (Может быть и так, что сумма вдоль строки равна 0, что означает, что целая строка превращается в пределе в нулевую строку.) Предельный блок не равен нулю, если исходный блок ненулевой. (Точнее, для любого состояния /' 6 / сумма ^ pfk , k€C, которая задает вероятность перехода из /' в замкнутый класс С,- за п шагов, не убывает с ростом п.) Более того, даже если блок О, был изначально нулевым, он может превратиться в ненулевой при достаточно большом п и возрастать к своему предельному значению при п —> со. С другой стороны, если класс С,- периодичен с некоторым конечным периодом и,- > 1 и содержит периодические подклассы Wu, ..., WWi, то удобно рассуждать в терминах степени Рщ. Предположим для удобства, что матрица Р неприводима, так что у нас есть всего один сообщающийся класс С, состоящий из всего пространства состояний /; этот класс замкнут и распадается на периодические подклассы W\, ..., Wv\ см. рис. 1.10. Мы
Глава 1. Цепи Маркова с дискретным временем заметили ранее, что W[, ..., Wv представляют собой непересекающиеся наборы сообщающихся классов матрицы Pv,\ каждый такой набор можно рассматривать как самостоятельную переходную матрицу. Таким образом, весь анализ следует начать заново... Мы видим, что может появиться нечто вроде «фрактальной структуры», т. е. структура разбиения блока повторяется на каждом последующем шаге. Так как множество / конечно, мы можем достичь нижнего уровня, на котором все классы замкнуты. К счастью, возможные «хитрые» примеры, как правило, не появляются на практике, и, наверное, не стоит о них и думать... Итак, предположим для удобства, что каждый из этих периодических подклассов W/, I =[,..., v, образует замкнутый сообщающийся класс для Р". Следовательно, каждый из них является носителем единственного инвариантного распределения к® переходной матрицы Р". Таким образом, в матрице Рпи соответствующие блоки расположены на главной диагонали, и при п —> со стремятся к предельным стохастическим матрицам П/, образованным повторением строк тс(/), /= 1,.... и,-. Как и ранее, обозначим через П матрицу, образованную предельными блоками П|, ..., П„. Тогда последовательность матриц Р" распадается на и подпоследовательностей (Pnv+k), k = 0, ..., и - 1. В каждой подпоследовательности матрица pnv+k сходится при п —> со к матрице UPk = PkU. Сходимость подобного рода появляется, когда Р обладает такой структурой, как показано на на рис. 1.9: если блок С определяет периодический класс с периодом и, то он ведет себя так, как описано в предыдущем параграфе. Тогда блок О ведет себя точно так же: мы имеем сходимость матриц Pnv+k для каждого фиксированного k = О, ..., и. Теперь читатель готов представить себе, что происходит в общем случае при итерации Р" конечной переходной матрицы Р. Мы ответим (хотя бы частично) на вопрос, зачем это нам вообще нужно, в § 1.12—1.15. § 1.11. Управляемые и частично наблюдаемые цепи Маркова The Crying Control Theory7 (Из серии «Фильмы, которые не вышли на большой экран».) Начнем этот параграф популярным примером управляемой цепи Маркова. Пример 1.11.1. Пусть проверяются т» 1 различных объектов, при этом объекты выбирают в случайном порядке, без возвращения, по одно- Ср. с названием фильма «Crying Freeman».
§1.11. Управляемые и частично наблюдаемые цепи Маркова му в каждый момент времени. Необходимо выбрать наилучший объект, но к ранее отвергнутым возвращаться нельзя. Рассмотрев подходящую ц.м.д.в., обоснуйте утверждение, что оптимальная стратегия состоит в том, чтобы отвергнуть первые k объектов, а затем взять тот, который первым окажется лучше, чем все предыдущие. Определите k = k(m). Проверьте, что tn/k и е для больших т. Решение. Положим Хо = 1 и Jm+1, если первый объект наилучший, | /, если /-й объект лучше, чем все предыдущие, т+ 1, если первый или Х[-й объект является наилучшим, Х2= < /', если /-й объект — первый после момента времени Х\, лучший, чем все предыдущие. В общем случае при г ^ 2 т+ 1, если Хг-\ =т+ 1 или Хг-\-н объект является наилучшим, Хг={ j, если /-й объект — первый после момента времени Xr-i, лучший, чем все предыдущие. Тогда Х\, А^2, ..., Хт принимают значения 2, 3, ..., т + 1 (и Хп = т + 1 при п > т). Кроме того, Хп+\ > Хп ^ п , если Хп < т, I < п < т. Типичная траектория (Хп) имеет вид: объект Рис. 1.33 Для того чтобы траектория (Хп) задавалась ц.м.д.в., необходимо отсутствие памяти в условных вероятностях Р(Яя+1 =j\Xn = i, Xn-\ =/„_i, ..., A^i —i\, Хо = 1) = Pij-
Глава 1. Цепи Маркова с дискретным временем На помощь приходит комбинаторика: Р(/-й объект наилучший среди {1, ..., /}) = /! Р(/ наилучший, a i — второй наилучший после/ среди {1, ...,/'}) = (/-2)! _ 1 Тогда при 1 < / < т получаем p\i — Р\{Х\ =/') = Р(/ наилучший, 1 —второй наилучший после / среди {1, ...,/'}) /(/-О' Pim+i = Р]№ =т+ 1) = Р(1 — наилучший из всех) = —. Далее, р /у _ ; I у _ Л — Р'№ =/'■ *' -') _ = Р(/ наилучший, i — второй наилучший после / среди {1, ..., /'}; 1 —второй наилучший среди {1, ..., i})/P(i наилучший, 1 — второй наилучший среди {1, ..., i}) = _ !//(/- 1) - l/(f - 1) _ «- P,№ = m+l|X,=i) = 1А('-1) /(/'-1 P,№ = m + l,X,=i) -, 1</</'<т, Pi№=0 _ P(l —второй наилучший среди {1, ..., г'}; г наилучший из всех) _ P(t наилучший, 1 —2-й наилучший среди {1, ..., /}) = 1/?;'/(<п1) = 1. ■ <'■<«■ l/i(t - I) m В общем случае, для 1 < / < / < т получаем Pij = PlC^n+l =j\Xn ='. ^л-l = 'л-1, •• •■ ^1 ='l) = _ !//(/■ - 1) ■ l/(i - 1) ■ !/(/„-, - 1)... l/(/, - 1) = i l/i(«-l)-l/(iB_,-l)...l/(i,-l) /■(/-1)'
§1.11. Управляемые и частично наблюдаемые цепи Маркова а для /' = т + 1 имеем рш+[ = Р\(Хп+\ =т+ \\Xn = i, Xn-{ —in-i, ..., Х\ =i\) = _ \/т • l/(i - 1) • 1/(|л_, - 1)... l/(t, - 1) _ i 1 < i < m, l/i(i-l)-l/(i«-i-l)...l/(i,-1) - и, конечно, pm+iim+i = 1. Матрица перехода размера (m + 1) x (m + 1) имеет вид /0 1/1 -2 0 0 0 0 0 0 0 0 \0 0 1/1-3 . 2/2-3 . 0 . 0 . 0 . 0 . . l/(m- \)m \/m \ . 2/(m- l)m 2/m . 2>/(m — \)m 3/m l/m (m — \)/m 0 1 0 1 ) Чтобы определить момент остановки, рассмотрим решающее правило [О продолжать, I 1 остановиться, Имеем d(m) = 1, что тривиально. Чтобы задать d(m — 1), напомним, что состояние т — 1 означает, что (т — 1)-й объект является наилучшим среди объектов {1,.. .,т— 1}. Вероятность того, что он является наилучшим среди всех, равна pm_i,m+i = (m — l)/m, что больше, чем (т — 1)/т(т — 1) = = \/т = Рт-\,тРт,т+\, а ЭТ0 есть вероятность того, что т-й объект — наилучший из всех. Следовательно, d(m — 1) = 1. Аналогично для определения d(m — 2) сравниваем рт-2,т+\ ={т — 2)/т И Рт-2,тРт,т+\ + Рт-%т-\Рт-\,т+\, ЧТО равно т-2 + т-2 т— 1 т{т — 1) (т — 1)(т — 2) т Или, что эквивалентно, мы сравниваем 1 1 т-2 т(т — 1) m + 1. 1 и m + 1 ' т-2' и т.д. Очевидно, d(m) = d{m-l) = ... = d(k+l) = l, d{k) = ... = rf(l) = 0, и /г = &(m) определяется как наибольшее значение, для которого выполняется неравенство
Плава 1. Цепи Маркова с дискретным временем При больших т ищем такое k, что / j ' i m i т.е. m/k»еи^«т/е. П Замечание 1.11.2. Пример 1.11.1 можно рассматривать в более общей постановке, когда принимают во внимание так называемую величину «удовлетворенности», которая достигает своего максимума, когда выбран наилучший из всех объект, значение этой величины несколько меньше, если выбранный объект — это второй наилучший и т. д. Эта обобщенная задача решается аналогично. Не я управлял событиями, но признаю откровенно — события управляли мною. А. Линкольн (1809-1865), Президент Соединенных Штатов Америки Who can control his fate? Кто царь своей судьбы? В. Шекспир. Отелло. Пер. М.Л. Лозинского Пример 1.11.3. 1. Пусть / является собственным подмножеством конечного пространства состояний / неприводимой цепи Маркова (Хп) с матрицей перехода Р, которая разбивается на блоки следующим образом: / pji pjjy t \pt\u p'\J.i\J Если фиксируются только переходы в состояния, принадлежащие множеству /, то мы наблюдаем ц.м.д.в. (Хп) со значениями в /; покажите, что ее матрица перехода имеет вид р = ри + pJ-'\J y^(pi\JJ\J)np'\J.J _ pJJ + pJ-'\J(\iyj - pAWj-ip/V.^ nSsO где I/y — это единичная матрица со строками и столбцами, индексы которых /, / G / \ /. 2. Член парламента Билл Сайке, находясь в Лондоне, может проводить время либо в Палате Общин (С), либо в своей квартире (F), либо в баре (В), либо со своей подругой (G). Каждый час он меняет свое местонахождение в соответствии с матрицей перехода Р, хотя жена его, которая не подозревает о существовании подруги, полагает, что его перемещения
§1.11. Управляемые и частично наблюдаемые цепи Маркова контролируются матрицей перехода Pw: С F В G С F В f(1o 17/з \% т\ с/'/з ./3 i/3N р=в 13 о / / ' pW=F\^ V3 i/з . g\\% i/з о \%) б^/з i/з 1/зУ Знакомые видят Билла только тогда, когда он находится в / = {С, F, В}; подсчитайте матрицу перехода Р, которая, согласно их мнению, управляет его передвижениями. Всякий раз, когда знакомые видят, что Билл переходит на новое место, он звонит на мобильный телефон своей жены; выпишите матрицу перехода, которая управляет последовательностью мест, откуда Билл делает звонки, и вычислите ее инвариантное распределение. Жена Билла записывает, откуда поступает каждый его звонок, и у нее возникают подозрения — Билл приходит в свою квартиру недостаточно часто. Уличенный, Билл клянется в верности, решает отказаться от вызывающей неприятности матрицы переходов, выбрав, взамен прежней, следующую матрицу: С F В G С ( 1/4 1/4 1/2 0 \ р* F 1/2 1/4 1/4 О ВОЗ/8 1/8 1/2 ' G \2/10 1/10 1/10 6/10/ и по-прежнему настаивает, что его передвижения управляются матрицей Pw. Сможет ли он таким образом отвести подозрения жены? Обоснуйте свой ответ. _ Решение. 1. Ср. с примером 1.4.4. Чтобы проверить равенство Р = = A+B(I - D)~[C, запишем ОС P(*i =/|*о = 0 = Р,7+ £>(*«=/, XrtJjuinr=l,...,n-l\X0 = i) = =рч+Л Л 5Zpik(D")*'^/' '• / g L n=0 k£J l<£] 2. Воспользовавшись результатом первой части задачи, при J = = {С, F, В} находим /1/3 1/3 1/3\ P = A + B{I-D)-lC=[l/6 1/2 1/3 . \l/2 1/6 1/3/
Глава 1. Цепи Маркова с дискретным временем Далее, матрица перехода для звонков из С, F и В имеет вид / 0 1/2 1/2\ 1/3 0 2/3 ; \3/4 1/4 О У ее инвариантное распределение л = (лс, Jtp, Kg) удовлетворят равенствам 13 13 12 лс = дЛг + -^пв, KF=2nc + Vr'B' Кв = 2Кс + 3Лг и определяется единственным образом как К \\\' 1Г и)' Далее, матрица для Р* имеет вид _ /1/4 1/4 1/2\ Я* = 1/2 1/4 1/4 Vl/4 1/2 1/4/ и ее инвариантное распределение равномерное U' 3' 3/' Иными словами, Билл в среднем проводит одинаковое время в каждом из «легальных» состояний С, F и В. Однако его жена может наблюдать следующие расхождения с матрицей pw. а) звонки из В, следующие за звонками из С, происходят в два раза чаще, чем звонки из В, следующие за звонками из F; б) среднее число звонков 50/71 >2/3, в то время как согласно матрице Pw в среднем их должно было быть 2/3. Однако это расхождение незначительно, и этот метод не очень полезен на практике. Действительно, для инвариантного распределения п* = (л£, tip, Яд. л^) матрицы Р* выполняется равенство ti*P* =п*. Это означает, что *с = 4ЛС + 2K*F + 5Л£' т-е- 4К*С = 2KF + 5^' k*f=4Kc+4Kf+8Kb + T0KC' T-e- 4Kf=\Kc+I^B + Jq^G' *я = 2КС + 4^ + 8Ля + TonG. те- д^^г^ + в^+То^' *G = 2Лв + 5nG- те- 5Л0=2Ля- Инвариантное распределение единственно: * _ 28 * _ 34 * _ 4 * _ 5
§ 1.12. Геометрическая алгебра ц.м.д.в., I. Собственные значения и спектральные щели За длительный период времени среднее число звонков равно 28 3 34 3_4_3 5 6 _ 50 71 Х 4 + 71 Х 4 + 71 Х 8 + 71 Х 10~7Г U § 1.12. Геометрическая алгебра цепей Маркова, I. Собственные значения и спектральные щели Теорема 1.9.3 дает оценки скорости сходимости к стационарному распределению. Эта теорема демонстрирует, что скорость сходимости является экспоненциальной (или геометрической) по п, что совсем неплохо. Однако величина (1 — р)'/т, стоящая в правой части соотношения (1.9.14), может быть довольно близкой к 1, особенно если имеется естественная последовательность ц.м.д.в. на расширяющихся пространствах состояний //. Приведем пример ситуации, когда возникает эта проблема. Рассмотрим (/ х /)-матрицу Л с элементами ац, равными 0 или 1. Перманент матрицы А определяется подобно определителю, следует лишь опустить знаки: регЛ = Y, П0/°Ю- о: перестановка порядка I i= 1 Перманент per Л равен числу «совершенных связей» между точками / G G {1, ..., /}, индексирующими строки, и точками / е {1, ..., /}, индексирующими столбцы. Популярная интерпретация такова: пусть есть множество, составленное из / мальчиков и / девочек; равенство ац = 1 означает, что девочка i и мальчик / нравятся друг другу, а равенство ац — 0 означает, что это не так. Тогда per Л подсчитывает число возможных «свадеб», где каждая свадебная пара любит друг друга. Это трудная задача с точки зрения вычислений: наилучший из существующих алгоритмов вычисления per Л требует /2' шагов. Стохастический метод вычисления per Л основывается на ассоциированной с ним ц.м.д.в., и важно уметь оценивать скорость сходимости к стационарному распределению при больших /. Пример 1.12.1. Пусть / — натуральное число. Расположим / точек О, 1, ..., /—1 на единичной окружности в вершинах правильного /-угольника. Рассмотрим случайное блуждание (Хп) на этих точках, при котором частица перескакивает в одну из соседних точек с вероятностью 1/2. Переходная матрица этой ц.м.д.в. — это (/ х /)-матрица вида: (1.12.1) р = / 0 1/2 0 1/2 0 1/2 . ^1/2 0 0 . 0 1/2\ . 0 0 .1/2 0 /
Глава 1. Цепи Маркова с дискретным временем О О (/+1)/2 (/-1)/2 1/2 I нечетно / четно Рис. 1.34 содержащая много нулей. Действительно, при четных / множество вершин разбивается на «четное» подмножество №ч = {0, 2,...,/ — 2} и «нечетное» подмножество №неч = {1,3,...,/-1}. Эти подмножества образуют периодические подклассы: например, если цепь выходит из вершины, входящей в четное подмножество, то она будет попадать в нечетное подмножество во все нечетные моменты времени и будет попадать в четное подмножество в четные моменты времени. Таким образом, при четных / цепь (Хп) является периодической с двумя подклассами. При нечетных / элементы матрицы Рт впервые все станут положительными, когда показатель степени будет равен т = 1. Далее, минимальный элемент матрицы Р1 равен 2/2'= 1/2'-1, что равно вероятности Ро№ = 0) = Р(А'/ = 0 | Л'о = 0) (поскольку цепь попадает из 0 в 0 за / шагов, только если пройдем вдоль всего пути в любом направлении). (/+1)/2 (/-1)/2 / нечетно Рис. 1.35
§1.12. Геометрическая алгебра ц.м.д.в., I. Собственные значения и спектральные щели Очевидно, что для любого / цепь неприводима и имеет единственное стационарное распределение *=(},...,}) = }lT, где1=(:). (1.12.2) Кроме того, матрица Р обратима с этим стационарным распределением. □ Таким образом, при нечетных / правая часть соотношения (1.9.14) принимает следующий вид: / J \Л/(/-1) / П \ 0-5=г) *ехР(- 2^737))- (1-12.3) Это означает, что, желая иметь равномерную сходимость при /, п —> со, мы должны гарантировать, что п/(211) —> со, т. е. п должно расти быстрее, чем 2'/. Является ли эта оценка точной? Чтобы найти ответ, обратимся к алгебре. Матрица (1.12.1) является эрмитовой: Ят = Р. Следовательно, она имеет / ортонормированных собственных векторов, образующих базис в /-мерном действительном евклидовом пространстве Ш.1 (и в /-мерном комплексном евклидовом пространстве С'), и все ее собственные значения действительны. Собственные векторы можно найти, воспользовавшись элегантным аппаратом дискретного преобразования Фурье. А именно, рассмотрим функции фо, ..., ф/-ь где фр(/) = 4=ехр(2тп>|), /, /7 = 0, 1...../-1. (1.12.4) Здесь / = 0, 1, ...,/— 1 —дискретный аргумент этих функций, р = = 0, 1, ..., /— 1 —дискретный параметр, индексирующий эти функции. Эквивалентным образом, можно представить фр как векторы из С', записав / <Ы0) \ \<М'-П/ (компоненты здесь занумерованы числами 0,...,/— 1 вместо традиционной нумерации 1,...,/, но это поможет сделать алгебраические выкладки более прозрачными). Таким образом,
Глава I. Цепи Маркова с дискретным временем Отметим, что все наши векторы имеют первой компонентой 1/4/7. Нормировка 1Д/7 выбрана для того, чтобы векторы были ортонормированными: (фр,фр,) = 8рУ = Я- £=£ (1.12.6) Чтобы проверить равенства (1.12.6), запишем <Фр. ФЛ = у Ё Ф'0 М) = j Х>р С2"1'^') • /=0 /=0 I'-' Когда р = р', правая часть равна -^1 = 1. В противном случае, т.е. 1 i=o когда р ф /У, получаем сумму геометрической прогрессии с комплексным знаменателем ехр[2ти(р — р')/1]: /Л, Л, \-1 «ф[2ти(р - р')1/1] - 1 _ _ (Ф"' Ф"'} - 1 ехр[2ш(р-р>)/1]-\ - °' поскольку ехр[2л/(р - р')1/1] = ехр[2ти'(р - р')] = 1. Теперь проверим, что фр— это собственные векторы матрицы Р: №)(/) = ±<|v(/ - 1) + ±Ф,(/ + 1) = ^(^"С-1)/' + е>м+М) = = -J= cos (2к^)е2п1р1/1 = cos (2т^)фр(/). (1.12.7) Следовательно, Р<\>р — Црфр, и собственными значениями являются [ip = cos(27^), /7 = 0,1 /-1. (1.12.8) Первое собственное значение (io = 1, а соответствующий собственный вектор фо = -/= I пропорционален (транспонированному) стационарному распределению л (ср. с (1.12.2)): Как было упомянуто ранее, изменение нормировки объясняется расхождением в требованиях: с одной стороны, мы хотим, чтобы выполнялось условие ||фо||2 = (фо. фо) = 1. значит, должно выполняться равенство фо = = -т= 1, а с другой стороны, нам необходимо, чтобы выполнялось условие V/ 5^пу- = (tit, !) = 1, что требует выполнения равенства кт = - \_. I
§ 1.12. Геометрическая алгебра ц.м.д.в., I. Собственные значения и спектральные щели Back to Fourier8 (Из серии «Фильмы, которые не вышли на большой экран».) Нетрудно найти и действительные собственные векторы матрицы Р (что можно предвидеть, так как Р— действительнозначная матрица). Заметим, что комплексно сопряженная функция фр совпадает с ф/_р, р = = О, 1 / - 1. Действительно, Ф/>(/) = -д еХР (- 2niPj) = -д еХР (2ju' - 2KiPj) = = -^ехр(-21И-(/-/7)^)=ф/_р(/), / = 0, 1,...,/-1. Соответствующие собственные значения также совпадают: [ip = [i/-p, поскольку cosfon^) = cos (2я - 2лу Y p = 0, !,...,/-!. При р = 0 равенство фр = ф/_р тривиально, так как вектор фт = —=. 1 = _ v' = фот является действительнозначным. Если / четно и р = 1/2, вектор фр является опять действительным: фр(/)= —т=еш' = + 1 или —1, в зависимости V/ от четности /. В векторном обозначении /_\ ф//2 = ^Г, гдеГ = 1 V-i/ Иными словами, компоненты вектора j_a меняют знак и равны либо 1 (при четных / = 0, 2, ...,/ — 2), либо -1 (при нечетных / = 1, 3, ..., / — 1). Соответствующее собственное значение [i//2 = cos к = — 1. Таким образом, за исключением случаев р = 0 и р = 1/2 при четных / собственные векторы группируются в попарно сопряженные, соответствующие одному и тому же собственному значению. Иными словами, каждое из этих собственных значений имеет кратность 2. Итак, можно образовать следующие действительные ортонормированные собственные векторы: -у=(фр + фр) с компонентами —= cos [2кр-), / = 0 /—1, Ср. с названием фильма «Back to the Future».
Глава 1. Цепи Маркова с дискретным временем 7-т= (фр — фр) с компонентами —= sin (2кр-), / = 0, ..., / — 1, где р — 1, 2, ..., 2р < I. Для нас не имеет большого значения, будем ли мы использовать комплексные или действительные собственные векторы; важным является лишь то, что они образуют полную ортонормированную систему (базис). Для чего же нужны такие детальные (хотя и красивые) сведения из алгебры? Они дают возможность представить (транспонированную) вектор- строку начального распределения X = (X,) в виде *т=5>т.Фр>ф, р=0 и вектор-строку ХЯ" вероятностей Р(Хп = /) записать в виде линейной комбинации: (ХЯ")т = Ё<ХТ'Цс05(^)]ПтУ (1-12.9) р=0 Для слагаемого в правой части равенства (1.12.9), соответствующего р = 0, сомножитель, содержащий косинус, равен 1, и это слагаемое равно <ХТ, ф0)фо = )(ХТ, 1)1= ±1 = *т, поскольку (Хт, 1) = £>,- = 1. Все остальные члены содержат множители ц£ = [cos(2iip/l)]"; для нечетных / все (ip при р ф 0 лежат строго между —1 и 1, и, следовательно, оставшаяся часть суммы в правой части равенства (1.12.9) стремится к нулю при п —» оо: (XP")T«7tT, или ХР"^п. (1.12.10) Для четных / следует учитывать также слагаемое, соответствующее р = = 1/2: оно содержит множитель, в котором косинус равен (-1)", и это слагаемое равно ^(хт,ф,/2)(-1Гф//2 = )(хт,1а)1а. Последнее выражение может быть переписано в виде (дчет _ Лнечет)аТ) гда дчет = £ ^ днечет = ^ X,- И аТ = | 1".
§ 1.12. Геометрическая алгебра ц.м.д.в., I. Собственные значения и спектральные щели В этом случае все \ip при р ф 0, 1/2 лежат строго между —1 и 1 и их вклад пренебрежимо мал: (Х/5")ти71т + (-1)п(Лчет-Лнечет)ат, или Xpn^K + i-iyiA^-A"*4")*. (1.12.11) Отметим, что Лчст + Лнсчст = (Хт,!) = 1 и если X совпадает с инвариантным распределением л, то Лчет = Лнсчет = 1/2 (т. е. разность Лчет — Лнечет равна 0). С другой стороны, предположим, что Лчет = 1 и Лнсчет = 1, т. е. начальное распределение X сосредоточено на четном подклассе. Тогда для четных п выполняется соотношение (XP")T^i4eT, где 1чет = W w Иными словами, если / четно и X сосредоточено на четном периодическом подклассе, то при n = 2N—> оо вектор (ХЯ")Т стремится к равномерному распределению на четном подклассе. Аналогично при n = 2N + 1 —>оо вектор (ХЯ")Т стремится к равномерному распределению на нечетном периодическом подклассе. Ситуация для четного / и X, сосредоточенного на нечетном подклассе, симметрична. Теперь можно довольно точно оценить скорость аппроксимации в соотношениях (1.12.10) и (1.12.11). Удобно ввести «спектральную щель», которая измеряет расстояние между точками ±1 и абсолютными значениями [ip: 8(/> = гшп[|1-|ц„||:/7=1,2, .... 2р<1]. Тогда при нечетных / значение 8(/' достигается при р = (/ ± 1)/2: if_ 2/2 8(/) = 1 + cos(n(/± 1)//) = ^ + 0(1//4), (1.12.12) и (ХЯл)т = 71Т + 0(/е-п8")), или \Рп = к + 0(1е-пЬ{П). (1.12.13) Иными словами, имеет место сходимость к равновесию при / —> оо, если п. растет быстрее, чем /21п /. Это более слабое ограничение по сравнению с соотношением (1.12.3). Аналогично при четных / значение 8<" достигается при р = 1 и р = = //2±1: 8(/) = 1 - cos(2ti//) = 1 + cosfr ± 2п//) и Ц- + 0(1//4) (1.12.14)
Плава 1. Цепи Маркова с дискретным временем \Р" = 71 + (-1)"(Лчет - Лнсчет)а + 0{1е-пЬт), (1.12.15) что требует той же скорости сходимости для п относительно /. Полезно взглянуть на матрицу L = I — Р: ■1/2 0 ... О L = \-P= | _1/" ' ~1/2 ■■■ ° " |. (1.12.16) О 0 ... -1/2 фо Ее действие на вектор ф = I I задается формулой V*. '/-!> (Z-ф); = ф; — g^'-I mod/ + +i+l mod/), * = 0, 1, ...,/- 1, (1.12.17) что можно рассматривать как дискретный аналог дифференциального оператора второго порядка (перед которым поставлен знак минус и коэффициент 1/2): -^:/W^-1/2/"(*)• (1.12.18) Формула (1.12.18) определяет линейное отображение на пространстве дважды дифференцируемых функций f(x), заданных на прямой Ш. или на интервале, например, на [0, 2л]. В последнем случае обычно рассматривают действие этого отображения на функции, удовлетворяющие некоторым граничным условиям, скажем /(0) = /(2л) и /'(0) = /'(2л); это означает, что концы интервала 0 и 2л «соединяются», и интервал превращается в единичную окружность. В нашем примере, рассматривая точки mod /, мы объединяем вершины 0 и /. В многомерном случае, когда функции зависят от переменных jti, ..., Xd, формула (1.12.18) заменяется следующей формулой i d Я2 /(*,, ..., xd) ь* -± Y, |?/(*i **). (1-12.19) Сумму в правой части называют оператором Лапласа или лапласианом; стандартное обозначение для нее — это Af(x\, ..., х^). По этим причинам будем называть матрицу L, заданную формулой (1.12.16), дискретным лапласианом на единичной окружности. Из определения видно, что матрица L является эрмитовой. Кроме того, собственные векторы матрицы L — это в точности фо, • • •, ф/-1. а собственные
§1.12. Геометрическая алгебра ц.м.д.в., I. Собственные значения и спектральные щели значения имеют вид РР = 1 - [ip: РР = 1 - cos Ы £), /7 = 0,1 1-1. (1.12.20) Заметим, что (Зп = 0 и Pi = 1 — \i\, т. е. Pi — расстояние между Цо = 1 и остальными собственными значениями Р. Поскольку все собственные значения РР положительны (и РР > 0 при р ^ 1), матрица L является неотрицательно определенной. Дискретный лапласиан будет рассмотрен подробнее в § 1.14. у. and /'s Wedding9 (Из серии «Фильмы, которые не вышли на большой экран».) Пример 1.12.2. Предположим, что имеется d различимых объектов (например, шаров с номерами l,...,d), каждый из которых окрашен в черный или белый цвет. Все шары находятся в ящике (или урне). Мы выбираем случайным образом один из шаров, меняем его цвет и кладем обратно. Число состояний системы 2d (каждый шар может быть черным или белым). Эта модель была предложена П. и Т. Эренфестами в 1907 г. для того, чтобы примирить обратимость во времени с «наблюдаемой» необратимостью в статистической физике. Принципиально важное наблюдение состоит в том, что математическое ожидание случайного момента времени, когда все шары будут одного цвета, экспоненциально растет с ростом d. Если d имеет порядок числа Авогадро (и 1023), это значение астрономически велико. (См.: Кац М. Вероятность и смежные вопросы в физике. М.: Мир, 1965.) Классическая урновая модель Эренфеста может быть описана как случайное блуждание «по ближайшим соседям» на d-мерном двоичном кубе с числом вершин 2й и числом ребер d2d~[. Вершины (состояния) индексированы двоичными «стороками» а длины d: а = (ot|, ..., а^) £ {0, l}d, где oil, ..., aid = 0, 1- Матрица перехода Р= (р(/) составлена из элементов -:, если а и а' — ближайшие соседи, т. е. а' может быть а „ получено из а заменой лишь одной компоненты / _ I (если а./ = 0, то а.': = 1, или если щ = 1, то а.'-. = 0), Ps&'-S /=l,...,d, 0, в противном случае, т. е. когда а и а' отличаются друг от друга более чем одной цифрой или совпадают. (1.12.21) Ср. с названием фильма «Murial's Wedding».
Глава 1. Цепи Маркова с дискретным временем Инвариантное распределение является равномерным: %а.= l/2d и задает собственный вектор Р, соответствующий собственному значению [io = 1. Собственные значения можно вновь вычислить точно (хотя вычисления более сложные). Ответ таков: существуют d + 1 различных собственных значений 1-|, (Uy^d, (1.12.22) с геометрическими кратностями C'd. (1.12.23) Чтобы доказать этот факт, рассмотрим матрицу смежности Аа вида d х Р. Матрица Аа состоит из элементов 0, 1 и является симметричной (2d х 2^)-матрицей, определяемой рекуррентными соотношениями Л0 = (0) (1 х 1) и л _ (Ad-] Jrf—1 \ Ad-{!<-] Ad-,) для d^ 1. Здесь J^-i —это бинарная (2d~[ x 2й-1)-матрица инцидентности, соответствующая двум копиям матрицы Аа-\\ см. рис. 1.32. Мы видим, что Аа разбита на части (она содержит ненулевые элементы, блоки из которых коммутируют между собой). Поэтому характеристический многочлен Daiy.) = det(jilj — Аа) имеет вид £>о(ц) = у. и для d ^ 1 выполняется равенство 'w-*('*--^V'^-.)- Эту величину можно вычислить как определитель от определителя, имея в виду, что J^_, =ltf_i: Dd(y.) = det[(y.la-l-Aa-if-la-i] = = det[(n - l)Id_, - Л„_,][(ц + l)lrf_, - Aa-i] = = £>rf_,(li-l)A/_,(lz + l). Итерация приводит к выражению d Da(\i) = l[(\i-d + 2jr^\ /=o откуда получаем, что собственные значения матрицы Аа равны d — 2у, у = = 0,.. .d, а собственные значения матрицы P = d~lAa задаются формулой
§1.12. Геометрическая алгебра ц.м.д.в., 1. Собственные значения н спектральные щели (1.12.22). Чтобы подсчитать кратности m(d,j), вновь используем представленные выше рекуррентные соотношения: d J](ji -d + 2j)mW) = /=o d-\ d-\ = JJ(H - 1 - d + 1 + 2j)m(d-l'i) JJ(jx + l - d + l + 2/)mC-^ y=o ;=o d-1 = JJ(ji - d + 2y-)m(rf_I'/)(li - d + 2(/ + l))m(d-'^ = /=o d = JJ(n -d + 2j)m^-l^+m^-l'i-l\ где m(d — 1, /) = 0, если j < 0 или j> d- 1. Следовательно, m(d, y) = m(d - 1, j) + m(d - 1, j - 1), откуда получаем m(d, /) = Cyd. Таким образом, алгебраическая и геометрическая кратности собственного значения d - 2/ матрицы Аа задаются формулой (1.12.23). (Это доказательство было представлено Дэвидом М. Р. Джексоном.) Цепь с вероятностями перехода (1.12.21) является неприводимой и периодической с периодом 2. Это согласуется с тем фактом, что последнее собственное значение jx^-i равно -1. Чтобы получить апериодическую цепь, удобно видоизменить модель, допуская, что блуждание может оставаться в прежнем состоянии с вероятностью l/(d + 1), а оставшаяся вероятность d/(d + 1) вновь распределяется равномерно между d ближайшими соседями. Такая модификация этого примера будет обсуждаться в следующем параграфе. □ Примеры 1.12.1 и 1.12.2 подготовили нас к обсуждению общих спектральных свойств матрицы вероятностей перехода. (Многие свойства, сформулированные ниже, справедливы и для произвольной матрицы М с неотрицательными элементами.) Пусть Р — это (/ х /)-матрица вероятностей перехода. Можно рассматривать ее правостороннее действие вида X ь-> ХЯ, т.е. действия на /-мерную вектор-строку X = (Х|, ..., X/), и левостороннее действие хн Ях, когда матрица действует на /-мерный вектор-столбец х = | : ; в обоих случаях векторы могут быть дей-
Глава 1. Цепи Маркова с дискретным временем ствительными или комплексными. Конечно, правостороннее действие Р соответствует левостороннему действию транспонированной матрицы Рт и наоборот. (Однако Рт не обязательно является стохастической матрицей.) В дальнейшем, говоря о собственных значениях и собственных векторах, мы подразумеваем правостороннее действие рассматриваемой матрицы. Таким образом, собственное значение матрицы Р — это такое число [i, что утР = [iyT для некоторого /-мерного вектора-строки ут. Аналогично, собственное значение матрицы Рт — это такое число [I, что утРт — \iy для некоторого вектора-строки ут; очевидно, равенство утЯт = = [iyT эквивалентно равенству Ру = у.у. В обоих случаях у. и у могут быть комплексными. Спектр матрицы Р определяется как множество ее собственных значений. Конечно, каждое собственное значение является корнем характеристического уравнения det([il — P) — 0; более того, каждый корень является собственным значением. Определитель detail-Я) = (-l)'det(P-izl) является многочленом степени / (его называют характеристическим многочленом матрицы Я), следовательно, он имеет / корней, причем некоторые из них могут быть комплексными (несмотря на то что коэффициенты многочлена действительны). Мы знаем, что каждое стационарное распределение 71 является собственным вектором, соответствующим собственному значению 1, так как уравнение инвариантности кР = % в точности это и означает. Далее, если матрица Р неприводима, то она имеет единственное стационарное распределение; в общем случае для каждого сообщающегося класса имеется единственное стационарное распределение, заданное на этом классе (и любое стационарное распределение является выпуклой линейной комбинацией этих стационарных распределений для классов). Таким образом, значение 1 всегда является собственным значением; по традиции ему приписывают индекс 0: у.о = 1. Аналогично, спектр матрицы Рт определяется как множество ее собственных значений. Мы знаем также, что матрица РТ всегда имеет собственное значение 1: соответствующий собственный вектор — это ! = (1, ..., 1). Действительно, J_TP = (PjJT = \J, поскольку Р\_= \_ (см. соотношение (1.1.3)). На самом деле характеристические уравнения для Р и Рт имеют одни и те же корни, так как их характеристические многочлены совпадают: det(nl - Р) = det(nl - Я)т = det(nl - Р1). Следовательно, спектры матриц Р и Ят совпадают.
§ 1.12. Геометрическая алгебра ц.м.д.в., I. Собственные значения и спектральные щели Призрак бродит по Европе10 К. Маркс (1818-1883), немецкий философ В чем состоит различие между корнями характеристического уравнения (или, что эквивалентно, корнями характеристического многочлена) и собственными значениями? Краткий ответ: они отличаются кратностью. Предположим, что корнями характеристического полинома det([il — Р) являются числа Lio, ..., \Xi-\. Тогда можно представить определитель в виде произведения det(nl -P) = П(^ - цр). Однако корни могут быть кратными, поэтому удобно также записать это разложение в виде det^xl - Я) = П<^ - Кр)04". р где произведение берется по всем различным корням, или, что эквивалентно, по различным собственным значениям. Здесь следует различать алгебраическую кратность ар корня у.р и геометрическую кратность собственного значения [ip: в последнем случае кратность равна числу таких линейно независимых векторов у, что уР = у.ру (т. е. размерности собственного пространства Е(у.р) С С', отвечающему собственному значению [ip). Алгебраическая кратность всегда не меньше геометрической: ар ^ dim E([ip). Но если [ip является корнем многочлена det(bil — Р) (т.е. его кратность ар ^ 1), то dim Е(у.р) ^ 1, т.е. существует собственный вектор, соответствующий собственному значению у.р. Следовательно, матрица Р может иметь меньше чем / линейно независимых собственных векторов, но их число всегда не меньше числа различных корней. Эти рассуждения, конечно, верны и для РТ. Более того, и алгебраическая, и геометрическая кратности корней у.р одинаковы для обеих матриц Р и Рт. Следовательно, число линейно независимых собственных векторов у Р и Ят одинаково. Иными словами, спектры Р и Рт совпадают, даже если учитывается кратность. На самом деле последний факт имеет место для любой действительной матрицы М. Если матрица Р эрмитова (т.е. Р = РГ), то геометрические и алгебраические кратности совпадают. На самом деле в этом случае Р имеет ортонормированный базис из / собственных векторов. Кроме того, в этом случае все собственные значения (или, что эквивалентно, все корни характеристического уравнения) действительны. Иными словами, спектр Р является подмножеством действительной прямой R. По-английски призрак — это «spectre»
Глава 1. Цепи Маркова с дискретным временем We will do what we always do: raise EVAT, the eigen-value added tax. Мы будем делать то же, что и всегда: повышать налог на добавленные собственные значения". (Из серии «Кое-что из политики».) Отметим также, что если многочлен det(jj.I — Р) имеет попарно различные корни, то он имеет / линейно независимых собственных векторов. Начиная с этого момента будем предполагать, что матрица Р непри- водима; в противном случае существует инвариантное подпространство для каждого сообщающегося класса и можно рассматривать действие матрицы Р на каждом подпространстве. Полезно также отметить, что вектор-строка, представляющая собой индикатор каждого сообщающегося класса (с компонентами 1 для элементов класса и 0 вне класса), будет инвариантной для Рт. Норма матрицы ||Р||, используемая ниже, определяется обычным образом: \\Р\\ = sup[||xTP||: вектор-строка хт е R', ||х|| = 1] = = sup .. ,. : вектор-строка хт е R , х ф О / / \'/2 Здесь ||х|| = ((х, х))'/2 = I ^2 \xi\2 ) —обычная евклидова норма вектора, порожденная обычным скалярным произведением в Ж' или С'. В примере 1.12.1 мы видели, что спектр матрицы перехода (1.12.1) лежит в отрезке [—1, 1], между точками у.о = 1 и — 1. Оказывается, это является общим свойством матрицы вероятностей перехода. Точнее, собственные значения Р могут быть и комплексными, но они должны лежать в комплексном круге единичного радиуса с центром в начале координат. Точная формулировка содержится в следующей теореме. Теорема 1.12.3. Пусть Р — это неприводимая стохастическая (/ х 1)-матрица. Тогда справедливы следующие утверждения. 1. Число [in = 1 всегда является собственным значением матриц Р и Рт, его алгебраическая и геометрическая кратности равны 1, и соответствующее собственное пространство матрицы Р порождается стационарным распределением тс, а соответствующее собственное пространство матрицы РТ порождается вектором \_ . Норма \\Р\\ = \\РТ\\ равна 1, и все собственные значения у.рфу.о удовлетворяют неравенству \у.р\ < 1, т.е. лежат в замкнутом единичном круге комплексной плоскости С. 1' Игра слов: EVAT = the eigen-value added tax и EVAT = education via advanced technology.
§1.12. Геометрическая алгебра ц.м.д.в., I. Собственные значения и спектральные щели 2. Если матрица Р является апериодической, то все собственные значения \±р ф]±о таковы, что \\±р\ < 1, т.е. лежат внутри открытого единичного круга в С. И наоборот, если все собственные значения \ip ф [io таковы, что \у.р\ < 1, то цепь является апериодической. Это утверждение является частным случаем так называемой теоремы Перрона—Фробениуса, которую можно сформулировать и доказать для матрицы с неотрицательными элементами общего вида. Ср. с §1.14. Нас особенно интересует свойство 2. Поэтому приведем его краткое доказательство. Предположим, что матрица Р является неприводимой и апериодической. Тогда, согласно теореме 1.9.2 вектор ХЯ" стремится к стационарному распределению % для любого начального распределения X, в частности и для X = 8j, i = 1, ..., /, где 8; — это мера, сосредоточенная в точке /. Набор векторов 8,- образует ортонормированный базис в пространствах /-мерных вектор-строк Ж1 и С': 8,- = (0, ..., 0, 1, 0 ..., 0) (1 на /-м месте, остальные элементы — нули). Следовательно, сходимость имеет место для любых /-мерных вектор-строк хт = (х\, ..., X/), действительных или комплексных: lim xTPn= lim X"xibiPn = V*i7t=(x, J>. (1.12.24) (=1 (=1 Предположим теперь, что существует собственная вектор-строка фт, соответствующий такому собственному значению у., что |^i| ^ 1 и [I ф \х§ = = 1. Тогда фя" = ц"ф -h <ф, Ik что противоречит равенству (1.12.24). Следовательно, такого собственного вектора не существует, и для всех собственных значений у.ф[1о должно выполняться неравенство \у.\ < 1. Теперь, напротив, предположим, что все собственные значения [I ф у.о по модулю меньше 1, но матрица Р является периодической, т.е. имеет периодические подклассы С\, ..., Си с периодом k. Тогда при действии матрицы Pk при всех j =],..., k состояния из Су не сообщаются с состояниями, не принадлежащими классу С/. Таким образом, при действии матрицы перехода за k шагов Pk, каждый подкласс С/ содержит некоторый замкнутый сообщающийся класс S; для матрицы Pk (а, возможно, совпадает с ним). Разумеется, при всех /' = 1, ..., k матрица Pk имеет стационарное распределение, т. е. инвариантный стохастический вектор, сосредоточенный на Sr Рассмотрим у = 1 и предположим, что т№ = (л- )
Глава 1. Цепи Маркова с дискретным временем является стационарным распределением для Я*, сосредоточенным на 5|. т е %(\)pk = %(\) H7l(" = 0V/^Ci. Далее, вектор-строка тс(1) циклически перемещается под действием исходной матрицы Я и ее степеней Я2, ..., Я*-1: вектор %^) —%Wpi~^ сосредоточен на Су, и опять является стационарным распределением для Я*, J = 1, ..., k — 1. Возьмем тогда корень й-й степени из единицы, обозначаемый к (х* = 1, но кф 1), и образуем вектор-строку k-\ /"=1 x-'nw. (1.12.25) Поскольку k-1 k-\ UP = J2 х'*и+1) + *(1)x-*+1 = x*"> + xJ2 ^ = *П, /=1 /=2 получаем собственный вектор матрицы Я, соответствующий собственному значению к, где кф 1, но \к\ = 1. (Эту же процедуру можно повторить для всех нетривиальных корней й-й степени из единицы.) Но это противоречит сделанному выше предположению о том, что все собственные значения ц матрицы Я, отличные от [io = 1, по модулю меньше 1. Этим завершается доказательство свойства 2. спектральный радиус 5{Р), спектральная щель Мо = 1 р(Р) = 1 Р неприводима и апериодична Рис. 1.36 Минимальный круг на комплексной плоскости С с центром в начале координат и содержащий все собственные значения матрицы, называется спектральным кругом, а его радиус называют спектральным радиусом. Иными словами, спектральный радиус р(М) матрицы М равен максимальному модулю собственных значений матрицы М. Таким образом, согласно
§1.12. Геометрическая алгебра ц.м.д.в., 1. Собственные значения и спектральные щели утверждению 1, приведенному выше, спектральный радиус р(Я) матрицы вероятностей перехода Р равен единице и совпадает с нормой ||Я|| (в общем случае можно только утверждать, что ||УИ|| ^р(М)). Далее, спектральная щель матрицы М определяется как минимальное значение Ь(М) разности р(М) - |[i|, где собственное значения \i таковы, что \у.\ < р(М): 8(Af) = min[l - \[i\: у. — такое собственное значение, что \[i\ < p(Af)]. (1.12.26) В соответствии с вышеприведенным утверждением 2 значение спектрального радиуса неприводимой апериодической матрицы перехода Р достигается на единственном собственном значении у.о= 1, которое имеет геометрическую кратность 1: мы исключили возможность собственного значения [i^l, модуль которого равен 1. Для неприводимой апериодической матрицы Р спектральная щель дает скорость сходимости вектор-строки \Р" к инвариантному распределению тс и скорость сходимости вектор-столбца Рпх к вектору (х, тст)_1_т. Здесь коэффициент (х, тст) = ^2 тс,*,- играет ту же роль, что и (х, V) в соотношении /=i (1.12.24). Это становится особенно очевидным, когда матрица Р имеет / линейно независимых собственных вектор-строк ф^ = тс, ф[, ..., <\>]_,. Тогда каждая /-мерная вектор-строка хг (действительная или комплексная) /-1 записывается в виде линейной комбинации ^ «рфр- Следовательно, р=0 /-1 /-1 XV = 2>рц£фТ = «ore + 5>^Ж' (1Л2-27) р=0 р=\ и норма остающейся в правой части соотношения (1.12.27) суммы равна /-1 /-1 5>рИрФ£ ^(1-8)"]Г>р|||фр|| = 0((1-8(Я)П. (1.12.28) Р=\ Р=\ Аналогично если Рт имеет / линейно независимых собственных вектор- /-1 строк фо =1 , ср[, ..., ср]"_|, то, представив х в виде х= Y1 °рфр. находим р=0 /-1 /-1 /-I P"x = J2VpU-p4>P = V0i+Y;VPV-pyP' Х^рФр р=0 р=\ р=\ и8 = 8(Ят) = 8(Р). <0((1-8)я),
Глава 1. Цепи Маркова с дискретным временем С этой точки зрения, удобный класс образуют обратимые стохастические матрицы. Дело в том, что если неприводимая матрица перехода Р обратима относительно своего стационарного распределения тс, то ее действие (правостороннее или левостороннее) является эрмитовым относительно «взвешенного» скалярного произведения (■, ■ )„: / (х,У>к = £>№ (1.12.29) [=1 Более того, транспонированная матрица Рт обладает тем же свойством: ее действие (правостороннее или левостороннее) является эрмитовым от- носительно (•, • )„. Действительно, пусть х = : , у= : — пара /-мерных векторов (действительных или комплексных). Тогда (Ятх, у)к = ((хтЯ)т, у)к = J2 ЪРцт = t = У~^ XiPijy'iKi (в силу обратимости) = =Е*™ Ерчу!=<*• ^р?)к = <х- рТу)^- (!• 12-3°) Аналогично можно показать, что (Ях, у)я = ((хтЯт)т, у)к = (х, (утЯт)т)к = (х, Ру)к. (1.12.31) Но это означает, что для правостороннего и левостороннего действий матрицы Р сопряженная матрица Р* относительно (•, • )к совпадает с Р, т. е. Р является эрмитовой (самосопряженной) относительно (•, • )п. Это выполнено также и для Р1, что и утверждалось. Взвешенное скалярное произведение является невырожденным (в том смысле, что (х, х)п = 0 тогда и только тогда, когда х = 0, поскольку все компоненты тс,- положительны). Здесь применима стандартная теорема о том, что каждая эрмитова матрица имеет ортонормированный базис из собственных векторов и ее спектр — действительный (т. е. все собственные значения действительны). В нашем случае это влечет за собой возможность выбрать собственные векторы фо. фь •••, ф/-1 действительными (так как фо <хтст, вектор фо можно сделать положительным). И хотя ортогональность подразумевается относительно скалярного произведения {-,•)*
§1.12. Геометрическая алгебра ц.м.д.в., I. Собственные значения и спектральные щели и будет потеряна, если вернуться к стандартному скалярному произведе- / _ нию (х, у) = ^Xiiji, но линейная независимость сохранится, и соотношения /=1 (1.12.27) и (1.12.28) остаются справедливыми (при ир = (х, фр)п). Подведем итог. Теорема 1.12.4. Пусть Р — неприводимая стохастическая (/ х 1)-матрица, обратимая относительно своего стационарного распределения %. Тогда обе матрицы Р и РТ являются эрмитовыми относительно скалярного произведения (■, • )п. Таким образом, каждая из них имеет I действительных собственных значений, и их спектры совпадают. Кроме того, собственные значения матриц Р и РТ, если считать их, учитывая их кратность, совпадают. Упорядочив собственные значения [ip в порядке убывания, получим цо=1>1И^Ц2^...£Ц/-|^-1. (1.12.32) Если Р — апериодическая матрица, то \ii^\(P) > — 1 и спектральная щель 8 = Ь(Р) = 8(ЯТ) задается формулой 8 = min[l-n,, 1-|ц/_||]. (1.12.33) В этом случае из соотношений (1.12.27), (1.12.28) следует, что ХЯп = 71 + 0((1-8)"), (1.12.34) для любого начального распределения X. Если Р — периодическая матрица, то [i/_i = —1. В этом случае матрица Р2 приводима и имеет два сообщающихся класса, скажем С\ и Сч, и два инвариантных распределения тс'1' и т^2' = л^Л сосредоточенных на этих сообщающихся классах. Геометрическая кратность значения [i/_i равна единице, а собственный вектор пропорционален вектору П = л(1) - п(2), (1.12.35) ср. с (1.12.11). Тогда для любого начального распределения Х = = (Х,,...,Х,) ХР" = к + (-\)П(А{1) - Л(2>)П + 0((1 - 8)") (1.12.36) иЛ<'>= £ ХЬЛ<2> = £ X,-. »€С<'> /€С<2>
Глава 1. Цепи Маркова с дискретным временем Специалисты по марковским процессам открыто делают это в сообщающихся классах (Из серии «Как они делают это».) § 1.13. Геометрическая алгебра цепей Маркова, II. Случайные блуждания на графах Многие вещи становятся более понятными, если рассмотреть класс случайных блужданий на графах. Определение было приведено в §1.10; здесь мы ограничимся рассмотрением конечных неориентированных графов без кратных ребер и петель. Иными словами, связность ьц принимает значения 0 или 1; в первом случае нет ребра, которое бы связывало i и у, а во втором случае есть единственное ребро, которому приписывают две стрелки в противоположных направлениях: (i —»/) и (/' —»i). Примеры 1.12.1, 1.12.2 попадают в эту категорию. Вдобавок графы в этих примерах имеют постоянную кратность: и,- = J2 иц = J2 ич — v ^ 1 • т-е- для каждой у ' вершины i существует v стрелок, выходящих из i и ведущих к соседним вершинам, и v стрелок, выходящих из этих вершин и ведущих к г (v — 2 в примере 1.12.1 uv = d ъ примере 1.12.2). В общем случае кратность v, может зависеть от /. Граф можно изображать без указания направлений или же рисовать в каждом ребре две стрелки в противоположных направлениях. Случайное блуждание на графе было определено как ц.м.д.в. с (конечным) пространством состояний G — множеством вершин графа и матрицей вероятностей перехода Р с элементами Pij = Pii = vij/vi. (1.13.1) Мы проверили, что равенство щ = ы/^1- (113.2) /€С задает стационарные вероятности (иными словами, вектор тст является собственным вектором матрицы Р в М'с1 или С'с', соответствующим собственному значению (in = 1). Здесь \G\ обозначает общее число вершин графа. Более того, матрица Р является обратимой относительно стационарного распределения к = (л,-): тс,р,у = Пуру,-, /, у € G. Если кратность v-, постоянна, то матрица перехода Р = (р(/) является эрмитовой и вышеуказанное стационарное распределение к = (тс,-, / G G) является равномерным: щ = 1/|G|. Мы отмечали, что в этом случае матрица Р имеет ортонор- мированный базис из собственных векторов в IRlGl и все ее собственные
§1.13. Геометрическая алгебра цепей Маркова, II. Случайные блуждания на графах значения действительны. Далее, согласно теореме Перрона—Фробениуса все собственные значения Р лежат в замкнутом отрезке [—1, 1]. Иными словами, спектр матрицы Р является подмножеством интервала [—1, 1], и [in = 1 является крайней справа точкой спектра. В общем случае матрицу Р можно превратить в эрмитову, если заменить стандартное скалярное произведение (•, •) в IRlGl взвешенным скалярным произведением: i€G Таким образом, для общего случайного блуждания на графе спектр матрицы Р также является подмножеством отрезка [—1, 1] и содержит (in = 1 как свою крайнюю справа точку. Р неприводима, апериодична Р неприводима, периодична и обратима с периодом 2 и обратима Рис. 1.37 Рис. 1.38 Если рассматриваемый граф является связным, то случайное блуждание неприводимо, и наоборот. См. рис. 1.37. В этом случае цепь имеет единственное стационарное распределение и геометрическая кратность собственного значения (in = 1 равна 1. В дальнейшем мы сосредоточим внимание только на случае неприводимых случайных блужданий. Как и в предыдущем параграфе, запишем собственные значения в невозрас- таюшем порядке: 1 =(i0>(ii ^...^(i|c| >-\. (1.13.3) Точка —1 может либо принадлежать, либо не принадлежать спектру матрицы Р: это зависит от того, является цепь периодической или нет. Можно проверить, что при наших условиях цепь может иметь только период 1 (апериодическая цепь) или период 2 (цепь с двумя периодическими подклассами). Если —1 является собственным значением матрицы Р, то
Глава 1. Цепи Маркова с дискретным временем граф является двудольным, т. е. множество вершин G можно разбить на два таких непересекающихся подмножества G'1' и G'2), так что каждое ребро графа соединяет вершину из G'1' с вершиной из G'2'. В этом случае цепь является периодической и период равен 2. И наоборот, если цепь периодична с периодом 2, то -1 является собственным значением. Если периодическими подклассами являются Q\ и Qi, то собственный вектор, соответствующий собственному значению —1, пропорционален вектору Is, -Ig2- Здесь \_gt — это вектор, компоненты которого равны 1 для состояний из Qi и равны 0 для состояний из другого класса. Таким образом, если матрица Р является апериодической, то точка -1 не является собственным значением, т. е. не принадлежит спектру матрицы Р. Следовательно, спектральная щель S — это min[8i,8_i], где 8i = l-[ii, 8_i = 1 - |n|C|-i|. (1.13.4) Вернемся к примеру 1.12.1 и предположим, что / нечетно; в этом случае матрица Р является апериодической и Si = 1 -И-1. 8-1 = -l+^_i. (1.13.5) Для любой пары i, у вершин правильного /-угольника можно определить геодезическую линию от / к у, т.е. кратчайший путь из i в у, составленный из стрелок; так как / нечетно, геодезическая линия определяется единственным образом. Для случайного блуждания на графе общего вида геодезическая линия Г между двумя вершинами (состояниями) i и у вновь определяется как путь, начинающийся в i и заканчивающийся в у и имеющий наименьшую длину, т. е. составленный из минимального числа стрелок. Этот путь может быть не единственным, но мы выберем одну такую геодезическую линию для любой пары /, / € G и обозначим ее Г/у ~ O'oi М '/.); здесь /о = '. 'z. =/'. и L — длина пути Тц. Заметим, что геодезическая линия Г/,- не обязательно совпадает с геодезической линией Г,у в противоположном направлении: выбирать геодезические линии нужно вдумчиво. Всю совокупность выбранных геодезических линий обозначим Q. Оказывается, для неприводимой эрмитовой стохастической матрицы Р вида (1.13.1), обратимой относительно стационарного распределения 71 вида (1.13.2), имеет место полезное неравенство для 8i, называемое неравенством Пуанкаре. Это неравенство имеет вид
§1.13. Геометрическая алгебра цепей Маркова, II. Случайные блуждания на графах Мы проведем доказательство этого неравенства в § 1.14, следуя статье: Diaconis P., Strook D. Geometric bounds for eigenvalues of Markov chains // Ann. Appl. Probab. 1991. V. 1. P. 36-61. Здесь E — общее число (неориентированных) ребер графа, D* — максимальная кратность вершины, у* — максимальное число ребер в геодезической линии этого графа (диаметр направленного графа, составленный из стрелок). Наконец, Ь — это максимальная мощность пучка геодезических линий, содержащих заданную стрелку: b = max [число геодезических линий Г~ (to, i\, ..., il), содержащих стрелку е]. (1.13.7) В примере 1.12.1 при нечетном / имеем £ = /, D* = 2, Y* = ^- (1-13.8) Чтобы вычислить Ь, используем тот факт, что диаграмма является симметричной и не имеет значения, какую стрелку е мы выберем. Пусть, например, е — это стрелка 0—>/— 1. Предположим, что е содержится в геодезической линии, которая начинается в вершине / справа от 0. Тогда i < (/ — 3)/2, так как общая длина геодезической линии не может превосходить (/— 1)/2. Геодезическая линия может заканчиваться в любой из (/ — 1)/2 — i точек как вне / — 1, так ив/ — 1. Поэтому ». £ (Ц1_Л_<Ы£_£^^.^1. (,.,3.9) 0^(/-3)/2 Теперь оценка (1.13.6) принимает вид 8'*(/-i)Vo' (1-Ш0) или 5| ^ 8//2 при /—>оо. Это менее точная оценка, чем (1.12.12), и поправочный коэффициент равен 2тг2/8 и 2. Далее, имеет место следующая полезная оценка для S_i. Определим (ориентированный) цикл как замкнутый путь вдоль (некоторых) ребер нашего графа, который проходит через каждую из своих вершин ровно один раз, прежде чем вернется в исходную точку, и имеет фиксированное направление обхода (есть в точности два направления для заданного набора ребер). Иными словами, цикл проходит через заданное ребро не более одного раза. Удобно зафиксировать направление, т.е. выбрать одно из двух: либо по часовой стрелке, либо против часовой стрелки. Рассмотрим множество <S таких циклов нечетной длины (по одному для каждой вершины / G G), что цикл Е = Е,- из S начинается и заканчивается в i. Обозначим
Глава 1. Цепи Маркова с дискретным временем символом а» максимальную длину цикла из £ (т. е. максимальное число ребер в этом цикле). Далее, пусть Ь„ обозначает максимальное число циклов из S, содержащих заданное ребро: b+= max [число циклов из S, содержащих стрелку е]. (1.13.11) е=('—7) Тогда L),a»bt When Harry Met Sigma12 (Из серии «Фильмы, которые не вышли на большой экран».) В примере 1.12.1 при нечетном / имеем а» — Ь* = /. Из соотношения (1.13.12) получаем 8-1 ^^ (1.13.13) что дает правильный порядок по /, но неверную постоянную. В примере 1.12.2, в изначальной (периодической) постановке, последнее собственное значение ^-i = — 1- Определим путь Ya,a' из а в а', заменяя те компоненты в а, которые отличаются от а', на их дополнения по модулю 2, продвигаясь слева направо по одному шагу в каждый момент времени. (Это полегче, чем изучать геодезические линии.) Очевидно, Е = = d2d~x, у* = d, D* = d, и для такого выбора пути b = 2d~]. Чтобы показать это, рассмотрим ребро (ш, z), где w, z отличаются друг тот друга лишь одной координатой, например у'-й. Путь уху, содержащий это ребро, может начинаться в любой вершине х, у которой все координаты после (/'— 1)-й совпадают с соответствующими координатами w (2/_1 возможностей), и заканчиваться этот путь может в любой вершине у, у которой все координаты до /-й включительно совпадают с соответствующими координатами z {2d~i возможностей). Таким образом, существует 2d_1 путей уху< проходящих через заданное ребро. Оценка (1.13.6) приводит к неравенству 8i^, (1.13.14) что не слишком хорошо из-за «линейной» степени d. К лучшей оценке приводит неравенство Чигера (см. формулу (1.13.18)). В модифицированной постановке задачи последнее собственное значение [i2<<-i = -1 + 2/(d + 1), и результат «геометрического оценивания» 2Ср. с названием фильма «When Harry Met Sally».
§1.13. Геометрическая алгебра цепей Маркова, II. Случайные блуждания на графах щели от —1 является точным 8-T^dTT (1.13.15) Перейдем теперь к неравенству Чигера. Рассмотрим вновь случайное блуждание на общем неориентированном графе с множеством вершин G без кратных ребер. Для заданного множества S с G определим поток из S в его дополнение Sc = {1 /} \ S как подмножество стрелок из S в Sc: Q(s,s<)= J2 Те- (1ЛЗЛ6) (i,y);i€S,/6S=,p,7>0 Здесь, как и ранее, Е равно числу (неориентированных) ребер графа, а IE— общее число стрелок. Далее, положим 4zQ(S,Sc) . (1.13.17) h= min S: l$#S<//2 L#S Неравенство Чигера утверждает, что у<8,^2/г. (1.13.18) Доказательство неравенства Чигера также дается в § 1.14. В примере 1.12.1 с нечетным / минимум достигается, когда S — множество из (/ — 1)/2 последовательных вершин /-угольника, и А = 7^7- О-13-19) Мы видим, что в неравенстве Чигера нижняя граница задает правильный порядок, однако постоянная меньше на множитель тс2. В примере 1.12.2, в его первоначальной (периодической) постановке, минимум достигается, если S является «лицевой гранью» куба, например, S = {хТ: Х\ — 0}. Это приводит к равенству h = -d, (1.13.20) и неравенство Чигера превращается в неравенство 2^5.4 (1-13.21) Поскольку в этом случае Xi = 1 — 2/d, верхняя оценка является точной, а нижняя оценка имеет тот же порядок, что и в неравенстве Пуанкаре, но постоянная слегка занижена. Значение постоянной в неравенстве Пуанкаре зависит от структуры графа; этот факт можно использовать для получения полезных оценок.
Глава 1. Цепи Маркова с дискретным временем Ниже мы обсудим одну такую оценку, основанную на разложении пространства состояний на «редко сообщающиеся» подмножества. Пусть ср: /—> R — это произвольная тестовая функция. Математическое ожидание и дисперсия ф относительно инвариантной меры л, очевидно, задаются формулами и Varn ф = ^ л(0(ф(«) - Е*Ф)2- Решающую роль при доказательстве неравенств Пуанкаре и Чигера играет так называемая форма Дирихле (ср. с формулой (1.14.10)), которая ассоциирована с ср и матрицей перехода Р и определяется как ед) = \ £(ф(0 - ф(/))2*о')р('\ у). /,/€/ Неравенство Пуанкаре имеет вид £с(ф)^ХУаг„<р (1.13.22) и выполняется равномерно по всем ф: / —> R. Суть состоит в том, что постоянная X контролирует скорость сходимости ц.м.д.в. к инвариантному распределению тс. Чтобы избежать технических трудностей, возникающих в случае почти периодических цепей, предположим, что вероятности петель равномерно отделены от нуля. Пусть P'(i,.) обозначает распределение цепи на шаге t, при условии, что начальным состоянием является i S /. Если положить то '<''e>=0(i(,n4+,n9> \\Pni-£)(i,.)-K\\TV^e, где \\.\\tv — норма полной вариации, а X — постоянная из неравенства (1.13.22). Во многих естественных ситуациях пространство состояний очевидным образом может быть разбито на несколько блоков так, что переходы между блоками происходят редко по сравнению с переходами внутри этих блоков. Это упрощает исследование сходимости к состоянию равновесия. Пусть / = /о U.. .U/m_i —разбиение пространства состояний на т непересекающихся множеств. Будем использовать обозначение [т.] = (0, 1, ..., т - 1).
§1.13. Геометрическая алгебра цепей Маркова, II. Случайные блуждания на графах Далее определим отображение п(/): [т] —> [О, 1] посредством формулы s(o = 1>(/) о-13-23) и введем новую матрицу перехода Р: [т] х [т] —> [0, 1 ] следующим образом: p(ij)=m-1 Yl *(*)/>(M- (113.24) ц.м.д.в. на пространстве состояний [т] с матрицей перехода Р является проекцией исходной ц.м.д.в., индуцированной разбиением (/,). Пример 1.13.1. Проверить, что проекция цепи имеет в качестве своего стационарного распределения S. Указание. Это следует из очевидного равенства При каждом /г € [т] сужение ц.м.д.в. на множество Ik имеет переходные вероятности /V /* х /^ —> [0, 1], задаваемые формулой {/>(/, у), если/^ у, 1- £ р(/,/), если/ = у. (1.13.25) Пример 1.13.2. Докажите, что и проекция цепи, и ее сужение наследуют обратимость во времени исходной цепи. Кроме того, Тсй(/) = тс(/)/к(/г) является стационарным распределением сужения цепи. Указание. В силу обратимости для любых /, у € Ik выполняется равенство nk(i)Pk(i, /) = Kk(j)Pk(j, i). □ Потребуем, чтобы и проекция, и сужение цепи были неприводимыми. Тогда набор стационарных распределений к и лп, ..., nm-i единственный. Предположим, что проекция цепи и ее различные сужения удовлетворяют неравенству Пуанкаре с постоянными X и Х0,..., Xm_i соответственно. Определим Xmin = minX,-. Наша цель — получить неравенство Пуанкаре / _ для исходной ц.м.д.в. с постоянной Пуанкаре Х = Х(Х, Хт,п, у), где у — еще один параметр, у = тахтах У^ p(k, /). (1.13.26) .-ей ш, ^ Наглядно, y это вероятность выхода из текущего блока разбиения за один шаг, максимизированная по всем состояниям.
Глава 1. Цепи Маркова с дискретным временем Теорема 1.13.3. Рассмотрим разложение обратимой во времени ц.м.д.в. с конечным пространством состояний на цепь-проекцию и т цепей-сужений, описанное выше. Предположим, что цепь_-проекция удовлетворяет неравенству Пуанкаре с постоянной X, а цепи- сужения удовлетворяют неравенствам с одной и той же постоянной Xmin. Пусть параметр у определен соотношением (1.13.26). Тогда исходная ц.м.д.в. удовлетворяет неравенству Пуанкаре с постоянной Х = min К ККт 3' Зу + Х (1.13.27) Доказательство. Рассмотрим произвольную тестовую функцию ф. Отправной точкой служит разложение Var„ ф относительно разбиения: Уагпф = £ й(0 Var* ф + ^ й(0(Е„,<р - Елф)2. (1.13.28) |'6М i€[m] Аналогично для формы Дирихле находим £*(ф) = 1>(0Мф) + ^ J2 СЧ' (U3-29> i€|m| Ц€[т\,1ф) где Сц= J2 тр{Ь,Щ{Ь)-Щ)2- (1.13.30) Суммирование здесь и далее производится по / и у из [т.]. Для всех таких /, /', что i ф\ и p(i, у) > 0, определим ±\: /, —»[0, 1] следующей формулой: Mk) Иш, P(k. 0 «и*>- У - <из-31> Заметим, что И{ является вероятностным распределением на /,-. Оценим первое слагаемое в правой части равенства (1.13.28): Тщ уагп, Ф < v ^-к(о^дф) < ^-у;%((р). (1.13.32)
§1.13. Геометрическая алгебра цепей Маркова, II. Случайные блуждания на графах Второе слагаемое мы преобразуем, применив сперва неравенство Пуанкаре для проекции цепи: £ft(»)(E*<p - Епф)2 < -=■ J2*(i)P(i, /КЕя.Ф - ЕП/ф)2 < т <* ^J2mm /)[(ЕЛ,Ф - Е,,ф)2 + (Е^<р - Eft;;9)2 + (Eftj9 - Елуф)2] = 1Щ ' з = ^[Е,+Е2 + Е3]. (1-13.33) Слагаемые Ei, Е2 и Ез вычисляются по соответствующей цепи, например, Е^^адрО'.ЖЕ^ф-Е^ф)2. Затем оценим каждую из сумм в отдельности, заметив при этом, что Е) = = Е3 в силу обратимости во времени. Для второй из этих сумм находим к(*)р(М), п2 i# Ue/, ./€/,■ < (1.13.34) <£*</Ш/) Е wmi^k)-^2= (1ЛЗ-35) =Е Е п(*)р(*.о(ф(*)-ф(0)2=Е^-' (11336> iW *€/,-,/6/,- i¥/ /1 10 ои\ j. ^(')Р('./) где в неравенстве (1.13.34) использован тот факт, что _;'-,. '—совместно^',/) ное распределение на /, х /у, с маргинальными распределениями ft( и ft'-, а (1.13.35) является неравенством Коши—Шварца, что легко заметить, если учесть, что ул K(k)p(k, I) = { по определению. Чтобы оценить Е|, используем стандартный факт: Var^ = Var(2; — с) для любой случайной величины 2; и постоянной с. Запишем Var*{ <Р = Е^WW*) - Е^Ф)2 - (Е^:Ф - Е*.Ф)2' (1ЛЗ-37)
Глава 1. Цепи Маркова с дискретным временем так что наверняка выполнено неравенство (Е^ср - Ел,ф)2 < £ft|(fc)(<p(fc) - Ел,.ф)2. (1.13.38) Следовательно, получаем оценку =Es«E7t<w№ - Е«,-ф)2Е^*- 7/> < (1ЛЗ-39) <у£к(/)Уаг,,ф< (1.13.40) ^ЛЕ^^м (1ЛЗ-41) I где /з(/г, /у) = J2i€i-P№, !)■ Заметим, что в неравенстве (1.13.39) использовано определение ft', в неравенстве (1.13.40) используется определение у, а в (1.13.41) неравенство Пуанкаре для суженных цепей. Подставляя соотношения (1.13.36) и (1.13.41) в формулу (1.13.33) и вспоминая, что Е| = Ез, находим E*(0(E*<p - Епф)2 < I ^Сц + J?- Е"(«')^(ф)- (1-13.42) ^А ... AAmin I l^l l Подставляя затем соотношения (1.13.28) и (1.13.42)) в формулу (1.13.30), получаем Varn <р < JL £ Су + ^Ш £ й(0^- (Ф). (1-13.43) ■^А Г7Т AAmin ^~^ Наконец, сравнив соотношения (1.13.42) и (1.13.29), видим, что £п(ф) ^ X Varn ф, где X таково, как в утверждении теоремы. D Пример 1.13.4. Рассмотрим симметричное случайное блуждание на графе-«пенсне» с 2л вершинами (см. рис. 1.39), который получается, если два непересекающихся цикла, каждый из п вершин, соединить между собой одним ребром. Пусть переходы внутри циклов совершаются
§1.13. Геометрическая алгебра цепей Маркова, II. Случайные блуждания на графах с вероятностью 1/3, а единственный переход из одного цикла в другой происходит с вероятностью р < 1/3. Вероятности петель симметричны, так что это случайное блуждание обратимо во времени и его стационарное распределение является равномерным распределением. Рис. 1.39 Разобьем теперь множество вершин (состояний) на два непересекающихся подмножества /0 и /), где /п состоит из п вершин первого цикла, a /i — из п вершин второго цикла. Спектральная щель для каждого цикла, рассматриваемого отдельно, равна -( 1 —cos — J. Поскольку 1 -cosx^2x2/5 при 0<х^тс/2, получаем, что спектральная щель для каждой суженной цепи составляет не менее чем 16л2/15л2 (в предположении, что п ^ 4), поэтому можно взять Xmjn = Юл-2. Цепь-проекция в этом примере является симметричной цепью с двумя состояниями и вероятностью перехода между состояниями р/п, так что положим X = 2р/п. Наконец, у = р. Следовательно, постоянная Пуанкаре для случайного блуждания на пенсне равна 2р 20 : mm Зга' Зга3 + 2га2 (1.13.44) Таким образом, X = 0(п~3). □ Пример 1.13.5. Одномерная модель Изинга чрезвычайно популярна в физике, где ей посвящена обширная литература. Относительно недавно она привлекла внимание и ученых-компьютерщиков. Модель может быть определена на общем неориентированном графе и охватывает ряд интересных (и сложных) явлений, включающих фазовые переходы и необратимость. Рассматриваются конфигурации спина, получаемые путем приписывания значений ±1 каждой вершине графа; в случае конечного графа общее число конфигураций равно 2'с1, где \G\ обозначает мощность множества вершин графа. Мы сосредоточим внимание на простом случае,
Глава 1. Цепи Маркова с дискретным временем когда граф представляет собой сегмент одномерной целочисленной решетки {1, ..., п — 1}; здесь \G\-n — 1. (С физической точки зрения наиболее интересен случай трехмерной решетки; двумерный случай также находит приложения.) Удобно добавить еще дополнительно две конечные точки О и п, значения в которых остаются постоянными и равны 1. Пространство конфигураций будет состоять из 2"-1 «цепочек» (ст(1), ..., о(п — 1)), где компонента a(i) = ±1, i = I, ..., п — I. Мы будем использовать также граничные значения ст(0) = о(п) = 1. Мощность множества «расширенных» цепочек ст = (ст(0),..., о(п)) также равна 2"~[. Это множество будет играть роль пространства состояний рассматриваемой ц.м.д.в. Иными словами, в данном примере / = {ст}; см. рис. 1.40. Гамильтониан системы Изинга вдоль траектории определяется как л-2 //(а) = £[1-а(0а(*+1)]/2. (=0 Иными словами, каждая пара соседних противоположных спинов вносит вклад 1. Мы изучаем конфигурации, отвечающие распределению Больц- мана—Гиббса 7t(o) = j exp (-p//(a)) (1.13.45) на /. Здесь Z — статистическая сумма (partition function), a р— величина, обратная температуре. а(1): 11-1111-1-1 1 а: 1 -1 -1 1 1 1 -1 -1 1 0 1 га- 1 га Рис. 1.40 Один из стандартных способов построения ц.м.д.в. на / со стационарным распределением к состоит в использовании динамики Глаубера. Для i £ {I, ..., п — 1} и отображения ст: {1, ..., п — 1} —> {—1, 1} обозначим через a,-,+i (соответственно ct(i_i) конфигурации, которые согласуются с а во всех вершинах, за исключением, возможно, вершины /, где ct,i+i(/) = 1 (соответственно а,-,_|(г) = — 1). Переходы ц.м.д.в. определим следующим образом. 1. Выберем / е {1, ..., п — 1} согласно равномерному распределению. 2. Пусть ехр(-р//(о,,+ |)) Р ехр(-р//(о,-.+1)) + exp (-pW(a,,_,))'
§1.13. Геометрическая алгебра цепей Маркова, II. Случайные блуждания на графах Тогда с вероятностью р новым состоянием будет сг;,+1, а с вероятностью 1 — р новое состояние — это ct,--i. Для удобства вводим фиксированные граничные условия в оставшихся вершинах 0 и п. Всюду далее предполагаем, что п четно. Тогда сегмент {1, ..., п — 1} имеет центральную точку л/2. Используем этот факт, чтобы образовать разбиение множества / на два непересекающихся подмножества /п и 1\. А именно, представим / в виде объединения непересекающихся множеств /о U /|, где /п (соответственно /|) есть множество всех таких конфигураций, что а(п/2) = — 1 (соответственно о(п/2) = 1). Полезно рассмотреть сужение ц.м.д.в. на множества /п и 1\ и соответствующую цепь-проекцию (с двумя состояниями); см. рис. 1.41. /. : 1 /о: 1 а(п/2) 1 -1 О 1 я/2 п четно Рис. 1.41 п— 1 п Тогда спектральная щель цепи-проекции X ^ „ 2 . Параметр у удовлетворяет неравенству у ^ т. -2й\ • Таким образом, если обозначить как Х^ спектральную щель ферромагнитной системы Изинга на [k], то можно записать рекуррентное соотношение J Wi Xfc ^ min решением которого является 3(chp)V l+3/4(e2P+l) (1.13.46) Х„ = С(п~с), с = 1 + log2 1 + № + 1) В частности, для низких температур Т находим асимптотику числа шагов в динамике Глаубера для достижения единственного инвариантного распределения N(xn2^e/T. □ Эрист Изинг (1900-1998) был студентом В. Ленца в Гамбурге. В 1920 г. Ленц предложил модель ферромагнетизма, в которой частицы находятся в узлах решетки, образованной кристаллом, и «магнитный спин» частицы может принимать два значения: ±1. Две частицы,
Глава 1. Цепи Маркова с дискретным временем находящиеся в соседних узлах, взаимодействуют; это взаимодействие зависит от знаков их спинов и может способствовать тому, чтобы частицы были одинаковы («ферромагнитная система») или противоположны («антиферромагнитная система»). Ленц полагал, что эта модель является точно решаемой в том смысле, что вероятностное распределение (1.13.45) (или хотя бы некоторые его важные характеристики) можно вычислить, и он предложил Изингу найти решение. Изинг и в самом деле быстро нашел решение в случае одномерной решетки (одномерные магниты). Это решение Изинга составило основную часть его кандидатской диссертации (1924 г.), и основывалось оно на прямом применении теоремы Перрона—Фробениуса. Однако 20-летние попытки найти решение для многомерной модели не увенчались успехом, хотя два голландских физика Крамер и Ваньер все же нашли численное значение так называемой «критической» температуры для двумерной модели Изинга. Точное и полное решение в двумерном случае было впервые дано американским физиком норвежского происхождения Л. Онсагером в 1944 г. Оно оказалось очень сложным, но в то же время и очень воодушевляющим. Попытки исследовать размерности три и выше пока не увенчались полным успехом, однако им была посвящена блестящая литература, которая оказала влияние на многие области математики и физики (особенно отметим теорию марковских случайных полей, где одномерное время заменяется многомерным «аргументом»). Термин «модель Изинга» был введен в 1936 г. в статье «О модели ферромагнетизма Изинга» выдающимся немецким физиком Р. Пайерсом, который в 1930-х гг. переехал в Британию. Ежегодно фиксируется публикация от 500 до 800 статей, в которых модель Изиига используется в задачах из таких различных областей, как нейронные цепи, белковые структуры, биологические мембраны и социальное поведение. Между тем Изинг женился и начал карьеру преподавателя гимназии в Германии. Он был уволен, когда нацисты пришли к власти в 1933 г., однако в 1934—1938 гг. ему удавалось оставаться на должности преподавателя и директора еврейской школы-интерната под Берлином. В этот период семейство Изингов проживало по соседству с летним домом Альберта Эйнштейна (дом был покинут владельцами в 1933 г., когда Эйнштейн с семьей переехал в Америку, и использовался для нужд школы); Изингу доставляло удовольствие рассказывать, как ои принимает ежедневные ваниы в доме Эйнштейна, так как в его собственном доме ванной не было. В ноябре 1938 г. школа была ликвидирована нацистами, и вскоре после этого Изинги были вынуждены оставить Германию. В 1939 г. оии бежали в Люксембург, намереваясь как можно скорее эмигрировать в США; в конце этого же года родился их единственный сын Томас. В мае 1940 г. немцы вторглись в Люксембург, и консульство США было закрыто как раз в тот момент, когда визы Изингов были уже почти готовы. Год спустя большинство евреев в Люксембурге были интернированы. Изииг и еще несколько человек, как женатые на нееврейках, не были посланы в концлагерь, но привлечены к принудительным работам по демонтированию железной дороги в Лоррейне, относящейся к линии Мажино. Его жена Иоганна, чтобы выжить, работала прислугой. Это продолжалось все последующие четыре года. Семья Изингов добралась, наконец, до США в 1947 г., и в течение 1948-1976 гг. Изинг преподавал физику и математику в университете Брэдли г. Пеория, штат Иллинойс. С годами он стал почетным профессором физики, но никогда уже не возвращался к своим ранним исследованиям. Фактически список его опубликованных статей в области физики состоит из трех названий: кандидатская диссертация 1924 г., короткая статья 1925 г. (впервые процитированная В. Гейзенбергом в 1928 г., и 603 раза цитировавшаяся в течение 1975-2001 гг.) и превосходно написанная статья «Гете как физик», Американский журнал физики 18 (1950), 235-236. Согласно собственному признанию Изинга, лишь в 1949 г. он узнал из научной литературы, что его модель приобрела широкую известность...
§1.14. Геометрическая алгебра цепей Маркова, III. Границы Пуанкаре и Чигера § 1.14. Геометрическая алгебра цепей Маркова, III. Границы Пуанкаре и Чигера Manhattan Markov Mystery13 (Из серии «Фильмы, которые не вышли на большой экран».) Доказательство неравенства Пуанкаре. Удобно было бы доказать обобщение оценки (1.13.6) для неприводимой обратимой матрицы вероятностей перехода Я, не обязательно эрмитовой. Однако, как мы уже говорили в §1.12, благодаря обратимости обе матрицы Я и Ят задают эрмитово преобразование в пространствах Ж1 и С' со взвешенным скалярным произведением (-.^п; см. соотношение (1.12.29). Следовательно, матрицы Я и Рт имеют ортонормированный базис из собственных векторов относительно (•, • )п. Далее, Я и Ят имеют один и тот же действительный спектр, и их собственные значения (1р, представленные совместно со своими кратностями и в убывающем порядке, удовлетворяют условию (1.13.3). Тогда лапласианы ЦР) = 1 - Я и ЦРТ) = 1 - Ят = ЦР)Т (у которых собственные векторы те же, что и у Я и Ят, соответственно) имеют собственные значения РР = 1 - у.р; взятые вместе со своими кратностями и расположенные в возрастающем порядке, эти собственные значения удовлетворяют соотношениям ро = 0<р1=81<...<р/_1<2. (1.14.1) Из неравенств (1.14.1) следует, что L(P) и L(PT) определяют эрмитово неотрицательно определенное преобразование в 1' и С' относительно скалярного произведения (•,•)п. Собственный вектор преобразования L(P), соответствующий наименьшему собственному значению 0, есть тс; для ЦЯТ) это 1т. Запишем неравенство Пуанкаре для 8i в общем виде. Положим nj = KiPij, /,/=!,...,/• (1.14.2) Воспользуемся симметрией вида Гц = Гц, которая имеет место в силу обратимости. Далее, для любых i, j = 1 / зафиксируем путь Г;/ = = (г'о —> й —* ■ ■ ■ —> im) вдоль диаграммы, выходящий из / и заканчивающийся в /, причем каждая стрелка встречается не более одного раза, т. е. in = /, im =/', Pis,is+I > 0 Vs = 0,..., m - 1 и каждая стрелка е = (г —►/) появляется не более одного раза среди es = (is —> /s+i). В силу неприводимости такой путь всегда существует (мы называем такой путь геодезической линией из Ср. с названием фильма Вуди Аллана «Manhattan Murder Mystery»
Глава 1. Цепн Маркова с дискретным временем i в /.) Обозначим множество выбранных нами путей Q и положим т-\ |Г/у| = V-!-, Гц SG. (1.14.3) В этой постановке неравенство Пуанкаре принимает вид 1 (1.14.4) 8| ^ ( max ,е=(?-7) Y, \<ГцЭе)\Гц\т г,,ее Выражение в правой части неравенства (1.14.4) зависит от выбора путей Гц (как мы отметили в примере 1.12.1, подходящий выбор — это геодезические линии). В общем случае выражение в правой части измеряет «степень неприводимости» матрицы Я; удачный выбор Q оказывает большую помощь. В случае равномерного стационарного распределения 1 т к = у! правая часть неравенства (1.14.4) совпадает с правой частью неравенства (1.13.6). При доказательстве неравенства (1.14.4) нам будет удобно работать с лапласианом L(P); для краткости обозначим его просто L. (Выгода от работы с L(P) связана с тем фактом, что собственный вектор, соответствующий наименьшему собственному значению L(P)T, есть 1 .) Собственное значение Ь\ можно охарактеризовать как наименьшее собственное значение матрицы L при сужении ее действия на ортогональное дополнение к вектору L (Здесь и далее термин «ортогональность» и все связанные с ним понятия подразумеваются относительно взвешенного скалярного произведения {-,-)п.) Мощное средство, применимое в данной ситуации, это так называемая вариационная (или минимаксная) характеризация собственных значений эрмитовой матрицы, а именно теорема Куранта—Фишера. На самом деле эта теорема является обобщением более раннего результата, часто называемого теоремой Рейлиха—Ритца, для наших целей вполне достаточно воспользоваться этой последней теоремой. Суть в том, что согласно теореме Рейлиха—Ритца собственное значение 8| является решением задачи минимизации в терминах величин (Lx, x)„, ||х||п = (х, х)п и (х, !)„: 8| =min[(Lx, х)я: ЦхЦ^^ 1, (х, 1)п = 0] = (Lx, х)„ = mm 11x11? х^О, (х, i)K = 0 (1.14.5)
§1.14. Геометрическая алгебра цепей Маркова, III. Границы Пуанкаре и Чигера В нашей ситуации удобно использовать формулу (Lx, x)„=-J](Xi - Xj)2rih x: (1.14.6) K*U которая следует из соотношений L = \ — PT и гц = щрц. Заметим, что правая часть формулы (1.14.6) не изменится, если выполнить преобразование х н-» х + cl_, т. е. если прибавить постоянную с к компонентам Х\, ..., Х[. Но именно такая операция естественным образом позволяет получить из произвольного вектора х вектор, ортогональный к U (х 1) (х + с\_, !)п — 0 тогда и только тогда, когда с = — : ' ~f". (1.14.7) \1> !/* С другой стороны, для такого действительного вектора х, что (х,1)к = 0, выполняется равенство (1.14.8) Это равенство сохранится, если к компонентам прибавить постоянную. Заключаем, что соотношение (1.14.5) можно переписать в виде Ь\ = min 1Ш|2 • Т Лр^ 6R', <р^1 = mm гттЧ-: Ф —действительная функция V(cp) T . (1.14.9) Здесь вектор ф определяем как функцию ср: i н-» (p(j), где ф(г) = ср,-, i = 1,..., / (ф будет играть роль функции «потенциала»). Далее, (1.14.10) vw^Ewo-^'))2*'-*/- (1.14.11) При помощи уравнения (1.14.9) можно легко доказать неравенство (1.14.4). А именно, для любых i, / = 1, ..., / запишем сумму вдоль тра-
Глава 1. Цепи Маркова с дискретным временем ектории Г;,: ф(0 - ф(/') = ^(ф(гг+1) - фО'г)) = J2 (Р(е)> г=\ еёГц где для стрелки е = (is —> is+{) величина ф(е) определяется как разность cp(is+i) — cp(is). Затем перепишем равенство (1.14.11) в виде у(ф>ЧЕ[ Е йгГН2*.-*/ (1Л4Л2) (',/=1 e=(/s-»(J+i)€rlV 's's+> и применим неравенство Коши—Шварца к внутренней сумме: 1/2 Е (^f1) H < ir*i E ^ е=(|,—1,+ ,)€Г(/ 's's+' e=fe-is+i)er,7 (<p(e))' Получаем, что У(фК±2>тсу|Г,у| £ гм,+1<р(е)2 = ',/=1 e=(ii-»is+1)6r(,- = 1 Е Г?.?(Ф(?))2 Е |Гг/М/<^(ср)тах £ |Г,7МУ. (1.14.13) ?=(?-/) Г;,:Г,7Эе £ ГуГ\7Э£ Если взять теперь максимум по е и воспользоваться соотношением (1.14.5), получим неравенство (1.14.4). □ Доказательство оценки (1.13.12). Как и выше, докажем более общее неравенство. Пусть Р — неприводимая и апериодическая матрица. Мы знаем, что —1 не является собственным значением матрицы Р (и постараемся отделить собственные значения от —1). В сущности, величина 8_i = 1 — \уч-\ | измеряет, насколько «далека» наша ц.м.д.в. от периодической цепи с периодом два (когда —1 является собственным значением). Периодическая ц.м.д.в. должна иметь двухдольную диаграмму, где пространство состояний распадается на два такие подмножества, что все стрелки направлены из одного подмножества в другое. Это означает, что каждая петля в периодическом случае должна состоять из четного числа стрелок. Поэтому для апериодической матрицы Р выберем для любого состояния i=l,...,/ простую петлю £,• = (/о —► м —►... —► im~\ —► im) с нечетным числом ребер, проходящую через / = /n = im- Пусть, как и ранее, S обозначает множество выбранных петель. Аналогично формуле (1.14.3)
§1.14. Геометрическая алгебра цепей Маркова, III. Границы Пуанкаре и Чигера определим вес петли как т-\ 1Е'1« = Е Г"1-' Е'€5- (1.14.14) 7=о ,s's+1 В этих обозначениях оценка для 8_i приобретает вид 8_,>2( max f V 1(Е, э е)|Е/|7ц1) (1.14.15) и зависит от выбора множества S. Чтобы доказать неравенство (1.14.15), начнем со следующего очевидного тождества: 1 ' ' ' 2 Е W + 9И))2гц = ^(ф(О)2^- + ^ф(0ф(/>;/ = Епф2 + (ф, Ар)*, ij=\ i'=l i'J= 1 (1.14.16) где Еп обозначает математическое ожидание относительно стационарного /ф!Х распределения к, а функция ф: / ь-> ф(г') определена как вектор ф = I \ф</ где ф,- = ф(*') (прием, использованный ранее). Тогда если Е,- — это петля с началом и концом в /, то запишем ф(/) = i [(cp(j0) + ф(/,))2 - (<p(ii) + <р(*2))2 + • • • + (9(im-i) + cp(t'm))2]; здесь пригодилась нечетность т. Как и при доказательстве неравенства Пуанкаре, в игру вступает неравенство Коши—Шварца. А именно, получаем еф2 = !&( Е (-1)%/^[ф(^)+Ф(^+.)]) < ^ ? E^i Е r'-''+i М1'*)+ф(^+1)]2 i=l e=(is-*(j+i)€E, (в силу неравенства Коши—Шварца) = = \ Е [ф(^)+ф(7)]Ч? Е № = е=(?-»7) Е,:Е,Эе = (Е„ф2 + (ф, Яф)к) У^ |Е;|тс,- (в силу соотношения (1.14.16). (1.14.17)
Глава 1. Цепи Маркова с дискретным временем В правой части можно взять максимум: _1 2 Епср2 ^ ^(Епср2 + (ср, Яср)п) | max J2 |S(|QK/:E(-6<siy (1.14.1 8) Далее, деление на Е„ср2 |]„ приводит к неравенству ИфЦд ^ е J2 |S,|ok;:S;6<S .Е,:Е,Э? и минимаксная характеризация Рейлиха—Ритца (1.13.3) приводит к оценке (1.14.15). D Если хотите доказать свою правоту, интегрируйте по частям. Если это ие помогает, используйте неравенство Коши—Шварца. (Из серии «Так говорил суперлектор».) Доказательство неравенства Нигера. Вновь полезно доказать неравенство более общего вида, чем (1.13.18), предполагая, что матрица Р = — (Pij) неприводима и обратима относительно произвольного положительного инвариантного распределения гс= (тс,), и рассматривая симметричный вес (1.14.3). Для множества состояний 5 С {1, ..., /} определим поток Q(S, 5е) формулой Q(S, 5е) = J2 r'i' </./); /65./eSc а затем положим (1.14.19) h= min [-^-(?(5, 5С)1, где 0<n(S)<l/2 Ltc(S) n(S) = £n,. (1.14.20) (1.14.21) В этой более общей постановке неравенство Чигера утверждает, что (1.14.22) h2 Верхняя граница в соотношении (1.14.22) получается немедленно. А именно, для заданного множества состояний 5 С {1,..., /}, где 0^гс(5) = = Ц гс,- ^ 1/2. положим /es <М0 = гс(5с), i € 5, -tc(S), i 6 5е. (1.14.23)
§1.14. Геометрическая алгебра цепей Маркова, III. Границы Пуанкаре и Чигера Вновь используя соотношение (1.14.9), получим к {Р\ < ^М - <?<5' s') < ^Q(S,SC) Мn^V(<\>s)~K(S)K(S<)^Z k(S) ■ Отсюда 8i ^ 2h. Доказательство оценки снизу в соотношении (1.14.22) является более сложным и основано на следующих двух замечаниях. □ Замечание 1.14.1. Пусть задана действительная функция ф: i 6 {1,... ..., /}|->ф(/); обозначим ф+(/) = тах[ф(г), 0] = ф(/) V0 и положим 5+(ф) = = {/ б 5: ф(/) > 0}. Предположим, что 5+(ф) ф 0. Благодаря соотношениям (1.14.6) и (1.14.10) можно записать £(ф) = - (Lty, ф) и £(ф+) = (£ф+, ф+). Здесь опять ф и ф+ обозначают /-мерные /ф,\ /Ф,\ векторы : и : , где ф, = ф(/) и ф+ — ф(/)+, t= 1, ..., /. Теперь W W предположим, что для некоторого X ^ 0 выполняется следующее неравенство: (£ф), ^ Хф,- для / б 5+(ф). ( ' Y/2 Тогда норма ||ф+||п= ( 2(Ф< v0)2tc,- J удовлетворяет неравенству Х||ф+||2^(ф+). (1.14.24) Действительно, 2 Щ+\\1 > (1ф+, ф)„ = I £(ф+ - ф+)(ф, - фу)г/у, (1.14.25) '•./=1 и правая часть этого равенства, что довольно неожиданно, оказывается не меньше </,ф+,ф+)п = £:(ф+). В самом деле, последнее неравенство следует из элементарной оценки (ф+-ф/+)(ф,--ф/)Мф+-ф+)2. Замечание 1.14.2. В тех же обозначениях для любого вектора ф = получаем £(Ф+) = \ £*{^ - Ф+>% > \{Щ))2ЦЧ1 (1-14.26) ''./'=1
Глава 1. Цепи Маркова с дискретным временем /7=1 , Здесь ^) = inf[^|^:0^5cS+(^)]. (1.14.27) Чтобы доказать соотношение (1.14.26), не теряя общности, предположим, что ф,- ^ О V7 = 1, ..., /. В силу неравенства Коши—Шварца / , l xl/2 £|ф? - ф2|г,у < V2£(^/2(j2(b + Ф/)%) < <2г'2£^)х'2\Щ\ъ. (1.14.28) Левую часть формулы (1.14.28) можно записать в виде 2^1(ф/>ф,)(ф(/')2-ф(0>«/ = = 4^1(фу>ф,)гу / 'tdt = 4 I t J2 r4dL (1Л4-29) Теперь заметим, что / £ 1 (ф, < / < ф/К = Q(S', S'c) (1.14.30) <V=i для 5'(=5'(ф)) = {/: ф,- > t} С5+(ф). Комбинируя соотношения (1.14.24) и (1.14.26), находим: 2y2EMW\mKzH(ty)J\(s')tdt=±Hmni т. е. справедлива оценка Х^(//(ф))2. (1.14.31) Теперь мы готовы завершить доказательство оценки снизу в неравенстве Чигера 8| ^h2/2. В силу соотношений (1.14.24), (1.14.26) и (1.14.27) если (£ф), < Хф,- V/ б 5+(ф), то выполняется неравенство (1.14.31). Возьмем теперь X = 8i, и пусть фт — нормированная собственная вектор-строка LT, соответствующая собственному значению Ь\: <\>JLJ = = 81фт,т. е. L<\> = b\<\>, где ||ф||„=1. Мы знаем, что вектор-столбцы ф и!яв- ляются к-ортогональными, т. е. тс-среднее ф равно нулю: J2 Ф;71/ = 0- Зна- чит, всегда можно добиться выполнения неравенства 0 < к(5+(ф)) ^ 1/2, а следовательно, //(ф) ^h. Оценка 8| ^h2/2 следует теперь из неравенства (1.14.31) при таком выборе значения X и вектора ф.
§ 1.15. Большие уклонения для цепей Маркова с дискретным временем В конце этого параграфа мы расскажем одну поучительную историю, из которой можно извлечь два урока. Во-первых, хорошее владение искусством вычислений является жизненно важным (что уже отчетливо проявилось в приведенных выше доказательствах). А вторая мораль (особенно для нынешних и будущих лекторов) в том, что не всегда безопасно читать скучные лекции. Эта история из жизни знаменитого физика Игоря Тамма (1895-1971), нобелевского лауреата в области физики (1958 г.) и близкого друга Н. Бора, П. Дирака, Р. Пайерса и многих других. Тамм был чрезвычайно популярным и уважаемым в советском и международном сообществе физиков; ходила даже шутка о том, что если бы существовала единица измерения честности, то называлась бы она «один тамм». Тамм родился во Владивостоке, а обучение начинал в Эдинбургском университете, где изучал математику. Вернувшись в Россию на летние каникулы в 1914 году, он уже не смог продолжить свою учебу за границей, так как началась Первая мировая война. Ему удалось закончить курс в Московском университете, и в течение нескольких лет ои преподавал математику в нескольких учебных заведениях. Это был период гражданской войны в России (1918-1920), когда в стране была острая нехватка продовольствия и одежды. Люди часто прибегали к «бартерному обмену» предметов одежды на еду и наоборот. Однажды Тамм отправился в местность недалеко от Одессы, чтобы обменять сумку вещей на еду. Военная обстановка в этой местности была нестабильной, основные баталии разворачивались между красными и белыми, однако активные действия вели и различные другие силы, включая так называемых зеленых (которых не следует путать с одноименным современным политическим течением). Зеленые выступали и против красных, и против белых (и против других сторон), а целью их было установление «крестьянской власти» (некоторые современные историки рассматривают нх как борцов за украинскую государственность). Одним из нх лозунгов был такой: «Бей красных, пока не побелеют, а белых, пока не покраснеют». Тактика зеленых состояла в том, чтобы атаковать слабые места в тылу как белых, так и красных, быстро захватить добычу н скрыться. Тамм был схвачен во время внезапной вылазки зеленых. Как подозрительную личность его привели к командиру. Живописного вида командир с медвежьими ухватками был того же возраста, что и Тамм, и носил, согласно обычаям того времени, пару маузеров на ремне, грудь его украшали перекрещенные пулеметные ленты. Его заместитель доложил, что Тамм арестован как большевистский агитатор и должен быть немедленно расстрелян. Тамм протестовал, уверяя, что он вовсе не политический активист, а профессор математики. Неожиданно командир приказал всем выйти и оставить его с Таммом наедине. Затем он сказал Тамму: «Отлично. Если вы математик, выпишите остаточный член в форме Маклорена для разложения в ряд Тейлора.» В одно мгновение Тамм выдал ответ, сопроводив его комментарием, что вопрос был слишком тривиальным. Командир был удовлетворен и немедленно приказал отпустить Тамма и позволить ему вернуться в Одессу. Как оказалось, командир зеленых был бывшим студентом-математиком, но счел изучение математики слишком скучным занятием... § 1.15. Большие уклонения для цепей Маркова с дискретным временем Ничего не пропускайте, постоянно следите (за своими детьми); вы не знаете, где окончится уклонение от правды. С. Джонсон (1709-1784), английский публицист и драматург Теория больших уклонений описывает редкие события, вероятности которых малы. Формально говоря, это асимптотическая теория, рассматривающая такие события АПу что Р(Ап) —» 0 при п —» оо. Типичный пример
Глава 1. Цепи Маркова с дискретным временем такого события, когда случайная величина Yn принимает неограниченно убывающие значения, это {Yn > n([i + а)}, ЕК„ = пу., а > 0 (переходя от Yn к — Yn, мы можем рассмотреть также неограниченно растущие отрицательные значения). Начнем с простейшего примера, когда Yn = Z\ + ... + Zn есть сумма п копий н.о.р.с.в. Z. Предположив, для простоты, что св. Z, принимают конечное число значений z (более одного), мы можем утверждать, что если EZ = EZ, = [i и VarZ = VarZ,- = а2 > 0, то при п —» оо усредненная сумма Yn/n сходится к \l, слабый и строгий законы больших чисел (з.б.ч.), и св. (Yn — n\±)/oy/n имеет в пределе нормальное распределение N(0, 1) (локальная и интегральная ц.п.т.). Однако эти утверждения мало что говорят нам о вероятности Р(КЛ > n([i + а)), где а > 0. Например, неравенство Чебышёва Р(К„ > n([i + a)) ^ VarZi/na2 гарантирует, что Р(КЛ > n([i + а)) стремится к 0, но остается вопрос, с какой скоростью. Если св. Z[, Z2, ... принимают два значения, например ±1, можно попытаться использовать точную формулу Р(К„ =щ) = С(«+т)/2р(«+ш)/2(1 _ /,)(я-т)/2) rflep = P(Z| = 1), т = 0, ±1, ..., ±п, но вычисления становятся громоздкими. Чтобы разобрать более или менее общий случай, необходимы другие методы. Оказывается, ответ довольно прост. Рассмотрим производящую функцию моментов (п.ф.м.) Ее91'" = (Ee9z)"; здесь п.ф.м. для каждого слагаемого Eez = ^е9г P(Z = г) равна конечной сумме экспонент. Любая п.ф.м. яв- г ляется выпуклой функцией (это можно доказать, используя неравенство Йенсена или просто продифференцировав, например -щ Eez = EZ2e9z > > 0). При сделанных предположениях Ee9z и Ее9У" конечны для любых 9 е К. (Очевидно, они также и положительны для любых 9 6 К.) Возьмем логарифм от Ее9*'" и разделим на п: -lnEe9>," = lnEe9z:=A(9). (1.15.1) Это опять выпуклая функция от 0; самый простой способ понять это состоит в следующем. Рассмотрим производные d EZe°z d* fl [E^ EZV* - (EZeez)2] dBy,~Eeez' dWs'~ (Ee9z)2 Вторую производную удобно записать в виде дисперсии: [Ee9z EZ2e9z - (EZe9z)2] ~2 (Eeez)2 EZ, -(EZ,)J = VarZ, > 0. (1.15.2)
§1.15. Большие уклонения для цепей Маркова с дискретным временем Здесь случайная величина Z\ принимает те же значения, что и Z, но со «взвешенными» вероятностями e9zP(Z = z) P(Z,=z) = 1 Ee9Z Ee9Z (При этом £ P(Z, = г) = =1^ £e92 P(Z = z) = 1 и EZ? = ^ £zV92 = 2 Ce 2 EZ"e9z Eeez Ee9Z ,n=l,2, ...) Предположим теперь, что Z принимает как положительные, так и отрицательные значения, так что сумма Ee9z = £e9z P(Z = z) включает 2 экспоненты как положительных, так и отрицательных значений. Пусть z+ > О— максимальное, аг.< 0 — минимальное значения, которых достигает Z. График функции Л(9) имеет вид гиперболы, проходящей через начало координат: см. рис. 1.42. УК М<0 У = Л(9) у = 2+9 + с+ у = z-Q + c- с± = In P(Z = z±) Рис. 1.42 Dracula's Bloody 6's14 (Из серии «Фильмы, которые не вышли на большой экран».) Далее рассмотрим так называемое преобразование Лежандра (или Лежандра—Фенхеля, или, в контексте больших уклонений, Лежандра—Крамера): Л*(х) = тах[9х-Л(9), 9 6 К] = -ln(min[e-9*Ee9z: 9 eR]), x е К. (1.15.3) Смысл этой операции состоит в том, что значение Л*(х) достигается в точке 9* = 9*(х), в которой Л'(9*) = х; в нашей ситуации Z принимает конечное 14Ср. с названием фильма «Dracula's Bloody Teeths».
Глава 1. Цепи Маркова с дискретным временем число значении, как отрицательных, так и положительных, такая точка существует и единственна для г_ ^ х ^ z+ (мы будем считать, что 6* (z±) = = ±00) и л*(х) = е*х-л(9*). Рис. 1.43 Однако для х < Z- и х > z+ такой точки 0* не существует, и для таких х положим Л*(х) = +оо. При х = Z- и х = z+ прямыми вычислениями получаем, что Л*(г±) = — In P(Z = z±). См. рис. 1.44. + 00 Рис. 1.44 Как мы увидим, для любого а > О вероятность Р(К„ > n([i + а)) экспоненциально убывает с показателем степени A*([i + a): lim - In P(Yn > п(и. + a)) = -Л*(и. + а). n—>oo П (1.15.4) В частности, при [i + a ^ z+, т.е. при a ^ 2+. - \l, вероятность P(Yn > > n([L + а)) стремится к нулю для любых п и предел в формуле (1.15.4)
§1.15. Большие уклонения для цепей Маркова с дискретным временем равен —оо, что согласуется с принятыми выше предположениями. Аналогично предел lim - 1пР(Кл < п(\± - а)) равен Л* (и. - а). п—<оо П Всюду далее будем предполагать, что 0 < а < z+ — \l. Доказательство равенства (1.15.4) состоит в проверке выполнения двух противоположных неравенств. Одно из них проверяется просто при помощи неравенства Чернова: для любых случайных величин U со значениями bRc конечной п.ф.м. Ее9у и любых 0^0 р(^ > ь) ^ iЕеви- о-15-5) В действительности, это просто неравенство Маркова для св. е9у: P(U > >b) = Р(еви > евь) ^ Ееви/евь. Заменив U на Yn и минимизируя по 9 ^ О, получаем P(Yn > n\L + па) ^exp (птт -1пЕе9у" - 9([i + а): 0^0 J. При а > О минимум по 0 6 К достигается в точке 0^0. Отсюда следует, что - In P{Yn > n([L + а)) ^ -Л*(ц + а), и, таким образом, lim sup - lnP(Kn > n(\L + a)) ^ -A*([i + a). (1.15.6) n—>oo " Чтобы завершить доказательство соотношения (1.15.4), проверим теперь противоположное неравенство: lim inf- In P(Yn > n(u + a)) > -A*(u + a). (1.15.7) n—<oo П Для этого потребуются некоторые аналитические рассуждения. В курсе алгебры равенство А = В, как правило, тривиально. В курсе анализа оно есть следствие двух противоположных неравенств, одно из которых обычно простое, а второе требует больших усилий. (Из серии «Так говорил суперлектор».) Во-первых, отметим, что для заданного хеК преобразование Лежандра А*(х) равно —InЕе9 *2_д;) = В*х — InEe9 z, максимум достигается при 9*(=9*(х)); см. рис. 1.43. Далее, перейдем к н.о.р. копиям Z\, Z2, ... взвешенных св. Z, для которых P(Z,- = г) = P(Z = 2) = е9*2 P(Z = г)/ Ее1 Q'Z
Глава 1. Цепи Маркова с дискретным временем и запишем P(Yn>nx)= J2 l(z\+...+zn>nx)P{Zi=zi)...P(Zn = z„) = z\ г„ = (Ee9*z)n J2 4zi+... + zn>nx)e-^+-+^f[P(Zi = zi). 2 2„ 1 = 1 Теперь, если х, 9* > 0, то для любого заданного е > 0 правая часть не менее следующей величины: (Ee9"z)" J2 l(nx(l+e)^^zi>nx\e-e'{Zi+-+z")f[P{Zi = zi)> 2, 2„ V ,= 1 / ,= 1 ^e-ne-X{\+e)(Eee'Zy J2 l(nx(l+e)>J2zi>nx) ПР^'' = 2') = 21 2„ V (=1 / /=1 = е-»е*д:(1+е)(Ее9*г)Л р(лх(1 +£)^Zi+... + Zn> nx). (1.15.8) Заметим, что E(Z-x) = ^IE(Z-x)ee'z = 0, т.е. EZ = x. (1.15.9) В самом деле, 0, E(Z-x) = ^Ee«^ 3=9* так как 9* есть точка максимума для 1п Ее92 — 9х. Далее, вероятность в правой части соотношения (1.15.8) равна p(o<2t+-i+*"-nx<£-^), \ oJn a ) Оу/п а эта величина в силу центральной предельной теоремы стремится к 1 / -,,2/7 j 1 1 Г ,-«/72 dy= к- vWo 2 Следовательно, если х, 9* > 0, то для любого е > 0, lim,v,f — '" ofLv -^ Л >> —й*~п i ,.\ j^ ir, CoO'z iminf-lnPf-y„ >x) ^-6*jc(1 + e) + lnEee и->оо П \tl J ределу при е —» 0, получаем liminf-lnP(-K„ >x) ^ -0*x + lnEee4 (1.15.10)
§1.15. Большие уклонения для цепей Маркова с дискретным временем Теперь из условий х > О и 6* > 0 следует, что х > [i = EZ. Значит, можно взять х = [I + а, где 0 < а < z+ — ц, и неравенство (1.15.7) следует из неравенства (1.15.10). В общем случае методология больших уклонений пригодна для рассмотрения замкнутых и открытых множеств. Здесь следует быть внимательным, поскольку преобразование Лежандра Л*(0), как мы видели, не является непрерывным по 9 е Ш (оно может стремиться к +оо). Тем не менее, Л* является выпуклой и полунепрерывной снизу функцией, т. е. K*{qx\ +(1 -<7)лс2)^<7Л*(лС|) + (1 -q)A.*{x2) VjC], лс2бКи 0 < ^ < 1 и если х„—»х, то A*(x)^!imsupA*(xn). Аппарат теории больших уклонений всегда л учитывает это свойство. Основополагающая теорема для суммы Yn — ^Zt i=\ н.о.р.с.в. Z\, Z2, ... часто называется теоремой Крамера. Теорема 1.15.1. Для любых замкнутых множеств FcM. выполняется неравенство urn л—>оо sup-lnP(— eF) ^-inf[A*(x):x6F], (1.15.11) а для любых открытых множеств СсК выполняется неравенство liminf-lnPf— &G) > -inf[A*(x): хб G). (1.15.12) п—>оо П \ П ) В качестве примера опять предположим, что св. Z,- принимают конечное число значений, и рассмотрим множество F, представляющее собой [z+, +оо), где z+ — максимальное значение, достигаемое величинами Z,. Тогда P(Yn € F) = P(Zi = ... = Z„ = z+) — (P(Z = z+))n и предел в левой части неравенства (1.15.11) равен lnP(Z = 2+), что совпадает с Л*(г+); см. рис. 1.44. Пример 1.15.2. Более конкретно, предположим, что Z принимает значение 0 с вероятностью q = 1 — р и значение 1 с вероятностью р. Тогда Ee9z = 1 - р + рев и Л(9) = 1п(1-р + ре9). Мы знаем, что для вычисления преобразования Лежандра необходимо решить уравнение х = А'(9*) и вычислить хВ* — А(9*) и что этот метод вычисления работает, когда 0 ^.х ^ 1; здесь 6* = In f,(1 ~ f) и А*=х1п- + (1 -х)1п|^. (1.15.13) (\-х)р р \-р Для х < 0 и х > 1 мы имеем А*(х) = +оо. Выражение (1.15.13) фигурировало в томе 1 (с. 83). Это относительная энтропия двухточечного вероятностного распределения (1 —р,р) на множестве {0, 1} относительно
Глава 1. Цепи Маркова с дискретным временем распределения (1 - х, х)\ ясно, что Л*(р) = 0. Таким образом, для суммы л Yn = J2 Z, н.о.р.с.в. Zi~ Z теорема Крамера утверждает следующее: а) для любых замкнутых множеств F С К lim -\nP(Yn€F)< л—>оо П — -оо, если/7С (-оо, -1) U (1, +оо), ^-Л*(а), если а = min* e (р, 1], x&F ^-Л*(а), если а = maxх е [0, р), x£F ^ 0, если F э р, б) для любых открытых множеств G С К lim -1пР(У„еОК л—>оо П ^ -оо, если G С (-оо, -1] U [1, +оо), ^ —Л*(а), если а = inf * е (р, 1], x&G >-Л*(а), если а = supх е [0, р), x&G О, если Сэр. Для F = [х, оо) и G = (*, оо), где р < х ^ 1, в силу непрерывности Л* на [О, 1] получим /х\пх( 1 - *\-"О-*) Р(Ул>л*)= (-J (уз^] ехр(о(я max[*, 1 -*])), р<х^1. Точные вычисления, основанные на формуле Стирлинга, приводят к оценке ПХ / [ — х\ —Я(1—Jt) Р(У„>л*) = 1 ^/2ттх(1 = (-) (—) U + o( ! ) -х)\р/ \1-р/ L \nmax\x, 1 -x]J р<х^\. (1.15.14) Эти рассуждения можно распространить на случай суммы Yn = ]П Z,, i=l где н.о.р.с.в. Z, ~Z, и Z принимает конечное число (различных) значений, скажем Z\, ..., Z/ с вероятностями pi, ..., р/. На самом деле удобнее работать с /-мерными векторами U,- ~ U. Здесь U,- = (L/ц, ..., £/,-,/) и U = = (U\,..., £//), где Uk = 1, если Z = Zk, и Uk = 0, если Z^z^, и аналогично, t/,-pft = 1, если Z, = г*, и t/,-,4 = 0, если Z,- ^ z$. Тогда сумма векторов л Y„ = J2 U,- подсчитывает число появлений каждого значения z$, откуда 1=1 Л / можно восстановить исходную сумму: Yn = £) £) z* £/,,*. Рассмотрим теперь ;=ift=i
§1.15. Большие уклонения для цепей Маркова с дискретным временем Л*(х)=- совместную п.ф.м. Ee<e-z>=Eexp(5>zA в = (в, в,). и ее логарифм Л(0) = In Ее'9,2). Аналогично случаю «скалярного» преобразования Лежандра можно ввести его векторный вариант: A*(x) = sup[(G, х)-Л(0)]. Аналог формулы (1.15.13) определяет относительную энтропию вероятностного распределения {pj) относительно «контрольного» вероятностного распределения (xj), где xt ^ 0 и J2xi — 1 • Точнее, преобразование Лежандра /' А* будет функцией вектора х £ §': ( i У>1гА xeS', ^ Pi (1.15.15) +оо, xeR'\S'. Здесь §' обозначает /-мерный симплекс стохастических векторов: §' = = {х: Xj ^ О, Х\ + ... + Xi — 1}. Утверждение теоремы Крамера полностью сохраняется и приводит к векторным аналогам «скалярных» формул. Пример 1.15.3. Рассмотрим п.ф.м. гауссовской св. Z~/V(^l, а2): Ee9z = exp (0(J- + ^е2а2), А(0) - In Ee9z = 0^х + ±02а2. Для вычисления преобразования Лежандра А*(х) выпишем равенства * = A'(0*) = LjL + 0*a2, т.е. 0* = ^; A-W = «в- -Л<6-) = хф -И^Е - i(i^)V = 'fe^£. (1.15.16) Это бесконечно дифференцируемая при всех х (ЕМ. функция, строго возрастающая при х>(1и строго убывающая при х <[ic минимумом в точке x = [i, равной среднему значению св. Z. п Тогда в силу теоремы Крамера для суммы Y„ = J2 Zi гауссовских /=1 н.о.р.св. Zi ~N(^jl, a2) и для любого замкнутого подмножества F с (\i, оо) можно записать limsup-lnPf-^ef4) <-- „_«,/ л \л ) 2ст2
Глава 1. Цепи Маркова с дискретным временем где х*_ — это левая крайняя точка множества F: х*_ = min[;t: x G F]. Аналогично для любого открытого множества G С (\i, оо) справедливо неравенство liminfilnPfi^gG)^-^"^2. л—>оо П \П ) 1<3 где у*+ — это правая крайняя точка множества К \ G: у*_ = max [x\ x $ G]. Для F = [ц + а, оо) и G = (ц + а, оо) получаем х*_ = у*+ = ц + а, откуда следует, что P(Yn > п(у. + а)) = Р(У„ > п(у. + а)) и е"1^'2^. Действительно, при Y„ ~ N(ny.y па2) непосредственное вычисление дает P(Y„>n(u + a))=-=L- Г e-x2/2°Ux = ^^\\+0(4A]e-nai/2°i. Последняя формула следует из двухстороннего неравенства —L_e-*2/2W e-^dx^l-e-a^, (1.15.17) а + а-1 Ja a которое представляет собой одну из серии полезных оценок для гауссов- ских интегралов. □ Пример 1.15.4. Для пуассоновской св. Z~Po(X) мы имеем Ee9z = ехр[Х(ее - 1)], Л(0) = In Ee9z = Х(ее - 1). Как и ранее, для заданного х нужно найти такое 0*, что х = Л'(0*); так как Л возрастает по 0, значение х должно быть положительным. Очевидно, х Г+оо, х^О, 0* = 1п£ и А*(х) = { (. х ,n . . (1.15.18) л I xi In г- — IJ + X, х>0. Здесь Л*(0+) = X и Л*(Х) = 0. Таким образом, вновь по теореме Крамера п для суммы У„ = У2 Zi н.о.р.с.в. Z,- ~ Ро(Х) при х > X получим 1=1 Р(Уп>пх)ъ(£) "Хыр(-п(х-\)).
§1.15. Большие уклонения для цепей Маркова с дискретным временем Как и выше, можно записать более точную аппроксимацию, воспользовавшись тем, что Yn ~ Ро(яХ): P(Y ^ пх) ~ V (пХ)/г-"х - (пХ)'"Х|+' с-^п« - Г(Гп>пх)-2^ ., е -([лх] + 1)!в />пх v/2n(M + i) Vx/ V WW/ Здесь на последнем шаге использована формула Стирлинга. Отметим, что сомножитель х~пх подавляет экспоненту. □ Пример 1.15.5. Для показательной св. Z~Exp(X) имеем Ee6Z = X30. A(9) = lnEeez = lnxA_, 0<X. При х > 0 получаем q* = xj-\ л*(;с) *_ , _,* Л*(0+) = +оо (1.15.19) х А А п и Л*(*) = +оо при х < 0. Таким образом, для Уп = ^ Z,, где н.о.р.с.в. Z,- ~ Ехр(Х), теорема Крамера дает i=1 Р(У„ >пх)= (£\ ехр -nfplj+ф) П ... that we should... transform ourselves into beasts. Отелло. У. Шекспир (1546-1616), английский драматург и поэт Значение теоремы Крамера состоит в том, что она служит отправной точкой для плодотворной теории, охватывающей множество различных ситуаций. Математическим основанием является так называемая теорема Гартнера—Эллиса. В удобной для наших приложений (хотя и не самой общей) формулировке, эта теорема утверждает следующее. Теорема 1.15.6. Рассмотрим произвольную последовательность векторных св. l)„ = (il\n, • • •, Udn)- Предположим, что существует предел А(8)= lim -1пЕел<9'и">, 0 = (0,, ..., Qd) e Шй, (1.15.20) л—их П конечный для 0 в окрестности начала координат 0 = 0 и непрерывно дифференцируемый по 0 всюду, где он конечен. Если, как и ранее, Л* обозначает преобразование Лежандра Л*(х) = sup[(0, х) - Л(6): 0 е Шй, Л(0) < оо],
Глава 1. Цепи Маркова с дискретным временем то остаются справедливыми неравенства (1.15.11) и (1.15.12), где F — замкнутое, a G — открытое подмножества в M.d: limsup-lnP(U„GF)<-inf[A*(x): хе/7], (1.15.21) п—>оо п Iiminf-lnP(U„eG)^-inf[A*(x): xeG]. (1.15.22) л—>оо П Условие (1.15.20), очевидно, выполняется, когда U„ = (Z] + ... + Zn)/n, где Z[, Z2, ... — н.о.р. случайные векторы. В общем случае условие (1.15.20) нетривиально и вычисление функций Л и Л* — сложная задача. Согласно общепринятой терминологии говорят, что последовательность (U„) удовлетворяет принципу больших уклонений (п.б.у.), если выполняются неравенства (1.15.21), (1.15.22). В этой ситуации Л* называется функцией скорости больших уклонений. Проанализируем случай, когда случайный вектор Un имеет компоненты Ujn = ^\(X,=j), /=1,...,/, (1.15.23) (=1 где (Хп) — неприводимая и апериодическая ц.м.д.в. с конечным множеством состояний / = {0, ..., /}. Иными словами, Ujn — это время, проведенное цепью в состоянии / £ /, между моментами времени 1 и л. В общем случае эта св. имеет распределение сложного вида, однако известно, что ! п-\ выполняются (слабый и сильный) з.б.ч.: Компоненты - ^ l(Xj=j) cxo- п i=o дятся к стационарным вероятностям тсу (см. теорему 1.5.2). Доказательство впервые появилось в статье: Duffy К., Metcalfe A.P. The large deviations of estimating rate functions // J. Appl. Prob. 2005. V. 42. P. 267-274. Полезным утверждением является теорема Перрона—Фробениуса для неотрицательных матриц. Эта теорема обобщает теорему 1.12.3 и состоит в следующем. Теорема 1.15.7. Пусть R— (/ х 1)~матрица с неотрицательными элементами Гц. Предположим, что для любых i, j = 1, ..., / существует такое s (= s(i, /')), что г)*' > 0, где г?' — элемент с индексом (i, ^-матрицы Rs — s-й степени матрицы R. Тогда норма \\R\\ совпадает со спектральным радиусом p(R) и всегда является собственным значением матриц R и RJ. Положим \\R\\ = p(R) = [Iq. При этом алгебраическая и геометрическая размерности собственного значения \jlq равны 1 и соответствующие собственные пространства матриц R и RT
§1.15. Большие уклонения для цепей Маркова с дискретным временем (0)\ /ф(оЛ Ф1 порождаются векторами ф(0) = I \ I и ф'0) = со строго w) \<?: „<°> положительными компонентами ф(- , ср-' > 0, i = 1, ..., /. Если существует такое s, что pff > 0 для всех i,j=l,...,l, то все остальные собственные значения у.р Ф у.о матриц R и R1 удовлетворяют неравенству \у.р\ < jjlo(1 — $)> т. е. лежат внутри замкнутого круга радиуса ^о(1 - 8) < [1о с центром в начале координат в комплексной плоскости С, где [Ло8 > 0 — спектральная щель. (хЛ Кроме того, для любого вектора х = I : I е К' выполняется равенств \xj xTRn = y.n0[(x, ф(0))ф(0)Т + 0((1 -8)")]. (1.15.24) Естественно назвать матрицу R неприводимой, если она удовлетворяет условию: \/г, / 3s = s(i, j) такое, что г-- > 0, и назвать ее неприводимой и апериодической, если 3 s такое, что rjj' > 0 Vi, /. Существует элегантный метод превращения неприводимой и апериодической матрицы R = (m) с неотрицательными элементами в стохастическую матрицу Р = (pij) (также неприводимую и апериодическую): нужно просто положить Рц = {^(фГГЧ-фГ. «'. / = 1, • • •, /. (1-15.25) Тогда (единственное) стационарное распределение п для Р будет состоять из вероятностей *=wb^)Л<-0)' i=1.--/- <1Л5-26) В нашем случае неприводимой и апериодической цепи Маркова (ХП), имеющей состояния 1, ..., / и матрицу вероятностей перехода P = (p,-/), рассмотрим семейство матриц Rq следующего вида: /?9 = (piye™), i,j=l /. (1.15.27) Здесь для любых / = 1, ..., / вектор f (/') = I е К' — это действительно') / нозначный вектор размерности /, таковым является и вектор 0. Ясно, что матрица (1.15.27) имеет неотрицательные элементы и является неприводимой и апериодической. Обозначим, как и ранее, через у.о(8) максимальное
Плава 1. Цепи Маркова с дискретным временем собственное значение матриц Rq и /?J; мы знаем, что ^о(0) = ||/?е|| = — ||/?J|| и кратность собственного значения [Iq равна 1. Известно также, что (io(0) — бесконечно дифференцируемая по 06 К' функция. Пусть опять ф<°) = фд — соответствующая собственная вектор-строка матрицы R$ и ср'°) =фв' —соответствующая собственная вектор-строка матрицы /?J, а элементы матриц положительны: ф- , ср' > 0, /' = 1, ..., /. Лемма 1.15.8. Рассмотрим неприводимую и апериодическую ц.м.д.в. (Хп) с состояниями 1,...,/ и вектор-строкой начальных вероятностей X = (Х(/)). Зафиксируем набор векторов f(/) e R', /' = = 1, ..., /, и образуем случайные векторы f(Xn), n = 0, 1, ... Тогда последовательность сумм 1 /=1 V„ = ^f№), л =1,2 (1.15.28) удовлетворяет п.б.у. А именно, для любого 0 = (0ь ..., 0/) 6 К' существует предел I lim -lnExen(9-v">=ln^o(0), (1.15.29) « из теоремы Гартнера—Эллиса следует принцип больших уклонений (п.б.у.) для (V„). Здесь Ех обозначает математическое ожидание относительно распределения ц.м.д.в. (Х„) с вектор-строкой начальных вероятностей X. Следовательно, функция скорости больших уклонений — это функция A*(x) = sup[(x, G> — 1п(1о(8)], хеК', (1.15.30) eeR' независимо от выбора начального распределения X. Доказательство. Чтобы проверить равенство (1.15.29), запишем математическое ожидание E-ken^-v^ как сумму по всем значениям ^о, ... ..., Хп: Exen(B,K) = £ Шры^» ...p^W"» =£(X(*e)«),= /о in /=i = (XtfgJJ = Цо(0)п[(Хт, ф(°')ф(°'Т + 0((1 - 8)")]. (1.15.31) Последнее равенство в формуле (1.15.31) выполнено в силу теоремы 1.15.7. Теперь остается взять логарифм и разделить на п, после чего получим соотношение (1.15.29). □
§1.15. Большие уклонения для цепей Маркова с дискретным временем В случае, когда /-я компонента вектора f(/') равна 1, а все остальные компоненты 0, задача вычисления Л*(х) облегчается благодаря следующей лемме. /0\ Лемма 1.15.9. Предположим, что у вектора f(/) = 1-я компо- W нента равна 1, а все остальные — нули, j=\,..., I. Тогда Л*(х) = +оо, АЛ если только вектор х = : I не таков, что x\,...xi~^-Qux\ +.. .+*/ = W = 1. А если х удовлетворяет указанным условиям, то Л*(х) = sup Ё*/|п((^У:и= ; г "' "/>0 (1.15.32) Здесь Р — это матрица перехода цм.д.в. (Х„). Доказательство. Рассмотрим вначале множество Vi С К' векто- ров х £ R', удовлетворяющих указанным условиям, т. е. xt ^ О, J2 X/ = 1. Такое множество есть (/ — 1)-мерный симплекс вероятностных векторов в R1. Его дополнение W\Vi является открытым множеством. В силу леммы 1.15.8 можно использовать п.б.у. для последовательности случайных Л'Л 1 я векторов V„ = I \ I, где Vjn — - Y^l (X[ =/),/'= 1, ... /. Получг W 4аем i=i lim iminf-lnP(Vll^P/)^-inffA*(x):x€R'\^/l- (1.15.33) Заметим, что для любого п вероятность в левой части неравенства (1.15.33) равна 0, так как V„ принимает значения только из Vi. Следовательно, логарифм в левой части равен —оо, а значит, и правая часть тоже равна -оо. Таким образом, inf[A*(x):x€R'\P/] = +оо, т.е. Л*(х) = +оо на Е'\Р,. Предположим теперь, что х 6 Vi. Для начала проверим неравенство Л*(х) ^ sup 5>ln((^):u = У=1 , "i Щ>0 (1.15.34)
Глава 1. Цепи Маркова с дискретным временем Пусть задан вектор u G К со строго положительными компонентами «1, ..., и/; положим / е; = 1пуу, /=1 /, ГДе(Х)е*) = £*у^, (1.15.35) /=1 и рассмотрим матрицу R (= /?д«) с неотрицательными элементами р-ц$>, /, / = 1, ..., /. Матрица /? неприводимая и апериодическая, следовательно, к ней применима теорема 1.15.7. Можно показать, что ит является собственным вектором матрицы R, соответствующим собственному значению 1: uT/? = uT, т.е. uT/?" = uVOl. (1.15.36) В самом деле, для любых } =\, ..., I выполняется равенство Е we;=Е uMwp)i = ^^-фр),=ui- i= 1 i= 1 Если максимальное собственное значение (io(0*) матрицы R больше чем 1, получаем противоречие: соответствующие собственные векторы т т ф(0) и ф(0) ИМеют строго положительные компоненты, и должно было бы выполняться равенство ит/?п = (^0(9*)Г[<и, ф(0))ф(0)Т + О((1 -8)")]. (1.15.37) Поскольку скалярное произведение (и, ф'0)) двух положительных векторов положительно, равенство (1.15.37) несовместимо с (1.15.36). Единственно возможным является равенство (io(0*) = 1, а в этом случае и = ф(0). Следовательно, 1п[1о(0*) = О> и / Л*(х) = sup[(x, 0) - Inцо(0): 0 g R7] > (х, 0*) = J^xj In -^-. (1.15.38) Если теперь взять точную верхнюю грань правой части неравенства (1.15.38) по положительным векторам и, то получим неравенство (1.15.34). Остается проверить неравенство, противоположное (1.15.34): Л*(х) ^ sup E^((j%):u== . (1.15.39) Напомним, что Vx e Ml значение Л*(х) равно sup[(x, 0) - In ^(0): 6 £ R'L см. (1.15.30). Следовательно, достаточно проверить, что для любых х,
§1.15. Большие уклонения для цепей Маркова с дискретным временем 9 £ Ш.1 существует такая вектор-строка ит с положительными компонентами И|, ..., «/, ЧТО / (х,0)-1п^(е)^^^1п^-. (1.15.40) /=1 Но очевидно, что такой вектор и существует: это собственный вектор ф(0) матрицы /?е, соответствующий максимальному собственному значению у.оФ). В самом деле, для и = ф(0) мы имеем utRq = [^o(0)uT, т. е. / т i ^^ln^e)/=^X/inlio(0) = lnlio(0)1 (1.15.41) 1=\ ' /=1 так как ^*/ = 1- 7=1 При этом правая часть соотношения (1.15.41) равна /=1 ' /=i Комбинируя равенства (1.15.42) и (1.15.41), приходим к равенству в формуле (1.15.40). Это завершает доказательство соотношения (1.15.32). □ Пример 1.15.10. Лемма 1.15.9 дает возможность точно вычислять Л*(х) в случае неприводимой апериодической цепи Маркова с двумя состояниями. В этом случае матрица вероятностей перехода Р имеет вид ^=(У ,!Р). (Ы5.43) где а, р £ (0, 1). Стационарное распределение п = (Гц, тег) имеет вид *> = Л?> *» = STp- (U5-44) Легко найти собственные значения матрицы _ Al-a)e9> ае9* \ « /6,4 R*-{ №> (l-p)^J- MeJ- Максимальное собственное значение равно Ho(0) = ^((l-a)e9|+(l-p)e92 + ^/4(a+p-l) + ((l-a)e9i+(l-p)ee2)2). (1.15.45)
Глава 1. Цепи Маркова с дискретным временем Чтобы вычислить преобразование Лежандра Л*(х), где х = (*'). применим лемму 1.15.9. Можно предположить, что х\, хч > 0 и х\ + хч = 1. Положим X] — 1 - с, Х2 = с, О ^ с < 1. Сумма Х\ In T + ЛГ2 1П ■ (UTP), (UTP)2 из правой части равенства (1.15.32) принимает вид -(l-c)ln(l -а + р/С) - cln (l -P-^). где#=| Максимизируя по /С, для 0 < с < 1 находим (1.15.46) -ор(1 - 2с) + уЧоф(1 - 2с))» + 4офс(1 - а)(1 - р)(1 - с) П],,?, W- 2р(1 — Р)<1 —с) U-io.t/; Л*(х) = -ln(l-P), с=1, — 1п(1 -а), с = 0. (1.15.48) Прямые, хотя и несколько утомительные вычисления показывают, что Л*(х) = 0 тогда и только тогда, когда х\ = щ, х% = гсг- В частном случае, когда а + р = 1, ц.м.д.в. (Хп, я> 1) превращается в последовательность н.о.р.с.в. В этом случае Л(0) = рее' +аА (1.15.49) и преобразование Лежандра Л*(х), х= f*1). Уже обсуждалось в начале этого параграфа. См. рис. 1.45. 2 ^ П + ооД + 00
§1.16. Вопросы по теории цепей Маркова с дискретным временем § 1.16. Вопросы по теории цепей Маркова с дискретным временем на экзаменах «Математические треножники» в Кембриджском университете О! many a shaft, at random sent, Find mark the archer little meant, And many a word, at random spoken, May soothe or wound a heart that's broken. Немало стрел, летящих наугад, Неведомые цели поразят И снова будет лучник удивлён, Попав туда, куда не метил он. Вальтер Скотт (1771—1832), шотландский писатель и поэт. Пер. Г. Кружкова Задача 1.16.1. Каким соотношением связаны инвариантное распределение вероятностей и среднее время возвращения для состояний конечной неприводимой цепи Маркова? Частица движется по 2" вершинам гиперкуба {0, 1}" следующим образом: на каждом шаге она с равной вероятностью может перейти в каждую из п соседних (смежных) вершин, независимо от прошлых переходов. (Две вершины являются смежными, если евклидово расстояние между ними равно 1.) Первоначально частица находится в вершине (0,0,.. .,0). Найдите математическое ожидание числа шагов до того момента, когда частица а) впервые вернется в вершину (0, 0, ..., 0), б) впервые попадает в вершину (0, 0, ..., 0, 1), в) впервые попадает в вершину (0, 0 О, 1, 1). Решение. В данной задаче используем симметрию. Инвариантными вероятностями являются к(х) = — \/х 6 {0, 1}". Для конечной неприводимой цепи Маркова среднее время возвращения пгх в состояние х равно 1 к(х) Таким образом, среднее число шагов до первого возвращения частицы в вершину 0 = (0, 0, ..., 0) равно 2". Кроме того, + V^ Е(время достижения вершины 0 | начальная вершина е;)- = /=1 = 1 + Е(время достижения вершины еп | начальная вершина 0),
Глава 1. Цепи Маркова с дискретным временем где e_t — (О, 0, ..., 0, 1, О, ..., 0) (1 на i-м месте, остальные нули). Таким образом, Е(время достижения вершины еп | начальная вершина 0) = 2" — 1. Аналогично, рассматривая первые два шага из начального состояния, находим п21 + п(п - 1) Е (время достижения 01 начальная вершина (0, ..., О, 1, 1))]. Далее, Е(время достижения вершины 01 начальная вершина (0, ..., 0, 1, 1)) = = Е(время достижения вершины (0, ..., 0, 1, 1) | начальная вершина 0). Обозначив последнее математическое ожидание через А, получаем уравнение 2" = 2 + ^-U, п откуда следует, что А = (2п-2)-?-г. □ п — 1 Задача 1.16.2. Три девочки А, В и С играют в настольный теннис. В каждой игре две девочки играют друг против друга, а третья отдыхает. Победитель любой фиксированной n-й игры снова играет в (л + 1)-й игре. Вероятность того, что девочка х победит девочку у в любой игре, в которой они играют друг против друга, равна sx/(sx + sy) для х, у е {А, В, С}, х ф </, где sa, Sfl, sq соответствуют игровым навыкам этих трех девочек. 1. Представьте этот процесс в виде ц.м.д.в., определив пространство возможных состояний и переходные вероятности. 2. Найдите вероятность того, что те же две девочки, которые играли друг против друга в первой игре, будут опять играть друг против друга в четвертой игре. Покажите, что эта вероятность не зависит от того, какие именно две девочки участвовали в первой игре. 3. Какова предельная пропорция для числа игр, сыгранных каждой из девочек? Решение для 1 и 2 содержится в примере 1.1.13. 3. Инвариантное распределение вероятностей, являющееся решением уравнения лЯ = л, находим из уравнений детального баланса Wv\ - ' sa+sb+sc- sx лог щх) = о ; ; . х = А, В, С. 2 sa+sb+sc
§1.16. Вопросы по теории цепей Маркова с дискретным временем Например, 2. Sa + Sb + Sc Sb + Sc Таким образом, пропорция игр, в которых играет девочка х, равна 1 - гс(х), т.е. 1 sA + sB + sc + sx 2 sA+ sb + sc D Задача 1.16.3. Рассмотрим ц.м.д.в. {Xn, п = 0,1,...) на Z1 с начальным состоянием ^о = 0и вероятностями переходов P(t,i + l) = p, P(i,l-l) = q (iGZ), где р + q = 1. Пусть У„ — \Хп\. Покажите, что (У„, п = 0, 1, ...) является цепью Маркова и найдите ее вероятности перехода. Решение. Из условия задачи Уо = 0. Ясно, что если У„ = /, то Yn+\ = = i± 1, i^ 1, а если Yn — 0, то Yn+i = 1. Рассмотрим условную вероятность Р(УЯЧ_1 = / ч-1 | У« = /, Г„_1 =£/„_! Y0 = y0 = 0) при / > 0. При i = 0 эта вероятность равна 1 и не зависит от у\, ..., уп-\- Обозначим событие в условии буквой А: A = {Y„ = i, K„_i =уп-1, .... Уо = </о = 0}. Пусть Л+ и Л- обозначают пересечения события А с событиями {Хп > 0} и {^ < 0}: A+ = {Yn = i, Y„-i=y„-i Уо = Уо = 0, Хп > 0}, Л- = {У„ = /, Уп_, = г/«-ь .... У0 = уо = 0,Хя<0}. Тогда Р(Ул+1 = i + 1 | >4) можно представить в виде P(Xn+]=i+\\A+)P(Xn>0\A) + P(Xn+]=-i-l\A-)P(Xn<0\A) = = pP(Xn>0\A) + qP(Xn<0\A). Далее, каждая траектория из Xq = 0 в Хп = i имеет зеркальное отражение— траекторию из Хо = 0 в Хп = —/ с теми же Уо, • • •, Yn. Для каждой такой пары траекторий можно записать Pg (траектория) = ^ Р* (отражение), поскольку вероятность «петель», появляющихся вдоль траектории (между первым и последним моментами, когда цепь X попадает в заданное состояние), одинакова для обеих траекторий и единственное отличие между вероятностями возникает при переходе цепи из некоторого состояния
Глава 1. Цепи Маркова с дискретным временем в соседнее состояние (в соответствующем направлении) между петлями. Поэтому Р(Л) = Р (траектория) + Р (отражение) = Р (траектория) П + ^т J и Р(Хп>0\А) = - Р(трачект°РИЯ) Р (траектория) + Р(отражение) q' + р'' Р(Хп<0\А) = -«-. Тогда вероятности о,+ | +ож д/+| +ai+[ P(Yn+l=i+\\A) = P ^ и P(Yn+l=i-\\A) = l-P pilqgi не зависят от у\, ..., уп-\- Итак, последовательность (Yn, п = 0, 1, ...) образует ц.м.д.в. с указанными выше вероятностями перехода. □ Задача 1.16.4. Лягушку посадили в подвал, пол которого разделен на N квадратов, занумерованных от 1 до N. Пусть Хп — это номер квадрата, в котором лягушка находится в момент п; последовательность {Хп)„^о можно рассматривать как неприводимую цепь Маркова с вероятностями перехода рц (1 </,/'< N). Восприимчивая к движениям фотокамера делает мгновенный снимок подвала всякий раз после того, как лягушка перепрыгивает с одного квадрата на другой, и снимки производятся только в такие моменты. Пусть Yn обозначает номер квадрата, в котором находится лягушка на n-й фотографии. Покажите, что (Yn) также является неприводимой ц.м.д.в., и найдите ее вероятности перехода. Пусть (Л|, ..., TC#) — инвариантная вероятностная мера для цепи (Хп). Найдите инвариантную меру для цепи (Yn), а также среднее число фотографий, произведенных в единицу времени. Предположим теперь, что N — 9, квадраты расположены в виде таблицы 3x3 1 4 7 2 5 8 3 6 9 и в каждую единицу времени лягушка с равными вероятностями может остаться на прежнем месте или перепрыгнуть на один из смежных квадратов (как в перпендикулярном направлении, так и по диагонали; так что, например, рг/ = 1/6 для всех / < 6). Найдите инвариантную вероятностную меру для цепи (Хп) и среднее число фотографий, произведенных в единицу времени.
§1.16. Вопросы по теории цепей Маркова с дискретным временем Решение. Заметим, что каждое значение рц меньше 1; в противном случае цепь была бы приводимой. Предположим, что Yn = Хт, т. е. я-я фотография производится в момент т. Тогда для любого / ф i условная вероятность P(Yn+i = j\Yn = i, У„_1 = /„_), ..., Уп = г'о) записывается в виде P{Xm+l = j | Хт = /) + P(Jfm+i = /, Хт+2 =j\Xm = i) + ...= = Рц + РиРц + РиРц + ■■■ = Pv,{\ - ри)~х ■= Чц и qu :— P(Yn+\ =i\Yn = i) = 0. Поскольку эти вероятности не зависят от п и от значений У/ при / < п, (Yn) является ц.м.д.в. с матрицей перехода ( 0 /WO-pn) /WU-Pii) Pin/V -Рч) \ P2l/(1-P22) 0 Р2з/(1-Р22) P2n/(\-P22) \Pn\/{\-Pnn) Pn2/{\ - Pnn) Pm/(l — Pnn) 0 / Более того, цепь (Yn) неприводима: при/^/ можно перейти из состояния i в / посредством той же последовательности прыжков, что и в цепи (Хп) (а из / в i можно перейти, совершив прыжок или серию прыжков из /, а затем обратно). Далее, Р(в момент п + 1 сделана фотография | Хп = i) = 1 — рц. Следовательно, в инвариантном состоянии среднее число фотографий в единицу времени равно Р (фотография произведена в единичном интервале времени) = N (=1 Инвариантная мера для Yn имеет вероятности v,= ^-^ , IZIZN. 1 - 5Z ккркк к=\ В самом деле, Y^„ „ V^ Ml-Pa) Pa ST^ ЪРц l_s ^44 - 2^ N 1 - pu ~ l^ N ' <: '¥/ 1 - J2 ЩРкк >Ф\ 1 - Yi, KkPkk k={ k=\ I Mi-Pa) N i - 5Z ккркк
Глава 1. Цепи Маркова с дискретным временем В заданном примере щ = кз = щ = Kg и тег = Щ = ^6 = TCg в силу симметрии. Тогда уравнения инвариантности принимают вид 1 , о 1 ,1 7ii = 4*1 + 2 х 6П2 + §К5' 7С2 = 2 X -74 + 3 X -Па + дТС5, ТС5 = 4Х -TCi +4X -7C2+g7C5. Учитывая равенство 4tci + 4тсг + 7Cs = 1, находим 4 6 9 *' = 49' *2=49' П5=49- Среднее число фотографий в единицу времени равно Задача 1.16.5. Улитка ползет по бесконечной ограде, которую можно рассматривать как решетку с вершинами в точках Z х {0,1,2}. Из вершины вида (п, 2) улитка перемещается влево или вправо (т.е. в (л — 1,2) или в (п + 1, 2)) с равной вероятностью. Из вершины вида («, 1) она перемещается вверх в вершину (п, 2) с вероятностью 1/2 и в любую другую из трех оставшихся вершин — с вероятностью 1/6. Из вершины {п, 0) улитка обязательно перемещается влево, если п четно, и вправо, если п нечетно. Классифицируйте состояния ц.м.д.в. соответствующей последовательности вершин, по которым осуществляется движение улитки. Если улитка выходит из вершины (0, 1), то какова вероятность того, что она когда-либо попадет в положительно возвратное состояние? Какова вероятность того, что она когда-нибудь попадет в вершину (0, 0)? Решение. Состояния (п, 2), п € Z, образуют замкнутый сообщающийся класс и все имеют нулевую возвратность. Для каждого п пара состояний (2п — 1,0) и (2п, 0) образует замкнутый сообщающийся класс, следовательно, все такие состояния — положительно возвратны. Наконец, каждое состояние (п, 1) невозвратно: Р(П,\)(п,2) >0, но невозможен переходе уровня 2 на уровень 1. Предположим, что улитка выходит с уровня 1, и рассмотрим вероятность P(ji)(когда-нибудь достичь уровень 0). Эта вероятность равна сю У] Р(,,1)(оставаться на уровне 1 на п шагах, затем перейти на уровень 0) = /-Лз/ 6 б\ ъ) 4 л=0
§1.16. Вопросы по теории цепей Маркова с дискретным временем Улитка может когда-нибудь попасть в вершину (0, 0), если и только если она когда-нибудь приползет туда из (0, 1) или из (—1, 1). Пусть hi = Р(когда-нибудь попасть в (0,0) | текущее состояние (i, 1)). Тогда Л_[ = An (в общем случае в силу симметрии A_(- = Л,_[) и Ао = g + gAo +gAi, А„ = gA„_i+ gA„+i, О 1. Подставив hn — Atn во второе уравнение, находим t2 — 6t + 1 = 0, т. е. t = = 3 ± 2\/2. Так как А„ < 1, получаем, что Л„ = А(3 - 2%/2)". Из первого уравнения находим А = Л0 = 1/2(1 + у/2) = {уД - 1)/2. П Hold infinity in the palm of your hand... Попробуйте удержать бесконечность в своей ладони... У. Блейк (1757—1827), английский поэт Задача 1.16.6. Две частицы А и В перемещаются случайно в моменты времени t = I, 2, ... на множестве М = {1, ..., т}, т ^ 3, отражаясь от границ, при этом их позиции X^t) и Xe(t) подчиняются некоторому порядку (так что X^it) ^Xe(t)) согласно следующей схеме. 1. Если расстояние между ними больше единицы, то в следующий момент они осуществляют движение независимо друг от друга согласно следующим правилам: а) если частица не находится на границе, т. е. в точках 1 или т, то она совершает скачок в одну из ближайших соседних точек с вероятностью 1/2; б) если частица находится на границе, то она либо совершает скачок в одну из ближайших соседних точек в М, либо остается в той же точке, опять с вероятностью 1/2. 2. Если частицы встречаются (попадают в одну и ту же точку) или же расстояние между ними равно единице, то они меняют свое поведение. Если предполагаемые скачки могут привести к перестановке порядка частиц, т. е. к неравенству Ха > Хв, то обе частицы сохраняют свое прежнее положение. (Вероятности предполагаемых скачков те же, что и ранее, и эти предполагаемые скачки независимы.) В противном случае частицы совершают эти предполагаемые скачки. Определите пространство состояний ц.м.д.в., которая образована парой {ХаУ), Xe(t)), и найдите ее инвариантное распределение. Обратима ли эта цепь?
Глава 1. Цепи Маркова с дискретным временем Решение. Приведенное выше описание определяет конечную неприводимую цепь Маркова (с единственным сообщающимся классом) на пространстве состояний S = {(пА, пв): 1 ^ пА < пв < т}, с общим числом состояний т(т + 1)/2. В самом деле, р\™\ и„, „м > О для всех (пд, пв), (п'А, п'в) ES. Таким образом, цепь имеет единственное стационарное распределение. Кроме того, для всех (па, пв), (п'А, п'в) € S матрица перехода симметрична: Р(ПА,Пв),(п'А,п'в) = Р(п'д,п>в)ЛпА,пв)- Действительно, каждая из этих вероятностей равна либо 0, либо 1/4, либо 1/2 (если (па, «в) = (п'А, п'в) = (1, 1) или (па, пв) = (п'А, п'в) = (т, т)). Следовательно, стационарное распределение является равномерным на S, и цепь обратима. □ Задача 1.16.7. Рассмотрим стохастическую матрицу на множестве {1.....7}: /О 1/2 0 0 0 0 1/2\ 1/30000 1/3 1/3 0 1/2 0 1/2 0 0 0 Р = 0 0 0 0 10 0 0 0 0 10 0 0 0 1/20000 1/2 \1/3 1/3 0 0 0 1/3 0 / Найдите все возвратные состояния соответствующей цепи Маркова с дискретным временем. Пусть pfj обозначает элемент матрицы Рп с индексом '//". Определите пары (/,/'), для которых существует предел lim p"jt и найдите эти предель- п—юо ' ные значения. Решение. См. пример 1.2.7. Более простой способ решения — воспользоваться следующей теоремой. Если матрица Р неприводимая, апериодическая и имеет инвариантное распределение к, то рЦ —»п;- V/, /'. Действительно, замкнутый класс — это класс {1,2,6,7}, а инвариантное распределение к= (=, -трг, =•, т^ ). Отсюда получаем предел lim /?{, для /, / G {1, 2, 6, 7}; а для i = 3 этот предел нужно разделить на 2. □ Задача 1.16.8. В модели, описанной в примере 1.3.2, предположим, что частица начинает движение из угла А (см. рис. 1.12). Найдите а) вероятность того, что частица вернется в А, так и не побывав в центральной вершине С; б) среднее время возвращения в А; в) математическое ожидание числа посещений вершины С до возвращения в А.
§ 1.16. Вопросы по теории цепей Маркова с дискретным временем Решение. Часть а) уже рассматривалась в примере 1.3.2 (см. также рис. 1.12). б) применим следующую теорему: Для неприводимой цм.д.в. с инвариантным распределением к, среднее время возвращения в состояние i равно 1/л,-. Здесь кд = 3/(18 + 6) = 1/8, и, следовательно, ответ 8. в) применим следующую теорему: Для неприводимой цм.д.в. с инвариантным распределением к среднее число посещений состояния j до возвращения в состояние i равно тсу/л,. Здесь Кс = 1/4, и ответ 2. □ (В гл. 2 мы дадим строгое определение процесса Пуассона. Однако, если это определение уже известно, то следующую задачу можно легко решить сейчас.) Задача 1.16.9. Предположим, что (Л<)/>0 и (У/)/>о — независимые пуассоновские процессы, оба с интенсивностью X. Рассмотрим разность Wt = Х( — Yt. Пусть ]\ обозначает момент первого скачка процесса Wt. Найдите совместное распределение /| и Wj,. Пусть М и N — натуральные числа. Найдите вероятность того, что (Wt)f^o достигнет уровня N раньше, чем уровня —М. Покажите, что среднее время достижения процессом (Wt)t^o множества {-М, N} равно MN/(2X). Указание, (j + I)2 - 2/2 + (/ - I)2 = 2. Решение. Из построения следует, что J\ — показательная св., №у, принимает значения ±1 с вероятностью 1/2 и св. /| и №у, независимы. Кроме того, {Wt) является цепью Маркова с непрерывным временем на целочисленной решетке Z с интенсивностью 2Х, а соответствующая цепь скачков является простым симметричным случайным блужданием. Следовательно, если Л, = Р,(достичь N прежде, чем —М), то /z, = -/z,_i+ -Л,+1, й_лг = 0, hN = \. В общем виде Л, = А + Bi, откуда следует, что Лп = М + ЛГ Аналогично если &, = Е,(достичь N или —М), то £( = 2х + 2*'-' + 2*'+1' k-M = kN = 0. В общем виде kt = А + Bi + С/2, откуда следует, что £, = NM/(2k) + + (N- M)i/(2\) - i2/(2X) иА0 = /W/V/(2X). □ Задача 1.16.10. Пусть (ХП)п^0 и (Уя)л>о— независимые простые случайные блуждания на Z, выходящие из х и у соответственно. На каждом шаге (Хп)п^о совершает скачок вправо с вероятностью р и влево — с веро-
Глава 1. Цепи Маркова с дискретным временем ятностью 1 —р. Для (Ул)лЭ!0 соответствующие вероятности равны q и 1 — q. Для всех целых чисел х, у и р, q из (0, 1) найдите вероятность а(х, у, р, q) того, что Хп = Yn при некотором п ^ 0. Решение. Поскольку Хп = Yn тогда и только тогда, когда Хп - Yn = 0, удобно рассмотреть разность W„ =Xn - Yn, которая является случайным блужданием на Z с вероятностями перехода p{\-q) при }-i = 2, pq + {\ -p)(l-q) при/-/ = 0, {l-p)q при/'-1 = -2. Следовательно, Рх,у(Хп = Yn) = Px-y(W„ попадает в 0) = 0 при нечетном \х — у\. При х — у = 2k обозначим эту вероятность символом hk- Имеют место уравнения: hk = {\ - p)qhk-\ + (pq + (l -p)(l -q))hk+p(l -q)hk+\, или hk= V-p); hk-i+ p{X-qt hk+u kez, p + q-2pq * p + q-2pq *+" и ho = 1. Конечно, нас интересует минимальное неотрицательное решение. Рассмотрим сначала k ^ 0. Рекурсия (*..ад-(*-.ад(?^',-^№(Л,) имеет собственные значения I и q(l — p)/(p(l — q)), и, следовательно, допускает общее решение и hk = А + Bk, если р = q. Если р ^ q, то q(l - р)/(р(\ — q)) ^ 1. Тогда минимальное неотрицательное решение получается при А = 1, В = 0: /г* s 1. Если р > q, то q(l — р)/(р{1 - q)) < 1. Тогда минимальное неотрицательное решение получается при А = 0, В = 1: a* = (^U4V Для £ ^ 0 ответ симметричен: если q ^ р, то /г* = 1, а если q > р,то А*=( Р(1-?)\* 9(1 -р)У "
§1.16. Вопросы по теории цепей Маркова с дискретным временем Ответ для а(я, у, р, q) получается с помощью соответствующей подстановки значений х, у, р и q. □ Задача 1.16.11. Пусть (Хп)п^о, (Yn)n>o и (Zn)n>o — простые симметричные случайные блуждания на Z. Тогда Vn = (Хп, У„, Zn) является ц.м.д.в. Чему равны вероятности перехода для этой цепи? Покажите, что с вероятностью 1 цепь (Кп)„з>о попадает в состояние (О, 0, 0) только конечное число раз. Решение. Вероятности перехода для (Vn) равны Г1/8, если \i-l\ = \j-m\ = \l-n\ = 1, P(i,j,k)(l,m,n) = < n 0 в противном случае. Наша цель — показать, что Р\о, (л) ),0,0) (0,0,0) п=0 < 00. ,0) (0,0,0) Как и ранее, р[о0о)(0 0 0) =^^ к0ГДа п нечетно. Кроме того, p|0Q( = (p{wn)) , где p£q] = С%п. Следовательно, (р^л)) га /2, и ряд сходится. Таким образом, цепь (Vn) невозвратна, откуда и следует утверждение. □ Задача 1.16.12. Рассмотрим ц.м.д.в. с пространством состояний {0, 1, 2, 3} и матрицей вероятностей перехода / 1/3 2/3 О О 7/16 1/4 5/16 О 1/6 1/6 1/6 1/2 V 1/2 1/6 1/6 1/6, Предположим, что цепь выходит из состояния 0. Найдите среднее число переходов до того момента, когда цепь впервые попадет в состояние 3. Найдите вероятность того, что цепь в первый раз попадает в состояние 2 на п-м шаге. Решение. Положим ki = Е,(число шагов, необходимое чтобы попасть в 3). Соответствующие уравнения имеют вид 1 2 £о = 1 + з^0 + з^1' 7 1 5 k\ = \ + —k0 + -^k\ + —k2, k2 = l +^(k0 + ki +k2),
Глава 1. Цепи Маркова с дискретным временем откуда получаем , 77 , 34 , 181 Далее, из 0 цепь может попасть в состояние 2, только пройдя через состояние 1. Значит, можно рассмотреть приведенную цепь с матрицей перехода / 1/3 2/3 0 \ Р= 7/16 1/4 5/16 . V 0 0 1 У Собственные значения равны 1, 5/6 и —1/4. Следовательно, /$ = Ро(7-2 <п) = А + В(|)" + с(^)", и Ро(7-2 = П)=^2)-р(Г1) = «(|)П + Р(т)Л' "^L Из граничных условий п=Х: |«-ip = 0 о 25 , 1 „ 5 " = 2: Зба+ТбР=24 находим а = 3/13, р = 10/13. Таким образом, ответ имеет вид 3 (Ъ\п , 10/-1\" . , ._. ТзЫ +ТзЫ • л>1- п Задача 1.16.13. Последовательность случайных выпуклых многоугольников строится по следующей схеме. На каждом шаге имеющийся многоугольник разбивают на два новых так: случайным образом выбирают два разных ребра и соединяют средние точки этих ребер; затем случайным образом выбирают один из образовавшихся многоугольников и рассматривают его на следующем шаге. Каждый раз, когда делают случайный выбор, все возможные исходы считаются равновероятными, и все результаты такого случайного выбора независимы. Для п = 0, 1,2,... пусть Хп + 3 обозначает число ребер многоугольника на n-м шаге; таким образом, Хп принимает неотрицательные целые значения. Найдите матрицу вероятностей перехода для ц.м.д.в. {Хп, n ^ 0}. Объясните, почему предел lim P(Xn = i) существует и не зависит от л-юо числа ребер исходного многоугольника; найдите, чему равен этот предел для каждого / = 0, 1,2,...
§1.16. Вопросы по теории цепей Маркова с дискретным временем Решение. Если рассматриваемый многоугольник — треугольник, то на следующем шаге может быть получен треугольник или четырехугольник с вероятностью 1/2. Если же на данном шаге имеется четырехугольник, то на следующем шаге могут появиться треугольник, или четырехугольник, или пятиугольник, каждый с вероятностью 1/3. Аналогично из пятиугольника можно получить треугольник, четырехугольник, пятиугольник или шестиугольник, каждый с вероятностью 1/4. Эти рассуждения наводят на мысль, что матрица вероятностей перехода для ГО Х„ = число ребер — 3 = < имеет вид /1/2 1/2 0 0 0 ' 1/3 1/3 1/3 0 0 1/4 1/4 1/4 1/4 0 V л=1,2,..., ..Л ■"•■/ Действительно, если Хп — т, т. е. л-й многоугольник имеет т + 3 ребра, , , , п2 {т + Щт + 2) „ то число способов выбрать два ребра равно С^+3 = - ^ -. Если мы соединим соседние ребра / и i+ 1 mod m (т + 3 возможностей), то следующим может быть треугольник (при этом Хп+\ = 0) или (т + 4)-угольник (при этом A'n+i = т + 1). Тогда P(Xn+1=0\Xn = m) = P(Xn+i=m+l\Xn = m) = _1, , оч 2 -2(т + 6)(т + 3)(т + 2) 1 т + 2' В общем случае, если мы выбираем ребра / и i + s mod m и при этом между ними находится s - 1 ребро (таких возможностей по-прежнему т + 3), то следующим многоугольником может быть (s +2)-угольник (и Хп+\ =s — 1) или {т + 5 — 5)-угольник (и Хп+\ = т + 2 - s), 1 < s < (m + 3)/2. Тогда P(Xn+l =s-l\Xn = m) = P(Xn+i=m + 2-s\Xn = m) = 2{т+ >{т + 3)(т + 2) т + 2' (Для нечетного т значение s = (m + 3)/2 приводит к такому же значению 1/(т + 2) для вероятности P(A"„+i = s - 1 | Хп = т).) Отсюда следует наше утверждение о матрице перехода. Рассмотренная выше матрица неприводима, так как рц — - 1 >0 при 1 + 2 j^l+\ и pfj ' ч ^ Pu+\Pi+\i+2 ■. -Pj-\j > 0 при /' > i + 1. Она является
Глава 1. Цепи Маркова с дискретным временем апериодической, поскольку ри > 0. Следовательно, она имеет не более одного такого стационарного распределения я = {я,}, что кР — к и Ку = = lim pi? V/ G /. Чтобы решить уравнение кР = к, запишем Л0 = g^O + 3П1 + -^К2 + . . . = П] И Л; = т—j-n,-_| + JT^-i + • • • = т—j-n,-_| + К,+ |, / ^ 1, т.е. к,+1 =л/ — т—j-n,-_i. Отсюда находим 1 1 тс2 = К| - 2^о = 2Л0 и 1 1 ЯЗ = л2 - дП1 = д-уКо. Введем предположение индукции к,- = -^rtn. Тогда /1 1 1 \ 71о ,... -ч Яо п,+, = ко(jy - 7ТТ(7^1)!J = jmyS1 + [-l>- (7TT)!• Следовательно, тхо = £-1 и к,- = туе-1, т.е. к является распределением Пуассона со средним 1. □ Лев Толстой в повести «Дьявол» пишет: «Обыкновенно думают, что самые обычные консерваторы — это старики, а новаторы — это молодые люди. Это не совсем справедливо. Самые обычные консерваторы — это молодые люди. Молодые люди, которым хочется жить, но которые не думают и не имеют времени подумать о том, как надо жить, и которые поэтому избирают себе за образец ту жизнь, которая была.» Задача 1.16.14. Предположим, что экзаменатор должен оценить очень большое число ответов. Каждый ответ, независимо от остальных, является правильным с вероятностью р и неправильным с вероятностью 1 - р. У экзаменатора есть две стратегии оценивания. Первая стратегия (которую он применяет вначале) состоит в проверке каждого ответа, правильный ответ получает полный балл, а неправильный ответ получает нулевой балл. Вторая стратегия менее точная; каждый ответ с вероятностью q и независимо от предыдущих он оценивает по прежней схеме (т.е. выставляет полный балл для правильного ответа и нулевой балл для неправильного); либо с вероятностью 1 — q он просто выставляет полный балл, не проверяя, верен ответ или нет. Экзаменатор переходит от первой стратегии ко второй, когда наблюдает п последовательных правильных ответов, и переходит от второй стратегии к первой, когда обнаруживает неправильный ответ.
§1.16. Вопросы по теории цепей Маркова с дискретным временем Представьте этот процесс в виде ц.м.д.в. Найдите предельные пропорции ответов, которые экзаменатор проверил адекватно, и предельные пропорции неправильных ответов, которые получили полный балл. Решение. Состояниями являются 0, 1,..., п. В состоянии / < п экзаменатор заметил, что имеются / последовательных правильных ответов, и он использует стратегию 1. В состоянии п он замечает, что имеются п правильных ответов, и переходит на стратегию 2, и ни одного неправильного ответа при этом еще не появилось. Эти рассуждения приводят к матрице / 1-р р 0 0 0 . \-р 0 р 0 0 . 1-р 0 0 р 0 . 1-р 0 0 0 0. \q{\-p) 0 0 0 0. . 0 . 0 . 0 . 0 . 0 1- 0 0 0 р -«7(1- \ -Р)1 Уравнения инвариантности л/> = л имеют вид яо = (1-р) J] Kj + q(l-p)K„, 0</<п-1 Kt = pKi-i, кп = рк„-1 + (1 - q(l - р))кп, ККп-1, откуда получаем п = «7(1-Р) А1-» ^'^)> «7(1 -р")+р" Следовательно, предельная пропорция адекватно оцененных ответов равна я-1 Е*<+7^=^ ;=о p"(l-q)+q' а предельная пропорция неправильно оцененных ответов равна р"(1-<?)(!-р) nn(l-q)(l-p): p"(\-q) + q П Naturam expellas... tamen usque recurret. Гоните природу в дверь, она войдет в окно. Гораций (65 г. до н. э.-8 г. н. э.), римский поэт Задача 1.16.15. Неприводимая цепь Маркова имеет состояния 0, 1, ... ., п и матрицу перехода Р = (p(i, /')). Стартуя из а, эта цепь не может
Глава 1. Цепи Маркова с дискретным временем попасть в состояние с, не пройдя вначале через Ь. Кроме того, известно, что Р(Ь, с) = р, р(Ь, а) = \-р, рф, /') = 0 для / ф а, с. Пусть Y/ обозначает среднее число шагов до первого попадания в состояние /' при условии, что ц.м.д.в. выходит из состояния /. Выразите у? в терминах величин у*- Последовательно подбрасывают монету, для которой вероятность выпадения герба равна р. Вычислите: а) среднее число бросков до появления серии из k последовательных гербов; б) Определим блок порядка k как часть последовательности гербов и решек между последовательными появлениями не менее, чем k идущих друг за другом гербов. По соглашению, блок заканчивается этой серией гербов, за которой следует решка, а после решки начинается начинается новый блок порядка k. Серию по меньшей мере k последовательных гербов внутри блока будем называть вспышкой. Найдите отношение средняя длина вспышки средняя длина блока (При k = 1 это отношение равно р.) Решение. В силу строго марковского свойства имеем Уа = РУа + (1 ~Р)(Уа + YS) + 1 =т2 + 0 ~ Р)?а + L откуда следует, что Далее, рассмотрим а). Пусть состояние цепи Маркова — это число бросков монеты после последнего появления решки. Тогда То = ^(Т^1 + 1) = ^ + ^(ТГ2 + D = = 1 + 1+ +Io=i + l+ +1= '"У. р р2 р р р2 рк рк(1-р) Теперь для б) рассмотрим последовательные независимые «блоки» испытаний, в результате которых после k или более гербов подряд следует решка. Для каждого блока среднее число гербов равно k + (pq) + 2p2q + 3p3q + ... = k+ ~-.
§1.16. Вопросы по теории цепей Маркова с дискретным временем Ожидаемая длина блока равна i и 1-р р*(1-р) 1-р Действительно, величина у* — это среднее число бросков до появления k последовательных гербов, р/(1 — р) — это среднее число гербов, в дополнение к k имеющимся гербам, до появления первой решки, а 1 — это вклад, внесенный этой первой решкой. Тогда благодаря усиленному з.б.ч. предельная пропорция гербов, появляющихся внутри блока, равна Задача 1.16.16. Рассмотрим ц.м.д.в. {X„)„-^q с начальным состоянием Хо = О и вероятностями переходов P{i,i+l)=p, P{i,i-l) = q (i€Z), где р + q = 1. Пусть М„=тах{Л:п} и Y„ = M„-Xn. 0<л<п Для каждого из следующих случаев определите, является ли (Zn)„^o ц.м.д.в., и в случае положительного ответа найдите ее вероятности перехода: a)Z„ = yWn; 6)Z„ = r„. Решение. Пусть Zn принимает значения из множества /. Формальное определение таково: Р(*о = /о. Х\ = h, • ■ •, Хп = /„) = Х,0р(0,-,.../?,-„_„•„ Vn^ 1 и /о, ii,...,i„el. Здесь (X,, i е /) — это вероятностное распределение, а {рц, /, j G /) — стохастическая матрица (матрица перехода) на /. Отсюда следует, что условные вероятности Р(^л+1 =}\ХП = i, Xn-\ =i„-\, ..., Xq = t'o) — Рц не зависят от того, какие значения i„-\, ..., г'о принимают величины Хп-\, ..., Xq. Далее, в случае а) последовательность Zn = Мп не является цепью Маркова, так как, например P(Af4 = 2|Af3 = l, M2 = 0, Afi =0, М0 = Ъ)=р> > Р(М4 = 21М3 = 1, М2 = 2, М\ = 1, М0 = 0) = р2.
Глава 1. Цепи Маркова с дискретным временем А в случае б) последовательность Z„ = Y„ является цепью Маркова, поскольку P{Y„=y„\Yn-i=y„-i,..., Yi=yu У0 = 0) = q, если уп = Уп-\ + 1, = < р, если уп = (/„_,- 1 и у„-\> О, р, если уп = (/„_,= О, т. е. эта вероятность не зависит от у\, ..., г/п-2- □ Задача 1.16.17. 1. Случайная последовательность неотрицательных целых чисел (Fn)n^o образована следующим образом: Fq = 0, F\ = 1, а далее если известны Fq, ..., Fn, то /vn полагают равным либо сумме, либо разности величин Fn и /^-i с вероятностью 1/2. Является ли (Fn)n^o ц.м.д.в.? Рассмотрев ц.м.д.в. Хп = (Fn-\, Fn), найдите вероятность того, что (Fn)n^o достигнет значения 3, прежде чем вновь попадет в 0. 2. Постройте диаграмму для (ХП)п^о, достаточную, чтобы установить общую закономерность поведения цепи. На основании этого, используя строго марковское свойство, покажите, что вероятность достижения состояния (1, 1), если ц.м.д.в. выходит из (1, 2), равна (3 — %/5)/2. Not wrung from speculation and subtleties, but from common sense and observation. He исходи из изворотливых рассуждений, а полагайся на наблюдения и здравый смысл. Т. Браун (1605—1682), английский врач и литератор Решение. См. рис. 1.46. (1,0)#-о *(0,1) u^v ^АЧ (2,0 (2Л) /^3.(1.2) (3,2)*^jl(3'1).C^.(2,3) (2,3) (1.3)! Ш>,: Г<" ■ - — (3,5) Рис. 1.46 Последовательность (Fn) не является цепью Маркова, так как Fn+\ зависит от Fn и Fn_\, однако пара (F„-\, Fn) является ц.м.д.в. Первая
§1.16. Вопросы по теории цепей Маркова с дискретным временем часть рис. 1.46 показывает, что уровня Fn = 3 можно достичь из состояния (^о. F\) = (0, 1), попадая либо в точку (2, 3), либо в (1, 3). Попасть на этот уровень, прежде чем на уровень Fn = 0 (т.е. в состояние (1, 0)), можно по двум прямым траекториям, дополненным нескольким смежными треугольными циклами. Первая из этих возможностей имеет вероятность 1.1.1(1+1 + 1+ \ = 1 2 2\ ^8 + 82+'"У 7' а вторая — вероятность 1.1.1.1(1 + 1 + 1+ ) = L что в сумме равно 3/7. Рассмотрим треугольный участок на рис. 1.46, обладающий очевидной симметрией. В частности, P(i,2)(попасть в (1, 1)) = Р(2,з)(попасть в (1,2)) = Р(13)(попасть в (2,1)) :=р и Р(2д)(попасть в (1, 1)) = Р(з,2)(попасть в (2, 1)) :=//. Очевидно, 0 < р, р' < 1. Взяв условную вероятность по первому скачку, мы можем записать (благодаря строго марковскому свойству) Р = 2Р' + 2 Р(2.з)(попасть в (1, \)) = ^ + ^р2 и р' = 2 + 2 р(1,з)(попасть в (1, 1)) = - + -рр', следовательно, р' = ^—. Получим P=2^J) + l2p2' т.е.р3-4р2 + 4р-1 = (р-1)(р2-Зр+1) = 0. Корни этого уравнения равны р= 1 и —^—. Нас интересует минимальный неотрицательный корень, т. е. р = —-—. Следовательно, р' = у=. П ^ 1 + v 5 Задача 1.16.18. Блоха прыгает случайным образом по вершинам треугольника; каждый прыжок она совершает из занятой вершины на одну из двух других с вероятностью 1/2. Найдите вероятность того, что блоха вернется на место старта через п прыжков. Вторая блоха также прыгает по вершинам треугольника, но для нее вероятность прыгнуть по часовой стрелке в 2 раза больше, чем вероятность прыгнуть против часовой стрелки. Чему равна вероятность того, что вторая блоха возвратится на место старта через п прыжков?
Глава 1. Цепи Маркова с дискретным временем Решение. Для первой блохи матрица переходных вероятностей такова: / 0 1/2 1/2\ Р = 1/2 0 1/2 . \1/2 1/2 0 J Благодаря симметрии все элементы на диагонали р}" одинаковы, равно как и все элементы р)"' вне диагонали. Поэтому рассмотрим приведенную цепь с двумя состояниями 1 и 0 (не одинаковыми) и переходной матрицей P=(l/2 1/2) ■ Тогда рJ"' =P|i . Собственные числа матрицы Р равны 1 и —1/2, и причем А + В = 1, А - В/2 = 0. Отсюда получаем А = 1/3, В = 2/3 и И" 3 ^ 3 V 2 ) Для второй блохи /0 1/3 2/3\ Р=(2/3 0 1/3 , \1/3 2/3 0 / а собственные числа равны 1' 2 ±г 6 ~ y/f • Тогда (л) , / -1 \" /о ял , . ял \ Р"=а+Ы (PC0ST + ^sinTj- При этом а = 1/3, так как pj, —> щ, и к = (1/3, 1/3, 1/3) является (единственным) стационарным распределением. Постоянные Р и у вычисляются из уравнений для п = 0 и п = 1: « + Р + Т=1. a--L(Pf+ Yi)=0. Получим а = 1/3, р = 2/3, у = 0 и (я) 1 , 2/-1\" тш „ '» =з + зЫ C0ST- D Задача 1.16.19. В упрощенной компьютерной игре фигурка движется случайно по решетке размера N х N (Л/ ^ 2) по следующим правилам.
§1.16. Вопросы по теории цепей Маркова с дискретным временем Пусть (Х„, Y„) — положение фигурки после п шагов, где Хп и Yn могут принимать значения 0, 1, ... Л/ - 1. На (п + 1)-м шаге вероятность каждой из следующих четырех возможностей равна 1/4: а) Xn+i=Xn + l mod Л/, Yn+X = Yn; б) Xn+l=Xn-\ mod Л/, Yn+l = Yn; в) Xn+i = Xn, Yn+l = Yn+\ mod Л/; г) Xn+i=Xn, Yn+i = Y„-l mod N. Вычислите: 1) среднее число шагов до возвращения в состояние (1, 1), если ц.м.д.в. выходит из состояния (1, 1), 2) среднее число шагов для достижения (1, 1), если ц.м.д.в. выходит из состояния (0, 1). Решение. В данном случае ц.м.д.в. является случайным блужданием на плоском графе с Л/2 вершинами, которые расположены в узлах целочисленной решетки (/,/'), i,j — 0, 1, 2,..., N — 1, и ребрами, которые соединяют каждую такую точку с четырьмя соседними (при условии, что точка (i, 0) соединяется с точкой (г, Л/ - 1), а точка (0, у) — с (Л/ — 1, /'); периодические граничные условия). В силу уравнений детального баланса равномерное распределение к вида 1 4.1) ~ JJ2 инвариантно. Так как граф связный, ц.м.д.в. неприводима. Поэтому она положительно возвратна и к является единственным стационарным распределением. Тогда 1) среднее число шагов т(ц), необходимых для возвращения в (/,/'), при условии, что ц.м.д.в. выходит из (г, /'), равно 1/щц) = N2 (см. теорему 1.7.8); 2) благодаря симметрии и строго марковскому свойству, m{ij) = 1 + Е('-1./)(время до попадания в (t, /')). Тогда Е(о,|)(время до попадания в (1, 1)) = Л/2 — 1. □ Задача 1.16.20. В лабиринте, приведенном на рис. 1.47, пять пронумерованных клеток для крыс соединены туннелями. Линии означают туннели, по которым крыса может двигаться в любом направлении, а стрелки обозначают туннели, в которых есть «турникеты», препятствующие движению в противоположном направлении. Крыса бегает по лабиринту следующим образом: в каждой клетке она случайным образом выбирает выход, и на каждом перекрестке, обозначен-
Глава 1. Цепи Маркова с дискретным временем Рис. 1.47 ном •, она случайным образом выбирает направление (включая туннель, из которого она только что вышла, если только обратный путь не перекрыт турникетом). Пусть Хп — число посещений л-й клетки. Найдите матрицу переходных вероятностей для цепи X — (Хп). Классифицируйте каждое состояние цепи в а), используя, где следует, термины «поглощающее», «невозвратное», «возвратное», «апериодическое», «нулевой возвратности», «положительно возвратное». Вычислите среднее время возвращения в каждое состояние. Найдите вероятность того, что крыса попадет в клетку 1, при условии, что она вышла из клетки 3. Решение. Переходная 5 х 5-матрица имеет вид: /1 0 0 0 0 \ 4/9 1/9 1/9 1/6 1/6 Р= 1/6 1/6 1/6 1/4 1/4 0 0 0 1/2 1/2 \ 0 0 0 1/2 1/2/ Из рис. 1.47 и вида матрицы Р заключаем, что состояние 1 поглощающее; состояния 2 и 3 невозвратны и апериодичны; состояния 4 и 5 положительно возвратны, апериодичны. Средние времена возвращения равны m\ = l, rri2 = тз=оо, т\ = т*, = 2. Наконец, для hk = Р*(попасть в 1) имеем соотношения откуда следует, что Яг = 7/13, Аз = 4/13. □
§1.16. Вопросы по теории цепей Маркова с дискретным временем Счетное количество и одна ночь (Из серии «Фильмы, которые не вышли на большой экран».) Задача 1.16.21. 1. Блоха совершает случайное блуждание на целых числах {..., — 1, 0, 1, ...}. При каждом прыжке она продвигается на один шаг вправо с вероятностью р или на два шага влево. Пусть п^Ои Тп — время первого достижения положения п, если блоха выходит из нуля. Покажите, что производящая функция cp„(s) = Y^skP(Tn = k) удовлетворяет k уравнению cp„(s) = {ф(5)}л, где cp(s) = cpi(s) и -1 < s ^ 1. 2. Покажите, что блоха (с вероятностью 1) допрыгает до состояния 1, если р > 2/3. При этом условии найдите среднее число шагов, которые необходимы блохе, чтобы оказаться в состоянии 1. Решение. 1. Можно записать п где Tfc — интервал времени между первым попаданием в состояние k — 1 и первым попаданием в состояние k. Благодаря строго марковскому свойству Tfc ~ Т\, где Т\ —момент попадания в состояние 1 при выходе из состояния 0. Используя пространственную однородность переходов, получим, что Eos7'" = E0(sT' Е(ет»+-+Т-1 т,)) = cpi(s) Ео^-' = (<pi(s))" Vs, -К s < 1. Эти вычисления справедливы независимо от того, равна ли вероятность Ро(Г1 = оо) нулю или положительна. Единственное отличие заключается в том, что во втором случае Ф:=ф,($)и_,_ = Р0(7,1<оо)<1. 2. Для cp(s) = cpi(s), взяв условные вероятности по первому скачку, получим cp(s) = ps + (l- p)sy3(s) = ps + (\- p)s(y(s)f. Значит, величина Ф удовлетворяет уравнению (1 - р)Ф3 -Ф + р = (Ф- 1)((1 - р)Ф2 + (1 - р)Ф -р) = 0. Корни этого уравнения имеют вид -(1-р)±у/(1-р)2 + 4р(1-р) 2(1 -р)
Глава 1. Цепи Маркова с дискретным временем При р > 2/3 два последних корня по модулю больше 1, поэтому Ф = 1 и Т\ < оо с вероятностью 1. Наконец, положим Тогда (1 - р)Фг + 3(1 - р)Ф2М -М + р = 0. При р > 2/3 подстановка Ф = 1 приводит к равенству М = =-Ц. 3/7-2 В частности, это доказывает, что М = оо при р = 2/3. □ Задача 1.16.22. Из лаборатории поступили 2 независимые последовательности наблюдений Y\, Уг, ••• и Z\, Z2, ... Они представляют собой н.о.р. испытания Бернулли, т. е. каждая случайная величина принимает значения 1 или 0 с неизвестными вероятностями успеха p = P(Yi=\) = l-P(Yi = 0) и <7 = P(ZI- = 1) = 1-P(Z, = 0), /^1, где 0<р<1,0<<7<1. Для того чтобы решить, какая из вероятностей р и q больше, мы применяем следующий тест: выбираем натуральное число М и прекращаем наблюдения в первый такой момент времени п, что или Yi+... + Ya-(Zi+... + Z„) = M, или Yi+... + Yn-(Zi+... + Zn) = -M; в первом случае мы принимаем решение, что р > q, а во втором — что р < < q. Покажите, что если р > q, то вероятность ошибки (т. е. вероятность решить, что р < q) равна (1 +Х/И)-1, где \ = р(\ — q)q~\\ - р)~]. Решение. Определим ц.м.д.в. Хп = (Y\ — Z\) + ... + (Yn — Z„) на {—M, ..., М} с переходными вероятностями рц+\ =р{\ -q), pa-\=q(\-p), pa = pq + (1 - p)(l - q), i = -Af+ 1, .... Af- 1, где — M и М — поглощающие состояния. Мы хотим вычислить ho, где /г,- = = Р,(попасть в — М до попадания в М). Получим уравнения h-м = U hi = q(\ - p)fn-i + (pq + (1 - p)(l -q))hi+p(\ - q)hi+u hM = 0.
§1.16. Вопросы по теории цепей Маркова с дискретным временем 1 \ i+M При щ — hi+\ — hi получим 1 f\y+M Щ — \ui-\ — ■ ■ ■ — [ т ) и-м, где X = р(\ - q)/q{\ - р). Тогда i+M V^ 1 1 - 1Д'+м+| /=0 При i = М — 1 получаем откуда следует, что , 1 - \/\™ U-м Тогда Ао = 1- 1 - 1/Х 1 — 1 /Х2^" 1 - \fkM _ Xм - 1 1 □ 1 - 1 /\™ \2М - 1 1 + Х^ " Задача 1.16.23. В вершинах приведенного ниже графа (см. рис. 1.48) расположены лампочки. В каждый момент времени может светиться только одна лампочка. Пусть Хп обозначает номер лампочки, которая горит в момент времени п ^ 0. Процесс эволюционирует следующим образом. Если Хп = /, то лампочку, которая загорится в момент времени п + 1, выбирают (с равной вероятностью) среди вершин, которые соединены ребром с /. Например, если лампочка С горела в момент времени п, то одна из лампочек R\, R4, L\, L\ загорится с вероятностью 1/4 в момент времени п + 1. Покажите, что Р{ХП — L\) сходится к пределу при п —> со, и найдите этот предел. При Хо — С найдите среднее количество раз, когда лампочка R\ загорится, прежде чем впервые вновь загорится лампочка С. Предположим теперь, что длина интервала времени, в течение которого лампочка горит, не равна 1, как ранее, а является экспоненциальной
Глава I. Цепи Маркова с дискретным временем случайной величиной со средним 2/7 и последовательные моменты включения лампочек независимы. Пусть в момент t = 0 включается лампочка С. Найдите среднее время, в течение которого будут гореть лампы справа от С, прежде, чем снова загорится лампочка С. Решение. Рассматриваемая ц.м.д.в. — это случайное блуждание на конечном графе. Она обратима по отношению к стационарному распределению тс = (тс,), где i и V[ — кратность вершины L В данном примере 1 1 3 Поскольку граф связный, цепь неприводима, и, так как она содержит циклы длиной 2 и 3 (взаимно простые), она апериодична. Тогда при п —»оо переходная вероятность за п шагов рц сходится к к/, и вероятность Р(Хп =/) также сходится к тсу для любых состояний /, / и начального распределения X. Таким образом, Р(Хп = L\) —> 3/32. Далее, данная цепь положительно возвратна. Искомое среднее равно Уя = Ля,/тсс = 3/4. Это следует из теоремы 1.7.7, утверждающей, что для неприводимой положительно возвратной цепи Маркова со стационарным распределением к справедливы равенства у? = тс/-/па> Последняя часть задачи содержит ссылку на модель с непрерывным временем. Но поскольку среднее значение всех интервалов времени, когда горит лампочка, равно 2/7, мы сразу получаем ответ (Тл, +Y*2+Y*3+Y*4+Y*)-f = 1- Или, среднее время возвращения тс в состояние С в неприводимой положительно возвратной цепи равно 1/тсс = 8 (теорема 1.7.8). Тогда Ес(время, проведенное вне С до возвращения в С) = 7. Рисунок симметричен, поэтому Ес(время, проведенное справа от С до возвращения в С) = -, что дает тот же ответ 1 для цепи с непрерывным временем. D Задача 1.16.24. Рассмотрим ц.м.д.в. на множестве / = {0, 1,2,...} с переходными вероятностями рц+\ = аи р-ф = 1 — а„ i ^ 0, где (а,-) — последовательность таких неслучайных чисел, что 0 < а,- < 1 для всех /. Пусть bo = 1, bj — aoa\ ... a,-_i, i ^ 1. Покажите, что цепь а) возвратна тогда и только тогда, когда bt —> 0 при / —> оо;
§ 1.16. Вопросы по теории цепей Маркова с дискретным временем б) положительно возвратна тогда и только тогда, когда ^6; < со; если i это условие выполняется, найдите инвариантное распределение. Решение. Так как цепь неприводима, можно рассмотреть фиксированное состояние, скажем 0. Пусть Т — первый момент попадания в 0: Т = inf{/z ^ 1: Хп = 0}. Рассмотрим Ро(Т < со). Мы имеем Р0(Г > п) = a0ai ... a„_i = bn Ро(Т<оо)= lim Р0(7'<я) = 1- lim P0(T>n) = l п—к» л—»оо тогда и только тогда, когда Ьп —»0. Таким образом, состояние 0 возвратно тогда и только тогда, когда Ь„ —> 0. Далее, оо л>0 л=0 и цепь положительно возвратна тогда и только тогда, когда 52&„ < оо. Уравнения инвариантности таковы: оо /=о следовательно, %п=коЬп и по= [ ]ГМ П Задача 1.16.25. Приведите примеры обратимых цепей Маркова. Решение. Не каждая цепь обратима: пример — матрица Р конечного размера не меньше трех, дважды стохастическая (т. е. суммы по всем столбцам и строкам равны 1), и к — равномерное распределение, но Рф-Р1. Например, /1/4 1/4 1/2\ Р= 0 1/2 1/2. \3/4 1/4 0/ С другой стороны, существуют целые классы обратимых цепей Маркова: а) все (2 х 2)-цепи; б) конечные цепи, у которых Рт = Р: в этом случае матрица Р является дважды стохастической, равномерное распределение п является инвариантным, более того, к и Р находятся в состоянии детального баланса;
Глава 1. Цепи Маркова с дискретным временем в) случайные блуждания на (конечных) неориентированных графах, для которых Pi) = — 1 (i и j сообщаются) и *i = vi/YlVi> где и, — кратность вершины / (число инцидентных ребер); г) процессы рождения и гибели с вероятностями перехода рц+\ = pit ри-\ = qi = 1 - pi и суммой в=1 + Ро+Рор1 + ЕоР1Р1+__<оо. Я\ Я\ Q2 <7i <72 <7з здесь по = В~1, „J = fl->Po..._£L, /^l, <7i Qi+i и к находится в состоянии детального баланса с матрицей перехода. □ Задача 1.16.26. Частица совершает случайное блуждание на множестве {0, 1,2,...}. Если в момент времени п частица находится в состоянии т ^ 1, то в момент времени п + 1 она перемещается на один шаг влево с вероятностью р, на один шаг вправо с вероятностью г или остается на прежнем месте с вероятностью q = 1 — р - г. Если частица находится в состоянии 0, то она совершает шаг вправо с вероятностью г или остается в состоянии 0. Покажите, что при р > г такая цепь положительно возвратна и найдите для этого случая инвариантное распределение. Определите, для каких р, q, г цепь имеет нулевую возвратность или является невозвратной. Решение. Мы хотим показать, что цепь невозвратна, когда 0 < р < г, имеет нулевую возвратность, когда р = г > 0, и положительно возвратна, когда р > г > 0 (цепь, очевидно, положительно возвратна, когда г = 0, и невозвратна, когда р = 0, г> 0 ). В случае положительной возвратности уравнения детального баланса X,r = \i+\p определяют инвариантную меру X, = {г/р)1, которую можно нормировать тогда и только тогда, когда г < р; при этом Чтобы определить нулевую возвратность и невозвратность, рассмотрим вероятности попадания /г, = Р(попасть в 0 \Хо = /). Получим уравнения /го = 1, (р + r)h; - rhi+\ + phi-i, i ^ 1,
§1.16. Вопросы по теории цепей Маркова с дискретным временем минимальное неотрицательное решение которых имеет вид hi = (£) , i>0, при р < г, и hi = 1, i ^ 0, при р = г > 0. Но Ро(7Ь < оо) = (1 - г) Р0(Г0 < оо) + г/г,, т.е. Р0(Г0 < оо) = /г,, что и дает искомый ответ. □ Задача 1.16.27. Жили-были две собаки, одна белая, другая черная. Неразлучные друзья, делили они и кров, и пищу. И все бы хорошо, да одна беда — от блох не могли избавиться. Блохи, общей численности N, тоже были у них общими — перепрыгивали с одной собаки на другую... В каждый момент времени ровно одна блоха перепрыгивает с одной собаки на другую, блоха выбирается случайным образом и с равной вероятностью из N возможных, каждый такой выбор не зависит от всех предыдущих. Пусть Хп — это число блох на черной собаке в момент времени п. Покажите, что последовательность X = {Хп: п ^ 0} образует ц.м.д.в. и выпишите ее вероятности перехода. Покажите, что инвариантное распределение задается как Щ = Ск„(^у, k = 0, 1,2, ...,Л/. Решение. Находим p,t;+i = , рц-\ = тт. Это цепь Маркова, поскольку выбор блохи, которая совершает скачок, не зависит от предыдущих событий. Уравнения детального баланса n,-/7/j+i =Tt;+ip;+i ,• имеют N-i решение ji,+i = к,, откуда следует, что 1 х2х...х (N- 1) хЛ/ Л/! Kn = Л/х(Л/-1)х...х2х1Ко = М Ко ~ К°- Следовательно, для некоторого 0 < М < N имеем N - (М - 1) (Л/ - (Af - 1)) х (Л/ - (М - 2)) х ... х N Км ~ М Km-' = Afx(Af-l)x...x(Af-l) К0 " (N - М)Ш\ Из условия ^2 щ = kq J^C'n = 1 следует, что По = 2 -N щ = 2-"С1н, i = 0, 1 N.
Глава 1. Цепи Маркова с дискретным временем Таким образом, инвариантное распределение является биномиальным: Bin(N, 1/2). □ A Delicate Detailed Balance Деликатный детальный баланс (Из серии «Фильмы, которые не вышли на большой экран».) Задача 1.16.28. Конечный связный граф G состоит из множества вершин У, множества ребер £ и не содержит петель или кратных ребер. Частица совершает случайное блуждание на V, двигаясь на каждом шаге к случайно выбранной соседней вершине, причем каждая такая вершина выбрана с одинаковой вероятностью, независимо от предыдущих шагов. Покажите, что единственное инвариантное распределение равно п„ = dv/(2\E\), где dv — кратность вершины v. Ладья совершает случайное блуждание по шахматной доске15; в каждый момент времени она с одинаковой вероятностью может делать любые (дозволенные для ладьи) шаги. Каково среднее время возвращения ладьи в угол доски? Решение. Так как граф G связный, цепь конечна и неприводима, т. е. положительно возвратна. Следовательно, существует единственное инвариантное (стационарное) распределение. Распределение п„ = dv/(2\E\) удовлетворяет уравнениям детального баланса, так как dvdViVi/dv = dv>dv>v/dv> Vu, v' 6 V. Значит, оно инвариантно, и данная цепь обратима. Таким образом, тс„ есть единственное инвариантное распределение. В положительно возвратной цепи с инвариантным распределением тс, i/щ определяет т^, т. е. среднее время возвращения в k (см. теорему 1.8.3). Если ладья находится в углу доски или на любом из 64 квадратов, то dv = 2 х 7 = 14, v б V. Следовательно, |£| = 64 х 14/2, 14 1 _ Яугловое — г-а 1 л — ел 1 "^угловое — «*■ 1—1 15Шахматная доска состоит из 8 х 8 клеток. Допустимыми шагами являются шаги любой длины, параллельные сторонам доски.
Глава 2 Цепи Маркова с непрерывным временем §2.1. Матрицы перехода и Q-матрицы Специалисты по марковским процессам любят делать это, используя цепи. (Из серии «Как они делают это».) Определение 2.1.1. Назовем Q-матрицей на конечном или счетном пространстве состояний / матрицу с действительными элементами {Qij, '. / 6 О, обладающую следующими свойствами: — диагональные элементы неположительны, qu ^ 0, / 6 /; — внедиагональные элементы неотрицательны, цц ^ 0, i Ф /, i, j б /; — имеет место условие баланса: -qu — £ ?</'» т-е- £ Qij = О V/ € /. Для / Ф j значение qu — это скорость перехода из состояния i в /'. Величину -qu — £ цц обозначим qt (далее будет видно, что это суммарная /:/¥<• скорость перехода из состояния i). Будем обозначать Q-матрицу просто Q (общеупотребительное сокращение). Как и в гл. 1,1 будет обозначать единичную матрицу. Записывая в общей теории марковских цепей с непрерывным временем условие баланса J2 Яц — ~Qu, предполагаем, что J2 Qij < °°. Однако существенную часть теории можно развить, если равенство в условии баланса ослаблено до верхней оценки £ Qij ^ 0, т. е. qi ^ £ qis V/ G /. / i- /'#< Тогда Q-матрица, удовлетворяющая условию баланса, называется консервативной; этот термин не будет встречаться в данном томе, так как неконсервативные Q-матрицы рассматриваться не будут; см. рис. 2.1а). Как и ранее, Q-матрица порождает диаграмму, на которой стрелка i —► / присутствует тогда и только тогда, когда Цц > 0.
Глава 2. Цепи Маркова с непрерывным временем Р б) Рис. 2.1 Пример 2.1.2. Нулевая матрица Q = о \0 ... Соответствующая диаграмма не имеет стрелок (т. е. состоит из изолированных точек). □ Пример 2.1.3. Матрица размера 2 х 2 в общем случае имеет вид (7 4)- ^°- □ В некоторых важных примерах из этой главы (^-матрица на самом деле бесконечна. Однако мы на время сосредоточимся на конечных матрицах. Интересная матричная функция — это матричная экспонента e'Q = = exp(/Q): JQ (tQf _ A (tQ)k _ n ,to. _ A tk(Qk) = '+Е^=Е^. -.<*<%=£ k\ (2.1.1) k=\ ft=0 k=0 Для конечной матрицы Q параметром / в соотношении (2.1.1) может быть любое действительное число, хотя в приложениях к цепям Маркова с непрерывным временем (ц.м.н.в.) будем предполагать, что t^-О. Этот ряд сходится, потому что его матричная норма допускает оценку \etQ\\ = Е[-Т ^Е k=0 А=0 k\ k=0 \t\k\\Q\\k = exp(|/|||0||)<oo. Основные свойства матричной экспоненты немедленно вытекают из определения: а) е"?е*<? = esQetQ = e<'+s'<?, s, / е R (в частности, е""? = (е'9)"1); это свойство обобщает стандартное мультипликативное свойство экспоненциальной функции х у-у еха: е(х+У)а = ехае"а = еуаеш\
§2.1. Матрицы перехода и (^-матрицы б) функция e'Q непрерывна (на самом деле и дифференцируема) по / е R, причем полагаем е0<? = I; точнее, -r,e'Q = Qe'Q = etQQ, /eR, т.е. -jt{etQ)n = WQ)i, = {etQQ)ij. Более того, A" dt -%-etQ = QnetQ = e'QQn, /eR Vn = 0, 1, ...; это снова обобщение стандартного скалярного уравнения для скалярной экспоненты -^-еха = аеха = ехаа, хеШ; ах в) dete<<? = e'(tr<?', / G R (это свойство доказывается сложнее, см. далее). Следующее утверждение уточняет свойства а) и б) для t, s ^ 0. Теорема 2.1.4. Пусть Q — конечная Q-матрица. Семейство матриц P{t) = etQ, f£0, (2.1.2) удовлетворяет следующим соотношениям: г) полугрупповое свойство P(t + s) = P(s)P{f), s.t^O; (2.1.3) д) P(t) — единственное решение уравнений —P(t) = P(t)Q, t ^ 0, прямое уравнение, -r-P(t) = QP(t), t^O, обратное уравнение, (2.1.4) где Я(0) = I; e)Vn = 0, 1,2, ... ■jpP{t) = P{t)Qn = QnP{t), в частности -^P{t) _ = Qn. (2.1.5) Доказательство. Свойство г) прямо следует из определения матричной экспоненты, если использовать биномиальное разложение k k ((/ + s)Q)k = (t + s)kQk = J2 C[tlsk~lQk = E C'k(tQ)'(sQ)k-1. /=0 /=0 Свойство е) можно доказать, итерируя уравнение (2.1.4):
Глава 2. Цепи Маркова с непрерывным временем Поэтому докажем только свойство д), для чего запишем tkQk ^ t"-lQk ±P(t\ = ± ST Ш_ = ST r w = dt v> dtl^ k\ Z^ (ft- l)! k=Q oo -«E VQ) k-\ (k-\)\ = QP(t) = P(t)Q. (2.1.6) Заметим, что равенство (2.1.6) имеет место и для е tQ'--rte <Q = —e tQQ — = -Qe-'Q. Начальное условие Я(0) = I также проверяется непосредственно: для t = 0 все члены в соотношении (2.1.1) обращаются в нуль, кроме k = 0. Доказывая единственность, предположим, что M(t) — некоторое решение уравнения -nM(t) = M(t)Q, причем М(0) = I. Тогда |(Л1(0в-'в) = (j-tM{t))e-tQ + М(/)^е-«? = = M(t)Qe~tQ + M(t)(-Qe~'Q) = M(t)Qe~'Q - M(t)Qe~'Q = 0. (2.1.7) Поэтому матрица M(t)e~!Q не изменяется по t, а в момент ^ = 0 она равна I. Значит, M(t)e~tQ = I, и M(t) = etQ. Те же аргументы применимы к уравнению — M(t) = QM(t). D Замечание 2.1.5. Для конечной Q-матрицы уравнение (2.1.3) верно для любых t, s 6 R (и на самом деле является групповым свойством). Заметим также, что в доказательстве единственности решения прямого и обратного уравнений мы использовали экспоненту e~'Q, т.е. обратили знак tQ; см. соотношение (2.1.7). Однако нам нужно неотрицательное t в следующем важном утверждении. Теорема 2.1.6. Если Q — конечная матрица, то P(t) = eIQ— стохастическая матрица для любого t^O тогда и только тогда, когда Q является Q-матрицей, т. е. P(t) имеет все неотрицательные элементы, сумма которых по строкам равна 1: рц 2 0, и Ytpi,{t) = l. (2.1.8) У Доказательство. Начнем с доказательства достаточности, т.е. предположим, что Q является Q-матрицей. Пусть вначале t мало и положительно. Для малых t > 0 имеем P(t) = l + tQ + o(t), т. е. Pij(t) = Ъ„ + tqr, + o(t).
§ 2.1. Матрицы перехода и (^-матрицы Значит, для малых t > 0 выполняется неравенство pu{t) > 0 и рц{() > 0 для / ф /', если qij > 0. Далее, если цц — 0, то pij(t) = bij + tt2qf+o(t2), где q\j —это элемент с индексами / и / матрицы Q2. Заметим, что k так как в сумме Х)<7<а<7а/ нет отрицательных слагаемых (они могли бы k появиться при k = i или k =/, но при этом qij = 0, что уничтожает их). Таким образом, видим, что если q-ц = 0, то для малых t > 0 выполняется неравенство pij(t) > 0 при условии, что q\:> > 0. Продолжая в том же духе, без труда выводим, что для малых / > 0 выполняется неравенство /?,-/(/) > >0, если для некоторого п элемент q\" матрицы Qn положителен. Условие положительности qf' > 0 для заданного п означает, что на диаграмме существует направленный путь i = ko —► k\ —►...—► kn-\ —> kn = j из / в /' длины п. Иными словами, состояние i сообщается с }. i = ko kn = j • k Рис. 2.2 Рис. 2.3 А что, если q^ = 0? Тогда / не сообщается с / и рц = 0. В любом случае для малых t > 0 выполняется неравенство Pij(t) ^ 0 для всех состояний i, j. Наконец, сумма элементов в каждой строке матрицы Q нулевая, а тогда то же верно и для Q" для всех п ^ 1: Е^-Е^'^Е^ЧЕф0- (2-1.9) У /,/ ' / Значит, сумма элементов в каждой строке матрицы P(t) равна 1: сумма по строкам равна 1 сумма по строкам равна 0,
Глава 2. Цепи Маркова с непрерывным временем (это рассуждение верно для всех / б К). Таким образом, установлено, что для малых t > 0 матрица P(t) — стохастическая. Но тогда это верно для всех t > 0, так как в силу полугруппового свойства "ю-'Ю-'Ф-ЮГ- п раз а степень стохастической матрицы является стохастической матрицей. Этим заканчивается доказательство достаточности в теореме 2.1.6. Обратно, если P(t) имеет единичную сумму по строкам для любого /^0, то 0=i 5>w = £ TtPM = В<™><,. Так как Я(0) = I, из полученного равенства следует, что Аналогично если для некоторых / ^ / элемент /?;/(/) неотрицателен для любого t^ 0, то qij ^ 0. Это означает, что Q является Q-матрицей. Этим заканчивается доказательство необходимости и завершается доказательство теоремы 2.1.6. D Пример 2.1.7 (продолжение). Очевидно, что для нулевой (^-матрицы P(t) = I. П Пример 2.1.8 (продолжение). Рассмотрим общую Q-матрицу размера 2x2 (7 -р)" а,(3^0' (2Л10) Собственные значения х^г этой матрицы являются корнями уравнения det ("V а _х"_ о) = (* + «)(* + р) - ар = х(а + р + я) = 0, т.е. х, =0, х2 = -(а + р). Матрицу можно привести к диагональному виду, а именно Q = UDU~\ где
§2.1. Матрицы перехода и (^-матрицы Таким образом, оо k оо k оо k Если a = (3 = 0, то P(t) = I, в противном случае все элементы матрицы имеют вид Pil(t)=A+Be-lW\ причем Рц{0) = А+В = Ъц Например, для верхнего левого элемента A + B=l, -(a + P)fl = -a и Поэтому матрица P(t) равна а + р' + -^е-<а+Р" /»(0 = а+р а+р а+р а+р -(«+Р)Л _Р__е-(«+3)< а^ + _Ё_.е-(«+3)' а + р а + р а + р а + р при t —► оо имеет место поэлементная сходимость к матрице Р «_ а+р а+р J SL ,а + р а + р, Пример 2.1.9. Рассмотрим Q-матрицу размера 3x3 вида /-1 1/2 1/2\ <?= 1 -2 1 , \о 1 -1/ /3/2 -1 —1/2> Для которой д2 = I -3 11/2 -5/2 VI -3 2 >
Глава 2. Цепи Маркова с непрерывным временем Характеристическое уравнение имеет вид '-1-х 1/2 1/2 det | 1 -2-х 1 О 1 -1-х) = -(*+l)'(* + 2) + ^ + (l+*)J. + l+x = = (х+ 1)(-(х+ 1)(х + 2) + i + l) + i = = (x+l)(-x2-3x-2 + |) + i = x(-x2-4x-0=O, следовательно собственные значения равны х, =0, х± = -2±-5=<0. Тогда Л7(/)=Л + Ве-'(2-1/^» + Се-'(2+|/^), /,/=1,2,3, ^0, где постоянные Л, В, С зависят от /, /' и удовлетворяют уравнению А + В + С = 8,7, так как Я(0) = I, -В (2 - -)=) - С (2 + -)=) = qih так как Я(0) = Q, Например, для p\\(t) мы имеем Л = 7' В = 5 + Зл/2 14 С = 5-Зл/2 14 ' и /?i | (/) —► 2/7 при t —> со. П
§2.1. Матрицы перехода и ф-матрицы Пример 2.1.10. Нетрудно привести пример (^-матрицы с кратными корнями характеристического уравнения det(Q — ^il) = 0, а именно, Q Корни здесь равны 0, -2, -3; корень -3 имеет алгебраическую кратность 2, но геометрическая кратность каждого собственного значения равна 1. Следовательно, элементы /?,/(/) матрицы перехода Pt = etQ задаются формулой рц{1) = Ац + Вце~21 + (Сц + ОцОе-3', /,/=1,2, 3, 4, где Ац, Вц, Сц и Dq — постоянные. Чтобы найти их, нужно использовать уравнение (2.1.5) при п = 0, 1, 2, 3. В результате получаем матрицу P(t): _1_ 18 /4 + 6<е-3' + 14е-3' -Не"3' +9е~2'+ 5-Ые~31 -6е-3/ + 6 бе"3' -9e~2' + 3 \ 4 + 6<е-3'-4е-3' 5 + 4е~3'+9е~2'-6<е~3' -бе"3' + 3 бе"3'-9e~2' + 3 _4е-3' + 4-12<е-3' -9е~2' + 5 + I2te~31 + 4e~3t 6+ 12е-3' -\2е~31 + 9e~2' + 3 V 4 + 6te-3'-4e-3' 4e-3'-9e-2' + 5-6<e-3' 6-бе"3' 3 + 6е-3' + 9e~2' / Замечание 2.1.11. Квадрат (^-матрицы не обязательно Q-матрица (то же относится и к другим степеням Qn). Например, в случае (2 х 2)-матрицы (см. пример 2.1.8 выше) мы получаем: _а а "\ _ ( а2 + аР _а2 _ аР Р -$) "l^-otp-p2 otP + p2 Эта матрица является (^-матрицей тогда и только тогда, когда а = р = = 0, т. е. Q = 0. Однако сумма элементов по строкам матрицы Qn всегда нулевая, причем мы использовали это свойство в доказательстве теоремы 2.1.6 (см. соотношение (2.1.9)). Вообще-то, структуру матрицы Qn можно восстановить по диаграмме из стрелок, представляющей исходную ф-мат- рицу Q. Скажем, чтобы вычислить элементы q\: , рассмотрим все пути i —► k —► / длины 2, перемножим q^ и цщ вдоль каждого из этих путей и просуммируем полученные произведения. Далее, для Q3 возьмем все пути длины 3 и т. д. С другой стороны, для любого а ^ 0, произведение Q-матрицы и числа а является (^-матрицей. Аналогично сумма Q-матриц Q\ + Q2 является Q-матрицей (значит, и любая линейная комбинация a\Q\ -\-a2Q2 или, более п общим образом, J2 a.jQj с неотрицательными коэффициентами at является Q-матрицей). 1=[
Глава 2. Цепи Маркова с непрерывным временем Замечание 2.1.12. При заданной ф-матрице и любом t>0 матрица P(t) = е1® стохастическая по теореме 2.1.6. Поэтому существует ц.м.д.в., для которой P(t) — это матрица переходных вероятностей. Однако неверно, что любую матрицу вероятностей перехода Р можно записать в виде е'® для некоторой ф-матрицы и t^ 0. Здесь может помочь упомянутое ранее свойство в) dete"3 = e/(lr^)). Например, матрицы перехода 0 1 1/2 1/2 нельзя записать в виде е"3, так как их определители нулевые или отрицательные, в то время как e'(tr<?) > 0. Теперь, используя полугрупповое свойство, докажем, что dete"^ = = e/(trl3). В самом деле, det e{t+s)Q = det(esQetQ) = (det es,?)(det etQ). Далее, определитель dete"3 непрерывен (и даже дифференцируем) по t, причем dete0'0 = det I = 1. Значит, dete/<? = etq для некоторого (действительного) q. Наконец, чтобы найти q, заметим, что <-±ы*> = 4, det(l + «?) /=0 0.1 1=0 Это означает, что q — коэффициент при / в многочлене det(I + tQ), а он в точности равен trQ. Заметим, что dete"3 —►0 при t —► оо за исключением случая, когда Q = 0. В других случаях необходим более глубокий анализ. Например, рассмотрим матрицу перехода Р = Предположим, что ее можно записать в виде etQ. В таком случае рассмотрим матрицу перехода Р = е'®/т; очевидно, (Р)т = Р. Нетрудно проверить, что для матрицы перехода Р = ее квадрат равен (Р)2 — Р. Но для т — 3 это невозможно (в матрице Р слишком много нулей). Действительно, матрица Р описывает детерминированные передвижения. Отсюда следует, что и матрица Р должна быть детерминированной. Но ни одна из шести возможных перестановок для
§2.2. Марковские цепи с непрерывным временем: определения матрицы с тремя состояниями не удовлетворяет желаемому уравнению. Итак, матрицу Р нельзя представить в виде е'®. Замечание 2.1.13. Общее мультипликативное свойство матричной экспоненты имеет вид eQ,+Q1 = eQ*eQ2 = eQ2eQ^ (2.1.13) если и только если матрицы Qi и (?2 коммутируют, т.е. если Q1Q2 = = Q2Q1 ■ Отсюда следует полугрупповое свойство e^s+t^ = es®+t® = es®e'Q, поскольку матрицы (sQ) и (tQ) коммутируют. Проверить равенство (2.1.13) можно прямыми вычислениями. Если (?1<?2 = <?2<?1- ТО ^ + ^)"=E*i^^-'=E«(^i^-'- (2-1-14) Как и в скалярном случае, произведение матричных рядов Е°° vw\r v^ *=o /=o S (t(Qi + Q2))n можно удачно переупорядочить и получить ряд 2_, j . равный л=о "■• e'C?i+(?2) Однако без предположении о коммутации Q1Q2 = Q2Q1 в разложении (2.1.14) возникнут перемежающиеся произведения матриц Q\ и фг и мы не получим формулы (2.1.14). § 2.2. Марковские цепи с непрерывным временем: определения и основные конструкции. Марковское и строго марковское свойства The Markov Chain Saw Massacre1 (Из серии «Фильмы, которые не вышли на большой экран») Определение 2.2.1. Цепь Маркова с непрерывным временем, (конечной) ф-матрицей Q и начальным распределением X— это семейство таких случайных величин (Xlt t^ 0) со значениями в /, что a)P(*0 = i) = X,. Ср. с названием фильма «Texas Chainsaw Massacre» («Техасская резня бензопилой»).
Глава 2. Цепи Маркова с непрерывным временем б) для любых 0 < t\ < t<i < ... < tn и любых состояний /о.. • • •. i-n £ / выполняется равенство Р(Хо = 'о, %t, = Mi • • • i %t„ — in) — = KPhi,(ti)Ptih(t2 ~ t\)---Pi^in(tn ~ t„-i), (2.2.1) где pij(t) — элемент матрицы P(t) = etQ. Типичная траектория (путь) ц.м.н.в. (Xt) показана на рис. 2.5. k -Л U h t„ время Рис. 2.5 Далее мы увидим, что произвольная траектория а) проводит случайное время, распределенное как ~ Ехр(^,), в состоянии /, а затем б) прыгает в состояние / ф i с вероятностью qij/qi', см. (2.2.10). Стандартное соглашение состоит в том, что траектории непрерывны справа. Это означает, что с вероятностью 1 при всех t > 0 lim Xt+h — Xt. h\0 io»- /„-1 4—1> tn время Рис. 2.6 В случаях, когда это соглашение не слишком существенно, будем изображать траектории в виде непрерывных линий. Важно понять, что событие {Хо — /о, Xt, = м, ..., Xt„ = in} в соотношении (2.2.1) включает все траектории, проходящие через состояния г'о, i\, ..., i„ в моменты времени ^о = 0, t\, ..., tn\ их поведение между этими моментами времени произвольно.
§2.2. Марковские цепи с непрерывным временем: определения Матрицу Q часто называют генератором цепи Маркова (Х() с непрерывным временем. Саму цепь называют (X, ф)-цепью Маркова с непрерывным временем (ц.м.н.в.) и генератором Q. Как и в случае цепей Маркова с дискретным временем (ц.м.д.в.), мы часто будем работать с цепями, выходящими из фиксированного состояния i, т.е. Х = 8,. Такая цепь называется (8,, ф)-ц.м.н.в. Из определения 2.2. i вытекают следующие свойства. I. Матрица P(t) = (Pij(t)) называется матрицей перехода в момент времени t. Она задает условные вероятности ptj(t) = P(Xt=j\X0 = i) = P(Xt+s =j\Xs = i). (2.2.2) В терминах траекторий рц{() задает полную вероятность всех путей из i в / за время t. bfl. fl2 \ I, -Т! 1п-1 И О = to t\ t2 tn-i tn время Рис. 2.7 II. Отсутствие памяти у условных вероятностей. Оно состоит в том, что Р№„ — / I ^„-i — '. ^/„-2 = 1п-2 Xq='Iq) = = Р(Х,„ =/ | *,„_, = 0 = Pll(tn - tn-i), (2.2.3) т. е. условная вероятность P(Xtn = / | Xtn_[ = /, Х/а_3 = in-2, ..., Хо = /о) не зависит от t\, ..., tn_2 и /0. М. • • •, in-2- Чтобы доказать равенство (2.2.3), нужно использовать определение условной вероятности Р№„ = /1-^/„-i ='. Xtn_2 = in-2, ■■-, Xo = io) = P(X0 = i0 X,n_l =(, X,„ =/') P№ = ib Vi=') и подставить выражение из формулы (2.2.1). III. Безусловная вероятность p(xt=j)=j2^Pii(t) = (kp(t))j (2.2.4)
Глава 2. Цепи Маркова с непрерывным временем задает полную вероятность множества траектории, находящихся в состоянии / в момент времени t. гт время Рис. 2.8 IV. Как и в случае дискретного времени, имеет место марковское свойство, которое обеспечивает условную независимость прошлого и будущего при фиксированном настоящем. Теорема 2.2.2. Пусть (Xt) — это (К, Q)-ul.M.H.e. Тогда для любого заданного t > 0 и любого состояния i при условии, что {Xt = i}, прошлое (Xs, 0 < s < t) и будущее (Xt+S, t > 0) независимы и (Xt+S) является (8,, Q)-ul.M.H.e. Xs, 0 ^ s < tn-i, не влияют на Xtn, если задано Х/_. = i h tn- tn время Рис. 2.9 V. Говорят, что \ — к является стационарным распределением, если и только если Р^, =/') = л/ для любых /, /', т. е. тсЯ(0 = тс. При этом вектор- строка к обращается в нуль под действием матрицы Q: 0=j-tKP(t) = K-ftP(t) = KP(t)Q, 0 = nP(t)Q\t=o = KQ. (2.2.5) Иными словами, к — собственный вектор-строка матрицы Q с нулевым собственным числом.
§2.2. Марковские цепи с непрерывным временем: определения VI. На самом деле любая (конечная) ф-матрица имеет стационарное распределение, т. е. собственная вектор-строка к = (п,-) с нулевым собственным значением и неотрицательными компонентами, для которых ^71,- = 1. В частности, 0 является собственным значением любой ф-мат- рицы. VII. Как и в случае дискретного времени, если Р(0->П = 1<" К (т) /" V- Л rW является стационарным распределением: (О / \ (<) то каждая строка тг п(/)Р(0 = (nP(0)(0 = ( Hm P(x)P(oV" = f lim P(x + t)V" = %{i). (2.2.6) \T-»oo / \т-»оо / См. теорему 2.8.1 из §2.8. Например, если в примере 2.1.8 выполняется условие а + р > 0, то £ —^ (2.2.7) 71 U + P'a + pJ является (единственным) стационарным распределением. Но при а = р = 0 мы имеем P(t) = I и любой вектор будет инвариантным. VIII. Как и в случае дискретного времени, можно определить строго марковское свойство. Назовем случайную величину Т со значениями в [0, сю] моментом остановки, если для любого t > 0 событие {Т < t} определяется набором (Xz: 0 < т < t). Иными словами, индикатор 1 (Т < t) является функцией только от (Xz: 0 < т < t). настоящее прошлое fUi- будущее время Рис. 2.10
Глава 2. Цепи Маркова с непрерывным временем If t время Рис. 2.11 Once Upon a Stopping Time2 (Из серии «Фильмы, которые не вышли на большой экран».) Примером момента остановки вновь является момент достижения подмножества состояний А С /: поскольку HA = mi[s>0:XseA], \(HA^t) = l(3se[0, t): XseA) (2.2.8) зависит только от (Х^, 0 < т < t). Мы будем особо интересоваться моментами достижения заданного состояния i (также называемыми моментами перехода в /, как и для ц.м.д.в.). Hi = mt[s2 0:Xs = i]. (2.2.9) Теорема 2.2.3. Пусть (Xt) — (X, Q)-ul.M.H.e. и Т — момент остановки. Тогда для любого состояния i при условии, что произошло событие {Т < сю, Хт — /}, прошлое (Xt, O^t^T) и будущее (Xt+T, t^O) независимы и (Xt+r, t^O) — это (8,-, Q)-ul.M.H.e. Рис. 2.12 иллюстрирует случай, когда T = Hj, где Нх — время перехода в состояние /. A Passage Time to India3 (Из серии «Фильмы, которые не вышли на большой экран».) IX. Ц.м.н.в. {Xt) с генератором Q обладает следующими свойствами: при условии, что Xt = i, q-t = —qu > 0, остаточное время пребывания Rt в состоянии i имеет экспоненциальное распределение с параметром qi = -qu- ?{Ri > т | Xt = i) = P(Xl+s = Z V(K s < т | X/ = 0 = e-qi\ 2Cp. с названием фильма «Once Upon a Time». 3Cp. с названием фильма «A Passage to India»
§2.2. Марковские цепи с непрерывным временем: определения прошлое (не в i) настоящее будущее Рис. 2.12 Н, время Далее, в момент t + Ri цепь совершает прыжок в состояние j с вероятностью р,у = qij/qi'. P(Xl+R[=j\Xt = i) Это свойство будет проверено позже. Яч (2.2.10) с» • поглощающее Рис. 2.13 Если для состояния i выполняется условие qi = 0, то q-ц = 0 V/; такое состояние называется поглощающим. Соответствующая диаграмма из стрелок не содержит стрелок, выходящих из состояния /. Замечание 2.2.4. Определение 2.2.1 выделяет так называемую однородную цепь Маркова. Здесь вероятности pij(t) зависят только от времени t, за которое совершается переход из состояния i в /'. В более общем случае неоднородных цепей нужно рассматривать вероятность Pii(s, t + s), t, s> 0, того, что состояние в момент t + s есть /', при условии, что состояние в момент s есть L Примеры таких цепей появятся в §2.4. Пример 2.2.5. Некий вирус может находиться в N+ 1 штамме 0,..., N. Он сидит в своем штамме случайное время, распределенное как ~ Ехр (X),
Глава 2. Цепи Маркова с непрерывным временем а затем с равными вероятностями мутирует в один из остальных штаммов. Найдите вероятность того, что в момент времени t он будет сидеть в том же штамме, что и в начальный момент, Р(в момент t штамм тот же, что и в момент 0). 0 /V» / \ •! N-\ б) Рис. 2.14 Решение. Стрелочная диаграмма ц.м.н.в. из условия задачи полностью симметрична. На рис. 2.14 показаны только стрелки, выходящие из состояния 0. В силу симметрии Qi := -Qu = к Qij = д?, 1 < i, /' < W + 1, i + u -X X//V X//V Q= I X//V -X ... X//V X//V X//V -X Нам нужно вычислить pa(t) = (е'^)„. Очевидно, pu(t) = Pi\(t) V/, t, опять же в силу симметрии. Рассмотрим приведенную Q-матрицу размера 2 х 2 с состояниями 0 и I: Q=( _X X с собственными числами 0 и (I = —^-тг—-. Эту матрицу можно привести к диагональному виду. Собственные вектор-строки имеют вид (1,1) и (N, -1). Поэтому Pn(t) = (elQ)u=A+Be—~'. Как и в примере 2.1.8, если искать решение в виде А +Ве^', то получим такие значения: *» ~~ Т^ Г* И ^— ~rz г N+Г N+1
§2.2. Марковские цепи с непрерывным временем: определения В силу симметрии 1 1 1 Х(/У+1), Pij(t) = -(l-pu(t)) = w-i-J-w-rie n ', 1ф\. Остается заключить, что Pi'M) —* дТ—г ПРИ ^~>оо (это равномерное дискретное распределение). Пример 2.2.6. Блоха скачет по часовой стрелке от вершины к вершине треугольника ABC; времена пребывания — независимые показательно распределенные с параметром единица случайные величины. Найдите собственные значения соответствующей ф-матрицы и выразите вероятности перехода pxy(t), t^O, x, у = А, В, С, через эти корни характеристического уравнения. Выразите суммы 00 ,3л °° ,Зл+1 °° f3n+2 (Зп)Г 1V/ Z^(3n+1)!' ^' Z^(3n + 2)!' л=0 л=0 л=0 через функции е', е-'/2, cos(V3t/2) и sin(V3t/2). Найдите пределы lim e-'Sj(t), / = 0, 1,2. Какова связь между разложениями е' = So(t) + Si(t) + S2(t) и е' = cht + sht? Решение. Выпишем характеристический полином ф-матрицы /-1-х 1 0 \ detl 0 -1-х 1 =(-х- 1)3 + 1 = -х(х2 + Зх + 3). \ 1 0 -1-х/ Корни (собственные числа) равны п 3 , .V5 Поэтому диагональные переходные вероятности равны pxx(0 = a + e-3//2(fccos(^)+csin(^)), x = A,B,C,
Глава 2. Цепи Маркова с непрерывным временем где а = рхх(оо) = g (так как к = (1/3, 1/3, 1/3)), а + b = рхх(0) = 1. следовательно, Ь = 2/3, — yb + -~-с = рхх(0) = qxx = — 1, следовательно, с — О. Заметим, что Q-матрица имеет вид Q = А — I, где все элементы матрицы А за исключением а\2, агз и a2i, являются нулевыми. Следовательно, е'® = — е~ае1А. Далее, заметим, что Q3 = I и все диагональные элементы матрицы Qk равны 0, если k не делится на 3. Отсюда следует, что оо Зл л=0 Таким образом, с /a v^ 'Зл 1 t , 2 _,/2 /л/3, 5о(/) = Е(3^)! = Зе+Зе ^(т' п=0 Аналогично вероятности рле(0 = Pec(t) — РсаУ) равны i-i^«-(^') + ^-"(T')- Зп+1 следовательно, 5|(/) = £ равно л=о ^л + 'J- ^-_>^cos(f()+-L^s,„(f(). Наконец, вероятности рлс(0 = РваУ) = РсвУ) равны __/3п+2 _1 l._3(/2.../v/3A 1 _-з^/2_=_/ч/3. ' (3 л=0 Е^^-Ь^-^О-я^-"^')- оо ^Зп+2 "S2W=S(SrT2)!PMI"> Пределы lim в-'5Д0 = 5. /' = 0, 1,2, /—>оо о задают стационарное распределение к = (1/3, 1/3, 1/3).
§2.2. Марковские цепи с непрерывным временем: определения Разложение е1 = ch / + sh / появляется, если рассмотреть ц.м.н.в. с Q-матрицей (■' -'■)• т. е. «приведенный» вариант предыдущей цепи. Пример 2.2.7. Рассмотрим Q-матрицу размера N х N вида /-Х X О О -X X О О -X О 0\ О О О О О -X X о о/ = х (-{ 0 0 0 ^о 1 -1 0 0 0 0 . 1 . -1 . 0 . 0 . . 0 . 0 . 0 . -1 . 0 °\ 0 0 1 о/ □ (2.2.11) См. рис. 2.15. Здесь состояние N является поглощающим: дм = О, или, /V-1 • —i (поглощающее) Рис. 2.15 что то же самое, q^^ = —q^ — 0. При этом все матрицы Qk являются верхними треугольными (так как отсутствует стрелка / — 1 <—/'). Значит, таковой будет и матрица е'®. Прямое уравнение имеет вид P(t) — P(t)Q, начальное условие Я(0) = I, поэтому Ра = -Хри, ри(0) = 1, 1 ^ i < N, Pij = -\рц + \pa-i, ptj(0) = 0, l^i<j<N, PiN = ^PiN-\, PiN (0) = 0, 1 ^ / < /V, Pnn = Q' Pnn(0) = 1, и, поскольку, очевидно, рц{1) = 0 для всех / >/', это уравнение допускает рекуррентное решение вида: из уравнения ри = —\рц следует, что рц{1) = е~х< для 1 ^ / < /V, из уравнения pii+i = —\рц+\ + Хе_х' следует, что pij+\(t) = Xte~Xt для К i < N, а из уравнения Рц+2 = — Хр;,,+2 + Х2/е_х' получаем pij+2(t) = для 0 ^ / < N - 1 и т. д. Общая формула W-' -х/ Мв-х/ Р^) = 7Г. \^i<j<N-\,
Глава 2. Цепи Маркова с непрерывным временем /=0 О < / < /V; наконец, В матричной форме /Vх' P(t) = etQ= 0 V О X/ Pnn = 1 • 2! X/ _i, М,-^ \ /^(V /! (X/)'. /! £ "-Чге-- (2.2.12) / 0 0 0 1 Видим, что при / —► оо выполняется условие Pi;(t) -> 0 V0 < i < j < N и piN(t) -> 1 V0 ^ i < N. Таким образом, /0 0 0 lim Pij(t) = bjN т.е. Р(/)-> Г-»оо 1\ 0 0 0 '5/v ■8/v \0 0 0 ... 1/ '8,v. Здесь 8/v — вероятностное распределение, сосредоточенное в состоянии N (цепь с течением времени заканчивает движение в состоянии /V). □ Полезное наблюдение состоит в том, что если qt = 0, то состояние i поглощающее, т. е. pn{t) = 1 V/ > 0 (и обратное утверждение также верно). Типичные траектории (5(0), Q) ц.м.н.в. представлены на рис. 2.16. Они все прыгают вверх на одну единицу и согласно выше приведенному описанию со временем достигают состояния /V, где и остаются навсегда. Пример 2.2.8. Если взять Q-матрицу вида (2.2.13) то она образует цикл, см. рис. 2.17. Матрица P(t) = eIQ здесь будет иметь периодическую структуру: Pij(t) — pi+ij+i(сложение по mod /V) Vf, /, /, /-Х 0 0 0 u X -X 0 0 0 0 .. X .. -X .. 0 .. 0 . 0 . 0 . 0 . -X 0 °\ 0 0 X -v X (~х 0 0 0 \1 1 0 -1 1 .. 0 -1 .. 0 0.. 0 0.. 0 . 0 . 0 . -1 . 0 °\ 0 0 1 -1/
§2.2. Марковские цепи с непрерывным временем: определения Рис. 2.16 время Ы%^ ? X Рис. 2.17 Действительно, суммируя переходные вероятности по всем состояниям, которые «проектируются» в состояние /', когда при движении вдоль действительной временной оси образуется цикл, получим ответ pij(t)=Pli+l-i(t) = YJ (kt) J-i+IN -Xt 1=0 (/■-» + IN) 1 ^i^j^N, Pij(t) = p\,N+j-i+\ (t), 1 < / < i ^ N. При / —> oo распределение Pij(t) стремится к равномерному дискретному распределению к,- = I/7V V/. Это единственное решение уравнения nQ = О, /V удовлетворяющее условиям к,- > 0, ^ к,- = 1. □ Пример 2.2.9. Многие свойства, которые обсуждались ранее, можно без большого труда перенести на бесконечные матрицы. Например, рассмотрим бесконечную Q-матрицу вида (см. рис. 2.18) Q = /-Х X О О О -X X О О О -X X V: Л = х /-11 0 0 0-110 о о 1 1 V: Л ■■■/ (2.2.14) О 1 2 • —о •—о • Л А п — \ п •—о • А Рис. 2.18
Глава 2. Цепи Маркова с непрерывным временем В этом примере матрица Qk вновь является верхней треугольной при всех k = 0, 1, ..., значит, таковой является и матричная экспонента Я(/) = е"? = f; ^, t>0. (2.2.15) Элементы pu+i(t) при / ^ 0 требуется вычислить, но элементы р;,_/(/) уж точно тождественно равны нулю / PooV) Poi(t) Pw(t) ••• \ О Pu(t) Pl2(0 ... ^(0= 0 0 p22{t) ... • I о J Чтобы найти элементы piti+l(t), можно использовать прямое или обратное уравнения P(t)=P(t)Q или P(t) = QP(t) (2.2.16) с начальным условием Р(0) = 1. Для /=0 (т. е. для диагональных элементов) уравнения принимают вид pu = -\pii{t), рц(0) = 1, откуда следует, что pu(t) = e~xt V/ = 0, 1. ■ • • и / ^ 0. (2.2.17) Для / = 1 (один шаг вправо от главной диагонали) получим ри+1 = -Xpi,i+i (0 + Xp,j(/) (прямое уравнение), рц+i = -Xp,-,/+i (/) + Xp/+i/+i (/) (обратное уравнение), откуда следует, что Pi,i+i(t) = \te~X! Vi = 0, 1 и t ^ 0. (2.2.18) В общем случае, для любых / = 0, 1, ... имеем Pij+i = -\pij+i(t) + \pij+t-i(t) (прямое уравнение), Рц+i = -\pi,i+i(t) + \pi+u+i(t) (обратное уравнение), что приводит к формулам pu+l(t) = Qfe-Xt V/ = 0, 1, ..., и / ^ 0. (2.2.19) Наконец, поскольку переходы / —> /' для / < / невозможны, Pi,i-t(t) = 0 V/ = 0, 1 / = 1, 2, ... и / ^ 0. (2.2.20)
§2.2. Марковские цепи с непрерывным временем: определения В матричной форме L P(t)= -Xt ^*-\t 1 0 e~Xl 0 0 2! M -x/ е~и (закон Пуассона с X/ О закон Пуассона с X/ I (2 2 2 П О 0 закон Пуассона с X/ J ' V ! ■■•/ Эквивалентным образом, можно получить тот же результат, перейдя к пределу P(t) = etQ= lim etQm, t^O, (2.2.22) N—>oo где Q(N) и Pw{t) = e"?<A" — это матрицы вида (2.2.11) и (2.2.12) соответственно. Матрицы P(t), t ^ 0, определенные формулой (2.2.21), имеют свойства, перечисленные в теореме 2.1.4. Очевидно, каждая матрица P(t) стохастическая, задающая набор переходных вероятностей на Z+. Можно повторить определение 2.2.1 для / = Z+ = {0, 1, ...} и (бесконечной) матрицы переходных вероятностей P(t), определенных формулой (2.2.21). Типичные траектории (8'°\ @)-ц.м.н.в. (выходящей из 0) изображены на рис. 2.16. Все скачки ц.м.н.в. равны 1. □ Суммируем вышесказанное. Теорема 2.2.10. Пусть матрица Q имеет вид (2.2.14). Семейство матриц P(t) из соотношения (2.2.21) удовлетворяет равенствам (2.2.15) и (2.2.22) и имеет следующие свойства: а) полугрупповое свойство P(t + s) = P(s)P(t), s, t ^ 0; (2.2.23) б) P(t) — единственное решение уравнений (2.2.24) -r.P(t) = P(t)Q, t ^ 0, прямое уравнение, -rfP(t) = QP(t), t ^ 0, обратное уравнение. причем Р(0) = I; в) i*™ = QkVk=l,2, .... Прямые и обратные уравнения часто называют уравнениями Колмогорова, по имени Андрея Николаевича Колмогорова (1903-1987), великого русского математика, внесшего
Глава 2. Цепи Маркова с непрерывным временем важный вклад во многие области теоретической и прикладной математики. Колмогоров известен как создатель строгого обоснования всей теории вероятностей, н более 50 лет он был признанным лидером советского математического сообщества. В отлнчие от некоторых других советских математиков н физиков того периода, он никогда не занимал особо высоких административных постов и не участвовал непосредственно в ядерной или космической программах. Однако он имел непререкаемый авторитет как в математике, так и в вопросах, выходящих за ее пределы, и служил образцом для подражания в российском н международном интеллектуальном сообществе. Другое имя, связанное с этими уравнениями, — Уильям Феллер (1906-1970), известный американский математик, родившийся в Загребе (Хорватия). Он существенно прояснил роль прямых и обратных уравнений в теории вероятностей и ее многочисленных приложениях. Он также написал классический учебник в двух томах [F], по-видимому никем ие превзойденный до настоящего времени. § 2.3. Процесс Пуассона Приключение Пуассона'' (Из серии «Фильмы, которые ие вышли на большой экран».) Процесс Пуассона был введен в примере 2.2.9 в предыдущем параграфе. Ввиду его важности введем специальные обозначения. Определение 2.3.1. Пусть Х>0 фиксировано. Семейство случайных величин (/V/, / ^ 0) со значениями в Z+ = {0, 1, ...} называется процессом Пуассона с интенсивностью X, если а) Л/о = 0, б) для любых 0 < ^ < t2 < ■■. < tn и любых неотрицательных целых чисел /|, ..., in € / выполняется соотношение P(/V,, =il,...,Nl„= in) = Ро„ {U)phh(t2 ~ t0 . ..pi^iAtn ~ ta-x), (2.3.1) где pij(t) — элементы матрицы P(t) = etQ, определенной в формуле (2.2.21). Мы будем кратко обозначать процесс Пуассона с интенсивностью X через ПП(Х), а его распределение — просто через Р = Рх. Процесс ПП(Х) имеет кусочнопостоянные, неубывающие (непрерывные справа) траектории, выходящие из 0. Из равенства (2.3.1) следует, что ПП(Х) имеет независимые приращения Ntj+I -Ntj на непересекающихся интервалах (tj,t/+\) и эти приращения распределены по закону Po(X(^+i - /у)). В самом деле, полагая to = 0 и г'о = 0, получим, что вероятность P(Ntl = i\, ..., Nt„ = in) совпадает с P(Ntl -Nt0 =i\ - /о, ■■■,Nt„ -Ntn_, =in — i'n-i), т.е. с вероятностью того, что приращения примут заданную последовательность значений. Затем, Игра слов, ср. «Приключения Посейдона».
§2.3. Процесс Пуассона повторяя определение 2.3.1, получим, что для любых 0 — to < t\ < ... < < tn и любых чисел 0 = /о, i\, ■■■, in S Z+ выполняется соотношение Р(#/, - Nk = h - /о, • • •, Nt„ - Nt„_, =i„- in-i) = Л-1 ft=0 (u+i -i*)! (2.3.2) 0 в остальных случаях. Nt2 - Nh Nh-Nt0 Nh - Nt, =£ -J—o 0=/0 4 и h tn Рис. 2.19 Обратно, из свойства (2.3.2) следует свойство (2.3.1). Этот факт важен для нашего понимания пуассоновских процессов. Прежде чем двигаться дальше, напомним основные свойства показательного распределения Ехр(Х): а) плотность распределения равна f(x) = \е~Хх1(х > 0), б) функция распределения равна X F{x) :=P(X<x)= f № dy = (\- е-**) 1 (х > 0), —ею в) «хвост» функции распределения равен 1 -F(x) = P(X^x) = -Хх 1, , *>0, г) среднее значение равно EX = f xf(x) dx = г-, о к со . | , 2 д) дисперсия равна Е(Х — ЕХ)2 = J (х - г- J f(x) dx ■■ _1_ X2'
Глава 2. Цепи Маркова с непрерывным временем е) если Х\ ~ Exp(Xi), ..., Хп ~ Ехр(Хл) и эти св. независимы в совокупности, то W = min^i, ..., Хп] ~ Exp I J2 X; )', действительно, 1=1 л л P(W>x) = P(Xi>x,l^i^n) = Y[P(Xi >х) = Y[e~hx, ;=i (=i ж) свойство отсутствия памяти: P(X>t + s\X>s) = ^-^- = e~xt = P(X>t)Vt,s> 0; это свойство часто интерпретируют так: если время жизни (или время пребывания) превысило заданный уровень s, то при этом условии остаточное время жизни X — s по-прежнему имеет распределение Ехр(Х). X, время жизни время 5 t X — s, остаточное время жизни Рис. 2.20 Далее мы обозначаем ПП(Х) либо Nt, либо N(t) в зависимости от того, какое обозначение более подходит для конкретного случая. Следующая теорема — это основной результат данного параграфа. Теорема 2.3.2. Процесс ПП(Х) (N(t)) можно охарактеризовать тремя эквивалентными способами: это процесс со значениями в Z+ = {0, 1, ...} с /V0 = 0 и а) процесс, удовлетворяющий соотношениям (2.3.1), где P(t) = = (pij(t)), t ^ 0, — стохастическая матрица, заданная в формуле (2.2.21); или, что эквивалентно, процесс с независимыми пуассонов- скими приращениями: N(tk) - N(tk-i) ~ Ро(Х(/А - /*_,)), V0 </,<... < /„, (2.3.3) или б) процесс с независимыми приращениями и такими инфините- зимальными вероятностями: для любого t ^ 0 P(/V(? + п) - N(t) = 0) = 1 - U + o(h), Р(N(t + h)- N(t) = 1) = U + o(h), (2.3.4) P(N(t + h) - N(t)>2) = o(h) при h\0, где слагаемые o(h) не зависят от t, или
§2.3. Процесс Пуассона в) процесс, проводящий случайное время S; ~ Ехр(Х) в каждом состоянии i независимо друг от друга, а затем попадающий в состояние / + 1, / = 0, 1, ... Говорят, что а) — это определение (или характеризация) в терминах независимых пуассоновских приращений, б) — определение в терминах инфинитезимальных вероятностей, в) — в терминах показательных времен пребывания. Замечание 2.3.3. Характеризацию б) можно сформулировать в эквивалентном виде: б') процесс ПП(Х) (Nt) — это процесс со значениями в Z+ с No = = 0 и следующими инфинитезимальными условными вероятностями: для любых t^ 0 и i = 0, 1, ... P(N(t + А) - N(t) = 01 N(t) = i) = 1 - ХА + o(A), P(N(t + A) - N(t) = 1 | N(t) = i) = X/z + o(A), (2.3.5) P(/V(/ + A) - N(t) ^ 21 N(t) = i) = o(h) при h \ 0, где слагаемые o(h) не зависят ни от t, ни от L Доказательство теоремы 2.3.2. Импликация а) =*> б) очевидна. Из п. а) следует, что Р(Ы *,_л_М' _х„_/е-х/! = 1-ХА + 0(А2), / = 0, и РМ+л -N,22) = l- P(Nt+h -N, = 0 или 1) = = 1 - (1 - ХА + ХА + о(А)) = о(А). Отсюда получаем п. б). Импликация б) =>■ в) посложнее. Сначала проверим, что нет двойных скачков, т. е. Р(нет скачков размером 2 и выше на полуинтервале (0, /]) = 'ft- 1, k = Р(таких скачков нет на полуинтервалах I /, —/ Vft= 1, ..., ml = = ТТ Р (таких скачков нет на полуинтервалах 1, — t ) = = ТТ Р(скачков нет вообще или есть единственный скачок размера 1 k /ft — 1 ft 1\ на полуинтервале I 1, —t J = =(1-х^+хж+о(«))т=(1+ой)Г->1 при т ■" °°в силу б)-
Глава 2. Цепи Маркова с непрерывным временем Все это верно для любого t > О, поэтому Р(скачков размера 2 и выше нет вообще) = 1. Далее, проверим, что для любых t, s > О выполняется условие: P(Nt+s-Ns = 0) = e-Xt. Запишем аналогично предыдущему P(Nt+s — Ns = 0) = Р(нет скачков на полуинтервалах (s, t + s]) = k- 1 , . k ( I k — 1 k 1 \ = P( нет скачков на полуинтервалах ( s-\ 1, s-\—t V/s = 1, ..., m] = = TT P (нет скачков на полуинтервалах (s -\ 1, s Л—t j = l = fl-X—I-of— ]] —» e~xt при m —> oo в силу б). Sk+i ~ Ехр(Л) r£ 0 Hk Рис. 2.21 Введем теперь времена пребывания: S0 = sup[f >0: jV(/) = 0], 5, =sup[/>0: jV(50 + /) = 1] и т.д. Тогда моменты времени, в которые процесс совершает скачки, равны 5о (=Н\, время достижения состояния 1), 5о + 5i (= Яг, время достижения состояния 2), 5о + ... + 5*_| (=Нк, время достижения состояния k),
§2.3. Процесс Пуассона *, * 5о Н Ь 0 Н\ Нч Нз время Рис. 2.22 Рассмотрим попарно непересекающиеся полуинтервалы [t\,t\+h\), ..., [tn, tn + hn), 0 = to < t\ < t\ + h\ < t2 < ... < tn-\ + hn-\ < tn, и вероятность P(/i <//, </,+Aj tn<Hn^tn + hn) = = P(N(ti) = 0, N(tx + A,) - N(tO = 1, N(t2) - N(ti + Ai) = 0, ... ..., N(t„) - N(tn.i + A„_,) = 0, N(tn + hn) - N(tn) = 1) = = P(N(t) = 0) P(N(ti + A,) - N(tt) = 1) P(N(t2) - N(ti + A,) = 0) x ... ... x P(N(tn) - Ntfn-i + A„_,) = 0) P(W(f„ + hn) - N(tn) = 1) = = e~x'' (XA| + о(А,))е-Х((2-''-Л|)... e_x</--'—I_A—1>(ХЛЯ + о(А„)). Разделим ее на Ai x ... x hn и перейдем к пределу при Л*. —»0. Тогда левая часть сходится к совместной плотности распределения /я, ,...,#„ (tfi, ..., tn) и правая часть сходится к (e_x/lX)(e_X('2_/,)X)... (е~^'п~1"-^Х). Поэтому /н нМи ...,ta) = П(Хехр[-Х(^ - **_,)])1(0 </,<...< *я) = = X"e-x'"l(0<<i <...<*„). *=1 Теперь Sq = H\, S\=H2 — H\, ..., 5n_i = Я„ — Нп-\. Замене переменных ■S0 = ^1, S\=t2 — t\, ..., Sn-\ =tn — tn-\ соответствует якобиан d(s0, ■.-, sn-i) _ | _ 9(/i, ..., <n) d(tu..-,tn) d(s0, ..., s„-i)' где " — якобиан обратного преобразования. Поэтому сов- o(So, ..., Sn-[) местная плотность распределения имеет вид fs0 S„_,(«0. ■•-. Sn-\)=fHly...,Hn(s0, S0 + S\, ..., S0 + ... + S„_i) = n-\ n-\ = H(ke~^) = HfSi(Sk). k=0 0
Глава 2. Цепи Маркова с непрерывным временем Мы видим, что св. So, Si, ... имеют распределение Ехр (X) и независимы в совокупности. Отсюда следует п. в). S/-1 Si so ^-— -i Е> Рис. 2.23 Наконец, докажем, что в) =Ф а). Нам нужно установить следующее равенство: P(N{ti) - Л/(0) = /,, N(t2) - ЩЬ) = /2, . • •, N(t„) - N(tn-i) = /„) = n(k(tk - tk-x))'" -\t , »\ ————— e " (независимость приращении). Естественно применить индукцию по п. На первом шаге п = 1, и мы полагаем t\ = t,l\= I. При Я/ = So + ... + S/_i запишем P(N(t) = [) = P(S0 + ... + S/_, < t < S0 + ... + S/_, + Si) в силу п. в) и используем тот факт, что Я/ ~ Gam(/, X), где /я,(х) = \lxl~le~Xx/(l - 1)!, *>0: / t P(N(t) = l)= ffHl(x) P(S,>t-x)dx=f ^le-**e-M<-*> dx = о о о х'_1^=^е-А'. (2.3.6) (/-1)!УЛ /! о Далее, чтобы сделать шаг индукции от п. — I к я, достаточно доказать, что P(N(tn) - N(ta-i) = ln I N(tk) - N(tk-i) = lk, UH«-1) = = P(N(tn -*„_,) = /„) = ^"^"-'^"e-^-'"-1', (2.3.7)
§2.3. Процесс Пуассона но это верно в силу свойства отсутствия памяти у времени пребывания 5/,+...+,„_, ~Ехр(Х), откуда следует п. а). □ г- 1 5;,+. ..+;„_, , tn-l Рис. 2.24 _1 tn Сравнение упомянутых определений а)—в) приводит к следующему интуитивному представлению пуассоновскои вероятности как интеграла по последовательным скачкам: для любых t, s > О и п, i = 0, 1,... справедливы соотношения ^fe-^=p0n(t) = P(Nt = n) = = рц+пЦ) = P(Nl+s -Ns = n\Ns = i) = P(Nt+s -Ns = n) = i i i = е~х'Хл / J ... /*!(/, <...<tn)dtndtn-\...dt2dtx = 0 0 0 = [[...[ Xexp(-Xfi) x 0 0 0 первый скачок между 0и1в момент t\ х (Xexp[-X(*2-^i)]) x...x (Хехр[-Х(*„-/„_|)]) x 4 v ' v ' второй скачок между 0 и t в момент /г п-й скачок между 0 и / в момент t„ х ехр[-Х(* - *„)] dt\dt2...dtn-\dtn. (2.3.8) 4 v ' скачков между /„ и t нет Альтернативное представление дается в терминах времен Sk = t — tk между точкой /г-го скачка ^ и t: t Si Sn-| (^-e~Xt =//"■■• / Xexp[-X(/ - 5,)] x (Xexp[-X(5l - s2)]) x ... 0 0 0 ... x (Xexp[-X(s„_i -5„)]) x exp(-\sn)ds„dsn-i ... ds2ds\. (2.3.9)
Глава 2. Цепи Маркова с непрерывным временем Другой полезный факт состоит в том, что процесс ПП(Х) (N) ) можно получить из ПП(1) (N) ') с помощью замены времени: (</)-(<')• (2-З.Ю) I 1 I 1 1 1—о 0 t, h '" tn-i t„ t Рис. 2.25 S] S2 Рис. 2.26 Использование этих утверждений позволяет установить ряд дополнительных свойств ПП(Х). С другой стороны, мы увидим далее, как попытки обобщить эти свойства приводят к более общим моделям. Будучи ц.м.н.в., пуассоновский процесс обладает марковским и строго марковским свойствами. Специфика пуассоновского процесса позволят придать им следующую специальную форму. Теорема 2.3.4. Марковское свойство процесса ПП(Х) состоит в том, что для любого t > 0 прошлое (Nz: 0 ^ -с < t) не зависит от будущего {Nt+S - Nt: s > 0). Кроме того, (Nt+S - Nt: s > 0) ~ (jVs, s >0). Иными словами, для любого t > 0 процесс после момента времени t, отсчитываемый от уровня Nt — это процесс ПП(Х), независимый от прошлого (jVt : 0 ^ х < t). Заметим, что св. 5/v</) = Hn(i)+\ — ##(/) (время пребывания, покрывающее точку t) не имеет показательного распределения (этот парадокс обсуждается ниже).
§2.3. Процесс Пуассона Теорема 2.3.5. Строго марковское свойство для момента остановки Hk {времени k-го скачка), состоит в том, что прошлое (Ns: 0 ^ s < Hk) не зависит от будущего (Nh^+s — k: s > 0). Кроме того, {Nnk+s — k: s > 0) ~ (Ns, s > 0). Иными словами, процесс, наблюдаемый после момента Hk и отсчитываемый от уровня k, — это процесс ПП(Х), независимый от прошлого (Ns: 0 ^ s < Hk). Доказательство теоремы 2.3.5 опускается; заметим лишь, что здесь важную роль играет свойство отсутствия памяти у показательного распределения. Поучительно сравнить графически марковское и строго марковское свойства процесса ПП(Х) (Nt): марковское свойство: Vt > 0 строго марковское свойство: УЛ =1,2,... (N/, 0 ^ / ^ т) (прошлое) (Nt, 0 ^ t ^ Hk) (прошлое) не зависит от будущего (yVT+(-iVT, г^0)~ПП(Х) (NHk+l-k, г^О)-ПП(Х) HN,+\ - t ~ Ехр(Л) 5/v, = W/v,+i — Hn{ Рис. 2.27 Markov and Strong Markov Private Property5 (Из серии «Фильмы, которые не вышли на большой экран».) Следующий результат касается суммы независимых пуассоновских процессов. Теорема 2.3.6. Пусть (N\) и (N2t) — два независимых процесса ПП(Х) и ПП(ц). Тогда для Nt = N\ + N2, выполняется соотношение (Л/,)~ПП(Х + ц). (2.3.11) 5Игра слов: по-английски property — свойство, а также собственность, имущество.
Глава 2. Цепи Маркова с непрерывным временем Доказательство. Оба пуассоновских процесса (Л/{) имеют независимые приращения. Значит, то же верно и для (Nt). Тогда обратимся к определению б): 1=1,2 0, если и только если N't+h — N\ = 0, i = 1, 2, 1, если и только если одно Л/{+Л — jVJ = 0, другое = 1, > 2 в остальных случаях. 0 : (1 - ХА)(1 - цА) + o(h) = 1 - (X + ц)А + о(А), 1 : ХА(1 - цА) + (1 - ХА)цА + о(А) = (X + ц)А + о(А), >2: о(А). Значит, (/V/) ~ПП(Х + ^). П Сложение пуассоновских процессов можно также описать как операцию взятия суперпозиции: мы подсчитываем в нужном порядке все скачки нескольких процессов. «Обратной» операцией является «прореживание». \-р \-р \-р \-р р I XXX X сМ л0 Рис. 2.28 Теорема 2.3.7. Пусть (Nt) ~ ПП(Х) и О < р < 1. Пусть (Mt) — это прореженный процесс (Nt), такой что каждый скачок разрешается с вероятностью р и отменяется с вероятностью 1 - р. Тогда (М,)~ПП(рХ). (2.3.12) Доказательство. Используем определение в): рассмотрим времена пребывания Sq, Sf, ... процесса (Mt); п.ф.м. имеет вид EesS° = E[E(exS° | число отмен)] = оо сю = 5^(1 - p)kp E(ei5°" | число отмен = k) = ^0 - p)kp{EesS")k+i = k=0 _ YVn - n\^\k+i - -Е- (l-p)X/(X-s) _ РХ pl^VL р,\-з) 1 -р 1 _(i-p)X/(X-s) pX-s"
§2.3. Процесс Пуассона Отсюда немедленно выводим, что Sff ~ Ехр(рХ). Аналогично S^, S^,. • • ... ~ Ехр(рХ). Независимость очевидна. Значит, (Mt) ~ ПП(Хр). П Подводя итог, отметим, что обе операции (сложение независимых пуас- соновских процессов и прореживание ПП(Х)) не выводят из класса пуас- соновских процессов; этот факт играет важную роль в ряде приложений; см. ниже. Теорема 2.3.8. Пусть (Nt) ~ ПП(Х). Тогда для любых s, t>0 и т = = 1, 2, ... при условии, что Nt+S - Ns = m, точки скачков J\ —J\{s, t), ..., Jm=Jm{s,t) в интервале (s, s + t) имеют совместную плотность распределения /у, y,„(*i, ..., хт\т скачков на интервале (s, s + t)) = = — \(s<xl<...<xm<t + s), (2.3.13) т.е. «условные» случайные величины (J\, ...,Jm\m скачков на интервале (s, s +1)) можно получить, бросая т раз н.о.р. точки с равномерным распределением ~ U(s, s + t) на интервал (s, s + t) и располагая их в порядке возрастания. В частности, при условии т = 1 (единственный скачок) точка распределена как ~ U(s, s + t). Доказательство. Используем определение б): для любых s<X\ < < ... <хт < t + s и малых hi, предполагая, что хо + ho — s, имеем Р(х,- < Ji < Xi + hi, 1 ^i^m; всего т точек скачков в интервале (s, s + t)) = = P(NXt-Nx„_l+ht_l =0,NXi+hk-NXk = \, \^k^m,Nl+s-NXm+hm =0) = = e-X(JC,-s)(XA,)e-X(jcs-JCl-Al)(XA2) x ... x (Х/гт)е-Х('+*-*"'-/Ч hi hm 1—I—«-I l-*J 1 D» 5 X\ ... Xm S ~\- t Рис. 2.29 Далее, P(всего т точек скачков в интервале (s, s + t)) = = P(Nl+s-Ns=m) = ^re-Xt. Разделим на h\h2-..hm и перейдем к переделу при /г,- —»0: /у, y„,(*i, ...,хт\ всего т скачков) = ^.
Глава 2. Цепи Маркова с непрерывным временем Если же \(s < х\ < ... < хт < s + t) = О, то fj jm(x\, ..., хт\ всего т скачков) = 0. □ Пример 2.3.9. Кайры и тупики (это виды птиц) прилетают на гнездовье на утес. Прибытия двух особей независимы, а также независимы прибытия особей на непересекающихся интервалах. Замечено, что на любом малом интервале длины h вероятность того, что не прилетит кайра, равна 1 — Х/г + о(/г), а одна кайра прилетает с вероятностью Х/г + о(/г). Соответствующие вероятности для тупиков равны 1 — [ih + o(h) и [ih + o(h). Найдите распределение общего числа птиц, прилетевших в интервале времени длины t. Какова вероятность того, что первые три прибывшие птицы будут тупиками? Предположим, что за время t прибыла ровно одна кайра и один тупик. Какова вероятность того, что обе птицы прибыли до момента s, где s ^ г? Какова вероятность того, что первым прилетит тупик? Решение. В силу независимости Р(на интервале (/, t + h) птиц нет) — (1 - Х/г + о(А))(1 -\xh + o(h)) = 1 - (X + y)h + o(h). Также Р(на интервале (/, t + И) ровно одна птица) = (1 — Х/г + o(h))(y.h + o(h))+ + (Х/г + о(/г))(1 - \ih + о(/г)) = (X + ц)А + о(/г), и Р(на интервале (/, t + h) две или более птиц) — o(h). Пусть (Zt) — суперпозиция двух процессов, a Pij(t) означает P,(Z( =/'). Положим v = X + ^i. Вновь в силу независимости имеем poo{t + h) = poo(00 - v/г + o(h)), откуда р00(0 = -vp0o(0. и, значит, poo(t) = e_v' (поскольку роо(0+) = !)• Аналогично Poi(t + h) = po.-i(0(vA + o(A)) + p0i(t)(l - v/г + o(h)), откуда следует, что Poi(t) = -AP0i-\(t) - Poi(t)), и, значит, poi(t) = e_v'——. Таким образом, (Zt) — пуассоновский процесс с интенсивностью X + ^i.
§2.3. Процесс Пуассона Далее, Р(на интервале (t, t + h) прилетел тупик | на интервале (/, t + h) прилетела одна птица) = ут \- o(h). Поэтому Р(первые три птицы тупики) = (;-*-—j , поскольку времена прибытия не имеют значения. Теперь Р(обе птицы прилетят до момента s | одна птица каждого вида прилетела до момента 0 = e-^tf2^) = fi' Наконец, Р(тупик прилетит первым | одна птица каждого вида ,. e-v'(v/)2Xn/(v2) 1 _ прилетела до момента 0 = e-v>(vf)22X^/(v2) = ~2- □ Перейдем теперь к анализу асимптотических свойств пуассоновского процесса. Он приведет к важной концепции взрыва ц.м.н.в. Теорема 2.3.10. Для ПП(Х) (Л/<) выполняются соотношения Л/,/со и Нп = inf[/> 0: Nt = п] /со п.н., т. е. с вероятностью 1 lim Nt — lim Hn — со. 1 7взр = Yl Sk Рис. 2.30 Доказательство. Начнем с времен достижения Нп =5о + .. . + 5„_ь напомним, что 5, ~ Ехр (X) и н.о.р.с.в.. Значит, Hn+i > Нп, т. е. Нп / по п.
Глава 2. Цепи Маркова с непрерывным временем Таким образом, либо Нп/са, либо величины Нп остаются ограниченными. Мы хотим проверить, что Р(#„ остается ограниченным) = Р ( Y^S* < оо I = 0. оо Событие ) J^ Sk <оо\ означает «взрыв». U=o J Удачное соображение, быстро приводящее к результату, состоит в следующем. Положим оо К TB3p=)Sk= lim } Sk= lim Нк+\ *—' К—>оо *—' К—>оо А=0 4=0 и используем п.ф.м. ЕееГвзр при 0 = — 1. Формально св. e~Ts3' определяется как предел lim exp К—оо -£5*KlmTOIKs>- если Твзр = оо. Следовательно, математическое ожидание Ее Гвз>> можно понимать как Е[е~т^\(Твзр < оо)]. Ее ^ = lim Е ( ТТ е k=0 J 4=0 Сходимость монотонна, св. е~т'3' заключена между 0 и 1 и равна 0, взр „п„ СГ/.-7™ I n взр С другой стороны к -s„ k=0 в силу теоремы о монотонной сходимости (можно также использовать теорему об ограниченной сходимости, известную как теорема Лебега о мажорируемой сходимости). В силу независимости св. So, S\, ..., имеем <П^)-П^-(т)'- а эта величина стремится к 0 при К —► оо. Поэтому Ее-Г«р = 0. Заключаем, что с вероятностью 1 св. e~Ts3' равна 0, откуда следует, что Твзр = оо, что означает расходимость ряда ^S* и то, что Нп / оо: h Р( £S* = 0°) =Р(п|™оЯп = 0О) = 1-
§2.3. Процесс Пуассона Затем аналогично либо Nt /"со, либо Nt остается ограниченным (т. е. не меняется после некоторого случайного момента времени). Иными словами, событие {N/ ■/* со} совпадает с событиями {Nt+S = Nt Vs > 0 для некоторого t>0} = I У^ Lk < сю \ ■ Здесь Lk = Nk+\ — Nk — это приращение на единичном временном интервале [k, k + 1); мы знаем, что Lk ~ Ро(1) и св. Lk независимы, k = О, 1, ... п.ф.м. равна EeeL* = ехр(ее - 1). Аналогично положим U = Y^^k и используем п.ф.м. Ее~и. Рассуждая, к как и ранее, получим Ее~и= lim [ехр(е-'-1)]* = 0, К—>оо откуда следует, что с вероятностью 1 св. е~и равна 0 и U = oo, что означает расходимость ряда ^L* и то, что Nt / оо. П. к Завершим данный параграф кратким обсуждением так называемого парадокса инспектора для ПП(Х)(Л^/). Рассмотрим длину S/v,+i интервала пребывания, содержащего момент времени t. Она имеет следующую функцию распределения: P(Sjv,+i <*) = 1 -(1 +\min[t,x])e-'Kx, х^О, (2.3.14) со средним значением оо ESm+l = /(1 +Xmm[t, x])e-udx = (2 - е-и)/\. (2.3.1 5) Ключевым моментом здесь является тот факт, что S#,+i ~ min[^, S~] + + S+, где S± ~ Ехр(Х) и св. S± независимы между собой. В частности, для хвоста функции распределения получаем урезанную показательную форму P(mm[t, S~] > у) = 1(0 < у < t)e-X!l Vy > 0, (2.3.16) откуда оо t Emm[t, S~]= fp{m\n[t,S-]>y)dy= fe~'kydy = ^-(1 - e~Xt).
Глава 2. Цепи Маркова с непрерывным временем Это приводит к формуле свертки X Fsm{x) = P(SNW ^х) = JP(min[f, S~]^x- s)(ke~Xs)ds = о {x-t)+ x = X f e'^ds + X f (1 - e'^-^e-^ ds = О (лг-0+ X X = X f e-Xs ds - Xe~u f ds = 1 - e~u - Xe~u[x - (x - t)+], О (лг-0+ где (x - t)+ = max[x — t, 0]. Поскольку x — (x — t)+ = min[je, t], получаем требуемый результат. Л/(/) + 1 jL 1 о / Рис. 2.31 Находим математическое ожидание: ESm = Е mm[t, S~] + ES+ = ±(1 - e~Xt) + I = Ц^, откуда следует соотношение (2.3.15). Следует отметить, что при t —» со для хвоста функции распределения получаем асимптотику следующего вида: P(Sm>x) = (\ +Xmin[/, x])e-Xx^(l +\x)e~'kx, x>0. (2.3.17) Правая часть в формуле (2.3.17) есть хвост функции распределения закона Gam(2, X). Соответствующая плотность распределения имеет вид /оат(2.Х)М=Х2*е_Х*1(*>0). Иными словами, св. S/v<o сходится по распределению к сумме двух н.о.р.с.в. с распределением Ехр(Х). Понятно, что одну из этих величин можно отождествить с S+, а другую — с S". Отметим также, что для 0 < t < оо выполняются неравенства е-и < (1 + Xmin[f, х})е-и < (1 + Хх)е~'к\
§2.3. Процесс Пуассона т. е. вероятности хвостов удовлетворяют соотношению P(S+ ^ х) < P(Sm >х)< P(S+ +S~>x), x> 0. В этом случае говорят, что св. S/v</) стохастически больше, чем св. S+, но стохастически меньше, чем S- + S+. Парадокс инспектора привлекал к себе значительное внимание в литературе. Возможно, наиболее впечатляющими являются попытки использовать его для поиска НЛО и внеземных цивилизаций. Пример 2.3.11. 1. Пусть (Xt)t^o и (У/)/>о— независимые ПП с ин- тенсивностями X и у. соответственно. Покажите, что процесс (Xt + У/)^о также является процессом Пуассона, и найдите его интенсивность. 2. Некий наблюдатель полагает, что у процесса Пуассона с интенсивностью X первое время пребывания больше, чем все последующие времена пребывания. Сколько времени в среднем понадобится, чтобы этот наблюдатель удостоверился в ошибочности своего утверждения? Решение. 1. Если (Xt) и (У/) — независимые процессы Пуассона с ин- тенсивностями X и (i, a Z/ = Xt + У/, то для процесса (Zt) выполнены условия а) и б). Далее, л P(Z, = п) = J2P(X< = k,Yt = n-k) = = ± РОГ, = *) Pffi = .-*) = £ ^^е-^' = А=0 4=0 = е-<х+ц)/ 1 у я! (Х/)*(и0л-* = «Х + ^)%-(Х+^ л! ^^ ft!(« - ft)r ч п\ Следовательно, Z( является ПП(Х + (а). 2. Наблюдатель зафиксировал, что время пребывания в состоянии 0 равно J\; чтобы удостовериться в ошибочности его утверждения, требуется продолжать наблюдения, до тех пор пока не будет зафиксировано время пребывания с длительностью, по крайней мере, равной длительности первого времени пребывания. При условии, что J\ —s, условное среднее время до появления такого события равно s + ET(s), где T(s) = \rf{t>s:Nt = N,-s}. Величина ET(s) удовлетворяет уравнению E7"(s) = se-Xs + f da(a + E7"(s))Xe-Xa,
Плава 2. Цепи Маркова с непрерывным временем полученному усреднением по первому скачку. Следовательно, E7Xs) = (eXs- 1)/Х. Тогда среднее время до момента, когда будет зафиксировано время пребывания не меньше /ь равно оо о Пример 2.3.12. 1. В каждом из следующих случаев заданы пространство состояний /, а также ненулевые интенсивности перехода q^i ф j) Ц.М.Н.В. Определите, в каких случаях цепь взрывается: а)/={1,2, 3, ...}, qiJ+i=i2, iel, 6)/ = Z, qlJ+1 =</,-,,-i =2', / €/. 2. Дети приходят покачаться на качелях согласно процессу Пуассона с интенсивностью 1. Первоначально нет ни одного ребенка. Прибывший первым ожидает, когда придет второй ребенок, и затем они начинают качаться на качелях. Когда приходит третий, они все решают пойти на карусель. Цикл затем повторяется. Покажите, что число детей, приходящих покачаться на качелях, эволюционирует как ц.м.н.в. и найдите Q-матрицу этой цепи. Найдите вероятность того, что в момент времени t на качелях нет ни одного ребенка. Таким образом, получите тождество 2^е (Зп)! 3 + 3 51 2 V" л=0 Решение. 1. а) Худший случай — это тот, когда ^0=1. При этом п-е время пребывания Jn ~ Ехр(я2). Следовательно, Е(5»=5>-=£;?<00' ляп и цепь взрывается. б) Цепь скачков является простым симметричным случайным блужданием на Z, которое возвратно и попадает в состояние 0 бесконечно часто. Времена пребывания при последовательных попаданиях в 0 обозначим Т\, Тч,... Тогда св. 7,,~Ехр(2), независимы и Р(^7', = сю) = 1. Время взрыва i не меньше ^ 7}, следовательно, цепь не взрывается. i 2. Ср. с решением примера 2.2.6. Так как приход детей следует процессу Пуассона, число детей на качелях представляет собой одно из состояний
§2.4. Неоднородный процесс Пуассона ц.м.н.в. с тремя состояниями и Q-матрицей вида /-11 0\ Q=[ 0-1 1 . \i о -\) Чтобы найти роо(0. вычислим /х+1 -1 0 \ det(xl - Q) = det 0 х + 1 -1 = (х+ I)3 - 1 = я(>? +3х + 3). V -1 0 *+1/ Таким образом, собственные числа матрицы Q — это 0 и — ^ ± -^-/. Применяя стандартный метод диагонализации, находим Роо(0 = А + е~1' (в cos ^-t + С sin ^), где А, В, С — некоторые постоянные. Заметим, что 3=РооМ = Л, 1=роо(0) = Л + В, -1 = «700 = Роо(0) = -|в + ^С, откуда получаем В = 2/3 и С — 0. Заключаем, что ... 1,2 _з, v/3, Роо(0 = з +зе 2 cos-^-/. С другой стороны, поскольку на качелях никого нет в точности тогда, когда общее число прибывших кратно 3, j3n оо л=0 что приводит к требуемому тождеству. □ § 2.4. Неоднородный процесс Пуассона ... and since a woman must wear chains, 1 would have the pleasure of hearing 'em rattle a bit. ... и так как женщина должна носить цепи, мне было бы приятно слышать их легкий звон. Г. Фаркухар (1678—1707), ирландский драматург Понятие процесса Пуассона чрезвычайно плодотворно и приводит к многочисленным обобщениям.
Глава 2. Цепи Маркова с непрерывным временем Вначале рассмотрим неоднородный процесс Пуассона (НПП). Этот процесс получают, обобщая определения а) (независимых пуассоновских приращений) и б) (инфинитезимальных вероятностей). Удобно начать с характеристики б): здесь просто заменяют постоянную интенсивность X интенсивностью X(t), зависящей от времени: Р(на интервале (t, t + h) нет скачков) = 1 - \{t)h + o(h), Р(на интервале (t, t + h) один скачок) = \{t)h + o(h), (2-4.1) P(^ 2 скачков на (t, t + h)) = o{h). Сохраняют, конечно, предположение о независимости приращений на непересекающихся временных интервалах. t t + h Рис. 2.32 Характеризация а) может быть также немедленно перефразирована в следующем виде: для любых s, t > 0 число скачков на (s, t + s) ~ Po(A(s, t + s)), (2.4.2) и числа скачков независимы на непересекающихся интервалах. При этом s+t A(s, t + s) = / Х(и) du (ранее ХМ (s > 0)) = s = Е(число скачков на (s, s + t)). Мы предполагаем, что функция A(s, t) конечна для любых 0 < s < t < со. 1 1 1 5 A(s,s + t) ; s + t Рнс. 2.33 Назовем такой процесс НПП(Х(^)). Формальное определение таково. Определение 2.4.1. Неоднородный процесс Пуассона с интенсивностью Х(^), t > 0, — это неубывающий процесс (Nt, t ^ 0) со значениями в Z+ и с No — 0, который можно охарактеризовать двумя эквивалентными способами:
§2.4. Неоднородный процесс Пуассона а) как процесс с независимыми приращениями N(tj+i) - N(tj) ~ ~ Ро(Л(/у, ^+i)) на непересекающихся временных интервалах: V0 = ^о < < t\ < ... < t„ и 0 = г'о. М. • ■ ■. 'л G Z+ выполняется равенство Р(М, - N,0 = /, - io N(tn) - N(ta-i) = in - /„_,) = П W 7/ + ,■ м exp(-/X(«)d«), если О </,<...</„, О в противном случае; (2.4.3) б) как процесс с независимыми приращениями на непересекающихся временных интервалах, имеющий следующее асимптотическое поведение при h —>0+: Р {Nt+h - N, = 0) = 1 - Х(/)А + о(А), Р (Nl+h -Nt = l) = \(t)h + o(h), (2.4.4) P(Nl+h-Nt>l) = o(h). 0 X(t)h t t + h Рис. 2.34 Как и в однородном случае, Р обозначает распределение НПП (Х(г*)). Характеризация процесса НПП (Х(г*)) посредством определения в) не столь прямолинейна и естественна и потребует более существенных изменений. Например, времена пребывания процесса НПП не являются независимыми и их распределения не являются показательными. Действительно, Vs > 0 и п ^ 1 условная вероятность P(S„ = оо | Нп = S0 + ... + S„_, = s) = е-л<*.°°>, (2.4.5) где оо A(s, оо) = / Х(и) du, s т. е. если A(s, оо) < оо, то процесс будет находиться в «замороженном» состоянии с положительной вероятностью ехр[—Л(«, оо)]. Это означает, что с положительной вероятностью происходит только конечное число скачков на всем временном интервале (0, оо). (Такого не случается с процессом ПП(Х).)
Глава 2. Цепн Маркова с непрерывным временем Далее, условная плотность распределения e-\{s,s+x) /s„|//„_, (х | //„-i = s, Sn<oo) = \(s + x){_ e_A{soo), *>0; (2.4.6) если A(s, oo) = 00, то вероятность P(S„ < oo) = 1 и знаменатель 1 — е-Л(*.°°) = = 1. В этом случае неравенство Sn < ею можно исключить из условия. Легко видеть, что если локальная интенсивность X(t) предполагается дифференцируемой по t, то плотность распределения /s„|w„_, не зависит от s (например, •^-fs„\Hn^,(x\s) = 0) тогда и только тогда, когда Х(и) = Х (т.е. процесс НПП является процессом ПП(Х)). Процесс НПП является примером неоднородной ц.м.н.в., у которой интенсивности перехода, а, следовательно, вероятности перехода зависят от времени. Точнее, вероятность перехода P(Nt+s = i + k\Nt = i)=P0k(tJ + s)=(-^-^^exp(-A(t,t + s)). (2.4.7) Диаграмма, задающая НПП (K{t)), обычно выглядит так: 1 2 п-\ п • —с» •—с» • • ■ ■ •—с» • • • • X(t) A(/) А(/) Рис. 2.35 Если A(s, s + t) = oo, то может происходить накопление точек скачков на интервале (s, s + t) (взрывы). Мы исследуем такие «патологические» случаи более подробно для других классов ц.м.н.в. Пример 2.4.2. Пожарная сигнализация в здании университета в Мар- тингальном тупике включается в случайные моменты времени: Р(сигнализация срабатывает на интервале (и, и + h)) = \{u)h + o{h)\ интенсивность Х(и) может зависеть от и. Пусть Nt — число сигналов тревоги до момента времени t. Вводя обоснованные дополнительные предположения, покажите, что вероятности Pi{t) = P{Nt = i) удовлетворяют уравнениям Ро (0 = -Х(0/>о(0, P(-(g = X(Ofo-,(0-p,-(0). '>i-
§2.4. Неоднородный процесс Пуассона и проверьте, что Nt ~ Ро(Л(/)), где Л(0= f\(u)du. о Решение. Предположим, что No — Q,X является непрерывной, и W ^ О, « = 0, 1, ..., и А\0: P(^+ft - Nt = О1N, = i) = 1 - Х(/)А + o(h), P(Nt+h -N, = \\N, = i) = \(t)h + o(h), и P(Nt+h-Nt>l\Nt = i) = o(h). i-l i —1-Х—I 0 t t + h Рис. 2.36 Тогда Pi{t + h) = P(Nt+h = i) = P(Nt = Nt+h = i) + P(Nt = Nl+h-l=i-l) + o(h) = =pi(t)P(Nl+h-Nl = 0\Nt = i) + pi-i(t)P(Nt+ll-Nl=l\Nt = i-l) + o[h) = =p,(t)(l-\(t)h) + Pi-i{t)\(t)h + o(h) \(Pi(t + A) - Pi(t)) = -X(t)(Pi(t) - />,-_, (Q) + o(l). При Л —> 0 получаем Pj(t) = —X(t)(pi(t) — pi-\(t)). Кроме того, p,(0) = 8,o- По индукции находим решение Р.-(О = Здесь (A(OL-A(0 / A(s, t)= f\(u)du. s Действительно, (Nt) ~ НПП (X(^)), поскольку приращения N/+s — Ns ■Po(A(s, t)) и независимы на непересекающихся интервалах. □ •s '
Глава 2. Цепи Маркова с непрерывным временем Пример 2.4.3. Полезно иметь в виду, что процесс НПП(Х(^)) может быть получен из процесса Пуассона с постоянной интенсивностью 1 с помощью замены времени i /н*Л(0, /)= f\{u)du. (2.4.8) о Это означает следующее. Предположим, что \{t) — это непрерывная по- оо ложительная функция такая, что fk(t)dt = oo. Пусть (Nt) является процессом ПП(1). Положим ° Тогда (Wf10) является процессом НПП(Х(/)). В частности, процесс ПП(Х) получаем в результате замены времени 1i-> X/. Самый простой способ проверить этот факт — использовать инфини- тезимальное определение б): образ процесса ПП(1) при указанной замене времени имеет независимые приращения на непересекающихся интервалах, и для этого процесса вероятности отсутствия скачка и единственного скачка на [t, t + А) будут соответственно равны 1 — \(t)h + o(h) и \(t)h + o{h) при А \ 0. □ Пример 2.4.4 (процессы рекордов). НПП играют важную роль в различных приложениях (физике, технике, биологии), когда распределение времени жизни зависит от текущей позиции на временной оси. Рассмотрим здесь одно приложение НПП, касающееся рекордных значений, или рекордов. Пусть Х\,Х%,... — последовательность н.о.р.с.в. с непрерывной строго возрастающей функцией распределения F. Назовем Хп рекордным значением, если Х„ >тах{Лгь ..., Хп-\]. Тогда последовательность рекордных значений образует неоднородный процесс Пуассона; найдем его интенсивность. Рассмотрим сначала функцию распределения случайной величины F(Xi):V0<a;<1 FF{Xl)(x) = P(F(Xl)^x) = P(X^F-](x)) = F(F-l(x)) = x, (2.4.9) где F~i —функция, обратная к F (которая существует при введенных предположениях относительно F). Тогда — ln(l — F(X\)) ~Exp(l). Пусть теперь V% — это последовательные рекордные значения: цР = 0, Vf = Xi, V£ = £X41(X2>... ,**_,< *,<**) и т.д. (2.4.10)
§2.4. Неоднородный процесс Пуассона Рассмотрим процесс рекордов (Rt) Я, = число {О 1: V^t}, t>0. (2.4.11) Схема, по которой получается новое значение рекорда после того, как уже имеется последовательность, скажем п предыдущих рекордных значений Х\ < ... <хп величин Х\, ..., Xk„, такова: мы либо сразу имеем Хь„+\ > хп, либо появляется некоторое число т^ 1 неудачных попыток Х^п+\, ..., Xkn+m, а затем Х^+т+\ > хп. Следовательно, Р (новый рекорд > хп+у\ предыдущие рекорды х\ < ... < хп) = = Y^F(Xn)m(l-F(xn+y))=l-/_{x;+f, независимо от значений п и xi, ..., xn-i- В частном случае, когда F(x) = 1 — е~х, находим для л-го времени пребывания S% = V% — V£_,: P(Spn>y\V^x=x,...,Vf=sl) = e-:^- = e-y. Таким образом, S£ ~Exp(l) и не зависит от Sq, ..., 5^_(. Следовательно, (Rt) является процессом ПП(1). В общем случае, вышеуказанная вероятность равна х+у '1 = 0-(Мх+У)-М*)) = pYn (_ 1 - F{x) 1-FJX + у) _ е-Щх+у)-А(х)) х+у = ехр (- / X(s) ds J. Здесь Л(0 f(t) = fx(s)ds = -\n[l -F(t)] при Х(0 = - F(ty "о где f(t) = F'(t) — плотность распределения Х\. Следовательно, (Rt) является НПП с интенсивностью Х(/). Он превращается в стандартный процесс Пуассона если заменить Xi ~ F на — 1п(1 — F(Xj)) ~ Ехр(1). П Как уже упоминалось, важный вклад в теорию цепей Маркова (и более общих случайных процессов) был внесен Джозефом Дубом (1910-2004) и Уильямом Феллером (1906—1970), двумя знаменитыми американскими математиками. Оба, и Дуб, и Феллер, были родом из Восточной Европы, и оба были неординарными личностями с сильным чувством юмора и задатками лидеров. Приведем хорошо известную историю о появлении термина «случайная величина», постоянно употребляемого в этом томе, как и в томе 1. Термин «random variable» стал общепринятым в англоязычной литературе в конце 1940-х гг., когда Дуб и Феллер работали над своими монографиями, сформировавшими теорию случайных процессов, какой мы
Глава 2. Цепи Маркова с непрерывным временем знаем ее сегодня. (В англоязычной литературе термин «random variable» появляется в статье A. Winter «On analytic convolutions of Bernoulli distributions» (American Journ. Math. 1934. V.56. P. 659-663), но Кантелли использовал его по итальянски уже в 1916 г.) По версии Дуба, выяснилось, что он и Феллер используют различную терминологию в своих подготавливаемых к печати монографиях. Феллер утверждал, что все говорят «random variable» (случайная величина), а Дуб считал, что все говорят «chance variable» (стохастическая величина). Решение было принято с помощью стохастической процедуры: они подбросили монету, и Феллер выиграл. Однако Дуб назвал свою книгу «Stochastic processes» («Стохастические процессы»), а не «Random processes» (не «Случайные процессы») (видимо, их джентльменское соглашение не распространялось далее концепции одной величины). Отметим, что в российской (советской) вероятностной школе безболезненно использовался общеупотребительный термин «случайная величина», появившийся в середине 1920-х. Этот термин своеобразно объединяет обе англоязычные; возможно также, что, поскольку Колмогоров был общепризнанным лидером российского вероятностного сообщества, его вердикт был окончательным. Фамилия Дуба (Doob) это модификация слова «Дуб» (Dub), что на чешском и других славянских языках означает дерево дуб. Его отец сменил фамилию, когда семья эмигрировала в США, чтобы избежать шуток окружающих6. Широкой вероятностной аудитории Дуб запомнился, среди прочего, уникальным свойством избегать ошибок. Например, насколько известно авторам, в вышеупомянутом толстом томе «Стохастических процессов» не было найдено ни одной ошибки, даже ни одной опечатки, к удивлению русских переводчиков и прилежных читателей, известных своими способностями находить ошибки в любом предоставленном математическом тексте. Ситуация с Феллером иная. Его получившая заслуженное признание двухтомная монография «Введение в теорию вероятностей и ее приложения» содержала множество ошибок (большинство из которых было поправимо, и многие из которых были исправлены самим автором в позднейших изданиях). В 1960-х гг. эти ошибки привлекали внимание как авторов, так и читателей стенной газеты механико-математического факультета Московского государственного университета. Газета называлась «За передовой факультет»; она выпускалась (издание было прекращено в 1990 г.) с некоторой периодичностью и была проводником официальной политики партийного бюро, профсоюзного комитета и руководства факультета (из этих трех образований в настоящее время сохранилось лишь последнее). Статьи печатались на машинке, а иногда были написаны от руки и наклеивались на плотный белый ватман (предназначенный, в принципе, для технических чертежей и выпускаемый в больших количествах для нужд советской промышленности). В периоды политических оттепелей издатели газеты могли позволить авторам занять более свободную позицию, интерпретируемую как советская сатира и юмор. Официально это было направлено на «искоренение существующих преград на пути нашего прогресса», а неофициально на то, чтобы развлечь (и привлечь) читателей. И действительно, многие математики и ученые других специальностей редко пропускали случай прочесть свежий номер этой стенгазеты; многие часами добирались даже из Подмосковья (в общем, по нашим предположениям, газета была эквивалентом современного интернета). Некоторые статьи вызывали оживленные профессиональные или общественные дискуссии и имели значительное влияние на математическую жизнь в Москве. Одна серия (анонимных) статей появлялась в газете периодически, общим числом где-то дюжину раз или около того, и постоянное название пародировало риторику времен холодной войны, господствовавшую в советской прессе тех лет. Название звучало так: «Свежая ошибка американского автора», и статья всегда начиналась словами «Наши читатели обнаружили новую ошибку американского автора Феллера». В недавно вышедшей книге «Колмогоров в воспоминаниях учеников» (М.: МЦНМО, 2006) этот эпизод описывается несколько иначе, хотя два представленных рассказа также отличаются друг от друга. 6Dub по-английски означает тупой.
§2.5. Процессы рождения и гибели. Взрыв § 2.5. Процессы рождения и гибели. Взрыв And such a yell was there, Of sudden and portentous birth, As if men fought upon the earth, And fiends in upper air; Oh, life and death were in the shout... И сразу шум такой, Как будто злобна и слепа Воюет дьяволов толпа Там, в туче над землей! И смерть, и жизнь — всё в крике том... В. Скотт (1771—1832), шотландский писатель и поэт. Пер. С. Я. Маршака Другое полезное обобщение процесса Пуассона получают, предположив, что независимые времена пребывания распределены экспоненциально: S*~Exp(Xft), (2.5.1) где X/. ^ 0 зависит от состояния k. (Если Х^ = 0, то состояние является поглощающим и Sk = oo. Процесс прекращает развиваться, попадая в такое состояние.) Это обобщение приводит к процессу рождения с интенсив- ностями (kk) (обозначим его кратко ПР (X/.)). См. рис. 2.37. Л* • ■ 1 • ■ 2 • ■ k Рис. 2.37 Являясь ц.м.н.в., процесс ПР (X,) представляет собой процесс с пространством состояний Z+ и Q-матрицей Q = /-Ао Хо 0 0 ..Д 0 -Х| Х| 0 '• 0 0 -Х2 Х2 '■ V : ■• ■•/ (2.5.2) Можно ожидать, что, как и в случае процесса ПП(Х), матричная экспонента k=0 (JQf
Глава 2. Цепи Маркова с непрерывным временем будет задавать переходные вероятности этого процесса. Более удобно, однако, начать с определения, которое обобщает характеризации б) и в) процесса ПП(Х). Определение 2.5.1. Пусть Хо, Х|, ... ^ 0. Процесс рождения с интен- сивностями Хо, Х|, ..., выходящий из состояния /о G Z+, — это неубывающий процесс (Nf,t^0) с начальным состоянием Nq=Iq и значениями bZ+, который может быть охарактеризован двумя эквивалентными способами (ср. б) и в) теоремы 2.3.2): б) как такой процесс, что для любых t > 0 и / € Z+ при условии Nf = = / приращение Nf+h — Nf на будущем временном полуинтервале [/, t + h) условно не зависит от прошлого (Nf, 0 ^ s < t) и имеет следующие инфи- нитезимальные вероятности: Р (Nf+h = i | Nf = /) = 1 - Х,Л + o(A), p «+/, = *"-l-l| Wf = i) = hh + o(h), (2.5.3) p(yv/p+/1>/ + i|yvf = /)=0(/Z), где остаточные члены могут зависеть от /, но не зависят от t, или в) как процесс, который 1) находится в состоянии / ^ г'о в течение случайного времени ~ Ехр(Ху), где Ху > 0, независимо от предыдущей истории, а затем совершает скачок в /' + 1, или 2) остается навсегда в этом состоянии, если Ху = 0, независимо от предыдущей истории. Ясно, что эти характеризации дублируют свойства б) и в) процесса ПП(Х). В дальнейшем будем предполагать, что все X,- положительны (т.е. нет поглощающих состояний). В приложениях процесс ПР(Х^) часто представляет собой численность растущей популяции (например, живых организмов или физических частиц), скорость роста которой зависит от состояния, в котором процесс находится в заданный момент времени t. Sk ~ Exp(A*) /у I о О Рис. 2.38
§2.5. Процессы рождения и гибели. Взрыв Вернемся теперь к характеризации а). Заметим, что матрица Q должна приводить к верхней треугольной матричной экспоненте P(t) = e'®: -JQ- P(t) = е14 = I Poo(t) Po\(t) Po2{t) ... \ О Pn(t) pn(t) О 0 p22(t) О (2.5.4) / причем Р(0) = I. Чтобы отыскать эту матрицу P(t), вновь воспользуемся прямым и обратным уравнениями (аргумент t^O часто будем опускать). Уравнения для заданного элемента имеют вид {-"kjPii + \j-iPij-\ (прямое уравнение), -\iPij + hPi+\,j (обратное уравнение), Pij(0) = &ij, К/. (2.5.5) Предположение о том, что матрица P(t) имеет верхний диагональный вид, позволяет решить эти уравнения. Например, рассмотрим прямое уравнение. Здесь на главной диагонали Ри = -hpu, Pu(0) = 1 =*> pu(t) = e~hi, t > 0. На один шаг вверх от главной диагонали имеем Р/Л-1 = ~h+\Pi,i+\ + hpu, Pij+i(0) = 0 => А./+1 — Л; X, (е -ht _ _-хж/ ) = - е-^1(\ - e-^+.-M/)i х,- ф Х,-+1, t > 0. Л,+1 — Л/ Видим, что pjj+i(t) > 0 и стремится к \te~Xl, когда X,-, X,+i стремятся к X. Далее, на два шага вверх от главной диагонали имеем Рц+2 — -X,+2Pi,i+2 + h+lPi,i+l, Pi,i+2(0) = 0 = X, => Рц+2 = I Г- -h< e-A/+ h+\< X,+2 — X,- X;+2 — X, + | ■ + e -h U,4 ■ 1 + : 1 W+l / ■i+2 — X; X,+2 — X, X,^X,+1^X;+2^X,-, t^O. №)\-l И вновь pij+2(t) > 0 и стремится к ^-е х', когда X,-, X;+i, Х,+2 стремятся к X, и т. д.
Глава 2. Цепи Маркова с непрерывным временем Более элегантный способ решения прямого и обратного уравнений состоит в использовании характеризации в) из определения 2.5.1: запишем Pu(t) = e~'kit (нет скачков до момента времени t), (2.5.6) Piti+\(t)= / Х;е-Х,''е-Х'+|(/-',)^| (единственный скачок до момента t), о (2.5.7) t 1 pu+2(t)= J [\,е-Ъ{%+1е-^ь-Ые-Ъ+*-ици <t2)dt2dtx = \,e-hl,h+ie-1*+,l,*-il)e-1*+*v-t*)dtidt2 = о о t h -JJ> О О = / /x(e-x'('-S|)X,+1e-x'+l(S|-S2)e-x'+2S2ds2ds1 00 (в точности два скачка до момента t) (2.5.8) и т. д. Решение для /?,,<+« имеет вид t t Pu+n(t)= f... Jhe-^h+le-^^-^...\i+n-le-x^-^-'^x о о xe-h+"{t-'')l{ti<...<tn)dt„...dti = t h = I ••■ fhe~htl...h+n-\e~Xi+-,v"~tn-,)e-}ii^t-t")dti...dtn = о о = f... /'x,e-Xi('-s'...X;+n_1e-x'+"-'(s'-|-s")e-x'+"s"ds„...ds1 (в точности п скачков до момента t) (2.5.9) и т.д. При этом подынтегральное выражение как функция переменных 0< < t\... < t„ < t (времена скачков) удобно для проверки прямых уравнений, а как функция переменных si = t — t[ (времена от скачков до момента t, т. е. времена переходов) удобно для проверки обратных уравнений. Заметим, что в формулах (2.5.6)—(2.5.9) не требуется, чтобы выполнялось равенство Х,- = Х,+|. Но все же, когда X,- совпадают, получаем соотношения (2.3.8)—(2.3.9). Выборочные траектории ПР(Х*) показаны на рис. 2.39.
§ 2.5. Процессы рождения и гибели. Взрыв S\ , ri + n Г г + « — 1 J i+1 I 1 1 1 1 1 1—о 0 U t2 ... t„-i tn t Рис. 2.39 Пример 2.5.2. (ср. с примером 2.4.2). Сигнализация в другом здании университета на Квантовой улице отличается от описанной в примере 2.4.2: P(Ml+h-Mt = 0\Mt = i) = l-hh + o(h), P(Ml+h-Ml = l\M, = i) = 'klh + o(h), P(Mt+H-Mt>l\Mt = i) = o(h) W^O, i = 0, 1,..., Л\0. Найдите уравнения для вероятностей pi(t) — P(Mt = i). Проверьте, что при Х; = ои + р выполняется равенство m(t) = EMt = $-{eat-l) и найдите VarAf<. Решение. В предположении, что Mq = 0, (Mt) ~ ПР (X,) (интенсивности рождения X;), уравнения таковы: /?о = -Х0ро, Pi = h-[Pi-\-hPh i^l- При Xj = a/ + P процесс не взрывается. Рассмотрим п.ф.м. G(s,0 = J>P,(0, при этом G(l,t) = l (взрыва нет) и -^-G(s, t) = ^is'~lpj(t). Тогда ^G(s, t) = (s- l)PG(s, t) + s(s - l)a^G(s, 0
Глава 2. Цепи Маркова с непрерывным временем И ДЛЯ m(t) = ^-G(S, t) получаем s=l Отсюда следует, что m(t) = Наконец, рассмотрим m(0 = am(f)+P, m(0) = 0. P(g* - О v(t) = EMt(Mt-\) = ^G(s,f) s=\ VarMt = v(t) + m(t)-m(t)2. Тогда d(0 = 2cK>(0 + (2a + 2p)m(0, t»(0) = 0. Отсюда следует, что о(0=(-^Ё(е-_1)2 И VarM, = &ea'(ea'-l). a ПР с «линейными интенсивностями» X^ = afe+p называется процессом Юла—Фурри; он используется в некоторых приложениях. □ Million Dollar p7 (Из серии «Фильмы, которые не вышли на большой экран».) Перейдем теперь к вопросу о возможности взрыва, т. е. бесконечного числа скачков (траектория неограниченно растет) на конечном интервале времени, см. рис. 2.30. Как мы только что видели, при Х^ = Х>0 (т.е. (Л^Р)~ПП(Х)) вероятность Р( ^Г Sfc<oo] взрыва за конечное время равна 0. Сформулируем теперь общий результат. Теорема 2.5.3. Для ПР (X/.) с интенсивностями X/. > 0 имеет место следующая дихотомия: а) если У^ — = °°, т0 взрыва нет: Р ( V^ Sk < оо ) = 0, (2.5.10) k к \*=/v0 / б) если У^ — < °°, то взрыв есть: Р ( У^ S& < оо ) = 1. (2.5.11) 7Ср. с названием фильма «Million Dollar Baby».
§2.5. Процессы рождения и гибели. Взрыв Доказательство, а) Следуя доказательству теоремы 2.3.10, положим Твэр = ^2Sk и рассмотрим п.ф.м. Ee~Ts'. Вновь используя монотонную ь к сходимость частичных сумм 51 S$ /* ^вэр и независимость времени пребывания So, Si, .... запишем *=0 к U Ее-7"* = lim П Ee~s> = lim П г-Ц- = lim /С-»оо А А К-юо А А Л* + 1 /с-ю *=0 Д(1 + 1А*) ,*=0 Заметим, что последнее произведение JJ (1 + 1 А*) растет по К. Используя элементарную оценку к к п /С k=0 заключаем, что fi№)-*+£h+£ №■■■>£*• lim K-*oo К 1~[ -1 k I =0, т.е. Ее-'ир=о. Вновь как в доказательстве теоремы 2.3.10, заметим, что e~Tt3' =0 и Гвзр = = оо с вероятностью 1, откуда следует соотношение (2.5.10). б) Св. Гвэр принимает значения в [0, оо) и, возможно, значение +оо. Однако к ЕГВЭр= lim E^Sft = ^X^'<oo _>°° *=о * в силу теоремы о монотонной сходимости. В частности, значение +оо принимается с вероятностью 0, т.е. имеет место соотношение (2.5.11). □ Замечание 2.5.4. Теорема 2.5.3 рассматривает взрывы при начальном состоянии 0. Однако ее утверждение сохраняется, если ц.м.н.в. выходит из любого состояния i, что просто означает совпадение событий {Твзр<оо} и { Е 5Л<оо). Поэтому результат верен для любого начального распределения. Определение 2.5.5. В случае а) теоремы 2.5.3 процесс ПР(Х^) называют невзрывным, а в случае б) — взрывным. В случае невзрывного процесса ПР(Х^), когда Е^Г' =00> прямое/об- ратное уравнения (2.5.5) имеют единственное решение P(t) = (p-,j{t)) Mt ^ 0,
Глава 2. Цепи Маркова с непрерывным временем задаваемое формулами (2.5.6)—(2.5.9) и удовлетворяющее условиям 0<Pn(t)<\ и 5^/ty(/)=l V/^0, / = 0,1,... (2.5.12) / В этом случае матрица P(t) = {ptj(t)) является «истинной» матрицей переходных вероятностей для любого / ^ 0. (Некоторые авторы используют термин «корректно определенная матрица перехода».) Вдобавок семейство матриц P(t) имеет полугрупповое свойство P(t + s) = P(t)P(s) V/, s ^ 0. Это тот «хороший» случай, когда процесс определяется своей Q-матрицей (и начальным распределением) однозначно. [Вот] что я понимаю под словом «философ»: ужасно вспыльчивую (взрывную) персону, в присутствии которой все находится в опасности. Ф. Ницше (1844—1900), немецкий философ Однако для взрывного процесса ПР(Х^) ситуация более сложная. Решение P(t) = (pij(t)) задач (2.5.5), определенное с помощью формул (2.5.6)—(2.5.9), не обеспечивает сумме J^Pijit) значение 1; напротив, ^Pij{t)<\ W>0 и / = 0, 1,... Тем не менее, это решение особое: оно минимальное в том смысле, что для любого семейства матриц R(t) = = (rij(t)), удовлетворяющих уравнениям R = RQ=QR, R(0) = \, элементы /•,-/(/) удовлетворяют неравенствам гц(1) ^pij(t) W>0 и /,/ = 0, 1,... Минимальное свойство следует из нашего предположения о том, что матрица P(t) верхнетреугольная. Минимальное решение все еще имеет хорошие свойства: например, его можно записать как P{t) = e'Q = y^, P{t)= lim е"Х"\ (2.5.13) ^—< я! л—юо где Q(n) — это (п х п)-модификация («усечение») матрицы Q из формулы (2.5.2). Оно также имеет полугрупповое свойство: P(t + s) = P(t)P(s) W.s^O. В невзрывном случае минимальное решение задается с помощью стохастических матриц P(t), причем верны уравнения (2.5.12), и других решений быть не может. Однако в случае взрыва, когда минимальное решение не приводит к стохастической матрице, оно как бы открывает ящик Пандоры, полный сюрпризов, возможно интересных, но редко возникающих в прикладных задачах. Для начала, прямое уравнение P = PQ имеет единственное решение P(t), P{0) = 1, задаваемое формулами (2.5.6)—(2.5.9) (иными словами, ми-
§2.5. Процессы рождения и гибели. Взрыв нимальное решение — это единственное решение прямого уравнения с начальной матрицей I). В противоположность этому обратное уравнение (с начальной матрицей I) имеет бесконечно много решений больших, чем минимальное8. Сейчас мы не будем двигаться далее в этом направлении, но вернемся к ним, когда будем обсуждать более общие классы случайных процессов. Итак, мы знаем, что в случае взрыва матрица P(t) с элементами /?*;(/) из формул (2.5.6)—(2.5.9), представляющая собой минимальное решение прямого и обратного уравнения (2.5.5), имеет «вероятностный дефект»: ее суммы по строкам меньше 1 (более того, суммы по строкам убывают и стремятся к 0 с ростом времени). Таким образом, матрица P(t) = etQ субстохастическая, а не стохастическая (и приближается к нулевой матрице при /—>оо). Как превратить ее в стохастическую? Для этого полезно записать оо ^pij(t) = Pi(TB3p>t)<l. (2.5.14) Один из вариантов — считать, что процесс остается в состоянии оо при ti2TB3p, и приписать вероятностям Pioo(t) следующие значения: 1 - £>/(/) = РДГвзр < 0 = Р/ (5/ + S.-+, +...</1А/0Р = /), (2.5.15) / и, конечно, Роооо(0 = 1, т.е. добавить поглощающее состояние оо. Это приводит к минимальному процессу рождения (N™n) на пространстве состояний Z+ = {0, 1,..., оо}, ассоциированному с интенсивностями Xfc. Этот процесс называют минимальным, так как решение P(t), задаваемое формулами (2.5.6)—(2.5.9), минимально для прямого и обратного уравнения, кроме того, тождество Л/™п = оо при t~^ TB3p оставляет минимальные возможности для переходов i—*j (j^i, т.к. соответствующая матрица перехода является верхней треугольной). Однако это не единственно возможный вариант: можно предположить также, что в момент t = Твзр процесс мгновенно возвращается в состояние О (после чего, конечно, вновь возможен взрыв). Очевидно, это увеличивает шансы попасть из состояния i в состояние / (теперь это может происходить и после взрыва). Кроме того, соответствующая переходная матрица уже не будет верхней треугольной. Получаем другой процесс рождения (N*) с интенсивностями Х^ при k = = 0, 1,... и бесконечной интенсивностью <7оо0- Иными словами, оо будет теперь мгновенным состоянием. 8См. Булинский А. В., Ширяев А.Н. Теория случайных процессов. М.: Физматлит, 2003, с. 221.
Глава 2. Цепи Маркова с непрерывным временем г yymm i ' I # о О Рис. 2.40 Вообще говоря, мгновенные состояния, когда элемент Цц равен минус бесконечности (или полная интенсивность выхода qt равна плюс бесконечности), нередко приводят к парадоксам. Теория ц.м.н.в. с мгновенными состояниями содержит много неожиданных результатов, но они находятся вне поля зрения этой книги. Теперь можно подвести итог. Определение 2.5.6. Пусть Xn, Xi, ...>0 и Y^k^ —°°> что обеспе- k чивает отсутствие взрыва у соответствующей Q-матрицы из формулы (2.5.2). Пусть P(t) = (pij(t)), t^O, является (единственным) решением прямого/обратного уравнений P = PQ = QP (с начальным условием Я(0) = 1), которое составлено из стохастических матриц. Процесс рождения с ин- тенсивностями X], Хг, ..., выходящий из состояния 8o£Z+,— это ц.м.н.в. (Nf, t~^0) с Nq = 0 и такая, что для любых моментов времени 0 = to<t\< <...<tn и целых чисел /о <i\ ^ ... ^in выполняется равенство PiMl=iu...,Nl=in)=pioil(tl)Pilh(t2-U)---Pin-liAtn -tn-i). (2.5.16) Теорема 2.5.7. При выполнении условия ^^'~°° характери- k эации а)—в) процесса ПР(Х^), данные в определениях 2.5.1 и 2.5.6, эквивалентны. Теорема 2.5.7 означает, что невзрывной процесс ПР(Х^) определяется своей (^-матрицей (и начальным распределением). С другой стороны, мы видели, что взрыв приводит к неединственности процесса ПР(Х^) (т. е. процесс не определяется единственным образом своей Q-матрицей): минимальный процесс Nfm попадает в поглощающее состояние оо после момента Твзр, а процесс (Л/,00-*0) совершает мгновенный переход из оо в 0. Ситуация становится гораздо более сложной (и занимательной), если выйти за пределы класса процессов рождения: здесь мы вновь ограничимся основными фактами.
§2.5. Процессы рождения и гибели. Взрыв Рис. 2.41 Следующее обобщение, которое мы рассмотрим, — это процессы рождения и гибели, обозначаемые для краткости, ПРГ(Х^, \1ь). Диаграмма таких процессов содержит стрелки в обоих направлениях; см. рис. 2.42. Ml Д2 АмАл • • • Ао Ai M*+i k А-\ Лк Рис. 2.42 Интерпретируют это так: Х^— это интенсивность скачка k—»£ + 1 (рождение), a y.k — интенсивность скачка k—*k—\ (гибель). Когда \х^ = О, то получаем процесс рождения, а когда Х^ = 0 — процесс гибели. Соответствующая Q-матрица имеет нули всюду, за исключением главной диагонали и двух соседних с ней: /-Хо Hi О <? = Хо 0 0 —(X, +И-0 Xi 0 Ц2 — (Х2 + (а2) Х2 Л V (2.5.17) 7 Кто угодно может прервать человеческую жизнь, но никто — смерть: тысячи путей открыты к ней. Сенека (4 г. до н.э.-65 г. н.э.), римский философ Как и ранее, нас интересует матрица перехода P(t), ассоциированная с Q, которая позволит нам определить процесс рождения-гибели с генератором Q. Заметим, что соответствующий процесс совершает скачки как вниз, так и вверх, поэтому матрица P(t) не должна быть верхнетреугольной. Конечно, вопрос о взрыве процесса рождения и гибели также подлежит рассмотрению. Интуитивно понятно, что условие V} ,—;— „ Лл + Цл = оо является
Глава 2. Цепи Маркова с непрерывным временем достаточным для отсутствия взрыва. Однако это условие не является необходимым. Это значит, что сходимость вышеуказанного ряда не обязательно приводит к взрыву, так как цепь может смещаться к левому краю и проводить большую часть времени в позициях, для которых значение ^ велико. Общие условия отсутствия взрыва у ПРГ сложны; приведем их без доказательства. Как мы уже знаем на примере процесса рождения, нам придется работать с классом субстохастических матриц P(t) = (pij(t)), где Pij{t)>0Vi,j = 0, 1,... и 53л,-(/)<1 Vi = 0, 1,...,W>0; (2.5.18) в частности, случай равенства Y1 /'«/(О = ' означает, что матрица P{t) — стохастическая. Воспользуемся опытом, приобретенным при изучении процессов рождения, и введем понятие минимального неотрицательного решения Pm]n(t) = (pfjm(t)) прямого и обратного уравнений P = PQ и P=QP с начальным условием Р(0) = 1: р.. = /Х/-1Л/-1 ~ (Х/ + Ну)/?// + V-1+iP'J+i (прямое), 5 4 \XiPi+ij-(ki + \Xi)pij + y.iPi-ij (обратное), А/(0) = 8,7. Как и ранее, минимальность означает, что любое такое семейство матриц R(t) = (ri}(t)), t>0, что rij(t)^0, R = QR = RQ и Д(0) = 1, удовлетворяет неравенствам pffn(t)^r,i(t)Vt>0 и i,/ = 0,1,... (2.5.20) Основное свойство минимального решения вновь состоит в том, что оно допускает хорошее представление pfn{t) = 1 (i=j)e-t0"+*) + (скачков нет) t + (X,-1 (/ = i + 1) + (л<1 (i = i - 1)) /e-''(x'+^)e-('-/')<x'+tl')dti + (один скачок) о + 5^(Х/1(А = /+1) + 11/1(А = /-1))(Хй1(/ = * + 1) + Ц*1(/ = А-1))х * t J /'e-rI(X,+n,)e-«2-/,)(X4+ii*)e-(^(2)(X/+iiy),(/i <t2)dt2dtl + (два скачка) + ... (2.5.21) х о о
§2.5. Процессы рождения и гибели. Взрыв Общая формула для выражений в правой части соотношения (2.5.21) соответствует последовательности скачков через состояния i = io,i\, ...,in=j, где f/ = /;_i ± 1, и может быть записана в форме t U Д(Х,,1(//+1=// + 1) + ц,/1(1/+,=г/-1)) J J... /ехр[-(/-/„)(Х,„+[!,„)] х /=0 0 0 0 х Л (exp[-(tk-tk-i)(hk-i+[Hk-l)])dtl...dtn, (2.5.22) k: n^\ где to = 0, или П-1 '- *! S"-' Д(Х/,1(//+1=г/ + 1) + (л1-,1(/,+1=/,-1))у j... /exp[-(/-s,)(X;0+[iIO)]x '=° 0 0 0 х JJ (e\p[-{sk-sk+l)(kik+y.ik)])dsn...ds], (2.5.23) h: 1-»л где s„+i=0. В произведениях П и П множители перечислены к: л-»1 к: 1^л в соответствующем порядке. Уравнения (2.5.22) и (2.5.23), конечно, эквивалентны: формула (2.5.22) годится для проверки прямого, а (2.5.23) — обратного уравнения. Мы хотим подчеркнуть, что уравнения (2.5.21)—(2.5.23) позволяют посмотреть на переходные вероятности p^m(t) как на интегралы по всем возможным траекториям процесса, выходящего из состояния i и финиширующего в состоянии / в момент времени t. Опустим теперь индекс min и запишем равенство P(t) = {pij(t)) для минимального решения, определенного уравнениями (2.5.21)—(2.5.23). Теорема 2.5.8. Формулы (2.5.21)—(2.5.23) определяют семейство субстохастических матриц P(t) = (рц(()), t>0, задающих минимальное решение прямого и обратного уравнений P = PQ = QP, Я(0) = 1 (см. соотношение (2.5.6)). Для любого />0 это решение имеет следующие свойства: /ty(0>0Vi,/ = 0,l,.--, « £/>//(/)< lVi = 0,l,... />0 Также имеет место полугрупповое свойство: P(t + s) = P(t)P(s), /,оо. Определение 2.5.9. Говорят, что ПРГ(Х^, \ik) с интенсивностями Хь [1* является невзрывным (или соответствующая Q-матрица в формуле
Глава 2. Цепи Маркова с непрерывным временем (2.5.17) является невзрывной), если минимальное решение Р(/) = (р;Д/)) из теоремы 2.5.8 состоит из стохастических матриц, т. е. J2pij{t)=l, V/ = 0, l,... W>0 (2.5.24) и взрывным в противоположном случае. Точнее, мы называем состояние I невзрывным, если соотношение (2.5.24) верно для любого t > 0, и взрывным, если YlP'iW) < 1 АЛЯ некоторого />0. Теорема 2.5.10 (см. Ledermann W., Reuter G.E.H. Spectral theory for the differential equations of simple birth and death processes // Philos. Trans. Roy. Soc. London. Ser. A. 1954. V. 246. P. 321—369) дает достаточные условия для того, чтобы ПРГ(Ха, [ik) был невзрывным. Теорема 2.5.10. Зафиксируем набор интенсивностей X£,[i£^0. При заданном i ^ 0 предположим, что y.k > 0, k = i,i+l... Тогда любое из следующих условий а)—г) гарантирует, что состояние i невзрывное: а) Х„ = 0 для некоторого п ^ /; б) Х„ > 0 для n^i и J2 г- = +оо; в)Х„>0 для n^i и £^''+'"^"=+оо; г) Хо = 0, Хл>0 для n^i и ^^\Лл Лл-lAn Л;Л,-+| ...Лл A,Aj+| .. .Лп / Таким образом, ПРГ(Х*,^) невзрывной, если для любого состояния i выполняется одно из условий а)—г). Профессор Вальтер Ледерманн умер 22.05.09 в возрасте 98 лет. Его математическая карьера была яркой и необычной. Ледерманн родился в Германии в 1911 г. и изучал математику в Берлинском университете, где его профессорами были Эрих Шмидт (операторы Гильберта—Шмидта), Исай Шур (лемма Шура из теории представлений групп) и Людвиг Бибербах (гипотеза Бибербаха). Физику ему преподавали Макс Планк, Макс фон Лауэ и Эрвин Шредингер. Выпускные экзамены Ледерманн сдавал в ноябре 1933 г. Шмидту и Шуру (который несмотря на еврейское происхождение был временно восстановлен в должности профессора как ветеран Первой мировой войны, но вскоре окончательно уволен). Бибербах также появился во время экзамена, одетый в нацистскую униформу. В январе 1934 г. Ледерманн получил стипендию в университете Св. Андрея в Шотландии, средства для этой стипендии были собраны местными студентами. Впоследствии он работал в нескольких британских университетах и сотрудничал со многими выдающимися математиками и физиками, включая Нобелевского лауреата Макса Бора. Статья Рейтера и Ледерманна была написана, когда Ледерманн и Гарри Рейтер работали в одной комнате в университете Манчестера, такие случаи очень характерны для Ледерманна. Ои запомнился
§2.5. Процессы рождения и гибели. Взрыв многими коллегами как человек, вызывающий естественную симпатию. Как сказал один из его бывших студентов: «Это был маленький и хрупкий человек, который оказался обаятельным, остроумным и все понимающим, и который мастерски читал лекции». Определение 2.5.11. Зафиксируем набор интенсивностей Хо, Х[, [ii, ... ^0. Пусть P(t) = (pij(t)), t^O, — минимальное решение прямого/обратного уравнения P = PQ = QP, P(0) = I, и предположим, что матрица Q невзрывная. ПРГ(Х^,[1а) с интенсивностями X,-, [!,-, выходящий из состояния /GZ+,— это процесс (Л/(рг, t^O), NqT = lq, со значениями /eZ+, который можно охарактеризовать тремя следующими способами: а) как такой процесс, что Pi(N?r=il,...,Nlr=in)=pkii(ti)pili2(t2-tl)...Pi„_1in(tn-tn-i), (2.5.25) \/0 = t0<ti <...<tn, i = io,('i,...,i„eZ+; б) как процесс, у которого для любого t > 0 и у е Z+ при условии /Vfr = / приращение N^+h — Nfr на будущем временном интервале [t, t + h) условно не зависит от прошлого (N^г, 0 ^ s < t) и Р (N?[h = i | Nfr = i) = l- (h + m)h + o(h), 'Г. = / 4- 1 I Л/Рг = i\ = X./i 4- nth) (2.5.26) P (Nflh = i + 11 Nfr = i) = X,-A + o(A), P № = i - 11 <r = J) = [1,-A + o(h), P(K|ft-i|>l|^pr = i) = o(A) при A—»0+, где остаточные члены могут зависеть от /, но не от t, или в) как процесс, который 1) проводит случайное время ~ Ехр(Х,- + y.t) в состоянии /GZ+, если X,- + [ij>0, и затем прыгает в состояние i+\ или /-1с вероятностями Х,/(Х,- + [i() и [1,/(Х; + [!;) соответственно или 2) остается навсегда в этом состоянии, если X; = [i,- = 0, независимо от его предыдущей истории. Теорема 2.5.12. Для невзрывной матрицы Q три характеризации а)-в) ПРГ(Х£, y.k), заданные в определении 2.5.11, эквивалентны. В дальнейшем мы детально изучаем ПРГ, у которых Xj = Хг =... = X > >0 и [ii =[i2 = ... = [i>0. Такие ПРГ всегда невзрывные. При этом если Хо = 0, то состояние 0 поглощающее. А что будет, если матрица Q взрывная? Тогда следуем предыдущим рецептам: добавляем поглощающее состояние со, т. е. рассматриваем наш ПРГ на расширенном пространстве состояний Z+ = Z+ U{oo}. Вновь обозначим процесс как (Nfm,t^Q), тогда определение 2.5.11а) принимает следующий вид.
Глава 2. Цепи Маркова с непрерывным временем Рис. 2.43 Определение 2.5.13. Для любых чисел 0 = to<t\ <...<t„ <tn+\ < ... ...< tn+i к i = io,i\,..., l„ e Z+ определим = f[pk-lk(tk-tk-i)(l -^Pi„j(tn+i-tn)). (2.5.27) Соответственно назовем состояние / G Z+ взрывным, если ^ Pij(t) < 1 для некоторого момента времени t > 0 (следовательно, и для больших моментов времени). Для взрывного состояния i выполняется соотношение Р,(Гвзр < +оо) > 0, точнее, Р<(Твзр < t) = 1 - ^Л/(0. (2-5.28) /ez+ где время взрыва Твзр определяется как Гвзр= Игл Jn = Ysn. (2.5.29) Здесь 0 = Уо </i<-.. — последовательность времен скачков ПРГ и So, Si, ... —последовательность времен пребывания, /,=inf[/>0:/Vr^:A7n], /2 = inf[/>/,: N™Ф-^0], -, 2 5 30) So=/l, S\=J2—J\,... Достаточное условие (Ledermann—Reuter) для того, чтобы состояние i было взрывным, таково: 1 Хл >0 для п^/, У^г- < оо, sup *-^-: n^i л>1 <1.
§2.5. Процессы рождения и гибели. Взрыв Другое достаточное условие таково: Х„ > О для п ^ i, Л>1 + [In X„-lXn + ...+ ^■+1 ■ Х.-Х.-+, 4^l + _ .. Хл К Х,+1...Хл / <+оо, sup У-п+1 (х„ + ; [In ■ + ...+ ^i+1-.-^n + и<- ^х)=- ^i <+оо. X„_iXn X,X,+i...Хп Х;Х|+1. Вновь упомянем, что при наличии взрывных состояний вопрос единственности (субстохастического) решения прямого и обратного уравнений становится сложным. Бывают случаи, когда прямое уравнение имеет единственное решение, а у обратного уравнения число решений более одного, и наоборот. См., например, Renter G.E.H., Ledermann W. On the differential equations for the transition probabilities of Markov processes with enu- merably many states // Proc. Cambridge Philos. Soc. 1953. V. 49. P. 247-262; Karlin 5., McGregor J. The classifications of birth and death processes // Trans. Amer. Math. Soc. 1957. V.86. P. 366-400; Добрушин Р.Л. Условия регулярности для марковских процессов с конечным числом состояний // УМН. 1952. Т. 7, №6. С. 185-191. Для невзрывного ПРГ, конечно, Рi(TB3p =+оо) = 1 для любого состояния ieZ+. Следующий класс процессов, которые хотелось бы упомянуть, — это случайные блуждания с непрерывным временем (с.б.н.в.) на Ъй. Вначале рассмотрим одномерный случай, когда d=\. d= l A_i Ao А 0 ^^— 1 ^?— 2 Mo Mi M2 Рис. 2.44 Если Х/ = [!,, то случайное блуждание называют симметричным; если X, = X и [1,- = [i, то случайное блуждание называют однородным. Для этой ц-м.н.в. Q-матрица бесконечна (во всех направлениях): /•. <? = [lt-\ — (Х,-_, + (Jt;_i) 0 [Li 0 Х,_1 0 -(ki + [ii) X,- 0 Ц;+| — (Х,+1 + [i,+1) Х,+ 1 \
Глава 2. Цепи Маркова с непрерывным временем В двумерном случае (d = 2) состояниями являются точки i = (i\,h), /1, /2 6Z; см. рис. 2.45. -t L -J ^ ^ d = 2 i= (г'1,'2) d = 3 / ')■ 7 V / / Рис. 2.45 Мы сосредоточимся в основном на однородном и симметричном случае, когда qL:=-qil = q>0, /=(/ь/2)GZ2, и qw = j, если точка г'соседняя к/, т.е. i' = {i\ ± 1, г'г) или (ii,/2±l). Для однородного и симметричного с.б.н.в. при d = 3 существует шесть возможных переходов, соответственно q,j> = | для точки /', соседней к / = (/], г'г, *з)- Общий случай Zd, d> 1, рассматривается аналогично. При этом в качестве индексов у элементов (^-матрицы выступают точки /eZd: qL=-qu=\, <fc£= 251(111-/11 = 1). &b Li£%d- И вновь в более общей модели элементы qL могут зависеть от /eZd. § 2.6. Инвариантные распределения счетных цепей Маркова. Цепь скачков Countably Many Dalmatians9 (Из серии «Фильмы, которые не вышли на большой экран».) Введем теперь общие ц.м.н.в. и (не более чем) счетным множеством состояний (или счетные цепи Маркова с непрерывным временем). Ц.м.н.в. с конечным числом состояний включаются сюда как частный случай. Мы 9Ср. с названиями фильмов «101 Dalmatians» и «102 Dalmatians».
§2.6. Инвариантные распределения счетных цепей Маркова. Цепь скачков будем приводить доказательства только тех фактов, которые в принципе могли бы появиться на экзаменах в Кембридже. Пространство состояний по-прежнему будем обозначать /; будем рассматривать Q-матрицы Q = (qij) с элементами цц, проиндексированными парами состояний i, j £ /. Неизменными остаются условия (внедиагональ- ные элементы Q неотрицательны и матрица Q консервативна) qi,7*0Vi,j:i?j, (2.6.1) и -оо<?,■,■ <0, qt\=-qu= ^ qij\/i. (2.6.2) /е/: /#| Напомним, что для любых ]ф1 элемент q-ц является интенсивностью перехода из состояния i в состояние/ и для любого / значение qt задает полную интенсивность выхода из состояния /. Кроме того, будем предполагать сходимость ряда ^ q-q равномерной (хотя в большинстве случаев утверждения, приведенные ниже, не требуют такого ограничения). Равномерная сходимость означает, что состояния i £ / можно пронумеровать, например, индексами /о./'ь/'г. ••• таким образом, чтобы «хвост» ряда, образованный слагаемыми qHlk с большими значениями k, был равномерно мал: = 0. (2.6.3) lim sup Y] qjlik: // £ / .*: |/'*-//|>л В большинстве случаев конкретный порядок суммирования в формуле (2.6.2) использоваться не будет, и ряд ^ можно понимать при любом /е/ порядке суммирования. Стратегия наша в принципе не меняется: матрица Q трактуется как генератор, требуется построить ассоциированную с Q полугруппу (P(t), t^-0) матриц вероятностей перехода P(t) = (pij(t)) (Я(0) = 1) и изучить свойства соответствующей ц.м.н.в. По возможности, мы использовали матричную экспоненту; полезным орудием являлась пара прямых/обратных уравнений P = PQ = QP, Я(0) = 1, (2.6.4) или элементы матрицы удовлетворяют уравнениям Ри=\ Y,PikQki (прямое уравнение), k YlQikPkj (обратное уравнение), k РцФ) = Ьц.
Глава 2. Цепи Маркова с непрерывным временем Как мы видели, для конечных матриц уравнения (2.6.4) имели единственное решение ОО ь Я(0 = е'в = 53^-, ^0, (2.6.5) состоящее из стохастических матриц. В §2.5 обсуждалось обобщение этого факта на случай счетного пространства состояний /; в случае ПР(Х^) решение может быть субстохастической матрицей, что ведет к взрыву; выход из такой ситуации состоял в расширении пространства состояний посредством добавления к нему поглощающего состояния оо; мы вкратце обсудили и другую возможность, когда бесконечность превращается в мгновенное состояние. Затем мы обсудили более общую модель ПРГ(Хд, ^). В данном параграфе мы приводим общие теоремы (теоремы 2.6.1—2.6.11), которые даются без доказательства (см. [BR], [N]). При этом предполагается, что Q — это (^-матрица, удовлетворяющая условиям (2.6.1)-(2.6.3). Теорема 2.6.1. Прямое и обратное уравнения (2.6.4) всегда имеют решение P(t), t > О, удовлетворяющее свойству полугруппы P{t + s) = P(t)P(s), t,s^0. (2.6.6) В общем случае матрицы P(t) = (pij(t)) являются только субстохастическими, причем такими, что рцЦ) > О W > О, V/, j £f и £>,7(0<1 Vie/. (2.6.7) /' Это решение, вообще говоря, не единственно, и прямое и обратное уравнения имеют, вообще говоря, различные множества решений. Однако всегда существует единственное минимальное субстохастическое решение Pmm(t) = (pf-,n(t)), t~^0, уравнений (2.6.4), удовлетворяющее условию (2.6.7). Минимальность означает, что для любого неотрицательного решения R(t) = (rij(t)), t^-0, выполнено неравенство pfCKMO- (2.6.8) Это минимальное субстохастическое решение задается как Pmin(0= lim e,Q(n)—etQ, п—>оо где (^-матрица Q(n) — (q/,jk(n)) — это (п х я)-усечение матрицы Q, состоящее из элементов ?/;/*(") = ahik• /, А: = 0,...я - 1, пф)к\ ?////(") = - J2 Qi,h> /,* = 0,...п-1.
§2.6. Инвариантные распределения счетных цепей Маркова. Цепь скачков Здесь используется такая же нумерация состояний /е/, как и в соотношении (2.6.3). Наконец, минимальное решение имеет полугрупповое свойство (2.6.6). Таким образом, в случае, когда минимальное решение образовано стохастическими матрицами Pmm(t) = (p-yin(0), t > О, и при этом J2p™m(t) = \ = 1 W>0 и г б/, эффект субстохастичности исчезает, поскольку Pmm(t) будет единственным решением уравнений (2.6.4). (Более точно, любое субстохастическое решение P(t) равно Pmm(t) и, следовательно, является стохастическим.) Полезное свойство минимального решения состоит в том, что p™n(t) можно записать в виде ряда относительно числа скачков, совершенных цепью на временном интервале (0, t). Теорема 2.6.2. Для минимального решения Pmm(t) = (p?jin(t)) имеет место следующее представление: p"-,n(t) =e~'q'\(i=j)+ (скачков нет) t + Щф1)\(ц1 >0)Je-ii''iqije~i-i-t,)''idt[ + (один скачок) о + lfo/>0)£WU)lfo*>0)j/e-''"x k€l О О х qike-V*-tl)ikqkle-(t-t^l(ti<t2)dt2dtl + ... (два скачка) (2.6.9) W > 0, /, у £ /. Общий член в правой части соотношения (2.6.9) — это сумма по последовательностям скачков через состояния i = = io,i\,..., in —j, где i/^i/_i, и он имеет вид п-\ ' 2 Y^ Y[Hqi>0,ii+i?h) ... exp[-(t-tn)qia]x i=io in=i 1=0 0 0 x П (4h-tikeM-(h-tk-i)])dt\...dtn = k: л->1 n-\ ' S"-[ = Yl Y[44i>0,ii+\^ii) ... / exp[-(f-si)^0]x «=i'o '-.=/ /=0 0 0 x Yl (qi„.likexp[-(sk-Sk+i)qik])dsn...dsi, (2.6.10) k: 1 — л где t0 = 0 и sn+\ = 0.
Глава 2. Цепи Маркова с непрерывным временем Как и ранее, уравнения (2.6.9) и (2.6.10) дают важное пошаговое описание элементов p^m(t), которое помогает представить «вклад» в заданный элемент различных траекторий цепи. Это представление будет основой наших определений и построений. Следует отметить, что уравнения (2.6.9), (2.6.10) и их предшественники, уравнения (2.5.20)—(2.5.22) и (2.5.6)—(2.5.9), обобщают уравнения (2.3.8)-(2.3.9); это подчеркивает роль, которую играет пуассоновский процесс в различных построениях, приведенных ниже. S\ I = lQ ' In- т In =1 -I—О 0 = /o U h '2 t„-i tn t Рис. 2.46 Мы будем иметь в виду и изучать две ситуации. «Хорошая» ситуация, упомянутая выше, когда минимальное решение Pmm(t) = {p^m{t)), t>0, описанное в соотношении (2.6.8), дается стохастическими матрицами. В этом случае элемент p^m{t) задает переходную вероятность из состояния / в состояние у за время t. Назовем этот случай «невзрывным», поскольку ц.м.н.в. (Xt), определенная с помощью матриц перехода Pmm(t), будет «жить» вечно в исходном пространстве состояний /. Ситуация усложняется, когда матрицы Pmm(t) не являются стохастическими. Тогда мы добавляем поглощающее состояние оо и рассматриваем «минимальную» ц.м.н.в. с пространством состояний / = /и{оо}. Это даст нам первое определение ц.м.н.в. в терминах переходных вероятностей; см. определение 2.6.3. Видим, что минимальное решение Я"1"1^) ведет к минимальной ц.м.н.в. с матрицей-генератором Q и дополнительным поглощающим состоянием оо; в «хорошей» ситуации, когда минимальное решение стохастическое, необходимость в дополнительном состоянии отпадает, и мы получаем ц.м.н.в. на исходном пространстве состояний /. Следует отметить, что в случае, когда ситуация не является «хорошей», т. е. минимальное решение не стохастическое, оно не будет единственным субстохастическим решением одного или обоих уравнений (2.6.4). Другие решения P(t) могут быть стохастическими. Однако, вообще говоря, возникает другая сложность: прямое и обратное уравнения могут иметь различные множества решений.
§2.6. Инвариантные распределения счетных цепей Маркова. Цепь скачков Таким образом, спектр возможных случаев широк. Существуют общие условия на матрицу Q, гарантирующие, что минимальное решение Pmm(t) уравнений (2.6.4) дается стохастическими матрицами. Эти условия довольно сложны (и иногда не имеют ясного «физического смысла»). В оставшейся части этого параграфа мы опустим индекс min и обозначим минимальное решение просто P(t) = (pij(t)); оно имеет полугрупповое свойство (2.6.6) благодаря теореме 2.6.1. Определение 2.6.3, приведенное ниже, уточняет, что мы понимаем под ц.м.н.в. на общем конечном или счетном пространстве состояний / с генератором Q и начальным вероятностным распределением X. Определение 2.6.3. Ц.м.н.в. с начальным распределением X и генератором Q (или, кратко, (X, (?)-ц.м.н.в.) на конечном или счетном пространстве состояний / — это семейство (Xt, £>0) таких св. со значениями в 7=/U{oo}, что P(Ao = i) = X,- V/E/, и выполнено свойство а) для любых «=1,2,..., моментов времени 0 = to<t\ < ...<tn и состояний io, ...,inE/ выполняется условие л P(X0 = io,Xtl=ii,...,Xtll = in) = \ioY[plk_lik(tk-tk-i). (2.6.11) k=\ Кроме того, для любой дополнительной последовательности моментов времени tn<tn+\ <...< tn+i выполняется условие Р(Xq = k, Xtl =/,-,..., Xtn = in, Xtn+i =... = Xt„+I = со) = = Х/0П','*-'*^-'*-1)(1-Е'"-/('я+1 -tn)). (2.6.12) *=i ^ /e/ ' Здесь функции pij(t) определены уравнениями (2.6.9), (2.6.10). Повторим, что матрицы P(t) = (pij(t)), t^O, дают минимальные субстохастические решения уравнений (2.6.4), описанные в теоремах 2.6.1 и 2.6.2. Как и в случае дискретного времени, заключаем из определения 2.6.3, что Pij(t) является вероятностью перехода (Xt) из состояния / в у за время t, т.е. условной вероятностью P(Xs+t=j\Xs = i). Кроме того, разность 1 - YlPi'M) — это вероятность перехода из / в со за время t, т. е. условная / вероятность P(A's+( = oo|A's = г); или вероятность взрыва при выходе из состояния i за время t. Наконец по определению Р (Xs+t = со | Xs — со) = 1. По аналогии со взрывным процессом рождения или рождения и гибели отметим, что в определении 2.6.3 мы задали минимальную цепь с заданными X и Q. Как и в подобных определениях ранее, мы задали так называемую однородную ц.м.н.в., когда вероятности перехода ptj(t) зависят только
Глава 2. Цепи Маркова с непрерывным временем от прошедшего промежутка времени, а не от положения пары s, t + s на временной полуоси. Более общий класс процессов включает неоднородные цепи; один такой пример — это неоднородный процесс Пуассона НПП(Х(£)), обсуждаемый в §2.4. Далее под суммами ^ и ^ мы понимаем ^ и !С- и порядок суммиро- вания не имеет значения. Определение 2.6.4. Ц.м.н.в. (Xt) с параметрами (X, Q) (или с генератором Q) называют невзрывной, если для любого / и £>0 выполняется соотношение 5>Д0 = 1, (2.6.13) /е/ т. е. матрицы P(f) являются стохастическими. В противном случае ц.м.н.в. (Xt) называют взрывной. Если цепь является невзрывной, то вероятности (2.6.12) все равны нулю. Это означает, что состояние оо не нужно: выходя из любого состояния /, цепь остается в / навсегда. Значит можно пользоваться таким определением. Определение 2.6.5. Предположим, что матрица Q невзрывная в смысле определения 2.6.4. Тогда свойство а) из определения 2.6.3 эквивалентно любому из следующих свойств б) и в). б) Для любых состояний / ф], момента времени t > 0 и h \ 0+ условные вероятности имеют следующую асимптотику: Р(Л^+5 не имеет скачков при 0<s <h\Xt = i, плюс предыстория до момента t) = 1 — д,7г + о(/г) = 1 +quh + o(h), (2.6.14) это означает, что q-, = —qu есть интенсивность, с которой цепь покидает состояние г, и Р(^+5 имеет ровно один скачок /—►/', 0<s<h\Xt = /, плюс предыстория до момента t) — qi/h + o(h), (2.6.15) это означает, что q-ц есть интенсивность, с которой происходит переход из состояния / в у; весьма важно то, что свойства (2.6.14) и (2.6.15) означают следующее: P(Xt+s=j\Xt = i, плюс предыстория до момента t) = = (\-qih + o(h), / = /', \qtjh + o(h), \ф1, независимо от предыстории процесса.
§2.6. Инвариантные распределения счетных цепей Маркова. Цепь скачков в) Для любых /: qi >0 при условии, что Xq = 1, процесс (Xt) находится в состоянии / в течение случайного времени ~ Ехр(д,), а затем совершает скачок в/^ic вероятностью PH = f- (2.6.16) Тогда если J[ —это время скачка, то процесс Xjl+l ведет себя так же, как (Xt), при условии, что Xq—j и т.д. Если qt = 0, то при условии Xq = l процесс (Xt) остается в состоянии i навсегда. В п. б) эвфемизм «предыстория» означает любое событие, порожденное случайными величинами Xs, когда s меняется внутри заданного множества значений: 0^s<t в свойстве б) и 0<s<#- ' в свойстве в), где Н\ — k-е время попадания в состояние /. Здесь есть также тонкость, состоящая в том, зависят ли остаточные члены o(h) в п. б) от /, у и t; мы не будем углубляться в соответствующие детали. Однако при определенных подходящих условиях на o(h) в свойстве б) можно доказать такой результат. Теорема 2.6.6. Для невзрывной цепи приведенные выше характе- ризации а), б) и в) из определений 2.6.3 и 2.6.5 эквивалентны. Наконец, удобно охарактеризовать случай взрыва в терминах времени скачков /о, J\, Уг, ••• Они определяются как /0 = 0, y,=inf[f>0:^^^0], J2 = inl[t>J[:Xt^X;l+0), ... (2.6.17) поглощающий И Ц |— регулярный —т " : взрывной Рис. 2.47 Определение 2.6.7. Говорят, что (X, (?)-ц.м.н.в. (Xt) невзрывная, если для любого состояния / при условии, что ^0 = /, с вероятностью 1 времена скачков Jn возрастают к +оо: Р,( lim /п = оо) = 1. \л->оо / В противоположном случае, когда Р,( lim /п = оо)<1, т.е. Р,( lim ]n < п—<оо л—»оо <оо)>0, состояние i называется взрывным (для (Xt)). о г1
Глава 2. Цепи Маркова с непрерывным временем Теорема 2.6.8. Определения взрывной ц.м.н.в. 2.6.4 и 2.6.7 эквивалентны. Подводя итог, заметим, что имеются три типа поведения траектории ц.м.н.в.: регулярный, поглощающий и взрывной. Как было указано выше, последний можно преобразовать в поглощающий путем добавления состояния оо. Как и в случае дискретного времени, маргинальные вероятности P(Xt = = i) образуют вектор, полученный из X = (X,) под действием матрицы перехода P(t): Р(Х, =/) = (КРЩ = Y^hpuV) W>0, у е/• (2.6.18) Введем следующее обозначение: Р = (р„), r№ptt = fa/qh ]Ф[: (2.6.19) [О, j = i. Предполагая, что qi > О для любого /, получим корректно определенную стохастическую матрицу Р с нулевыми диагональными элементами. Матрица Р определяет цепь скачков для ц.м.н.в. (Xt). Точнее, это (X, Я)-ц.м.д.в. (У„) (некоторые авторы называют ее вложенной цепью скачков, так как она наследует скачки исходной ц.м.н.в. {Xt)). Термин «вложенная» в данном случае является значимым: цепь (Yn) ассоциирована с (Xt), т.е. ее траектория построена по траектории (Xt). Наглядный смысл таков: (Yn) есть наблюдения скачков в цепи (Xt), а формальное определение имеет вид Yn=Xjn+o, где 0 = /о </i < ... — моменты скачков цепи (Xt). (2.6.20) Заметим, что цепь скачков (Yn) всегда можно неограниченно задавать в дискретные моменты времени я = 0, 1,...; она нечувствительна к «взрывам» исходной цепи. Перепишем соотношение (2.6.9) в терминах вероятностей скачков р,у: t Pij(t) = е~"" 1 (i = j) + 1 (i ф\) \ще~^■ Wg-tf-s)?/ ds + о / t + 1 (/ ф})^Щф i, j) 1 (qk >0)f fqie-s^ x be/ J J x 2%te-te-*)ft^e-<'-*2>?/<fc2dSl + ... (2.6.21) Ri Як
§2.6. Инвариантные распределения счетных цепей Маркова. Цепь скачков с общим членом л—1 Г Г Г п Y[\(qi>0) I ... /Пв'"*-"етРН'*-'А-1)?/*-,])Рй_|«»>< /=0 J J J 6=1 ° '' '""' xexp[-(t-tn)qin}dtn...dtu (2.6.22) где ^о = 0. Повторим, что уравнения (2.6.21), (2.6.22) дают «конструктивный» взгляд на то, как вероятности рц «строятся» из вкладов, внесенных различными траекториями. Подход, возникающий на основе таких рассмотрений, был разработан в 1920—30 гг. Колмогоровым, Леви и другими. Ревностным сторонником этого подхода выступал и Дуб, который неустанно подчеркивал, что случайный процесс следует трактовать как вероятностное распределение на множестве его выборочных траекторий. Определение 2.6.9. Пусть (Xt) — невзрывная ц.м.н.в. Распределение вероятностей Х = (X,) на / называют инвариантным, или стационарным распределением для ц.м.н.в. (Xt), если для любых у и £>0 P(Xt=j) = \h т.е. ХЯ(0 = Х. (2.6.23) Если выполнено лишь условие Х,-^0, но не выполняется равенство £Х,- = 1, то говорят, что X является инвариантной мерой для (Xt). Если £Х,- <оо, то, положив 71, = Х,/^Ху, получим инвариантное распределение ' / л = (л,-). Замечание 2.6.10. Для минимальной взрывной цепи последнее определение имеет смысл только в случае, когда распределение п сосредоточено в поглощающем состоянии со, хотя все же можно думать и о мере X, удовлетворяющей ^Х,- = оо и соотношению (2.6.23). Будем этого избегать, всегда предполагая, что цепь невзрывная, если речь идет об инвариантных мерах или стационарных распределениях.
Глава 2. Цепи Маркова с непрерывным временем Теорема 2.6.11. Предположим, что (Xt) — невзрывная ц.м.н.в. с генератором Q. Мера X = (X,-) — инвариантная мера для (Xt) тогда и только тогда, когда Y,hqij = 0Vj, т.е. Х(? = 0. (2.6.24) i Замечание 2.6.12. Утверждение теоремы 2.6.11 для конечной ц.м.н.в. было доказано уравнением (2.2.5). В теореме 2.6.11 оно распространено на общий невзрывной случай. К аргументам, использованным при выводе уравнения (2.2.5), нужно отнестись критически: они не работают для взрывной цепи. Точнее, в случае взрывной цепи нельзя гарантировать, что -£-(kP(t)) = \P(t), хотя верно, что P(t) = QP(t) = P(t)Q. Теорема 2.6.13. Предположим, что (Xt) — невзрывная цм.н.в. с генератором Q и что qi > О V/. Пусть X = (X*) — инвариантная мера для (Xt). Тогда |i = ([i,) является инвариантной мерой для цепи скачков (Y„), где Hi = hqi = -hqu, i e /. (2.6.25) Обратно, если [i — инвариантная мера для (Yn), то мера X, определяемая соотношением (2.6.25), является инвариантной для цм.н.в. (Xt). Доказательство. Запишем равенство [л/' = (Л в виде \хР — [1 = 0, или <■:<■# (lx?-lx)y=^lxl|-w = ^[(l-5//)|-8« = =£Kf-41+f)]=I>-(X^ =0 Видим, что левая часть равна 0 тогда и только тогда, когда правая часть равна 0. G Таким образом, если X является инвариантной мерой для невзрывной ц.м.н.в. (Xt), причем ^Х,<7,<оо и [1,=Х,<7,-, то 7t = (ft,) является стационарным распределением для (Yn), где % = J^ = J^. (2.6.26) /' i Определение 2.6.14. Пусть (Xt) — (X, (?)-ц.м.н.в. (возможно, взрывная). Состояния i,/'€/ сообщаются в цепи (Xt) тогда и только тогда, когда i,) сообщаются в цепи скачков (Yn). Таким образом, разбиение на
§2.6. Инвариантные распределения счетных цепей Маркова. Цепь скачков классы в обоих цепях (Xt) и (Yn) совпадают. В частности, будем говорить, что ц.м.н.в. (Xt) с параметрами (X, Q) (или ее (^-матрица) неприводима, если она имеет единственный сообщающийся класс (который, таким образом, замкнут). Представители всех сообщающихся классов, объединяйтесь! (Из серии «Кое-что из политики».) Теорема 2.6.15. Пусть (Xt) — (X, ())-ц.м.н.в. (возможно, взрывная). Состояния i, j сообщаются в цепи (Xt) тогда и только тогда, когда выполнено одно из следующих эквивалентных условий: а) <7W.-•</<„-■<.> О (2.6.27) для некоторых состояний i = io,i\, ...,i„=j, б) /?y(0>0W>0. (2.6.28) Доказательство, б) => а): если выполняется условие б), то / и / сообщаются в цепи (Yn), а следовательно, и в (Xt). Тогда ploix(t)... ■ ■■Pi„-,i„(t)>® рая всех (>0 и некоторой траектории i = /n> M. •••> in =/• Значит, <7;0;, •••<7<„_,<„ >0, т.е. выполняется а). а) =Ф- б): если выполняется условие а), то для любой пары ik-\ik и любого t>О имеем Pit_ii*(0 > Р(единственный скачок на (0, t)\ Xt — ik\Xo = ik-i) = t = /<?/*_, exp(-<fa_,s) Я-^± exp(-qik(t-s))ds>0. 0 1-й скачок в момент! " v ' на (s, t) нет скачков скачок i*_i —>i* Тогда Р//(0>Р«о«-|(^)---Л.-.гя(^)>°. откуда следует условие б). П Состояния всех классов, сообщайтесь! (Из серии «Кое-что из политики».) Приведем без доказательства следующее утверждение: каждая счетная цепь Маркова с непрерывным временем (взрывная или нет) обладает марковским и строго марковским свойствами в точности в той же формулировке, что и в теоремах 2.2.2 и 2.2.3 для конечных ц.м.н.в.
Глава 2. Цепи Маркова с непрерывным временем непрерывное время дискретное время (скачки) Рис. 2.49 В заключение заметим, что «склеивание» нескольких состояний в одно (в ц.м.д-в. или ц.м.н.в.) может сохранять или разрушать марковское свойство. Это иллюстрируется следующим примером. Пример 2.6.16. а) Рассмотрим ц.м.н.в. (Xt) с состояниями {1,2,3,4} и Q- матрицей -2002 1-320 0 2-20 1 5 2-8; <? = Положим Z,= если Xt£ {1,2,3}, если Xt = 4; \Xt, если Xte {1,2,3}, 1, если Xt = 4; (2.6.29) (2.6.30) Являются ли процессы {Yt)t^ и (Z()^o цепями Маркова? б) Найдите стационарное распределение цепи (Xt)t^o, заданной в п. а). Предположим, что ^о = 1- Найдите вероятность того, что Xt = 1 при некотором ^>0. Решение. Переход от (Xt) к (Yt) состоит в «склеивании» состояний 2 и 4 в одно состояние, которое мы обозначим 2*4, см. рис. 2.50. Ясно, что для проверки того, что {Yt) — цепь Маркова, достаточно установить, что время пребывания У1'(2*4) в состоянии 2*4 является экспоненциальным (нетрудно догадаться, что это распределение Ехр(З)). В ц.м.н.в. (Xt) время пребывания У*(2) в состоянии 2 распределено по закону Ехр(З), а время пребывания У*(4) в состоянии 4 — по закону Ехр(8). Пусть #£(2*4) —
§2.6. Инвариантные распределения счетных цепей Маркова. Цепь скачков 2 1 2 ■с • :>• 2 < • 2*4 (Yt) Рис. 2.50 момент «-го попадания в склеенное состояние 2*4 в процессе (Yt). Тогда состояние XHY(2*i) цепи (Xt) в момент Я^(2 * 4) может быть 2 или 4. Таким образом, Р(У^(2 *4) >х) = P{JYa(2 *4) >х, ХН1(Ы) = 2) + P(JYn(2*4) >*, ^(2,4) = 4). Действительно, неравенство JYn(2*A)>x означает, что процесс (Yt) не прыгает в интервале времени (Н^(2*4), Н^(2*4) + х). Но если Хнг^*4) = = 2, то процесс (Xi) не прыгает в интервале (#£(2*4), #£(2*4) + ;с). Таким образом, Р(/пу(2*4)>*Д„к(2,4) = 2) = = P(*//J<2.4) = 2) Р (У* (2 * 4) > * I *//?<2.4) = 2) = Р(^(2*4) = 2) X х Р(А"( не прыгает в интервале (#„(2*4), Я„(2*4) + х) \Хнгр*4) = 2) = = Р(^(2*4)=2)е-3*. Аналогичным образом, Р(Уяу(2*4)>*Д//]к(2,4) = 4) = Р(Л//г(2,4) = 4)х х [P(Xt не прыгает в интервале (HYn(2*4), Я^(2*4) + х) |Хну(2*а) = 4) + + P(Xt имеет единственный скачок 4—*2 в интервале (/#(2 * 4), //£(2 * 4) + х) | Х,,,^) = 4)]. Сумма в квадратных скобках равна е-** + X I 8е _8s5e_3(x_s)ds = = е -8х + 5е' "3"/ e~5s ds = <Г8х + <?-3х(1 - е~5х) = е -Зх
Глава 2. Цепи Маркова с непрерывным временем Таким образом, P(JYn(2*4) >х) = е-3*[Р(ХНг{М) = 2) + P{XHv(M) = 4)] = е~3х, поскольку сумма в квадратных скобках равна 1. Это означает, что (К/) является цепью Маркова с Q-матрицей вида QY = Из этих вычислений видно, что этот факт справедлив потому, что цепь (Xt) имеет такую же интенсивность скачков из состояния 2 в состояние 1 и 3, как и из состояния 4 в те же состояния 1 и 3 (скачок из 4 в 2 игнорируется при переходе от (Xt) к (Yt)). В отличие от этого (Z/) не является цепью Маркова, поскольку приведенное выше свойство не выполняется для состояния 1 и 4. Действительно, зададим s, t > 0 и выпустим оба процесса (Zt) и (Xt) из состояния 2. Тогда РГ7 о|у ,,, -7 пч P(Zt+I=3,Z, = l*4|Zo = 2)_ P(Z,+s_3|Zs-l*4,Z0-2)- P(Zi = U4|z0 = 2) - = P(X,+t=a,Xs=l\Xo = 2) + P(Xi+, = 3,Xs=4\Xo = 2)_ P(XS = \\XU = 2) + P(XS=4\XU = 2) Р(ЛГ. = 1|ЛГо = 2)Р(Х, = 3|ЛГо=1) P(Xs = 4\Xo = 2)P(X< = 3\Xo = 4) P(Xs=l\X0 = 2) + P(Xs=4\Xo = 2) + P(Xs=l\Xo = 2) + P(Xs=4\X0 = 2) = P(X, = 3\Xq = \) Р{Х,=3\Х0 = 4) l+q 1+?-1 Здесь q обозначает отношение P(Xs=4\X0 = 2) = (esQ)2< Q P{XS=\\XU = 2) (в»в)2Г Аналогично, выпуская процессы (Xt) и (Zt) из состояния 3, получаем P(Z,+s = 3, Zs = 1 * 41 Zp = 3) _ P(Z,= l*4|Zo = 3) _P(X,=3\Xo=l) P{X, = 3\X0 = q P(Z,+S=3|ZS = 1*4,Z0 = 3) = l+r 1+r где P(Xs = 4\X0 = 3)^(es%< P(JfI = l |Jf„ = 3) (е^)зГ Но отношения дигне равны тождественно: (е*%< . &*) 34 (в*)2| ^ (в»в)3
§2.6. Инвариантные распределения счетных цепей Маркова. Цепь скачков т. е. условная вероятность Р (Z/+s = 31 Zs = 1 * 4, Zq = i) зависит от I и условие Zo = / не может быть отброшено. Проверим, что q^r, рассматривая случай малого s: s—>0+. Полезно вычислить матрицы /6 10 4 -20\ /-22 -122 -28 172 п2_|-5 13 -10 2 V _ | 2 -10 8 0 , \ 25 463 50 -538; пз _ 25 -49 50 -26 ' W ~ I -14 46 -36 4 -5 -51 -10 66/ (нам нужны только элементы (?21, (Ф2)зь (<?2)г4 и (Q3)n). Отметим, что Более точно, элементы (esQ)u, (esQ)z\, (esQ)2i и (esQ)2\ допускают следующее разложение (е*%4 = ^((?3)з4 + 0(s4) = з7 х 4 + °(s4)- (es<3)3i = ^ (<?2)31 + 0(s3) = fj x 2 + 0(s3), (es%< = ^((?2)24 + 0(s3) = £ х 2 + 0(s3), (es(3)2i = ^(0)2i + 0(s2) = £ x 1 + 0(s2). Из этих формул вытекает, что 2 б) Уравнения детального баланса для цепи (Yt) имеют вид: 2Х1 = Хг*4, Хг*4 = ^з • Единственное нормированное решение Х = (1/5, 2/5, 2/5) задает стационарное распределение для (Yt). Стационарное распределение для (Xt) удовлетворяет условиям: щ = Х|, гсз = ^з и гсг + ^4 = ^2*4 • Легко видеть, что 17 2 1 К~\5' 20' 5' 20j' Заметим, что P(Xt = 1 \Хо= 1) = Pi(Yt = 11 Ко = 1), поскольку состояние 1 в обоих цепях (Xt) и (Yt) совпадает. Собственные значения (?у-матрицы для цепи (Yt) находятся из уравнения /-2-ц 2 0 \ det 1 -3-ц 2 =0 V 0 2 -2-ц/
Глава 2. Цепи Маркова с непрерывным временем и равны 0, —2 и —5. С помощью стандартной диагонализации находим элемент p\{(t) переходной матрицы PY(t) = exp(tQY) в виде pYn{t)=A + Be-2' + Ce-51, t^O. Константы А, В а С удовлетворяют соотношениям: A+B + C = pY](0) = \, -2Я-5С=|р[,(0) = -2, A=pYt(oo) = l т.е. В = 2/3, С = 2/15. Окончательный ответ: P(Xt = l\X0=l) = P(Yt = \\Y0=l)=ll + le-2' + ?Ee-5'. D § 2.7. Времена и вероятности достижения. Возвратность и невозвратность. Положительная и нулевая возвратность Рабочим нечего терять [в этой революции], кроме своих цепей. К. Маркс (1818-1883), немецкий философ Мы начнем этот параграф со следующего определения. Определение 2.7.1. Пусть (Xt)— (X, (?)-ц.м.н.в. (возможно, взрывная). Пусть А С/ — это некоторое подмножество состояний. Момент (первого) достижения ИА (для ц.м.н.в. (Xt)) определяют следующим образом: Д_ \ inf[^0: XtGA], если Xt G А для некоторого t^ О, ~ joo, если Х^ л W^O. ( Для того чтобы подчеркнуть связь с (А"() или (Yn), будем использовать обозначения Н\ к Ну. Повторим определение времен скачков. Определение 2.7.2. Времена последовательных скачков процесса (Xt) определяются как Уо = 0, Ji=mi[t>0:X,^X0], y2 = inf[/t>/1: X,^XJl+0], (2.7.2) Чтобы подчеркнуть, какой процесс их порождает, мы часто будем писать Если процесс (Xt) невзрывной, то, очевидно, Нх<<х>, если и только если Яу < со; действительно,//^/^,- (2.7.3)
§2.7. Времена и вероятности достижения. Возвратность и невозвратность Вероятности достижения определяются так же, как и в случае дискретного времени: hf = Pi(H$<oo) = P(H$<oo\Xo = i) = P(H$<oo\Y0 = i). (2-7.4) Как и в предыдущих параграфах, Р; обозначает распределение вероятностей ц.м.н.в. с начальным распределением 8,, т.е. цепи, выходящей из состояния L Аналогично Е,- означает математическое ожидание относительно вероятностной меры Р,-. Рассмотрим вектор-столбец hA = (hf), компоненты которого — это вероятности достижения при различных начальных состояниях. Теорема 2.7.3. Пусть (Xt) — это (к, (^)-ц.м.н.в. {возможно, взрывная). Предположим, что <7,->0 для любых состояний L Вектор /гА задает минимальное неотрицательное решение следующей системы уравнений: ihf = \, ieA, )EQ^i=(QThA)^0, iiA. (2-7-5) Доказательство. Случай i&A очевиден: hf = Р,(попасть в А) = = 1. Поэтому пусть i£A. Тогда для (8,-, />)-цепи скачков (Yn) условно, по первому скачку, можно записать ^=EfA?' т-е' -<7^? = 1>ЛЛ' или«?/И)« = 0. Таким образом, hA всегда является неотрицательным решением. Минимальность доказывается точно так же, как и в случае дискретного времени. □ Замечание 2.7.4. Заметим, что А,- = 1, т. е. вектор h= 1 всегда является неотрицательным решением, поскольку (gi)f=J>=ov/, (сумма элементов i-й строки матрицы Q). Но это решение не всегда минимально. Определение 2.7.5. Далее определим средние времена достижения: kf = EiH$ = E(H$\X0 = i). (2.7.6) Заметим, что kf могут быть бесконечными. Теорема 2.7.6. Пусть (Xt) — это (к, ())-ц.м.н.в. (возможно, взрывная). Предположим, что qi > О для всех состояний i. Вектор-столбец kA представляет собой минимальное неотрицательное решение
Глава 2. Цепи Маркова с непрерывным временем (возможно, с некоторыми бесконечными элементами kf = +со) системы kf = 0, ieA, kf=*- + Zq-±kf = - + (PkA)il i<£ А. <27-7) Я' 1ф1 Qi Я' Если kf < +00 V/, mo kA = (kf) является решением системы 'kf=0, ieA, Х>у^ = «?П = -1, it A. (27-8) Доказательство. Равенство kf = 0 для ieA тривиально. Если Xo = i t A* T0 Hx ^ tf> где J\ — время первого скачка цепи (Xt), и условно, по первому скачку, можно записать kf = Е[Е,-(//;г | состояние цепи после момента yf)] = = E[E,-(/f + (Hx —J\) I состояние цепи после момента У*)] = = L + Y«LEHx = l- + Y«LkA Qi 4т1. Я-i ' Я> 4г! Я1 ' в силу строго марковского свойства. Отсюда следует соотношение (2.7.7). Если известно, что все компоненты kf конечны, то можно переносить слагаемые из левой части в правую и наоборот. Умножение на qi приводит к соотношению (2.7.8). Докажем минимальность. Пусть g=(gi)— произвольное решение. Тогда gi = kf = 0 для ieA. Если i^ А, положим Уп = 0, и пусть У),/г. • • • — это моменты последовательных скачков. (Индекс X, указывающий на связь с (Xt), будем опускать.) Разделив на qt, перегруппируем слагаемые и получим, путем итераций уравнения, что gi равно ЦА j$A ^ k£A ' = Е/[(У1-Уо)1(Я^1)] + Е,[(У2-У1)1(//^2)]+^р17р/^-... 1НА ... = Е,[(У1-У0)1(/У^1)] + Е1[(У2-У1)1(Я^2) + ... ... + El-[(/l,-/n_1)1(//^n)]+ J2 Рч, П РШш&Ы- /1 iniA \^1<п
§2.7. Времена и вероятности достижения. Возвратность и невозвратность Если g > О, то последняя сумма неотрицательна для любого п. Тогда для tfA л п = min [n, Ну ] находим gl^EiWk-h-i)4H^>k)] = Et k=\ HZ An / J (h —h-\ k=\ = EiJH*An/"EiJH$=EiHx=kt, при «-co. □ Замечание 2.7.7. Существуют примеры, в которых средние времена k? = {°' ieA' (2.7.9) [+оо, i£A; см. пример 1.3.5. Ясно, что kf из уравнений (2.7.9) задают неотрицательное решение уравнения (2.7.7). Обратно, если любое неотрицательное решение (2.7.7) имеет вид (2.7.9), то E;tf£ = +oo, i£A. Определение 2.7.8. Пусть (Xt) — (X, ф)-ц.м.н.в. (возможно, взрывная). Состояние / G / называют возвратным (соответственно невозвратным) для ц.м.н.в. (A"(), если P,(sup[^0: Xt = i] = оо) = Р;(цепь (Xt) попадает в состояние i в сколь угодно большие моменты времени) = 1 (соответственно 0). (2.7.10) Замечание 2.7.9. Если цепь (Xt) взрывается, выходя из состояния /, то состояние i является невозвратным. Теорема 2.7.10. Пусть (Xt) — (X, (^)-ц.м.н.в. (возможно, взрывная). Предположим, что qi > О для любых состояний L Тогда а) любое состояние i e / либо является возвратным, либо является невозвратным для обеих цепей (Х() и (Yn) одновременно; б) каждое состояние цм.н.в. (Xt) является либо возвратным, либо невозвратным; в) возвратность и невозвратность являются свойствами класса для цм.н.в. (Xi) Доказательство, а) Пусть состояние / является возвратным для (Уп), т.е. выходя из /, цепь Yn = Xjn+o попадает в состояние / бесконечно часто. Тогда (Xt) не взрывается, выходя из i (время взрыва содержит бесконечно много времен пребывания в /): Р/(7"юр < оо) ^ Р,- If^Sf < оо ) = О, поскольку S, , S®, ...~Ехр(<7,) и св. S, , S2, ... независимы.
Глава 2. Цепи Маркова с непрерывным временем Заключаем, что Р,-(/я Уоо) = [, а также Yn = Xjn =i бесконечно часто. Отсюда следует, что существуют неограниченно большие t, для которых Xt = L Следовательно, i является возвратным для (Xi). Предположим теперь, что состояние / является невозвратным для (Yn). Тогда при том условии, что Xq = Уо = '■ имеем Pi(n = sup[n: У„ = /]<оо)=1. Но эту вероятность можно записать в виде Pi{t = sup[t: Xt = i]=Jn+\ <oo). Следовательно, состояние / является невозвратным для (Xj), и утверждение а) доказано. Утверждение б) следует из утверждения а) для ц.м.н.в. (X,), поскольку оно выполняется для ц.м.д.в. (Yn). Для доказательства п. в) используются те же рассуждения. □ Теорема 2.7.11. Пусть (Х() — (X, ())-ц.м.н.в. (возможно, взрывная). Для заданного состояния i имеет место следующая дихотомия. Либо а) <7,=0 [поглощение), или P,-(7f <оо) = 1; тогда состояние оо / является возвратным и Jpu(t)dt — oo. Здесь и ниже о Tf = inf[^/i: Xt = i] —время возвращения в г для цепи (Xj); (2.7.11) либо б) <7,- > 0 и P,-(7f < оо) < 1; тогда состояние i является невоз- оо вратным и f pu(t) dt < оо. о Доказательство. Случай qi = 0 тривиален, предположим поэтому, что qi >0. Если ТУ — это время возвращения в / для цепи (Yn), то события совпадают, {Tf < оо} = {7^ < оо}, и Р,(Г/г<оо) = Р,(7;у<оо). В силу теоремы 2.7.10 а состояние / является возвратным (соответственно невозвратным) тогда и только тогда, когда P(Tf <oo) = 1 (соответственно Р(7? <оо)< 1). Наконец, ОО ОО |- ОО -| Jpii(t)dt = JEi[](Xt = i)]dt = Ei j\(Xt = i)dt = оо Lo - = Е,- |"^(/я+, - J„)I (Yn = i)l = ^E(5« | Yn = i) Pi(Yn = i) = n n
§2.7. Времена и вероятности достижения. Возвратность и невозвратность О = У0 -Л h t Рис. 2.51 оо Приходим к заключению, что f pu(t)dt = 00 тогда и только тогда, когда , . о сумма Y^Pu —°Cl- Теорема доказана. П п Замечание 2.7.12. Как и в случае дискретного времени, если hjl — = Ру(цепь попадает в/) = 1 V/^i, то состояние i является возвратным. В противном случае состояние i может быть либо возвратным, либо невозвратным (оно невозвратно, если /г < 1 для некоторого ]ф1 и цепь неприводима). Точнее, Р,(время возвращения 7} < оо) = Y^ Pijhf = 1. если /ij1' = 1, )ф\, У: 1Ф1 но эта вероятность может быть меньше 1, если РуЛ.- < Р/у Л"51 некоторого /^/.Действительно, если цепь неприводима и hj'' < 1 для некоторого/^', то можно выбрать такое п, что Щ' >0. Записав Р,(существуют неограниченно большие моменты времени, когда цепь попадает в состояние /) ^ /Jpj]!"/ < У_у% = 1 (так как hf < 0. / / видим, что состояние / является невозвратным. Возвратность и невозвратность можно установить, рассмотрев дискретизацию цепи (Xt) с «шагом» h: Zn=Xnh, n = 0, 1....; (Z„) является (X, P(h)) -ц.м.д.в. (2.7.12) Назовем (Zn) вложенной ц.м.д.в. с шагом h для цепи (Xt). Теорема 2.7.13. Для любого h>0 введем цм.д.в. Zn=Xnh, тогда для любого состояния i имеет место следующее утверждение: i является возвратным (соответственно невозвратным) для цм.н.в. (Xt) тогда и только тогда, когда i является возвратным (соответственно невозвратным) для ц.м.д.в. (Zn).
Глава 2. Цепи Маркова с непрерывным временем Доказательство. Если i является невозвратным для ц.м.н.в. (Xt), то это состояние является невозвратным для ц.м.д.в. (Z„), что очевидно. Наоборот, если / является возвратным для ц.м.н.в. (Xt), то для nh<t< <(n+\)h можно записать Ри((п + \)h)^pii(t)e~qih = Pi(Xt = i и нет скачков на (t,t + h)). 1 Следовательно, i ги fV Рис. 2.52 t I V 1 I- 1 ■■ 1 I- nh (n + l)h 7 Pii(t)dt^he"!h^2pu(nhl т. е. состояние i является возвратным и для ц.м.д.в. (Zn). П Определение 2.7.14. Предположим, что (X, ф)-ц.м.н.в. (Xt) неприво- дима. Назовем цепь (Xt) (или ее Q-матрицу) возвратной, если каждое состояние i возвратно. Теорема 2.7.15. Пусть матрица Q неприводима и возвратна. Тогда инвариантная мера X,-, удовлетворяющая условию XQ = 0, единственна с точностью до множителя. Доказательство. Случай, когда ц.м.н.в. имеет единственное поглощающее состояние, тривиален, поэтому предположим, что <7,->0 Д-пя всех /. Тогда матрица переходов для цепи скачков P = (qij/qi, i^j) возвратна. Ввиду теоремы 1.7.5 все инвариантные меры ц = (ц,) для ц.м.д.в. (Y„) пропорциональны. Таким образом, для ц.м.н.в. (Xt) все инвариантные меры Х = (X,), \i = [ii/qi, также пропорциональны. □ Теорема 2.7.16. Пусть цм.н.в. (Xt) неприводима. Тогда если (Xt) возвратна, то она невзрывная, т. е. если J\ < h <... — моменты скачков, то для всех состояний i выполняется равенство Р,-( lim /„ = оо) = 1.
§2.7. Времена и вероятности достижения. Возвратность и невозвратность Доказательство. Для возвратной ц.м.н.в. (Xt) любое состояние i возвратно и для цепи скачков (Yn). Пусть 5g , SJ'',... —последовательные времена пребывания в состоянии /. Тогда lim Jn> lim(5?)+... + Sj')) = oo п.н., л—»оо п—too ' так как (Sk)— н.о.р.с.в. с распределением Ехр (q,). □ Далее, будем предполагать, что ц.м.н.в. (Xt) неприводима и все <7, > 0. Таким образом, если ц.м.н.в. (Xt) возвратна, то она невзрывная. Напомним, что состояние i возвратно, если и только если Р,-(7} < оо) = = 1. Определение 2.7.17. Будем говорить, что состояние i положительно возвратно для ц.м.н.в. (Xt), если mi = Bl(Ti)<oo, (2.7.13) и нулевое возвратное, если Р(7";<оо) = 1, нот, = оо. (2.7.14) Здесь и далее Е, обозначает математическое ожидание по вероятностной мере Р/ ц.м.н.в., выходящей из i. Как мы увидим в теореме 2.7.18, если цепь является неприводимой и возвратной, то имеет место дихотомия: либо все состояния являются положительно возвратными, либо имеют нулевую возвратность. В первом случае мы говорим, что цепь (или ее Q-матрица) является положительно возвратной, во втором случае она имеет нулевую возвратность. Теорема 2.7.18. Пусть (X, Q)-u.M.H.e. (X() неприводима и возвратна. Тогда а) или каждое состояние i положительно возвратно, или каждое состояние i имеет нулевую возвратность. б) Q-матрица является положительно возвратной тогда и только тогда, когда она имеет (единственное) стационарное распределение ТС = (щ), U тс/>0 и m,- = — V/. (2.7.15) Доказательство. Для заданного / запишем т, в виде: т-, = среднее время возвращений в /= среднее время пребываний в i + + у^ (среднее время, проведенное в /' до возвращения в i).
Глава 2. Цепи Маркова с непрерывным временем Первое слагаемое равно qi . Поэтому положим у, = —, и пусть Qi У; = Е,(время, проведенное в / до возвращения в /') = Ti "I оо (\{Xt=j)dt =JEi\(Xt=j, = Е, ]\<t<Ti)dt, ]ф1. (2.7.16) Тогда m, +Ет/: < со, если состояние i положительно возвратно, /: 1Ф1 оо, если состояние t имеет нулевую возвратность. Таким образом определяем вектор у = (у;) (или у' = (yj), поскольку он зависит от выбора /). Далее, если TJ— время возвращения в состояние ■/ для цепи скачков (У„), то Y/ = E, £(/„+!-/я)1(Уя=/,п< 7?) л=0 -ТЕ,[(/л+, - 1п) | Yn =/] P,(Y„ =/, U«<rf): '—'-у ^ '*■ „ ' Ei\(Y„=j,i^n<Tr) ■T?-l n=0 *E> £l(Kn=/\ Urc<7f) n=\ =tE' 53ку«=/) n=\ ■ V <?/' Здесь полагаем у/ = 1 и Ту = Е,- л=1 = Е,(время, проведенное в/ цепью (У„) До возвращения в i) — = Е,(число посещений состояния / перед возвращением в /) (2.7.17) для/V'; ср. с уравнением (1.7.2). Будем писать у' = (у' /G/), чтобы подчеркнуть зависимость вектора у от выбора /. Если ц.м.н.в. (Xt) возвратна, то ц.м.д.в. (Yn) также возвратна. Тогда по теореме 1.7.1 для всех состояний i вектор y' = (yj) задает инвариантную
§2.7. Времена и вероятности достижения. Возвратность и невозвратность меру для ц.м.д.в. (Yn) и 0<yj<co V/. Далее, все инвариантные меры для (Yn) пропорциональны у'. Поэтому вектор у' = (у.), уу = у]/<7/, задает инвариантную меру для ц.м.н.в. (Xt); все такие инвариантные меры вновь пропорциональны у'. (В частности, у' = у^ х у*, для любых состояний i, k.) Далее, если состояние / положительно возвратно, то Но тогда mk = ^ Y* < °° Vft. т. е. все состояния являются положительно возвратными. Аналогично если / имеет нулевую возвратность, то таковы все состояния k. Мы получили, что положительная возвратность и нулевая возвратность являются свойствами класса, т.е. установили утверждение а). Если матрица Q положительно возвратна, то щ — -гг— = задает (единственное) стационарное распределение л. i Очевидно, Tt,->0 для любого состояния /. Более того, у* = т^л, т.е. Е*.(время, проведенное в / до возвращения в k) = —'—; (2.7.18) ср. с уравнением (1.7.10). Обратно, если ц.м.н.в. (Xt) имеет инвариантное распределение тс, то для всех инвариантных мер Х = (Х() справедливо неравенство ^Ху<оо, т.е. /' для всех состояний / вектор у' = (у!) удовлетворяет условию т, = ^у'< <оо. Таким образом, i положительно возвратно, откуда следует п. б). □ Дадим краткое резюме свойств возвратности и невозвратности ц.м.н.в. I. Неприводимые ц.м.н.в. с более чем одним состоянием имеют интенсивности <7;>0 для всех состояний / (поглощение отсутствует). II. Неприводимые невзрывные ц.м.н.в. могут быть невозвратными или возвратными: а) в первом случае Р,-(время возвращения 7/ < со) < 1, т.е. Р,(7'; = = со) > 0 для всех i, или, что эквивалентно, Р, (/ не посещается цепью (Xt) после некоторого конечного момента времени)= 1
Глава 2. Цепи Маркова с непрерывным временем и Jpu(t)dt<oo V/, или, что эквивалентно, hj'' — Ру(достичь /) < 1 о для некоторых / и /; б) во втором случае Р,(время возвращения 7,-<со) = 1, т.е. Р;(7; = — оо) = 0, или, что эквивалентно, Р,- (существуют сколь угодно большие моменты времени, в которые / посещается цепью (Х/)) = 1 00 и Jpu(t)dt — oo V/, или, что эквивалентно, hV' = Ру (достичь /) = о = 1 V/ и /; в этом случае для любого / вектор у' = (Y/) из соотношения (2.7.15) удовлетворяет условию 0<у)<оо, что и задает инвариантную меру для ц.м.н.в. (Xt); все такие инвариантные меры имеют вид ау'; в частности, у* = (y'k)~l х у' Vi, k. III. Далее, неприводимая возвратная ц.м.н.в. может иметь а) нулевую возвратность: т, = Е,-(время возвращения 7,) = оо Vi; в этом случае не существует такой инвариантной меры Х = (Х,), что ^ХуОо; следовательно, в этом случае не существует стационар- / ного распределения; б) положительную возвратность: т, < оо Vi; в этом случае для всех инвариантных мер Y^j < со и существует единственное стационарное распределение л = (л,-), где л,- = ^=гт- > О V/; в этом случае у* = т^л, i Е,Т/ = — и ЕДвремя в /' до момента 7,) = —— V/, k. Конечные неприводимые ц.м.н.в. всегда положительно возвратны. IV. Неприводимые взрывные ц.м.н.в. всегда невозвратны. Сформулируем без доказательства полезный результат о асимптотических пропорциях для ц.м.н.в. Теорема 2.7.19. Пусть (Xt) — неприводимая положительно возвратная (X, Q)-u,.M.H.e. со стационарным распределением л = (л,). Тогда для любых состояний i ч t \(Xs = i)ds = ° пн 1 = доля времени, проведенного в / на отрезке (0, t) -^+л,- = = rmqi _ среднее время, проведенное ъ i /п 7 10Л среднее время возвращения в/
§2.7. Времена и вероятности достижения. Возвратность и невозвратность при t —> оо. Справедливо также соотношение для среднего t t -t Е Г1 (Xs = 0ds = | JP(XS = i)ds -»щ. (2.7.20) о о В частности, для неприводимой положительно возвратной (8;, 0)-Ц.М.Н.в. t t l1Eif\(Xs = i)ds = ~ Ipa(s)ds -7Г,, (2.7.21) откуда видно, что интеграл jpu(s)ds линейно растет при t—юо. о Замечание 2.7.20. Уравнение (2.7.20) можно вывести из утверждения теоремы 2.8.1 ниже; см. уравнение (2.8.1). /-6 2 0 0 0 1 \о 2 -3 1 0 2 2 0 0 0 -5 0 2 0 1 0 0 1 0 0 0 0 0 0 2 0 -6 0 1 4 1 0 0 0 -3 0 °\ 0 1 0 2 0 -V Remember this: if something possesses a frequency, then it will eventually occur with that frequency. (Из серии «Так говорил суперлектор».) Пример 2.7.21. а) Рассмотрим ц.м.н.в.: {Xt)t^o с состояниями {1, 2, 3, 4, 5, 6, 7} и генератором <? = Вычислите вероятность того, что процесс, выходя из состояния 3, когда- нибудь попадет в состояние 2. Получите, что HmP(Xt = 2\Xo = 3) = ± /—too 10 б) Группа клеток состоит из молодых и взрослых клеток. Спустя некоторое время (экспоненциально распределенное с параметром 2) каждая молодая клетка становится взрослой. Спустя некоторое время (распределенное по Ехр(З)) взрослая клетка делится на 2 молодые. Предположим, что вначале имеется одна молодая клетка, и пусть n(t) — среднее число молодых клеток в момент t. Покажите, что /г(0 = (4е' + Зе"6')/7.
Глава 2. Цепи Маркова с непрерывным временем Решение, а) Состояния 1,2,6 образуют замкнутый сообщающийся класс; если ц.м.н.в. (Xt) туда попадает, то остается там навсегда. Другой замкнутый сообщающийся класс состоит из состояния 4; состояния 3, 5, 7 образуют открытый сообщающийся класс. Из состояния 3 можно попасть в {1, 2, 6} только через состояние 2; см. рис. 2.53. Рис. 2.53 Положим Л( = Р,(попасть в 2). Тогда 5/i3 = l+2/z5 + /z7, 2Й7=Йз + Л5, 6/z5 = 2 + 2/i3 + 2/z7, поэтому 10/l3 = 2 + 4/l5+/t3 + /l5, 6/z5 = 2 + 2/z3 + /z3 + /z5 и 9/z3 = 2 + 5/i5, 5/i5 = 2 + 3/i3, или 9/i3 = 4 + 3/i3, 6/1з = 4 и/i3 = |. Благодаря симметрии цепь скачков на {1,2,6} имеет инвариантную меру (1, 1, 1), и, рассуждая стандартным образом, мы получаем, что ц.м.н.в. №)/^0 имеет стационарное распределение I ■=, ■=, ■= ). Таким образом, limP№ = 2|X0 = 3) = /i3*2 = ^. б) Обозначим через m(t) среднее число взрослых клеток в момент t при условии, что изначально в момент 0 была одна молодая клетка. Рассматривая условные вероятности по первому событию, мы получим,
§2.7. Времена и вероятности достижения. Возвратность и невозвратность что среднее число n(t) молодых клеток в момент / равно n(f) = e-'zt+ J2e-2sm{t-s)ds о m(t)= (?>e-Zs2n{t-s)ds. Значит, e2tn(t) = 1 + f 2e2um(u)du, e3tm{t) = f6e3un(u)du n + 2n — 2m, m + 3m = 6n, h + 2n = 2th = \2n - 6m = \2n — 3n — 6n. Таким образом, Значит, n + Ъп -6л = 0, л(0) = 1, л(0) = -2. n(t) = Ael + Be-6', где 1=А+В, -2=А-ЪВ. Тогда 4 3 -2 = Л-6 + 6Л, 7Л = 4, откуда следует, что А = ■=, & = ■=. О Пример 2.7.22. Частица совершает непрерывное во времени блуждание по ближайшим точкам на правильной треугольной решетке внутри угла величиной тс/3, причем выходит из вершины угла. Интенсивности скачков из этого угла решетки равны 1/3. В дальнейшем, если частица находится внутри угла, то интенсивности равны 1/6 в любом из 6 направлений. Однако если частица попадает на сторону угла, то она двигается по этой стороне угла в направлении от вершины с интенсивностью 1/3 и с интенсивностью 1/6 в любую из трех оставшихся вершин внутри угла; см. рис. 2.54. В момент времени <>0 положение частицы определяется ее вертикальным уровнем Vt и ее горизонтальной позицией Gt\ если Vt = k, то G/ = 0,..., k. Здесь 1,..., k - 1 — позиции внутри угла, а 0 и ft — позиции на стороне угла на вертикальном уровне k.
Глава 2. Цепи Маркова с непрерывным временем 1/6 1/6\f 1/3 1/3 ^1/3 Рис. 2.54 Пусть J\, J%, ... —моменты последовательных скачков процесса (Vt). Рассмотрим вложенный процесс с дискретным временем. где 1) Vn — вертикальный уровень сразу же после момента /^, 2) G" — горизонтальный уровень сразу же после момента J%, 3) G°ut — горизонтальный уровень непосредственно перед моментом J%+i. а) Поясните, почему (У„п) и (Y°ut) являются цепями Маркова. б) Докажите, что (Vn) — ц.м.д.в. с переходными вероятностями P^ = *+HU-i=*) = 2^y, P(?. = ft-l|?e_,=ft) = ^. а (V;) — ц.м.н.в. с интенсивностями _ k _ 2 _ k+2 дкк-{-щТТу Чкк — у ^+1~з(йТТ)- Определите, являются ли ц.м.д.в. (Vn) и ц.м.н.в. (V/) невозвратными, положительно возвратными или они имеют нулевую возвратность. в) Предположим, что при условии, что фиксированы V„ = k и последовательность пройденных ранее вертикальных уровней, горизонтальные позиции G„n и G°ut равномерно распределены на {0,..., k], т. е. для всех достижимых значений k, kn-\, ..., k\ и всех t = 0,..., k выполняется pa-
§ 2.7. Времена и вероятности достижения. Возвратность и невозвратность венство P(G^ = i\Va = k,Va-i=k„-U...,Vi=ki,V0 = ko) = = P(G°ut = i\Vn=:k,Vn-.i=kn-l,...,Vl=kuV0 = ko) = k+\ (2.7.22) Выведите, что тогда ц.м.д.в. (Vn) и ц.м.н.в. (V/) имеют переходные вероятности, указанными в п. б). Наконец, докажите свойство (2.7.22) для ц.м.д.в. (У„п) и ц.м.н.в. (Y°ul). Решение, а) Св. (У„п) образуют ц.м.д.в., поскольку вероятность перехода из состояния У^п_1 = (i„_i, kn-.\) в состояние Y™ = (in, kn) полностью определяется парой (i„-\, &л-0 и не зависит от предыдущих значений У^, У™-2< ••• То же справедливо и для св. (У°и1). Заметим, что Vn = Vn-\ ± 1, т. е. скачок всегда происходит на ближайший соседний вертикальный уровень. б) Выведем формулу для вероятностей достижения hi = P(Vn попадет в 0| Vo — i), i = 0,1,..., /го=1. Если мы покажем, что h\ < 1, то автоматически получим, что P(Vn возвратится в 0| Vb = 0) < 1, т.е. 0 является невозвратным состоянием. Так как ц.м.д.в. (Vn) неприво- дима, она невозвратна. Рассмотрим уравнения для вероятностей достижения: л* = 5х*+1 /гА_1 + 2 x^-j-jAft+i, k^l, и перепишем их в терминах разностей Uk = hk-\ -hk- Получим ик+\ = т-Го"*' т-е- k + 2 (ft-l)...l Uk= Д , ,w o«l = - (*+!)*...3 ' k(k + \) "i- Тогда, как обычно, hk = -uk-...-u\ + \ = \-{\-h\) i=i 1+2Етттш =i+2<i-ai)£ 1 /=i /(/+!)' и минимальное решение равно к /=1 '/ т=\ 1 т(гп+\у k>\.
Глава 2. Цепи Маркова с непрерывным временем Поэтому ''-'-(J/tssJTnb- Таким образом, ц.м.д.в. (Vn) невозвратна. Так как эта цепь является цепью скачков для (Vt), получаем, что ц.м.н.в. (Vt) также невозвратна, в) Ввиду соотношения (2.7.22) запишем P{Va = i\V„-l=k„..l Р0 = 0) = = ^P(Vn = k,G^.l=j\V„-l=ktt-i V0 = 0) = *л-1 = r^xY/P(Vn = k\Gonull=j,Vn-]=kn_u...,V0 = 0). /=0 Далее, P(V„ = k\G?±l=j,Va-\=k„-l V>o = 0) = {3/4, если / = 0 или kn-\ и k = k„-\ + 1, 1/4, если / = 0 или kn-\ и k = kn-\ - 1, 1/2, если/'=1, ..., *„_i -1. Мы использовали вероятности скачков {1/4,1/4,1/4,1/4} и {1/2,1/4,1/4}, полученных из интенсивностей {1/6, 1/6, 1/6, 1/6, 1/6, 1/6} и {1/3, 1/6, 1/6, 1/6} после отбрасывания интенсивностей в горизонтальных направлениях, см. рис. 2.55. 1/2 1/4 1/4 1/4 1/4 1/2 • • • • • • • • • • 1/4 1/4 1/4 1/4 Теперь Рис. 2.55 P(Vn = k+\\Vn-X=k Ц, = 0) = ±х£|у, P(U = *-1|9„_,=* ^0 = 0) = ^^,
§2.7. Времена и вероятности достижения. Возвратность и невозвратность т.е. св. (Vn) образуют ц.м.д.в., как и предполагалось. Следовательно, св. (Vt) образует ц.м.н.в. Времена пребывания распределены экспоненциально ~Ехр(2/3), а интенсивности переходов определяются соотношением 1 k + 2 3 k + l , если / = k + 1, №=^3ХШ' если/ = й-1, k^l, 2 '3' если l — k, и qo\ = -<7oo = 2/3; см. рис. 2.56. 1/6 к/Цк + 1) (ft + 2)/3(ft + 1) Рис. 2.56 Докажем соотношение (2.7.22) индукцией по п: при п = 1 предположение, очевидно, выполнено для G„ut, а также для G£, поскольку вероятности переходов из угла равны 1/2. Далее, запишем P(G" = i\Vn = k, V„-i=k„-i,...,Vi=kl,V0 = 0) = _P№ = (i,k)\Vn-l=k„-i,...,Vl = kl,V0 = 0) . (2.7.23) P(Vn = k\V„-i=k„-i V0 = 0) Чтобы завершить индукцию для G„n, достаточно проверить, что числитель P(Kl,n = (i,*)|9„_,=*„_b...,Vb = 0) (2.7.24) не зависит от i = О,..., &„_ i. Как мы заметили выше, значение k может равняться k„-\ + \ или fc„_i —1. Представим выражение в правой части равенства (2.7.23) как сумму 5]Р(УВ = (/, *),G™J,=/|P„_i =*„_!,..., Vo = 0). (2.7.25) У=о По предположению индукции условное распределение G°^, равномерно. Далее, заметим, что число ненулевых слагаемых в сумме (2.7.25) равно 1 или 2, в зависимости от L Тем не менее, коэффициенты могут быть
Глава 2. Цепи Маркова с непрерывным временем P(Vn- 1=*л-Ь • X « ...Vb = 0)x Г1 1 2 *„-| + Г Г1 1 l\x l [U ' 4ГЧ-1 + 1 подобраны так, что сумма не будет зависеть от L Точнее, рассуждая как и выше, получим, что сумма (2.7.25) равна если й = й„_1 + 1 и i = 0 или k, если k = й„_ | + 1 и / = 1 k — l, если k = kn_ i - 1 и / = 0,..., k. Мы видим, что вероятность (2.7.23) действительно не зависит от i, что доказывает равенство P(G^ = i\Vn = k,Vn-l=kn-i,...,Vi=kl,V0 = k0) = J~1, i = 0,...,k. Остается проверить аналогичное равенство для G°ut. Но между моментами времени J% и J%+1 случайное блуждание совершает только горизонтальные скачки, оставаясь на вертикальном уровне kn = k. Эти скачки имеют одинаковую интенсивность 1/6 и сохраняют равномерное распределение. (Горизонтальное случайное блуждание обратимо, и равномерное распределение удовлетворяют уравнениям детального баланса с семейством постоянных интенсивностей.) Таким образом, условное распределение G°ut также равномерно. □ § 2.8. Сходимость к инвариантному распределению. Обратимость Action is transitory, — a step, a blow, The motion of a muscle, this way or that —... Suffering is permanent, obscure and dark, And shares the nature of infinity. Действие мимолетно — шаг, дуновение, Движение мускула, выбор пути — ... Страдание постоянно, темно и мрачно, Оно подобно природе бесконечности. В. Вордсворт (1770—1850), английский поэт В этом параграфе рассматриваются только неприводимые и невзрывные ц.м.н.в. (Л/). Начнем с аналога теоремы 1.9.2.
§2.8. Сходимость к инвариантному распределению. Обратимость Теорема 2.8.1. Для положительно возвратной неприводимой цм.н.в. (Xt) справедливо соотношение Pij(t) —> тсу при t —► оо (2.8.1) для любых состояний i, j. Иными словами, переходная матрица P(t) сходится при t—>оо к матрице с постоянными элементами вдоль столбцов, строки которой совпадают с вектором к: (- я(0- \я V ) Здесь л = (л,-) — (единственное) инвариантное распределение цепи. Доказательство опускается, т. к. оно напоминает доказательство теоремы 1.9.2. Замечание 2.8.2. Сравнивая с результатом для ц.м.д.в. (см. теорему 1.9.1) заметим, что здесь не упомянуто условие апериодичности. Действительно, любая ц.м.н.в. (Xt) является апериодичной. Более того, /г-дис- кретизированная вложенная ц.м.д.в. (Z„), где Zn=Xnh, всегда апериодична для любого h > 0. Следовательно, если л является инвариантным распределением для /г-дискретизированной цепи (Z„), то к будет инвариантным распределением для ц.м.н.в. (Xt), и при наличии сходимости Р(пп)—>Н при п —> оо имеет место сходимость P(t) —► П при t —> оо. С другой стороны, цепь скачков (У„) может быть периодической, например Очевидно, степени Р" не сходятся при п —► оо. Тем не менее, в непрерывном случае генератор равен Q= ( „ „) и переходная матрица имеет вид P(t) = а+р а + р а е-(«+рк> Р \а + р а + р Р_е-(«+Р)< а | Р „ с-<«+вц а + р^а + р' ► П = при /—>оо. \а+р а+р
Глава 2. Цепи Маркова с непрерывным временем 0 V ;\,/\д,д • • • Рнс. 2.57 Замечание 2.8.3. Заметим, что для неприводимой положительно возвратной ц.м.н.в. (Xt) предельная матрица П = (тс,у) существует и является стохастической (это следует из теоремы 2.8.1). Тогда строки матрицы П должны задавать инвариантное распределение для ц.м.н.в. {Xt). Действительно, UP{t)= lim P(s)P{t)= lim P(s + t) = IL и UP{t) = UQP(t) = 0\/t^O. s—та s—>oo Для / = 0 получаем IIQ = 0. Значит, каждая строка предельной матрицы П является инвариантным распределением для Q. Для неприводимой положительно возвратной цепи существует единственное инвариантное распределение тс, и поэтому все строки равны тс. Обратно, предположим, что для ц.м.н.в. (Xt) матрица перехода P(t) сходится при t—>oo к предельной стохастической матрице Р(оо), строки которой совпадают со стохастическим вектором тс. Тогда тс является единственным стационарным распределением и ц.м.н.в. имеет единственный замкнутый сообщающийся класс, значит, она положительно возвратна. Определение 2.8.4. Невзрывная (X, (?)-ц.м.н.в. (Xt) называется обратимой, если для всех Т>0, п= 1, 2,..., и моментов времени 0 = to<t\ < <...<tn = T совместное распределение Xo = Xto, Xt], ..., Х1п=Хт такое же, как и распределение Xt = Xt-i0, Хт-^, ..., Лт-гл =^о. т.е. для любых состояний /о. • ■ •. in выполняется равенство P(Xo = io,Xtl=il,...,XT = ia) = P(Xo = i„,...,XT-t,=il,XT = io)- (2.8.2) Более кратко, №,(КК7)~(ХГ_,,(ККГ). (2.8.3) Иными словами, на любом отрезке [О, Т] процесс стохастически не меняется при изменении направления отсчета времени. Уравнения (2.8.2) и (2.8.3) означают, что «зеркальное отображение» траектории имеет тот же вероятностный вес, что и начальная траектория в «прямом времени».
§ 2.8. Сходимость к инвариантному распределению. Обратимость Хо-^ ^ ' прямое —о время обращенное Рис. 2.58 зеркальный образ l0 -r '2 ... ... «2 'T j0 ( 1 1 1 D> i 1 ' 1 C> 0 = t0 Л h T 0 T-h T-U T время прямое Рис. 2.59 Правая часть соотношения (2.8.3) определяет распределение обращенного во времени (относительно точки Т) процесса (Х\еу, O^t^T): P(XF = io,X™ = h Xf = i„) = P(X0 = i„,... ДМ|=«'|Дг = «о), (2.8.4) и обратимость означает, что (Xt, 0 ^ ^ Т) ~ (Xr-t, 0 ^ / ^ Т) VT > 0. Заметим, что из обратимости следует равенство Х(? = 0, т.е. Х = л,— инвариантное распределение ц.м.н.в. (как и для ц.м.д.в.). Но (вновь как и в случае дискретного времени) это означает, что имеет место более сильное свойство, а именно, X находится с Q в детальном балансе. Теорема 2.8.5. Невзрывная (к, Q)-u,.M.H.e. (Xt) обратима тогда и только тогда, когда справедливы следующие уравнения детального баланса: \iqtj = Ху<7у; для любых состояний/,/, г 7^/. (2.8.5) Доказательство. 1. Необходимость: предположим, что выполнены уравнения детального баланса (очевидно, уравнение (2.8.5) выполнено при /=/). Тогда X является инвариантным распределением: для любого состояния / выполняется равенство (kQ)j = V"X,<7,7 = Xy У\/| = 0 (сумма берется по строке г). (2.8.6) /6/ ' По индукции уравнения детального баланса справедливы для всех степеней Q: ^)=^Е^",)^=Е^^Г1,=Е^Г1)^/=^ (*-о
Глава 2. Цепи Маркова с непрерывным временем Следовательно, уравнения детального баланса справедливы для матрицы переходных вероятностей P(t) = e'°: hPij(t) = ^jPji(t), Для любых состояний i,j и ^>0. (2.8.7) Проверим условие (2.8.2): для всех 0 = /о < h <...<tn< tn+\ = Т и состояний г'о, /[,..., in+\ выполняется равенство P(Xtk = ik, 0^k^n) = P(XT-tk=ik, O^k^n). (2.8.8) С учетом соотношения (2.8.7) получаем, что левая часть (2.8.8) равна hoPkh (*l ~ t0)pilh(t2 - *l) • ■■Pin-\i„(tn ~ tn-l) = = Piti0{t\ ~ to^Pititfo ~ t\) ... Pin_tin{tn ~ tn-l) = = ■ ■ ■ =/>in'o(*l - to)Pi2i, (h ~ *l) ■ --Plnin-y (*n ~ tn-l)h„- Переупорядочим правую часть: KPUh-i(tn-tn-\)-~Pi,i0(h ~ Ы = P(XT-tt =ik, (K * <n). 2. Достаточность: предположим, что выполнено условие (2.8.2). Тогда для п=\ и io = i, /o=/ получаем соотношение (2.8.7): XiPij(T) = XjPji(T). Продифференцируем по Т и положим 7, = 0; учитывая, что pt(Q) — qij, получаем соотношение (2.8.5). □ Замечание 2.8.6. Уравнения детального баланса — это удобный инструмент для отыскания стационарного распределения (или, более общим образом, инвариантной меры). Поэтому если нельзя найти стационарное распределение (или инвариантную меру) из уравнения Х(? = 0, постарайтесь решить уравнения детального баланса. Если это удается, то достигаются сразу две цели: находится инвариантная мера (и с помощью нормализации находится стационарное распределение, если это возможно), и доказывается обратимость. Замечание 2.8.7. Что происходит, если для заданной ц.м.н.в. уравнения детального баланса не выполняются? Тогда обращенный во времени процесс (Xfw, 0 ^ ^ Т) отличается от исходной цепи {Xt, O^t^T). Тем не менее, процесс (XJev, 0^ /^ Т) является ц.м.н.в., только неоднородной, с переходными вероятностями pr-?{t, t + s), зависящими от «начального» и «конечного» моментов времени /, t + s. Иными словами, эти вероятности зависят от начального момента t и прошедшего времени s (как и в неоднородном ПП(Х(/)) из §2.4; ср. с уравнением (2.4.7)). Точнее, для любых 0~to<t\<...<tn<t<t + s<T и любых состояний to,..., /я,/,/
§2.8. Сходимость к инвариантному распределению. Обратимость условные вероятности определяются по формулам Р№+. =/' I *Г = i и Xtk = ik, 0 < к < п) = = P(x?;s=j\xr = i) = Рр*х~'~'=£р№:=рТ(''t + s)- (2-8-9) Здесь pij{s) — переходные вероятности для изначальной ц.м.н.в. (Xt). Интересно, что если цепь (Л"/) находится в состоянии равновесия, то P(XT-t-s=j) = Ki, P(XT-t = i) = Ki и p^(t,t + s) = TZjPii(s)/iii теряет свою зависимость от /. Это означает, что в таком случае (X™) однородная ц.м.н.в. с Prev(<) = (TZjPji(t)/iZi) (заметим, что сумма по / равна 1). Очевидно, Qrev = (тсу^/гс,) (с суммой по /', равной 0). Однако для того чтобы гарантировать совпадение цепей (Xfev) и (Xt), нужно более сильное свойство детального баланса, которое приводит к равенствам (?rev = (? и Prev(/) = = P(t) для любых t > 0. Пример 2.8.8. Если процесс рождения и гибели (ПРГ) положительно возвратен, то он обратим. Действительно, уравнения детального баланса для процесса рождения и гибели могут быть легко решены с помощью рекурсии. В самом деле, для процесса рождения и гибели (Ху, (i^) имеем <7//+i=Xy, 9/+i/=li/+b /' = 0,1,... (2.8.10) и уравнения детального баланса приобретают вид ГС0Хо = Гц(!1, ТС|Х] =712Ц2, •■-, (2.8.11) откуда следует, что . _Ч, XqXi Xq . ■ ■ Х;_ 1 /п о | о\ tci = —— Tt0, TC2 = -—— "о. ■••> Ki~T, ГГ^0' (2.8.12) При этом если ряд, составленный из элементов (2.8.12), сходится, т.е. то решение гс,- задается равенствами Хо — Х,-_ 1 /. v—* тт X,- TCj = -1114 ,*+Е П — . ^i- -1 -1 (2.8.14) Замечание 2.8.9. Отыскание решений уравнений детального баланса— лишь полдела. Нужно также гарантировать, что ПРГ(Х^, (i*) невзрыв-
Глава 2. Цепи Маркова с непрерывным временем Следовательно, уравнения детального баланса справедливы для матрицы переходных вероятностей P{t) = etQ: ~^iPij{t) = ^-jPji(f), для любых состояний/,/и/>0. (2.8.7) Проверим условие (2.8.2): для всех 0 = to<t\ <...<tn< tn+\ = Т и состояний г'о. i\, ■■-, 'n+i выполняется равенство P(Xlt =ik,0^k^n) = P(XT-tk = i*. 0 < * < n). (2.8.8) С учетом соотношения (2.8.7) получаем, что левая часть (2.8.8) равна hoPioh (*1 _ tdPhkih ~ h) ■ ■■Pi„^,i„(tn ~ tn-\) = = Pi\iS\ - WhiPhiiih ~ t\). ■■Pl„_ii„{tn ~ tn-\) = = • • • =/>Mo('l - *о)РЫ, (h ~t\). ••/'/„<„_, (tn ~ tn-\)h„- Переупорядочим правую часть: KPUn-,У* ~ *п-\)-■■Pilh(ti - *о) = P(*r-r* =ik, O^k^n). 2. Достаточность: предположим, что выполнено условие (2.8.2). Тогда для л= 1 и io = i, /о=/ получаем соотношение (2.8.7): hPij(T) = bjPji{T). Продифференцируем по Т и положим 7=0; учитывая, что pij(0) = qij, получаем соотношение (2.8.5). □ Замечание 2.8.6. Уравнения детального баланса — это удобный инструмент для отыскания стационарного распределения (или, более общим образом, инвариантной меры). Поэтому если нельзя найти стационарное распределение (или инвариантную меру) из уравнения Х(? = 0, постарайтесь решить уравнения детального баланса. Если это удается, то достигаются сразу две цели: находится инвариантная мера (и с помощью нормализации находится стационарное распределение, если это возможно), и доказывается обратимость. Замечание 2.8.7. Что происходит, если для заданной ц.м.н.в. уравнения детального баланса не выполняются? Тогда обращенный во времени процесс (X™, O^t^T) отличается от исходной цепи {Xt, 0 < t < 7). Тем не менее, процесс (Xrtev, Q^t^T) является ц.м.н.в., только неоднородной, с переходными вероятностями p]f(t, t + s), зависящими от «начального» и «конечного» моментов времени /, t + s. Иными словами, эти вероятности зависят от начального момента t и прошедшего времени s (как и в неоднородном ПП(Х(£)) из §2.4; ср. с уравнением (2.4.7)). Точнее, для любых 0 = to<t\ <...<tn<t<t + s<T и любых состояний /о. • • •. in, i, I
§2.8. Сходимость к инвариантному распределению. Обратимость условные вероятности определяются по формулам Р(Х%, = /1ХГГ = inXli = ik,0^k^n) = =Р№е;=/i*r=о=Рр*х~'~'=1)Pii{s):=^V{t't+s)- (2-8-9) Здесь Pij(s) — переходные вероятности для изначальной ц.м.н.в. (Xt). Интересно, что если цепь (Х{) находится в состоянии равновесия, то P(XT-t-s=j) = Kh P(Xr-t = i) = Ki и p\f{t, t + s) = Kjpji(s)/Ki теряет свою зависимость от /. Это означает, что в таком случае {X\ev) однородная ц.м.н.в. с Prev(t) = (KjPji(t)/Ki) (заметим, что сумма по/ равна 1). Очевидно, (?rev = (гс/<7/; АО (с суммой по /, равной 0). Однако для того чтобы гарантировать совпадение цепей (XTtev) и (Xt), нужно более сильное свойство детального баланса, которое приводит к равенствам Qrev = Q и PKV(t) — = P(t) для любых t > 0. Пример 2.8.8. Если процесс рождения и гибели (ПРГ) положительно возвратен, то он обратим. Действительно, уравнения детального баланса для процесса рождения и гибели могут быть легко решены с помощью рекурсии. В самом деле, для процесса рождения и гибели (X/, \±k) имеем Чц+\ = ХУ- 9/+1/ = H/+I. У = 0, 1.... (2.8.10) и уравнения детального баланса приобретают вид n0Xo = 7Ii^i, 7I1Xi=Tl2(j12, ••-, (2.8.11) откуда следует, что К\ = —Ко, К2 = ——Ко, ..., П/ = — —ко, ■•■ (2.0.12) При этом если ряд, составленный из элементов (2.8.12), сходится, т.е. Е П ^<~. (2-8.13) то решение я,- задается равенствами 4 л^1 1</'<п (2.8.14) Замечание 2.8.9. Отыскание решений уравнений детального баланса— лишь полдела. Нужно также гарантировать, что ПРГ(Х*, ^) невзрыв-
Глава 2. Цепи Маркова с непрерывным временем ной: только тогда решение (2.8.14) даст истинное стационарное распределение, а значит, определит обратимую ц.м.н.в. Элегантное необходимое и достаточное условие10, обеспечивающее положительную возвратность, а следовательно, и обратимость, состоит в том, чтобы дополнить соотношение (2.8.14) требованием расходимости рядов т.е. при условии (2.8.15) стационарное распределение 7i = (7i,) из формулы (2.8.14) — истинное стационарное распределение ПРГ(Х*, (^). Доказательство мы опустим, но заметим, что соотношения £П^=». Е1.П^=™ <**•"» дают необходимое и достаточное условие для того, чтобы процесс ПРГ(Х£,[1£) имел нулевую возвратность, а соотношения Ein^=». £П^<» ("•") дают необходимое и достаточное условие для того, чтобы процесс ПРГ(Хй,[1£) был невозвратным (допускается и возможность взрыва); см. [К]. Если Х, = Х и (i, = (i, то ПРГ однороден; в этом случае он всегда невзрывной. Тогда условие (2.8.13) эквивалентно неравенству \<[i; при этом условии процесс положительно возвратен и обратим. Если X = [i, то процесс имеет нулевую возвратность, а при X > [I процесс невозвратный. Процессы рождения и гибели обладают следующим удивительным свойством. Теорема 2.8.10. Пусть (Xi) — невзрывной, положительно возвратный и обратимый ПРГ(Х,, [i,-), и предположим, что выполнено соотношение (2.8.15), а стационарным распределением тс задано соотношениями (2.8.14). Рассмотрим процесс в равновесии (т.е. при Ао~тс). и запишем Xt=Xo + Bt-Dt, />0, (2.8.18) где процессы (Bt) и (Dt) задают рождение и гибель в процессе (Xt), т.е. (Bt) увеличивается на единицу всякий раз, когда происходит |0См. Karlin S., McGregor J. The classifications of birth and death processes // Trans. Amer. Math. Soc. 1957. V.86. P. 366-400.
§2.8. Сходимость к инвариантному распределению. Обратимость скачок вверх у процесса (Xt), и (Dt) увеличивается на единицу всякий раз, когда (Xt) прыгает вниз. Тогда (Bt)~(Dt). (2.8.19) X, = Хо + В, - D, f Рис. 2.60 Это довольно неожиданно, так как процесс (Bt) связан с параметрами X,-, а процесс (Dt) — с (I,, а эти параметры могут быть совершенно различны. Доказательство. Мы знаем, что процесс (Xt) обратим, т.е. (Xt)~ ~ (^,rev), где (Xf4) — исходный процесс (Xt), наблюдаемый в обратном времени. Однако когда мы наблюдаем процесс в обратном времени, то скачки вверх становятся скачками вниз. Иными словами, (Bt) ~ (£>Jev), вклад процесса гибели в (X™), (Dt) ~ (Brtev), вклад процесса рождения в (XTtev). Но (DJev)~(D() и (BJev)~(B<) благодаря обратимости. Объединим все соотношения эквивалентности: (Я/)~(0Г)~(А)~(ЯГ)~(Я<). что и доказывает соотношение (2.8.19). □ Ключевой момент состоит в том, что процессы (Bt) и (Dt) зависимы; в общем случае ни один из них не является даже процессом Маркова (хотя при Х, = Х процесс (Bt) пуассоновский с параметром (X)). Тем не менее, стационарное распределение к задает тонкую связь между этими процессами, благодаря чему их распределения совпадают. Замечание 2.8.11. Теорема 2.8.10 важна в теории очередей. Там скачок (Bt) интерпретируется как прибытие нового требования (или клиента, посетителя) в марковской очереди, в то время как скачок (Dt) означает уход клиента или покупателя или окончание выполнения требования. В этом случае Xt задает длину очереди в момент t, т. е. число клиентов в системе (включая тех, кого обслуживают в данный момент). В таком контексте
Глава 2. Цепи Маркова с непрерывным временем теорема 2.8.10 гласит, что процесс прибытий в очередь стохастически эквивалентен процессу уходов; см. § 2.9. § 2.9. Применения к теории очередей. Марковские очереди A Room with a Queue" (Из серии «Фильмы, которые не вышли на большой экран».) В этой главе мы остановимся на нескольких популярных моделях марковских очередей. Все эти модели, кроме одной, будут «истинными» процессами рождения и гибели с пространством состояний /, которое мы полагаем множеством неотрицательных целых чисел Z+ = {0, 1,...}, и не зависящими от / интенсивностями скачков вправо: qKi+\ = Х (где <7,-,i+i — элемент (^-матрицы, отвечающий за скачки вправо), в то время как qu-\ (элемент Q-матрицы, отвечающий за скачки влево) будет зависеть от L Исключение составляет такая модификация предыдущих моделей, для которой пространство состояний конечно {0, 1, ...,с}, где с — некоторое положительное число (что упрощает предыдущие модели). Следовательно, qij+\="k для г = 0, 1,..., с— 1, однако qcc+\ и элементы матрицы Q, отвечающие за последующие скачки вправо, равны нулю (усложнение предыдущих моделей). Можно сказать, что первые модели — с бесконечным буфером, в то время как последняя — с конечным. Для начала рассмотрим модели с бесконечным буфером; ср. с рис. 2.42. Рис. 2.61 Как было сказано ранее, интенсивности скачков влево <7/,i-i = Уч> '^ U могут меняться; в качестве хорошо известных примеров приведем такие: а) ^, = (1, постоянная интенсивность, б) (jL,- = /[jL, интенсивность [I, пропорциональна i, в) [i; = ^min[i, г], где у. и г — постоянные. Итак, предположим, что цепь стартует в момент времени 0 из состояния 0 (в большинстве случаев это не имеет значения). Ср. с названием фильма «A Room with a View».
§2.9. Применения к теории очередей. Марковские очереди Модель а) соответствует так называемой М/М/1/оо-очереди: марковские прибытия, обслуживание марковского типа, один сервер, бесконечный буфер. Если не возникнет путаницы, последний символ оо часто опускается и используется упрощенное обозначение М/М/1. В этой модели покупатели прибывают в очередь согласно процессу (Л(/))~ПП(Х) и обслуживаются один за другим (представьте себе, например, парикмахерскую с бесконечным залом ожидания; парикмахерская открывается в момент времени 0, когда клиенты еще не пришли). Времена обслуживания есть н.о.р.с.в. с распределением Exp([i). После обслуживания клиент уходит (и больше не появляется), а сервер сразу же начинает обслуживать следующего клиента (если он есть) или стоит в бездействии, пока не придет следующий клиент. Порядок, в котором обслуживаются клиенты, обычно такой: кто первый пришел, тот и обслуживается первым; эквивалентное определение — первый пришел, первый ушел. Тем не менее, для многих задач (но не для всех) это не существенно. Нас интересует процесс (Q(t), t ^ 0) задающий длину (размер) очереди, т.е. число клиентов N(t) в очереди на момент t^O (включая тех, кто в данный момент обслуживается). Это удобно записать в виде Q{t) = A(t)-D{t), t^O. (2.9.1) Здесь A(t)~Po(\t) — число клиентов, прибывших на момент t, и D(t) — число клиентов, обслуженных на момент /. Мы видим, что процесс Q(t) совершает скачок вверх, когда прибывает новый клиент, и вниз, когда клиент уходит. Тогда ((?(/)) — это процесс рождения и гибели с (^-матрицей /-Х X 0 0 ц -(к+ [1) X 0 Q = 0 (I -(Х + ц) X V: Модель б) соответствует так называемым М/М/оо-очередям (марковское прибытие, марковское обслуживание, бесконечно много серверов). Как и ранее, покупатели прибывают согласно процессу (Л(^))~ПП(Х), но по прибытии каждому из них выделяют «личный» сервер, который приступает к обслуживанию моментально. Как и ранее, времена обслуживания являются н.о.р.с.в. Exp([i). Процесс ((?(/))— это опять-таки процесс рождения и гибели. Однако в этом случае, если имеется i покупателей с оставшимися временами обслуживания S'1', ..., 5(,) то скачок /—>/— 1 происходит с интенсивностью i[i, так как время до следующего скачка вниз ..Л (2.9.2)
Глава 2. Цепи Маркова с непрерывным временем распределено по закону min[5(1),...,5(()]~Exp(/(Ji). (2.9.3) Если за это время не придет ни один покупатель, мы заменяем интенсивность iy. на (/— l)(i, иначе (т.е. если новый покупатель пришел до скачка /—»/—!) мы заменяем / на /+1 благодаря свойству отсутствия памяти у экспоненциального распределения. Соответствующая Q-матрица равна /-Х X 0 0 ...\ (I -(Х + ц) X 0 '■ 0 2ц -(Х + 2ц) X '■ \: ■•■/ Модель в) мы опишем как очередь М/М/г/оо из г серверов (или, упрощенно, М/М/г). Например, пусть в парикмахерской работает г парикмахеров: все они заняты, если Q(t) ^ г, в противном случае (т. е. когда 0 < Q(t) <г) (г— Q(t)) из них бездельничают. В этих моделях благодаря уравнению (2.9.1) траектория Q(t) находится под траекторией A(t); см. рис. 2.62. <? = (2.9.4) п-Г 1 г - J 1 ...J"Jr_rLT ^пГ Рис. 2.62 1 ■—W) Начнем наш анализ с модели а) и уделим ей большую часть времени. Соответствующая ц.м.н.в. называется М/М/{-цепью. Рассмотрим вероятности попадания в 0: hi = Р,(попасть в 0), / ^0. (2.9.5) Тогда /го = 1 и (hQ)j = 0 V/ ^ 1. Иными словами, Л0=1, (k + [L)hi = \hi+i+yJit-u t'^1. (2.9.6) Решение системы (2.9.6) имеет общий вид hl=lA + B{\)'' еслиХ^- А + Bi, если \ = [L.
§2.9. Применения к теории очередей. Марковские очереди В случае, если интенсивность прибытия не превышает интенсивности обслуживания, т. е. X ^ (I, для минимального неотрицательного решения системы (2.9.6) мы имеем 6 = 0, А — 1, и в этом случае М/М/1-цепь возвратна. Однако если Х>[1, то А = 0, В = 1, Л« = (£)'. »^0, (2.9.7) и М/М/1-цепь невозвратна. Это означает, что процесс стремится к +оо (бесконечно растущая очередь): Р,-( lim Q(t) =+оо) = 1. Для того чтобы найти стационарное распределение, применим уравнения детального баланса 7t,X = 7t,+i(jL, /^0, т.е. 'X1 " тс0- Из условия нормировки XV /, Х\-' следует, что те* = (1 — Р)р'", *^0, гдер = ^. (2.9.8) Подытожим результаты. Теорема 2.9.1. Если X<(i, mo М/М/\-цепь положительно возвратна и обратима с геометрическим стационарным распределением 7i = (тс,) из уравнения (2.9.8). Значит, цепь стремится к равновесному распределению: limP(QW=/) = (l-p)p/ (2.9.9) 1—>00 независимо от начального распределения. Среднее время возвращения в 0 равно т0 = — = .. ^ .. (2.9.10) тсо^о Х(ц-Х) и задает среднее время цикла на сервере (время бездействия плюс время занятости). См. рис. 2.63.
Глава 2. Цепи Маркова с непрерывным временем занят: Q(t) > О простаивает: Q(t) = О О ^^ Рис. 2.63 Тогда среднее время занятости равно '"o-bxo^-bi^x- (2911) Наконец, в состоянии равновесия среднее время ожидания для посетителя равно EW = E[E(W\Q)] = ^E(W\Q = i)izi = ^Ul-9)9i = -^Ty (2.9.12) и среднее время пребывания (ожидание плюс обслуживание) равно ЕНГ+1 = —L- (2.9.13) (средняя длина промежутка занятости). Смысл условия X < [Л, или р<1, очевиден: скорость работы сервиса превышает скорость прибытия клиентов. Иными словами, если математическое ожидание интервала между прибытиями 1/Х больше, чем математическое ожидание l/у. промежутка времени обслуживания, то М/М/1/оо-очередь «устойчива» и достигает равновесия, каково бы ни было начальное распределение. Иными словами, устойчивость в среднем влечет устойчивость почти наверное. Теперь приведем самое удивительное следствие из теоремы 2.8.10. Теорема 2.9.2. Предположим, что X < у., и рассмотрим М/М/\-цепь (Q(t)) в стационарном состоянии. Тогда а) в разложении Q(t) = Q(0) + A(t)-D(t) (2.9.14) процесс уходов (D(t)) эквивалентен процессу прибытия A(t), т.е. количество обслуженных клиентов эквивалентно по распределению количеству пришедших; иными словами, (0(/))~ПП(Х); б) для всех Т>0 процесс (D(t),0^t<Т), равный количеству обслуженных клиентов до момента Т, не зависит от (Q(t+ Т), t"^0), т.е. от длины очереди после Т. Опять-таки удивительно то, что (£>(/)) зависит от X, а не от [i, и вдобавок то, что очередь после заданного момента времени развивается независимо от количества обслуженных клиентов до этого момента времени.
§2.9. Применения к теории очередей. Марковские очереди (Например, если до сих пор вы редко наблюдали уходящих клиентов, то это ничего не говорит о том, насколько ненасыщен уровень очереди в настоящее время, и о том, сколь высок он в будущем. Объяснение этого факта то же самое: в стационарном состоянии процессы (At) и (Dt) специфически зависят друг от друга, что и создает такой эффект (в частности, Qt = = Qo + Af — Dt всегда неотрицательно). Доказательство. Утверждение а) формально следует из теоремы 2.8.10. Вспомним, что ключевые моменты в доказательстве теоремы 2.8.10 состоят в том, что 1) при условии X < [Л процесс (Q(t)) обратим, и 2) для траектории Q(t) все скачки вверх становятся скачками вниз при обращении времени. Иными словами, а) если (Q'tev) — обращение процесса (Q(t)) относительно момента времени Т, Qr = Qr-t и Qrr = Qr + Ar-D?\ t>0, то (<?fev) ~ (Q(t)). Далее, б) для процессов (4Jev) и (Dt) число скачков на интервале (0, Т) одинаково, так же как и количество скачков процессов (Dfev) и (At) на этом интервале. Наконец, пусть число скачков (Лр1) и (Dt) на интервале (0, Г) равно п, моменты скачков Н^п\ Н$Г, ••• (скачки вверх (А™, 0 ^ / < Т)) связаны с моментами скачков Hf, Н%, . ■ ■ (моменты «уходов» (Dt, 0 ^ / < Г)) через «условное» уравнение (Hf, ...,Н%\п скачков в (Dt) на [0, Т)) = л rev л rev = (Т-НАп ,...,Т-НАХ |л скачков в (Af) на [0, Т)). Траектория (Qt+т, t ^ 0) есть зеркальное отражение траектории (QJev, t ^ 0), см. рис. 2.64. (Qt, t < 0) (A,,0£t£ T) обращенное (D,,0£t£T) прямое Рис. 2.64
Глава 2. Цепи Маркова с непрерывным временем Но для ((?Jev) длина предыдущей очереди (Qfv, t^O) не зависит от последующих прибытий {ATtev, t^O) (как обычно, положим А™ = 0). Тогда в изначальной М/М/1-цепи (Q(t)) величины (D(t), 0< t< T) в прошлом не зависят от настоящей и будущей длины очереди (Qi+т, t^O). D Теорема 2.9.2 известна под названием теоремы Бурке. Она играет важную роль в теории массового обслуживания, когда клиенты переходят от одного узла (станции) к другому, по пути присоединяясь к различным очередям. В свою очередь, сети массового обслуживания представляют особый интерес в ряде применений, особенно в исследовании телекоммуникаций, компьютерных и транспортных сетей. Для Х = [! М/М/1-цепь имеет нулевую возвратность. Действительно, если (тс,-) — инвариантная мера, то Поэтому тц = щ+\, i^O (т.е. мера (тс,) удовлетворяет уравнениям детального баланса). Итак, ^к, = оо, кроме случая тс,- = 0. В этом случае Р, ( lim Q(t) = +00) = 0, но процесс не имеет стационарного распределения t—юо и длина очереди осциллирует между 0 и оо. Если Х>[1, то М/М/1-цепь невозвратна и неограниченно возрастает: Р( \im Qt = оо) = 1, т.е. Qt ^+оо при /—юо. (2.9.15) t—»оо р and His Brothers12. (Из серии «Фильмы, которые не вышли на большой экран».) Анализ моделей б) и в) аналогичен. Модель М/М/оо с бесконечным числом серверов относительно проста. В этом случае уравнения детального баланса имеют вид XTci_1=/[iTt1-, i=l,2,..., следовательно, ^^"^fef)^ p=i? (2-9Лб) Иными словами, стационарное распределение тс = (тс,-) будет пуассоновским с параметром р: тс, = ^-е_р. Мы видим, что независимо от значений X и [I цепь М/М/оо положительно возвратна и (очевидно) неприводима. 2Ср. с названием фильма Л. Висконти «Rocco and His Brothers».
§2.9. Применения к теории очередей. Марковские очереди Поэтому сходимость lim P(Qt = i)=Ki t—>oo имеет место независимо от начального распределения. Мы видим, что М/М/оо-очередь устойчива для всех X, [0. > 0. Теорему Бурке очевидным образом можно обобщить и на случай этой модели. Как результат мы получим, что в состоянии равновесия а) процессы прибытий (At) и уходов (Dt), которые составляют разложение Qt = Qo + At-D,, стохастически эквивалентны: (Л<)~(Д/)~ПП(Х) и б) для всех Т>0, процесс уходов (Dt,0^t<T) до момента Т не зависит от длины очереди в момент Т и после него (Qi+t, ^0). Наконец, уравнения детального баланса для M/M/r/oo-цепи таковы: Х7Г,-_1=/Ц7Ъ, 1=1,..., Г, \vn = r\iKi+i, i = r,r+l,... Единственное решение имеет вид (2.9.17) -^-Ло, / = 1, ..., Г, х л/=< '• . р = -. (2.9.18) Мы видим, что при р < г существует корректно определенное стационарное распределение л = (гс;), а именно Е(е)'<». *_(,+£g+$ES)"-(E^T4f)"' (2.9.19) и тс,, /^ 1, задаются уравнением (2.9.18). Условие р < г, или X < ф, имеет тот же смысл: система в среднем в состоянии справиться с клиентами. Следовательно, если р < г, то M/M/r/oo-цепь положительно возвратна и обратима. Опять таки, она, очевидно, неприводима. Добавим также, что для нее все еще справедлива теорема Бурке. Поэтому имеет место следующая теорема. Теорема 2.9.3. Предположим, что X<r[i. Тогда М/М/г/оо-цепь (Q(t)) положительно возвратна и обратима и имеет стационарное распределение к, задаваемое уравнениями (2.9.18) и (2.9.19). Следовательно, при любом начальном распределении lim P(<?(0 = i)=7t,-, i = 0, 1,... t—>оо
Глава 2. Цепи Маркова с непрерывным временем Далее, в разложении Q(t) = Q(Q)+A(t)-D(t) при Q(Q)~ti процесс уходов (D(t)) стохастически эквивалентен процессу прибытий (A(t)). Иными словами, в состоянии равновесия (D(t))~nU(k). Наконец, для всех Т>0, процесс (D(t),Q^t<T), считающий уходы до момента Т, не зависит от (Q(t + T), t^O), т.е. от очереди после момента Т. Формулы, аналогичные (2.9.9)—(2.9.12), могут быть установлены для М/М/оо-и M/M/r/oo-моделей; детали мы опустим. До этого момента мы рассматривали модели с бесконечными буферами: для таких моделей любой клиент рано или поздно будет обслужен, хотя, возможно, ему придется подождать. В моделях с конечным буфером клиенты не принимаются (или рассматриваются как «утерянные»), если буфер полон. Такие модели называются модели с потерями (loss models). Обозначим их М/М/г/с: марковские прибытия, марковский сервис, г серверов и буфер размера с^г (т.е. число мест ожидания равно с-г). Здесь идет речь о М/М/г/с-цепях. Таким образом, в момент t размер очереди Q{t), т. е. число клиентов в системе, удовлетворяет неравенству 0 < Q{t) < с; если О ^ Q(t) < г, то все клиенты обслуживаются, если Q(t) ^ г, то г клиентов обслуживаются и Q(t) — г ожидают. Рассмотрим процесс прибытия клиентов, допущенных к обслуживанию, который для простоты обозначим тоже через (A(t)). Этот процесс «вложен» в «формальный» процесс прибытий (N(t)), который является пуассоновским (он также называется внешним процессом прибытий). Более точно, клиент, прибывающий в момент {N(t)), допускается к обслуживанию тогда и только тогда, когда на момент прибытия Q(t) < с. Ниже приведена диаграмма М/М/г/с-цепи: /--1/-А./-/-АГ+1 с-\ В случае г — с=1 (1 сервер, одноместный буфер) ситуация довольно проста: Q(t) принимает 2 значения: 0 (незанятый сервер) и 1 (занятый сервер). Цепь, стартующая, скажем, из состояния пустоты с Q(0) = 0, проводит случайное время 5о ~ Ехр(Х) в этом состоянии, а затем совершает скачок в состояние 1. Спустя время S|~Exp([i) цепь совершает скачок обратно в 0 и т. д.
§2.9. Применения к теории очередей. Марковские очереди В этом случае уравнения детального баланса таковы: откуда Процесс скачков вверх (A(t)), который подсчитывает количество допущенных к обслуживанию посетителей в М/М/1/1-цепи, проводит в любом из состояний /=1,2,... время Sf, равное сумме Li + Ri независимых слагаемых L,~Exp([i) (Li — время обслуживания /-го допущенного клиента) и #,~Ехр(Х) (время до прибытия следующего клиента); после этого A(t) прыгает в состояние /+ 1. Функцию распределения fSA случайных величин Sf, /^ 1, можно найти с помощью свертки: X X fsf М = jfu Wr, (* -y)dy = у ne-wXe-x<*-»> dy = о о = \[Le-x*[e(x-^dy=\}^L{e~liX~e~U)' МК' (2.9.21) Исключение составляет начальное время пребывания Sg~Exp(X) (время до первого прибытия в пустой очереди). Времена пребывания 5g, Sf, ..., очевидно, независимы. Процесс (A(t)) не является марковским, но принадлежит к классу процессов восстановления, многие свойства которых похожи на свойства ц.м.н.в.; мы изучим эти процессы в следующих томах. Аналогично процесс (D(t)) скачков вниз, подсчитывающий отбытия в М/М/1/1-цепи, проводит в каждом из состояний / = 0, 1,2... время Sf, равное сумме Ri + Li+\; вероятностное распределение случайной величины Sf совпадает с распределением Sf и задается уравнением (2.9.21). (В этом случае S$ не является исключением.) Процесс (D(t)) является процессом восстановления. Заметим, что (A(t)) и (D(t)) зависимы (а именно, слагаемое Ri вносит вклад в Sf и Sf). Ключевой момент из доказательства теоремы Бурке очевидным образом применяется и тут: можно повторить без существенных изменений
Глава 2. Цепи Маркова с непрерывным временем доказательство теоремы 2.9.2 а) для М/М/1/1-цепи. Таким образом, в состоянии равновесия процесс допущенных прибытий (A(t)) и процесс уходов (B(t)) стохастически эквивалентны. Действительно, каждый из этих процессов в равновесии есть стационарная модификация одного и того же процесса восстановления, определяемого распределением времени пребывания вида (2.9.21), которое одинаково для обоих процессов. Тем не менее, эти процессы зависимы, так как упомянутая корреляция между Sf и 5f присутствует и в состоянии равновесия. Формулы, аналогичные (2.9.16), могут быть получены для общей цепи с потерями М/М/г/с. В этом случае уравнения детального баланса при г^с имеют вид \кг = гускг+1, ..., Xnc_i =г[1-кс. Эти уравнения могут быть легко решены, скажем, при г = с\ к« = £ко, i = 0,..., г, р = £, *0= (££) (2.9.22) Формулы (2.9.22) называются формулами Эрланга. При г<с мы получаем i = 0,...,r, х (2.9.23) В этом случае выполнена первая часть теоремы Бурке. Подводя итог, получим такой результат. Теорема 2.9.4. Пусть (Q(t)) — M/M/r/c-цепь, Q(t) = Q(0) + A(t) - —D(t), где (A(t))— процесс прибытий клиентов, допущенных к обслуживанию, и (/)(/)) — процесс уходов. Тогда a) (Q(t)) — положительно возвратный и обратимый процесс со стационарным распределением тс = (л,) вида (2.9.23), причем распределение Q(t) сходится к к: для всех / = 0,..., с и любого начального распределения выполняется равенство \\mP(Q(t) = i) = nr, I—»оо б) в состоянии равновесия (A(t))~(D{t)). Однако свойство независимости, провозглашенное для М/М/1/оо-це- пей в утверждении б) теоремы 2.9.2, здесь отсутствует, потому что процесс
§2.9. Применения к теории очередей. Марковские очереди прибытий клиентов, допущенных к обслуживанию (A(t + T) — A(T), t^O), коррелирует с Q(T), где Q(T)—длина очереди в момент Т. Приведем теорему о предельных пропорциях для марковских очередей (без доказательства), это следствие теоремы 2.7.19. Теорема 2.9.5. Для М/М/г/оо-очереди с параметром р= - <г выполнено соотношение ч ~\A?k °Г /- СА-П"1 0/ЛГ /D\('-0V0 k=0 +$('-?)" *«' il-- \{Xs = i)ds о а в случае системы М/М/сю выполнено соотношение t \(Xs = i)ds ^ ^е-Р. I! О Мы завершим этот параграф элегантным примером, показывающим, как много можно получить, умело используя свойство потери памяти. Пример 2.9.6. Рассмотрим М/М/оо-очередь с пронумерованными серверами 1, 2,... По прибытии посетитель выбирает свободный сервер с наименьшим номером, и этот сервер его обслуживает. Какую часть времени сервер s занят, s = 1, 2,...? Решение. Для сервера 1 имеем стандартную систему с потерями М/М/1/1. Поэтому доля времени, в течение которого сервер занят, равна X Для сервера 2 интенсивность прибытия уменьшится до piX; как и в предыдущем случае, доля времени, в течение которого сервер 2 занят, равна п = Р,Х = Х' Р2 р,Х + Н Ц(ц + Х) + Х2' Чтобы найти долю времени р\$, в течение которого оба сервера заняты, используем М/М/1-систему с потерями, имеющую интенсивность прибытия р\\ и интенсивность обслуживания 2[i: п -- Р'Х Далее, для сервера 3 интенсивность прибытия будет равна pi^X, и доля времени, в течение которого сервер занят, равна _ РцХ _ X Рз~р,,2Х + ц-ц(ц + Х) + Х2-
Глава 2. Цепи Маркова с непрерывным временем И так далее: для сервера k доля времени занятости равна _ Р\ fe—iX Pk Pi *-|Х + ц' Здесь р\ k-\ —доля времени, в течение которого серверы 1, ..., k—\ заняты: Pi,. П •*"' 'Рк-1\ + (к-\)ц Пример 2.9.7. Посетители приходят в парикмахерский салон согласно пуассоновскому процессу с параметром X > 0. В парикмахерской работает s парикмахеров и имеется N мест для ожидания; каждый парикмахер работает (с одним посетителем) при условии, что есть посетитель, и те посетители, которые пришли в момент, когда не было свободных мест (т.е. число посетителей было равно N + s), уходят и более не возвращаются. Всякий зашедший клиент ожидает в очереди и затем обслуживается по правилу «первый пришел — первый обслужен», время обслуживания экспоненциально с параметром [!>0; времена обслуживания различных клиентов независимы. После обслуживания клиент уходит и более не возвращается. Задайте модель цепи Маркова для числа Xt посетителей в парикмахерской в момент t^O. Найдите стационарное распределение тс этой цепи и поясните, почему оно единственно. Покажите, что в стационарном состоянии ц.м.н.в. (Xt) обратима во времени, т.е. для всех Т>0 цепи (Xt, O^t^T) и (Yt, O^t^T) одинаково распределены, У/ = Xj-t и Хо ~л. Решение. Ц.м.н.в. (Xt) является процессом рождения и гибели на пространстве состояний {0, 1,..., N + s}; интенсивности равны <7i,;+i=X, дц-\ ■ \и для t'=l, ...,s, [is для i = s+l, ...,s + N. Рис. 2.67 Мы использовали тот факт, что s + 1 Sfi SfJ, min(A'i,.... А'/)~Ехр I J^6* ), если А'й~Ехр(0А) и величины Xk независимы между собой.
§2.9. Применения к теории очередей. Марковские очереди Итак, Q-матрица имеет размерность (N + S + 1) х (N + S + 1) и равна 0 0 0 Vo 1 X 2ц 0 0 2 0 X -(Х + 2ц) 0 0 s 0 0 . 0 0 . 0 0 . -(X + s[i) X . 0 0 . . 0 . 0 . 0 . 0 . ш N + s 0 \ 0 0 0 -SU.J Цепь, очевидно, неприводима, поэтому существует единственное стационарное распределение. Чтобы найти его, используем уравнения детального баланса: тс,<7,-,1+1 =Ki+\qi+u, 0^i<N + s. Запишем подробнее: ■к TCiX = 2n2H, т.е. тс1=тс0-, X X2 т.е. тс2 = гч —=гсо-0. 2, X Xs ^-iX = STCj;[i, т.е. tcs = TCi-1 —■ = ... = 110-7-7. X Xs+1 TcsX = srcs+i[i, т.е. rcs+i =tcs—= ... = Tc0 's!s(is' X X^"1"5 ТСуу+5-1Х = 5ГСуу+5Ц, Т.е. Ttyv+s = KN+S-1 — = ... = Щ sjs/VmA/+s • Таким образом, уравнения детального баланса имеют единственное нормированное решение: гсо: 2^ l\ul + s\[Ls 2s U.' /=1 X" Кп = ПоШ"' ПрИ "=1'--"s- X" s!sn_s(in Дн = До.,.„_,.,„, при n = s+l,...,s + yV.
Глава 2. Цепи Маркова с непрерывным временем Тот факт, что ц.м.н.в. (Xt, Q^t^T) и (Yt,Q^t^T), где Yt=XT-t, одинаково распределены, проверяется стандартным образом. Итак, цепь (Xf) обратима во времени тогда и только тогда, когда она находится в (единственном) стационарном состоянии. □ §2.10. Ветвящиеся процессы с непрерывным временем. Марковские процессы миграции и сети с очередями Джексона Вероятные невозможности предпочтительнее невероятных возможностей. Аристотель (384—322 до н.э.), греческий философ В первом томе мы затронули теорию ветвящихся процессов с дискретным временем. Основной моделью являлся процесс деления частиц или живых организмов, ведущий к образованию некоторого числа потомков. Непрерывный аналог этой теории в основных чертах представлен ниже. Предположим, что в момент времени t = 0 в биологический раствор помещена живая клетка. Через показательно распределенное время с интенсивностью [I происходит деление клетки и образуется k новых клеток с вероятностью Pk, k = Q, l, ..., со средним значением р=^/гр& (равенство /г = 0 означает, что клетка погибает). Такому же механизму подчиняется каждая из рассматриваемых живых клеток, независимо от других. Пусть Mi — число живых клеток в растворе к моменту времени t> >0. Покажем, что EMf = exp[t\j.(p- 1)]. Для этого, положив g(t) = EMt, применим условное математическое ожидание по предыдущему моменту и: g(t + u) = E[E(Mt+u\Mu)) = J2(bEMt)P(Mu = k) = = (EMl)J2bP(Mu=k) = E[Ml)E[Mu\=g(t)g(u). Далее, для t, близких к 0, опять применим условные математические ожидания относительно момента 0: g(t) = l-[it + [itp + o(t) = \+[it(p-\) + o(t). Мы видим, что функция g(t) дифференцируема в точке / = 0, положительна при t > 0 (так как g{t) > Р (на (0, г) не происходит деления) = е~^1) и удо-
§2.10. Ветвящиеся процессы с непрерывным временем влетворяет мультипликативному соотношению g(t + u) = g(t)g{u), /,O0. Тогда g(t) — eat, t^Q, для некоторого aeR. Наконец, a = [i(p- 1). Аналогичным образом можно получить дифференциальное уравнение для вероятностной производящей функции (ft(s) = EsMl величины Mf. А именно, (ft(s) удовлетворяет следующему дифференциальному уравнению: ^ФД5) = ^-ф,(5) + 5>[ф/(5)Л <ро(*) = *. (2-10.1) Действительно, (ft+h(s) = (fh[(ft(s)], t,h^0. Для h, близкого к 0, имеем фЛ(5) = (1 - [ih)s + [i/i ^2pkSk + o(h) и (ft+h(s) = (1 - \ih)yt(s) + [!/г^р*[ф<00]* + o(h), т.е. <?t+h{s) ~ (?t(s) = h\L ( - (ft(s) +Y^Pk[(?t(s)]k ) + °(h)- Разделив на h и перейдя к пределу при h—>0, получим уравнение (2.10.1); начальное условие yo(s) = s очевидно. Ветвящиеся процессы — это примеры процессов рождения и гибели, которые не являются процессами Пуассона. Например, предположим, что каждая клетка делится на две (р2 = 1)- Пусть Nt = М\ — 1 — число клеток, образовавшихся в растворе к моменту времени t. Оказывается, Nt имеет геометрическое распределение. В самом деле, P(jV/ = 0) = Р(нет ни одного деления на (0, t)) = е~^, P(Nt = 1) = Р (единственное деление на (0, t)) = 1 = (ре-** e-2*(t-s) ds = e-^V' - 1). о
Глава 2. Цепи Маркова с непрерывным временем и общая формула такова: P(Nt = п) = Р(п делений на (0, /)) = = /7... J це-w (2[i)e-2iL{S2-s') х... 0 S| s"~[ ... x (n[i)e-n^s"-s'-,) e-i"+\Mt-sn) dSn dsi _ = n!e-(»+i)n< Jшшш f[l"^+-+^xi(si<...<sn)dsn...dsi = ' -(H> "■ Это указывает на то, что (Nt) действительно не является неоднородным процессом Пуассона. Напротив, инфинитезимальная вероятность скачка P(Nt+h -N,= \\N, = k) = [ikh + o(h) зависит от k, т.е. от значения Nt, тогда как для неоднородного процесса Пуассона эта вероятность должна иметь вид ~k(t)h + o(h) независимо от k. Пример 2.10.1. Продолжим предыдущую тему и найдем точное выражение для cpr(s) в случае, когда функция в уравнении (2.10.1) квадратичная. При /?2 = 1. интегрируя уравнение получаем -^p- = -[iy,(s) + [iy,(s)2, cpo(s) = s, 9t(s)=^_^_l)s, -Us<l. При ро= 1/3, /?2 = 2/3, интегрируя уравнение ^ = н_№(5)+|ф,(5)2, фо(5)=5, находим, что для se(-l, 1) выполняется соотношение . . (s - 1)е*"3 - (2s - 1) . , 1 V'{S) =2(s -1)^/3- (2s -1) И ^(S)^2 ПРИ '->0°- В случае квадратичного полинома общего вида запишем уравнение (2.10.1) в виде -j-t9t(s) = VLP2(9t(s)-h){<?t(s)-h), (fo(s) = s, -1<к1,
§2.10. Ветвящиеся процессы с непрерывным временем где X] и Хг — корни уравнения x-po + pix + p2X2; один корень всегда равен 1. Не теряя общности, можно предположить, что Xi ^Хг. Случай а): надкритический. Здесь Хг = 1 и 0 < Xi < 1. Видим, что в этом случае Xi = лВымир> Где квымир — вероятность вымирания популяции с течением времени. Случай б): критический. Здесь Xi = Хг = 1. Случай в): докритический. Здесь Х| = 1, Хг > 1. В случаях а) и в) имеем: Xl(s-X2)-X2(s-Xl)e-^-*->' _1<S<1 ф'^ (s-X2)-(s-X,)e-^(X2-x,)( • f^u' KKL Видим, что limq^X, = (*"""»' BC^aea). '-»oo I 1 в случае в) и сходимость имеет экспоненциальную скорость. В случае б) имеем: Ф^) = 1-1+(1_^(1_р|)/2. t>0, -Ks<L Здесь lim ®t(s) = 1 /—»оо и сходимость будет обратного степенного типа: (cp/(s) — 1)«0(1/£). □ Большая часть этого параграфа посвящена марковским сетям. Как мы упоминали ранее, примеры таких сетей играют все возрастающую роль в современных приложениях, таких как телекоммуникации, банковские операции, промышленное производство с одной стороны, биология и экологические исследования с другой стороны. Мы начнем с простого случая замкнутых сетей. Рассматриваются / «станций» («узлов» или «колоний») и К «мигрирующих объектов» («заданий», «заявок» или «клиентов»). Состояние системы описывается вектором л = (л1,...,лу), где я,-е{0, 1,...,/(} и n\+... + tij = K; значение щ равно числу заявок на станции /. См. рис. 2.68
Глава 2. Цепи Маркова с непрерывным временем П\ П2 ЯП П] и о о о о о и о о 12 i j Рнс. 2.68 Эта модель описывается векторнозначной цепью Маркова с непрерывным временем (N{t)), где N_(t) = (N\(/),..., Nj(t)); она характеризуется {скачками я >->•« +8,-8,-, интенсивностями Гц 1 (п-, ^ 1), 1^/,/^У, fV/ (заявка переходит из узла / в /). Здесь и далее 8; обозначает вектор с единственной ненулевой компонентой 1 в позиции /. По определению случайная величина Nj(t) задает число заявок на станции / в момент времени /. Далее, /? = (г,у) задает (^-матрицу размера Ух У, которая определяет у генератор этой ц.м.н.в. Сумма л, = —г,-,- = J2 Гц задает суммарную интен- /=1 сивность, с которой заявки покидают узел /. Будем называть (H(t)) замкнутым процессом миграций, или замкнутой сетью Джексона по имени Дж. Р. Джексона13. Удобно задать генератор ц.м.н.в. (N.(t)), не фиксируя заранее число заявок К, циркулирующих в сети. Им является (полу)бесконечная производящая матрица Q = (qnn>) с элементами Япп; = < Гц, если щ > 1 и п' = п + bj — 8, для некоторых i, j = 1,..., У, где / ф], О в противном случае. Уравнения детального баланса для любых /,/', 1ф], имеют вид ЪпГц = ГСл+5,-5,.О'" V^' ni>1- (2-'°-2) С другой стороны, уравнения инвариантности имеют вид % J2 r'i 1 (л/ > 1) + J2 4-%+*, гч 1 («у ^ 1) = О V«. (2.10.3) 14KJ 1 $1,/$У :/#/ |3См. Jackson J.R. Jobshop-like queueing systems // Management Sci. 1963. V. 10. P. 131-142.
§2.10. Ветвящиеся процессы с непрерывным временем Число С(К, У) состояний п в этой модели возрастает с ростом К и У, а именно С(К,2) = К+1, С(К,3)={К+1)!;К + 2), Общая формула такова: C(/C,/) = £c(U-l). i=0 So many paths that wind and wind. Е.У. Уилкокс (1855-1919), американский журналист и писатель Удобно представлять нашу модель в терминах сети из серверов (обслуживающих устройств): сервер i находится в узле i, и его длительность времени обслуживания распределена как ~ Ехр(—щ) независимо от различных клиентов и от других серверов. Клиенты бесконечно блуждают от сервера к серверу. Как и следовало ожидать, уравнения детального баланса (2.10.2) влекут за собой уравнения для стационарного распределения (2.10.3). Мы ищем инвариантные вероятности тел в виде у **«Пр**- (2Л0"4) 4=1 Если 0 < р£ < 1 \/k = 1,..., У, то правая часть — это произведение геомет- у рических вероятностей с параметрами р^ при условии ^ Щ = К\ если р^ = 0 i=i для некоторого k, то получаем дополнительное условие «^ = 0. Теперь следует определить постоянные р*. Подставляя вероятности (2.10.4) в уравнения (2.10.2), находим Пр^=Пр"рГ'рГЧь *=1 *#',/ эти равенства выполняются тогда и только тогда, когда p,r,7 = pyr,7V*V/. (2.10.5) Далее, уравнения инвариантности у у *=1 1</<7 m,i^i.k=[
Глава 2. Цепи Маркова с непрерывным временем П будут выполняться тогда и только тогда, когда вектор р = I : I с компонентами ра ^0 аннулируется матрицей R: Уру/ (ртЯ)у = p,r„ + Y, №1 = О V/. (2.10.6) i: <#/ Таким образом, если рт/? = 0т, то И,«" Л"* образует инвариантную меру для ц.м.н.в. (N_(f)). Если вдобавок р удовлетворяет уравнениям детального баланса для R (см. равенства (2.10.5)), то процесс (N_(t)) с инвариантным распределением {к„} становится обратимым. Общее число заявок К является неизменной величиной для процесса (N_(t))- Таким образом, имеет место теорема. Теорема 2.10.2. Предположим, что матрица R неприводима, и пусть p = (pi,..., ру) — (единственная с точностью до множителя) вектор, такой что р* > 0 VA и pR = 0. Зафиксируем К и положим %=np*7| Е Пр*'| vu=(«i, ••-.";). ni + ... + nj = K. k=l I I a'=(»{ «J): /=l I V»;+■■■+»;=* / (2.10.7) 7Ьгда {jtn} определяет единственное инвариантное распределение для замкнутого процесса миграций (K(t)) с общим число заявок К. Кроме того, lim P(N(t) = n) = Kn (2.10.8) (—»оо ~ независимо от начального распределения. Если р удовлетворяет уравнениям детального баланса (2.10.5), то цм.н.в. (N.{t)) с этим инвариантным распределением обратима, и наоборот. Далее перейдем к открытым процессам миграции, или открытым сетям Джексона. В этой модели задается семейство независимых входных потоков (A^(t)) ~ПП(Х,), /' = 1 У. С другой стороны, также разрешается выход из системы; это меняет устройство модели. В частности, ц, будет обозначать интенсивность обслуживания на станции L Как и ранее,
§2.10. Ветвящиеся процессы с непрерывным временем (2.10.9) будем рассматривать векторную ц.м.н.в. (N_(t)), где /Wi(0\ /V ш= ; , а= \Nj(t)J \nj, Интенсивности скачков таковы: «i->n + 8j, интенсивность X,- (вход извне в систему через узел /), п ь-> п + bj:- 8;, интенсивность u,p,y- 1 (п, > 1) (переход из узла i в /), «h->/2-8j, интенсивность и,р* 1 (л,^1) (уход наружу из системы через узел /). Удобно рассматривать векторы X и и,, задающие интенсивности прибытий извне и интенсивности обслуживания соответственно: -0- -С Вектор X будет предполагаться неотрицательным, а вектор и, положительным: Ху>0, w>0, /=1,...,У. Как и ранее, продолжительности времен обслуживания в узле / являются н.о.р.с.в. Ехр(и,-). Вектор п имеет неограниченные компоненты «у, / = - 1, ...,У (т. е. допустимо любое значение n = («i,..., «у), где «yeZ+), т.е. возможные состояния ц.м.н.в. {H(t)), n£lJ+. Далее, P = (pij) образует субстохастическую матрицу У х У вероятностей перехода (называемую также матрицей маршрутизации) с элементами у Рц^О, £/?iy^lVt=l,...,/, У=1 а р* — это вероятности выходов из системы: у Р* = 1-^Р«/, <Кр*^1 V/=l У. /=1 Для простоты в дальнейшем будем предполагать, что матрица маршрутизации Р неприводима (т.е. p-s) >0 Vi,/= 1, ...,У для некоторого О 1). Тогда в силу теоремы 1.15.7 норма ||Р|| равна максимальному собственному значению un матрицы Я, а у соответствующего собственного вектора
Плава 2. Цепи Маркова с непрерывным временем П\ П2 о о о о о о о о о i I Рис. 2.69 ,(0) чг ф,0' = все компоненты строго положительны. Поскольку матрица \№ (0) Р субстохастическая, максимальное собственное значение не должно превосходить 1. Действительно, в силу того что ф Р = ^пф , получаем ^Еф<(0)=Е(Ф<0)ТП'=Еф.(0,р^ЕФ.(0)- ' i './' ' Заметим, что, вообще говоря, мы не предполагаем, что диагональные элементы р„ равны 0, позволяя тем самым заявкам возвращаться на станции. (В некоторых задачах вводится это предположение, чтобы избежать технических сложностей.) Цепь Маркова с непрерывным временем (Л{(/)), которая описывается интенсивностями (2.10.9), будет называться открытым процессом миграций или открытой сетью Джексона с параметрами (X, Р, р). Найдем теперь инвариантные вероятности к„ в виде произведений геометрических сомножителей: к=1 (2.10.10) Как и ранее, образуем вектор Р = Из дальнейшего будет видно, что компоненты р,-, j = 1,..., У, — это суммарные интенсивности прибытий (или нагрузка) в узлах 1, ..., У (если принимать в расчет прибытия как извне, так и из других узлов).
§2.10. Ветвящиеся процессы с непрерывным временем Теперь уравнения для инвариантного распределения для любого «GZ+ записываются в виде ^2 Ъп-ъ>чЩ> {) +JZ п«+8;ад* + YI Ч+Ь-Ь^РцЦп^ 1) - / ч ' У v v ' ij:¥j* „ ' прибытие в узел у уход из узла /' переход из узла I в / -%felX'" + ^/,^^1)]+ ^2\4Pn4ni>\))=0. (2.10.11) V У i,i-¥i ) диагональный член Подставив произведение (2.10.10) в формулу (2.10.11), после сокращений получаем (предполагая, что щ > 1 V/"= 1,...,/) £(£)~VE(S).wf+E (*)(*)"**- У I './': <#/' - (Y^i + V-jPj) + £ Wi) = 0- (2-10.12) Заметим сначала, что в состоянии равновесия общий входящий в систему поток с интенсивностью ^Ху- должен компенсироваться общим У выходящим потоком с интенсивностью Y^PiPl■ Отсюда следует, что У £(g)w*=£v (2-Ю.13) Чтобы добиться выполнения равенства (2.10.12), попытаемся сгруппировать оставшиеся члены: Ш)"'Х/+ ИГ' £ P'^ = Wtf+E Wft' = W W. (2-10.14) т.е. Ху + (рР)/ = Р/, или рт = Хт + ртР, т.е. рт(1-Р) = Хт. (2.10.15) Предположим, что матрица I — Р обратима. Это некоторое ограничение; оно эквивалентно требованию, чтобы норма \\Р\\ была меньше 1. В этом случае матрица (I — Р)-1 является суммой геометрической прогрессии: (1-Р)-'=£р k>0
Глава 2. Цепи Маркова с непрерывным временем Тогда из соотношения (2.10.15) заключаем, что рт = Хт(1-Р)-'. (2.10.16) Поскольку матрица Р неприводима, у матрицы (I — Р)-1 все элементы положительны. Следовательно, для любого неотрицательного вектора интенсивности входного потока Х^О вектор р имеет компоненты Р/>0 и, более того, р,->Х/, 7=1,...,/. Видим, что компоненты вектора р действительно представляют собой суммарные интенсивности прибытий (внешние плюс внутренние) в предположении, что в состоянии равновесия для любого j интенсивность прибытий в узел / = р, равна интенсивности уходов из узла /'. (2.10.17) Формально, равенство суммарной интенсивности прибытия суммарной интенсивности уходов означает, что Dw-I>=0' T-e- ЕХ/=Е^ (2-10-18> У /' I I ср. с соотношением (2.10.13). Однако равенство (2.10.18) и в самом деле следует из соотношений (2.10.15)—(2.10.16): Ех/=Е pi■ - ЕЕ wv=Е р/ - Е Е мп=Е №* ■ i i i ': '/у /' /' <: '#/ /' Таким образом, если предположить выполнение формулы (2.10.15) (т.е. найти р из равенства (2.10.16)), то будет выполняться равенство (2.10.12). В соответствие с условием (2.10.17) вектор р называют вектором пропускной способности. На основании вышеизложенного получаем следующий результат. Теорема 2.10.3. Пусть [N_(t)) — открытый процесс миграций с параметрами (k,P,\i). Предположим, что матрица 1-Р обратима, и введем р согласно формуле (2.10.16). Предположим, что покомпонентно выполняется неравенство p<[L, (2.10.19)
§2.10. Ветвящиеся процессы с непрерывным временем т. е. суммарная интенсивность прибытий р,- в каждом узле j меньше, чем интенсивность обслуживания [ij. Тогда произведение геометрических вероятностей задает инвариантное распределение к = (к„) процесса (M(t))- Кроме того, если в матрице маршрутизации Р любая пара узлов i, /' = = 1,..., У сообщается (т. е. р[;- > 0 для некоторого s ^ 1), то процесс (N.(t)) становится неприводимым с единственным инвариантным распределением {тс„}. В этом случае процесс (N.(t)) является положительно возвратным и Пт РШ) = п) = Кп Vzi (2.10.21) t—»oo _ независимо от начального распределения. Сохраняющая частные р сеть из тс, пришедших с холода14. (Из серии «Фильмы, которые не вышли на большой экран».) Замечание 2.10.4. Формула (2.10.20) означает, что в состоянии равновесия для заданного момента t длины очередей на различных станциях в момент t являются независимыми и имеют геометрическое распределение: РеЧВД = «/, / = 1 ■0 = ПречММ = л/), (2Л0-22) i где PeqW0 = n)=(l-^)(g)". « = 0,1,... (2.10.23) Однако этот факт ничего не говорит нам о совместном распределении величин (Nj(tj)) в различные моменты времени tj. Следовательно, мы не можем утверждать, что процессы (Nj(t)), представляющие собой длины очередей на станциях открытой сети Джексона, независимы. Формула (2.10.23) также утверждает, что одномоментное стационарное распределение (N/(t)) является геометрическим, т. е. совпадает со инвариантным распределением для М/М/1/оо-цепи Маркова, когда процесс прибытий является процессом Пуассона ПП(ру) и интенсивности обслуживания равны [I/. См. уравнение (2.9.8). Однако мы не можем утверждать, Ср. с названием фильма по роману ле Карре «The Spy Who Came in from the Cold».
Глава 2. Цепи Маркова с непрерывным временем что процесс (Nj(t)) стохастически эквивалентен процессу {Q(t))y задающему длину очереди, который генерируется этой цепью М/М/1/оо в состоянии равновесия. Таким образом, общий процесс прибытий на станцию j не обязан быть процессом Пуассона ПП(ру). В действительности общий вид процесса, задающего общее число прибытий на заданную станцию сети Джексона (замкнутой или открытой), остается неизвестным. Нетрудно исследовать случай, когда матрица маршрутизации Р открытой сети не оставляет возможностей для циклов, т.е. задания перемещаются вдоль графа, представляющего собой направленное дерево. См. рис. 2.70 а). При таком ограничении процесс, задающий общее число прибытий на станцию /, в состоянии равновесия действительно является процессом Пуассона ПП(ру). В частном случае эта так называемая тандемная сеть, где задания могут перемещаться только слева направо. См. рис. 2.706). 1 г/\ / , \ • / 1 • о • • • • • 1> • j '• рц>0 а) б) Рис. 2.70 В этих примерах пропускную способность ру на станции / можно вычислить в явном виде: Р/ = Х/+1]Х'Т1^ к Ну /-»/ Здесь суммирование Y1 производится по множеству станций /, предше- ствующих / (это множество может быть и пустым); такие станции образуют семейство направленных путей в дереве, заканчивающихся в состоянии /'. (На рис. 2.70 а) для станции j имеется три предшествующих: /, /' и /".) Произведение под знаком суммы распространяется на все станции i\=i,... ..., is вдоль пути, ведущего из / в /, где s + 1 — расстояние на графе от I до /. (На рис. 2.70 а) имеем р,- = Ху + Х; pVj + X,/ pVi рц + X,v р,-«,- р,у.)
§2.10. Ветвящиеся процессы с непрерывным временем Замечание 2.10.5. Если для некоторой станции / выполняется равенство Р/ = И/ или неравенство Р/>И/. то инвариантного распределения не существует. (Однако мы все еще имеем инвариантную меру ос ПСРу'/^/)"' ■) Таким образом, процесс (N(t)) либо имеет нулевую возвратность, либо невозвратен. Важным вопросом является обратимость во времени сетей Джексона. Как известно из §2.8, обращение во времени общей ц.м.н.в. приводит к неоднородной ц.м.н.в. (см. замечание 2.8.7). Однако класс сетей Джексона имеет особенность: он замкнут относительно обращения во времени. Иными словами, обращение во времени сети Джексона вновь приводит к сети Джексона. Чтобы показать это, рассмотрим следующие свойства М/М/1/оо-це- пей, мотивированные теоремой Бурке и ее доказательством. 1. Суммарный входной поток для заданной станции при обращении времени превращается в суммарный выходной поток из этой станции. Следовательно, для обращенного процесса (£l(t)) вектор нагрузки робр равен р. Совпадают также и векторы интенсивностей обслуживания: ^.обр = ^.. 2. Аналогично вектор интенсивности входного потока Х° р следует определить как хобр = а вероятности выходов р.*обр — как \9iPl, _*обр X/ • j j 3. Из равенств р° рр°- р = р/-р/-1- непосредственно следуют соотношения обР__Р/_ ._£/ . Pi) -рОбрРу-p.AV Чтобы проверить состоятельность такой конструкции, обратим внимание на следующие положения.
Глава 2. Цепи Маркова с непрерывным временем а) Обращенная во времени матрица маршрутизации Р°6р — {р°- р) является субстохастической. Это следует непосредственно из определений: Pi м Кроме того, обращенные во времени вероятности выходов имеют вид б) Вектор робр удовлетворяет (2.10.15), т.е. (робр)Т = (Х°бр)Т + (робР)тЯ°бр, или (робР)т(1-РобР) = (Хобр)т. Это тоже легко получить: Х;«р + [(робР)Тробр] j=ХобР + £робрробр = 9jp. + ^р; ?_Lp.. = i i =p/p;+p/E^=pyp;+p/(i-p;)=p/=p;6pv/=i,...,/. В результате получаем следующую теорему. Теорема 2.10.6. Пусть имеют место обозначения и выполняются предположения теоремы 2.10.3. Тогда в состоянии равновесия обращенный во времени процесс {N_o6p(t)) соответствует открытой сети Джексона со следующими параметрами: Д0бр\ а) вектор интенсивностей прибытий Хобр= задается в виде \Х0бр/ Х;бР = р/Р;, /=1,...,У; (2.10.24) б) вектор интенсивностей обслуживания [L тот же; в) матрица маршрутизации р°бр = (р°бр) определяется так: Р-бр = |ру/, i,i=U...,J. (2.10.25) Следствием теоремы 2.8.10 является аналог теоремы Бурке для открытых сетей Джексона; см. теорему 2.10.7. Она описывает структуру выходных потоков для рассматриваемой сети. Для заданной станции /', представим процесс (Nj(t)) (число заявок на станции /) таким же образом, как и в (2.9.14): N,(t) = Nj(0) + Af°\t) + £Aw(0 -Y,DHk{t) - D™*°\t). (2.10.26)
§2.10. Ветвящиеся процессы с непрерывным временем Здесь (Л?ход(/)), /'= 1, ...У, обозначают (независимые пуассоновские) входные потоки. Далее, (Л,_у(/)) — это процесс прибытий на станцию / из / и (Dj^k(t)) — это процесс переходов из станции/ в k. Наконец, (DJbKoa(t)), /= 1, ...У, обозначает процесс выходов из сети. Теорема 2.10.7. В условиях теоремы 2.10.3 в состоянии равновесия (т. е. при Ц(0) ~л, где к = (п„) определено в формуле (2.10.20)) для любого Т > 0 выполняются следующие условия: а) процессы (Djblxcw(£)), ..., (£>уыход(/)) являются независимыми процессами Пуассона: (£>?ыход(0) ~ ПП (р,/?*), / = 1,..., У; б) процесс (N.(t + T), />0), описывающий состояние сети Джексона после момента времени Т, не зависит от процесса {D(t), 0^t<T), который подсчитывает выходы из сети до момента Т. Мы не будем приводить доказательство теоремы 2.10.7, так как по сути оно лишь повторяет доказательство теоремы 2.9.2 (хотя и с техническими сложностями ввиду векторной природы процесса (N_{t))). Пример 2.10.8. Рассмотрим замкнутую сеть Джексона в состоянии равновесия. Докажите, что ее обращение во времени опять является сетью Джексона. Решение (набросок). Пусть R = (г,/) — матрица маршрутизации для за- /Р.\ данной сети, а р = : —неотрицательный вектор, который аннулируется \ру/ матрицей R: рт/? = 0т. Предположим, что матрица R неприводима и р,- >0, i = 1,..., У. Образуем матрицу маршрутизации /?обр = (г^бр), где '/?" = ?'/«■. Ui=\,-J- (2-10.27) Проверяем, что рт/?обр = 0т. Затем проверяем, что описание обращенного процесса (N°6p(t)) соответствует конструкции, задающей сеть Джексона в состоянии равновесия с Q-матрицей ^обр и теми же самыми стационар- ными вероятностями п„ ос ПР**- что и У исходного процесса (N.{t)). □ i Машина обращенного времени15 (Из серии «Фильмы, которые не вышли на большой экран».) Пример 2.10.9. В птичнике с К птицами находится лишь один бассейн для купания птиц. Купаются птицы индивидуально, время купания каждой птицы имеет показательное распределение со средним ^_|. Покинув 15СР. с названием фильма «The Time Machine».
Глава 2. Цепи Маркова с непрерывным временем бассейн после купания, птица летает где-нибудь неподалеку в течение периода времени, имеющего показательное распределение со средним Х-1, прежде чем приземлиться для очередного купания. Если у бассейна уже есть птицы, вновь прилетевшая птица ожидает в очереди. Все времена купаний и времена полетов независимы. Пусть X(t)— число птиц, которые не летают в момент времени t. Выпишите Q-матрицу цепи Маркова (X(t)) и покажите, что стационарное распределение имеет вид *.(/° = -I я=0 J Найдите стационарное распределение цепи скачков {К„, я^О}. Пусть тт — время т-го приземления после момента времени 0, и Zm=X(z,„+) — l. Рассмотрев процесс {(/„, Уп+\), п^О} (или иным способом), покажите, что стационарным распределением цепи Маркова {Zm, m^l} является ЛК-\) ,/ = 0,1, ...,К-1. Решение (набросок). См. рис. 2.71, где / — число птиц не в полете. м м • • • . . vy vy КХ (/С— 1)А м • • • (К - 1)Х Рис. 2.71 М Л к Уравнения детального баланса имеют вид Х(/С-/)и,- = 1Ш/+1, i = 0,...,/(- 1, откуда получаем стационарное распределение для (X{t)): Г к "I-1 Ki=(l)'w^v. J^whty.dY x{l)'w^' f=°.-.^. что и требовалось показать. Стационарное распределение тс цепи {У„} имеет вид т% = к0КК к? = тц(у. + (К-1)к), i =[,... К. Наконец, мы наблюдаем цепь {Zm}, когда {Y„} совершает скачок вверх, т.е. Y„ = У„_| + 1. Следовательно, стационарное распределение kz цепи {Z„} таково:
§2.10. Ветвящиеся процессы с непрерывным временем где Pji+\ обозначают вероятности перехода в цепи (У„): Таким образом, ^^UJ^T^^y (^т-ут- Отсюда получаем последнее утверждение. □ Пример 2.10.10. Рассмотрим открытую сеть Джексона со станциями 1, ..., У, векторами интенсивностей прибытий и обслуживания Хи[аи субстохастической матрицей маршрутизации Р. Предположим, что матрица 1-Я обратима и выполняется условие неперегрузки р<^, где р — вектор пропускной способности и рт = X (I - Р). Рассмотрим эту сеть в состоянии равновесия с таким инвариантным распределением тс, как в уравнении (2.10.20). Для заданных /=1,...,/ия^0 определим р,-|„— интенсивность прибытий, «застающих п заявок на станции /», следующей формулой: p,i„ = —-г-, г х - х Е(число прибытии на станцию / Г| n(Ni = n) t в период времени от 0 до t, когда уже есть п заявок в узле /). Докажите, что для любых / и п выполняется равенство Р/|я = Р(- Решение (набросок). Напомним, что р, = ^р/р/;. Обозначим третий / сомножитель (математическое ожидание) символом Et. Тогда в силу стационарности инвариантного режима Et удовлетворяет равенству Eh+h = Et, +Et2< t\+t2>0. Следовательно, Et=At, где Л>0 — некоторая постоянная. Чтобы найти Л, рассмотрим Et при малых значениях t Et = K{Nt = n)^2pipnto(t), i A = WmK(Ni — n)pi. Таким образом, p,|„ = p,-. □ Замечание 2.10.11. Свойство, подчеркнутое в примере 2.10.10, часто называют так: пуассоновские прибытия видят усреднение во времени (ППВУВ)16. 16В английском оригинале: PASTA, Poisson arrivals see time averages.
Глава 2. Цепи Маркова с непрерывным временем Аналогичное свойство для замкнутых сетей рассматривается в следующем примере. Пример 2.10.12. Рассмотрим замкнутый процесс миграций {N_(t)) со станциями 1, ..., / и К циркулирующими заявками. Предположим, что матрица маршрутизации R заданной цепи неприводима и р — такой вектор, что pTR — Он все компоненты р,- положительны. Пусть, далее, nW) — инвариантное распределение для (N.{t)), определенное в формуле (2.10.4), /я.\ где п = : GZJ+ и п\ +... + nj = К. Для заданного i =[,..., J определим \nj/ где piTi^(Ni — n) — частота прибытий на станцию i, на которой уже находится п заявок, п = 0, 1,..., К— 1. Докажите, что fi\n=K{K-l)(Ni = n), где тс(/(_1)(/У, = я)— частота наблюдения п заявок на станции /, п = = 0, 1,...,/(—1. Здесь тс(/(-1) — инвариантное распределение для замкнутого процесса с К — 1 заявками. □ Сети Джексона занимают исключительное место среди ц.м.н.в., поскольку для них можно произвести точные (и элегантные) вычисления (до определенной степени). В самом деле, мы можем найти в явном виде условие положительной возвратности (см. формулу (2.10.19)) и соответствующее инвариантное распределение (см. формулу (2.10.20)). Это обусловливает постоянный интерес к этой модели, несмотря на ее очевидные недостатки с точки зрения приложений. (Один серьезный недостаток состоит в том, что мигрирующие заявки совершают случайное блуждание по сети; другой недостаток — времена обслуживания на разных станциях независимы, третий — распределение обслуживания определяется станцией (зависит от станции), а не заявкой, которая обслуживается.) Формально сеть Джексона с / станциями представляет собой случайное блуждание с непрерывном временем на неотрицательном ортанте целочисленной решетки Ъ!+. В случае двух станций (/ = 2) это неотрицательный квадрант Z+, а состоянием является пара п = (п\,п.2) неотрицательных целых чисел п\, п^ GZ+. В результате случайный вектор N_(t) имеет две компоненты N\(t) и /Уг(0. представляющие число объектов на станциях 1 и 2 соответственно. Для простоты предположим, что диагональные вероятности перехода р\\
§2.10. Ветвящиеся процессы с непрерывным временем MlPl2 /^ Л, ^ \ М2Р21 / М1РГ Л~\У if л2 Л~^У 7/^~Л М2Р2* NiV) ( 1 2 Рис. 2.72 и р22 равны 0, так что матрица маршрутизации Р имеет вид VP21 0 / ' (2.10.28) (2.10.29) Далее, очевидно, что вероятности уходов таковы: Р* = 1-/?12, Р2 = 1_Р21- Интенсивности скачков п —> п', введенные в уравнении (2.10.9), указаны на рис. 2.73. У этой модели есть шесть независимых неотрицательных параметров, а именно Xi, Хг, р\2, Р2\ и у.\, у.2- П2 Л2 М2Р2 M2P2I MlPl2 MlPl2 Л2 ... MlPl <>- л2 :Л2 Л" ->'<- MiP* Ai М2Р2 М2Р21 п\ Рис. 2.73
Глава 2. Цепи Маркова с непрерывным временем Суммарная интенсивность <7я скачков из состояния п = (п\, «г) такова: <7ВН1Гф:=Х,+X2 + ti,+[i2, <7гор:=Х,+X2 + [ii, (7BepT:=Xi+X2 + [!2, <7нач:=Х,+Х2, если П\, п.2 ^ 1, т. е. точка п лежит внутри квадранта Z+, если «1 ^ 1, «2 = 0. т.е. точка я^О лежит на горизонтальной полуоси Z+, если п\ ^ 1, «2 = 0. т.е. точка пфО лежит на вертикальной полуоси Z+, если П[ = «2 = 0, т. е. точка п лежит в начале координат 0. (2.10.30) Соответственно, для цепи скачков вероятности р„,„' скачков п = {п\, и2)—► —у п' = (п[, п2) будут ненулевыми только для пар ближайших соседей п, п' е Z+, где \п\ - п\ | + \п.2 — п'2\ = 1, и для пар вида: точка и следующая после ближайшего соседа точка, т.е. таких пар, что п\ — п\ — п2 — п'2 = ±\. При этом вероятности скачков задаются так: а) для внутренних точек Z+ (п\, «2 ^ 1): 1 X < ^внутр 'х,, И-|(1 — Р12). х2, М1 -P2l), (I2P21. .HlPl2, п п п п п п = «1 + 1, = П\ - 1, = «1, = пи =«1 + 1, = П\ -1, П2 =П2, п'2 = п2, «2 = «2 + 1, П2 = П2 - 1, п2 = «2 — 1, «2 = Л2 + 1, Рал' = б) на горизонтальной полуоси Z+ (Л] ^ 1, «2 = 0): (2.10.31) 'X,, М1-Р12), х2, ^1Р12, л', =«i И, =«1 л', = Л( «1 *> 1, + 1, «2=0, -1, п'2 = 0, И2 = 1, «',=«! -1, Рал' = ^? х < в) на вертикальной полуоси Z+ {п\ = §, п2*£\): «2 = 0, Л2=1. /?л,л' ^верт х < 'Xl, «1 = 1, «2 = «2, [Л2Р21, «1=0, «', = 1, «2 ="2-1, Х2, «'i=0, л2 = «2 + 1, .М1 ~Р2\), «1=0, И2 = И2-1, (2.10.32) (2.10.33)
§2.10. Ветвящиеся процессы с непрерывным временем г) в начале координат (п\ =«2 = 0): ^ __1_ /Х|, п\ = \, п'2 = 0, P0-'a'-q™X\h, «',=0, п'2=1. Сосредоточимся теперь на некоторое время на этом примере. Матрицы 1-Я и (1-Я)-1 имеют вид \-Р=( ' "М, (1-Я)-' = -—!—f1 M. (2.10.34) V-P2I 1 / 1-Р12Р21 ЧР21 1 / Видим, что матрица I — Я обратима тогда и только тогда, когда p\<ipi\ < 1. Соответственно, вектор пропускной способности р, определяемый из соотношения рт = Х (1-Я)-1 (см. формулу (2.10.16)), задается формулой , _ ! Ai + Х2Р21 \ 1 — PI2P21 V.X1P12+X2/' а неравенства (2.10.19) принимают вид Xi +X2P21 (2.10.35) pi = -j—7-Е-<т _ _ X1P21+X2 1 -/712021 Таким образом, неравенства (2.10.35) необходимы и достаточны для положительной возвратности ц.м.н.в. (N_(t)) для сети Джексона с двумя станциями. Иными словами, неравенства (2.10.35) описывают область положительной возвратности в пространстве параметров Хь Хг, р\2, Рг\ и Hi, И-2- Интересно сравнить неравенства (2.10.35) со средними векторов скачков, возникающими из рис. 2.73 и уравнений (2.10.31)—(2.10.33). Мы имеем три вектора: (г-внутр\ /РГ°Р\ /с-еертД С1 I Fr°P— I ' 1 РвеРт— I ' I которые показывают средний снос во внутренней области 1?+ и на горизонтальной и вертикальной частях границы 1?+ соответственно. (Четвертый вектор Енач, который совпадает с X и приписывается началу координат, не
Глава 2. Цепи Маркова с непрерывным временем имеет существенного значения.) Более точно, рнутр _ 1 Al -уцр*-уаР12+№Р21\ _ 1 Al -Ц1+Ц2Р2Л ^впутр I Х2-Ц2Р2 +Ц1Р12-Ц2Р21 / gDliyTp VX2-(i2+(ilPl2/ ' (2.10.36) _ _!_ Ai -HipT —HiPia\ _ _L / h-У- Ег°р = ^-Г' ^' ^U^-L'Y , (2.10.37) qrop у Х2 + Ц1Р12 y q^f yh+[J-\P\2j ' EBepT=J_/ Х.+Ц2Р2, \ J_ А, +Ц2Р2Л (2.10.38) q«w \\2 - У.2Р2 ~ У2Р21J qB^ \ Х2-Ц2 J' где нормирующие знаменатели qmyTP, qroP и ^верт задаются формулой (2.10.30). (На самом деле в нижеследующих вычислениях эти множители не фигурируют.) Заметим сначала, что если у вектора Евнутр обе компоненты Ев"утр, Е™™ неотрицательны (т. е. Евнутр смотрит «из» границы Z+), то ц.м.н.в. (N_(t)) не может быть положительно возвратной. См. рис. 2.74. не положительно возвратна рвнутр Рнс. 2.74 Это верно, поскольку неравенства Xi -Ц1+Ц2Р21 >0, Х2-Ц2 + Ц1Р12^0 (2.10.39) противоречат неравенствам (2.10.35). Действительно, суммирование неравенств (2.10.39) приводит к неравенству Х|+Х2^Ц1+Ц2-Ц1/>12-Ц2/>21, (2.10.40) тогда как суммируя неравенства (2.10.35), мы получаем Xi +Х2<Ц| +Ц2-Х1Р12-Х2Р21 -(Hi +\i2)Pi2P2i, (2.10.41) и правая часть неравенства (2.10.41) меньше правой части неравенства (2.10.40) (так как Х,-^р,-<ц«, i= 1,2). Таким образом, если мы хотим, чтобы цепь (N_(t)) была положительно возвратной, то вектор Евнутр должен быть направлен по крайней мере на
§2.10. Ветвящиеся процессы с непрерывным временем одну из полуосей, образующих границу 1?+ (возможно, и на обе). Удобно выделить взаимно исключающие случаи: а) вектор Евнутр направлен на обе полуоси, б) вектор Евнутр направлен на вертикальную полуось, но не направлен на горизонтальную, в) вектор Евнутр направлен на горизонтальную полуось, но не направлен на вертикальную. положительно возвратна / , Евнутр Случай а) Рис. 2.75 Рассмотрим сначала случай а); см. рис. 2.75. Тогда в силу соотношения (2.10.36) имеем неравенства, противоположные неравенствам (2.10.39): £в„утР) £внугР<0> те Х|+ц2р2|<ц, и Х2 + ц,р12<ц2. (2.10.42) Умножим первое неравенство на pi2, а второе — на p2i: hp\2 + W-2P2\P\2<\>-\P\2, ^2P2\+\L\P\2P2\<\>-2P2\- (2.10.43) Затем сложим первое неравенство из (2.10.42) и второе неравенство из (2.10.43) и отдельно сложим второе неравенство из (2.10.42) и первое неравенство из (2.10.43): Xi +\l2P2\ +X2p2i +[l\Pl2P2\ <[i-\ +[i-2P2\, ^2+[i-\Pl2 + hP\2+[i-2P2\P\2<\i-2+\i-\P\2- После очевидных сокращений получаем неравенства (2.10.35). Следовательно, случай а) приводит к положительной возвратности. Иными словами, область параметров Xi, X2, pi2, p2i, ^i и ^i2, которая описывается неравенствами (2.10.42), лежит строго внутри области параметров, задаваемой неравенствами (2.10.35). Этот факт можно проинтерпретировать на интуитивном уровне. Неравенства (2.10.42) утверждают, что интенсивность обслуживания на каждой станции достаточно велика, чтобы справиться с «экстремальной» ситуацией, когда другие станции постоянно заняты (непусты). Действительно,
Глава 2. Цепи Маркова с непрерывным временем Х| + [J-2P21 задает общую суммарную интенсивность прибытий на станцию 1, когда станция 2 занята, и аналогично для Х2 + [J.ip12• Поэтому не вызывает удивления такой факт: если сеть может справиться с таким потоком, то положительная возвратность обеспечена. Как видим, если неравенства (2.10.42) выполняются, то ц.м.н.в. (N_(t)) положительно возвратна. С другой стороны, если выполняются неравенства (2.10.39) (т.е. оба неравенства (2.10.42) нарушаются), то цепь (N[t)) не может быть положительно возвратной. Остается вопрос: что происходит в случаях б) и в)? не положительно возвратна положительно возвратна Случай б) Рис. 2.76 Анализ этих случаев зависит от того, как векторы Евнутр и Еверт направлены по отношению друг к другу (и не зависит от их величины). А именно, в случае б) если вектор Еверт смотрит в сторону от вектора Евнутр (или Еверт и Евнутр параллельны), то ц.м.н.в. (N_{t)) не может быть положительно возвратной. Наоборот, если вектор Еверт направлен на Евнутр, то цепь (N.(t)) положительно возвратна. См. рис. 2.76, где вектор Е+Нутр =( LH)Tp) означает вектор, полученный поворотом по часовой стрелке вектора Евн>ггр на угол к/2 (поворот по часовой стрелке, так как вертикальная ось при таком повороте становится направленной внутрь положительного квадранта). Аналогично в случае в), если Егор смотрит в сторону от вектора Евнутр (или параллелен ему), то ц.м.н.в. (N_(t)) не может быть положительно возвратной. Рассмотрим вначале случай б). Тогда левая часть рис. 2.76 соответствует неравенствам £внутр<0, £°нутр^0 и £;нутр^ерт - £внутр£верт > 0. (2.10.44) Последнее неравенство означает, что скалярное произведение (Е+нутр , Еверт) положительно.
§2.10. Ветвящиеся процессы с непрерывным временем Правая часть рис. 2.76 соответствует неравенствам £?нутр < 0, £°нутр ^ 0 и £°нутР£ГРТ - ^нуТР£2ерт < 0. (2.10.45) Возвращаясь к соотношениям (2.10.36), (2.10.37), перепишем последнее неравенство в (2.10.44) в виде (Х2-Ц2 + Ц1Р12НХ1 + V-2P2\)>{h -Ц1+Ц2Р21КХ2-Ц2); после сокращений получаем Х2Ц1 +XiHi/?|2^H2Hl(l-/>2l/>l2), что эквивалентно неравенству Хг + Xipi ^ц2(1 ~Р\2Р2\)- Это неравенство противоположно первому неравенству в (2.10.35). Следовательно, неравенства (2.10.44) исключают положительную возвратность. С другой стороны, система (2.10.45) эквивалентна системе неравенств Х1+Ц2Р21<Ц1, Х2 + Н-1/712 ^И-2, Х2 + Х1р12<Ц2(1-/'12Р21). (2.10.46) Третье из неравенств (2.10.46) — это в точности второе из неравенств (2.10.35). При помощи тех же рассуждений получаем, что система (2.10.46) приводит к системе, где первое неравенство заменяется на первое из неравенств (2.10.35). Затем опустим второе из неравенств (2.10.46). В конечном счете из системы (2.10.46) следует выполнение системы (2.10.35), т.е. положительная возвратность. Случай в) рассматривается аналогично; см. рис. 2.77. Левая часть рис. 2.77 соответствует неравенствам £7^0, £2НУТР<0 и -£^нутр£;ор + £°нутр4ор^0, (2.10.47) где последнее неравенство означает, что скалярное произведение ^внутрх^ рерт) положительно, Ев_нутрХ = (~jp™\= -Е;нутрХ) означает вектор, полученный поворотом против часовой стрелки вектора Евнутр на угол к/2 (поворот против часовой стрелки, так как вертикальная ось при таком повороте становится направленной внутрь положительного квадранта). Правая часть рис. 2.76 соответствует неравенствам £°нутр^0, £°нутр<0 и -£^нутр£;ор + £°нутр£™р<0. (2.10.48) Подведем итог. Теорема 2.10.13. Для открытой сети Джексона с двумя узлами, интенсивностями входных потоков Xi, X2, матрицей маршрутизации Р=( Рп) и интенсивностями обслуживания ш, и2 процесс \Р2[ 0 /
Глава 2. Цепи Маркова с непрерывным временем (N_(t)) является положительно возвратным тогда и только тогда, когда для векторов Евнутр, Еверт и Егор, заданных формулами (2.10.36)—(2.10.38), выполняется одна из следующих трех взаимно исключающих возможностей: а) вектор Евнутр удовлетворяет системе (2.10.42) (см. рис. 2.75), б) векторы Евнутр и Еверт удовлетворяют системе (2.10.45) (см. правую часть рис. 2.76) или в) векторы Евнутр и Егор удовлетворяют системе (2.10.47) (см. правую часть рис. 2.77). не положительно возвратна положительно возвратна внутр X рвнутр X Случай в) Рис. 2.77 Мораль, которую можно извлечь из этого анализа, состоит в том, что положительную возвратность можно установить исходя из картины векторных полей, порождаемых средними скачков. Отсутствие свойства положительной возвратности у цепи в случаях б) и в) можно объяснить посредством следующих рассуждений «на физическом уровне»: когда мы рассматриваем поведение процесса (N.(t)) в «крупных масштабах» времени и пространства, то главенствующая тенденция для путей/траекторий — это четкое следование направлению векторного поля. Левые части рис. 2.76 и 2.77 оставляют возможность для путей/траекторий уйти на бесконечность, придерживаясь линии, которая остается вблизи соответствующих частей границы 1?+, как показано на рис. 2.78. Теория, лежащая в основании изучения цепей Маркова и других классов случайных процессов в больших масштабах времени и пространства, называется анализом предельных потоков. Некоторые аспекты этого анализа представлены в следующем параграфе в связи с теорией больших уклонений. Исследования такого рода можно распространить на общие цепи Маркова на 1?+, и это приводит к мощной теории (см. Fayolle G., Maly- shev V.A., Menshikov M. V. Topics in the Constructive Theory of Countable Markov Chains. Cambridge: Cambridge University Press, 1995). Специфический характер сетей Джексона подчеркивается тем фактом, что
§2.10. Ветвящиеся процессы с непрерывным временем -vJ^>v i^. Рис. 2.78 в случае а) (см. неравенства (2.10.42) и рис. 2.74) векторы Егор и Еверт автоматически нацеливаются на вектор Евнутр, блокируя возможности ухода траектории и обеспечивая тем самым положительную возвратность. Это происходит в результате того, что векторы Егор и Еверт получены из EBHyTp путем «усечения», когда подавляются скачки, не позволительные в силу геометрии квадранта 1?+. Нетрудно привести пример «естественных» ц.м.н.в. на 1?+, когда векторы Егор и Еверт не могут быть получены при помощи этой процедуры. Анализ таких цепей становится намного сложнее. В завершение этого параграфа прокомментируем еще одно интересное и полезное свойство процессов (Kit)), возникающих в сетях Джексона: монотонность. Это научит нас полезной технике спаривания случайных процессов. Пример 2.10.14. Рассмотрим два открытых процесса миграций с одним и тем же множеством станций (узлов) 1, ..., У и параметрами (X, Р, [х) и (X , Р', [>.') соответственно. Предположим, что ХЧХ, Р' = Р и \х' = \х. Здесь и ниже неравенства для векторов понимаются покомпонентно. Рассмотрим соответствующие процессы миграций (Kit)) и (K'(t)), где Kit) = Wi(0\ /W{(0\ и K'it)— '■ . Предположим, что iK(t)) и iK'it)) стартуют Mt)l WO/ из одного и того же самого начального состояния «°eZ+. Тогда процесс (K(t)) остается стохастически большим, чем iK'it)) (или iK'it)) стохастически меньше, чем iKit))), т. е. эти процессы можно запустить совместно таким образом, что с вероятностью 1 выполняется неравенство K'it)^Kit) У/=1,...,У и t^O. (2.10.49) Попросту говоря, размер очереди в процессе (K(t)) все время остается большим, чем размер очереди в процессе iK'it)) на каждой станции у. См. рис. 2.79.
Глава 2. Цепи Маркова с непрерывным временем "Ч. •5 5 — w;</) Рис. 2.79 Решение. Чтобы построить спаренный процесс, запускаем совместно две сети Джексона, рассматривая сеть с параметрами (X, Р, [х) и введя приоритеты. Более точно, представляем пуассоновский входной поток ПП(Х/) в виде суммы независимых процессов Пуассона ПП(Х') и ПП(Ху —X'). Заявки, относящиеся к процессу ПП(Хр, «пометим» красным, а заявки, относящиеся к ПП(ХУ — X'), — белым. Приоритет состоит в том, что красные заявки замечают наличие только других красных заявок, т. е. белые заявки могут быть обслужены только тогда, когда в очереди нет красных, и если красная заявка прибывает на данную станцию в тот момент, когда обслуживается белая, то обслуживание сразу же переключается на красную. Обслуживание белых заявок возобновляется, когда в очереди не остается красных. Заявки обоих цветов подчиняются одинаковым правилам циркулирования и ухода, которые предписываются матрицей Р. Пусть /VKp(/) и №ej,(t) — числа красных и белых заявок на станции /Кр(0\ / в момент времени t\ образуем векторы N_Kp{t)= : и ^бел(0 = N6r(t)\ \N?V)) : . Ясно, что введенная выше модификация не меняет распределения общего процесса (N_(t)): (Л/(0)~(УУкр(0 + Л^бел(0). Более того, красная часть процесса (N.(t) стохастически совпадает с (N_'(t)): (/V'(0)~(iYKp(0). Поскольку N_Kp(t) + N_6™(t)^N_Kp(t), получаем неравенство (2.10.49). □ Сети Джексона обладают множеством различных свойств монотонности (см. Shaked M., Shanthikumar J.G. Stochastic Orders and their Applications. Boston MA: Academic Press, 1994; Milller A., Stoyan D. Comparison Methods for Stochastic Models and Risks. Chichester: Wiley, 2002). Многие из этих свойств возникают при детальном анализе моделей
§2.11. Большие уклонения для цепей Маркова с непрерывным временем очередей с одним сервером. Также существуют интересные неравенства, связывающие открытую сеть Джексона и совокупность У изолированных М/М/1 -очередей17. §2.11. Большие уклонения для цепей Маркова с непрерывным временем В этом параграфе будет разработана методология больших уклонений для цепей Маркова с непрерывным временем, возникающих в теории очередей, поскольку это приводит к важным практическим приложениям. Существует и более общая теория, охватывающая формально более широкий класс ц.м.н.в.; см., например, [DZ], однако она требует технически сложных условий. Мы сосредоточим внимание на так называемой картине выборочных траекторий, когда интерес представляет процесс длины очереди с измененным масштабом (Qm/n). Основной результат получается следующим образом. Зафиксируем временной горизонт Т>0 и скорость роста длины очереди (в измененном масштабе) v>0. Предположим, что р = ХДк1 и Qo — 0, и рассмотрим событие {vt-e<^Qtn<vt + e,0<t<T\. (2.11.1) Оказывается, для любого е > 0 вероятность этого события стремится к 0 при л-юос экспоненциальной скоростью. Точнее, lim -In л—»оо П ,(W-e<i<?,n<^ + e,0<^<7') =-T$(v), (2.11.2) где p(iO = tHn(" + ^2x+4X^)+X + ^-^;2 + 4X^>0. (2.11.3) Тот факт, что выражение из формулы (2.11.3) положительно, следует из двух простых заключений: 1) [3(0) > 0 (эта величина неотрицательна для всех X и [L и равна нулю, когда X = \i), 2) [З'(и) > 0 при v > 0 (здесь условие \<у. является существенным). Смысл события (2.11.1) вполне прозрачен: на большом временном интервале [0, пТ] длина очереди возрастала почти линейно (и, в частности, достигла высокого уровня больше vnT в момент пТ). Можно записать соотношение (2.11.3) в виде P(vt-s< Qln/n<vt + e, 0< t< 7)«e_rP(y). |7См. Massey W.A. An operator-analytic approach to the Jackson network//J. Appl. Probab. 1984. V.21. P. 379-393; Open networks of queues: their algebraic structure and estimating their transient behavior// Adv. in Appl. Probab. 1984. V. 16. P. 176-201.
Глава 2. Цепи Маркова с непрерывным временем -Qm vt . п ^FlT Рнс. 2.80 Для него золотым был прямой путь. Р. Браунинг (1812-1889), английский поэт Поучительно получить уравнение (2.11.3) исходя из «первых принципов». Для этого при заданном v>0 максимизируем по 6^0 следующее выражение: Qv-R{Q), гдеЯ(6) = Х(ее-1) + ц(е-е-1), (2.11.4) иными словами, вычисляем преобразование Лежандра функции R(B). Прямым дифференцированием получаем значение 6*, доставляющее максимум, как решение уравнения v = R'{B*), (2.11.5) 6* = ln(^g±^)>0. (2.11.6) Максимальное значение (2.11.4) совпадает с |3(у). Более тонкий анализ дается следующими рассуждениями. Пусть нас интересует событие, состоящее в том, что длина очереди когда-либо достигнет высокого уровня па: {sup[Qs:s^0]>na}. (2.11.7) Представляет интерес анализ логарифмической асимптотики вероятности этого события по аналогии с соотношением (2.11.2). Здесь результат выглядит следующим образом: lim -In л—»оо П где P(sup[Qs:s^0]>na) =-p*(a), (2.11.8) р*(а) = а1п(^у (2.11.9) Однако этот факт говорит нам о большем, чем просто специфика асимптотики, поскольку позволяет указать траекторию процесса длины очереди
§2.11. Большие уклонения для цепей Маркова с непрерывным временем с измененным масштабом, вдоль которой достигается уровень а. Более точно, выберем v* = [i-\ (2.11.10) и рассмотрим подмножество события (2.11.7): $v*t-e<^Qtn<v*t + e, 0<t<-^, sup[Qs: s^O] >na\. (2.11.11) По сути, в сравнении с событием (2.11.7), в событии (2.11.11) мы ввели дополнительные ограничения на траекторию процесса длины очереди. Однако вероятности обоих событий демонстрируют одинаковую логарифмическую асимптотику: lim -In л—>оо П p(v*t-e<^Qtn<v*t + e, 0<t<^, sup[Qs:s^0]>na\ =-p*(a), (2.11.12) где функция P*(a) определена в формуле (2.11.9). В терминах больших уклонений это интерпретируется так: асимптотически процесс (Qtn/n) достигает уровня а вдоль прямой v*t, 0<t<a/v*. Рис 2.81 Этот факт можно объяснить следующим образом. Рассмотрим все возможные траектории процесса с измененным масштабом (Qtn/n), которые ведут к уровню а. Поскольку мы рассматриваем прибытия, независимые от состояния, и процесс обслуживания также не зависит от состояния, можно ожидать, что «оптимальный путь» находится среди прямых линий. Это означает, что нам необходимо оптимизировать правую часть равенства (2.11.2) относительно v (или, что эквивалентно, относительно T — a/v). Таким образом, минимизируем ,1п("+^т^)+х+^-^7^ (2.11.13) при v>0. Минимум величины (2.11.13) достигается при v* — [i — X, и он равен [3*(a) = aln(^/X).
Глава 2. Цепи Маркова с непрерывным временем Наш путь возникает на время, А затем уходит в мечты. Е.С. Доусон (1867-1900), английский поэт Однако интуитивное понимание больших уклонений, возникающее на основе вышеприведенных аргументов, пока остается достаточно хрупким. Рассмотрим случайную величину хпа — время достижения уровня па процессом (Q(t)): T#ia = inf[/>0:(?/>/ia]. (2.11.14) Асимптотическое поведение хпа описывается соотношением: Нт рЛ!В2»« _ainfiiM<e^ = i Ve>0, (2.11.15) л—»оо \| П \Л/ | / т. е. хпа «(ц/Х)па. Этот факт можно объяснить следующим образом. Процесс (Q(t)) «пытается» достичь уровня па, продвигаясь вблизи оптимальной траектории v*t. Большинство таких попыток безуспешно (и тогда процесс падает к нулю и начинает новую, почти независимую, попытку). Однако существует экспоненциально малый шанс успеха таких попыток, что и приводит к формуле (2.11.15). Этот... путь легок, Но возврата нет. С. Г. Росетти (1830—1894), английский поэт Посредством прямых, но аналитически громоздких вычислений формулы (2.11.1)—(2.11.15) можно преобразовать в строгое доказательство; см. [SW]. . Перейдем теперь к сетям Джексона. Мы будем следовать статье: Ignatiouk-Robert I. Large deviations of Jackson networks // Annals Appl. Prob. 2000. V. 10. P. 962-1001. Предположим, что задана устойчивая (непе- регруженная) открытая сеть, где Р;<Ну. /=! J (см. соотношение (2.10.19)). Определим наиболее загруженную станцию с максимальным отношением (py//jj.y); для простоты предположим, что такая станция единственна и соответствует /= 1: 1>^>тах|"^:/ = 2,...,у]. (2.11.16) Вновь рассмотрим момент времени хпа, когда общая длина очереди ^2Qj{t) не меньше па. Тогда i Л^Р(|^~а1п(*т)|<£) = 1 Va'e>0> (2.11.17)
§2.11. Большие уклонения для цепей Маркова с непрерывным временем т.е. сеть достигает высокого уровня общего числа клиентов, когда переполняется ее «узкое место» — ее критическая станция. Мы видим, что соотношение PT(a) = aln(^) является аналогом равенства (2.11.9). Далее, выборочный путь, который картина больших уклонений рисует как наиболее правдоподобный, можно задать следующим образом. Положим «t = mf'}(n,-Pl), «* = («t,0,...,0). (2.11.18) Здесь постоянная т\0' представляет вероятность того, что запрос, находящийся в текущий момент на станции 1, не вернется на эту станцию в будущем (т.е. покинет сеть, не возвращаясь на эту станцию): j "4о}=Рю + £ £ Pih-Puo, (2.П.19) *>l/'i /*=2 где Pjo (ранее это было pj) означает вероятность покинуть сеть, выйдя со станции /': j Тогда lim -\n\p(v^t-e<-S^Q,(tn)<v^t + E, 0<t<~, I sup V(?ifs):O0 >na\ = ■ lim - In n—too fl p(v\t-E<X-Q\(tn)<v\t + e, 0<t<^, sup[Q\{s): s^O] >na, 0^Qj(u)^en, 0<«<4. / = 2,...y)|=-pt(a), (2.11.20) vl /J что является аналогом соотношения (2.11.12). Интерпретация вновь такова: сеть достигает высокого уровня па общего числа запросов, «собирая» их на критической станции и поддерживая низкий уровень очереди на остальных станциях. В геометрических терминах оптимальная траектория процесса с измененным масштабом \-Qi(t), •••. -Qj(t)), вдоль которой сумма ^2Qj(nt) достигает уровня па,
Глава 2. Цепи Маркова с непрерывным временем следует вдоль прямой линии в У-мерном неотрицательном ортанте Ку вдоль первой оси (соответствующей длине очереди на станции 1) с вектором скорости v*. (Если дописать время, размерность будет У + 1 и вектор будет иметь вид (у*, О,..., О, 1). Иными словами, мы движемся вдоль прямой v*t.) Для У = 2 см. рис. 2.82. i<?i(nO п , а А У = 2 п Рис. 2.82 Основой для этих вычислений служит аналог уравнений (2.11.1)—(2.11.4) для сетей. А именно, начнем с аналога функции R(Q): R® = J>:( Х>'/ев'"в'+Pioe~6i - 1 + 5>(e9' - 1). (2.11.21) Нас интересует следующая задача: для заданного вектора v = =ф1,...,и/)^0,и#0, максимизировать [(0, у) —/?(0)] по 9 = (61,..., Gy) ^ 0. Оптимальным значением для этой задачи будет в точности преобразование Лежандра R*{v), которое мы обозначим Р(у): р(и) = тах[(0,и)-/г(0):в = (0,,...,0у)^О]. (2.11.22) Вид функции Р(у) в формуле (2.11.22) зависит от того, сколько компонент v, и какие именно, равны 0. В простом случае имеем и >0, т.е. все Vj положительны. Тогда процедура вполне проста: значение 0*, доставляющее максимум в формуле (2.11.22), является единственным решением уравнения grad /?(9_) = v для градиента функции R(B): Pfe) = Ш*, 2) - Я(0*), гае grad^(0*) = v. (2.11.23) При этом оказывается также, что 0*>О. Иными словами, значение, на котором достигается максимум, лежит строго внутри ортанта Ш/+. (Свойство 0* >0 выполняется в силу выпуклости функции R(B) по 0.) Отметим,
§2.11. Большие уклонения для цепей Маркова с непрерывным временем что равенство grad/?(0) = u образует систему У скалярных уравнений, по одному уравнению для каждой компоненты и,-, /= 1,..., У. С геометрической точки зрения вектор v > 0 определяет луч, выходящий из начала координат, который лежит внутри ортанта R+. Тогда аналог уравнения (2.11.2) имеет вид lim -1пГр (vit-eK-Qiit^KVit + e, i= 1,..., У, 0< t< Т\ = я—»оо П 1 \ П J = -Гр(у) Vr>0. (2.11.24) Связь между уравнениями (2.11.24) и (2.11.20) в точности такая же, как и между уравнениями (2.11.2) и (2.11.8), поэтомуР*(а) является оптимальным значением для Р(и). Иными словами, чтобы найти Р*(а), мы должны минимизировать аналог выражения (2.11.13) для сети Джексона. Долгий... путь ведет меня к цели, какую бы я ни выбрал У. Уитмен (1819-1892), американский поэт Приведенный далее анализ того случая, когда вектор v содержит некоторые нулевые компоненты, является более сложным, и можно посоветовать читателю пропустить его при первом чтении. Пусть Л(=Л„) обозначает множество {/: и,>0} и Лс = {к и, = 0}. Это означает, что вектор v определяет луч, выходящий из начала координат, который лежит на границе dRJ+, т.е. на поверхности меньшей размерности |Л|. Тогда значение, доставляющее максимум в задаче (2.11.22), может лежать на границе dRJ+ или внутри RJ+, т. е. мы должны сравнить значения в точках, доставляющих локальный максимум, причем некоторые из этих точек могут лежать в дШ/+. Пусть 0 обозначает (переменный) вектор размерности У с ненулевыми компонентами из множества Л. Мы хотим рассмотреть задачу максимизации только по переменным 0,-, /еЛ; это будет возможно, если мы слегка изменим функцию R. А именно, положим ;ел ^ /ел / + &' fe <е9'"е' + m<V9' - 1) • (2-11.25) /ел ^/ел / Здесь для i 6 Л и / 6 Л U {0} значение mfj — это вероятность того, что запрос, находящийся в текущий момент на станции i, достигнет станции / (покинет сеть, если / = 0), не посещая множество Л в промежуточные
Глава 2. Цепи Маркова с непрерывным временем моменты времени: т<7=Р</ + Е Е РЧ1--Р1Ф «еЛ,/еЛи{0}. (2.П.26) k^i /I дел* (Напомним, что р,о и руо — это вероятности покинуть сеть со станций i и /, соответственно). Тогда задача принимает следующий вид: максимизировать [(б\ vA) - ЯЛ(0Л)] по 0Л = (6,-, i G Л), где 6,- ^ 0. (2.11.27) Максимум доставляется (единственным) решением задачи grad//A(0A) = u\ (2.11.28) где иЛ задает сужение начального вектора v на Л. Эта система из |Л| уравнений в силу тех же причин, что и ранее, приводит к единственному решению 0* —вектору размерности |Л| с компонентами 0*Л>О, г 6 Л. Оптимальное значение в задаче (2.11.27) задается преобразованием Ле- жандра: H*A(vA) = (0*Л, vA) - НА(в*А). Нам еще необходимо дополнить вектор 0* до вектора размерности J (который мы также обозначим 0* ). А именно, положим в*А = \п(У2тАев'А+т^\ /еЛс. (2.11.29) /ел Далее, для любой станции / 6 Лс проверим неравенство Р,Л(ГЛ):= (р« + Х)ти(№в-в;А -р,)У'А <1И- (2.11.30) ^ /ел / Если неравенства (2.11.30) выполняются для всех /еЛс, то мы дополним |Л|-мерный вектор 0*л до У-мерного вектора 0*л, прибавив ком- ~л поненты 6,- , /бЛс, вычисленные в формуле (2.11.29). Тогда мы получим (единственное) решение задачи максимизации (2.11.22) для заданного и. И следовал скрытым путем, которым шли лишь очень немногие мудрецы мира! Ф. Луис де Леон (1527—1591), испанский теолог и поэт Однако неравенство (2.11.30) может не выполняться для нескольких (или даже всех) /еЛс. Пусть в этом случае Л(=Л£)СЛС — множество станций, для которых не выполняются неравенства: Л=|/еЛс:рЛ(ГЛ):=^ + ЕтЛ(^-в'-Л-р/)^в->[а1.| (2Л1.31)
§2.11. Большие уклонения для цепей Маркова с непрерывным временем Теперь возьмем произвольное i G Л. Рассмотрим задачу (2.11.27), (2.11.28), «распространенную» на станцию /: gradeA//AuW(0Av6,) = yA, ^T//AU«(0AV61) = O. (2.11.32) Здесь 0 =(9/Л,/еЛ) — (неизвестный) неотрицательный вектор размерности |Л|, 0,- — (неизвестное) неотрицательное число, а НАи№(0А V 9,) определяется (модифицированной) формулой (2.11.25). Мы вновь приходим к единственному решению 0* и*'' задачи (2.11.32), компоненты которого 0* и*'' положительны, /еЛи{/}. Как и прежде, мы хотим расширить этот (|Л| + 1)-мерный вектор до У-мерного вектора, положив для этого б;ЛиШ = 1п( Е ^л^Ли{'}+^). /е(Аи{/})е. (2.11.33) Для этих значений 0* и* , /G (Ли{г'})с, опять проверяем неравенства (2.11.30) \/ke (Ли{/})с: ли{/Ьл*литч ( , v^ „лит, _е:Ли{'} Л е*ли{,} ^ р* (£ w):=(p*+ 2^ mki № ' -9i))ek <H*- ^ /бЛи{<} / (2.11.34) Если все неравенства (2.11.34) выполняются, мы добавляем к вектору 0*Аи{'} компоненты 0*Аи{°, ke (Ли{г})с, найденные в формуле (2.11.32). Полученный в результате У-мерный вектор опять обозначим 0* и*''. Используем его для вычисления значения целевой функции (2.11.22): (Q*Auii},v)-R(Q*Au{i)). (2.11.35) When the last rook Beat its straight path along the dusky air. С. Т. Колеридж (1772—1834), английский поэт Если некоторые из неравенств (2.11.34) не выполняются, выбираем соответствующую станцию /' и повторяем вышеизложенную процедуру для Ли{/,/'}. И так далее: этот процесс должен будет когда-нибудь закончиться, поскольку, когда мы прибавим все Лс к Л, уже не останется ни одного неравенства для проверки. Пусть {/, V,..., №} — множество, где все процедуры (начавшиеся с / G Лс) завершаются. Тогда решаем уравне-
Глава 2. Цепи Маркова с непрерывным временем ния gradgA НАи« 'w> (0Л V 0,- V... V 0iW) = vA, щЯли{/ '•(s)>(6Ave(-...ve,(s,)=o, J-hAuv '(s)>(eAve(v...ve;(s,)=o, ср. с (2.11.28), (2.11.32). В результате получаем (|Л| + «)-мерный вектор 0* и^''' ' '. Далее повторяем определения (2.11.28) и (2.11.32) для Ли Ll{i, i',..., №} и определяем дополнительные компоненты B*k *''' ' ', kG (ЛU{/,/',..., /(s)})c. Прибавив эти дополнительные компоненты к 0* *''' ' ', получим /-мерный вектор, который, как и прежде, будем обозначать 0* и*''' ' '. Алгоритм заканчивается вычислением величины (ГЛи{,/ ,'"'}, и) - R(Q*AU{U'-J\ (2.11.36) На завершающем этапе мы сравниваем значения (2.11.36), полученные для разных начальных узлов /еЛс и добавленных к ним впоследствии узлов i',..., /(s', и выбираем минимальное из них. Это дает значение f3(u), аналог значения (2.11.3), полученного для очереди с одним сервером. Равенство (2.11.2) перепишется в виде Игл - In P( max|W-£, 0] < -Qi(tn)<Vjt + E, п—юоП L \ П i=l,...,J, 0<t<T))=-Tp(v). (2.11.37) Следует отметить, что весь этот продолжительный анализ имеет своей целью проверку всех траекторий векторного процесса (с измененным масштабом) (Q(tn)/n) вблизи луча, направленного вдоль вектора и. (По сути такой анализ имеет смысл проводить, только если мы хотим изучить переполненную сеть Джексона, когда ру ^ [i, для некоторого /', / = 1,..., /. В этой ситуации может представлять интерес анализ тех возможностей, когда процесс (Q(tn)/n) уходит в бесконечность.) В нашем случае в силу условия (2.11.16) важным значением v является значение у = (v\, 0,..., 0). Тогда вышеописанная процедура упрощается: условия (2.11.30) выполняются Уk —2, ...,J. А именно, здесь Л = {1}, и преобразование Лежандра функции 0 = (0ь ..., в/) 1—>■ У?(0) (для вектора v с единственной ненулевой компонентой V\) относительно переменных 0j,..., 0у совпадает с преобра-
§2.11. Большие уклонения для цепей Маркова с непрерывным временем зованием Лежандра относительно переменной 0) следующей функции: //^1>(01) = т|(;}(р1(ее'-1) + [а1(е-е'-1)), (2.11.38) Решение задачи максимизировать [Q\V[ —H^(Q[)] по 0i ^0 задается единственным решением 0* > 0 уравнения ^//{1>(9,) = m}'}(piee'-tiie-e') = y,. (2.11.39) Нас интересует некое особенное значение v\ (т. е. вектора и = (uj, 0,..., 0)), когда yi=m{'}([a,-Pl). (2.11.40) В этом случае 0* принимает вид 0* ^ ln[J.i -lnpi. В самом деле, подставляя 0* = 1пц1— lnpi в правую часть равенства (2.11.39), проверяем, что оно выполняется. Кроме того, функция //О обращается в нуль в точке 0J*: //{,}(0Г) = о, откуда следует, что преобразование Лежандра в точке v\ =m\0*(\i\ —pi) имеет вид НЬ№ <■>, =тЙ}(1И-р1)(1пЦ1-1пр,). (2.11.41) Чтобы проверить, что соотношение (2.11.41) дает окончательный ответ, нам необходимо проверить, что для любого }ф 1 выполняется неравенство (pj + mj^i^e-6' -p,))(m<V- +m/01}) <W. (2.11.42) Оно эквивалентно неравенству "^(ЙНВ^* (2Л1-43) и выполняется благодаря тому, что станция 1 в неравенстве (2.11.16) является критической. Значение v\ = m\0'(\L\ — pi) выделяется тем, что соответствующий вектор v = (v\, 0,..., 0) доставляет минимум преобразованию Лежандра R*
Глава 2. Цепи Маркова с непрерывным временем ■ па функции R по всем векторам из RJ+. В терминологии больших уклонений это означает, что оптимальный способ аккумулировать большое число клиентов в сети состоит в том, чтобы поставлять их линейно (во временной шкале с измененным масштабом) со скоростью m}0'(^i —pi) на критическую станцию, сохраняя сублинейный рост в остальной части сети. That is the Path of Wickedness Though some call it the Road to Heaven Три ворона, ирландская баллада В действительности вышеуказанный факт, состоящий в том, что если об- щая длина очереди J2 Qj достигает высокого уровня па, то процесс эволю- ционирует вдоль вектора v = (m]0'([ii — pi), 0..., 0), легко объяснить. Нам известно, что при условии (2.11.16) инвариантное распределение к образовано произведением геометрических сомножителей л,-, i= 1, ...J. Следовательно, инвариантная вероятность к( Y^Qj = na) события < £)(?/ хр ч/ш V=l / l«=l не превосходит CJJ+]na (— 1 • Этот факт можно использовать для получе ния соотношения (2.11.15). Пример 2.11.1 (сеть Джексона с двумя станциями). Для открытой сети Джексона с двумя станциями с параметрами Х=('],Я=( ^'21 и £1 = = (^'1 суммарные интенсивности прибытий задаются как р, = ^|+Х2Р21, р2 = Х'Р|2 + Х2; (2.11.44) Г 1-р\2Р2\ Г 1-P12P2I ср. с (2.10.35). Если мы предположим, что 1> £!•>£*- (2.11.45) Hi № (см. (2.11.16)), то вектор v* = (v*,0) из формулы (2.11.18) будет иметь первую компоненту "^Т^*"^ (2Л1-46) Так будет определяться направление, вдоль которого процесс с измененным масштабом ( -Q\(nt), -Qi{nt)\ будет эволюционировать, когда общая длина очереди Q\(nt) + Q2{nt) достигнет уровня па. Ср. с уравнением (2.11.19) и рис. 2.82. D
§2.12. Вопросы к теории цепей Маркова с непрерывным временем § 2.12. Вопросы к теории цепей Маркова с непрерывным временем, заданные на экзаменах «Математические треножники» в Кембриджском университете The v-dity of the Bad, the л-ty of the Good (Or the Other way Around) (Из серии «Фильмы, которые не вышли на большой экран».) Задача 2.12.1. а) Рассмотрим ц.м.н.в. с состояниями 1, 2, 3, 4 и про изводящей матрицей /-2 1 0 1 \ V_ 0 1-2 1 \ 1 0 1-2^ Представьте эту цепь графически. Пусть цепь выходит из состояния 1. Найдите вероятность того, что в момент времени t цепь находится в состоянии 1. б) Рассмотрим теперь цепь с пятью состояниями 1, 2, 3, 4 и 5 и производящей матрицей <? = /-3 1 О 1 V0 1 -3 1 о о о 1 -3 1 о 1 0 1 1 1 -3 1 о Л °/ Пусть цепь выходит из состояния 1. Сравнив эту матрицу с матрицей, рассмотренной выше, найдите вероятность того, что в момент времени t цепь находится в состоянии 1. Решение, а) Цепь попадает в заданные четыре состояния в прямом или обратном циклическом порядке. Иными словами, эта цепь ведет себя как две независимые марковские цепи (Xt) и (Yt), каждая цепь имеет два состояния, скажем 0 и 1, и прозводящую матрицу «-Г/ -'.)• Можно представить это так, что пара (Xt, Yt) переходит из одного угла квадрата [—1, I]2 в один из соседних, причем с равными вероятностями перехода в каждый из них; см. рис. 2.83. Следовательно, искомая вероятность записывается в виде (Pu(t)f = (A + B-21)2.
Глава 2. Цепи Маркова с непрерывным временем • <3 О • А А i v • <з о • 3 2 Рис. 2.83 Из условий при / = 0 и t—>оо находим Л = 5= 1/2. Это приводит к ответу (1+е-м)2/4- б) В новой цепи добавится поглощающее состояние 5 с интенсивностью поглощения 1. Следовательно, Р(цепь не находится в состоянии 5 в момент t) = e~l независимо от начального распределения X. Тогда в силу независимости Р(состояние цепи в момент времени t такое же, как и в момент 0) = = (х)(1+е"2')2- п Задача 2.12.2. а) Рассмотрим случайное блуждание (Хп)п^о на графе, представленном на рис. 2.84. А С В Рис. 2.84 На каждом шаге этот процесс переходит в соседнюю вершину с равными вероятностями и независимо от прошлых переходов: это означает, что из С процесс переходит в А, В, D или Е с вероятностью 1/4 для каждой из этих вершин. Четко формулируя все общие теоремы, которые вы будете использовать, покажите, что Р(Х„=А) имеет предел при п—»оо, и найдите этот предел.
§2.12. Вопросы к теории цепей Маркова с непрерывным временем б) Для случайного блуждания (Хп)п^.о из а) найдите среднее число попаданий в С, прежде чем процесс, стартовавший из А, впервые вновь вернется в А. Пусть теперь (Zt)t^o — ц.м.н.в. на графе из а), и пусть элементы ее Q-матрицы имеют вид {1, если (/,/') является ребром, О в противном случае. Пусть S обозначает суммарное время, проведенное в {С, Е} цепью (2/)/^о, выходящей из В, прежде чем она впервые вернется в В. Покажите, что S имеет показательное распределение, и найдите его параметр. Решение, а) Для неприводимой апериодичной ц.м.д.в. с инвариантным распределением к выполняется соотношение Px(X«=/)->*/V/ при п—>оо независимо от начального распределения X. В данной задаче ц.м.д.в. представляет собой случайное блуждание на графе. Она неприво- дима и апериодична (длины всех циклов взаимно простые), ее инвариантное распределение к таково, что к, = и,/^У*. где Vj — кратность вершины у. k Поскольку суммарная кратность Ylvk равна 28, мы получаем Р(Хп=А) = = 2/28=1/14. * б) Для неприводимой апериодичной ц.м.д.в. с инвариантным распределением к выполняется соотношение Е,(число попаданий в у до возвращения в /) = —, тс/ что приводит к ответу Vq/va =2. Использование симметрии помогает при рассмотрении сгруппированной цепи с состояниями В, (С, Е), (A, F), D, (/, G), Н. Тогда все интенсивности переходов (С, Е) —>В, (С, E)—>(A,F) и (C,E)—>D равны 1. Следовательно, для (Z/)/>o время, проведенное в (С, Е) при каждом посещении, становится экспоненциальным, с интенсивностью р = 3. При каждом посещении вероятность возвращения в В равна 1/3. Это означает, что число попаданий в {С, Е} до возвращения в В является геометрической величиной с параметром q— 1/3. Сумма случайного числа (имеющего геометрическое распределение) независимых показательных случайных величин имеет показательное распределение с интенсивностью qp, поскольку, например, производящая функция моментов такова: 4 (=1 ' П^\
Глава 2. Цепи Маркова с непрерывным временем Следовательно, время S имеет показательное распределение с интенсивностью 1. □ Задача 2.12.3. а) Пусть (Xt)t^o— ц.м.н.в. с пространством состояний {1, 2, 3, 4, 5} и Q-матрицей вида /-3 1 0 1 1\ 1-3 1 0 1 Q= 0 1-311 1 0 1-3 1 \ 0 0 0 0 0/ Для случая Хо = 1 найдите вероятность того, что Xt = 2 при некотором t ^ 0. б) Для цепи, описанной в п. а), в предположении, что Xq ^ 5, найдите вероятность того, что ц.м.н.в. {Xt)t^o в конце концов посетит каждое состояние. Решение, а) Из описания цепи получаем уравнения для /г, = Р,(по- пасть в 2): 1 1 2 A2 = l, hi =Л3= g + д/г4, A4 = jjA|, откуда следует, что h\ = 3/7 и hi, = 1/1. В силу симметрии Р,(попасть в j) = = 3/7 для любой пары смежных углов, и эта вероятность равна 2/7 для любой пары противоположных углов /, у. б) Условие, накладываемое на начальное распределение X, означает, что Х5 = 0. В силу симметрии для всех таких X имеем Р(посетить каждое состояние) = Р) (посетить каждое состояние), что в свою очередь равно Pi (попасть в 2,3 и 4) = 1 — Р| ({избежать попадания в 2} U U {избежать попадания в 3} U {избежать попадания в 4}). По формуле включений-исключений последнее выражение можно записать в виде Pi ( U {избежать попадания в i} ) = = Pi ({избежать попадания в 2}) + Р| ({избежать попадания в 3}) + + Р[({избежать попадания в 4}) — Р|({избежать попадания в 2 и 3}) — -Pi({избежать попадания в 2 и 4})-Pi({избежать попадания в 3 и 4})+ + Pi ({избежать попадания в 2, 3 и 4}). Учитывая п. а), получаем, что Р| ({избежать попадания в /'}) = 4/7 для у = = 2, 4 и 5/7 для j = 3.
§2.12. Вопросы к теории цепей Маркова с непрерывным временем Далее, Pi (попасть в 2 или 4) — 2/3 и Pi (избежать попадания в2и4) = т. О Тогда вновь в силу симметрии для вероятности достижения h\ ' := = Р, (попасть в 3 или 4) находим Следовательно, h\ ' ' = 1/2 и Р1({избежать попадания в 2 и 3}) = ■= — Р1({избежать попадания в 3 и 4}). Наконец, Pi ({избежать попадания в 2, 3 и 4}) = Р| ({сразу попасть в 5}) = 1/3. Собрав все слагаемые, получаем Pi f U {избежать попадания в£}) = 7 + 7 + 7_3~2_2 + 3 = 7' а следовательно, Pi (попасть в каждое состояние) = 1/7. □ Задача 2.12.4. Паук взбирается по вертикальной трубе высоты а с единичной скоростью. В моменты скачков процесса Пуассона (с интенсивностью X) начинается дождь, который мгновенно смывает паука на дно трубы, а тот сразу же начинает карабкаться вновь вверх по трубе. Предположим, что в начальный момент времени паук находится на дне трубы. Пусть Т — момент времени, когда паук достигнет вершины, а число N обозначает, сколько раз паука смывал дождь, прежде чем он достиг вершины. Для 9^0и0^г<1 покажите, что E(e-B'zw) = Х + 9-Хг(1 -г-0.+в)«)- Вычислив Е(е 9Г|N = п), или иным способом, определите E(T\N = n) при каждом п = 0, 1, 2, ...
Глава 2. Цепи Маркова с непрерывным временем Решение. Пусть J\ —момент выпадения первого дождя. Запишем оо g=E(e-6TzN)= /Xe-XSE(( e~9TzN \Ji=s)ds = оо / a = fxe-Xse-eads+ I f\e-Xs e~*szds \g: = e-(W)a+zg x + e (1 ,-(X+9)a )• Таким образом, • _ o-(X+8) ■( Xz ^ _e_(x+9)a X + 0 О-' x (i-e-№a)]\ x + e Тогда Е(е ^T\(N = n)) является коэффициентом при zn в разложении g: Е(е-97"1(Л^ = п))-е-(Х+9'а a P(N = п) мы получим, если положим 9 = 0: P(N = n) = e-Xa(l -e~Xa)n. Далее, определим gn = E(e-°T\N = n) = e -ва Х(1 ?-(Х+8)ач лп ЦХ + 9)(1-*-*<■) Тогда 49 gn = -agn + ne -6a X(i-e-<x+e)a) i«-i (X + 9)(l-*-*") J X x /l-e'x+9»"\ (X + 9)2' I 1 - e~u J Чтобы найти Е(Т\N = n), мы вновь положим 0 = 0: d . (\ + Xae-(X+9)0 (X + 9)(l-e-Xa) Е(П^") = -^4=о = а + "(г^т)- □ Задача 2.12.5. Каждая пара городов А, В и С соединена телефонной линией, которая может выйти из строя из-за снежных ураганов. Ураганы налетают согласно процессу Пуассона (с интенсивностью 8 в единицу времени), и, когда это случается, каждая линия выходит из строя с вероятностью 1/2, независимо от других линий. Если линия повреждена, для ее восстановления требуется случайное время, которое имеет показательное
§2.12. Вопросы к теории цепей Маркова с непрерывным временем м 14 0 \о 3 -20 28 0 3 4 -32 42 1 2 4 -42 распределение со средним 1/14, и ремонт каждой линии производится независимо от других. Пусть {Xt, t ^ 0} — ц.м.н.в., Xt равно числу бездействующих линий в момент t. Определите среднее время пребывания в каждом состоянии и выпишите Q-матрицу для ц.м.н.в. {Xt, t ^ 0}. Найдите предельную пропорцию времени, когда возможна телефонная связь между каждой парой городов, предполагая, что при необходимости связь можно осуществлять и через третий город. Решение. Состояния цепи Маркова — 0, 1,2,3 (число бездействующих линий), и средние времена пребывания равны 1/7, 1/20, 1/32 и 1/42. Производящая матрица имеет вид Q = Инвариантное распределение гс = (гсп, Яь ^2i ^з) единственно и удовлетворяет уравнению kQ = 0, т. е. -7тс0+14тс, =0, Зтсо - 20ki + 28тс2 = 0, Зтс0 + 4тс, - 32тс2 + 42тс3 = 0, гсо + 2гс| + 4гс2 - 42гс3 = 0. Отсюда находим 28 14 7 2 Ко =51' Щ = 51' К2=5Г Кз=5Г Таким образом, искомая предельная пропорция равна ло + п\ = 14/17. □ Задача 2.12.6. Рассмотрим систему массового обслуживания с одним сервером и комнатой ожидания, где может находиться не более одного клиента вдобавок к тому, что один клиент обслуживается. Прибывающие клиенты не попадают в систему, если комната ожидания занята. Интервалы времени между моментами появления клиентов являются независимыми показательными случайными величинами с параметром X, а времена обслуживания — независимыми показательными величинами с параметром [I. Выпишите Q-матрицу ц.м.н.в. X(t), где X(t) — число клиентов в системе в момент t. Оцените lim P(X(t)=j) при/ = 0, 1, 2. Для случая X = у. вычислите P(X(t) — 01 Х(0) = 0) для всех t > 0.
Глава 2. Цепи Маркова с непрерывным временем Решение. Следуя общепринятой практике, моделируем очередь как Ц.М.Н.В. с (^-матрицей следующего вида: /-Х X 0 \ Q = ц -X-tx X . V О (I -(V Чтобы найти инвариантное распределение, решаем для к = (ко, кь кг), тс,- ^ 0, систему уравнений kQ = 0, Ko + TCi +к2- 1. Тогда Хл0 = цтс1, Xtci=(jltc2 и нос (1, X/^i, X2/(JL2), т.е. X Х2\ //, .X . X2 «-(■•??)/К+?)- Далее, в силу стандартных результатов для / = О, 1,2 получаем JmPWO -Д -ч = (Ь)'/(1 + Ц + ?)• Пусть теперь X = jx. Рассмотрим сначала случай X = 1. Тогда Чтобы найти собственные значения, решаем уравнение О = det(vl - Q) = (v + l)2(v + 2) - 2(v + 1) = v(v + l)(v + 3). Получаем собственные значения 0, а = — 1 и р = —3. Используя общий результат, находим p(t) := P(X(t) = 01 Х(0) = 0) = ко + Леа' + Be*, t > О, р(0 = | + Ае-( + Be~3t. Поскольку /?(0) = 1 и -jjP(0) = — 1, имеем 1 = 5 + л + fl, -1 = -л-зя, 1=2/1, /1 = 1, B = i.
§2.12. Вопросы к теории цепей Маркова с непрерывным временем Таким образом, '«Ч+k'+k31- Альтернативный путь — решить обратное или прямое уравнения. □ Man's unhappiness, as I construe, comes of his greatness; it is because there is Infinite in him, which with all his cunning he cannot quite bury under the Finite. Т. Карлейль (1795-1881), английский поэт и писатель Задача 2.12.7. а) Предположим, что автобусы прибывают на остановку согласно процессу Пуассона {Xt\feQ c параметром X в единицу времени (в данном случае это час) и что через 1 час прибыло ровно п автобусов. Вычислите условные вероятности P(Xt = k\X\ = n) того, что в точности k автобусов, 0 < k < п, прибыло на остановку за время t, 0 < / < 1, при условии, что п автобусов прибыло к моменту времени 1. б) Рассмотрим ц.м.н.в. {Xt}t^o с двумя состояниями 0 и 1. Для всех t > 0 и i, j G {0, 1} положим pij(t) = P(Xt =}\Xo = i). Пусть для некоторого Т > 0 матрица Р{Т) имеет вид «*-(.-«';*)• Докажите, что 1/2 < а < 1, и вычислите P(t) для всех t ^ 0. Решение, а) Условная вероятность P{Xt = k\X\=n) равна Р(Х, = k,Xi=n)_ Р(Х, = k) Р{Х\ = п | Xt = k) _ Р(Х\=п) ~ P(Xt=n) ~~ _P(X, = k)P(Xl-,=n-k) P(Xi = п) = (в силу марковского свойства) = _ [g-x'(XQ*A!][g-x"-"(X(l - 0)"-*/(я - k)\] _ rk fk(. „_* ~ e-*\«/n\ -ЧМ1 t) . Таким образом, условные вероятности являются биномиальными. б) Запишем eTQ = Р(Т), где Q = (~Х° _^ ) — ©-матрица и Х0, Xi ^ 0. При Хо = Xi = 0 матрица Q превращается в нулевую матрицу, eTQ — в единичную матрицу и а = 1 > 1/2. Следовательно, мы можем предположить, что Хо + Xi > 0. Тогда собственные значения матрицы Q равны 0 и -(Хо + Х|), а уравнения для диагональных элементов имеют вид
Глава 2. Цепи Маркова с непрерывным временем И Получаем Хо = Xj = X, т. е. откуда следует, что а е (1/2, 1). Для произвольного t > 0 имеем poo(0 = i + ie-sft' = i + i(2ot-l)-^; другие элементы вычисляются аналогично. П Задача 2.12.8. Пациенты поступают в отделение больницы согласно пуассоновскому процессу с интенсивностью X. В больнице много стажеров, и прибывшего пациента немедленно направляют к одному из них. На осмотр каждого пациента затрачивается случайное время (со средним (jl_1), после чего пациент покидает госпиталь с вероятностью 1 —а, а с вероятностью а пациента направляют к заведующему этого отделения больницы. Чтобы попасть к заведующему, пациенты ожидают в очереди, а затем на консультацию каждого пациента затрачивается случайное время (со средним v_l), после чего пациент покидает госпиталь. Покажите, что при соответствующих предположениях (которые следует определить) описанная ситуация может быть представлена при помощи ц.м.н.в. с состояниями (г, s), где г — число стажеров, занятых осмотром пациентов, a s — число пациентов, которые были направлены на консультацию к заведующему и все еще находятся в госпитале. Опишите (^-матрицу этой ц.м.н.в. Пусть л(г, s) — это предел при t —> оо вероятности того, что в момент времени t цепь находится в состоянии (г, s). Выпишите уравнение, которому должен удовлетворять этот предел, и покажите, что при Хос < v его решение можно представить в виде K(r,S) = ^f-(l-Y)Ys при подходящих значениях Р и у- Решение. Предположим, что времена осмотра пациента стажером и заведующим являются показательными и независимыми друг от друга и от пуассоновского процесса поступления пациентов. Тогда в силу свойства отсутствия памяти показательного распределения пара (г, s) является
§2.12. Вопросы к теории цепей Маркова с непрерывным временем состоянием ц.м.н.в. с производящей матрицей Q = (q((r, s), (r1, s'))), составленной из следующих ненулевых внедиагональных элементов: q((r, s), (r+l,s)) = X, r,s>0, q((r,s),(r-l,s)) = r\i{l-<x), r>\, s^O, ?((r,s),(r-l,s + l)) = r(ia, r^l, s^O, ?((r, s), (r, s-l)) = v, r^O, s^l. Уравнения инвариантности тсф = 0 для к — (к(г, s)) имеют вид rt(r, s)[X + r{! + vl(s^ 1)] = тс(г- 1, s)Xl(r> 1) + + к(г+ 1, s - l)(r + l)(ial(s ^ 1) + тс(г+ 1, s)(r + 1)(jl(1 - а) + тс(г, s + l)v. Подставляя предложенный вид решения, находим = e_P^(l-Y)Ys(^+7|Ti(r+l)lial(^l)+7|T(r+1)^(1-a) + Yv). Мы видим, что равенство выполняется при р = ХД* и у = Xa/v. Чтобы получить инвариантное распределение, необходимо предположить, что у < <1. □ Задача 2.12.9. Предположим, что (X(t), t ^ 0) — ц.м.н.в., принимающая значения {0, 1,2,...}. Определите цепь скачков и опишите метод ее использования для построения траектории X(t). В некоторой популяции отдельные особи подвержены миграции, и существует угроза ее полного исчезновения. Число особей в популяции в момент t описывается ц.м.н.в. Если п — число особей в популяции в момент t, то для малого интервала (t, t + h) а) вероятность того, что к ним прибавится еще один, равна h/(n + 2) + + о(А); б) вероятность того, что они все исчезнут, равна h/{n + 2)(л + 1) + о(Н); в) вероятность того, что произойдет более чем одно событие из двух указанных, равна o(h). Является ли состояние 0 возвратным? Возвратны ли другие состояния? Решение. Цепь скачков — это ц.м.д.в., которую получают, наблюдая цепь (X(t)) в моменты ее скачков. Если цепь {X(t)) подчиняется Q-матрице (<7;/), то переходные вероятности цепи скачков вычисляются по формуле Pij = -qij/qu, j ф L Для построения траектории ц.м.н.в. (X(t)) применяют (повторно, шаг за шагом) следующий принцип: цепь проводит случайное время Li ~ Exp(—qu) в состоянии /, независимо от предыстории, а затем совершает скачок в состояние / ф i с вероятностью —qij/qu.
Глава 2. Цепи Маркова с непрерывным временем В данном примере вероятности перехода цепи скачков задаются равенствами _ л+1 ( Рп'п+1~ п + 2' Состояние i ^ 0 возвратно для цепи с непрерывным временем тогда и только тогда, когда оно возвратно для цепи скачков. Для цепи скачков это означает, что вероятность возвращения в состояние / равна 1, т.е. Р,(Г,- < < со) = 1. Для / = 0 имеем Ро(га последовательных скачков вверх) = 2 3 л+1 2 п , = оТ--- к = к~>v при я —► со. 3 4 л + 2 я + 2 к Следовательно, 2 P0(Tj <n) = l —g ->■ 1 при п -> со, и вероятность возвращения в 0 равна 1. Таким образом, 0 оказывается возвратным состоянием для цепи скачков, а следовательно, и для ц.м.н.в. Так как возвратность является свойством класса, если цепь неприводима, каждое состояние возвратно. □ Этот метод состоит в том, чтобы определить номер класса как класс всех классов, аналогичных заданному классу. 5. Рассел (1872-1970), английский математик и философ Задача 2.12.10. а) Пусть 5 и Т — независимые показательные св. с параметрами аир, соответственно. Положим М = min{S, Г}. Найдите распределение М и покажите, что М не зависит от события {S < Т}. б) Покупатели прибывают в супермаркет согласно процессу Пуассона с интенсивностью 2. Сразу же у входа два продавца предлагают покупателям образцы нового продукта. В течение показательно распределенного времени с параметром 1 покупатель раздумывает о новом продукте, и, таким образом, все это время внимание одного из продавцов сосредоточено на этом покупателе. Отведав продукт, покупатель проходит в магазин; выходят покупатели через другую дверь. Когда оба продавца заняты, покупатели сразу же проходят в магазин. Предположив, что оба продавца свободны в момент времени 0, найдите вероятности того, что они оба свободны или оба заняты в момент времени /.
§2.12. Вопросы к теории цепей Маркова с непрерывным временем Решение, а) В силу независимости св. S и Т находим Р(М >x) = P(S>x,T>x) = P(S > х) Р(Г > х) = е-(«+РК Таким образом, М ~ Ехр(а + Р). Далее, Р(М > х, S < Т) = Р(Г > S > х) = оо оо оо = foe'" fpe-?ldtds= Ue^e'^ds = -^е-<«+РК X S X Так как Р(5 < Т) = а/(а + Р), получаем, что св. М и {S < Т] независимы. б) Имеется три состояния: 0 (оба продавца свободны), 1 (один занят, один свободен) и 2 (оба заняты). Ненулевые интенсивности скачков задаются равенствами 9oi = X, 9т = Ц, <7i2 = Х, 921 = 2(1, где X = 2, (I = 1. Это приводит к производящей матрице собственные значения которой 0, —2, —5. Легко вычислить qj^ = 6. Далее, Poo(t) = A + Be~2t + Се~ы, t > 0, где А + В + С=1, -2В -ЪС = -2, 45 + 25С = 6. Следовательно, А = 1/5, 5 = 2/3, С = 2/15, и I О О Ро(оба свободны в момент t) = ■= + ое_2' + 7£е_5'' и аналогично, 2 2 __2, * Б< Ро(оба заняты в момент f) = - — , е + тт е • ^ Задача 2.12.11. а) Пусть (Xt)t^o— неприводимая невзрывная ц.м.н.в. и (^-матрицей Q = (qij\ i, j G /); предположим, что ц.м.н.в. (Xt)t^o имеет инвариантную меру v = (v,: i G /). Обозначим ассоциированную цепь скачков (К„)п^о- Зафиксируем h > 0 и положим Zn = Xnh. Объясните, как
Глава 2. Цепи Маркова с непрерывным временем матрицы перехода ц.м.д.в. (Yn)n-^o и (Z„)„^o связаны с матрицей Q, и как их инвариантные меры связаны с мерой v. б) 1. В случае, когда ц.м.н.в. (Xt)t^o возвратна, покажите, что цепь (Zn)„^o также возвратна. 2. В случае, когда Z+ — пространство состояний и qa — —X, q-ц+х = Х, найдите вероятности перехода для (Z„)n-^Q. 3. В случае, когда Z — пространство состояний и qu-1 = /2 + 1, qu = - 2(i2 + 1), qu+, = i2 + 1, установите, является ли ц.м.н.в. (Х/)^ положительно возвратной. Решение, а) Если v — инвариантная мера для невзрывной ц.м.н.в. (Xt), то vQ = 0. (Ср. с теоремой 2.6.11.) Далее, 1) матрица перехода для ц.м.д.в. (Yn) имеет вид Р = (р,у), где "рц = = —qij/qu при у ф i и ри = 0, и 2) матрица перехода для ц.м.д.в. (Z„) имеет вид P{h) = ehQ. Тогда инвариантная мера для ц.м.д.в. (Yn) — это (1= (|i(), где Hi = -v<<7«. а инвариантная мера для ц.м.д.в. (Z„) — это просто v. Действительно, 1) —qr,(pij — 8,7) = <7v Для любых состояний i, /', следовательно, (у.(Р - Щ = J^ уц(рц - 5,v) = Ys>iqi(Pu ~ Ьц) = ^\iqii = (vQ)y- = 0, / i 1 и 2) 6) 1. Так как состояние i является возвратным для ц.м.н.в. (Xt), мы по- оо лучаем J" dtpn(t) = 00. Далее, если nh ^ t < (п + l)h, то в силу марковского о свойства Pu{{n+\)h)^e-"ihpu(t), и, таким образом, с» J2pu(nh)>h-le*h [pu(t)dt. »>• о Следовательно, ^ Pn(nh) = 00, т. е. / — возвратное состояние для цепи (Z„). 2. В этом случае Q образует производящую матрицу процесса Пуассона (Nt) с интенсивностью X. Следовательно, матрица перехода P(h) = eh®
§2.12. Вопросы к теории цепей Маркова с непрерывным временем цепи (Zn) является верхней треугольной матрицей для приращений (Nt) за время h: /е-АХ (/гХ)е-АХ (/гХ)2е-АХ/2! (/гХ)3е-АХ/3! .. Д О е-АХ (/гХ)е-лх (/гХ)2е-АХ/2! '■. О 0 e-hX (/гХ)е-АХ '•• V ! ••/ 3. В этом случае ц.м.д.в. (Yn) представляет собой симметричное случайное блуждание по ближайшим соседям на Z, которое имеет нулевую возвратность. Все инвариантные меры для (Yn) пропорциональны (1 = ([!,), где (I,- = 1. Тогда любая инвариантная мера для (Xt) будет пропорциональна мере v = (v,), где V; = -yi/qu = 1/(2(/2 + 1)). Так как сумма ^ v* остается конечной, ц.м.н.в. (Xt) является положительно возвратной. '6Z Замечание 2.12.12. Отметим, что (см., например, Прудников А.П., Брычков Ю.А., Маричев О. И. Интегралы и ряды. М.: Физматгиз, 1981, с. 685) Y, ^JTf = 2 + 2^cthM' Т'е' S V; = % cth^- П |=о ;ez Задача 2.12.13. Клиенты становятся в очередь согласно процессу Пуассона с интенсивностью X. Время обслуживания каждого клиента — показательная св. со средним у1, причем X < (л; времена обслуживания взаимно независимы и не зависят от времен прибытия. а) Покажите, что вероятность того, что в момент t в очереди находится п или более клиентов, стремится к (К/у.)" при t —► оо. б) В случае, когда начальное распределение является инвариантным, вычислите среднее время до того момента, когда очередь впервые окажется пустой. Решение. Число клиентов в описанной очереди образует такой неприводимый процесс рождения и гибели (Xt), что Цц+\ = X, q-^i-x = у.. Из уравнений детального баланса заключаем, что инвариантное распределение является геометрическим: тс,- = (1 - Х/у)(К/уУ (так как X < у). Таким образом, цепь положительно возвратна, и к — единственное инвариантное распределение. Теорема 2.8.1 утверждает следующее. Для неприводимой положительно возвратной цм.н.в. pij(t) -* тсу при t —► со. а) Следовательно, независимо от начального распределения для любого «=1,2, ... выполняется соотношение ™<-'И-£) Е (f)'-'-(f)" O^i'^n—1
Глава 2. Цепи Маркова с непрерывным временем Х\» ■№>«)-(£) б) Положив kj = Е;(попасть в 0) и записав условные вероятности по первому скачку, получаем следующие уравнения: ki = 0> ^xTTI + xT^+' + xTH'-1' i>1' причем нас интересует минимальное неотрицательное решение. Это решение имеет вид kt = i/(\i — X), а следовательно, 1>-о-р)Ш^-«^- Задача 2.12.14. а) Объясните, что понимают под процессом рождения и гибели X(t) с интенсивностями рождения (X*) и интенсивностями гибели ((!*), где [io = 0. Выпишите прямые уравнения для вероятностей Pk(t) = P(X(t) = k) и покажите, что вероятностная производящая функция g(s, t) = Esx^ удовлетворяет уравнению ^ = (s-l)(A(s)-jM(s)), -K^l, (2.12.1) где A{s) = J2lkpk(t)sk и M(s) = J2\ikpk(t)sk. k k {Можно предполагать, что процесс не взрывается.) б) Некоторое сообщество не располагает запасами пищи, достаточными для поддержания существования более чем N особей. Если в момент / сообщество состоит из k особей, то вероятность присоединения к ним новой особи за промежуток времени (t, t + h) равна \{N — k)h + o(h) независимо от предыстории. В течение этого временного интервала каждая особь может покинуть сообщество с вероятностью \ih + o(h) независимо от других особей и независимо от предыстории. Выпишите генератор соответствующей ц.м.н.в. X(t) и покажите, что |f = (s-l)(XjV£-(Xs + [i)ff), -K^l. (2.12.2) Пусть Х(0) = 0. Найдите такую функцию h{t), что функция g(s, t) = = (1 — h(t) + sh(t))N является решением уравнения (2.12.2), и найдите распределение св. X(t). Решение, а) Процесс рождения и гибели {X(t), t^O) образует ц.м.н.в. с пространством состояний Z+ = {0,1,...}, скачки возможны только в бли-
§2.12. Вопросы к теории цепей Маркова с непрерывным временем жайшие соседние состояния: {интенсивность скачка k —► k + 1 (рождение): X*, k ^ 0; интенсивность скачка к —► k — 1 (смерть): \±k, k ^ 1. Таким образом, (^-матрица имеет вид: /-Х0 Х0 0 0 ...\ Hi -(Х1+Ц1) X] 0 '•• О ц2 -(Х2 + Ц2) Х2 "•• V : •• ■-. ■■. ••/ Прямые уравнения для вероятностей перехода Pk(t) записываются в виде -£tPk = -(X* +[lk)Pk +'kk-lPk-\ +\Lk+\Pk+\, k^O, где X_i =0. Для g(s, t) — Esx® = J2skpk(t) получаем Q = Y^sk~diPk = X^-^* + №)Рь + h-iPk-i + H*+i)s*. * k откуда следует, что ^ = -A-M + sA + ^M = (s- 1)(a-jM), -1<s<1, что и требовалось. Если процесс не взрывается, то эти уравнения справедливы при всех t^O. б) В этом случае интенсивности таковы: \k = X(N-k), цк = цк, k = 0,l,...,N. Следовательно, dg A(s) = J2MM - k)pksk =\Ng-\s^, A=0 dg M(s) = y.Y,bpkSk = \is-£. A=0 Тогда в силу а) находим ff-(.-i)(ure-4, + x.)g).
Глава 2. Цепн Маркова с непрерывным временем се-(Х+^_ Подставляя g(s, t) — (1 - h{t) + sh(t))N, получаем h = X(l - h + sh) - h([i + Is), или h + (X + fi)/z - X = 0, h = -j- + При условии /z(0) = 0 находим Мы видим, что ^(/) ~ Bin(yV, /г(^)), поскольку Esx» = J2 CNsrhr{\ - h)N~r = ((s - \)h{t) + \)N. U Задача 2.12.15. а) В финале олимпийских соревнований встречаются хоккейные команды России и Канады. Предположим, что шайбы россиян попадают в ворота канадцев согласно процессу Пуассона с интенсивностью г > 0, а шайбы канадцев подчиняются процессу Пуассона с интенсивностью с > 0 независимо от шайб россиян. Пусть X — число шайб на счету у россиян до первой шайбы на счету у канадцев. Предположим, что игра продолжается бесконечно. Найдите Р(Х = k), k = 0, 1, ... с» Указание. Справедлива формула f ske~s ds — k\. о б) 1. Предположим теперь, что в модели, описанной в п. а), игра продолжается только до момента времени t=\. Чему равна вероятность Р(Я=1)? 2. Предположим, что к моменту времени t = 1 на счету у команды России одна шайба. Найдите среднее время до первой шайбы в этой игре. Решение, а) Если Т—момент времени, когда впервые забивают шайбу канадцы, то Т ~ Ехр(с) независимо от пуассоновского процесса ПП(г) {R(t), t ^ 0), которому подчиняются шайбы команды России. Тогда для k = 0, 1, ... имеем p{X = k) = P(R(T) = k) = с» с» = с fe-clP(R{T) = k\T=t)dt = c fe-c'P{R(t) = k)dt = г* о оо = СА fe-cltke-rt dt = — fe-'tk dt = —- k\ Je ai kl(r + c)^Je ai (r + c)(r + c) *•
§2.12. Вопросы к теории цепей Маркова с непрерывным временем б) 1. Пусть PW — искомая вероятность. Тогда Я(1) = Р(Я(1) = 1, Т > 1) + Р(Л(1) = 1, 71 < 1) = 1 = Р(Я(1) = 1) Р(7" > 1) + с fe~ct P(R(t) = l\T=t)dt = ■■ '■}— о г+с = ге-(л+с' + у?-у f Ue-Ь dh (где ti = (r + c)t) = о = ге"(Л+С) + (7T^[1 " (r + c+l)e-^\. 2. Пусть S — момент времени, когда впервые забивают шайбу россияне, а Т, как и ранее, обозначает момент времени, когда впервые забивают шайбу канадцы. Тогда при условии, что R(\) = 1, св. S~ U(0, 1). Отсюда следует, что P(min(S, T)^t\R(l) = l) = (l -t)e~ct, 0<t<l. Следовательно, условная плотность /min(S,r) | tf(i)=i минимума min(S, T) равна e~d + с(1 - 0 e~ct = e~ct(l + c(l - 0), 0<t<l, а условное среднее равно 1 E[min(S, T)\R(l) = \} = /te~c'(l +c(l - t))dt = ^(e~c - 1 +с). П The KGB's tc's and the FBI's x's (Из серии «Фильмы, которые не вышли на большой экран».) Задача 2.12.16. а) Пусть N — процесс Пуассона с интенсивностью X ПП(Х). При условии, что {N(t) = 1} покажите, что единственный момент скачка Т процесса на интервале (0, t] имеет равномерное распределение на этом интервале. б) Один канадский кемпинг пользуется популярностью среди медведей, которых привлекают мусорные баки с остатками пищи. Мишки наведываются в кемпинг согласно процессу Пуассона с интенсивностью X. Прибыв
Глава 2. Цепи Маркова с непрерывным временем в лагерь, m-й мишка бродит некоторое время Rm в поисках бака, а затем затрачивает время Sm, исследуя его содержимое. Векторы (Rm, Sm), т ^ 1, являются независимыми случайными векторами с одним и тем же (совместным) распределением. Пусть U(t) и V(t) — число мишек, которые в момент t скитаются в поисках, и тех, которые уже нашли бак и заняты его содержимым (будем называть это грабежом). Предположим, что U(0) = = V(0) = 0. Пусть а (соответственно Р) — вероятность того, что медведь, прибывший в некоторый момент Т (случайно выбранный по равномерному закону из интервала (0, t)), в момент t занят поисками (соответственно грабежом). Выразите P(U(t) = и, V(t) = и) в терминах а и р и, воспользовавшись этим, покажите, что U(t) и V(t) представляют собой независимые св. с распределением Пуассона каждая. Покажите, что E(U(t)) —► X E^i при t —> оо. Указание. При условии {N(t) — m} первые m моментов прибытия имеют то же самое распределение, что и порядковые статистики для m независимых случайных величин, равномерно распределенных на интервале (0, 0- Решение, а) Условие N(t) = 1 означает, что на полуинтервале (0, t) содержится лишь один момент прибытия. Пусть Т — момент прибытия. Тогда Р(Т < а | N(t) = 1) = P(N(a) = 1 | N(t) = 1) = _ P(N(a) = l,N(t)-N(a) = 0) _ Хд<ГХае-х"-а) _ а _ Р(Л/(0 = 1) - \te~b - , vu ^ а ^ г. Следовательно, Т ~ U(0, t). б) Моменты прибытия медведей на (0, t] при условии {N(t) = п) представляют собой независимые равномерно распределенные точки на (0, t], соответствующие векторы (Rm, Sm), 1 < m < п, независимы и одинаково распределены. Следовательно, в момент t каждый медведь либо занят поисками с вероятностью а, либо грабежом с вероятностью р, либо уже ушел с вероятностью 1 — а — р независимо от других. Согласно определению Р = Р(^, <^- Г^Т?, +S,), 1 -a-p = P(t-T>R1 +S|), где Г ~ U{0, t), независимо от (Ri, S\). Мы видим, что для любых таких неотрицательных целых чисел и, и, что и + v < п, условная вероятность
§2.12. Вопросы к теории цепей Маркова с непрерывным временем вычисляется по формуле P(U(t) = и, V(t) = v|N{t) = n)= "'«'Р'О-'-РГ"' ' иш\(п — u — vy. Тогда безусловная вероятность P(U(t) = и, V(t) = v) равна J2 P(U(t) = и, V(t) = v | N(t) = n) P{N(t) = n) = 2s V u\v\(n-u-v)\ ){ n\ ) ~ n^u+v /(oX0^WWV^\ у ((1-а-р)Х0я-"-»с_(1_а_р)Х<: л^н+и (я — и — v)\ = /(aXQ«e—"\ /(рХ0°е~РХл 0V^\/(PX0V^\ u\ ){ v\ J' Таким образом, U(t) и У(^) являются независимыми пуассоновскими с.в. со средними значениями аХ^ и fl\t соответственно. Далее, / t Поэтому «= fP(Ri>t-r)dr-t=-t fp(Ri^r)dr. о о с» lim ut = [P{R\ >r)dr = ER{ t^oo J lim EU(t) = XERi. <—oo П Задача 2.12.17. Пусть X,- (/>0) и fi; (i ^0) — положительные константы и <? = (<fo:/,/>0) — производящая матрица ц.м.н.в., /-Х0 Х0 0 0 0 ...\ Цо — (Л40 + Xi) X, 0 0 Q = Цо Hi -(Mi + Х2) Х2 0 Цо Hi И-2 -(М2 + Х3) Х3 V ;
Глава 2. Цепи Маркова с непрерывным временем где Mi = ^Lo + (jLi + ... + (!,-, / ^ 0. Докажите, что минимальный процесс, ассоциированный с Q, является регулярным (невзрывным) тогда и только тогда, когда Указание. Ц.м.н.в. (Xt) (или ее производящая матрица Q) является невзрывной тогда и только тогда, когда система Qz = 0z, z = (z,), z,- ^ 0, i = 0, 1 не имеет ограниченного нетривиального решения. Полезно также воспользоваться неравенством (\+х + у)^{\+х)еу, х>0, у>0. Решение. Нетрудно проверить, что ц.м.н.в. X(t) регулярна тогда и только тогда, когда система Qz = Bz не имеет ограниченного нетривиального решения. Итак, будем рассматривать ее решения: i = 0: -Xoz0 + XoZ| = 0zo, i > 1: (Лого + (iizi + ... + [i,_iz,_i - (Af,-_i + X,)z,- + X,z,+i = 0z,-, i-i т. e. £ (ji/Z; - (Afy_i + 0 + X/)Z/ + X/zy+i = 0. /=o (2.12.3) Предположим, что i ^ 1. Запишем /-I ^ (lyZ/ - (Af/_| + 0 + X,)Zj + XfZ,+l = 0 /=0 и /-2 ^2 [i/Zj - (Mi-2 + 0 + X,_i)z,_i + X/_iZ; = 0. /•=o Подстановка приводит к уравнению ((jl,_i -I- М,_2 + 0 -I- X.-Oz,-! - (УИ;_1 + 0 + X,)z/ + X,z,+i - X,_iz,- = 0, и после перегруппировки членов получаем (М,_, + 0 + X,_|)(Z«_| - Z;) + X,(Z,+ 1 - Z,) = 0.
§2.12. Вопросы к теории цепей Маркова с непрерывным временем Тогда Zi+\ - Zi = ^ (Z; - Z,_i) = . . . = |j ^ (Zi - Z0). ft=l Используя соотношение (2.12.3), находим z\ — zq = -тА откуда следует, Ао ЧТО , 6z0 т-r Mfc-i+6 + Xfe-i z,+1"z' ~ "хТ JLJL xi * Решение является ограниченным и нетривиальным тогда и только тогда, X^Lll xl <00' когда />i *=1 т.е. когда />1 ' А=0 Если это неравенство выполняется для некоторого 0 > 0, тогда очевидно, что 1 И наоборот, если выполняется последнее неравенство, то ^2 г- < оо. / Л' Наконец, поскольку 1 +х + у< (1 +х)еу, заключаем, что Сформулируем теорему, использованную при решении этой задачи. Теорема 2.12.18. Пусть (X) — цм.н.в. с генератором Q и Т = = T'expio — момент взрыва этой цепи. Зафиксируем В > 0 и положим zi = E,(e_9r). Тогда вектор-столбец с компонентами z,-, i e /, удовлетворяет условиям: а) |z,| < 1 для всех i, б) Qz = Bz.
Глава 2. Цепи Маркова с непрерывным временем Более того, z задает минимальное решение, т. е. если z = (z,-, i 61)T удовлетворяет условиям а) и б), то 1\ < z,- для всех I e /. Из теоремы вытекает, что для любого следующие условия эквивалентны: 1) Q не взрывная; 2) Qz = 0z и неравенства |z,| < 1 для всех / влекут, что z = 0. Доказательство. В силу марковского свойства цепи скачков при условии Xj, = k выполняется соотношение оо Е.(е-в7-„р,01 Xji = k) = J e-buqte-m du Ek(e~6T^) = -^ *=т,Ш (2Л2-4) В силу соотношений qt = —qu и q{pik = qik (2.12.4) эквивалентно уравнению Теперь предположим, что z также удовлетворяет условиям а) и б). Тогда по индукции проверяем, что z,- < Е,(е-9У"). (2.12.5) Действительно, из а) вытекает неравенство (2.12.5) при п = 0, а используя для (2.12.5) для п, проверяем его для п+1: В силу теоремы о монотонной сходимости limE,(e-9y"+l) = Е,(е_9Гехр|0). Следовательно, z,- < z,-. ~* П Задача 2.12.19. Оборудование в новом офисе начальника департамента находится под контролем компьютерной системы и ведет себя довольно странно. Если шторы опущены в момент п, то компьютер их поднимает в момент п+1 с вероятностью (3|; если же шторы подняты в момент п, они опускаются с вероятностью (Зг- Если освещение выключено в момент п, то компьютер включает его в момент п+ 1 с вероятностью Xi; если же оно включено, то выключается оно с вероятностью Хг. Изменения состояний штор и освещения не зависят друг от друга и от предыдущих состояний. Начальник департамента входит в свой кабинет в момент 0 и обнаруживает, что шторы опущены и освещение выключено. Какова вероятность
§2.12. Вопросы к теории цепей Маркова с непрерывным временем того, что в момент его ухода п шторы и освещение будут находится в таком же состоянии? Определите предельную пропорцию среднего времени, в течение которого одновременно опущены шторы и выключено освещение. Решение. Обозначим состояния штор Н (опущены вниз) и В (подняты вверх), матрица перехода имеет вид (1-Pi Pi ^ V 02 1 — Ва/' р2 1 - р2 Следовательно, вероятность перехода за п шагов определяется по формуле аналогичные формулы можно записать для p*£l, Рт и рВв. Инвариантное распределение задается как лш = (тг.Ц\ njj1) и определяется формулами ш = _Р?_ ш Pi п" р,+р2' к" р,+р2- Аналогичные формулы имеют место и для инвариантного распределения тг.с = (лЦкл, Лвыкл) Л"11 освещения (где р заменяется на X). Наконец, в силу независимости находим, что совместные вероятности перехода равны произведениям, а именно п{п) "(н,вкл)(н,вкл) j^b+kIb<'-P'-(w' Х> +ДЦ-(1-'ч-Х2)- Х[ + Хг Xi + X2 и совместные инвариантные вероятности также равны произведениям, а именно (ш,с) _ Pi Xi %,выкл)-р|+р2 Х,+Х2' Аналогично для предельной пропорции среднего времени получаем выражение Р2 Х2 (Р.+Рг) (X, + Х2)" Задача 2.12.20. Агентство по контролю за качеством высшего образования направило комиссию для исследования процесса обучения математике в Кембриджском университете. Во время своего пребывания в университете комиссия ведет список поступающих претензий. Предположим, что в течение временного интервала (t, t + h) новая жалоба подается с вероятностью \h + o{h), в то же время любая из уже поступивших жалоб
Глава 2. Цепи Маркова с непрерывным временем признается необоснованной и удаляется из списка жалоб с вероятностью [ih + o(h). Введя приемлемые предположения, покажите, что число C(t) активных жалоб в списке на момент времени t образует процесс рождения и гибели с интенсивностями рождения Х„ = X и интенсивностями смерти (л„ = n\i. Получите прямую систему уравнений для вероятностей pn(t) = P(C(t) = = п). Покажите, что m(t) = EC(t) удовлетворяет дифференциальному уравнению m'(t) = Х - [im(t), и найдите m(t) при начальном условии т(0) = 1. Найдите инвариантное распределение процесса. Решение. Предположим, что каждое отдельное удаление жалобы из списка не зависит от других и что поступление и удаление жалоб также не зависят друг от друга. Тогда условная вероятность удовлетворяет соотношению P(C(t + h)- C(t) = -11 C(t) = n) = [inh + o(h), поскольку первое удаление соответствует минимуму п независимых показательных случайных величин, т. е. происходит в показательно распределенное время с интенсивностью [in. Тогда прямые уравнения -rfP{t) = = P(t)Q таковы: dt -j-tPo = -\p0 + [ipi, ■jtPn = Vn-i - (X + \in)p„ + [i(n + l)pn+i, h>\. Q-матрица имеет вид Q = о X 0 0 -(X + ц) X 0 2[i -(k + 2[i) X ■■7 а уравнение для инвариантного распределения к имеет вид nQ = 0. Мы можем также рассмотреть уравнения детального баланса откуда получаем TCi_ 1X = %ii\i, i~£\, *-(£)*-•--®Y Таким образом, лп = е х/ц, а следовательно, к ~ Po(X/(jl). Уравнение для m(t) имеет вид т(0) = 1, ■^(0 = Х-1ш(0.
§2.12. Вопросы к теории цепей Маркова с непрерывным временем откуда следует, что Специалисты по марковским процессам любят делать это в невозвратном состоянии. (Из серии «Как они делают это».) Задача 2.12.21. Пусть Л' — ц.м.н.в. на пространстве состояний / = = {1, 2} с производящей матрицей <?=(~YP Д). гдер,Т>0. Покажите, что полугруппа матриц перехода P{t) = ехр(Ш) задается уравнением Щ) (P + V ^Y(I_A(0) p + YAWJ' гдеЛ(0 = е-((Р+т). Пусть p(°H.Vr> 0<a<1- Для ц.м.н.в. X пусть М — матрица, у которой (/,/')-й элемент равен Р(Х(\) = = /' | Х(0) = /) для i, j e S. Покажите, что цепь X с матрицей М = Р(а) существует тогда и только тогда, когда а > 1/2, Решение. Самый краткий путь решения — это проверить, что матрица P(t) удовлетворяет уравнениям P'(t) = P(t)Q = QP(t) и сослаться на теорему о единственности решения. D Задача 2.12.22. Задания поступают на обслуживание согласно процессу Пуассона ПП(Х). Задания последовательно выполняются на единственном процессоре, времена обслуживания являются н.о.р.с.в. и имеют показательное распределение с параметром v > 0. После обработки задание либо покидает систему с вероятностью р, 0 < р < 1, либо, с вероятностью 1 — р, оно разбивается на два отдельных задания, и оба эти задания вновь отправляются в общую очередь для их обработки. Пусть X(t) — число заданий в системе в момент времени t. В случае, когда 1 + X/v<2p, оцените lim P(X(t)=j),j = 0,1,..., и най- (-»оо ти среднее время занятости процессора между двумя последовательными периодами простоя. Что произойдет, если 1 + X/v ^ 2р?
Глава 2. Цепи Маркова с непрерывным временем Решение. В описанном примере Х0 = X и X,- = X + qv, \ii = pv, i ^ 1, i ^ i-i • ^ . X + ^v где q = 1 - p, поэтому у,- = — a' ', i ^ 1, где a = —. Если 1 + X/v < 2p, то a < 1, следовательно, m = 1 H -r. г < оо и P(X(t) = /') ->y,/m при / —> oo. yDv(l - a) " Среднее время возвращения в 0 в этом случае равно 1/(Хлп) = mfk, следовательно, средняя продолжительность периодов занятости будет равна (т- 1) _ 1 1 X ~ />v(l -a) ~~ (2p- l)v-X' Если 1 + X/v ^ 2р, то цепь либо имеет нулевую возвратность, либо невозвратна, а значит, P(X(t) = i) —» 0, и средняя продолжительность периодов занятости становится бесконечной. □ Задача 2.12.23. а) Пусть W(t) — число ос, приземлившихся на тарелку с супом в течение интервала времени (0, /], и предположим, что вероятность прилета осы в течение интервала (и, и + И) равна \(u)h + o(h) для некоторой заданной функции X. Четко сформулируйте все дополнительные предположения, необходимые, чтобы представить W как неоднородный процесс Пуассона с функцией интенсивности X. Покажите, что W(t) имеет t распределение Пуассона со средним J\(u)du. о б) Пусть Х\, Х%, ... — последовательность поступающих предложений о покупке дома. Предположим, что Л', являются н.о.р.с.в. с плотностью распределения / и функцией распределения F. Будем говорить, что Хп — это рекордное значение, если п — 1 или Хп > Xi при всех i < п. Найдите вероятность того, что Х„ представляет собой рекордное значение. Найдите также оценку вероятности того, что этот рекорд лежит в интервале (и, и + h), где h — малая величина. Пренебрегая всеми членами порядка o{h) для малых h, найдите вероятность того, что интервал (и, u + h) содержит рекордное значение. Покажите, что число R(t) рекордных значений на интервале (0, t] имеет среднее — 1п(1 — F(t)) при условии F(t) < 1. Решение, а) Предположим, что X является «хорошей» функцией (например, она ограничена и интегрируема на каждом интервале (0, t)). Предположения относительно процесса (W(t), t > 0), W(Q) — 0, которые мы будем использовать, таковы:
§2.12. Вопросы к теории цепей Маркова с непрерывным временем 1) вероятность Р( W(u + h) — W(u) = 1) того, что на интервале (и, u + h) происходит единственный прилет, равна \(u)h + o(h), где o(h) стремится к 0 при h —► О равномерно по и е (0, t); 2) вероятность P(W(u + h) — W(u) ^2) нескольких моментов прилета на интервале (и,u + h) равна o{h), гдео(й) стремится к 0 при h—>0 равномерно по и е (0, 0; 3) приращения W{t\) — W(to), ..., W(tn) - W(tn_\) независимы, для любых моментов времени 0 = t0 < t\ < ... <tn = t, т.е. л P(W(t;) - W(t,-i) = fty, 1 < /Ч Я) = J] P(W(t,) - W(tM) = k,) /=l для любых k\,..., kn = 0, 1,... При этих предположениях W(t) ~ Ро(Л(/)), где A(t) = f\(u) du. Действительно, п.ф.м. МД0) = Ее9Г('> можно предста- о вить в виде М,(0) = Еexp(B[W(h) - W(t0)] + ... + Q[W(tn) - Щ*„_,)]) = п = l[Eexp(Q[W(tj)-W(tHl)}), /=i и при п —► оо и max[tj — t,-\ ] —► 0 для любого заданного 0 л ПЕехр(0[Щ^)-Щ^_,)])- '=' = J][l - Щ.ХЩ - thi) + евЦ(Н1Щ - tHi) + o(tj - tHi)] = = f[[l + (e9 - \)4tM)(tj - tHl) + o(t, - tM)] = л = Цехр[(е9 - \)\(thi)(tj - <y-i) + o(f,--*,-_,)] ->exp (e9-l) f\(u)du Следовательно, Mt{Q) = exp[(e9 - 1)Л(0], и W(t) является пуассоновской св. Ро(Л(^)) для любого t>0. Аналогично можно показать, что W(t + s) — — W(s) ~ Ро(Л(/ + s) — A(s)). Следовательно, семейство (W(t), t~^0) представляет собой неоднородный процесс Пуассона с интенсивностью \(t). б) Если п= 1, то по определению P^i является рекордным значением) = = 1. При п > 1, используя условное математическое ожидание, при
Глава 2. Цепи Маркова с непрерывным временем заданном значении Хп находим Р(Хп является рекордным значением) = Р(Хп > X, V/ = 1, ..., п - 1) = = El(Xn>XiVi=l я-1) = = Е(Е[1(Д„ >Х, Vi= 1, .... п - \)\Х„]) = If(x)F(x)n-' dx. Далее, Р(Хп является рекордным значением и Хп Е (и, и + Л)) = ы+Л = /f{x)F(x)n-x dx = f(u)F(u)n-lh + o(h) и h min[f(x)F{x)"-1 :u^x^u + h]^ ^ P(X„ является рекордным значением и Хп Е (и, и + h)) ^ ^hmz\[f{x)F{x)n-{ :u^x^u + h]. Для того чтобы найти главный член, который вносит основной вклад в вероятность того, что интервал (и, и + h) содержит рекордное значение, запишем Р((«, и + И) содержит рекордное значение ) = Р(« < Х\ < и + h) + + V^ Р(Хп является рекордным значением Ku<Xn<u + h) + o(h) = = h /(«O + ^/MW' п>1 Заключаем, что процесс рекордов (R(t)) является неоднородным процессом Пуассона НПП(Х(0) с интенсивностью \(t) = f(u)/(\ —F(u)). Тогда Е R(t) — среднее число рекордных значений на (0, t) = t t t t = j\{u)du = J'JM-.du = J"t^^ = j"rfln[l-F(«)] = -ln[l-F(0] 0 0 0 0 при условии, что F(t) < 1. Мы используем тот факт, что F(0) = 0, следовательно, 1п[1 - F(0)] = 0, в силу того что F имеет плотность /, сосредоточенную на (0, +оо). □
§2.12. Вопросы к теории цепей Маркова с непрерывным временем Задача 2.12.24. Клиенты прибывают в кондитерскую согласно процессу Пуассона ПП(Х). Единственный продавец кондитерской может виртуозно обслуживать одновременно двух клиентов. Таким образом, всякий раз, когда в очереди находятся два или более клиента, продавец обслуживает сразу двух клиентов; если же в очереди находится лишь один клиент, то обслуживают его одного. Периоды обслуживания S — независимые случайные величины, имеющие общую производящую функцию моментов М(0) = Eexp(0S). Пусть Qn — число людей в кондитерской в момент, когда завершен п-й период обслуживания. Представьте Qn+i в виде Q„+\ = А„ + Q„ - h(Q„), где соответствующую величину Ап следует определить, a h{x) = min{2, x]. Покажите, что Q = (Qn: n^\) является ц.м.д.в., и найдите выражение для п.ф.м. ЕхА\ х < 1. Покажите, что если Q имеет инвариантное распределение к = (тс,-: / ^0) и производящую функцию G(x) — 52 л,х', то x2G(x) = M(k(x - 1))|g(x) + ^(х2 - *')*<)' X\<, 1. 1=0,1 J В случае, когда времена обслуживания имеют показательное распределение с параметром X, покажите, что G(x) = (1 - <х)/(1 - си), 2р X п где а = , где р = - < 2. Решение. Пусть Ап — число клиентов, прибывших в течение п-го периода обслуживания, a Sn—длительность n-го периода обслуживания, Fs(t) = P(Sn <t) — функция распределения, а М(0) = Ee9s" — п.ф.м.. Тогда при условии Sn = t св. Ап имеет распределение Пуассона Ро(Х<)- Следовательно, вероятностная производящая функция имеет вид yAn(x) = ExA° = E[E(xA"\Sn)] = +°°+оо +°° = f ^xm^e-x'dFs(0= f ^~l) dFs(t) = M(k(s - I)), о m=0 П' о и она задает распределение Ап единственным образом. Далее, св. А\,А2,... являются н.о.р. Согласно описанию очереди Qn+\=Aa + Qn-h(Qn) и «(<?„) = min[2, <?„],
Глава 2. Цепи Маркова с непрерывным временем где Ап не зависит от Q„ (на самом деле и от всей последовательности Q], ..., Qn-\). Следовательно, (Qn) образует ц.м.д.в. Далее, если тс = (тс„) — инвариантное распределение, то в состоянии равновесия выполняются соотношения G(x) = ExQ"+> =ExA" ExQ"-h^=M(k(x-l))(п0 + щ + тс2 + Х/;*'-2) x2G(x) = М(к(х - 1)) (тсо*2 + nix2 + fjkA = = М{\(х - 1))[(х2 - 1)тс0 + (х2 - х)щ + (х2 - х2)к2 + G(x)] = = M(k(x - 1))|o(jc) +^2(x2- х1)щ\, *■ (=0,1 J что и требовалось. Предположим теперь, что Sn ~ Ехр((1) и М(в) = _fl. Тогда при р = - имеем М(Цх - 1)) = * . = —— . v [1 + К - Кх I + р - рх Следовательно, G(x) = {l+pi_px)x2[G(x) + (х2 - 1)ло + (х2 - х)щ]. Учитывая предложенное выражение для G(x), положим G(x) = и TCi = ало. В самом деле, это соответствует геометрическому инвариантному распределению тс, = а'тсо, / ^ 1, и теп = 1 — а. Тогда мы получаем ТСо 1 1 - ах (1 + р - рх)х2 L1 - ои или + (х2 - 1)тс0 + (х2 - х)ако 1 = (1 +Р-РХ)***1 +(1 ~^)^2- ' + <Ф2-*))} = (1 - аис + а - <х2х + а2). 1+ р - рх Приравнивая коэффициенты при нулевой и первой степенях х, находим пару (идентичных) соотношений 1+р=1+а + а2 и рх = оис + <х2х,
§2.12. Вопросы к теории цепей Маркова с непрерывным временем откуда получаем -1+уГ + 4р а= - 2 Очевидно, следует положить а < 1, т. е. р < 2 (что является необходимым и достаточным условием существования (и единственности) инвариантного распределения). При X = [i, p = 1 имеем v^-l , г-, а = —-— и тсо = 1 - а. □ Задача 2.12.25. В баре имеется N стульев для посетителей. Посетители входят в бар согласно процессу Пуассона с интенсивностью X. Если есть свободный стул, прибывший посетитель на нем располагается, а если нет ни одного свободного — посетитель уходит. Времена пребывания посетителей в баре — независимые показательные случайные величины с параметром [i. Вычислите вероятность того, что прибывший посетитель находит свободный стул, при условии, что система находится в равновесии. Для системы в состоянии равновесия опишите процесс ухода клиентов (не считая при этом тех, кто ушел, не найдя свободный стул). Решение. В задаче описан процесс рождения и гибели на {0,1,..., N}, который является обратимой ц.м.д.в. Уравнения детального баланса таковы: Я(А = Kl [i, • • •, KN-1 ^ = TC/y|i; решают их рекуррентно: X Тогда ТСл/ = 1 + £ + . =09 + (х)Т (2126) Процесс ухода клиентов образует процесс Пуассона с интенсивностью X; формулу (2.12.5) называют теоремой Бурке для системы с потерями M/M/1//V. □ Все аргументы против этого, а вера — за это. (О появлении духа человека после его смерти.) С.Джонсон (1709-1784), английский издатель и драматург Задача 2.12.26. Опишите применение теории ц.м.д.в. и ц.м.н.в. для очередей с одним сервером. Следует обсудить вопрос существования устойчивой длины очереди, а также вычислить величины, характеризующие очередь в состоянии равновесия.
Глава 2. Цепи Маркова с непрерывным временем Решение. 1. Очередь М/М/1. Это простейший пример: времена между прибытиями являются н.о.р.с.в. Ехр(Х), а времена обслуживания — н.о.р.с.в. Ехр((Л). При этом число клиентов Xt в системе в момент t образует Ц.М.Н.В. на Z+ = {0,1,...} (процесс рождения и гибели) с интенсивностями вида <7i\;+i = X, / ^ 0, и <7i\i-i = \х, i ^ 1. Если {> 1, то цепь является невозвратной, = 1, то цепь имеет нулевую возвратность, < 1, то цепь является положительно возвратной. Если р < 1, то инвариантное распределение является геометрическим: к, = р'(1-р), i>0. 2. Очередь М/G/l. Здесь времена между прибытиями Ап являются н.о.р.с.в. Ехр(Х), а времена обслуживания Sn — н.о.р.с.в. с заданным распределением. Число клиентов в очереди Хп в момент сразу же после п-го ухода образует ц.м.д.в.: ^л+1 —^п + Уп+\ — ЦХп ^ 1)- Здесь Yn — число прибытий за время n-го периода обслуживания; Yn не зависит от Хп и Yn ~ Po(Xs) условно по Sn = s. Вероятностная производящая функция имеет вид срг(г) = EzY = E[E(zY | S)] = E(ex(2-"s) = Ms(k(z - 1)). Отсюда следует, что EK = XES; это значение вновь обозначим р. Лемма 2.12.27. Если р = ЕК< 1, то цепь (Хп) положительно возвратна. Доказательство. Производя итерации вышеприведенного равенства, находим Хп = Х0 + Yx + Y2 + ... + Yn - п + Zn где Zn — число попаданий в состояние 0 к моменту времени п. В предположении, что Хо = 0, получаем E(Zn/n) = 1 - Е (У,У?1 /п + Е(Хп/п) = = 1 - р + Е(Ха/п) > 1 - р > 0. Мы видим, что EZn/n —> 1/mn, где то = Ео(время возвращения в 0) < оо. Следовательно, состояние 0 положительно возвратно. Поскольку цепь (Хп) неприводима, она положительно возвратна. □
§2.12. Вопросы к теории цепей Маркова с непрерывным временем Следовательно, ц.м.д.в. (Хп) имеет единственное инвариантное распределение. Лемма 2.12.28. В состоянии равновесия ко = 1 — р и (1-р)(1 -z)GY(z) (l-P)(l-z)Afj(X(z-l)) иху£) GY(z)-z Ms(Hz-l))-z Доказательство. В состоянии равновесия Хп+\ ~Хп. Используя этот факт и вышеприведенное уравнение, запишем zGx(z) = zEzx = Ezx+l = E(z V+l<*=°>) = = GY(z) Ez*+,<*=°> = Gy(z)(k0z + Gx(z) - no), откуда следует, что r ,_ч _ Яо(1 - z)GY(z) Uy{Z) - Z При z —> 1 имеем < i. \ — z Tto 1 = tco lim ., = -—ртт. z-.o Gy(z) - z 1 - ЕУ По правилу Лопиталя эта дробь равна тсл/(1 - р), т. е. теп = 1 — р. □ 3. Очередь G/M/1. Предположим теперь, что времена между прибытиями Ап — н.о.р.с.в. с заданным распределением, а времена обслуживания Sn — н.о.р.с.в. Ехр(^). Пусть Хп — число клиентов в очереди в момент сразу же после n-го прибытия. Тогда (Хп) — ц.м.д.в.: *л+1 =max[^n- Yn + 1, 0], где Yn — число обслуженных клиентов за п-е время между прибытиями. Св. Yn вновь не зависят от Хп. Далее Yn ~ Ро((1т) условно по Ап = т. Используя те же рассуждения, что и выше, получаем GY(z) = MA([i(z-\)), и ЕК = цЕЛ. Теорема 2.12.29. Еслир< 1, то цм.д.в. Хп положительно возвратна с инвариантным распределением щ = (1 - Т))т)', где Т) — единственный корень уравнения Г) = Gy(T)) на интервале (0, 1). Доказательство. Запишем Gy(0) = P(Y = 0)>0 и Gy(l) = 1. Далее, G'j,(l) = ЕК = 1/р > 1, а также G"(z) > 0, т.е. Gy — выпуклая функция. Следовательно, уравнение Т) = Gу(т)) имеет единственное решение на (0, 1). Далее, Р(*л+1 = *) = Р(*л -Ya = k-l). Если тс — (тс;) — инвариантное распределение, то я* = y^Kfe+i-iP<.
Глава 2. Цепн Маркова с непрерывным временем где Pi = P(/ обслуживании за типичное время между прибытиями); подставляя тс,- = Т)'(1 — Т)), получаем (1-Т))7)* = ^(1-7))7)*+'-1р|-, или, что эквивалентно, ^=Е^+'"'^ т'е- т1=Ет1'л=0ит)). □ Задача 2.12.30. Следующее утверждение известно как основная теорема восстановления для процесса восстановления с дискретным временем. Пусть S], S2,... — положительные целочисленные н.о.р.с.в. и pk = = P{S\ = k). Положим ■/о = 0, Jn = S\ + ... + Sn, О 1, u Хп = k, если ^ < п < 4+i • Лп = {я = /* для некоторого £}, п = 0, 1, ... 3/по значит, что Ап = {п — момент восстановления}. Предположим, что НОД(6: рк > 0) = 1. Тогда lim Р(ЛЛ) Е[5,Г а) Докажите вышеприведенное утверждение. б) Как долго в среднем придется ждать появления набора 000100 в случайной бинарной последовательности? Решение, а) Рассмотрим ц.м.д.в. (Yn) на пространстве {0, 1, ...} Yn = inf{m > 0: т + п = 4 ДЛЯ некоторого k) = = время от момента п до следующего прибытия, «=1,2,... Переходные вероятности задаются следующим образом: P(Yn+] =i\Y„ = 0) = p,+i, iS* 0, P(Ya+l=i-l\Y„ = i) = l, i>\. Ц.м.д.в. неприводима и апериодична благодаря условию, что НОД(&: pk > > 0) = 1. Она имеет единственное инвариантное распределение
§2.12. Вопросы к теории цепей Маркова с непрерывным временем а следовательно, положительно возвратна. Тогда при Р(А.) = Р(Уп = 0) -> к0 = ^-п -» оо. б) Будем считать, что восстановления происходят в моменты появления цепочек 000100, не налегающих одна на другую. Вероятность появления такой цепочки до момента п > 6 равна 1/26. С другой стороны, 1 = Р(Ап) + Р(Л„_4)^ + Р(Л„_5)^. Согласно основной теореме восстановления при п —► оо правая часть стремится к 1/1 \_\ E[S,]V 24 + 24' откуда получаем Е [S\] = 70. В общем случае, когда 1 появляется с вероятностью р, а 0 — с вероятностью q, получаем E[Sl] = ±{l+q3p + qip). □ Дальнейшие результаты, относящиеся к подобным задачам, см. в статье: Blom G., Thorburn D. How many random digits are required until given sequences are obtained? // Journ. Appl. Probab. 1982. V. 19. P. 518-531. Задача 2.12.31. Рассмотрим модель эпидемии (St, It, Rt)t^o в большой популяции объема N = St+It + Rt, где St— число особей, восприимчивых к инфекции, // — число инфицированных, a Rt — число тех, кто выздоровел или умер. Предположим, что процесс (5;, /<)^о эволюционирует как ц.м.н.в., ненулевые вероятности перехода которой задаются соотношениями q(s,i)(s-i,i+\) = X(s,o > 0 при s > 1, i > 1, <7(s,<)(s,;-i) = (i;>0 при s>l, / > 1, и что So = N — 1, /о = 1. а) Покажите, что {Rt)t^o при больших временах стремится к постоянной и для конечного значения Яоо вероятность P(Roo > г) возрастает с ростом интенсивности инфицирования X(Si;) при всех г > 0. б) В стандартной модели эпидемии полагают с \s,i) = ^T7. Hi = 'V ДЛЯ некоторых постоянных X, \1 > 0. Обоснуйте такой выбор интенсивностей. в) Покажите, что в пределе при N —> оо стандартная эпидемия, начавшаяся с одного инфицированного, приводит к положительной пропорции инфицированного населения тогда и только тогда, когда X > \х.
Глава 2. Цепи Маркова с непрерывным временем не того, Решение, а) Интенсивности перехода гарантируют, что сумма St + // не возрастает по t. Следовательно, траектории ц.м.н.в. Rt не убывают. Кроме го, Rt ограничена сверху: Rt < N, т. е. Rt / Roo почти наверное. Лемма 2.12.32. Если X(S|1) ^\s,i) V(s, i), то P(Roo>r)^P(Roo^r)yr>0. Доказательство. Рассмотрим цепь скачков на Z+ x Z+ (четверть решетки на плоскости) с траекторией, подобной той, что показана на рис. 2.85. NL N-S(=I + R) Рис. 2.85 Здесь с вероятностью X(Si,-)/(X(Si,-) + |i,) частица совершает скачок на единицу вверх и на единицу вправо. С вероятностью [i,/(X(S|1) + \it) она совершает скачок на единицу вниз. ХДХ + ц) ц/(Х + ц) Х/(Х + ц) ц/(Х + ц) Рис. 2.86 Мы можем запустить одновременно две цепи, соответствующие {X(S,)} и {X(S,)}, используя U(0,1)-н.о.р.с.в. для определения переходов, как показано на рис. 2.86. (Это еще один пример склеивания случайных процессов.) Тогда цепь, соответствующая {X(S|;)}, всегда совершает скачок влево и вправо, когда такие скачки совершает исходная цепь. Следовательно,
§2.12. Вопросы к теории цепей Маркова с непрерывным временем траектории этой цепи лежат выше траектории исходной цепи. Поскольку /оо = Ах> = 0, предельное состояние удовлетворяет неравенству Roo ^ Я,». Отсюда следует утверждение леммы. □ б) Выбор означает, что инфицированная особь контактирует с любой другой с интенсивностью X и выздоравливает или умирает с интенсивностью [i. в) Теорема 2.12.33. а) Если X < [i, то P(Roo > еЛО -> О при N -► оо Ve > 0. б) Если X>[iue, 8>0 выбраны так, что Х(1 — е)(1 — S) = [i, то P(Roo>eN)^b\/N. Доказательство, а) Предположим, что X < [i. В лемме 2.12.32 выберем Х(51) = X/ > Xsi/N. Ц.м.н.в. (/() является процессом рождения и гибели на {0, ..., N} с интенсивностью, представленной на рис. 2.86. (N-l)fi (N-l)X Nil . . . O-L-O O-L-O d-1 N-\ N Рис. 2.87 Таким образом, цепь скачков, соответствующая {Х^,,-)}, представляет собой случайное блуждание с отрицательным сносом. Тогда Р(Яос>еЛ0<Р(£ос>еЛ0< < Р(число скачков вправо > eN) —► 0 при N —► оо Ve > 0. б) Теперь предположим, что Х(1 - е)(1 - 8) = [i для некоторых е, 8 > 0. Положим X(Sij) = min|^, l-e|X/<X^/. Тогда при условии St > /V(l - е) ц.м.н.в. (//) представляет собой процесс рождения и гибели, с траекториями, представленными на рис. 2.87, где v = X(l — e). Следовательно, Р(Яос<еЛ0<Р(Яос<еЛ0< ^ Р(5оо ^ (1 - e)W, число смертей < eN) < Pi (попасть в 0) = [i/v V/V.
Глава 2. Цепи Маркова с непрерывным временем 2/i 1u З/i Ъи -1—с—=1—L-&- 2 3 Рис. 2.88 Таким образом, Р^оо > eW) ^ 1 - ^ = Х(1 ~ g) ~ t° " £)0 ~ §) = 8- П А теперь краткое резюме неевклидовой геометрии, ее физических приложений и специальной теории относительности Эйнштейна, и все в одной фразе. A half of a cottage тс plus a half of a fish тс plus a half of a shepherd's тс plus a half of a steak and kidney тс will not make a full turn, but four pints might18. (Из серии «Так говорил суперлектор».) |8Игра слов: по-английски pie — пирог, что созвучно с тс.
Глава 3 Статистика цепей Маркова с дискретным временем §3.1. Введение Where are the weapons of math distraction?1 (Из серии «Кое-что из политики».) В этой главе мы представим некоторые важные факты, относящиеся к статистике цепей Маркова с дискретным временем (ц.м.д.в.) и с конечным множеством состояний. Пусть в результате наблюдений ц.м.д.в. (Хт) с неизвестным распределением, в п + 1 последовательный момент времени О, ..., п получена выборка х = хп= [ : ) G In+1. (3.1.1) Основной вопрос, который у нас возникает: что можно сказать о распределении этой цепи? Обычно нашей целью является параметрическое оценивание, когда распределение цепи Р9 зависит от (скалярного или многомерного) параметра 0, значения которого принадлежат заданному (дискретному или непрерывному) множеству 0 (в непрерывном случае это подмножество прямой Ж или подмножество евклидова пространства более высокой размерности). Более точно, в случае ц.м.д.в. матрица вероятностей перехода Р9 (а в некоторых случаях и вектор начального распределения Xе) зависит от 0, т. е. вероятности перехода р9:, и начальные вероятности X9 являются функциями от 0 € 0. Для определенности предположим, что (конечное) пространство состояний / цепи фиксировано, и s = |/| обозначает число состояний. Часто Xе совпадает с инвариантным распределением л9, так что Р9 описывает цепь в состоянии равновесия. Для простоты мы будем часто полагать, что матрица Я9 неприводима и апериодична при любом 'Ср. с газетным заголовком «Where are the weapons of mass destruction?»
Глава 3. Статистика цепей Маркова с дискретным временем 0 G 0, так что цепь имеет единственное инвариантное распределение it", где it6 = it6P6, к которому она сходится геометрически быстро при любом начальном распределении вероятностей (см. § 1.9, в частности теоремы 1.9.2 и 1.9.3). В этом случае введем специальное обозначение V\\ (см. уравнение (3.1.10)). Предположение о неприводимости и апериодичности оказывается особенно полезным при рассмотрении больших выборок (когда п —► оо). Как и в случае выборок из независимых наблюдений, мы хотим оценить 9 на основании х, т.е. найти функцию 9(х) (или последовательность функций 9п(хп)), называемую оценкой, которая является хорошим приближением для 9. При этом хотелось бы иметь возможность улучшать точность аппроксимации при возрастании п к бесконечности. Однако в случаях, когда мы вынуждены ограничиться выборками «малого» или «умеренного» объема, асимптотические методы следует заменять более подходящими. Например, используя методы проверки гипотез, мы оцениваем справедливость суждения о том, что 9 принимает конкретное значение 9° (или близкое к нему), где 9° выбрано из множества 0 на основании, скажем, некоторой дополнительной информации. Так задается простая нулевая гипотеза Но: 9 = 9°. В простейшем случае мы сравниваем ее с простой альтернативой Н[ : 0 = 9', где 91 —другое значение, выбранное из 0. Весьма удобным оказывается то, что лемма Неймана—Пирсона применима в случае ц.м.д.в. и мы можем рассматривать отношение правдоподобия /х(х, 91) /х(х.е°)' Здесь /х(х, 9) обозначает вероятностный вес (или правдоподобие), приписываемый выборке х. Будем рассматривать два вида функций правдоподобия: /х(х, 9) = L\(x, 9) (полное правдоподобие) и /х(х, 9) = /\(х, 9) (приведенное правдоподобие). Более точно, Lx(x, 9) = Ре(*0 = х0, ..., Хп = хп) = \*УХ0Х1 . ..pl_lXa, (3.1.2) что соответствует цепи с начальным распределением Xе, и /х(х, B) = P»(Xl=x Xn=xn\X0 = x0) = pX0X<...pXn_lXii, (3.1.3) что соответствует цепи, стартующей из состояния Xq. Здесь X (— Х(п*) обозначает случайную выборку для цепи (Хт), наблюдаемой в моменты
§3.1. Введение времени от 0 до п: X4,J Таким образом, функция правдоподобия (3.1.2) соответствует распределению вероятностей Р9 ц.м.д.в. с вектором начальных вероятностей X9, тогда как функция (3.1.3) задает условную вероятность Р9(Л^ — Х\, ...,Хп = = хп\Хо — Хо). Как и ранее, мы будем часто предполагать, что в случае функции правдоподобия (3.1.2), цепь находится в состоянии равновесия, т.е. Xе совпадает с инвариантным распределением тс9, для которого тс9 = = 7Г9/>9. Запишем отношение правдоподобия в виде *-х(х, 91) /х(х, 91) Lx(x,9°) ИЛИ /х(х,е°)' Лемма Неймана—Пирсона утверждает, что для любого k > 0 критерий с критической областью СА = {х:/х(х,в,)>А/х(х,в0)} является наиболее мощным среди всех критериев с нулевой гипотезой Но: 9 = 9° и альтернативой Н\: 9 = 9' и имеет уровень a* = £p6V хес* Таким образом, для любого критерия С*, имеющего уровень а*=^Р90(хКа*, хес* его мощность р* не превосходит р&, где Р*=^Р9'(х), р* = ]ГР9,(х). хес* хес* Отметим нечувствительность леммы Неймана—Пирсона к природе параметра (параметров) 9. Например, 9 может отождествляться с матрицей переходных вероятностей Р = (pij); см. соотношение (3.1.7). В этой ситуации проверяют нулевую гипотезу Но: цепь имеет заданную матрицу переходных вероятностей Р° против альтернативы Н\: цепь имеет другую матрицу перехода Я1. В более общей ситуации, при простой нулевой гипотезе: 9 = 9°, но сложной альтернативной гипотезе (например, 9 £ во С в, где 9° е во), мы
Глава 3. Статистика цепей Маркова с дискретным временем можем надеяться, что окажется полезным критерий обобщенного отношения правдоподобия, который принадлежит категории критериев согласия. В этом случае рассматривают отношение тах[/х(х,0):0бео] /х(х, 9°) и отвергают нулевую гипотезу, когда это отношение становится большим, или, что эквивалентно, переходя к логарифмам, рассматривают разность глах1п[/х(х, 0):0еео]-1п/х(х, 9°). Чтобы прийти к верному заключению, нам хотелось бы знать распределение этой статистики; в томе 1 содержится утверждение о том, что в случае выборок с н.о.р. наблюдениями это распределение асимптотически является ^-распределением (теорема Уилкса). Однако, рассматривая ц.м.д.в., необходимо провести дополнительное исследование этого вопроса. Важным является случай, когда 0 — это полная пара (X, Р) (вектор начального распределения и матрица перехода). По сути этот случай попадает в категорию непараметрического оценивания. Например, если цепь может находиться в двух состояниях А и В, то X = (Хд, Хв) и Р = _ /Раа Рав\ где ^ и Хв = 1 - Хд лежат в отрезке [0, 1], так же как \РвА РВВ) и Раа, Рав = 1 - Раа и Рва, Рвв = 1 - Рва- Мы можем рассуждать так: 1) вектор X = (Х/ь Хв) принимает значения в сегменте Е на прямой в неотрицательном квадранте плоскости М2, 2) матрица перехода Р принимает значения в декартовом произведении двух сегментов Ед и Ев из неотрицательного ортанта в М4, т.е. значение параметра (X, Р) содержится в трехмерном кубе в М6, и например, Хд, Раа, Рва £ [О, 1] являются независимыми координатами 9. См. рис. 3.1. В общем случае 0 = (X, Р) является многомерным параметром. Предположим для определенности, что пространство состояний / — это множество {1, ..., s}, тогда пары (X, Р) лежат в подмножестве 1Z неотрицательного ортанта евклидова пространства Жм, размерности M = s + s2 (s — это число компонент Ху и s2— число элементов рц). Более точно, 1Z(= 1ZS) образует (замкнутое) множество размерности s— l + s(s- l) = s2 - l, поскольку мы s s должны принять во внимание линейные ограничения Yl ^k = ^Pi* = ': k=\ k=\ K = KS = j(X, P):X = (X,), Р=(ри), S S v £X* = l, Xj > 0, Y,Pik = l. Рц ^ 0 Vi, / = l, ..., Л. (3.1.5) k=i k=\ >
hPAB APSS Рва + Рвв = 1 Paa Рва Pab У Ал Л- Рис. 3.1 Рва С геометрической точки зрения 7с представляет собой декартово произведение s + 1 симплексов, каждый симплекс имеет размерность s — 1. Симплекс размерности s — это множество точек у G W, удовлетворяющих неравенствам у\ ^ 0, ..., ys ^ 0, и у\ + ... + ys < а для некоторого а > 0. Внутреннюю область множества 7с обозначают 7c'nt (= 7c!;nt), и описывается она строгими неравенствами: ftin,(= Tcf) = |(Х, Я): X = (X,-), Р = (Pii), S S -Ч £Х* = 1,ХУ > 0, J] Л* = 1. Ру > 0 Vi, / = 1, ..., Л. (3.1.6) Если отбросить начальное распределение X, то размерность множества уменьшится до s2 - s; в этом случае будем использовать обозначения Т7 = = VS иГ1 =Knl: Р( = Vs) = {р= (рц) : £Л, = 1, рц > 0 Vi, у = 1, ..., Л (3.1.7) pint(=pint) = |P = (p..): ^Р//=1,р,7>0У/,/=1,...,Л. (3.1 .8)
Глава 3. Статистика цепей Маркова с дискретным временем Таким образом, V является декартовым произведением s симплексов размерности s — 1 каждый. Тогда введенное выше множество TZ представляет собой двойное декартово произведение П = Л х V, где Л (= As) представляет собой симплекс размерности s - 1: Л, = |х = (X,): Ху> 0, у = 1 s, £Х, = l]. На обоих множествах TZ и V можно ввести расстояние, порождаемое 2 1 2 евклидовой метрикой в!'"1 и Rs ~s соответственно: dist((X, Я), (V, Я')) = ([dist(X, X')]2 + [dist(P, Я')]2)1/2, (3.1.8а) где dist(X, X') = 5>-*;>я 1/2 dist(P, P1) = 1/2 „ x = (Xy), x' = (x;), и я = (Pii), p' = Щ). Замечание 3.1.1. Заметим, что если (X, Р) € TZmi (или PeVml), то матрица Р=(рц) неприводима и апериодична и, следовательно, имеет единственное инвариантное распределение к — (тсу), для которого выполняется равенство к = кР. Кроме того, в этом случае матрица Я" = (рц ) сходится /щ ... лЛ к матрице при n-юо. Более того, Wi ... nsl (3.1.9) \РР-щ\^(1-р)п-\ где р = min[p,y: i, j = 1, ..., s] и 0 < р < 1. См. уравнение (1.9.14). Этот факт можно представить так: Vmi С Pia, где Pia = {PeV: матрица Я неприводима и апериодична}. Эквивалентным образом множество V\a можно определить следующим образом: V\A = {PeV: mir\[p\f: /,/'= 1,.. .,s] >0 для некоторого т ^ 1}. (3.1.10) Замечание 3.1.2. В зависимости от конкретной задачи может возникнуть необходимость рассматривать другие подмножества множеств TZuV, в особенности в §3.7 и 3.8. Например, может быть априорно известно, что рассматриваемая ц.м.д.в. не может сохранять свое текущее состояние,
§3.1. Введение т.е. всегда совершает скачки из него. Иными словами, матрица перехода Р имеет нулевую главную диагональ. В этом случае ограничим наше рассмотрение матрицами Р е P0ff-diag> где P0ff-diag С V образует замкнутое множество размерности s2 — 2s: ^-diag = {р eV:Pii = о v; = i,...,s}. (3.1.11) В случае, когда s = 2 (ц.м.д.в. с двумя состояниями), видим, что Pint=PlA. Видим, что множество Poff-diag, заданное формулой (3.1.11), сводится к одной точке. Более того, в этом случае все множество V сводится к квадрату, как показывает пример 3.1.3. Еще один тип стохастических матриц, на которые мы будем ссылаться в дальнейшем, — это эрмитовы, или симметричные, матрицы перехода Р = = (рц), у которых рц = pji. При этом будем использовать обозначение г symm С г . Psymm = {Р= Ы € V: РЦ = Рц, /, / = 1, . . . , s}. (3.1.12) Для матрицы PGPsymm существует очевидное инвариантное распределение к с компонентами л,- = 1/s, / = 1, ..., s. Пример 3.1.3. Пусть /= {1, 2} и Р — это (2 х 2)-матрица перехода: P=(l~p p ) \ q l-q)' где 0 ^ р, q ^ 1. Покажите, что матрица Р неприводима и апериодична тогда и только тогда, когда 0 < pq < 1; иными словами, множество неприводимых апериодичных матриц задается условиями 0 < р, q < 1. Опишите сообщающиеся классы матрицы Р в случае, когда pq = 0 или pq—l. Когда матрица Р является периодичной? Решение. По определению Р неприводима при 0 < р, q < 1, так как оба состояния сообщаются и, следовательно, образуют единственный (замкнутый) сообщающийся класс. Апериодичность возникает, когда все вероятности перехода строго положительны. С другой стороны, предположим, что pq = 0, т. е. либо р = 0, либо q = — О, либо оба эти значения нулевые. Если р — q — 0, тоР = 1и каждое состояние образует замкнутый сообщающийся класс. Если р — 0, a q > О, то состояние 1 образует замкнутый сообщающийся класс, а 2 — открытый сообщающийся класс. Если q = 0 и р > 0, то имеем противоположную ситуацию. Если p — q = 1, то цепь неприводима, но периодична, с периодом 2. Таким образом, матрица Р € Via тогда и только тогда, когда 0 < pq < 1. □
Плава 3. Статистика цепей Маркова с дискретным временем Удобно ввести меру Лебега на множествах И и V, заданных формулами (3.1.5) и (3.1.7), что позволит нам интегрировать и рассматривать функции плотностей вероятностей на 1Z и V. В сущности, мера Лебега будет определена на внутренних областях 1Zml и P,nt, задаваемых формулами (3.1.6), (3.1.8). Интеграл относительно этой меры мы обозначим J d\ x dP (или J" dP, когда X не принимается во внимание); он будет равен естественному объему (или площади) на 1Z и V. Более точно, мы должны выбрать независимые координаты на 1Z и V. Например, можно записать d\x dP= JJ dXjX Yl П dpij или dP= JJ JJ dpih (3.1.13) т. е. «последние» компоненты Xs и pls не включаются, поскольку они линейно зависят от остальных. Конечно, это чисто субъективный выбор. Вполне аналогично мера Лебега может быть задана на множестве P0ff-diag (см. соотношение (3.1.11)) и других подмножествах множеств TZ uV. Прежде чем продолжить наше рассмотрение, уместно прокомментировать здесь содержание настоящей главы. По своей сути она отличается от глав 1 и 2. Наша изначальная идея состояла в том, чтобы сконцентрировать изложение главным образом на специфических статистических методах для ц.м.д.в. По нашему мнению, на статистику ц.м.д.в. в последние годы значительное воздействие оказала теория так называемых скрытых марковских моделей. Эти модели оказались чрезвычайно успешными во многих приложениях, например, в компьютерном распознавании речи и генетическом анализе. Однако, поскольку некоторые темы и методы, рассматриваемые в главе, выходят далеко за рамки теории цепей Маркова, их роль в данной книге состоит в подготовке необходимой почвы для последующих глав. Кроме того, формально говоря, материал этой главы до сих пор не был предметом обучения в Кембридже. Этот материал преподавался нами частично в иных аудиториях или же преподносился на лекциях или практических занятиях как дополнение к основному материалу. Как следствие этого, большинство задач к этой главе не были представлены в «Математических треножниках». Тем не менее, мы пожелали следовать тому же плану изложения, что и в других главах, сопровождая изложение задачами и примерами такого уровня, который, на наш взгляд, соответствует стандартам Кембриджа. Иногда в процессе изучения статистических свойств ц.м.д.в. мы будем непосредственно основываться на фактах и/или методах основного курса статистики, который сосредоточен на н.о.р. выборках; ср. с гл. 3 и 4 тома 1. Однако чаще перед нами будет стоять задача разработ-
§ 3.2. Функции правдоподобия, I. Оценки максимального правдоподобия ки более общих методов. И это обусловливает принципиальную линию изложения в данной главе. Более того, большинство методов, появляющихся при изучении статистических задач для ц.м.д.в., применимы в более широком контексте статистики случайных процессов и полей. Этот предмет охватывает широкий круг приложений, включая экономику, финансы, телекоммуникации и распознавание образов и другие области. Изучение этих методов в относительно простом случае ц.м.д.в. подготовит заинтересованного читателя к дальнейшему продвижению и работе с более специализированными книгами и статьями. С другой стороны, на данном этапе мы в состоянии строго доказать некоторые важные факты, которые использовались без доказательства в томе 1: объем работы по написанию этих доказательств для случая н.о.р.с.в. практически такой же, как и для случая ц.м.д.в. (или даже более общего случая). Надеемся, что это принесет дополнительную пользу заинтересованному читателю. § 3.2. Функции правдоподобия, I. Оценки максимального правдоподобия Age of Inference2 (Из серии «Фильмы, которые ие вышли на большой экран».) Структура функций правдоподобия (3.1.2) и (3.1.3) проясняется, если ввести статистику я,/(х), для любых i, /' е / = {1, ..., s}, равную числу переходов i —> / в выборке х: л Я;Дх) = ^2 ЦХт-\ = I, Хт =']), m=1 число таких пар (xm-i, хт), что хт-\ =/, хт =/'. (3.2.1) Тогда функции правдоподобия L9(x) и /е(х) из формул (3.1.2) и (3.1.3) записываются в виде Цх,в) = Х«, П (р})"» (полная), (3.2.2) Дх, 9) = Д (pi)"* (приведенная). 1 ^I,/=%S В дальнейшем аргумент х у Щ/(\) и нижний индекс X у Lx(x, 0) и 1\(\, 0) будем опускать. Заметим, что Y1 пч = п- 2Ср. с названием фильма «Age of Innocence» (возраст невинности).
Глава 3. Статистика цепей Маркова с дискретным временем В этой связи выглядит естественным следующее определение. Назовем функцию 7"(х) (в общем случае векторнозначную) достаточной статистикой (для 0), если для любой выборки х условная вероятность P9(X = x|7\X) = 0 не зависит от 0 £ 6, где t обозначает значение статистики Т в х: t — T(x). Формально запишем Р9'(X = х| Т(\) = t) = Р9г(Х = х| Г(Х) = /) V8i, to € 9. (3.2.3) Тогда имеет место критерий факторизации: Т является достаточной статистикой для 0 тогда и только тогда, когда функция правдоподобия /х(х, 0) может быть записана в виде произведения g(T(x), 0)/z(x) для некоторых функций gun, где п(х) не зависит от 0. Доказательство повторяет аргументы, приведенные для (дискретных) н.о.р. выборок (см. том 1, с. 261). Пример 3.2.1. Достаточная статистика (в данном случае векторная) для функций правдоподобия (3.1.2) задается парой (*о, {я<у}) (и {л,у} в случае функции (3.1.3)), где {щ} — набор из чисел переходов i —*} в выборке х. □ Другое свойство, которое следует упомянуть, — это несмещенность. Оценка 0(х) параметра 0 называется несмещенной, если для любого 0 G 9 математическое ожидание Е90(Х) относительно вероятностного распределения Р9 совпадает с 0. (Параметр 0 может быть скалярным или векторным.) Пример 3.2.2. Рассмотрим функцию правдоподобия (3.2.2), где X9 = = тс9 — инвариантное распределение для матрицы Р9. Будем рассматривать случай, когда вся матрица Р является параметром: в = Р, и будем опускать верхние индексы 0 в обозначениях Р9 и Е9. Тогда пц/п является несмещенной оценкой вероятности P(^_i = /, Хь —j) — 7i,-py. В самом деле, = \j^E[\{Xk-\=i,Xk=j)\ = )iYjP{Xk^=i,Xk=j) = npij. k=i k=\ (3.2.4) Мы знаем из курса статистики для н.о.р. выборок, что мощным средством являются оценки максимального правдоподобия (о.м.п.). Это справедливо и для выборок, полученных для ц.м.д.в. Однако следует быть предельно внимательным: даже для определения о.м.п. может потребоваться тонкий анализ.
§ 3.2. Функции правдоподобия, I. Оценки максимального правдоподобия Определение о.м.п. для марковских выборок аналогично определению о.м.п. для н.о.р. выборок: о.м.п. 0*(х) параметра б задается так: argmaxL(x, 0) (полное правдоподобие), 8*(х) = .) 9 , п (3.2.5) argmax/(x, 8) (приведенное правдоподобие), е Как и в случае н.о.р. выборок, чаще оказывается проще максимизировать логарифмы функций правдоподобия £(х, 0) = lnL(x, б) и /(х, 0) = In l(\, 0). Обычно будем полагать, что параметр 0 — это вся матрица перехода Р, а вектор начальных вероятностей X совпадает с инвариантным распределением п. Таким образом, полная функция правдоподобия имеет вид л Цх;Р) = пХоДрХ4_Л, (3.2.6 а) k=\ и соответствующий логарифм правдоподобия л £(х, P) = lTnzXo + Y,toPx>-lxt, (3.2.66) где it = (it,-, / G /) представляет собой инвариантное распределение для матрицы Р. Приведенную функцию правдоподобия определяют следующим образом: п 1(х,Р) = ЦрХк_1Хк, (3.2.7) k=\ а ее логарифм я /(x,P) = £ln^_,x„ (3.2.8) k=\ Например, в примере 3.1.3 матрица перехода имеет вид P=C~/i"n)' т.е.р(1 = (|"Р' \ = °' где 0 ^ р, <К 1, (3.2.9) V Я \-ц) \l-q, i = l, и инвариантное распределение л = (ito, iti) таково: *° = ^Т? ъ = 7Гя- (3'2Л0> Компоненты вектора х равны xs = 0 или 1, 0 ^ / < п. Следовательно, соотношение (3.2.6 а) принимает вид L= /_!_^„+я„1(1 _pyo0q\-xo+ni0(l _<7)яп1 (3.2.11)
Глава 3. Статистика цепей Маркова с дискретным временем а соотношение (3.2.7) выглядит следующим образом: l = pn<»(l-p)n<*>qn"(l -q)n". (3.2.12) Для краткости часто опускают аргумент х и/или параметр Р в L(x, P) и /(х, Р). П Пример 3.2.3. а) Пусть (Хт) — ц.м.д.в. с двумя состояниями, находящаяся в равновесии и имеющая стохастическую матрицу вероятностей перехода Р (см. соотношение (3.2.9)), где 0 < q, р < 1. Вычислите ковари- ацию Cov(Xj, Xj+\) = E(XjXj+\) — E(Xj) E(Xj+\) и коэффициент корреляции р = CoirW. X,+i) = ^f'^l ■ (3-2.13) как функции от q и р. В некоторых приложениях могут представлять интерес параметры p + q и а = \р — q\\ перепишите матрицу Р в терминах параметров р + q и а. б) Докажите, что Cov(Xj, Xj+k) = р* V6 ^ 1. Решение, а) Легко проверить, что инвариантное распределение тс имеет вид Я Р Я0=-^—. 7C| = —*f—. p + q p+q Тогда Covtf,-, X]+l) = E(X/X,+i) - E(X,) E(Xi+l) = = P{X, = X,+i = 1) - P(Xj = 1) P{XI+i = 1) = = ^n-,? = ^(l-,)-^ = ^(.-,-,). Далее, VarX, = E(X2) - (E{X,))2 = E(Xj) - {E(X,))2 = = *,-*? = P p2 ~ Pq p + q {p + q? {р + дГ а это выражение равно VarAy+i, поскольку цепь находится в равновесии. Следовательно, y/VarXjy/VarXj+i = pq/(p + qf = тс, - тс? и p = Corr(X/? //+l) = 1 - p - q.
§3.2. Функции правдоподобия, I. Оценки максимального правдоподобия Тогда 1) если р> q, то о = р — q н 1 +р — о 1 — р + а\ р= I 2 2 1 „ ,_/'1-Р-о 1-р + <^ о * U(i-p)' 2(1-р) ;■ 2(1-р) ' 2(1-р) 2) если р <q, то о = q - р н матрица Р получается из предыдущей перестановкой строк, а к — перестановкой компонент. б) Прямые вычисления оказываются слишком громоздкими, и зачастую трудно избежать ошибок. Чтобы их обойти, заметим, что характеристический многочлен det(I — xP) матрицы Я, заданной формулой (3.2.9), имеет вид (1 -р-х){\ -q-x)-pq, а его корни я=\ и я= 1 — р — q = p являются собственными значениями матрицы Р. Кроме того, мы знаем, что к = (тсп, К\) является собственной вектор-строкой матрицы Р, соответствующей собственному значению 1. Иными словами, выражение Сотт{Х,,Х1+1) = ^^- = 1-р-д, включающее в себя: 1) нижний правый элемент р\ \ матрицы Я и 2) правую компоненту К\ собственной вектор-строки к с собственным значением 1, задает второе собственное значение матрицы Я. Это верно для любой стохастической (2 х 2)-матрицы Я. Теперь очевидно, что СоЩХу, Xj+k) - WarXj - ^_к2 • где /7,| нижний правый элемент стохастической матрицы Я*, а вектор к снова является собственным с собственным значением 1. Таким образом, Согг(^-, Xl+k) должна совпадать со вторым собственным значением матрицы Рк, которое есть не что иное, как р*. □ Рассмотрим сначала вопрос о корректности определения о.м.п. как решения уравнения максимального правдоподобия. Для определенности предположим, что параметр 0 — это матрица перехода Я. Этот параметр представлен точкой множества V, заданного формулой (3.1.7). Напомним, что мы предполагаем, что матрица Я неприводима и апериодична: Яе"Р|д. Мы уже видели, что о.м.п. р*- вероятности перехода рц для приведенной функции правдоподобия /(х, Я) легко вычисляется: * _ ЯРО * _ "01 * _ Я]0 » _ «II Po0~^oT^:• /?01 _ «оо + «о.' Pl0~n]0 + nu' Pll-nl0 + nil-
Глава 3. Статистика цепей Маркова с дискретным временем Однако анализ о.м.п. для полной функции правдоподобия L(x, Р) оказывается намного сложнее, и на данный момент он был формально выполнен только для ц.м.д.в. с двумя состояниями. Соответствующие вычисления представлены в примере 3.2.4. Пример 3.2.4. Рассмотрим ц.м.д.в. с двумя состояниями в равновесии с такой матрицей перехода Р, как в (3.2.9), где q + р > 0. Это приводит к единственному инвариантному распределению, которое определяется формулой (3.2.10). Предположим, что п > 1, т.е. рассмотрим хотя бы три наблюдения. В терминах числа появившихся переходов это означает, что ЛОО + Я01 + ЯЮ + П\ 1 > 1. Чтобы найти о.м.п. параметра 0 = Р для функции правдоподобия L, заданной в формуле (3.2.11), нам необходимо найти точку максимума Р правой части этой формулы относительно р н q, 0 < /?, q^l, p + q>0. Начнем с вырожденного случая, когда поо(хо + яоОО - *о + яю)иц = 0, т. е. когда хотя бы один переход не появляется в выборке х. Вначале предположим, что хо + по\ = 0. Ясно, что тогда Xj = 0 V/ = = 0, ..., п, а следовательно, поо = п, I — хо + п\о = U п\\ =0 и Очевидно, при р = 0 достигается максимум L9 = 1 для любого 0 < q < 1. Иными словами, о.м.п. оказывается неединственной и имеет вид я=СЛ)- 0<ч<1- (3-2Л4) что определяет 0 как поглощающее состояние. Симметричный случай 1 — Xq + п\о = 0 рассматривается аналогично. Если (xq + по\)([ - хо + п\о) > 0, но поо = п\\ = 0, то (единственной) о.м.п. является p = q= 1 и (детерминированный скачок в другое состояние). Далее предположим, что (хо + По\)(1 -хо + п\о)>0, но «оо = 0 и п\\ ^ 1. Тогда Легко видеть, что для достижения максимума L9 следует взять наибольшее возможное значение р, т. е. р = 1. Далее, максимум относительно q не достигается для граничных значений q = 0 или 1, где L9 обращается в нуль, а достигается во внутренней точке q&(0,1). Чтобы найти эту точку, возьмем
§3.2. Функции правдоподобия, I. Оценки максимального правдоподобия логарифм In L9, подставим р — 1 и продифференцируем по q: dqL р=\ oq 1 + 1 -^о + «ю ^м_ (32Л6) р=\ i+q q l-q' Равенство д In L?/dq = 0 приводит к квадратному уравнению для q: р=\ -(«ю + «п -x0)q2 -(1 +tiu)q+ l-xQ + nl0 = 0 с корнями ± _ —(«и +\)±^(пц + 1)2+4(пю + Пц -х0)(1 -х0 + п,о) „ 0 . „ -Цл10 + «11 — Хо) из которых мы выбираем q+, со знаком плюс перед квадратным корнем. Таким образом, в рассматриваемом случае о.м.п. единственна: Р=(Д t_V). (3.2.18) Симметричный случай, когда П\\ =0 и «оо^ 1. рассматривается аналогично. Рассмотрим теперь общий случай, когда «oo(^o + «oi)(l —х~о + П\о)пи > > 0. Функция правдоподобия (р, q) i-> правая часть формулы (3.2.11) непрерывна на [0, 1] х [0, 1] \{(0; 0)} (на замкнутом единичном квадрате, из которого исключается начало координат), и, чтобы непрерывно продолжить ее в начало координат, полагают, что там она принимает значение 0. На границе д([0, 1] х [0, 1]) = {0 < р, q < 1: р(1 - p)q(l - q) = 0} эта функция равна 0, следовательно, максимум ее достигается в открытом квадрате (0, 1) х (0, 1). Более того, если мы покажем, что стационарные уравнения имеют единственное решение (в (0, 1) х (0, 1)), то мы получим (единственный) глобальный максимум, т. е. (единственным образом определяемую) о.м.п. Итак, прологарифмируем и продифференцируем. Стационарные уравнения имеют вид хр + «pi _ про _ 1 _ 1 — -Уо + П)р _ п\] ,„2 Iп\ р 1 -р ~ p + q " q l-q'
Глава 3. Статистика цепей Маркова с дискретным временем или, что эквивалентно, (х0 + noi-l+ поо)р2 - - [х0 + по\ - 1 - (х0 + «01 + n0o)q]p - {х0 + n\0)q = 0, (3.2.20 а) {-хо + п10 + пц) q2 - [-хо + п10- (1 - х0 + п\0 + nu)p]q- -(1-хо + пю)р = 0. (3.2.206) Записав эти уравнения в стандартных обозначениях Ар2 + Bpq + Cq2 + Dp + Eq + F=0, замечаем, что В2 > 4ЛС (4АС = 0 в обоих уравнениях); этот факт указывает на то, что каждое из уравнений задает гиперболу в (р, ^-плоскости. Достаточно установить, что эти гиперболы не могут иметь более одной точки пересечения в открытом квадрате (0, 1) х (0, 1) (они имеют хотя бы одну точку пересечения, поскольку функция С достигает максимума в (0, 1) х (0, 1)). Первое полезное наблюдение состоит в том, что только одна ветвь каждой из гипербол пересекает (0, 1) х (0, 1). В самом деле, если предположить, что Xq + «oi + «оо > 1> то получаем решение уравнения (3.2.20 а) относительно р: Р± - 2(Х0 + пт'_ ! + т) [*о + "о. - 1 - (хо + по, + «оо)? ± ±((х0 + по1 - 1 -(xo + «oi +«oo)<7)2 + 4(*o + «oi ~ ! +noo)(xo + nlo)q)l/2] = = -b±V£-Aaet (3221) где а = х0 + «oi - 1 + «оо, b = -{xq + «oi - 1 - (хо + «oi + noo)q), (3.2.22) с = -(х0 + «ю)?. Чтобы проверить это наблюдение, предположим, что 0 < q < 1. Тогда коэффициенты а, Ь, с в уравнениях (3.2.21), (3.2.22) удовлетворяют следующим неравенствам: а) дискриминант Ь2 — Аас является неотрицательным; это выполняется в силу того, что «ю + «oi ^ 1; б) решение р+ = {-Ь + \1№ - 4ас)/(2а) из уравнения (3.2.21) лежит в интервале (0, 1), или, что эквивалентно, 0 < — b + y/b2 — Aac < 2а; левое неравенство выполняется в силу того, что Аас < 0, а правое неравенство выполняется, поскольку q выбрано положительным;
§3.2. Функции правдоподобия, I. Оценки максимального правдоподобия в) решение р~ = (—Ь - л/b2 - Аас)/{2а) из (3.2.21) будет не больше О, что легко показать непосредственно. Это приводит к единственному решению относительно р уравнения (3.2.20 а) при любом q G (0, 1), когда Хо + noi + «оо > 1. и означает, что у первой гиперболы лишь одна ветвь пересекает открытый квадрат (0, 1) х (0, 1). Аналогичные аргументы применимы и ко второй гиперболе в предположении, что — хо + П\о + «ц > 0. Таким образом, положим ё^ = 2а ' гДе #(?) £ (0, 1) при0<?< 1, и определим h(p) симметричным образом, посредством уравнения (3.2.206). Нас интересует решение (р*, q*), 0 < р*, q* < 1, уравнений P*=g(q*l q* = h{p*), или p*=goh{p*), q*=hog(q*). (3.2.23) Можно определить два открытых подинтервала У, К С (0, 1), где могут находиться значения р* и q*, в терминах коэффициентов из формул (3.2.20)-(3.2.22): ■-( Хо + П01 - 1 Хо + «01 к Хо + П0\ - I + «00 ' Хо + П0[ + «00 / _ / -Хр + «10 I -Хр + Пю \ \-Х0 + Пю+Пц' 1 - Хо +П]0 + Пц )' Таким образом, мы утверждаем, что 1) если р G (0, 1), то h(p) G К, и 2) если ^ G (0, 1), то g(q) £/, откуда следует, что решения уравнений (3.2.23) должны быть такими, что (p\q*)EJxK. (3.2.24) Чтобы проверить 1) выберем /? е (0, 1) и положим q = h(p) и г = = Р~/(р~ + Ч)> где 0 < ^ < 1 и 0 < г < 1. Заметим, что p~,qur удовлетворяют правой части равенства (3.2.19), а именно I - г 1 -хо + «ю «м q q l -<7' откуда следует, что —хо + «ю + г „ О = G Д. -*0 +«ю + «11 + Г Аналогичные аргументы приводят к утверждению 2.
Глава 3. Статистика цепей Маркова с дискретным временем Далее мы должны проверить, что (за исключением случая, когда «oi = = 1 - Хо или пю = xq) справедливы также следующие утверждения: 3) если р Е (0, 1), то h'{p) Е (0, 1), и 4) если q € (О, 1), то g'{q) Е (0, 1). Чтобы проверить 4, продифференцируем по q равенство (3.2.20 а): /, ч хр + tipi - (хр + ям + noo)g(q) ® W 2g(<7)(j:0 + ло1 + «оо - О + (-^о + «oi + «оо)<7 - С*о + «oi - 1)' Затем выберем qe (0, 1) и предположим, что g'(^) £ (0, 1), т. е. 1 /^(q) < 1, или, что эквивалентно, 2g(<i)(xo + "oi + «оо - 1) + (л:0 + «oi + «оо)<7 — (х0 + «oi — 1) ^ < х0 + «01 - (-«о + «01 + noo)g(q). Благодаря тому факту, что g(q) Е У, получаем 2(х0 + «01 - 1)С*о + «01 + «оо - 1) + (*о + «01 + "оо)<7 - (х0 + «01 - 1) < < Х0 + «01 - Хо + «01 + «00 - 1 (Хр + «01 + «Оо)(*о + «01 - 1) Хо + По\ + Поо — I или, что эквивалентно, «00 (х0 + «01 + "оо)<7 + (*о + "oi - 1) < Хо + «01 + «00 - Г Итак, за исключением случая, когда Xq + «oi = 1, левая часть остается больше 1, что приводит к противоречию. Таким образом, утверждение 4 выполняется, когда «oi > 1 — xq. Аналогично, утверждение 3 выполняется, когда 1 - х0 + «ю > 1, т. е. «ю > *о- Теперь можно завершить анализ равенств (3.2.19) и (3.2.20). Для начала пусть хо + «oi > 1 и 1 - хо + «ю > 1- Предположим, что найдены два различных решения уравнений (3.2.23) (/?*, q\) и (/?£, q%), и оба решения лежат в (0, 1) х (0, 1), а на самом деле в J х К (см. соотношение (3.2.24)). Предположим, например, что р* < р%. Тогда применив теорему Ролля, получим, что существует такое р Е У, что g'(h(p))h'(p) = l. Но это противоречит тому факту, что h'(p)<\ и g7(«(/?)) < 1 ■ Случай q* < q\ рассматривается аналогично. Таким образом, в случае, когда Хо + «oi > 1 и 1 -л:о + «ю>1, уравнения (3.2.19) и (3.2.20) имеют единственное решение в (0, 1) х (0, 1).
§3.3. Состоятельность оценок. Различные виды сходимости Остается рассмотреть граничный случай, когда *o + «ni или 1 — Хо + П\о равно 1. При хо + /loi = 1 величина 1 — Хо + Яю равна 1 или 2 (возможность 1 — Xq + пю = 0 была рассмотрена ранее). Вышеприведенные аргументы следует модифицировать, они станут несколько длиннее и технически сложнее, хотя и основаны на той же идее. Мы опустим этот случай. □ К сожалению, не существует удобной формулы для о.м.п. /*=П-р* р* \ \ q* l-q'J в общем случае. Многие авторы получили результаты численными методами для разных значений выборочного вектора х. Например, при п = = 15 и хт = (0111001010000101) о.м.п. для полного правдоподобия равна р*« 0.5329, q* « 0.6893, в то время как о.м.п. приведенного правдоподобия такова: р* = 5/9 и 0.5556, q* = 2/3 и 0.6667. Мы хотели бы подчеркнуть, что, хотя пример ц.м.д.в. с двумя состояниями является базовым, вышеприведенный анализ о.м.п. появился в литературе лишь недавно3. Более того, до этой публикации, в литературе появилось несколько противоречивых утверждений о природе о.м.п. для ц.м.д.в. с двумя состояниями. Процитируем вышеуказанную работу: «Наверное, может привести в уныние тот факт, что такой простейший пример... требует столь внимательного изучения всех частных случаев для доказательства существования и единственности [решения] уравнений правдоподобия. Более сложные цепи Маркова могут принести еще большие сюрпризы.» § 3.3. Состоятельность оценок. Различные виды сходимости Consistency is too weak a property to be of much interest in itself. Состоятельность — слишком слабое свойство, чтобы оно само по себе представляло большой интерес. Е.Г. Леман (р. 1917), американский статистик Этот параграф посвящен вопросу, который определенно носит более вероятностный, чем статистический характер и который будет появляться в последующих томах. Однако мы полагаем, что соответствующие понятия 3См. Bisgaard S., Travis L.E. Existence and uniqueness of the solution of the likelihood equations for binary Markov chains // Statistics & Probability Letters. 1991. V. 12. P.29-35.
Глава 3. Статистика цепей Маркова с дискретным временем следует ввести уже сейчас. Одно из хороших свойств о.м.п., уже упоминавшееся прежде, это состоятельность. Оценка 0п(хп) параметра 0 называется состоятельной, если она сходится к «истинному» значению параметра при неограниченном возрастании выборки: Пт0п(Хп) = е. (3.3.1) л—+оо Возникает тонкий вопрос, связанный с этим пределом. Выборка Хп = I является случайной, и ее распределение Ре зависит от 0 е в Хп/ (и определяется матрицей перехода Яе или парой (Xе, Я9)). Поэтому необходимо указать вид сходимости. В этом параграфе обсудим два вида сходимости: сходимость по вероятности и сходимость почти наверное, или с вероятностью 1. Эти виды сходимости популярны в теории вероятностей и теории меры, а также постоянно возникают в различных главах теории динамических систем, случайных процессов и полей, теоретической статистики и функционального анализа. Соответственно, оценку 0п(х„) параметра 0 называют а) состоятельной по вероятности для некоторого множества во С в, если при всех 0 € во в формуле (3.3.1) имеет место сходимость по вероятности, и б) состоятельной почти наверное, или с вероятностью 1, если имеет место сходимость почти наверное, или с вероятностью 1. В качестве множества во будем рассматривать все значения 0, при которых матрица перехода Р9 неприводима и апериодична. Приведем основное определение. Определение 3.3.1. Последовательность случайных величин Un сходится по вероятности при п->оок постоянной v, если lim P{\Ua-v\^e) = 0, т.е. lim P (\U„ - v\ < е) = 1 Ve > 0. (3.3.2 а) л—*оо п—*оо В более общем случае Un сходится по вероятности к случайной величине V, если для любого е > 0 lim P(\U„- V\^e) = 0, т.е. lim P (\U„ - V\ <e) = 1. (3.3.26) п—>оо п—»оо р р Сходимость по вероятности обозначают так: U„ —* v и U„ —> V. Мы видели, что слабый з.б.ч. соответствует сходимости по вероятности А=1
§3.3. Состоятельность оценок. Различные виды сходимости для суммы н.о.р.с.в. Х\, Х2, ■•• с конечным средним [i = EXk и конечной дисперсией VarX^ = о2. Это следует из неравенства Чебышёва: = Ш £ Vrt = ^. (3.3.3) Пример 3.3.2. Пусть (Хт) — ц.м.д.в. При соответствующих предположениях сформулируйте и докажите слабый з.б.ч. для ^2 Х^. Ваши предположения должны охватывать случай, когда (Хп) являются н.о.р.с.в., но не ограничиваться только им. Решение. Выглядит заманчивым провести аналогичные рассуждения и для случая, когда (Хт) является ц.м.д.в. Предположим, что цепь имеет конечное пространство состояний /, #/= s, матрицу перехода Р = {рц) и начальное распределение X = (X,). Что же нам взять в качестве ^1? Естественным кандидатом для постоянной у. является среднее значение Е(Хк) в равновесии: И = ^ч = £/'71/- (3.3.4) /е/ где к = (тс,-) — инвариантное распределение для рассматриваемой цепи. Если предположить, что ц.м.д.в. неприводима и апериодична, то инвариантное распределение единственно и цепь приближается к нему с возрастанием времени: Р(Хп =j\Xq = i) = p\f -*7С/ и Р(Хп = j) = (kP")j —► Тсу при п —юо для любых i, / е / и любого вектора начальных вероятностей X. Более того, сходимость происходит с геометрической (экспоненциальной) скоростью: />!?=*/ + <Мя). где |сМ/г)| < (1 РГ (3.3.5) см. соотношение (1.9.14) в теореме 1.9.3. Это, конечно, охватывает случай н.о.р.с.в. (когда матрица Р просто состоит из повторяющихся строк, совпадающих с тс), но не сводится только к этому случаю.
Глава 3. Статистика цепей Маркова с дискретным временем Как и ранее, в силу неравенства Чебышёва получаем \йк<П (3.3.6) и достаточно проверить, что математическое ожидание в правой части не превосходит а?п + 3, где постоянные а и (3 не зависят от п (в случае н.о.р.с.в. мы получаем равенство, и а —а). Запишем {<k<n £ Xk - щ = Е £ (X* - ц) и разложим п2 \<k<n £ (хк - ii) = е £ (** - & l<k<n l<k<n + + E (3.3.7) Первую сумму можно представить в виде Е,= £ E(^-(i)2. 1<*<я Если цепь находится в равновесии, то X = тс и Е(^ — [i)2 не зависит от k и равно дисперсии Х^. Тогда Е, = па2ец, где a2q = VarA-* = ^(/ - [i)2TCy. /6/ В общем случае эта величина также имеет порядок 0(п). В самом деле, Е(Хк - [if = £(/ - (i)2 P(Xk = i) = £(/ - (i)2(XP*)y = /e/ ye/ =5>' - tf2 Ex^'=B/ - ^ E x< to+<m*>i = ye/ /€/ ye/ /e/ = ^(/'-(i)2TCy^X, + ^(/-li)2^X^y(ft)^a2q+S(l-p)*-M2, /e/ <e/ ye/ /e/ где A{ =max[|/'-[i|: /6/].
§3.3. Состоятельность оценок. Различные виды сходимости Обозначим о^ = о^ , и Р = Л?*£(1-р) Тогда 4-1 _ A*S Ei ^а?я + 3. (3.3.8) Рассмотрим вторую сумму: £2 = Y1 Цкгфк2)Е [(Xkl - yi)(Xki - ц)] = Общий член представляется в виде Е[(Xk - р)(Хш - ц)] = £(i - (i)(/ - ц) P(X4 = i, **+/ = /) = =J3(i - № - [i)(\pk)iPf=£>• - ii)(/- - (i)(xp*),K-+<ш = /,/6/ i,/e/ = £(i - (i)(XP*), £(/ - uto + $>'" M' - иХ^Ф/ЛО- (6/ /e/ i,jei Заметим, что ^(/' - \i)kj = ^/лу - [i = 0 в силу выбора [i. Таким образом, /е/ ye/ | E[(XA - и)(^*+/ - ii)]| < Л?(1 - p)'-1, и |E2| ^ 2я J] | E[(*t - ц)(Х4+/ - ц)]| < n<4, (3.3.9) />i где a2 = 2A\s/p. Следовательно, что и требовалось показать. Числа <Х|, a2 и (3 были определены выше. Это р и устанавливает слабый з.б.ч. ^ ^*/л —► [i. D Определение 3.3.3. Случайные величины Un сходятся почти наверное, или с вероятностью 1, при л—> оо к постоянной v, если Р( lim U„ = v) = P( lim |£/„ - v\ = 0) = 1. (3.3.10а)
Глава 3. Статистика цепей Маркова с дискретным временем Иными словами, множество, где сходимость Un —> v не имеет место, имеет вероятность нуль. Как и ранее, это определение немедленно распространяется на общий случай сходимости к случайной величине. А именно, U„ сходится почти наверное к случайной величине V, если Р( lim Un = V) = P( lim \U„- V| = 0) = 1. (3.3.10 6) ПН. П.Н. Сходимость почти наверное (п.н.) обозначают так: Un —> v и Un —> V. Очевидный пример, когда нет сходимости всюду, а имеет место только сходимость почти наверное, это последовательность функций Un(x) = = (—х)", где х — точка единичного отрезка [0, 1], т.е. O^jc^ 1. Если п —> оо, то U„(x) —> 0 при 0 ^ х < 1, но не при х = 1. Таким образом, если мы рассмотрим равномерное распределение на единичном отрезке, то сходимость U„ —> 0 имеет место с вероятностью 1, но не имеет место сходимость всюду. Ясно, что равномерное распределение можно заменить любым другим вероятностным распределением на [0, 1] при условии, что оно имеет плотность /(*), 0 ^ х ^ 1. В сущности, если вероятностное распределение Р сосредоточено на конечном или счетном множестве исходов, в понятии сходимости п.н. нет необходимости. В этом случае мы с самого начала можем предположить, что все рассматриваемые исходы имеют строго положительные вероятности, и сходимость п.н. сводится к сходимости всюду. Сходимость п.н. начинает играть важную роль, когда множество исходов представляет собой континуум, хотя и рассматриваемые величины Un могут принимать конечное число значений (например, только 0 и 1). С этой точки зрения пример единичного отрезка с равномерным распределением оказывается особенно удобным. Это распределение соответствует знаменитой мере Лебега на [0, 1] — объекту пристального внимания в теории меры. Эта книга не предполагает знание курса теории меры, хотя, конечно же, такие знания, даже и не в полном объеме, определенно помогли бы читателю. Иными словами, мы избегаем явных ссылок на такие понятия, как измеримость и интегрируемость. Взамен мы объявляем, что все «абстрактные» события и случайные величины, которые мы рассматриваем, измеримы (относительно меры Лебега), а также измеримы и их дополнения и их (счетные) объединения и пересечения. Более того, мы не будем упоминать об этом в дальнейшем (так же как и не делали этого ранее). Приведем без доказательства полезную теорему Лузина: Измеримая функция (на [0, 1]) может быть превращена в непрерывную изменением ее значений на множестве точек, имеющем как угодно малую вероятность. В частности, измеримое подмножество
§3.3. Состоятельность оценок. Различные виды сходимости (отрезка [О, 1]) — это такое множество, индикаторная функция которого может быть превращена в непрерывную функцию посредством изменения ее значений на множестве точек сколь угодно малой вероятности. (Николай Николаевич Лузин был лидером московской школы вещественного анализа в 1910—1930 гг., где начинали свою карьеру многие выдающиеся математики, включая Колмогорова.) На наглядном уровне понятие сходимости п.н., возможно, трудно понять сразу. Это вызвано тем, что это понятие аппелирует к двум неявно определяемым объектам: последовательности св. (Un), которая не всегда явно задается, и событию нулевой вероятности, на котором сходимость Un —> v или Un —> V не выполняется. Здесь оказывается полезной следующая теорема Дмитрия Федоровича Егорова (еще одного патриарха московской математической школы в 1900—1920 гг.): Сходимость п.н. U„ —> V имеет место тогда и только тогда, когда для любых 8 > 0 существует такое событие Л§ с вероятностью не меньшей, чем 1 — 8, что Un — V сходится к 0 равномерно на А$: sup[\Un(x) — V(x): х£ А&\] —> 0 при п—>оо. Жизнь Д. Ф. Егорова закончилась закончилась трагически. В 1930 г. он был уволен с должности директора института математики Московского государственного университета. Вскоре после этого Егоров был арестован советскими властями и провел несколько месяцев в тюрьме в ужасных условиях. (Он часто проявлял свою оппозиционность официальной идеологии и был активным членом движения духовного меньшинства в русском православии, которое не ладило с властями в те времена свирепой антирелигиозной пропаганды.) Егоров, к счастью, получил относительно мягкий приговор: он был сослан в Казань, город на Волге в 797 км к востоку от Москвы. Казань была тогда (как и сейчас) столицей Татарской республики и славилась своим университетом, где в XIX столетии Лобачевский преподавал геометрию, а Ленин изучал право (и был исключен из университета после студенческих волнений). Однако Егоров продолжал свои протесты против властей и умер в 1931 г. результате голодовки, которая усугубила уже имеющиеся серьезные проблемы со здоровьем. Местным энтузиастам математики все же удалось похоронить Егорова на центральном кладбище, рядом с Лобачевским. Мы приведем краткое доказательство теоремы Егорова. Начнем с доказательства достаточности: предположим, что указанное выше свойство выполняется для любого 8 > 0, и возьмем последовательность 8„ = = 1/я2. Тогда дополнение Ас1/п2 к событию А[/п2 имеет вероятность Р(Л^,2) ^ 1/л2. Следовательно, объединение Вт = \J A\,2 имеет вероят- ность Р(Вт) ^ £) 1/л2 —>0 при т—юо. Кроме того, события Вт убывают по вероятности с возрастанием т: Вт+\ QBm. Следовательно, пересечение В = f]Bm должно иметь вероятность Р(В) = 0, так как Р(В) ^ Р(Вт) для т любого т. Это пересечение состоит из точек, принадлежащих бесконеч-
Глава 3. Статистика цепей Маркова с дискретным временем ному числу событий /4J,;, следовательно, дополнение Вс образуют точки, принадлежащие лишь конечному числу событий A f,2. Иными словами, Вс состоит из точек, принадлежащих А[/п2 при всех достаточно больших п. Таким образом, для любой точки х из Вс справедливо неравенство \Un(x) — V(x)\ ^ — для всех п, начиная с некоторого по(х). Следовательно, на Вс имеем lim U„ = V. п—юо Однако Вс имеет вероятность 1 — Р(В) = 1, поэтому сходимость Un —» V имеет место почти наверное. Доказательство необходимости более тонкое; оно отражает сущность сходимости п.н. Предположим, что U„—*V почти наверное. Пусть А™ — это событие, на котором |£/,- — К|< \/т Vi^n. По определению события А% возрастают с ростом п (при фиксированном т): А% СЛ™+1. Следовательно, Р(А%) ^ Р(/4™+|). Объединение Ат = (J А™ представляет собой событие, на котором \Un — V\ < \/т при всех достаточно больших п, и Р(Ат) — = lim Р(А%). Следовательно, для любых т ^ 1 и 8 > 0 существует такое п—»оо "о(т. 8), что Р(Ат \А%{т6)) < S/2"1. Тогда мы положим Аь= f]A т ло(т,8)- т>1 Если д: G А§, Т0 по определению |f/j(jc) — V(x)\ ^ 1/m Vm ^ 1 при г ^ по(т, 8), т. е. |i/„ — V\ сходится к 0 равномерно на Л&. Далее, Р(Ат) = = 1, поскольку Un —* V почти наверное (это условие впервые используется в этом доказательстве). Следовательно, для дополнения В™(т8) = = (А™,тЪАс можно записать P(S^0(m,8)) = РИт \ ^(m.S)) < 2^- Но нам необходимо оценить P(/4g). a нетрудно заметить, что для дополнения В§ = ^в имеет место оценка Р(в,) = р( U *£<„*>)<£ РИт\^(т.в))< £ £ = *■ Этим доказательство теоремы завершается. Теорема Егорова проясняет соотношение между сходимостями по вероятности и почти наверное. А именно, из этой теоремы следует, что если {Un} сходится к V почти наверное, то эта последовательность
§ 3.3. Состоятельность оценок. Различные виды сходимости сходится к тому же пределу и по вероятности. Для доказательства рассмотрим то множество В вероятности 0, на котором сходимости нет. Для заданного 8 > 0 положим Bk(b) = событие, состоящее в том, что \Uk — V\ > 8, Сл(8) = (J В*(8) = событие, состоящее в том, что |£/* - V\ > 8 ***" для некоторого k > п, R(h) = f] C„(8) = событие, состоящее в том, что \Uk — V\>b "**' для бесконечно многих k. Тогда имеют место следующие соотношения: а) 7?(8) С В, следовательно, Р(7?(8)) = 0; б) Р(#(8)) = lim Р(С„(8)), поскольку Сп+,(8) С Сп(8); значит, Р(С„(8))-»0; П_>0° в) Вл(8) С Сл(8), откуда следует, что Р(В„(8)) —► 0 при л —> оо, а это и означает сходимость по вероятности. Обратная импликация, однако, места не имеет; см. примеры 3.3.4 и 3.3.5. Пример 3.3.4. Следующий достаточно популярный класс примеров демонстрирует нам, что последовательность св., сходящаяся по вероятности, не обязательно сходится почти наверное. Рассмотрим единичный полуинтервал [0, 1) с равномерным распределением и положим (lf eU.H(iTi)^JC<i, [О в противном случае, Uki = { ' иГ *' где i=l, ...,*, Й=1,2, ... 10 в противном случае, Далее, рассмотрим последовательность £А,1. ^2,1. ^2,2, t/3,1. t/3,2i ^3,3. t/4,1. ••• Эта последовательность сходится к 0 по вероятности, так как P(|t/w|>e) = P(t/*,,- = l) = -£-»0 при*-»оо V0<e< 1. Однако данная последовательность не сходится к 0 почти наверное. Действительно, она не сходится к 0 ни в одной заданной точке х, и, значит, и речи о сходимости почти наверное быть не может. В самом деле, для любого х G [0, 1) и любого k ^ 1 существует такое /, что Ukj{x) = 1. Этот пример допускает интересную и далеко идущую интерпретацию. Рассмотрим последовательные подбрасывания симметричной монеты: после первого броска возможны два исхода: 1 (гербы) и 0 (решетки), после
Плава 3. Статистика цепей Маркова с дискретным временем двух бросков возможны четыре исхода: 11, 10,01 и 00, после трех — восемь и т. д. Теперь положим У| = 1, Уг = 1 (первый бросок привел к 1), Уз = 1( первый бросок привел к 0), У) = 1( 2 первых броска привели к 11), Уб = 1(2 первых броска привели к 10), Уб = 1(2 первых броска привели к 01), Yj = 1(2 первых броска привели к 00), Ув = 1(3 первых броска привели к 111), Уэ = 1(3 первых броска привели к 110) и т.д. Иными словами, мы а) перечисляем все возможные исходы произвольного (но конечного) числа бросков в определенном порядке, а затем б) полагаем У„ равным индикатору исхода с порядковым номером п. Порядок номеров выберем следующим образом. Упорядочим исходы п бросков (т. е. цепочки из 1 и 0 длины п) перед исходами п + 1 бросков. При фиксированной длине п расположим исходы п бросков (цепочек из 1 и 0 длины п) в лексикографическом порядке, начиная с 11... 11, затем следует 11... 10, затем 11... 01 и т. д. Таким образом, общий член последовательности, У„ задает индикатор исхода с номером (п — 2"'(п) + 1) последовательности из [log2 n] бросков, где т(п) = [log9 n] обозначает целую часть log2 п. Иными словами, мы разбиваем множество натуральных чисел п = 1,2,... на непересекающиеся «блоки», где m-й блок начинается числом 2'" и заканчивается числом 2m+1 — 1 (оба числа входят в этот блок), т = 1, 2, ... Затем сопоставляем номеру п из m-го блока (п — 2т + 1)-ю двоичную цепочку длины т и полагаем У„ равным индикатору в точности одного сопоставленного исхода. При этом последовательность (Уп) сходится к 0 по вероятности. Действительно, Р(|Уя|^е) = Р(Уя = 1) = ^_-»0 при«^сх,Уе>0. В то же время, последовательность Уп не сходится к 0 почти наверное. В самом деле, можно формально рассматривать Уп как функцию результата (исхода) бесконечного числа бросков, зависящую только от первых т(п) = [log2 n] бросков. Результат бесконечного числа бросков будет, в свою очередь, бесконечной цепочкой из единиц и нулей, и эти цепочки (а их континуум) заполняют единичный отрезок [0, 1], снабжен-
§3.3. Состоятельность оценок. Различные виды сходимости ный равномерным вероятностным распределением (т. е. мерой Лебега на [О, 1]). Соответствие х <-> (а^г...) между точкой х б [0, 1] и двоичной последовательностью (а^г ...), ау- = 0 или 1, устанавливается с помощью двоичного представления (или двоичного разложения) числа х: х= £)а//2у- Тогда Yn(x) = 1 для х, находящихся на отрезке длины 2 т(л) между точками (п - т(п))2-тМ и (п - т{п) + 1)2~"»<">. и Y„(x) = 0 для х G [0, 1], находящихся вне этого отрезка. См. рис. 3.2. Л О 1/4 У. ч ь 1 h 10 1/2 10 Ys Y6 1/2 Ч Ь ч ь 10 1/2 10 1/2 10 Рис. 3.2 Y7 п, 3/4 1 Желая сделать наши рассуждения более точными и корректными, мы должны добавить к единичному отрезку счетное число точек, поскольку возникает проблема с диадическими числами х G (0, 1) вида х = 1/2, или х = 3/4, или в общем случае х = k/2m, где 1 ^ k ^ 2т — 1, т = 1, 2, ... (т. е. в точности с теми точками, где возникают вертикальные отрезки на построенном графике). А именно, если х — диадическое число, то существует такое /о, что а/0 = 1, но а, = 0 для всех /' >/'о. Однако такие х могут также быть представлены в виде суммы = £) а,'/2у, где а', = 0 и а' = 1 для всех /' >/'о. Но эта двусмысленность не повлияет на конструкцию в целом, поскольку любая отдельно взятая точка имеет меру Лебега 0. Графически, берем ступенчатую функцию (т. е. одну ступеньку) (0, — ] длины 1/2т, затем передвигаем интервал вправо с шагом 1/2"1, пока он не займет крайнее правое положение (понадобится в точности 2т передвижений), а затем делим длину интервала пополам и продолжаем ту же процедуру. Так или иначе, на этой картинке сходимость почти наверное означает, что всюду, кроме множества лебеговой меры 0, выполняется равенство Yn(x) = 0 для всех достаточно больших п. Но на самом деле имеет место противоположный факт: если х G [0, 1] не диадическое число, то Yn(x) — = 1 для (некоторых) неограниченно больших п. Так получается потому, что
Глава 3. Статистика цепей Маркова с дискретным временем для любого т число х рано или поздно попадет в интервал I ~^, I)m I длины 2~т. U Подбрасывания монеты — это пример ц.м.д.в. с двумя состояниями и всеми переходными вероятностями, равными 1/2; поэтому можно обозначить меру Лебега на [0, 1] символом Pi/2,i/2- Но подобная конструкция работает, если рассмотреть ц.м.д.в. общего вида с двумя состояниями {Хп), находящуюся в равновесии, с переходной матрицей (3.1.9), где 0 < р, q < < 1. Разница будет в том, что если рф l/2=£q, то вместо «замечательного» равномерного распределения на единичном отрезке мы придем к «сингулярной» мере PPtq, порожденной ц.м.д.в. Здесь «сингулярность» означает, что существует такое разбиение единичного отрезка на непересекающиеся множества А и В (т. е. представление [0, 1] — A U В, A U В = 0), что обе вероятности Pi/2,i/2(B) и Рр,9(А) нулевые. Эту картину нельзя упростить, предполагая, что р + q = 1 (тот случай, когда (Хп) образует последовательность н.о.р.с.в.). В самом деле, меры РР|? и РР',?' становятся взаимно сингулярными в смысле, указанном выше, как только (р, q) ф (р1, q'). Заметим, однако, что меры Pp>q на [0, 1] имеют не меньше «физического» смысла, чем мера Лебега Pi/2,1/2: они возникают во многих ситуациях, как в теории, так и в приложениях. Пример 3.3.5. Более короткий, но, пожалуй, менее поучительный пример того, что из сходимости по вероятности не следует сходимость почти наверное, возникает в связи с последовательностью независимых, но неодинаково распределенных св. Х\,Х2, ... Пусть рп = Р(Х„ = 1) = 1-Р(Х„=0), и предположим, что р„ —>0, но J2Pn = °°- Тогда, как и ранее, P(|iYn| ^ е) = п = рп —» 0. Однако в силу леммы Бореля—Кантелли Хп не сходится к 0 почти наверное. □ Используем эти факты при анализе оценок максимального правдоподобия. Напомним, что о.м.п. 6* = 0*(х) определяется как значение, при котором функция Цх, 0) или /(х, 0), где 0 G 6, достигают максимума (см. формулу (3.2.5)). На самом деле мы будем, что равносильно, искать максимум соответствующих логарифмов функции правдоподобия £(х, 6) = = 1пЦх, 0) или/(х,0) = 1п/(х, 0): 6* = argmax[£(x, 0), 0 € в] или 0* = argmax[/(x, 0), 0 G в]. (3.3.11) Далее в этом параграфе под в будем понимать произвольную область в RM, где RM — множество размерности не более s2 — 1 (ср. с формулой (3.1.5)). В частности, будем рассматривать случай, когда в = 11, где V,— множество размерности s2 - 1, как в формуле (3.1.5), или Q = V, где V —
§ 3.3. Состоятельность оценок. Различные виды сходимости множество размерности s2 — s, как в формуле (3.1.7). Предположим, что вероятности pf, зависят от 0 6 в гладким образом, и рассмотрим уравнения и Ш^ в) = Е(^)^-* = ЕМх)Ц)|р8 = 0, (3.3.13) часто называемые уравнениями максимального правдоподобия. Здесь символ d/dQ означает частную производную по 0 (соответственно вектор градиента для многомерного параметра). Предположим, что уравнение (3.3.12) или (3.3.13) имеет единственное решение 0 = 0(х) G Э, и точка 0 задает локальный максимум функции £(х, 0) или функции /(х, 9) д2 |2 дрС(х, 0) л я ^0 или -ш1(х, 9) £0. 6=6 В случае, когда параметр 9 многомерный, вместо д2/дв2 рассмотрим матрицу вторых производных (гессиан). В этом случае указанные матрицы должны быть неположительно определенными. При выполнении этих условий либо 0* = б, либо точка максимума б* находится на границе множества Э. Анализ о.м.п. для логарифма правдоподобия /9 из формулы (3.2.8) не представляет трудностей и проводится непосредственно. Пример 3.3.6. а) Пусть (Хт)— ц.м.д.в. с пространством состояний / = = {1,...,«} и неизвестной матрицей перехода Я=(р,у). Покажите, что о.м.п. параметра б = Р для функции правдоподобия /9 задается нормированным числом переходов "/=tV (3-ЗЛ4) где пц определено в формуле (3.2.1). б) Налагая необходимые условия на матрицу Я и ее инвариантное распределение тс, сформулируйте свойство состоятельности оценки из формулы (3.3,14) в смысле сходимости по вероятности. Связав эту сходимость с з.б.ч. и используя неравенство Чебышёва или Маркова, докажите свойство состоятельности.
Глава 3. Статистика цепей Маркова с дискретным временем Решение, а) В этом примере & — V, где множество V определено в формуле (3.1.7). Будем работать с уравнением (3.3.13), стремясь отыскать решение задачи max /9(х, Р) = max V Пц 1п(р,у) при ограничениях Рч > °- ^2 Р* = 1 VI < i, j < s. Функция Лагранжа имеет вид J2 пц Щрц) + J2 h Y&H ~ 0. ч ' /' и ее нужно максимизировать по рч- при условии рц ^ 0 (Хь ..., Xs — это множители Лагранжа, и их нужно выбрать так, чтобы выполнялось ограничение Е pik = 1, 1 < / < s). Чтобы найти точку максимума лагранжиана, приравняем производную по рц к нулю: -^ + X,- = 0, следовательно, Рц = -г-, 1 < i, j < s. Выполнение указанных ограничений приводит к равенству л'— v" n ' т-е- Р'ч ~ v « ' что и требовалось получить. б) Требуемое свойство состоятельности записывается следующим образом: РЧ Е "/* и означает, что Пц lirn Р п—юо Е Я."* -Рц ^WOVoO. Это соотношение мы получим, если сможем доказать, что Пц/п —► щр-ч- VI < i, j; < s, точнее, что для всех е > 0 выполняется условие lim Р(Ш- щрцЬ е] -» 0. (3.3.15а) л—>оо \ П | / Значит, необходимо иметь единственное инвариантное распределение тс = (тс|,..., rcs), где все компоненты тс,- > 0. Естественно предположить, что
§ 3.3. Состоятельность оценок. Различные виды сходимости матрица Р неприводима и апериодична, а в этом случае оба необходимых свойства имеют место и, кроме того, lim Р" -> П, где П : и—»оо (Ж\ ... 7ls> \К\ ... TCS у Более того, предполагая для простоты, что р := min[p,y] > 0, получим геометрическую (экспоненциальную) скорость сходимости: см. соотношение (3.3.5). Запишем nii(\) = ^2nxll.i=i,xk=j), (3.3.15 6) к=\ где Х = /Х0\ Xt W образует случайную выборку из цепи. Тогда сходимость по вероятности пц(\)/п —> щрц представляет собой (слабый) з.б.ч. Запишем 1 р его в эквивалентной форме -[л/ДХ) — пщрц] —► 0, или ^ е 1 —► 0, при п —> оо Ve > 0. J5> k=\ Здесь для краткости обозначений полагаем h = 1 {Xk-\ = i, Xk = j) - KiPi/, причем s E[/ft] = Yl [8**-i A*,/ ~ ЪРч^хь^Рх^х,, = 0, дг*-|Л=1 (3.3.16 a) (3.3.166) (3.3.17) 8.,. —символ Кронекера. На самом деле в силу стационарности цепи (Хт) св. 1\, ..., /„ одинаково распределены, хотя и не являются независимыми. Перепишем соотношение (3.3.17) в виде S У~^ Jxt-.,,xkKxk-lPxil-lxi, =0. где Juv = bujbvj -щрц. (3.3.18) Jt*_l,X*=l Теперь применим неравенство Маркова: для любой св. Y ^ 0 и любого е > 0 выполняется неравенство Р(У ^ е) < EY2/e2. Подставляя Y = ^2 (ik-iiiPij) \<k<m
Глава 3. Статистика цепей Маркова с дискретным временем получим p(|irtl7(X)-KiP//be)=p(l £ lk >e) \<k<n ^ 1 2Р2 «^е Е'» Предположим, что нам удалось доказать неравенство Е'* <Сл (3.3.19) (3.3.20) с постоянной С, не зависящей от п. Отсюда будет следовать, что С правая часть неравенства (3.3.19) < —^ —* 0 ПРИ л —► оо Ve > 0, т.е. получим условие (3.3.16а). Итак, необходимо доказать неравенство (3.3.20). Возведем в квадрат сумму в скобках из правой части неравенства (3.3.20), группируя отдельно квадраты 1\ и попарные произведения lkjk2- Используя аддитивность математического ожидания, запишем -|2 J2 h = £ E[/g]+ Yl l(A.^*2)E(/ftl/te). (3.3.21) Первая сумма в правой части равенства (3.3.21) равна лЕ[/^], потому что св. /^ одинаково распределены. Во второй сумме слагаемое E[/ft,/ft2] зависит только от разности k\ — k<i- Это наводит на мысль суммировать по k = k\ и / = \k\ — ki\. Тогда вторая сумма перепишется в виде 2 Е Е E[/ft/*+'] и по абсолютной величине не превзойдет 2rt J2 Iе[АЛИ- (3.3.22) 1<(<оо Необходимо лишь проверить, что ряд (3.3.22) сходится. Инструментом послужит оценка (3.3.5). Идея состоит в том, чтобы проверить, что для больших / математическое ожидание произведения близко по значению к произведению математических ожиданий: Е [/,/,] « Е[/,] Е[/,] = (Е[/,])2 = 0, (3.3.23) поскольку множитель E[/i] нулевой; см. соотношение (3.3.17).
§3.3. Состоятельность оценок. Различные виды сходимости С целью сделать это приблизительное равенство точным запишем общий член Е [/]//] в виде xa,xuxt-\,xi где выражение Juv было определено в формуле (3.3.18). Согласно соотношению (3.3.5) имеем Е/ = 2_/ %xoPx0xi [Кх,-, + Ф*,,х,_, (/ - 1)]Рх,_,х,/*ь.Х|/л:,_|Л = Xa.X\.Xl-\,X, = У ;%XoPx0Xl->Xo,Xl У j Kx,_lPxl-,X,Jxi-\,Xl + Х0.Х\ Xl-\,Xl + Y^ ^**|Ф*.Л-|('-ОРх,_1*Ль.*Л-|А- (3-3.24) «ЛЛ-1Л Теперь в силу формулы (3.3.17) получаем ^ KxoPxoxJxo.x, = /\2 ^xaPxoxfixo.fixtj ~ ^iPij = 0. Xo.Xl X0,Xi Поэтому в правой части равенства (3.3.24) отлично от 0 только второе слагаемое, а оно в силу соотношения (3.3.5) не превосходит по абсолютной величине (1-р)'-1 Yl WWw*,-.*A_.*,<^U-p)'~'- (3.3.25) X0,Xl.Xl-l,X/ Здесь и далее A = [(l-ntPij)V(mP,i)]. (3.3.26) Подводя итог, получаем, что |Е[/[//]| не превосходит правой части равенства (3.3.25), откуда следует соотношение (3.3.23). Тогда для ряда из формулы (3.3.22) получаем оценку £ |Е[/,//]|<^. 1</<оо Значит, левая часть неравенства (3.3.21) ограничена выражением Е Yl Ik ^ П [ J2 У*°-*' %хоРх0х, + -1 ) ■ Этим доказано неравенство (3.3.20) и завершено доказательство соотношения (3.3.15 а). Следовательно, о.м.п. (3.3.14) состоятельна в смысле сходимости по вероятности. □
Глава 3. Статистика цепей Маркова с дискретным временем Пример 3.3.7. Налагая необходимые ограничения на ц.м.д.в. (Хт), заданную на множестве / = {1, ..., s}, сформулируйте и докажите, что о.м.п. (3.3.14) состоятельна в смысле сходимости почти наверное. Решение. Свойство состоятельности означает, что п —юо, ■ </<« п.н. —" Plh т. е. к «истинному» значению параметра. Эта сходимость следует из соотношений -пц -»щрц, - J2 пч -» J2 ЪРЧ = щ' (3.3.27) где щ— стационарные (инвариантные) вероятности. Существуют различные виды сходимости; мы выберем сходимость почти всюду, т. е. сходимость с вероятностью 1, по отношению к инвариантному распределению П ц.м.д.в. (Хт) с (неизвестной) матрицей перехода Р. Итак, попробуем найти единственное инвариантное распределение тс = = (тц, ..., tcs) со всеми ненулевыми компонентами щ > 0. Естественно, предположим, что матрица Р неприводима и апериодична, а тогда указанное распределение существует и, кроме того, /гч ... лД lim Р" -»П, где П = . u... *,/ Более того, предполагая для простоты, что р := min[p(/] > 0, получим ч геометрическую (экспоненциальную) скорость сходимости: элементы р| матрицы Рп удовлетворяют соотношениям Рц)=Щ + Ып)' ™е 1Ф//(л)1<(1-Р)я~1. (3-3.28) Запишем п nil(X) = Y,4Xm-i=i,Xm=j), m=l где Хо, ..., Х„ — компоненты случайного выборочного вектора X. Сходимость почти наверное пц(\)/п —> К/р(/ — это по сути (усиленный) з.б.ч., и первым делом мы запишем его в эквивалентной форме - [л;ДХ) — пщрц] —>0, или j n - 2_\ 1т —> 0 почти наверное. т=\
§ 3.3. Состоятельность оценок. Различные виды сходимости Здесь мы для краткости полагаем Ал = 1№л-1 = А Хт =/') - Я;Р,у, причем s E[Ati] = ^Z [8*m-i Am,/ - ВД/]^,,,., Pxm_,*„, = 0, (3.3.29) (3.3.30) 8.,. — символ Кронекера. В силу стационарности цепи (Хт) св. /|, ..., /„ одинаково распределены, хотя и не являются независимыми. Снова используем неравенство Маркова: для любой св. У^О и любого е > 0 вероятность Р(К ^ е) < ЕУ4/е4 (обратите внимание на показатель степени 4 вместо «традиционного» показателя 2 в неравенстве Р(У ^ е) < ЕУ2Д2)- Подстановка У = 5^ Цт-ЩРц) \Ст<п приводит к оценке 1 л4е4 1> \<k<n Предположим, что нам удалось доказать неравенство -|4 <Crt2, (3.3.31) (3.3.32) где постоянная С не зависящей от п. Тогда при е = 1/rt1/8 получим, что Р(|±п,/(Х) -*р„| > Jjg) < -^ = С(^). Ряд X^rt_3/'2 сходится. Значит, по лемме Бореля—Кантелли (см. т. I, с. 163) п с вероятностью 1 событие {|irt,7(X)-it,p,7|^^} происходит лишь для конечного числа значений п. Иными словами, с вероятностью 1 неравенство -rt,7(X) - щрц < ,1/8
Глава 3. Статистика цепей Маркова с дискретным временем имеет место для всех достаточно больших п. Этот последний факт влечет за собой сходимость почти всюду в формуле (3.3.27). Чтобы доказать неравенство (3.3.32), представим четвертую степень в квадратных скобках в правой части неравенства (3.3.31), сгруппировав отдельно слагаемые 1\, попарные произведения вида Ik] /| и попарные произведения вида /2 l\ . Используя аддитивность математического ожидания, можно записать £ 7*1 = £ Е[/4]+ £ 1(А1^2)Е[/*,/2,] + Va, (3 6 {1,2,3,4}. Предвосхищая результат последующих оценок, заметим, что первая и вторая суммы в правой части есть 0(п), но третья, четвертая и пятая имеют порядок 0(п2). Неравенство (3.3.28) послужит инструментом для оценки сумм во второй, третьей и четвертой строках равенства (3.3.33). В самом деле, первая сумма в правой части равенства (3.3.33) равна лЕ[/|], так как св. /^ одинаково распределены. В следующих двух суммах слагаемые Е[/^,/^ ] и Е[/| /| ] зависят только от разности k\ — ki. Это наводит на мысль суммировать по k = k\ и / = \k\ — ki\. Вторая сумма приобретает вид J2 £ [E(Ikll+l) + E(!l!k+l)] и по абсолютной величине не превосходит п J2 |Е(/,/;3+ /?//)|. (3.3.34) 1</<оо Поэтому для второй суммы из правой части равенства (3.3.33) нужно лишь проверить, что ряд (3.3.34) сходится. Третья сумма в правой части равенства (3.3.33) неотрицательна, так как состоит из неотрицательных слагаемых, и не превосходит 2п(п - 1)тах[Е(/2/,2); I > 1] < 2л2[(1 - щРц)2 V (ед,)2]2, (3.3.35) а это выражение, как мы видим, неплохо оценивается через степень п. Здесь a V b = max(a, b), а последняя оценка в формуле (3.3.35) следует из
§3.3. Состоятельность оценок. Различные виды сходимости формулы *0,Х|Л-|Л Где Ju,v = 8ui&u/ - KiPii- Рассуждения и оценки для четвертой и пятой строк из правой части формулы (3.3.33) уточняют соответствующие рассуждения, применяемые к ряду (3.3.34). Поэтому изучим вначале этот ряд. Идея состоит в том, чтобы проверить, что для больших / математическое ожидание произведения приближенно равно произведению математических ожиданий: Е[/,/?]«Е[/,]Е[/?] и E[/?/,]«E[/?]E[/,]. (3.3.37) Конечно, эти произведения математических ожиданий совпадают: Е[/,]Е[/?] = Е[/?]Е[/,] = Е[/,]Е[/?] и равны 0, поскольку множитель E[/i] нулевой; см. равенство (3.3.30). Чтобы уточнить первое соотношение из (3.3.37), запишем общий член E[/i/,3] ряда (3.3.34) в виде / j 7lxaPx0xlPx[x,-]P'Ci-,xiJxo.xlJxi^l.xi хаММ-\.х, и используя равенство (3.3.28), перепишем его в виде Y^ %ХоР*ох, [Пх,_, + фх1Л_, Ц ~ 1)]Рх,_,хЛо,*1^,_1Л = Х0,Х, ,Xl- | ,Xi = / j KxqPxoXjJxb.X] / _ 71Х/_|РХ/_|ХА;_|,Х/ + ХйМ Xl-,,Xl + J2 ^адФ^л-.^-ОДч-^Лвл^.л- (3-3-38) *o.*i,x;-i.X| Согласно соотношению (3.3.30) получаем Y^ KxoPxoxJxom = /I KxoPxoX, 8jc0,«8X|>/ - KiPij = 0. Xo,X| Xo,X, Следовательно, в правой части формулы (3.3.38) отличен от нуля только второй член, и в силу соотношения (3.3.28) его абсолютная величина ограничена выражением (1-р)'-1 Y1 WW^Pxi-.x/L.^^l-p)'-'. (3.3-39) X0,X,,Xl-,,Xi
Глава 3. Статистика цепей Маркова с дискретным временем Здесь и далее A = l(l-.K,Pt,)V(ntPll)]. (3.3.40) Из этих оценок следует, что |Е(/|/^)| не превосходит правой части (3.3.25), что подтверждает первое из соотношений (3.3.37). Аналогично \E(!pi)\ не превосходит правой части (3.3.39), что объясняет второе из соотношений (3.3.37). В дальнейшем мы будем использовать тот факт, что аналогичные оценки, разумеется, имеют место и для | Е(/^//)|: I Е(/?//)| ^ Л2^(1 - р)'-'. Итак, для выражения (3.3.34) получена оценка сверху: (3.3.41) A2s п £ |Е(/,/?+ /?/,)! <^л 1</<оо подтверждающая, что вторая сумма в правой части равенства (3.3.33) есть 0(п). Как уже было сказано, четвертая и пятая строки в правой части равенства (3.3.33) оцениваются схожим образом. Обсудим в деталях оценку для последней суммы, так как она более техничная и трудоемкая. Слагаемое E[/£,/fc,/fc3Afc4] не меняется при перестановке индексов ka. Далее, оно зависит только от попарных разностей ka — fcp, поэтому положим k\ = k, &2 = k\ + l\, kz = k<i + /2, k\ = k?, + /3 и запишем пятую строку в виде 4! С Y, EIV*,V*j) = =4! Yl Yl 4k+i\+i2+k<n)E(ikik+llik+,l+,.2ik+il+i2+i3). (3.3.42) Теперь идея состоит в том, чтобы записать представление, аналогичное (3.3.37): если /а равно наибольшему расстоянию между l\, h и /з и если это /а велико, то ^-(hjkjkjkd ~ E (3.3.43) ГК Е П'*. P<ot J Lp>ot Используем тот факт, что при совпадении максимального расстояния 1а с 1\ или с /з один из множителей Е Р<а или Е пч Р>а СВОДИТСЯ К «единственному» математическому ожиданию Е/^, и поэтому равен нулю. Тогда, конечно, произведение в правой части соотношения (3.3.43) обращается в 0, а «наихудший» случай — это когда la = h (см. ниже).
§ 3.3. Состоятельность оценок. Различные виды сходимости Более точно, предполагая, что max[/i, /2, /3] велик, получим E[V*2Va4]«< 'E[/ftJ E[IkiIkJki] = 0, если /i > /2, /3, E[IklIk2] E[IkJki], если 12>1\, /3, iE[/ft|/ft2/ft3]E[/4] = 0, если/3>/1, /2. H-+- 0 1 /2 + 4—Ь Рис. 3.3 Соответственно, сумма в правой части равенства (3.3.42) разбивается на следующие 7 сумм: Е ( Е + Е + Е )+ 1<А<л ч/,>/2,/з^1 /2>Л,/з^1 /з>/ь/2^1/ + Е ( Е + Е + Е + Е )• <3-3-44) Kft<n ч/,=/2>/3^1 /|=/з>/2^1 /2=/з>/з^1 /|=/2=/з^17 Суммы во второй строке имеют меньший порядок, поэтому будем рассматривать суммы в первой строке. Общий член каждой суммы в выражении (3.3.44) можно записать в виде Е". Х Р^^з-^^З-'^З^З-'^з^з^-!^-1^^-1'^ ' (З-3-4^) Суммирование проводится по состояниям х^-\, х^, *a2-i, х^2, Xk3-\, x^, XkA-\, х/ц, и индексы пробегают значения от 1 до s. Если максимальное расстояние /а достигается при а = 1 или а = 3, записываем <:!L-.=7i**.+K-,^-(/--1) и разбиваем сумму (3.3.45) аналогично (3.3.38). Тогда для первой и третьей сумм в выражении (3.3.44) получаем оценку Е Е Е Е < ПА^В2,
Глава 3. Статистика цепей Маркова с дискретным временем где А было определено в формуле (3.3.40), а В2 = ^(1-р)/'-1(/.-I)2. Видим, что первая и третья суммы в выражении (3.3.44) имеют порядок 0(п). Для второй суммы преобразуем: <^)_1=^1+Фх1,Л2_1('1-1); <"|,=Ч-,+КзЛг,('з-1), что дает оценку: \^к<П /|>/2,/3^1 <As2 E E i(^+'i+'2+/3^")(i-p)',-1(i-p)/3_4 Тем самым подтверждается гипотеза о том, что последняя строка в правой части соотношения (3.3.33) имеет порядок 0(п2). Четвертая строка в правой части соотношения (3.3.33) оценивается аналогичным образом. Отсюда следует неравенство (3.3.32), и тем самым завершается доказательство равенства (3.3.27). □ Из приведенных примеров заключаем, что ц.м.д.в. во многом подобны независимым одинаково распределенным наблюдениям; значительная разница состоит, конечно, в том, что функция правдоподобия становится произведением множителей, связывающих пары последовательных состояний: /6(х, 6) = Ре№ =*,, ...,Х„=хп\Хо = хо)=р%Х1 . ../£_■*,• Х°\ (3.3.46) \Хп/ Завершим этот параграф результатом, который показывает, что логарифмы функций правдоподобия тоже подчиняются з.б.ч. Предположим, что выполнено следующее условие. Условие 3.3.8. Если р® = 0 для некоторых состояний /, j 6 /, то это равенство имеет место для любых 6 6 6. В этом случае, если для заданного х
§3.3. Состоятельность оценок. Различные виды сходимости (приведенная) функция правдоподобия /(х, 6) оказалась положительной для некоторого значения б £ в, то она остается положительной для всех б £ в. Тогда множество векторов х, для которых /(х, б) = 0, можно отбросить раз и навсегда. Ведь оно появляется лишь с вероятностью О относительно распределения ц.м.д.в. Ре для любого б £ 9. Оставшееся множество пар (i, /'), для которых р§ > 0, б £ 9, обозначим D; предположим также, что для любых (/, /') £ D переходные вероятности р\ непрерывно дифференцируемы по б £ 9. Теорема 3.3.9. Предположим, что матрица перехода Р6 = = (р\р /, / £ /), б £ 9, удовлетворяет условию (3.3.1). Тогда для любого 9 £ 9 и любого начального распределения X при п—юо имеет место следующая сходимость с Рх,е-вероятностью 1: (I)/e(X) ^ E°q[ln(^,)] = Е "ЭД,П&Ф- <3'3'47) HMD Здесь и далее Рх,е обозначает вероятностное распределение цм.д.в. с начальным распределением X и переходной матрицей Ре, a Е®ч обозначает математическое ожидание относительно инвариантной меры тс6. Более того, подобный факт имеет место для произвольной функции g(i, /), (/, /) £ D. Определим св. Gk = g(Xk-\, Xk). Тогда при п—юо для любого б £9 и любого начального распределения X сумма £} Gk/n сходится с Рх,е-вероятностью 1: k=\ -nY,Gk^ E^G,] = £ я?,} g(i. /). (3-3.48) Суммирование в правой части равенства (3.3.48) можно распространить на все i, / £ / со стандартным соглашением о том, что р^ 1п(рЦ) = О, если pfj = 0. Величина <\/е/ называется энтропией ц.м.д.в. (Хт) и играет важную роль во многих приложениях. При предположении о том, что цепь (Хт) неприводима и апе- риодична, энтропия положительна, а математическое ожидание в правой части равенства (3.3.48) отрицательно для функции g(i, j) = lnp6. 1 п Другой пример — это сумма - J2§(Xk-i, Xk) индикаторов \(Xk-\ = п k=\ = i, Xk =/') из формулы (3.3.166). Но функция g может зависеть от одной
Глава 3. Статистика цепей Маркова с дискретным временем случайной величины: например, для /сМи g(i, j) =j нетрудно заметить, что Gk = Xk, где Xk — значение цепи в момент k. Уравнения (3.3.47) и (3.3.48) в этом случае превращаются в усиленный з.б.ч. для цм.д.в. (Хт, О^т^п): ±£х*^Еевч[Х,] = £;*п2 прия^оо. (3.3.49) Следует заметить, что в общем случае последовательность случайных величин Gk =g(Xk-\, Xk) не образует марковской цепи или марковской цепи высшего порядка. Однако она является функцией ц.м.д.в. (Хт) с экспоненциальным убыванием корреляций: это свойство играет ключевую роль в доказательстве. Мы не приводим здесь доказательства теоремы 3.3.9, так как оно повторяет рассуждения, приведенные выше. § 3.4. Функции правдоподобия, II. Формула Уиттла Придирчивы в вычислениях, В своем искусстве сильны, Да будут всегда статистики Блистательны и умны! Студенческий фольклор Общий подход к построению оценок максимального правдоподобия переходных вероятностей ц.м.д.в. основан на так называемой формуле Уиттла, которая и составляет предмет изучения данного параграфа. Во избежание путаницы нам придется частично поменять обозначения, используемые до сих пор. Мы будем придерживаться терминологии, введенной в ранних работах, касающихся предмета нашего рассмотрения. (Л Пусть х= : е/п+| —выборка из ц.м.д.в. (Хт) с конечным числом состояний, матрицей перехода Р = (рц) и начальным распределением X = = (М- Пусть /,у(х) — это число переходов i —* j в выборке х, т. е. число моментов времени т,0^т<п, для которых хт = i и хт+\ =/'. (В предыдущих параграфах эта величина обозначалась пц.) Положим /,+ = J2hj i и /+,(х) = 53//,(х); значения /,-+ и /+,- задают количества входов в состо- яние / и выходов из него в этой выборке х. Таким образом, получаем
§3.4. Функции правдоподобия, II. Формула Уиттла матричнозначную функцию х н-> ^(х) = (/,у(х)). Матрица F(\) называется матрицей подсчета переходов (для заданной выборки х). Для случайной выборки X получаем случайную матрицу F(\) = (///(X)). Полезно также усвоить и обратную точку зрения. Определение 3.4.1. Пусть х, у £/—пара различных состояний {хфу). Пусть F=(fij, i, jE /) — матрица с неотрицательными целыми элементами. Говорят, что F задает «-шаговую матрицу подсчета переходов для начального состояния х и конечного состояния у, если a) J2 Л/ = п и б) в предыдущих обозначениях /,+ = Yjhh /+' = llfji> ',y=l /' /' /,+ — f+i = 0, для любого i £ /, кроме i = х и i = у, где/х+-/+х=1и/,+ -/+„ = -1. (3.4.1) Для х = у это определение нужно слегка подправить: /,+ - /+,- = О V/ £ /, и, кроме того, fx+ ~£ 1 и f+x ~£ 1. См. рис. 3.4. Таким образом, за исключением начального и конечного состояния, число переходов из любого заданного состояния равно числу переходов в это состояние. Однако если начальное и конечное состояния различны, выходов из начального состояния на единицу больше, чем входов в него, а выходов из конечного состояния на единицу меньше, чем входов в него. Если цепь возвращается в начальное состояние, то число выходов из любого состояния равно числу входов в него. 4 Хп = У • О—» О—» хфу Рис. 3.4 Пример 3.4.2. Зафиксируем х £/. Пусть матрица F=(fij, /,/'£/) с неотрицательными целочисленными элементами удовлетворяет соотношениям //+-/+,- = 5* - 5ц,, i=l,...,s, (3.4.2) для некоторого заданного у— 1, ..., s. Докажите, что у — единственная точка из /, для которой имеет место соотношение (3.4.2). Хо 47* Х„-\ X х = у
Глава 3. Статистика цепей Маркова с дискретным временем Решение. Проведем доказательство от противного. Предположим, что два состояния у и w удовлетворяют соотношению (3.4.2). Если хфу,то fy+ — f+y = OyX-Oyy = —l И fy+ — f+y = Oyx — Oyw = —Oyw, откуда следует равенство у — w. Если х = у, то fi+ - f+i = hx - Ьи = 0 и fi+ - /+,- = bix - 8/ш, i - 1, ..., s. Таким образом, 0|'je = OCtu, И W = X = y. □ Теперь мы хотим подсчитать число траекторий, совместимых с заданной матрицей подсчета переходов. Пример 3.4.3. Пусть / = {1, 2, 3}. Рассмотрим матрицу Она задает четырехшаговую матрицу подсчета переходов с начальным состоянием 1 и конечным состоянием 3. □ Напомним, что распределение вероятностей ц.м.д.в. (Хт) имеет вид P(Xl=xl,...,Xn = xn\X0 = x0) = Y[pf/i, ijei P(X0 = x0,...,Xn=xn) = \Xol[pll откуда следует, что матрица подсчета переходов ^(Х), сама по себе или совместно с начальным состоянием Хо, образует достаточную статистику. Чтобы найти распределение статистики /Г(Х) (т. е. совместное распределение элементов /(/(X)), нам нужно подсчитать число выборок х с траекториями, совместимыми с заданной «-шаговой матрицей подсчета переходов F. С этой целью для заданных х, у € / рассмотрим F = (/;;) — «-шаговую матрицу подсчета переходов схо = хнхп = уи обозначим через NXy(F) число таких выборок х е 1п+\ что F — F(\). Прямые (хотя и громоздкие) комбинаторные подсчеты, выполненные далее, приводят к формуле /ПЛ+!\
§3.4. Функции правдоподобия, II. Формула Уиттла Здесь tP(xy) обозначает (х, у) — кофактор в матрице F = (//;.), который определяется следующим образом: <РМ = (-1)Х+У№(^)¥х,#у), (3.4.4а) где элементы fjj матрицы F~ равны Г fa-Mf»> если//+>0. s ' [б./. если/1+ = 0, Уравнение (3.4.3) означает, что для заданной л-шаговой матрицы подсчета переходов F = (/,,) с Хо = х, хп = у условная вероятность того, что ^(Х) — F при условии Xq = x и Хп = у равна P(F(X) = F\X0 = x,Xn = y)]Jfi+\Yl(^y-i!/), (3.4.5а) подобным образом выглядит и условная вероятность Р(^=^/?(Х) = /?|^о = *) = ^ПЛ+!П(^)^)' (ЗА5б) ' <7 а безусловная вероятность равна Р(Х0 = х, Хп = у, F(\) = F) = Ър% П/'+!П {ji)^yr (ЗА5в) ' '/' Здесь Рху обозначает л-шаговую переходную вероятность из х в у. Уравнения (3.4.5 а—в) называются формулами Уиттла. Пример 3.4.4. Для матрицы F из примера 3.4.3 формула Уиттла дает результат <>-2!det(-f -_f)=2. С другой стороны, Л^з = jVg3 = 0, потому что матрица подсчета переходов F несовместима ни с парой (2, 3), ни с парой (3, 3). Значит, к этим парам формулу Уиттла применять нельзя. □ Это приводит нас к такому определению. Определение 3.4.5. Пусть х, у G / — заданные состояния (не обязательно различные), а п — натуральное число. Обозначим через В(п, х, у)
Глава 3. Статистика цепей Маркова с дискретным временем множество матриц F = (/,/) с целочисленными элементами /<у, /, /' € /, удовлетворяющих следующим условиям: a) J2 Л/ = п< б) /;+ - /+/ = 8<x - S^, / Е /; при этом если х = у, то /x+ ^ 1 и /+х ^ 1. Иными словами, матрицы F Е В(п, х, у) — это «-шаговые матрицы подсчета переходов при xq = х и хп = у. Далее, положим В(п, х) = (J В(п, х, у), что дает все л-шаговые матрицы подсчета переходов при xq = х. (Заметим, что при заданном х множества В(п, х, у) не пересекаются для различных у Е /.) Теперь пусть Р — (рц, i, j G /) — переходная матрица. Распределение Уиттла с параметрами (Р, п, х, у) — это вероятностное распределение на В(п, х, у), которое приписывает матрице F еВ(п, х, у) вероятность Далее, распределение Уиттла с параметрами (Р, п, х) образует вероятностное распределение на В(п, х), которое приписывает матрице FE В(п, х, у) вероятность T(f) = pginwll(|)^- (ЗА6б> ' ч Это означает, что условная вероятность Т(/71 В(п, х, у)) равна и(/7) для F Е В(п, х, у). П Доказательство формулы (3.4.3). Проведем доказательство с помощью индукции по п. Уравнение (3.4.3) имеет место для п — 1 (в этом случае обе части уравнения (3.4.3) равны 1). Предположим, что оно имеет место для и — 1. Обозначим через G{k, т) матрицу, полученную из G = = (Gjj) путем уменьшения (/г,/)-го элемента на 1: G(k,m) = G -E(k,m), где (E(k, т))ц = bk,fi],m- Тогда, очевидно, для F— (/(/) выполняется равенство <(0 = Е ^ > °№~1\Р(Ь' т))- О-4-73) Поэтому достаточно показать, что выражения 4>7k[) в правой части уравнения (3.4.3) удовлетворяют аналогичному соотношению, а именно vm = Е^ > 0)(fe)(vr(*' т))к°- (ЗА7б) Здесь и далее (<р_ (k, tn))(mj) обозначает (m, /)-кофактор в матрице F~(k, m). Поскольку все столбцы матриц F~(k, т) и F~, кроме m-го столбца, одинаковы, кофакторы совпадают: (f~(k, /n))(m,o = ¥W)- Из этого факта
§3.4. Функции правдоподобия, II. Формула Уиттла и соотношения (3.4.4 а) следует, что уравнение (3.4.7 б) эквивалентно уравнению т=\ s Поскольку J2 tkm^uni) = &k,idetF~, сразу получаем уравнение (3.4.8) для случая, когда k ф I. Значит, нужно только показать, что det/7- = О, если k = I. Для удобства обозначений предположим, что элементы /;+ = f+l положительны при 1<ги равны нулю при i > г. Тогда F имеет вид F=(AQ°0), (3.4.9) где А — это матрица г х г. В силу формул (3.4.4)" имеем F~ = (A~ J), (3.4.10) где строки матрицы А~ имеют нулевую сумму. Следовательно, det/7- = = det Л- = 0. (Если k ф I, то матрица F~ может быть невырожденной.) □ Интересный вопрос возникает при вычислении моментов распределения Уиттла. Возьмем / = {1, ..., s). Пусть В = {Ьц) — (s x з)-матрица с собственными числами щ, ..., \is, которые в данный момент предполагаются различными. Пусть g(x) — произвольный многочлен степени п, и пусть g(B) — соответствующий матричный многочлен. Известная теорема Сильвестра утверждает, что g(B) = '£g([ik)B(k), (3.4.11) 46/ где матрицы B(k) определены как П (tul-fl) *W-Tttn-H.)' keL (3A12) i£l: i^k Матрица B(k) задает (неортогональную) проекцию ранга 1 на одномерное подпространство, образованное собственным вектором матрицы В, соответствующим k-ьлу собственному значению [i^; проецирование выполняется вдоль гиперплоскости, порожденной оставшимися собственными векторами. Матрицы B{k) идемпотентны, т. е. (B(k))2 = B{k) и B{k)B(k') = 0, кфк', k,k'el.
Глава 3. Статистика цепей Маркова с дискретным временем Заметим, что В(1) — это (s x 5)-матрица, каждая строка которой является инвариантным вектором д, определенным с помощью соотношения к = пР. Аналог формулы (3.4.11) имеет место и при наличии кратных собственных значений, хотя уравнение (3.4.12) будет в этом случае содержать производные полинома g. Детали мы опускаем. Теорема 3.4.6. Если случайная (s x s)-Mampuua F имеет распределение Уиттла с параметрами (Р, п, х), то математическое ожидание ее (а, (З)-го элемента задается формулой Еф(п, x) = Y^P{£p«.fr а,р,*е/, «=1,2,3,... (3.4.13) т=0 где pi™' — это (х, а)-й элемент т-шаговой матрицы перехода Рт. Более того, предположим, что матрица Р неприводима и апери- одична, имеет различные собственные значения и обозначим их через 1=^1 > |[*2|. •••. \\1*\- Тогда математическое ожидание Е^п, х) допускает представление Еар{п,х) = рф(пк*+ Y, (гГ^)(^)Ц)- (3-4Л4) Здесь (p(k))xa задает (х, а)-й элемент матрицы P{k), определенной уравнением (3.4.12), при В = Р: Доказательство. Пусть Nap(n, х) — это случайное число переходов а —> р в случайной матрице F, или, что эквивалентно, в выборке X с распределением Р(-\Хо = х). Пусть переход х —> k, ft £ I — это первый переход в X. Тогда Nap(n, x) удовлетворяет уравнениям Nap{n,x) = bXAbkfi + Nafi(n-l,k), О 2, (3.4.15) #«э(1,*) = 8*,«8*.р. kel. (3.4.16) Таким образом, Елр(п, х) удовлетворяет уравнениям £ор(я. х) = РфК* + ^2рХкЕар(п - 1, /г), О 2, и Е*р(1 х) = рфЬхм. (3.4.17)
§3.4. Функции правдоподобия, II. Формула Уиттла Докажем по индукции, что я-1 £aP("-*) = £^aVap- (3-4.18) m=0 Поскольку SxaPap = $х,*Рф, уравнение (3.4.18) выполняется, если подставить в него функции из формулы (3.4.17), т.е. справедливо при п=\. Затем, используя уравнение (3.4.18), получим S Л—1 Еф(п + 1, х) = pxpbx,a + Y^Pxk £ PfteVep = k={ m=0 л-1 я = Р$ЪХЛ + Y, РЙ+1)РаР = £ Р%>Рф (3-4.19) m=0 m=0 что подтверждает правильность шага индукции. Если все собственные числа [1^ матрицы Р различны, то из теоремы Сильвестра получаем s Р{£ = Е Vi№)x*, т = 0, 1, ... (3.4.20) k=\ Располагая собственные числа в порядке следующего убывания по абсолютной величине: 1 = у.\ > |(1г| ^ ... ^ \\is\, запишем соотношение (3.4.20) в виде £ap("^) = ££^m(pW),aPap=Pap(^a + E(^)(p(^a). □ Теорема 3.4.7. Если случайная матрица F имеет распределение Уиттла с параметрами (Я, п, х), то для любых а, р, у, 8 € / ковариация между элементами (а, Р) и (у, 5) матрицы F задается формулами Са,р;г,б(". х) = Еф(1, л:)[5а,г5р,8 - ЕуЬ(1, х)], п = 1, Са,р;Г,8(". -К) = £<хр(л, *)[&a,r5p,8 ~ Ey*(n> *)] + л-1 + Е №ЙГ 1_m,PapfY8(m, P) + р%-т-1)руЪЕ^(т, 8)], n ^ 2, (3.4.21) m=l £сл« матрица Р неприводима, апериодична и имеет различные собственные числам \i\, ..., \is, то ковариация между элементами (а, Р) и (у, 5) матрицы F, соответствующая второму уравнению
Глава 3. Статистика цепей Маркова с дискретным временем (3.4.21), приведенному выше, допускает представление Са,р;т,8(л, х) = /»ap5e,T5p,8 f лпв + J2 ("П^ё) М*))**) ~ - РфРуЬ {"(Ё (HS ["■«*»■"+'чм*»»])+ +££Gff)(^)M*»"W*'»-- ft=2 ft'=2 x [1Ь(Ш)*г + 0»(*))Эт) + M0>(*))« + (/>(*)ЫП + k=2 *=2 k'=2,k'^k ( (p(k)U(p(k%r + (p(k)U(P(k')h i -ц* ) Ш-(^ЙЯ)]}- —> Доказательство. Шаг 1. Пусть, как и ранее, Na$ (я, х) обозначает число переходов из состояния а в состояние р в последовательности X, и предположим, что первый переход — это х —► k. Тогда М»,р(я, x)Ny$(n, х) = 8а,т8р|58а,х8р,ь п = 1, yVttip(«, x)Ny<b(n, x) = 8a,T8p,58a^8pift + 8x,T8ft>8/Va,p(/z -1, k) + + bxAbkfiNyfi(n -l,k) + Na#(n - 1, k)Nyfi(n -l,k), n>2. Более того, «смешанный» второй момент ста,Р;г,вК х) := E[yVa,p(n, x)Nyfi(n, х)] удовлетворяет соотношениям СТа,Р;т,8(л. X) = 8aiT8p)88a,x^p + ЬХлРх$Еаф(п -1,8) + s + К*РфЕуь(п - 1, Р) + ^2pxkO*,fafi(n - !- ^). л ^ 2- *=| стоРг8(Л' X) = 8ат; SpgBa^p^p, Л = 1.
§3.4. Функции правдоподобия, II. Формула Уиттла Шаг 2. Далее, покажем, что СТа,Р;т,в(л. X) = 8a>T8p>8£a,p(«, •*:) + я-1 + YfrST^P^yAb. Р) +P%~'~k)Pyb^{k, 8)], п > 2, А=1 (3.4.23) СТа,Р;т,8(л. *) = 8aT8p,s£a,p(l, S), П = 1, откуда будут следовать равенства (3.4.21). Для значений л ^ 2 снова применим индукцию. При п = 2 уравнение (3.4.23) проверить легко. Чтобы провести шаг индукции от п к п + 1, запишем ста,р;т,8(л + 1, *) = 8а,т&р,5&а,*Аср + К-гРхъЕ*,р(п, 8) + ЬхлрфЕъЬ(п, Р)+ S / П—I + Е Рхк (8a-i-8p.s Е P(k^P^+ k=\ ^ m=I + Е К'^РфЕ^т, Р)+р(^-т)РуьЕ^(т, 8)Л = т=\ ' = 8а,т8р,58адрлр + Ьх,уРхьЕа,р(п, 8) + ЬХАрфЕу^(п, Р)+ я-1 я-1 + 8а.г8р,8 5>Й+1)Аф + £ ИГШ)Рар^.8('". Р) + />£Г"Чв£а,р('". 8)] = = 8а,Т8р,8£а,р(я + 1, х) + Е [pir'Vap^s^- Р) + Р%-т)РуьВ^{т, 8)]. т=1 Шаг 3. Наконец, предположим, что матрица Р неприводима, апе- риодична и имеет различные собственные значения. Тогда ковариации CapTs(«, х) имеют вид Са,р;т,8(л, х) = Рф ппа + £ (тЗ^) (Р(*))д х (8a,T8p,8 - PyS \nnr + J2 (тз^)^^т ) +Wr8EE^-1-m)[(pwu(m7iT + £ (ifJjW*')) + m=l ft=2 L V ft'=2 ' m7la + E (fr^)/^') n—\ s
Глава 3. Статистика цепей Маркова с дискретным временем Легко получить равенства (3.4.21), используя следующие (легко проверяемые) тождества: л-1 (л-l-m) _ " ~ 1 - Щк + [4 k = 2,...,s, m=l л-1 1 -Ц* x;^","m,(i-^) = 1-иГ' ^ФГ'-^"') 1 - и* и* - ^- гС, /v ^, • • • ) о, ГС т^- ГС, m=l ^^-1-m)(l-^)='"^i'_+("~1)^. A = 2,...,s. D (3.4.24) m=l Пример 3.4.8. Докажите соотношения (3.4.24). Замечание. Из уравнения (3.4.14) следует, что яте. ;+£ Ш)х k=2 1 -[it £а,р(«, *)~/>ар при п —> оо. Аналогично из уравнений (3.4.21) можно вывести, что Са,р,г,В (Я, *)« (3.4.25) 7taPap8a,r8p,8 - TWoP^yPyS + /?ар/?тВ 2_, М/>(*))рт + М/>№)8а А=2 1 -Ц* + _i_ г, х х V^ (P(k А=2 (/>(*))« 1 -и* ■ Р*рРу& Е А=2 s + Е k,k'=2 М(р(*))«т + (pW)pt) + M(pWU + (р№Ы (i - М2 + (P(fe))x.(p(fe))pr + (Р(*))*т(Р(*))«, ~ (Р(*))«(Р(*))*Г (1 -ц«)(1 ~[ик>) (3.4.26) П при л —> оо. Пример 3.4.9. Проверьте, что для переходной (2 х 2)-матрицы вида "-(';'.-,)■ °**<*1-
§3.5. Байесовский анализ цепей Маркова: априорные и апостериорные распределения теорема Сильвестра ведет к спектральному разложению р _ (я/(Р + Я) р/(р + Я)\,п_п_^{ Р/(Р + Я) -Р/(Р + Я)\ Г" [q/{p + q) р/(р + q))+(l Р ® \-q/{p + q) q/(p + q) ) ' Найдите выражения для элементов m-шаговой переходной матрицы Рт: т—\ т—\ №=pY,v-p-q)k' P^ = qJ2^-p-^k' <3A27) k=i k=\ а также аналогичные формулы для р^ и р^\ т = 1, 2, ... Решение. Сразу же видно, что \p + q' p + qj Тогда для матрицы Рт выполняются соотношения рт _ (Я/{Р + Я) Р/(Р + Я)\,П_п_п\т( Р/(Р + Я) -Р/(Р + Я)\ Г - [q/ip + q) p/(p + q))+(l P q) {-p/(p + q) q/(p + q) ) ' Отсюда в дополнение к равенствам (3.4.27) получаем рм_ (1-(1-р-яГ\ ш (\-(\-р-яГ\ п ри -р{ \-(1-р-я) )' и Р21 -д{\-(1-Р-я) )■ Подробное изложение свойств распределения Уиттла можно найти в статье: BilUngsley P. Statistical methods in Markov chains // Annals Math. Statist. 1961. V.32. P. 12-40. § 3.5. Байесовский анализ цепей Маркова: априорные и апостериорные распределения Байесовские инстинкты 2 Последний из Байесовцев Статистик, начинавший как Частотник, но пришедший к Байесовству4 (Из серии «Фильмы, которые не вышли на большой экран».) При байесовском подходе неизвестный параметр 9 рассматривается как случайный с заданным априорным распределением Прг. В этом параграфе мы вновь сосредоточимся на случае, когда 9 — это либо пара (X, Я), которая меняется внутри множества 7с, заданного в формуле (3.1.5), либо матрица Р, которая меняется внутри множества V, заданного в формуле 4Ср. с названиями фильмов «Basic Instinct 2», «Last of Mogicans».
Глава 3. Статистика цепей Маркова с дискретным временем (3.1.7). Вопрос в том, что считать «естественным» вероятностным распределением Прг параметра 9. Во многих приложениях предполагают, что Прг это произведение распределений Дирихле (или, более общим образом, распределений Лиувил- ля). Формально в случае, когда 9 = (X, Я), Прг определяется как плотность распределения гсрг(Х, Я) относительно меры Лебега d\ x dP на множестве % из формулы (3.1.5); см. первое уравнение из (3.1.13). Плотность распределения имеет в этом случае вид произведения: тсрг(Х, Р) = 7tQr(X)nprr(P), где ЛдГ(Х) совместная плотность распределения элементов Ху вектора начальных состояний X, а лргг(Я) это совместная плотность распределения элементов рц матрицы перехода Р. Далее, <(Х) = г(Х>*)П™г Х = (ХУ), (3.5.1а) <^)=ПГ(£^)П& р={р^ (3-5-1б) Здесь параметры bj и ац это неотрицательные числа, /, /' G /. Формулы (3.5.1 а, б) следует использовать с оговоркой, поскольку X/ и рц удовлетворяют соотношениям ^Х/ = 1 и ^Рч = 1 V/ € /, т. е. не являются линейно / независимыми. Это означает, что совместные плотности распределения КцГ(Х) и 71РГГ(Я) нужно рассматривать как заданные на линейно независимых св. (но только если исключить один элемент из вектора X и один элемент из каждой строки матрицы Р). Напомним, что аналогичный комментарий сопровождал определение мер Лебега в формуле (3.1.13). Как нетрудно видеть из формулы (3.5.1 а, б), плотность распределения 71дГ(Х) относится к тому же типу, что и совместная плотность распределения элементов одной строки матрицы Р. Поэтому можно сосредоточиться на изучении плотности распределения тсрг(Я) = к(ргг(Я) из формулы (3.5.16), опуская индекс «tr». Иными словами, мы рассматриваем случай, когда 9 = Я изменяется внутри множества V, определенного в формуле (3.1.7), или даже только на множестве его внутренних точек Р1П из формулы (3.1.8). Как было отмечено в замечании 3.1.1, если Р е ?ш, то матрица Я неприводима и апериодична, значит, имеет единственное инвариантное распределение тс. Подробный обзор распределений Лиувилля содержится в статье: Gupta R. D., Richards D. S. Я. Multivariate Liouville distributions // Journ. Multivariate Anal. 1987. V.23. P. 233-256.
§3.5. Байесовский анализ цепей Маркова: априорные и апостериорные распределения Пример 3.5.1. Напомним (ср. с примером 3.1.3), что для цепи с двумя состояниями {1,2} матрицу Р= ( ~р р J можно отождествить с парой (р, q), а множество V можно считать замкнутым единичным квадратом [О, 1] х [0, 1]. Тогда для плотности распределения (3.5.1 б) получим формулу лрг(Р- Я) = Г(а,1+а12)Г(а21+а22) _ , , а21-\(1 _ ча22-1 /3 5 2) Г(ап)Г(а12)Г(а21)Г(а22)11 Р) Р Я V Я) ■ V*-*) Вспомнив, что 1/В(а, Р) = Г(а+ Р)/Г(а)Г(Р), видим, что получили произведение двух бета-плотностей 1 '< \Qli-l „Qio-l В(аи, ац) (1-р)а''-у'2-\ 0<р<1 Легко считаются все моменты элементов матрицы, например, РГг, 1 _ Цац +ai2)r(a2i +a22) Dln . ._, . _ аи tlpnj = г, лг, .„, .„, .п(оц + 1, a12)o(a2i, а2г) = Г(ап)Г(а,2)Г(а21)Г(а22) v~" " »"'"w "> ац+аа' и т.д. Подробности см. в примере 3.5.4. Учитывая вышеизложенный факт, распределения Прг с плотностью крг(Р) типа (3.5.1 б) иногда называют произведениями многомерных бета- распределений. Важную роль играет так называемая интегральная формула Дирихле. В ней содержится известный факт из математического анализа: Q/.+I-1 ... /*?'-,...j#-,f 1-X>ij dXl...dx„ = An '=' _ Г(а,)...Г(ап+1 (3.5.3) Г(а, +... + a„+i)' Здесь область интегрирования имеет вид A„ = Uxi,...,x„):xi,...,x„^0, Y^x^ll CR", а а.\, ..., an+i —положительные числа. Аналитическое доказательство формулы (3.5.3) довольно громоздкое. Более прозрачное доказательство можно получить с помощью вероятностных методов; см. ниже.
Глава 3. Статистика цепей Маркова с дискретным временем Доказательство формулы Дирихле (3.5.3) проводится следующим образом. Рассмотрим независимые св. Y/i~Qam(a/i, 1). Совместная плотность распределения /у ,уп+| величин Y\, ..., Yn+i—это произведение вида е-(*1+-+Л| + |) а _, а | /к г.+.(01.---.0«+1)=г(а,) ...r(an+1)i/l1 "•^+1 ' (3.5.4) i/i, ...,i/n+i >0. Удобно использовать такую замену переменных: Ki = Ki, V2 = Y2 Vn = Yn, Vn+l = Yi+... + Yn+l и ■^1 = 7/ 1 •■■> Хп = -Г/ , Лл+1 = "л+1. Ул+1 I'n+I Тогда совместная плотность распределения /V v„+, с.в. V\, приобретает вид V, л+1 fv ,Vn+,{Vl> •••' Vn+\) = J ——^yn+i-^y() l(yn+i^^u,), wi vn>0. Г(а,)...Г(ал+1) /=i an+i-l i=l Якобиан 0(X\, . .., X„+i) /xn+i 0 0 0 ... 0 Jt,\ ' 0 xn+\ 0 0 ... 0 x2 • 0 0 *„+, 0 ... 0 jc3 V 0 0 0 0 ... 0 \) равен *"+1. Отсюда получаем следующую формулу для совместной плотности распределения fx,,...ja+i св. Х\, ..., Я„.ц: /х, хп+](х\, ..., л:п+|)' Г(а,)...Г(ая+1) /=1 ап+|-1 (3.5.5) Теперь, интегрируя по переменной хп+\, получим совместную плотность распределения fx,,...jc„(xi, ■■-, хп) св. Х\, ..., Хп. Прямой подсчет дает для /*,,...,*,, (*ь • • •. хп) выражение Г(а, + ... + ад+|) Ql_i „_! Г(а,)...Г(ал+1) *• ■■■х" 1-Е* (=1 Qn+1-l (3.5.6)
§3.5. Байесовский анализ цепей Маркова: априорные и апостериорные распределения Доказательство формулы (3.5.3) завершается тем наблюдением, что выражение (3.5.6) определяет плотность распределения (т. е. неотрицательную функцию, интеграл от которой равен 1). □ Определение 3.5.2. Для заданных а\, ..., ап+\ > 0 плотность распределения Нх, X ^-r(fll+--- + fln+l) «,-l a„-\ Г(хи...,хп)- Г(а() г(ал+1) *, ...*„ х 1_Х/') 1(12*<1)' *!.•■•. *»>0. (3.5.6а) называется плотностью распределения Дирихле; обозначим ее fD'T(x\, ... .. .,хп). О векторе X, составленном из св. Х\, ..., Хп с совместной плотностью распределения fD,r(x\, ..., хп), говорят, что он имеет распределение Дирихле с (векторным) параметром а, или, кратко, Dir(a), и при этом записывают (ХЛ (а- ^ X = I : ~ Dir(a), где а = Возвращаясь к формуле (3.5.16), видим, что совместная плотность распределения лрг(Я) с параметрами а.ц, i,j£l, является произведением по i £ I плотностей распределения Дирихле Dir(a,-) с векторными параметрами а,- = (ац, ] £ /). Более того, множитель г(е-)пС определяет в этом произведении совместную плотность распределения элементов рц, j £ I, строки с номером i в переходной матрице Р= (рц). Из формулы Дирихле следует более общая формула Лиувилля: j... j g(Xl +... + xn)xaS-[... хап"~{ dxi... dxn = h = Г(а,)..-Г(ап+1) [g{t)tal+...+a,-l dt (357) Г(а, +... + a„+i) J fiW v ' {x^0,xt+...+xn<h} верная для любой функции g, для которой интеграл в правой части корректно определен.
Глава 3. Статистика цепей Маркова с дискретным временем Пример 3.5.3. а) Рассмотрите распределение Лиувилля, Liouv(g, h) с совместной плотностью распределения /Liouv(*i, ...,*„) = Cg(Xl +... + *„)*?'-' .. .**■-' !(*, +... + *„ ^ А), х\, ..., хп ^0, а1,...,а„>0. (3.5.8) Здесь g(s), s > 0, — заданная функция, h > 0 — параметр, а С > 0 — нормирующая постоянная, выбранная таким образом, что /■ rm(xl,...,xn)dxi...dx„ = l. Убедитесь, что плотность распределения (3.5.8) совпадает с распределением Дирихле, Dir(a), которое имеет плотность /Л+1 ч Л, ...,*„ >0, (3.5.9) если положить h = 1 и g(s) = (1 - s)fl"+1-1. Здесь a = (aj, ..., а„, an+i). б) Выведите формулу Лиувилля (3.5.7) из формулы Дирихле (3.5.3). Решение, а) Уравнение (3.5.6 а) следует из (3.5.8), если выбрать h и g, как указано, непосредственной подстановкой. Значение соответствующей „ „ r(ai + ... + а„+\) постоянной С равно -±-—-———T^L, что вытекает из предыдущих вы- 1 (<Zi) ... I (fln+l) числении. б) Интеграл (3.5.7) равен h JeV) I x<?-l...xan°-Ux\...dxn_{dt = 0 {xi+...+x„=t} h I _t = Jg{t) J ^'-'...^'"'('-E'/V dx{...dxn-xdt. о f»-i i /=1 После замены переменных „ — *' „ — *"-' 1/1 — у, •■•. 1/n-l - ——
§3.5. Байесовский анализ цепей Маркова: априорные и апостериорные распределения этот интеграл приобретает вид л л-1 \ а„-\ В силу соотношения (3.5.3) внутренний интеграл в квадратных скобках равен Т(ах)...Т(ап) Г(щ +... + а„У чем и завершается доказательство. П Пример 3.5.4. Моменты распределения Дирихле определяются формулой E(X?...X*") = jx?...x*iD»(xu...,xn)dxi...dxn. А" Докажите, что для любых oti > — а\, ..., осп > — ап выполняются соотношения г( Е а, + Е «*)/=■ 1; В частности, E№)-f. Вв = аЙШг, VarXt = ^f (3.5.П, и Е№-^) = П5Й7=Т' Е(ад) = ^ТТ)' (3-5Л2) 1=! где а = а\ + ... + ап+1. Решение. Запишем Е(Х?...Х*П") _Г(а,+... + ап ' " - ' " ^'-' Г(а,)...Г(ая+| Ь±1> [... [xal,+*t-l...xan"+a"-l(l-Y/x^J "+1 dxi...dx„,
Глава 3. Статистика цепей Маркова с дискретным временем полагая Ап = I Х[ ^ О, Е Xi < И, и применим интегральную формулу Дирихле. Получим '~ ,П+\ ч г(£«) p/yct, уд„ч= v/=i ' Г(а1+oti)-..r(ai+ая)Г(ая+| С1Л1 •••*«> Г(а,)...Г(ая+1) ,«+■ - ч г( Цщ + Т.*-,) ,п+\ ч r(se0 y=i ' тт Г(а,- + а, /л+1 п ч 11 Г(а Пример 3.5.5. Проверьте, что среднее значение Ец и дисперсия Vjy элемента (г, /) переходной матрицы с совместной плотностью распределения, задаваемой равенством (3.5.1 б), имеют вид а-ч ( Е aik ~ ain Ец = А, Vij = -V- т • (3.5.13) ?-' (?-)2(?-Ч к ' ч к Проверить, что ковариация элементов (г, /) и (/, /') равна Сщ,=~- г» т. (3.5.14) (Еяи) (Ея/* + 1) Решение немедленно вытекает из соотношений (3.5.11)—(3.5.12). Дополнительные сведения содержатся в книге [М]. □ Пример 3.5.6. Пусть Sn+\ = Y\ + ... + Yn+\, где св. Yk ~ Gam(ak, l) независимы в совокупности и а = а\ + ... + ап+\. а) Докажите, что выполняются соотношения X* = -^-~Bet(a*,a-a*). (3.5.15) •->л+1 б) Докажите, что совместное распределение имеет вид ХА ~ Dir ( % ). '/ \a-ak-a,J /a\ в) Для симметричного распределения Дирихле Dir(a), где а= I : , докажите, что \aJ Xi~Bet(a,na), /= 1 и. (3.5.16) Здесь Bet(a, Р) означает бета-распределение.
§3.5. Байесовский анализ цепей Маркова: априорные и апостериорные распределения Указание. При доказательстве утверждений п. а) и б) сделайте такую замену переменных: Xi = с—> 1=1, ■■., п, Xn+\—Sn+\ •->л+1 и проинтегрируйте по избыточным переменным. Например, совместную плотность распределения х\ и х2 можно записать в виде /x,A(*i, x2) = Cxa^xf-\\ -хх -^Г+'-'х х / jff"1 ...#-'(l- xi=^_x\ dxz...dxn, (3.5.17) где Л„_2 = <х3,...,хп^0, ^xi < 1 - х\ - лг2 L ^ i=3 J а С — нормирующая постоянная, которую нужно выбрать так, чтобы интеграл от функции fx,,x2 по переменным dx\ dx% был равен единице. Вводя новые переменные и,- = jq/(1 — х\ — х%), i = 3, ..., п, и вычисляя интеграл по формуле Дирихле (3.5.3), получим утверждение б). в) Аналогично маргинальная (одномерная) плотность распределения fx,(x\) св. ^i равна г ( £*'V_I Сх\-\\ - x{f-x ха2~1.. .ха-х 1-f^ dx2...dxn = An B(a,na)Xl (l Xl) Здесь, как обычно, В(а, па) = Т(а)Т(па)/Т((п + 1)а) обозначает бета- функцию. □ п (* Пример 3.5.7. а) Пусть : ~Dir W Докажите, что для суммы \ая+1> Y — Х\ + ... + Хп выполняется соотношение K~Bet(a,-|-... + an, a„+i). (3.5.18)
Глава 3. Статистика цепей Маркова с дискретным временем б) Докажите, что распределение вектора Х^ = I : ) при условии k < п имеет вид \xk/ / а, \ Xk ~ Dir ак (3.5.19) \a.k+\ + ... + an+i/ в) Положим Y\=Xi + ... + X„lt Y2= ХП[+\ + ...+ ХП1+П2, ..., Yk = = Ял,+...+„„_,+i + ... + Xni+...+nk. Докажите, что / о(1) \ Y* = Dir a(k) \a(k + 1)/ (3.5.20) где a(l) = ai +... + аП], (3.5.21) a(k) — ant+n2+_+ni_l+i +... + ani+...+„t, a(k + 1) = аП|+Л2+...+„Л+1 + ... + a„+i. Указание. К п. а) примените формулу Дирихле (3.5.7) с функцией g(t) = = (1 — t)a"+i~x. К п. б) применить те же вычисления, что и в примере 3.5.6. В п. в) совместная плотность распределения /у yt(£|, ..., tk) пропорциональна произведению ,а(1)-1 ,a(ft+l)-l ll ■••Lk+\ где ti + ... + tk+i = 1, т.е. св. Ya имеет распределение Дирихле с параметрами а(1), ..., a(k + 1). □ В томе 1 обсуждался феномен сопряженности заданного семейства (или класса) распределений. Смысл этого понятия состоит в том, что в случае, когда априорное распределение Прг взято из заданного класса (зависящего от одного или нескольких параметров), апостериорное распределение при заданном выборочном векторе х принадлежит тому же семейству (классу). В этом случае нам нужно лишь указать, как именно параметры апостериорного распределения задаются в виде функций выборочного вектора и параметров априорного распределения. Напомним, что если априорное распределение имеет плотность распределения тг.рг(0), 0 € 6, и функция правдоподобия выборочного вектора х имеет вид Цх; 0) или /(х; 0), то апостериорная плотность распределения задается формулой ярО5'(01 х) ос ярг(0)Цх; 9), или rcpost(01 х) ос крг(0)/(х; 0).
§3.5. Байесовский анализ цепей Маркова: априорные и апостериорные распределения Коэффициент пропорциональности определяется здесь тем условием, что интеграл от плотности itposl(0|x) равен 1. Параметр 0 может быть скалярным или векторным; наибольшая неопределенность, до некоторой степени изученная нами в предыдущих параграфах, имеет место, когда 0 = (X, Р) е К или 0 = Р е V. Пример 3.5.8. Пусть Х\,... ,Х„ — н.о.р.с.в. со значениями £е{1,. ..,х} и одинаковыми одномерными вероятностями Bk = P(X = k). /8,4 Предположим, что вектор 6=1:1 случайный и имеет распределение /e-\ W Л'4 Дирихле Dir I : I. Тогда при заданном выборочном векторе х = I : VW / пх + ai \ \*п апостериорное распределение вектора 6 — это Dir I 1, где Пк = = #{/:/= 1, ..., п, xi = k}. \пх + а») В частности, апостериорное среднее значение св. 0^ равно отношению УС (пи + ак)/{п + а), где а = £ ак. Указание. Это есть немедленное следствие соотношения (3.5.11). □ Пример 3.5.9. Рассмотрим ц.м.д.в. на конечном пространстве состояний / = {l,...,s}, где переходная матрица Р выбирается случайным образом с плотностью распределения прг(Р), PEVm, a Vm — это внутренность множества размерности s(s — 1), определенного в формуле (3.1.8). Проверьте, что семейство плотностей распределения Дирихле (3.5.1 б) является сопряженным относительно приведенной функции правдоподобия /(х; Р) = T\p"j, т.е. проверьте, что в случае, когда itpr(P) имеет вид './=1 (3.5.1 б) с заданным набором значений а,у > 0, апостериорная плотность Kpost(P|x), определяемая формулой 7tpost(P|x)oc/(x, Р)крг(Р), вновь имеет вид /€/ ч kel ' /€/ Найдите значение а'ц как функции от а.ц и х. Указание. a'ik = Щк + Щк, где п,к — это элемент матрицы подсчета переходов, определенной в соотношении (3.2.1). □
Плава 3. Статистика цепей Маркова с дискретным временем Пример 3.5.10. Предположим, что распределение переходной (2 х 2)- матрицы вида Р= ( ~Р Р ) из примера 3.5.1 является произведением двух бета-распределений с плотностями где а, р, у, 8 > 0. Запишите матрицу в альтернативной форме Р = /1-PI2 PI2 \ V Р2\ 1 -Р21/ а) Проверьте, что среднее значение Е[р,2 ] элемента матрицы р\^ = = (Pm)i2 равно gfsilе^(-')'(Р+Д;'1!;+6,,. ->.* <***•> А=0 /=0 где (л;)^ = Г(л; + k)/T{x) = х(х + 1)... (х + k — 1) — символ Почхаммера. Далее, проверьте, что среднее значение Е[р^ ] элемента р^ = (Pm)2i задается формулой E[#] = ££ci<-l)<i^»L_ „_,,, (3.5.246, А=0 /=0 а среднее значение Elp^p^] равно /,я=0 /=0 б) Элементы Ki и Гсг инвариантного распределения к матрицы Р стали теперь случайными величинами. Проверьте, что средние значения E[ki] и Е[гсг] задаются формулами Е[тс1_ а у yr// n/ (P)*-f(Y)/ «=U /=U Указание, а) В примере 3.4.4 было доказано, что k=0 (3.5.26)
§3.5. Байесовский анализ цепей Маркова: априорные и апостериорные распределения т Представьте множитель (1 — р — q)k в виде ]Г Clk(—l)lql(\ — р) и ис- пользуя независимость св. р^ и ргь получите представление т-\ k Ef^'l = £ E^-D'E^] EIpO -Р)кЛ k=0 1=0 Далее, произведение E[q'] Е[р(1 - p)k~'] равно отношению В(я+1,р + й-/)В(у + /,») fl(«, Р)В(т, 5) Представляя полученные множители в виде соответствующих гамма- функций, получите соотношение (3.5.24 а). Аналогично получите выражение (3.5.24 6) для Е[/?2| ]• Далее используя разложение т-\ pmqm=pq'£(l-p-qy+k, k,j=o получите формулу (3.5.25) для E[p\^pffl]. Уравнение (3.5.26) получится в результате предельного перехода при т —» со. Небольшое аналитическое замечание: ряд в (3.5.26) сходится условно, но не абсолютно. См. снова [М]. □ Пример 3.5.11. Пусть (Хт) — ц.м.д.в. с двумя состояниями. Предположим, что переходная матрица Р = ( р р ) цепи (Хт) случайна и распределена с плотностью-произведением f, как в формуле (3.5.23), причем параметры а, р, у, 8 положительны. Далее, предположим, что задана премиальная матрица «-М-СЭ- элементы которой Гц = а, Ь, с, d Gl обозначают премии (или штрафы), полученные в случае, если цепь (Хт) перешла из состояния I в состояние /. Определим средний дисконтированный премиальный вектор (ЩР)\ \Vi{P)) , с элементами 2 W) = $>" £ pfPikf,k, ' = 1,2, п^О у,А=1 где р S [0,1/2) — это дисконтирующий множитель. Поскольку переходная матрица Р предполагается случайной, элементы V\{P) и 1^(Я) также являются случайными величинами.
Глава 3. Статистика цепей Маркова с дискретным временем Установите соотношения tmj (l-p)(a + P) + , <*Р у^ у^г;ла/ n/ (P)*-/(Y)/ + (1 - р)(а + Р) Z-/ 2^ U*P v ^ (и + р + i)A_,(Y + 5), *>о /=о |-(Y + Qc + 8rf a(P + 6-/) + 6(ct+l)1 - _ __ Х I Y + 5 + / а + р+1+A-Z J (J>5^7) 1 2J (l-p)(Y + 5) + ASsO /=0 (а + Р)*_,(г + 5)/+. a(P + fe - /) + fa c(y + / + 1) + ^S а + p + A-/ Y + S +/+ 1 Решение (набросок). Пусть М обозначает матрицу параметров: . (3.5.28) М - С Э- и пусть Ел! означает математическое ожидание относительно плотности распределения f(p, q) из формулы (3.5.23) с параметрами, заданными матрицей М. Далее, положим Si/(M) = ^p'"E«[/7f)], /,/=1,2. Тогда сумму S,/(M) можно записать в виде ряда в терминах элементов матрицы М, а именно т ft ^<*>=^EEf"Eci(-,)< №;-:<*;+8)/ r m>[ k=0 1=0 Г или, если изменить порядок первых двух сумм, к С тл\— аР V^W/Jfe/ n/ (P)ft-/(Y)< ft^O /=0 Аналогично S2, (Af) = 1-р ЕЕ^н)'^ / (P)*-i(Y)/+i А>0 /=0 (a + P)t_,(Y + 8),+,- (3.5.29) (3.5.30)
§3.5. Байесовский анализ цепей Маркова: априорные и апостериорные распределения Можно показать, что ряды (3.5.29), (3.5.30) сходятся абсолютно при р < < 1/2. Окончательно SU(M) = £ pm(l - Ем№) = 137 - 5'2(М), (3.5.31) и аналогично S22(M) = j2— - S2I (Af). (3.5.32) l -p Далее, обозначим через Тц(М), i, j = 1, 2, матрицу, полученную путем увеличения на 1 (г, /)-го элемента матрицы М: Т»М = {*+Ч). 7-12(Af) = (-Pj1). и т.д., а через Е-щм) будем обозначать математическое ожидание относительно той же плотности, что и в формуле (3.5.23), но с параметрами, определяемыми матрицей Тц(М). Тогда имеет место следующее равенство: 2 2 Ем[V*] = Y1 ЕмШгш + J2 ЗД*М) Е/иМО*- ' = L 2. (3-5-33) где Sij(Tjk(M)) определяется формулами (3.5.29)—(3.5.32), но с заменой М на матрицу 7}*(М). Это уравнение ключевое. Подставляя в него выражения для Sij(Tjk(M)) и переставляя подходящим образом слагаемые, в конце концов получим уравнения (3.5.27) и (3.5.28). Например, EM[Vl] = ^a + ^b+(T^-SMTu(M)))^a + _ fia + <xb ар -(1-р)(а + Р) + (1-р)(а + Р) Х х £ ± СУЫ/ %*% И,с + Д* " С - ОД, А^О /=0 и простые вычисления показывают, что А - Y+/ Я- & /_ Y + 8 + Z' Y + 8 + /* г= Р + *~' п = «+1 «+Р+1+А-Г а+р+1+Л-Г откуда и следует уравнение (3.5.27). П
Плава 3. Статистика цепей Маркова с дискретным временем § 3.6. Элементы теории управления и теории информации Начнем с двух примеров, относящихся к задаче о секретаре (см. §1.11). Пример 3.6.1. Рассмотрим н.о.р.св. Х[, ..., Хт, Xj~\J(0, 1). (Можно считать, что Xj соответствует «качеству» объекта /, выбранного случайным образом из «неограниченной популяции», без возвращения.) Как и в примере 1.11.1, мы рассматриваем задачу о секретаре с единственным выбором, имеющую целью выбор объекта наивысшего качества путем сравнения текущего объекта с предыдущими, при невозможности возвратиться к ранее отвергнутым объектам. Напомним, что в §1.11 окончательные (и относительно простые) значения вероятности наилучшего выбора возникали в пределе при т —> со. Например, если позволить не единственный выбор, а выбор двух объектов, то вероятность успеха повышается с 0,3678 до 0,5910. Сейчас же мы будем рассматривать случай единственного выбора при полностью известном распределении и будем определять оптимальную стратегию. Как будет видно из примера 3.6.2, эта информация о распределении увеличивает вероятность успеха до 0,5802, что ненамного меньше, чем 0,5910. Решение. Нетрудно убедиться, что для любых / = 1, ..., т существует такое оптимальное пороговое значение 6,- G (0, 1), что на шаге т — i + 1 следует выбрать появившийся объект, если ^m_,+i = max[Xi: 1 < / ^ < т — i + 1] > b[, и отвергнуть его, если ^m_,+i < 6,- или Xm-i+\ < max[Xi: 1 </<m — i]. (В случае, когда ^m_,+i = max[Xi: 1 </<m — i+ 1] = £,-, любое из двух решений ведет к одной и той же вероятности успеха.) Действительно, Ь[ = 0 (это означает, что выбирается последний из появившихся объектов, если он доставляет глобальный максимум, и до этого выбор не сделан), тогда как bi = 1/2 (что является медианой равномерного распределения U(0, 1)). Остальные ft,- будут превышать 1/2 (и монотонно растут по /); чтобы вычислить их точно, нужно использовать вышеупомянутое условие нейтральности. Предположим, что выбор не сделан на (т — /)-м шаге и Xm-i+\ = = max[X;: 1 < / < m — / + 1] (в этом случае назовем объект т — i + 1 кандидатом). Остался i — 1 шаг. Тогда х = Ь\ это решение уравнения х1-]="£С\-Лх1-1-'(1-хУ. В самом деле, если мы остановимся (сделаем выбор), то вероятность успеха равна л;'-1. Если мы продолжим, то может появиться /' ^ i — 1 значений, больших чем х. Если мы остановимся при первом появлении такого
§3.6. Элементы теории управления и теории информации значения, то вероятность того, что это абсолютный максимум, равна 1// в силу симметрии. Для i = 2 получим х = 1 — х, т. е. х — 1/2. Поэтому Ъч — 1/2, как и утверждалось. Для i — 3 после упрощения получим 5х2 — 2х — 1 = О, или л; = 6з = (1+Уб)/5и0,6899. Для не слишком больших значений i+ 1 можно bi+\ найти численно: i+1 2 3 4 5 6 10 15 bi+\ 0,5000000 0,68989795 0,77584508 0,82458958 0,85594922 0,91604417 0,94482887 i+1 20 25 30 35 40 45 50 bt+\ 0,95891663 0,96727367 0,97280561 0,97672783 0,97967655 0,98195608 0,98377582 Заметим, что оптимальный порог й,- не зависит от т > L □ Проблема Генерального Секретаря (Из серии «Фильмы, которые не вышли на большой экран».) Пример 3.6.2. Продолжая предыдущий пример, зафиксируем стратегию (не обязательно оптимальную) с порогами d\ ^ di ^ dz ^ ... ^ dm, где 0 ^ di ^ 1. Это означает, что мы выбираем первый объект, чье качество Xj доставляет максимум тах[Л/: 1 < / </'] и превосходит dj. Докажите, что вероятность успеха на первом шаге равна />(i) = -LA т тогда как Р(г + 1) на шаге г + 1 задается формулой Р{г+\) = Т-^—-Т-^— -^1, 1<г<т-1. /—i г{т - г) /—i m(m -r) m i=l /=1 Решение. Выражение для Р(1) получаем немедленно: 1 — d™ дает вероятность того, что по крайней мере один из объектов имеет качество по крайней мере d\ и 1/т — это условная вероятность того, что при наступлении указанного события, наилучшее качество имеет объект Х\ (в силу симметрии). Для произвольного значения г возьмем i, 1 < i < г, и рассмотрим вероятность того, что первые г шагов не привели к выбору, и что (глобально) наилучший объект находится среди оставшихся т — г объектов. Эквивалентным образом, это вероятность того, что Vt = = 1, ..., г таких, что качество Xi наивысшее среди Х\, ..., Хг, имеем, что
Глава 3. Статистика цепей Маркова с дискретным временем Xi < di и Xi < max[Xi, ..., Хт]. Как и ранее, вероятность события X; = = max[X|, ..., Xr] ^ di равна d[/r. В рамках этого события существует возможность того, что выбор не осуществится, хотя Xt будет глобальным максимумом тах[Х\, ..., Хт]. Вероятность того, что Xi = max[Xi, ..., Хт\ < dt равна d™/m. Значит, разность dl/r — df/m задает вероятность такого события: a) Xi < dt, б) Xi = = max[Xi,..., Хг] ив) Xi < max[Xi,..., Xm]. Поскольку пороги d\, ..., dm были выбраны монотонно убывающими, в рамках последнего события ни один Xi с / < i не может превзойти d[. Суммируя разности d[/r — d'p/m no 1 ^ / ^ г, получим вероятность того, что выбор не будет сделан среди первых г объектов и что объект наилучшего качества находится среди оставшихся т — г возможностей. При наличии этой информации вероятность того, что (г + 1)-й объект Хг+\ является глобальным максимумом, равна УШг-dT/m). т — г i—* (=1 Это выражение задает вероятность того, что выбор не будет сделан среди первых г возможностей, и что Хг+\ — max[^i, ..., Хт], т.е. Хг+\ имеет глобально наивысшее качество. Если мы выберем (г+ 1)-й объект, когда Хг+\ имеет глобально наивысшее качество, мы добились успеха. Но есть шанс, что мы не выберем (г+ 1)-й объект при том.что он глобально наилучший, и эта вероятность равна d™+x/m. Это слагаемое нужно вычесть, и мы получим уравнение для Р(г+ 1). □ При выборе оптимальной стратегии, когда dj = bm-i+\, I — 1, .... т, получаем оптимальную вероятность /50ПТ(успеха): 1 — Ьт /50ПТ(успеха) = -+ т т г=2 E"m-i+\ V^ °m-i+l °m-r+l (/■- l)(m- r+ 1) 2-~i m(m - r+ 1) m Следующая таблица содержит эти вероятности для выборок при различных т. т Рот т Рот 2 0,75000 20 0,594200 3 0,684293 30 0,589472 4 0,655396 40 0,587126 5 0,639194 50 0,585725 10 0,608699 оо 0,580164
§3.6. Элементы теории управления и теории информации Секретари делают это без проблем. (Из серии «Как они делают это».) В оставшейся части этого параграфа мы обсудим взаимосвязь между статистикой и теорией информации. Часть этого материала будет использована в §3.8. Будем использовать обозначения в.п.р. (вероятностная плотность распределения) и д.р.в. (дискретное распределение вероятности) и рассмотрим оба случая одновременно. Определение 3.6.3. Пусть X — случайная величина с д.р.в./в.п.р. f(x\ 9), хеК, зависящим от параметра 9 G 9. Предположим, что 9 — это интервал на действительной прямой R и все д.р.в./в.п.р. f(x; 9) имеют один и тот же носитель — множество § С R, которое будет конечным или счетным дискретным множеством в случае д.р.в. или интервалом в случае в.п.р. (Это означает, что f(x; 9) > 0 для любых 9 G 9 тогда и только тогда, когда х е §.) Предположим, что f(x\ 9) зависит от 9 6 9 гладким образом. Оценочная функция (случайной величины X) это случайная величина V(X; 9), полученная при подстановке случайного аргумента X в логарифм правдоподобия: Щ;9) = ^1п/(*;9). (3.6.1) При достаточно мягких предположениях v df(x; 6) EeV(X;Q) = { fdf{x;Q) = 0. / 96 (Достаточно записать d[\nf(x; Q)]/dQ— [df(x\ B)/dB]/f(x; 9) и вынести производную д/дб за знак суммы/интеграла.) Информация Фишера (которую содержит случайная величина X, имеющая д.р.в./в.п.р. f{x; 9)), это величина У(9), определяемая как У(9) = E9(V(X; 9))2 J(§Qf(x;Q))Z/f(x;Q)dx. (3.6.2) Иными словами, У(9) = Vara V(X; 9). Аналогичное определение можно дать в более общем случае, когда 9 G 9 С Rdt а х заменен вектором х £ W1. (Например, многомерная нормальная плотность с неизвестным средним и неизвестной ковариационной
Глава 3. Статистика цепей Маркова с дискретным временем матрицей соответствует § = R" и 0 = (у., Е) £ цл+л(л+0/2 ) Тогда вместо скалярной величины говорят об информационной матрице Фишера У (9) = (У(/(9)), где У,7(9) = Е[У,(Х;9)УДХ;9)] = = < /(i^94«x;e))A(x;e)dx- K,(X;6)N i,j = \,...,d. (3.6.3) *> s Здесь V(X; 9) = ■это векторная оценочная функция: ,ВД 9), V((X;9) = ^ln/(X;9), /=!,...,<*. (3.6.4) Как и ранее, при достаточно мягких предположениях средние значения EVi(\; 9) = 0, а элементы У;Д9) — это ковариации К,(Х; 9) и Vy(X; 9): У,-Д9) = = Cov[V,(X;9), Ky(X;9)]. Далее будем ссылаться на определения (3.6.1)—(3.6.2) как на «скалярный случай», а на (3.6.3)—(3.6.4) — как на «векторный случай». Определение 3.6.4. Пусть /о и /i — это два дискретных распределения/две плотности распределения на R или на W. Положим Щ || /о) = < £1(ЛМ>0)/,(*)1п т fo(x)' | 1 (/,(*)> 0)/, (*) In |gd*. (3.6.5) Величину D(fi || /о) называют по-разному: расстоянием Кульбака (или Кульбака—Лейблера) между f\ и /о или дивергенцией Кульбака (или информационной дивергенцией) между f\ и /о. Еще один популярный термин — относительная энтропия плотности f\ по отношению к /о- Мы часто будем называть ее просто дивергенцией. В случае распределений на двух точках, § = {0, 1}, задаваемых вероятностными векторами (ро, 1 - ро) и (р\, 1 - р\), дивергенция £>(/?,, 1-pi||/7о. l-po) = Piln^ + (l-pi)lnT^i. Ро 1 - Ро Положим в этом определении f](x)\n[f\(x)/fo(x)] =+оо, если /о(л:) = 0, a /i (л:) > 0; таким образом, D(f\ || /0) может принимать значение +оо. Если
§3.6. Элементы теории управления и теории информации /i и /г имеют носителем одно и то же множество § С R или Rd (так что fo(x) > 0 тогда и только тогда, когда х € §, и f\(x) > 0 тогда и только тогда, когда *€§), то суммирование/интегрирование в правой части уравнения (3.6.5) выполняется именно по множеству §. (Структура носителя S не имеет значения: определение работает, когда /о и f\ —д.р.в./в.п.р. на любом заданном множестве.) Индикатор l(/i(*) > 0) можно опустить, если принять стандартное соглашение о том, что 01п 0 = 0 (продолжение по непрерывности). Термин «расстояние» здесь скорее сбивает с толку: величина D{f\ || /о) не обладает свойством симметрии и не удовлетворяет неравенству треугольника (имеются примеры, в которых D(f\ || /о) ф D(fo || /i), и примеры, в которых D(J2 || /о) > Dfo || /i) + D(f\ || /о); см. далее). Однако это понятие имеет глубокий геометрический смысл, и поэтому термин «расстояние» широко употребляется. Дивергенция признаков и вымирание несовершенных форм. Чарльз Дарвин (1809—1892), английский натуралист Связь между информацией Фишера и расстоянием Кульбака—Лейб- лера устанавливает следующая лемма. Лемма 3.6.5. Пусть действует определение 3.6.4. Тогда в скалярном случае имеет место следующее свойство: дивергенция между д.р.в./в.п.р. /(•; 0) и /(•; 0), 0, 0 е в, удовлетворяет соотношению lim °ГС-у?>»'<-:е» = 1/(9). (3.6.6) в-е (6 - б)2 2 или, что эквивалентно, D(f( •; 0 + 8) || /(•; 0)) = ^У(0)82 + о(82) V0 6 в при 8 -► 0. (3.6.7) Аналогично в векторном случае при ||5|| —> 0, 8 G Rd, дивергенция допускает разложение £»(/( ■; в + 5) || /(•; в)) = i(5, /(0)8) + о(||8||2) V0 € в. (3.6.8) Доказательство. (Проведем только для скалярного дискретного распределения с конечным числом исходов.) Предположим, что множество § конечно. Применим стандартную формулу Тейлора, при этом используя
Глава 3. Статистика цепей Маркова с дискретным временем тот факт, что 1п(1 + е) = е - е2/2 + о(е2): £(/(•; 9 + 8) ||/(-; 9)) = £/(*; 9 + 8)In^^ = х€§ = £[/(*;9) + 5^/(*:е) + о(5) х€§ = £[/(*;е) + 8^/(лг,е) + о(8) In /(*; В) f(x;B) + bdf(x;B)/dB + o(b) f(x; В) xes Udf(x;B)/dB ^2d2f(x;B)/dB2 _ s2(dfjx; 6)/Э6)2 R2 l L° /(a:; 6) + ° 2/(jc; 6) ° 2/(*; 6)2 + K '. ^1. <?/(*; 6) , S'ffftxiB) p/fr; 6)/Э6)2 / 52 .2\ .2 = 2^[b-dB— + Y-d¥-+ f(x-B) (~y + SJ+o(8) Суммы производных d/(x; 9)/<Э9 и d2f{x\ 9)/d92 обращаются в нуль. (Как и ранее, производные д/дВ и д2/дВ2 можно вынести за знак суммы.) п (df(x; В)/дВ)2 Слагаемое , /L—— дает нужный результат. □ 1\Х, V) Лемма 3.6.6 (неравенство Гиббса). Расстояние Кульбака—Лейбле- ра D(f\ || /о), определенное в формуле (3.6.5), неотрицательно: £>(/, || /о) > 0. (3.6.9) Равенство имеет место тогда и только тогда, когда д.р.в./в.п.р. совпадают. Доказательство. Воспользуемся элементарным неравенством In у ^ у — 1, у > 0, причем равенство имеет место тогда и только тогда, когда у=\. Подставляя fo(x)/fi(x) вместо у, получим 'ЕН/1М>0)шШ-1) [у 1(М*)>0)ЛМ(щ-1)<** 'EH/iW>0)(/oW-/,W) ./ W(x)>0)(f0(x)-h(x))dx £ 1 - 1 1 - 1 = 0. Равенство имеет место тогда и только тогда, когда \(F\(x) > 0)т++ = /I (X) = 1 (/i (x) > 0), а это в точности означает, что два д.р.в./в.п.р. совпадают. □
§3.6. Элементы теории управления и теории информации Расстояние Кульбака—Лейблера возникает естественным образом /ХЛ в контексте проверки гипотез. Пусть X = : I — случайный вектор, W и вначале предположим, что что элементы Хт — н.о.р.с.в., принимающие значения из конечного множества §. Предположим, что проверяется нулевая гипотеза Хт ~ /о против альтернативы Хт ~ /i, где /о и /i — Г два заданных д.р.в. на Ш. При заданном выборочном векторе х = подсчитаем эмпирическое распределение, образованное частотами п/ Рх(Ь) = ^Чх1 = Ь), 6<Е§. (3.6.10) (=1 Тогда логарифм отношения правдоподобия можно представить в виде Ш)...Мхп) fY Ш) {-i yxK h(b)Px(b) = rc[£>(px||/o)-D(px||/i)]. (3-6.11) Приведем вычисления для наиболее интересных примеров. Пример 3.6.7. а) Пусть /о и /i —два пуассоновских распределения на Z+ = {0, 1, ...}, /о(«) = ^г, Ш) = ^-, nez+. Тогда D(h ii /о) = J2 Щг~(п 1п Xl ~Xl"п 1п Хо+Хо) = = Xj 1п^- + (Х0-Х,) = Х0(г1пг+ 1 -г), г=^-. (3.6.12) б) Если /о и /i —два геометрических распределения на Z+, h(n)=Po(\-p0)n, /i(л) =/>i(l-/?,)", neZ+, то о(П\\[о) = 52рЛ1-ру)п л50 1 -Po Po. i-^- In i—£- + In £■ = -J-£»(p,, 1 - p, || po, 1 - po). (3.6.13) Pi i — Po Po P\
Глава 3. Статистика цепей Маркова с дискретным временем в) Предположим, что /о и /i — два биномиальных распределения на {О, 1, ...,л}, h(k) = Cknpk0(l-p0y-k, /1(fe) = C*pf(l-p,)'-*> fe = 0,l п. Тогда ^(ли/о)=Х)с;/7?(1-/71)в- *=0 Ро 1 — Ро = п P]\nPJ- + (\-Pi)\n1-^- Ро I - РО ■■nD(pi,\-pi\\po,l-po). (3-6.14) г) Пусть /о и /i —два отрицательных биномиальных распределения на Z+: /о ~ NegBin(p0, k) n f\ ~ NegBin(pb k), h(n) = C'1n+k_iPH\-Pi)\ n = 0,l...., 1 = 0,1. Тогда D{f\ II /о) = ^ С*-'_1Ус7*(1 - р,Г [^ In ^i + «In |— n>0 1-Pl PoJ = feln^+*LPi)inl^L = AD(pbl_;,1||p0)1_po). (3.6J5) Po P\ l - Po Pi д) Теперь предположим, что /о и /i — два (дискретных) равномерных распределения: /о ~U[1, «о] и /i ~U[1, П\], fo(k) = —, k=l,...,n0, fo(k) = —, k = l,...,tii. По П\ Тогда согласно определению D(f\ || /о) = +оо, если л; > riQ. Для rtj ^ «о получаем !_ |п т -1- п° 1 "I "I п (3.6.16) *=0 Теперь разберемся с непрерывными случайными величинами. Пример 3.6.8. а) Пусть /о и f\ —две показательные плотности распределения на Ш+ — (0, +оо): /о = \0е-^х\(х > 0), /, =Х,е-х'х1(л; > 0).
§3.6. Элементы теории управления и теории информации Тогда D(h\\fo) = Jhe-hx[(ko-h)x + \n'^ dx = = VIXL + lnX,=f_1_lnr> r=Xo (3617) Л| Ао А| Распространяя эти вычисления на случай, когда /о ~ Gam(a, Xn) и /i ~Gam(a, Xj), получим £»(/,||/o) = a(ln£i Xi . Xp — Xi \ x, )■ (3.6.18) б) Предположим, что /о и f\ — две плотности нормального распределения. Сначала рассмотрим простой случай, когда /о ~ N(Ho, <т2) и /i ~ N(hi, а2) (разные средние, но одинаковая дисперсия), Но, Hi £ R, a2 > 0. Тогда D(/' " f0) = 7bj €-<*-»№№-»^Х-*Я dX = - J / e-(*-U.)2/(2o») [JC - til + fcl ~ Ho)]' dx _ _L - ^o У 2a2 CX 2a2 1 , (Hi ~ Ho) ! _ (Hi ~ Ho) 2a2 + 2a2 2o2 2o2 . (3.6.19) Заметим, что в этом случае D(f\ || /о) = Z)(/n || /i). Теперь предположим, что /о и f\ —две многомерные плотности нормального распределения общего вида: /о ~ N(ho, En) и f\ ~ N(hi, Ei), где Но, Hi е ^" и ^о. Si —две действительные положительно определенные обратимые матрицы размера пхп. Напомним, что плотность многомерного нормального распределения имеет вид _ехр[-1<х-ЦлЕГ'(х-н0>] Тогда, следуя тем же методам, после некоторых вычислений получим 1 D{h\\h)- lngg + tr(E,Eo1-I) + (lH-lio.SoVi-N> , (3.6.20) где, как и ранее, 1 — это единичная (п х л)-матрица, т. е. в случае, когда Eq = Ei = Е, получаем £»(/i||/o) = ^(Hi-Ho. Е-1 (Hi-Но)), (3.6.21)
Глава 3. Статистика цепей Маркова с дискретным временем что обобщает формулу (3.6.19), в то время как для ^о = Ц| имеем D{h II /о) = ^[ВДЕо"1) - ln(det(E,E^1)) - n]. (3.6.22) в) Более трудный пример — это два распределения Коши: /о ~ Ca(oto, t) и /i ~ Ca(ai, т). Здесь Ш = к[(х-ъ)*+т*]' Ш = к[(х-1)*+т*]> XGR' и D(/, || /о) = In (l + (a'4;2ao)2) (3-6-23) В самом деле, замена переменных х i-> х — ai ведет к представлению где a = ai — ao. Дифференцирование этого интеграла по а приводит к равенству ^(а) = -— J (JC2 + T2)[(x_a)2 + T2j dx- Подынтегральная функция в правой части является рациональной функцией с двумя полюсами (нулями знаменателя) в верхней комплексной полуплоскости в точках х = h и х = a + it. Стандартная процедура комплексного интегрирования дает выражение для производной 2а g,(a) = 4h it — a it а2 + 4т2' 2iT(a2-2iaT) 2п:(а2 + 2iax). Интегрируя последнее выражение по а и учитывая, что g(0) = 0, получаем равенство (3.6.23). □ Пример 3.6.9. (Сумматорно-логарифмическое неравенство.) Пусть а\, й2, ... и Ь\, Ьч, . ■. — неотрицательные числа, и £ 6; < oo. Докажите, что ' / \ £а< J2 1 (ai > 0)a, In | Я Y,a') ln YTr (3-6-24) причем равенство имеет место тогда и только тогда, когда а,- = 6,. Решение. Не ограничивая общности, предположим, что все числа положительны. Используем неравенство Иенсена для строго выпуклой вниз функции ф(/) = t\nt, t>0:
§3.6. Элементы теории управления и теории информации где X,- = bi 11 J2 bj J и ti = щ/bi, и получим, что В силу строгой выпуклости вниз равенство имеет место тогда и только тогда, когда а,- = bi. □ Неравенство Гиббса (лемма 3.6.6) утверждает, что дивергенция D(f\ || /о) неотрицательна (см. соотношение (3.6.9)). Лемма 3.6.10 устанавливает более точную границу. Определим (Е1/|(*)-Ы*)|, ll/i-/olb = < Г.... ..... (3-6.25) [J \h(x)-h(x)\dx. Лемма 3.6.10. Расстояние Кульбака—Лейблера удовлетворяет неравенству Я(ЛШ^||Л-Л>||?. (3-6.26) Доказательство. (Только для дискретного случая; доказательство для непрерывного случая аналогично.) На первом шаге покажем, что D(n\\h)^-2\n[J2h(x)l/2h(x) 1/2 (3.6.27) (Здесь суммирование ограничивается точками х = *,-, для которых fi(x) > > 0, и индикатор 1 (/i (x) > 0) можно опустить. Аналогичное соглашение применяется -и далее для различных сумм.) С этой целью запишем т II /о) - 2£ [а(*)•/*/,(*)•*] in [jig]1/2 = = 2[£/,М'/2] £/iWl/a/iMl/2in [(П(х)/Мх)У/2]^уг2. Используем сумматорно-логарифмическое неравенство (3.6.24), положив „ _/.(*/)1/2Ш)1/2 '" ЕЛ to)"2 i h_h(xiy%(xl)* EM*,)"2 " / Отсюда следует неравенство (3.6.27).
Глава 3. Статистика цепей Маркова с дискретным временем Теперь, как и в доказательстве леммы 3.6.6, используя неравенство In у < у — 1, у > О, докажем такое неравенство: -2 ш [Ем*)1/2а>«1/2] > е [ш1/* - ш1/2)2- Наконец, проверим,что i;i/>wI/s-/bw,/2]2>i[E^w-/bwi]2- Действительно, в силу неравенства Коши—Шварца [Е1Л w - /owl]2 = (£ |л w,/2 - /оМ1/2| [/, w1/2+ш1/2])2 < < Е I/- w,/2 - /ow1/2l2 Е [л w1/2+/ow1/2]2- Затем, возводя в квадрат, убедимся, что вторая сумма не превосходит 4. Отсюда и следует неравенство (3.6.26). □ На самом деле более аккуратные выкладки и рассуждения позволяют заменить постоянную 1/4 в неравенстве (3.6.26) на 1/(21п 2). Лемма 3.6.11 (аддитивность расстояния Кульбака—Лейблера). а) (Xl\ И Пусть X=l : и Y = : — два случайных вектора, оба с неза- \Хп/ \yJ висимыми компонентами, причем X, ~/q и У, ~/, . Тогда п ^(/y||/x) = ED(/i)II/o))- (3-6.28) б) Пусть (Хт) и (Ym) — две цм.д.в. на одном и том же (конечном) пространстве состояний I с матрицами перехода Р(0' = (/?).-) и Р(1) = (p\j ) соответственно. Предположим, что цепь (Хт) имеет начальное распределение вероятностей X, = Р(А"[ = i), в то время как (У,) находится в равновесии, Р(Ут = /) = л,- и щ = ^2^iPn\ i, j £ А /е/ Как и раньше, пусть /х и /V обозначают дискретные распределения выборочных векторов X и Y. Тогда D(fy || /х) = Я(я || X) + (я - 1)£П(Р(1) || Р<°>), (3.6.29) где к — (тг,-), X = (X,) и £л(Р<»||р(0)) = ^п.р(')|п^|. (3.6.30) ;,уе/ р</
§3.6. Элементы теории управления и теории информации Доказательство, а) Получаем моментально, с помощью соответствующего преобразования логарифма. И б) Аналогично, при х = I : I е /л получаем \Хп/ D(MI/x) = £P(Y = x)ln£g^ = / Я-1 ч «*, Ц * ч '=• J к п Р(Х = х) 1-1 ... 1-1 ч **, П Pi,i|+ 1=\ П—1 г П—1 (1) х /=i L Л*' ,=1 P*i4+ =^1п£+(я-1)ЕЧ,1п5». откуда вытекает соотношение (3.6.29). П Замечание 3.6.12. Величину £Л(Р(1) || Р(0)) из равенства (3.6.30) можно записать в виде математического ожидания: пО D{1) Еп(Р{1)\\Р{0)) = = £Р(УИ = |\ Ym+l=j)b^ = EYmjn+l\nP-^- (3.6.31a) ijei Pi'i рУпГт+1 оно не зависит от т, поскольку цепь (Ym) находится в равновесии. Эквивалентным образом, пусть р|' и р-' — это вероятностные распределения на /, равные i-м строкам матриц Р(0) и Р(1) соответственно. Тогда определена дивергенция Кульбака D(p\ || р) ), и ее можно рассматривать как функцию на /: /Cr/e/^pf'iipf»). При этом £Л(Р(1) || Р(0)) является математическим ожиданием функции К, рассматриваемой как св. с вероятностным распределением л — (л;): £л(Р(1) у р(0)) = J- 7^(р('> || р}°>) = ЕКК, (3.6.31 б) «е/ и это просто другая форма равенства (3.6.31 а). Часто полезным оказывается «цепное правило»: пусть рх,,х2 — это сов_ местное распределение св. Х\ и Х%, a Pyuy2 —аналогичное распределение
Глава 3. Статистика цепей Маркова с дискретным временем св. Y\ и Уг; в обозначениях леммы 3.6.11 б) //>*„*(/, /) = P(*i = '. X2=j) = hpf, i, ! € /. Тогда D(PYt,Y2 \ V^ /• -\ I PY,,Y«(i, j) V^ (I) 1 n,'Pi/' «и ijei In5 + l„| = D(t: II X) + £n(P(1) || P(0)). (3.6.32) Этот факт можно записать в общем виде. Лемма 3.6.13 (цепное правило для расстояния Кульбака—Лейблера). Пусть Х\, X<i и У], Уг — две пары случайных величин, причем Х\, Y\ принимают значения в множестве §[, а Х2, Уг — в множестве §г. Пусть /x,jf2 и fyuy2 обозначают совместные д.р.в./в.п.р. случайных величин X] и Х2, а также Y\ и Уг, соответственно, и пусть fX] и /у, — это маргинальные д.р.в./в.п.р. св. Х\ и Y\ соответственно. Далее, пусть fx2\xt и fyi\Y[ —это условные д.р.в./в.п.р. св. Х2 при заданной св. Х\ и св. Уг при заданной св. Y\ соответственно. Тогда DUyuY, II /*,л) = Wx, II fY]) + Df (fYt\Yl II /jf,|jf, j, (3.6.33) где DfylifY2\Yl II fx2\X,) = « 2_ IY,(yi) Ъ 1П , , J/l6§l J/26S;. /*2l*|Wli/l) /кг|К| Mj/1 /^<«)//,teU-,).ngSJ rfi/2 rfi/1 ^ 0; (3.6.34) причем равенство имеет место тогда и только тогда, когда fY2\y1 = = fx2\Xr Это приводит нас к обобщению определения 3.6.4. Определение 3.6.14. Величина DfY {fyi\y] || fx2\x,) из равенства (3.6.34) называется условной дивергенцией Кульбака. Теперь можно распространить равенство (3.6.28) на случай произвольных случайных векторов X и Y: D(fy II М = D(fYt || fXl) + Dhi(fWl || /ад) + ... ••• + % Y„_AfY„\Y Y„. /ад,.,*,-,)- (3-6-35)
§ 3.6. Элементы теории управления и теории информации Предположим, что д.р.в./в.п.р. /о и f\ записаны в виде выпуклых линейных комбинаций /oW = XgoW + (1 - Х)Ао(х) " /i (*) = Ш*) + О - Х)Л, (*), (3.6.36) где 0 < X < 1, a g,- и Л;, г = О, 1, — это д.р.в./в.п.р. на том же множестве. Лемма 3.6.15 (выпуклость расстояния Кульбака—Лейблера). Имеет место следующее неравенство: D(\gl + (1 - X)Ai || Xg0 + (1 - Х)Ао) < XD(gi || go) + (1 - X)D(A, || Ao). (3.6.37) Доказательство. Используем сумматорно-логарифмическое неравенство: Xg,(*) + (!-Х)А,(*)' <XglWlnj|| + (l-X)AlWln^. Суммирование/интегрирование приводит к равенству (3.6.37). П Замечание 3.6.16. Выпуклые линейные комбинации Ш = Xgo(*) + (1 - Х)Ао(*) и /, (х) = Xg, (х) + (1 - X)Ai (х) имеют прозрачный вероятностный смысл: рассмотрим св. U, принимающую два значения, скажем 1 и 2, с вероятностями X и 1 — X, совместно с такой св. X, что д.р.в./в.п.р. св. X при условии, что U = 1, — это go, а при условии U — 2 — это An. Безусловное д.р.в./в.п.р. св. X совпадет с /о. Аналогичное «склеивание» можно произвести, используя g\ вместо go и h\ вместо Ао; возникнет св. Y с д.р.в./в.п.р. Д. Тогда равенство (3.6.37) примет вид D(fY\\fx)^Dfu(fYlu\\fx\u) (3.6.38) и может быть распространено на случай произвольной св. U. Следующее свойство расстояния Кульбака—Лейблера называется неравенством обработки данных. Предположим, что св. X и Y со значениями в множестве S преобразуются с помощью переходной функции со значениями р(х, у); в случае д.р.в. речь идет о переходной матрице (р;у), т. е. предполагается, что $3/>*» = ! " P(x,y)dy=l, у J . AgiW + (l-A)fti(x) Xe>(x) + (l-X)A0(x) £
Глава 3. Статистикв цепей Маркова с дискретным временем и происходит переход от св. X и Y к св. X' и У", где д.р.в./в.п.р. fx> и fy выражаются через с fx и /у по формулам ' Е fx(x)pxy, Г Е fr(x)pXy, h'(y) = <Tf , w w Mi/) = <Тг , w w (3-6-39) / fx(x)p(x, y) dx, J fY(x)p(x, y) dx. s Is Эта операция называется «обработкой» и включает в себя «слияние» нескольких значений х\, ..., xi (если р*,, = 1 для заданного у при х = = х\, ..., xi) и другие виды «огрубления» данных, содержащихся в/иК. Лемма 3.6.17, приведенная ниже, показывает, что любая такая операция не может привести к увеличению дивергенции. Call Back and Libel'er (Из серии «Фильмы, которые не вышли на большой экран».) Лемма 3.6.17 (неравенство обработки данных для расстояния Кульба- ка—Лейблера). При выполнении преобразования, описанного выше, дивергенция Кульбака не увеличивается: D{fr\\fx')^D(fy\\fx) (3.6.40) Доказательство. Используем цепное правило (3.6.33): D{fvr II fxx) = D(fr II fx) + DhQv\Y II /л*) = °(fy II /*') + Dh (fr\r> II /jf|Jf')- Но плотности fx'\x и fyiiу совпадают по построению: fx>\x(y\x) = fY<\Y(y\x) = \Px;' . [P(X, У). Таким образом, условная дивергенция D[Y(fY>\Y || /jr|jr) обращается в 0: Dfr(fY'\Y II fx'\x) = 0. В то же время, DfY, (fY\Y> || fx\x') ^ 0. Отсюда получаем неравенство (3.6.40). □ Нетрудно видеть, что в формуле (3.6.40) достигается равенство тогда и только тогда, когда Djyl (fY\Y' || fx\X') = 0. т. е. когда h\Y'=fx\x<. (3-6.41) Наглядно говоря, обработка данных не изменяет расстояния Кульбака—Лейблера тогда и только тогда, когда условное д.р.в./в.п.р. св. У при заданном Y' = у и те же характеристики св. X при заданном X' = у
§3.6. Элементы теории управления и теории информации совпадают (для почти всех у относительно д.р.в./в.п.р. fy>). Это свойство можно назвать свойством достаточности преобразования обработки данных по двум св. X и Y, что является обобщением понятия достаточной статистики. Пример 3.6.18. Пусть (Хт) — ц.м.д.в. с начальным распределением X и переходной матрицей Р. Докажите, что D{f\m || я) не возрастает по т, где к — это инвариантное распределение для матрицы Р. Решение. В более общих терминах, пусть (^т) и (Ym) — это две ц.м.д.в. с одной и той же переходной матрицей Р. Тогда расстояние между дискретными распределениями fym и fxm не убывает по т: D(fYm+A\fxm+i)<D(fYm\\fxJ. Это немедленно следует из леммы 3.6.17. □ Завершим наше обсуждение свойств расстояния Кульбака—Лейбле- ра его монотонностью в случае параметрических семейств с монотонным отношением правдоподобия. В нашем определении семейство д.р.в./в.п.р. /(•; 9), 9 € в, имеет монотонное отношение правдоподобия (м.о.п.), если существует такой порядок -< на множестве Э, что для 9i -< 9г отношение f(x; B\)/f(x; 9г) имеет вид Л9„е2 = ^г|у=яе„е2(^)). (3-6-42) где Т — действительнозначная статистика и gQtfi2(y) — монотонно неубывающая функция (действительного переменного у); ср. том 1, с. 307. Лемма 3.6.19. Предположим, что д.р.в./в.п.р. /(•; 9), 9 е Э, образуют семейство с м.о.п. Тогда для любых таких В\, 9г, 9з 6 9, что 9i -< 9г -< 9з, выполняется неравенство D(f( ■; 93) || /(■; 92)) < D(f{ ■ 93) || /(•; 90). (3.6.43) Доказательство базируется на понятии выпуклого порядка между случайными величинами (или их распределениями). Эта тема (важная для ряда приложений) будет обсуждаться в следующих томах. Соломон Кульбак (1903-1994) начал свою карьеру как преподаватель математики гимназии в своем родном Нью-Йорке, но вскоре перешел в разведывательную службу армии США (Signal Intelligence Service, SIS, СИС). Он служил долго и добился выдающихся успехов как в СИС, так и в его правопреемнике, Агентстве национальной безопасности (National Security Agency, NSA, НСА). В конце 1950-х гг. Кульбак стал руководителем исследовательских работ в НСА и работал на этой должности вплоть до выхода на пенсию в 1962 г. После того он стал профессором в университете Джорджтауна. В 1942 г. майора Кульбака командировали в Великобританию ознакомиться с тем, как англичане в Блетчли- парке дешифруют сообщения, генерируемые немецкими шифровальными машинами. Он внес свой вклад в работу команды из Блетчли-парка и после возвращения в США возглавил японскую секцию НСА. Его очень любили коллеги как по академической работе, так и по
Глава 3. Статистика цепей Маркова с дискретным временем работе в спецслужбах, за то что он был «абсолютно бесхитростным, вы всегда знали, что он имеет в виду.» Ричард Лейблер (1914—2003) был американским математиком и криптографом. Он участвовал во Второй мировой войне, в битвах при Иводзиме и в операции на Окинаве. Наиболее выдающийся период его жизни связан с Институтом аналитических оборонных исследований (Institute of Defense Analysis) в Принстоне и с НСА. Он участвовал в программе, позволившей команде НСА решить ранее не поддающиеся расшифровке советские разведывательные сообщения, поступавшие в рамках проекта под кодовым названием ВЕНОНА (VENONA). Статья Кульбака и Лейблера (Kullback S., Leibler R.A. On information and sufficiency II Annals of Mathematical Statistics. 1951. V. 22. P. 79—86), в которой было сформулировано понятие информационной дивергенции, является, по-видимому, наибольшим академическим достижением авторов. Статья появилась в разгар холодной войны и была немедленно замечена в Советском Союзе, где существовало собственное мощное криптографическое подразделение, связанное со спецслужбами. Следует отметить, что контроль за содержанием публикаций в рамках советской системы был, несомненно, более жестким, и статья, написанная авторами, имеющими такой статус, как Кульбак и Лейблер, имела мало шансов на публикацию в открытой академической печати. Однако в Советском Союзе существовала достаточно развитая сеть журналов и периодических изданий с грифами «секретно» и для «служебного пользования», доступных только сотрудникам определенных учреждений, имеющих так называемый «допуск» (получаемый только после тщательной проверки и только на время выполнения соответствующих служебных обязанностей). Было возможно даже получить степень кандидата либо доктора наук или быть избранным в Академию наук СССР при очень небольшом числе публикаций, доступных широкой публике. (Таких ученых часто называли «закрытыми» академиками; наиболее известным из них был академик Андрей Дмитриевич Сахаров.) § 3.7. Скрытые марковские модели, I. Оценивание состояний марковских цепей Теперь приступим к изучению скрытых марковских моделей (с.м.м.). Рассмотрим следующую ситуацию. Имеется ц.м.д.в. (Хт) на пространстве состояний /, скажем / = {1,..., s}, с (полностью или частично) неизвестным начальным распределением X = (X,) и (полностью или частично) неизвестной переходной матрицей Р = (/?,,), /, / = 1, ..., s. В дополнение к этому цепь не является полностью наблюдаемой. Например, можно наблюдать значения Xtk только в некоторые избранные моменты времени to, t\,... или можно фиксировать только значения Ь(Х\), Ь(Х2), ■■■, где b: I —► /С неизвестная функция состояния, возможно случайная, со значениями в новом «алфавите» fC — {l, ..., к\ (мы знаем, что неизвестного мы не знаем). В типичных приложениях x<s,a функция b не имеет обратной. В задаче «без ограничений» пара (X, Р) пробегает все множество TvL (см. соотношение (3.1.5)) или его подмножество 7vLm (см. соотношение (3.1.6)). Если мы избавимся от неопределенности, связанной с начальным распределением X (а именно рассмотрим стационарную ц.м.д.в. с инвариантным распреде-
§3.7. Скрытые марковские модели, I. Оценивание состояний марковских цепей лением к), то удобно будет предположить, что Р £ Via- Однако мы можем обладать априорной информацией о (X, Р), например что матрица Р вне- диагональная (т.е. Ре'Poff-diag; ср. с соотношением (3.1.11)) или Р эрмитова (т.е. PePsymm; ср. с соотношением (3.1.12)). Функцию b также можно до некоторой степени конкретизировать, выделив (известный) класс функций (например, для s = x функция b может быть перестановкой). В этом случае мы имеем дело с задачей «с ограничениями». Нередко возникает задача интерполяции, когда мы наблюдаем ц.м.д.в. точно, но не во всякие моменты времени: мы видим ее состояния только в (целые) моменты времени to, ■■ ■, tm, гяеО ^to < ... <tm a tm> т. Возможна ситуация, когда нужно скомбинировать две задачи, но для простоты будем изучать их в отдельности. Задача состоит в том, чтобы оценить X и Р по фиксированной цепочке наблюдаемых значений an = b(Xo), ..., ап = b(Xn) или по заданной последовательности СОСТОЯНИЙ Xt\, Xt2, . . . , Xt . И Пример 3.7.1. Вы наблюдаете цепочку о = : из нулей и единиц. Вы подозреваете, что это запись (функции) цепи Маркова (Х,п) с тремя /*о\ /хо\ состояниями, скажем А, В и С: от — Ь(хт), где X = : , х — I : .Вы \Хп) W думаете, что цепь симметрична, т. е. ее матрица перехода Р = (р,;), i, j = = А, В, С, имеет вид Р = Возможны несколько предположений относительно того, какова функция Ь: а) на двух состояниях b равна 0, скажем Ь(А) = Ь(В) = 0, а на оставшемся состоянии она равна 1: Ь(С) = 1, или наоборот; б) на двух состояниях b равна 0 с вероятностью q и 1 с вероятностью 1 — q, в то время как на оставшемся состоянии она равна 1 с вероятностью 1 (или наоборот, О с вероятностью 1), в) каждая из величин b(A), b(B) и Ь{С) принимает значение 0 с вероятностями qA, qe и qc или 1 с вероятностями 1 - qA, 1 — qg и 1 — qc независимо друг от друга. Всего имеется 2 возможности для неслучайной модели (вариант а)), 4 возможности для наполовину случайной модели (вариант б)) и (по существу) одна возможность для полностью случайной модели (вариант в)). У вас есть также основания верить, что цепь стационарна, т. е. X — это инвариантное распределение к = (1/3, 1/3, 1/3).
Глава 3. Статистика цепей Маркова с дискретным времеием В итоге переходная матрица Р определяется параметром р, пробегающим отрезок [0, 1/2], а для q мы имеем возможности, указанные выше, а именно а), б) и в). Тройка (к, Р, Ь) в контексте этого примера рассматривается как «модель»; если функция b случайна, то, возможно, удобнее говорить о тройке (к, Р, Q), где Q представляет набор вероятностей для случайных величин Ь(Хо), ..., Ь(Хп). Например, состояния А, В к С могут соответствовать определенным согласным звукам в (идеализированной) задаче автоматического распознавания речи. Некоторые из этих согласных могут быть распознаны четко, в то время как другие труднее по их спектрограммам отделить одну от другой. Предположим, что вы хотите сравнить два отдельных семейства моделей: а) семейство моделей с детерминированной (т. е. неслучайной) функцией Ь, обозначенной ZKJ = (Я, &дет), где Ьает(А) = baej(B) = I и 6Дет(С) = 0, и б) полностью случайную модель, обозначенную ZCJI = (л, Р, Q), где I 1 с вероятностью ц+, ЬсА*) = <г. , I О с вероятностью 1 — q+, * = А, В, С независимо друг от друга и q& — qg = q\, qc = Q2- Итак, вычислим суммарные функции правдоподобия: л L*"(o;ZKT) = Y,l[px^xi[4oi = l,xi=A™KB) + l(oi = 0,xi = C)} (3.7.1) х j=l И п Ьсл(а; ZCJI) = ]Гn^_lXi(l(o,- = 0)[(1 - ?,)!(*,■ = А или 5) + X (=1 + (1 -<72)1(*« = С)] + 1(0,- = l)[<7i \(х,=А или В) + q2\(Xi = С)]). (3.7.2) (Мы опустили множитель кХо в правых частях равенств (3.7.1) и (3.7.2), поскольку он равен 1/3 и не играет никакой роли в наших рассуждениях и вычислениях.) Для заданного о функция Ьдет — полином степени п переменной р£ [0,1/2], вто время как LCJI — полином от переменных р G [0,1/2] и q\, q2 £ [0, 1]. Конечно, если нет дополнительных ограничений на qi и q2, то полином LCJI — это продолжение Ьдст (или, если угодно, Ьдст — это сужение LCJI, которое получается при q\ = 1, q2 = 0). Однако если имеются дополнительные условия, например q\, q2 e (q~, q+) С [0, 1], то сравнение двух полиномов становится нетривиальным.
§3.7. Скрытые марковские модели, I. Оценивание состояний марковских цепей Итак, мы максимизируем оба полинома и получаем оптимальные модели ^ет(о) = argmax Ьдет(о; ZKT) и Z*,(a) = argmax LCJ1(o; ZCJ1). (3.7.3) Затем мы сравниваем оптимальные значения Ьдет(о; ZieT) и L™(o; Za,); максимальное из них определяет лучшую подгонку (для заданной цепочки о). Аналогичную процедуру можно провести для любого варианта из перечисленных выше типов а) — в) функции Ь. □ Замечание 3.7.2. Необходимо принимать во внимание то, что модели со слишком большим числом параметров (например, с произвольной переходной (s x «)-матрицей Р и произвольным семейством вероятностей Q) могут привести к «чересчур подогнанной» («overfitted») модели Z*(a)\ это может породить нежелательную неустойчивость, при которой Z*(a) будет слишком сильно меняться вместе с изменением цепочки о. Поэтому желательно использовать любую «побочную информацию», доступную в возможной модели, и включать ее в задачи максимизации правдоподобий. Пример 3.7.3. Рассмотрим ц.м.д.в. (Хт), с тремя состояниями и переходной (3 х 3)-матрицей Р = (рц). Известно, что диагональные переходные вероятности нулевые: рц = О, i = 1, 2, 3. Далее, предположим, что мы знаем начальное состояние Xq = 1 и состояние Х^ = 3, но не знаем состояний в моменты времени 1, 2 и 3. Запишем суммарную функцию правдоподобия; в этом примере она равна сумме правдоподобий, подсчитанных лл на тех выборочных векторах х = : J £ {1, 2, З}5, которые совместимы с имеющимся ограничением (т. е. с xq = 1, х\ = 3): МЯ|Х0= 1, A-4 = 3)= р™ = р]2Р2\Р2Ъ + + Р[ЗРЗ\Р\2Р23 + Р\2Р23РЗ\Р\3 + Р\2Р23Р32 + р2\ъРЪ2Р2\ \ (3.7.4) это полиномиальная функция переменных рц. Следуя философии максимального правдоподобия, мы должны максимизировать L(P\Xq = l,Xi = 3) по Р = (рц) на множестве P0ff-diag; см. соотношение (3.1.11). Оценка максимального правдоподобия Р*п может быть получена во внутренней точке или на границе. В общем случае задача отыскания точной о.м.п. становится сложной с вычислительной точки зрения; вмешиваются и другие факторы, поэтому желательно иметь в своем арсенале «приемлемые» приближенные методы.
Глава 3. Статистика цепей Маркова с дискретным временем Как будет показано, задача построения приближения оценки переходных вероятностей рц, 1 ^ /, / ^ 3, может быть (корректно) решена с помощью итераций некоторого преобразования. Более точно, положим Pij^-L(P\Xo=\,X,=3) где знаменатель задается формулой з в Е(Р|Х0 = 1, Х4 = 3) = J2P*£-L(p|*о = 1. *4 = 3) = 2р212р21Р23 + k=\ + Рпр\гРъ2 + 2pl3p3\Pi2P23 + %Р\2Р2ъРг\Р\ъ + 2р2\зРз2Р21- (3.7.6) В частности, ~ _ 2pi2P2lP23 + PI2P23P32 + P12P31PI2P23 + Pl2P23P3lPl3 Рп H(P|Xo=l,X, = 3) ~ _ P13P3IPI2P23 + PI2P23P31PI3 + 2р^3Р32Р21 Pl3~ ЩР\Х0 = 1Х4 = 3) и т. д. Итерации этого преобразования задают решение с допустимой точностью. □ В примерах 3.7.1 и 3.7.3 намечены основные направления нашего исследования. См. также [К]. Одно направление относится к «зашумленным» наблюдениям, когда у нас зафиксированы все состояния, последовательно принимаемые цепью, но сами состояния подвержены шуму, который приводит к их искажению. Этот случай можно назвать задачей фильтрации с.м.м. Второе направление соответствует случаю, когда цепь доступна для наблюдения только в некоторые избранные моменты времени. Этот случай назовем задачей интерполяции с.м.м. Методы, используемые в этих случаях, имеют сходство, но в то же время и различаются в некоторых существенных аспектах. Рассмотрим вначале общую постановку задачи фильтрации с.м.м. Нам и задан вектор наблюдаемых значений о = : , называемый обучающей последовательностью или обучающей выборкой, где ао, ..., оп принимают значения в множестве {1, ..., х}. Это означает, что мы знаем, что произошло событие {ао = Ь(Хо), ..., а„ = Ь(Хп)}. Однако b остается неизвестной функцией {1,..., s} —► {1,..., х}, возможно, случайной. Более точно, предположим, что для любого х значения b(Xj) условно независимы при заданном X = х, (3.7.7)
§3.7. Скрытые марковские модели, I. Оценивание состояний марковских цепей и положим P(b(Xl) = k\Xi=j) = q}k, /=1 s, k=l,...,x, (3.7.8) УС где qjk ~^0, J2 qsk = 1 для всех /' £ /. Неслучайная функция b появляется, когда qjk равны 0 или 1 (понятно, что не более одного q^ может быть равно 1 для заданного у). В случае безошибочного наблюдения мы имеем s = x и q-ц = Ъц. Совокупность вероятностей q^ обозначим Q (по способу своего задания они образуют стохастическую (s x х)-матрицу). Будем называть их вероятностями шума. Тройку (X, Р, Q) назовем (скрытой марковской) моделью (с шумом, не имеющим памяти) и обозначим, как и прежде, Z. Предположим, что задано множество Z моделей (т. е. троек Z = = (X, Р, Q)), и весь анализ проводится на этом множестве Z. «Наибольшее» такое множество соответствует ситуации «без ограничений». Задача фильтрации с.м.м. (также известная из литературы как задача обучения, или оценивания для с.м.м. с шумом) состоит в том, чтобы найти «наиболее правдоподобную» модель Z* = (X*, Р*, Q*), максимизирующую суммарную функцию правдоподобия L(tr; Z) по Z £ Z для заданного а: п Ца; Z) := Р(Ь(Х; Z) = а) = £ Р(Х = х; Z) Ц qx,a, = х (=0 л = J2 Х*><7*>оо П P*i-\*i1w ■ (3J-9) X (=1 Здесь и ниже Р( •; Z) означает распределение вероятностей, порожденное моделями Z (т.е. ц.м.д.в. (X, Р), соответствующей выборке X и независимым наблюдениям b(Xj) с вероятностями шума Q = (qjk))- Иногда будем использовать также альтернативное обозначение Pz- Таким образом, нас интересует тройка Z^n = (X^n, P^n, Q^n)- заданная соотношением Z^n = argmax P (b(X) = a, Z), (3.7.10) Z€Z /b(X0)\ где b(X) обозначает (случайный) вектор I . (Индекс МП соответ- - , \b(Xn)J ствует максимуму правдоподобия.) х ' На практике отыскание точки максимума Z* в соотношении (3.7.10) часто является затруднительным, особенно когда числа 5 и х велики, а на множество Z налагаются многочисленные ограничения. Поэтому существует обширная литература, посвященная обсуждению различных
Глава 3. Статистика цепей Маркова с дискретным временем алгоритмических методов, задающих аппроксимации значения Z*. Этот вопрос мы обсудим как в данном, так и в следующем параграфах. Пример 3.7.4. Задача фильтрации с.м.м. без ограничений возникает, когда пара (X, Я) пробегает множество 71, определенное равенством (3.1.5), а матрица Q — множество Vs<yc размерности s(x — 1) Vs.* = { Q = (<Ы: q,k >0, J2 Ч1к = 1} • Соответственно положим U = nsxVs,„ = hsxVsxVs,„ (3.7.11) и примем во внимание, что задача без ограничений соответствует Z e U. Задача фильтрации стационарной с.м.м. без ограничений будет соответствовать паре (тс, Р) с матрицей Р, пробегающей множество Vm из соотношения (3.1.8), и с матрицей Q, пробегающей множество Vs^. О В задаче без ограничений множество U можно снабдить метрикой (расстоянием), полагая dist(Z, Z') = L i ч i'k 1/2 где Z = (X, P, Q), Z' = (X', P>, Q') и X = (ХД P= (p„), Q = (qjk), X' = (X)), P' = = (р'ф, О! = (я';к)- Иными словами, это евклидова метрика в пространстве М5'5+'+*', суженная на U. Мы используем эту метрику в §3.9. Пример задачи фильтрации с.м.м. с ограничениями возникает, когда матрица Р пробегает множество Poff-diag из равенства (3.1.11) или множество Рсимм из равенства (3.1.12). В первом случае Z = Ax Pofj-diag x VS<H, а во втором Z = Ax £>симм x Vs,x. /Xo\ Мы будем работать с выборочными векторами х = I : , имеющими \Хп/ положительные вероятности Р(Х = х; Z), при заданной модели Z; а естественным предположением, которому мы будем везде следовать, будет то, что множество этих векторов X С I" одно и то же для всех рассматриваемых моделей Z £ Z. Например, рассмотрим вышеупомянутую задачу фильтрации с ограничениями, где Р £ Т>аъ-&щ, т. е. случай, когда переходная матрица Р = (рц) ц.м.д.в. не позволяет повторять состояния подряд (это значит, что ра = 0 для любых состояний i = 1, ..., s), но позволяет любые другие переходы для любой модели Z = (X, Р, Q) e Z (см. пример 3.7.3). В этом случае X состоит из всех векторов х е /" с х,_| ф х\, i: = 1, ..., п.
§3.7. Скрытые марковские модели, I. Оценивание состояний марковских цепей Более того, предположим, что для любой модели ZeZh любой обучающей последовательности а, появившейся в виде значения Ь(Х) (т. е. P(b(X) = а; Z)> 0), выполнено условие Р(Х = х [ b(X) = a; Z) > 0 тогда и только тогда, когда х £ X. (3.7.12) Далее, положим t = #X. Удобно пронумеровать цепочки хеХ номерами Ао(/)\ / = 1, ..., t (в любом порядке) и записать х(/) = I I для 1-й цепочки. Тогда при заданном Z — (к, Р, Q) положим «,(o;Z) = P(b(X) = o,X = x(0;Z) = п = K0(l)Qx0(t)aoY[PxHI ЩхМЯхДЪа, • (3.7.13) /=1 Таким образом, ui(a; Z) задает вероятность пересечения {Х = х(/)}П{Ь(Х) = а} в модели Z. Теорема 3.7.5. Предположим, что заданы такая модель Z б U и такая обучающая последовательность а, что «/(ст; Z) > 0 хотя бы для одного I (т.е. выполнено неравенство P(b(X) = a; Z) > 0). Тогда при условии (3.7.12), для любой модели ZeU выполняется неравенство Р(Ь(Х) = а; 2) U(Z, Z; а) - U(Z, % a) lnP(b(X) = o;Z)^ P(b(X) = o;Z) ' ^,Л14' где t U{Z, Z;a) = Y^ 1-Щ(о\ Z) In u,(a; Z)] (3.7.15) /=i и i U(Z, Z; о) = £[-и,(о; Z)\nu,(a; Z)]. (3.7.16) Мы следуем здесь соглашению о том, что —и/(<т; Z) In u/(tr; Z) = 0, если и/(ст; Z) = 0, и —и/(<т; Z) In «/(а; Z) =+оо, если щ(а; Z) > 0, «о иДа; Z) = 0, и, таким образом, все слагаемые в суммах из соотношений (3.7.15), (3.7.16) неотрицательны.
Глава 3. Статистика цепей Маркова с дискретным временем Доказательство немедленно следует из примера 3.6.9 при п = = t, ai = uu bi = u/. Действительно, условие теоремы эквивалентно неравенству Ей/ ln*L- £"> /=i где щ = ы/(ст; Z) и ц/ = ui(a; Z). П Значит, если для заданного ст и Z можно найти модель Z, для которой правая часть неравенства (3.7.14) положительна, то получим «улучшенную» модель в смысле большего значения правдоподобия. Таким образом, нас интересует задача минимизации функции U(Z, Z; ст), определенной в соотношении (3.7.16), по переменным Ze Z для заданной модели Z e Z и заданной обучающей последовательности ст. В общем случае минимизатор, конечно, будет зависеть от Z и ст (и от выбора множества Z). Для решения этой задачи удобно использовать матрицу подсчета переходов. Как и в § 3.4, при заданных /, /' = 1,..., s и / = 1, ..., t пусть /,/(/) — это число переходов i —>/' в цепочке х(/): л П;{1) = J2 l(*m-l(0 = ', Xm(l) = /)• (3.7.17) т=\ Далее, положим n(l) = \(x0(l)=j). (3.7.18) Кроме того, при заданной обучающей последовательности ст и k = 1,..., х обозначим через п^Щ{= лул(/, ст)) число моментов времени, в которые в цепочке х(/) было зафиксировано значение k при истинном состоянии /': л т=0 Наконец, обозначим t t i е/ = ХЛг'^' сч = ^2и'Ь№ и dik = 's£julnjk{l); (3.7.20) 1=1 /=i /=i здесь мы вновь записываем и/ = «/(a; Z) для модели Z = (X, Р, Q) £ Z. Таким образом, в/, Сц и djk являются функциями модели Z и последовательности ст. У^(ы/1пы/ — Ы/1пы/) i=i Е"'- /=i
§3.7. Скрытые марковские модели, I. Оценивание состояний марковских цепей Возвращаясь к соотношению (3.7.16), перегруппируем слагаемые в выражении для U(Z, Z; ст) согласно появлениям начальных состояний i, переходам i —> / и зафиксированным значениям k. В результате получаем, что для Z = (X, Р, Q) имеют место равенства /г S К S S U(Z, Z; ст) = ^ц, - 1пХ^о(/) - ^^луА(/) 1п?/А - ^^/;/(/) 1пр,7 i=i L y=i k=\ i=i /=i S S УС 5 S =-J2ei1п ^/ - J2 J2 dik 1п й* ~ J2 J2 сч1п м- (3-7-2!) /=1 /=I ft=l i=l /=1 Единственный глобальный минимум по Z выражения в правой части равенства (3.7.21) достигается в точке Z* = (X*, Р*, Q*), где X = (X*), Р* = = (р,*) и Q* = (q*k) задаются формулами Х; = еу/Х>, /=1,...,5, (3.7.22) ' i=i Р*1 = СЧ Y^Clnu г'. / = !. • • •, 5 (3.7.23) ' m=l И ?ik = dik/Y,dik, /=!,..., 5, * = 1,...,х. (3.7.24) ' A=l Читатель должен иметь в виду, что вероятности X*, Щ и q^ являются функциями модели Z и последовательности ст. Значит, если модель Z* принадлежит Z, то она обеспечивает «усовершенствование» модели Z в этом классе. Например, в примере 3.7.3, где переходная матрица Р имеет все нулевые диагональные элементы ри = О, переходная матрица Р* = (/?,*•) из соотношения (3.7.23) сохраняет то же свойство. Знаменатели соотношений (3.7.22), (3.7.24) можно упростить. В самом деле, заметим, что J2ei=i2J2 о(о=£"'=p(b w=ст: z> /=i /=i /=1 /=i и «/ := Y_]^/ft = Ег(число посещений состояния у до момента времени о),
Глава 3. Статистика цепей Маркова с дискретным временем где Ez обозначает математическое ожидание по мере Pz- Используя эти равенства, можно переписать соотношения (3.7.22)—(3.7.24) в компактной форме: X; = е,-/ Pz(b(X) = а), Ц = сц I £ с1т и q*k = d,k/nh (3.7.25) В общем случае нам необходимо решить задачу с ограничениями минимизировать правую часть (3.7.2J) по Z для заданного Z ,„ у „ач при условии, что Z £ Z. Это наводит на мысль о следующем «обучающем» алгоритме: при заданной начальной модели Z(0) £ Z и обучающей последовательности а решить задачу (3.7.26), получив, таким образом, улучшенную модель Zw = Z* e Z. Затем повторить это для Z(1> и а, и т.д. Предположим, что минимизатор Z(W', полученный в результате N итераций, сходится к пределу: lim Z(N) = Z(oo) e Z. (3.7.27) N-> oo Тогда Z(oo) можно рассматривать как «наилучшую подгонку» модели, на которую способен этот алгоритм. Возникают следующие вопросы. 1. Существует ли предел Z(oo) в соотношении (3.7.27) (для всех или некоторых начальных моделей Z(0))? 2. Если предел Z(oo) в соотношении (3.7.27) существует, совпадает ли он со значением, где достигается максимум Z^n из соотношения (3.7.10)? Как было отмечено, эти вопросы стали поводом для появления обширной литературы, охватывающей ряд важных приложений. Некоторые из результатов в этом направлении обсуждаются в §3.9. Сейчас мы хотели бы привести список относящихся к этой теме работ Леонарда Баума, которого многие считают создателем теории с.м.м. (вместе с Ллойдом Уэлчем): Ваит L.E. An inequality and associated maximization technique in statistical estimation for probabilistic functions of Markov processes // Inequalities, III (Proc. Third Sympos., Univ. California, Los Angeles, CA, 1969); dedicated to the memory of T.S. Motzkin). N.Y.: Academic Press, 1972. P. 1-8. Baum L.E., Petrie Т., Soules G., Weiss N. A maximization technique occurring in the statistical analysis of probabilistic functions of Markov chains // Annals Math. Statist. 1970. V.41. P. 164-171. Baum L. E.,Sell G. R. Growth transformations for functions on manifolds // Pacific Journ. Math. 1968. V.27. P. 211-227.
§3.7. Скрытые марковские модели, I. Оценивание состояний марковских цепей Baum L.E., Eagon J.A. An inequality with applications to statistical estimation for probabilistic functions of Markov processes and to a model for ecology // Bull. Amer. Math. Soc. 1967. V. 73. P. 360-363. Baum L.E., Petrie T. Statistical inference for probabilistic functions of finite state Markov chains//Annals Math. Statist. 1966. V.37. P. 1554-1563. Алгоритм, приведенный выше, называют обучающим алгоритмом Баума—Уэлча; его привлекательность заключается в простоте (а потому и в практичности) решения задачи (3.7.26) для различных множеств Z, что и продемонстрировали формулы (3.7.22)—(3.7.25). Удобно связать с равенствами (3.7.22)—(3.7.25) отображение Ф: U —>К множества U (см. (3.7.11)) в себя Ф: Z = (X, Р, Q) н+ Z* = (X*, Р*, Q*), (3.7.28) которое мы назовем преобразованием Баума—Уэлча для фильтрации (без ограничений). (При этом формулы (3.7.22)—(3.7.25) будут переписаны в различных (эквивалентных) формах, поясняющих различные аспекты отображения Ф.) Преобразование Ф будет особенно полезным для задачи (3.7.26), где оно переводит изначальное множество моделей Z в себя: Ф(2) С Z. Вышеупомянутые вопросы 1 и 2 (для задачи фильтрации без ограничений) касаются итераций Ф^ преобразования Ф. Непосредственным следствием теоремы 3.7.5 является следующее утверждение Пример 3.7.6. Докажите, что любая точка Z^n, определенная в формуле (3.7.10), является неподвижной точкой отображения Ф: Ф(г*т) = г*ш. (3.7.29) Решение. В самом деле, если $(Z*Mn) ф Z^n, то Р(Ь(Х) = а, Ф(г*МП)) > >P(b(X) = a,Z*tAU). О Chariots of Ф, Chariots of П5 (Из серии «Фильмы, которые ие вышли иа большой экран».) Перейдем теперь к задачам интерполяции с.м.м. Вновь будем работать с ц.м.д.в. (Хт) с пространством состояний / = {1,.. -,s} и матрицей вероятностей перехода Р= (р,;). В нашей постановке задачи матрица Р полностью определяет модель; предположим для простоты, что начальное распределение X известно. Предположим также, что цепь наблюдаема в (целые) Ср. с названием фильма «Chariots of Fire».
Глава 3. Статистика цепей Маркова с дискретным временем моменты времени 0 = to<ti <...<^<л; обозначимT={ti,...,tk}- Соот- ветственно пусть Хт = I •' I ихт=( '■ I. При заданном у = I : I £/"+' W W W пусть у|_ обозначает сужение I : . Затем определим суммарное правдоподобие: ^'*' я L(P|XT = xT) = J2 Х«.П^«-»-,^1т = хт) = уб/п+1 т=\ s = Е ПХ^!/,(У1т = хт)' (3.7.30) yg/n+l |,/=1 где я Л-/ = Ау(у) = J21 ^т-'= '•Ут=Л- г«'= г,(у) =' (#> = 0; /П=| ср. с соотношениями (3.7.17), (3.7.18). Задача интерполяции состоит в отыскании точек максимума Р^и(~ ^мп(хт)) на заданном множестве УСТ (см. (3.1.7)): р*т = argmax ЦР \ Хт = хт). (3.7.31) Р€У Как и ранее, если у = Т>, получаем задачу без ограничений, а если У— «правильное» подмножество в V, то речь идет о задаче с ограничениями. Дальнейшее обобщение (не рассматриваемое здесь) возникнет, если использовать более общее условие Xq gAq, Xti 6 А\, ..., Xtk 6 Л&, где А\,... ..., Ак — подмножества пространства состояний /. Здесь мы столкнемся с рядом трудностей, подобных тем, которые возникают в задаче фильтрации с.м.м.: точки максимума Р^п в соотношении (3.7.31) трудно найти, и они очень чувствительны к выбору множества У, содержащего априорную информацию о модели. Поэтому ищется приближенное решение, которое может быть получено достаточно явным образом. Осуществим это построение, определив матрицу Р с элементами р,у, /, / = 1, ..., заданными в виде Р1,^-ЦР\ХТ = хТ) h = -Г-^ . (3-7-32) Ep,*£-L(P|Xt = xt)
§3.7. Скрытые марковские модели, I. Оценивание состояний марковских цепей где суммарное правдоподобие ЦР|Хт = Хт) задается формулой (3.7.30). Очевидно, Р зависит от Р и хт: Р = Р(Р, хт). Для заданной выборки хт формула (3.7.32) определяет отображение П(= П(хт)) на множестве Vs: U:P = {pij)^P = (pij), (3.7.33) которое называется преобразованием Баума—Уэлча для задачи интерполяции с.м.м. Здесь уместно сделать два замечания. I. Предположим, что to = 0, ti = I, ..., tk = k, т.е. цепь наблюдаема в последовательные моменты времени 0, ..., k. Тогда хт становится выбо- рочным вектором х§= I : e /*+I и правая часть равенства (3.7.32) задает \xj матрицу, которая не зависит от Р, а зависит лишь от Хд. Более точно, в этом случае формула (3.7.32) задает вероятности "рц, равные эмпирическим (или относительным) частотам /</(=/i/(Xq)) переходов /—►/' в выборке х§: £</=£/:= (Х>(*о)) /tf(xg), *',/=l s. (3.7.34) Геометрически это означает, что преобразование Баума—Уэлча П переводит любую матрицу Р 6 V в матрицу F = (fij) эмпирических частот: U(P) = F, P&V. Значит, в этом случае матрица F является единственной неподвижной точкой преобразования (3.7.33), и если повторить процедуру (3.7.32) (т.е. итерировать отображение (3.7.33)), то в результате опять получим матрицу f. II. Если ц.м.д.в. (Хт) состоит из н.о.р.с.в., то формула (3.7.32) задает "рц как эмпирические (относительные) частоты g~j = gj(\j) посещений состояния / выборкой хт. Формально Л/= ©:=(!>) ©• /=1 s' (37-35) где к © = в/(*г) = 5^ !(*<,=/"). 1=0 В этом случае мы забываем о состояниях, в которых цепь побывала между точками to, ..., tk, и вычисляем частоты посещений каждого состояния
Глава 3. Статистика цепей Маркова с дискретным временем /'= 1, ...,s, основываясь на доступных данных. Иначе говоря, каждая матрица P = (pij), строки которой являются повторениями фиксированного стохастического вектора (или, что эквивалентно, элементы которой Рц = р\ постоянны вдоль каждого столбца), переводится отображением П в матрицу G эмпирических частот gy (которая, очевидно, удовлетворяет тому же свойству). Геометрически это означает, что матрицы G = (g,y) всегда образуют семейство неподвижных точек преобразования Баума—Уэлча П. Пример 3.7.7. Докажите замечания I и II. Решение. Оба равенства (3.7.34) и (3.7.35) получаем из соотношения (3.7.32) путем дифференцирования. □ Примечательно то, что итерации преобразования П из соотношения (3.7.33) ведут к увеличению значения суммарного правдоподобия L(P\Xj = = хт), определенного формулой (3.7.30). Теорема 3.7.8. Для любой переходной матрицы Р = (рц), множества моментов времени Т = {to, t\, ■■■, tk}, упорядоченных так, что (Х'°\ 0 = to <t[ <...</*< п, и любой выборочной цепочки хт = I : имеет место неравенство V*/»/ ЦЩР) | Хт = хт) > ЦР | Хт = хт). (3.7.36) Более того, равенство в (3.7.36) достигается тогда и только тогда, когда ЩР) = Р. Доказательство. Основная идея доказательства — алгебраическая. При заданном хт функции Р н-> ЦР | Хт = хт) и Р ь-> ЦЩР) | Хт = хт) являются однородными многочленами переменных рц в том смысле, что оба выражения ЦР | Хт = хт) и ЦЩР) | Хт = хт) — это суммы одночленов фиксированной (совокупной) степени, равной /* + 1. Более того, эти одночлены входят в сумму с коэффициентами 0 или 1 (см. (3.7.30)). Теорема 3.7.8 будет следствием более общей теоремы 3.7.10, сформулированной и доказанной далее для таких многочленов. См. вышеупомянутую статью Л. Баума и Дж. Игона, где такие рассуждения были проведены впервые. П. Прежде чем перейти к теореме 3.7.10, нам хотелось бы обратиться к знаменитой теореме Эйлера об однородных функциях. Функция п действительных переменных f(x\, Х2,..., хП) называется однородной степени d, если для любого действительного а выполняется равенство f(ax], ахч, .... ах„) = adf{x\,x2,...,x„). (3.7.37а)
§3.7. Скрытые марковские модели, I. Оценивание состояний марковских цепей Теорема Эйлера утверждает, что для любой дифференцируемой однородной функции справедливо равенство Y^XiJLf = df. (3.7.37 6) Пример 3.7.9. Предполагая наличие свойства (3.7.37 а), докажите равенство (3.7.37 6). Указание. Продифференцируйте f{ax\, ax2, ..., ахп) по а. Затем из формулы (3.7.37 а) получите, что d " д -faKaxu ах2 axn) = ^2xj—f(axi, .... ахп) = dad~]f{xi, x2, ...,хп). Наконец, положите а = 1. □ Теперь мы готовы сформулировать и доказать теорему 3.7.10. Теорема 3.7.10. Пусть даны целые числа q и qt, где /= 1, ..., q. Будем работать с массивами (неотрицательных) переменных рц, i = = 1,..., q,}— 1,..., <7,, которые обозначим Р. Рассмотрим замкнутое множество V размерности ^(<7i — 1). заданное равенством (=1 Ъ = {рц>0, Х>/ = 1, /=1, ...,<7,/=1. •■■,<7/}- (3.7.38а) ^ /=i J Далее, пусть Р н-> Z(P), Р = (рц) — однородный многочлен степени d переменных рц, i = 1,..., q, j = 1,..., qi} с неотрицательными коэффициентами. При заданном Р = (рц) е V пусть ЩР) = (ЩР)ц) означает точку из множества V, для которой Тогда Z(U(P)) > Z(P) за исключением того случая, когда ЩР) = Р. Доказательство. Вначале введем некоторые обозначения. Пусть v = (v,y) означает массив неотрицательных целых чисел v,,, где I = 1, ..., q, j — 1,.. .,<7;. Для заданного массива P=(pjj)£V кратко обозначим произве- ч <н дение ТТ ТТр^' через [Ру. Далее, cv ^ 0 означает коэффициент многочлена ;=1 /=1 Z(P) при одночлене вида [P]v: z(/>) = $>[/>]v.
Глава 3. Статистика цепей Маркова с дискретным временем Используя эти обозначения, можно записать £CvV,;[/T /=l v Мы хотим доказать, что V V 1=1 ]=[ ^ Ес* ПГВП™^ = Ес^П^^ = WW), (3-7.40) V (=1 у'=1 V и проанализировать, когда будет достигаться равенство. С этой целью представим Z(P) в виде / д q, 4I/W+D zc)=E ^nilw)'/)v" x V \ 1=1 /=1 / "7 ft и применим неравенство Гёльдера i=i /=i при p = d+ l и q = (d+ l)/d, в результате чего получим / ч ч, ч i/(d+i) z(/>k x>nn<nwv'7) x V V 1=1 \=\ ' "(Емч'ППАП = 4 V /=| /=1 ' = (г(ЩР))У/^(Т,сЛРГЩ(Г§^У' ) ■ (3.7.42) N V 1=1 j=\ '
§3.7. Скрытые марковские модели, I. Оценивание состояний марковских цепей (Здесь для второго множителя мы использовали тот факт, что ([P]^)d+i/d = Р Ч' Id — [Т П П Рц •) Поскольку многочлен Z однородный и Р Ч> ЕЕ?-1- можно использовать неравенство \[ zf < JZа<2' межДУ геометрическим и арифметическим средними при а,- ^ 0, ^ а,- = 1 и вывести отсюда, что Ем^ПЙОй^Е'.и'ЕЁЗШ V (=1 /=1 V 1=1 /=| Теперь используя равенство (3.7.39), получим, что Е^гЕЕ?Ш = = 1ЕТ.РЧ t^W EE^I^. (3-7.43) '=1 /=1 \ v' / /'=1 v' Выполняя преобразования, мы поменяли порядок конечных сумм. Для каждой пары (/,/) отношение в скобках равно 1, и в силу соотношения Я: (3.7.38 а) мы получаем, что J2Pii = 1 лля любого /. Поэтому все выражение У=1 в правой части (3.7.43) принимает вид ^еее^итЧе^ <"■«*> Значит, по теореме Эйлера выражение (3.7.44) равно £)cv[/>]v = Z{P). V Таким образом, мы получили следующую оценку для второго множителя в правой части неравенства (3.7.42): (E^rnften^ \ V /= 1 /"= 1 '
Глава 3. Статистика цепей Маркова с дискретным временем Соответственно неравенство (3.7.42) принимает вид Z(P) < (Z(U(P)))]/{d+l)(Z(P))d/{d+l), что эквивалентно неравенству (3.7.40). Наконец, Z(U(P)) > Z(P), если ЩР) ф Р, что следует из неравенства (3.7.42) и тех фактов, что а) неравенство между геометрическим и арифметическим средним становится равенством тогда и только тогда, когда все числа z,- равны между собой, б) неравенство Гёльдера становится равенством тогда и только тогда, когда Д, и gv пропорциональны. Но Рч равенство всех Z; означает, что отношение ' является постоянной, и эта постоянная должна равняться 1 в силу соотношения (3.7.38 а). Тогда б) также имеет место. □ Мы видим, что итерации преобразования Баума—Уэлча П строго увеличивают суммарное правдоподобие L(/'|Xt = xt), если только мы не достигли неподвижной точки. Но функция Р н-> L(P | Хт = хт) равномерно ограничена сверху для Р е V. Поэтому предположим, что исходное распределение — это Po&V, и пусть Р^ — это TLN(P^), т.е. результат /V-кратного применения преобразования П. Тогда предел lim L(nw(/>(0)) I Хт = хт) (3.7.45) всегда существует. Однако вопросы, аналогичные вопросам 1 и 2 для преобразования Ф (см. выше), остаются открытыми. 1. Сходится ли сама матрица Р^ к пределу Z^00', когда N —> оо? Если да, то />(оо) должна быть неподвижной точкой преобразования П, причем значение L(/>(oo) | Хт = хт) должно совпадать с пределом (3.7.45). В общем случае последовательность {Р(Л/)} может иметь более одной предельной точки в множестве V (т. е. пределы могут существовать на различных подпоследовательностях {/'(Л'ш)}), но каждая предельная точка будет неподвижной точкой преобразования П. 2. Будет ли предел Р*00' (или предельная точка) точкой максимума функции L(P|Xt = xt) (локального или глобального)? 3. Для заданной задачи с ограничениями для матрицы Р£У лежит ли точка Р*00' в множестве У? В общем случае эти вопросы не имеют простых ответов и требуют кропотливого анализа. Замечание 3.7.11. Несмотря на свои прекрасные свойства, величины р*: и <7д имеют серьезный недостаток: они вычисляются для заданной модели Z, т. е. не являются функциями только обучающей последовательности о. Поэтому их нельзя назвать несмещенными и состоятельными оценками величин X,, pi/ и <7У£.
§3.8. Скрытые марковские модели, II. Обучающий алгоритм Баума—Уэлча Завершим данный параграф таким замечанием: теорема 3.7.10 позволяет установить, что преобразование Ф (см. (3.7.28)) также увеличивает суммарное правдоподобие: Теорема 3.7.12. Для любого начального распределения X = (Х;), переходной матрицы Р — (рц) и совокупности вероятностей шумов Q — {q-jk), определяющих модель Z = (X, Р, Q), и для любой обучающей И последовательности о = : имеет место неравенство L(a; «(Z)) > L(o; Z). (3.7.46) Более того, равенство в формуле (3.7.46) достигается тогда и только тогда, когда §{Z) = Z. Пример 3.7.13. Докажите теорему 3.7.12. Указание. Возможны два альтернативных доказательства: либо с использованием теоремы 3.7.5, либо с помощью теоремы 3.7.10. □ § 3.8. Скрытые марковские модели, II. Обучающий алгоритм Баума—Уэлча Desperately Seeking Smoothness6 (Из серии «Фильмы, которые ие вышли на большой экран».) Начнем с обсуждения процедуры сглаживания в задаче фильтрации с.м.м. За этим термином стоит следующий подход. Перед началом процедуры перед нами имеется неизвестная модель, представленная точкой Z = (X, Р, Q) G Z или, образно говоря, функцией Z, равной нулю «вне Z» и имеющей «пик» в точке Z. При заданной обучающей последова- п тельности о = I . I процедура позволяет нам рассмотреть семейство моделей Z* = (X*, Р*, Q*), совместимое с а, где X* =X*(Z, о), Р* =P*(Z, a) и Q* = Q*(Z, о) изменяются вместе с изменением Z. Иными словами, мы переходим к «распределенным», или «сглаженным» объектам, представленным функциями на множестве Z. Формально возникает отображение Ф: Zi-> Z*; см. (3.7.28). (Конечно, однократное применение этой процедуры 6Ср. с названием фильма «Desperately Seeking Susan» (одна из первых знаменитых ролей Мадонны).
Глава 3. Статистика цепей Маркова с дискретным временем еще не решит задачи оценивания неизвестной с.м.м., но оно является шагом в направлении такого оценивания. Основным объектом, нахождение которого является целью данного параграфа, является результат итераций преобразования Ф.) Итак, предположим, что зафиксирована обучающая последователь- н и ность а — \ '■ \ для случайной цепочки X = : I, порожденной ц.м.д.в. W W (Хт). Это значит, что мы будем работать с условными вероятностями /Ь(Х0)\ при условии, что Ь(Х) = а, где Ь(Х) = [ . Для заданных 0 < т < п W»)/ положим Рц(т, п) = Pz(Xm = i, Xm+l =/1 Ь(Х) = a) (3.8.1) Pi(m, n) = Pz(Xm = i | b(X) = o) = Y, Pij(m, n). h = Л(0. n). (3.8.2) /=i Обозначим «/ = Рг(Ь(Х) = a, X = x(/)), /= 1, ...,t, и введем нормирующую постоянную для «i, ..., ut: В леммах 3.8.1 и 3.8.2 формулы (3.7.22)—(3.7.24) переписаны в альтернативной, причем более удобной, форме. Лемма 3.8.1. Значения "q*k(=qjk(a))), в которых достигается минимум в соотношениях (3.7.24) и (3.7.25), можно записать в виде п Y. \{am=k)pj(m, n) % = т=' , _ i=U...,s,k=\ *. (3.8.4) £ Pj(m, n) m=1 Доказательство. Начнем с очевидного наблюдения, заключающегося в том, что в силу соотношения (3.8.2) для любых / = 1, ..., s и k = 1, ..., я выполняется равенство п п Y, 1 (от = k) Pz(Xm = j | b(X) = a) = Y, 1 (°m = k)p,{m, n). (3.8.5) m=l m=\
§3.8. Скрытые марковские модели, II. Обучающий алгоритм Баума—Уэлча Наша следующая цель — проверить, что (ср. (3.7.20)) п djk = Pz(b(X) = о) £ Цот = я) Pz(Xm =/ | b(X) = о). (3.8.6) m=] Чтобы доказать соотношение (3.8.6), рассмотрим функцию выборки х(/),/=1,...,*: п I ~ г(1, i, *) := £ 1 ('«W = /• °» = *>• задающую число моментов времени, в которые наблюдается пара /' —► я в выборке х(/) для заданного о. Тогда п t Y, р2(хт = /'. Ь(Хт) = я | Ь(Х) = а) = С £ z(/, /, я)ы, = Cdy*. m=l /=1 где постоянная С определена соотношением (3.8.3). Для завершения доказательства достаточно заметить, что знаменатель имеет вид п ^2 Pi(m, п) = Cnh т=\ что на самом деле очевидно. Поэтому п С-1 Е \(ат = k)pj(m, n) С-1 Е Piim, n) т=\ Отсюда следует равенство (3.8.4). □ Подобным образом доказывается и следующий результат. Лемма 3.8.2. Значения Щ(—Щ{а)), в которых достигается минимум в соотношениях (3.7.23) и (3.7.25), можно переписать в виде л-1 _ Е Ра(т< п) Щ = 7=Г • iJ=U...,s. (3.8.7) Е Р'(т, п) Значения Х*(=Х*(о)), в которых достигается минимум в соотношениях (3.7.22) и (3.7.25), можно переписать в виде \*=pj(0,n), /=l,...,s. (3.8.8)
Глава 3. Статистика цепей Маркова с дискретным временем К сожалению, формулы (3.8.4), (3.8.7), (3.8.8) (так же как и (3.7.22)—(3.7.24)) не слишком полезны с вычислительной точки зрения. Как было отмечено в §3.7, на практике процедура максимизации выполняется согласно алгоритму Баума—Уэлча (его также называют переоценкой по Бауму—Уэлчу), последовательно улучшающей вероятности р,у(т, п) и Pi(m, n) на каждой итерации. Теперь наша непосредственная цель — выписать сглаженные вероятности в терминах так называемых прямых и обратных переменных ат(/') и Рт(/); см- формулу (3.8.9). Это даст нам эффективную с вычислительной точки зрения форму переоценки по Бауму—Уэлчу. Для заданного т = = 0, ..., п определим случайные цепочки /Ь(Хт+1) и bmi(X) = V Ь(Х„) Аналогично 'СТо\ /CTm+l> omT = I : ) и ami = (3.8.9) Далее, определим am(/) = Pz(bmT(X) = amT, Xm=j), Pm(/) = Pz(bml(X) = 0^1 *„,=/). Тогда имеет место равенство am(/')pm(/') = Pz(b(X) = о, Xm =/). (3.8.10) По определению условной вероятности имеют место такие рекуррентные соотношения: «о(/') = */<7/а0. / = 1, • • •, s, (3.8.11) am+i(/') = S 5^a»i(0Pi/ L (=i <Wh, /=1,...,s, m=\ n-1, (3.8.12) P«(/) = l. /=l,...,s, (3.8.13) s P«(/) = ^P«+i(')'7/ee+1P/«, /=1, ...,s, m = 0, ...,л-1. (3.8.14)
§3.8. Скрытые марковские модели, II. Обучающий алгоритм Баума—Уэлча Уравнения (3.8.11), (3.8.12) задают прямую рекурсию для вероятностей а, в то время как (3.8.13), (3.8.14) задают обратную рекурсию для вероятностей |3. Лемма 3.8.3. Вероятность Pi(m, n) из формулы (3.8.2) допускает следующее представление: ^■л) = рда^- (3-8Л5) Доказательство непосредственно следует из равенств (3.8.4). □ Теперь, применяя формулу Байеса, запишем п-\ п-\ Yl Pij(m, n) = ^2 Pz(Xm = i, Xm+i = j | b(X) = a) = m=l m=\ n-\ = CJ2 [Pz(b(X) = a\Xm = i, Xm+l = j) Pz(Xm = i, Xm+l = /)] = m=\ n-1 = С Y, Рг(Ь(Х) = a)\Xm = i, Xm+l =j)Pz(Xm = i)plh m=\ где С — постоянная, заданная равенством (3.8.3). Следующий шаг состоит в проверке, с использованием марковского свойства, того, что Pz(b(X) = a\Xm = i, Xm+i =/) = Pz(bmT(X) - omT |Xm = i) x x Pz(b(Xm+l) = am+l \Xm+l =/)Pz(bmi(X) = omi \Xm+l =/). Таким образом, получаем, что Pz(Xm = t)Pz(b{X) = a\Xm = i, Xm+i =/) = am(/)&y(CTm+,)pm+i(/). После суммирования получим л-I i-i Е am(i)pijbj(om+i)pm+i(j) ЕЙ/С»' п) = ~" p2(b(X) = g) • (3-8.16) Наша следующая задача — получить эффективное с вычислительной точки зрения выражение для р*-. Комбинируя выражение (3.8.15) с леммой 3.8.2, получим сглаженные переходные вероятности я-1_ п-1 Е Ра(т< п) Е «/(i)6y(CT/+1)Рл-1 (О Гц = £ =Р(/^4=1 • <3-8-17) Е Pi{m, n) E «/(QP/(i) т=\ 1=0
Глава 3. Статистика цепей Маркова с дискретным временем Далее, сглаженные начальные вероятности задаются формулами ^•-«••••■^ (3-8Л8) Наконец, для сглаженных вероятностей шумов мы имеем формулы £ \(am = k)p,(m,n) £ l(Om = *)««(/)p«(/) % = 'п^-п = B^L-n • (3-8.19) £ Pi(m, п) £ ««(/)pm(/) /л=1 т=\ Формулы (3.8.17)—(3.8.19) образуют базу современных вычислительных приемов, интенсивно используемых во многих приложениях; см., например, статью: Rabiner L. R. A tutorial on hidden Markov models and selected applications in speech recognition // Proc. IEEE. 1989. V. 77, №2. P. 257—288; а также [RJ]. Доступное введение в с.м.м. в биологии изложено в статье: Krogh A. An introduction to hidden Markov models for biological sequences // Salzberg S. L., Searls D. B., Kasif S. Computational methods in molecular biology. Amsterdam: Elsevier, 1999. P. 45—63; см. также [DRKM]. Еще раз повторим, что равенства (3.8.17)—(3.8.19) задают точку Ф(1) = Z* = (X*, Р*, Q*), (3.8.20) зависящую от переменной Z (т. е. от начального выбора параметров с.м.м., которую мы пытаемся выявить). В этой ситуации ключевой шаг—выполнение /V-кратной итерации нашей процедуры (т. е. рассмотрение преобразования Ф^): z(W = $(Z(Af-i)) = $w(Z(0))) yv=l,2, ..., (3.8.21) и определение предельной точки (точек) при N—юо. В «хорошей» ситуации можно надеяться, что существует предел Z(oo) = lim $N{Z), не зависящий N—юо от начальной точки Z(0) (или зависящий от Z'0) «слабо», т. е. Z(oo) меняется только при переходе от одной «области притяжения» к другой). Предположим дополнительно, что Z'00' является глобальной точкой максимума правдоподобия L(o; Z) = P(b(X) = о; Z), т. е. L(o; Z(oo)) = max[L(o; Z):Z = (к, P, Q) 6U\. (3.8.22) Тогда точку Z(oo) можно трактовать как «оценку» (точнее, о.м.п. Z0 м п ) предоставляющую нам «наилучшую подгонку» с.м.м. для заданной обучающей последовательности о. С геометрической точки зрения, предел Z(oo), если он существует, является неподвижной точкой отображения Ф. Мы видим, что анализ
§3.8. Скрытые марковские модели, II. Обучающий алгоритм Баума—Уэлча неподвижных точек Z* отображения Ф, и, в частности, условий сходимости Z(/V' = ФЛ'^)—►Z*, является здесь принципиальным вопросом. Этот вопрос обсуждается в § 3.9. Прежде чем продвинуться дальше, обсудим (непосредственный) результат максимизации выражения (3.8.22) по переменным X, Р и Q, образующим модель Z. Запишем лагранжиан в виде \ j=\ ' i=i ^/=1 / у=1 \k=i ' где у. v,- и lj — множители Лагранжа. Стационарная точка из внутренности области удовлетворяет соотношениям Ху>0, ^Ху = 1, щЦп;г)+у = 0, /=!,...,s, /=1 S д Pii>0, ^2р1/ = 1, — L(o; Z) + v« = 0, i, /= 1 5, qjk>0, ^2qjk = l, —L(o; Z) + /y = 0, /= 1, ..., s, k = 1 x, /"=1 dqjk' и задается уравнениями x/=(EXma5bL<o:Z>) Х'ЖЬ<°:2>' (3.8.23) ^m=l И ' ' "«=(t р>"ч£-ч°>z>) '"^L(c:Z) (38-24) -I ?/*=(f>ma|;L(CT;Z)) ^4rL(o;Z)' (3'8-25) Эти уравнения возникали и раньше, например в определении (3.7.5), а также в примере 3.7.3, и в общем контексте в (3.7.22)—(3.7.25) (см. также (3.7.32) и (3.7.386)). Эту систему нелинейных уравнений в общем случае нельзя решить аналитически. Поскольку максимизацию можно осуществить по каждой переменной отдельно, рассмотрим максимизацию только по переменным рц. Лемма 3.8.4. Имеет место следующее уравнение: ^Ца; Z) = £МОW,Pm+,(/')• (З-8-26) /п=1
Глава 3. Статистика цепей Маркова с дискретным временем Доказательство. Запишем S L(o; Z) = Pz(b(X) = a; Z) = £а„(/)рп(/); /=| поскольку рп(/) = 1, этот множитель можно опустить. Далее, воспользуемся соотношением (3.8.12) при т = п — 1: «ffl+l (/) = ( X) «m(0/ty J 9/оя+, • Отсюда следует, что s Ц<*; 2) = Yl an-\{i)Pijqjc„- Далее, непосредственным дифференцированием получаем (3.8.27) д-гМ°'' z) = an-i(i)'7/a„ + Y^ [аБГап-|(/) /"«?«<».• (3.8.28) /,m=l Значит, нам нужно вычислить только двойную сумму в правой части. Имеем Г»- п|/|Л-_ -I- > I- Го 1 ап-2(0<7/с„_, + £ я^а"-2(т) РщЯ1*я-х, если / = /, m=l LCPi/ J s Г 9 1 т=11°Рч J если / ^ /'. Подставляя частную производную да.п-\(т)/дрц во второе слагаемое в правой части равенства (3.8.28), получим г,1=1 PrlQia„ г=1 /■=1 L/=I Р/><7<-о„ + + £ 1(т^/)[^-ап_2(/)р/т9та„_,]ртг^а„ = 1 + 11 + III. (3.8.29) г,т,/=1 Теперь найдем значение каждого из трех слагаемых в правой части равенства (3.8.29). Во-первых, I = Xan-2(09/a„_,P/Wra„ = a„ - 2 (i )?/<,,,_, ( J^PirQroX
§3.8. Скрытые марковские модели, II. Обучающий алгоритм Баума—Уэлча Plrqra^i ( У"] PrmQma„ т=\ (3.8.31) что в силу соотношения (3.8.14) равно an-2(0W,pn-i(/). (З-8-30) Далее, объединяя слагаемые II и III и меняя порядок суммирования, получаем 11 + ■" = t [4Л-2(0 г,1=1 Рекуррентное соотношение (3.8.14) приводит нас к равенству S Y^Prmqmo„=$n-\(r). т=\ Поэтому правая часть соотношения (3.8.31) принимает вид 5 Г д 1 г,1=\ Итак, уравнение (3.8.28) принимает вид ^-L(o; Z) = an_i(j)<7/a„pn(/) + an_2(i)^a„_,(3n-i(/) + + £ [^^(OWa^-iM- (3.8.32) Двойную сумму в правой части уравнения (3.8.32) можно подвергнуть аналогичной процедуре, подставляя производную да.п-2{1)/дрц и преобразуя полученные суммы так же, как это делалось выше. Поскольку ar(0) не содержит ни одной вероятности рц, процесс дифференцирования обрывается при / = 0. Итак, мы получим д ""' дрц т=0 что и завершает доказательство. □ Лемма 3.8.4 приводит уже к другому виду уравнений (3.7.22)—(3.7.24), (3.8.4), (3.8.7)-(3.8.8) и (3.8.17)—(3.8.19). Действительно, подставим соотношение (3.8.26) в (3.8.24) и поменяем порядок интегрирования в знаменателе. Получим Л—1 г S т=\ Ly=1 и обратная рекурсия (3.8.14) приведет к формулам S 53/,'/9/e-+iP»n+l(/)=Pm(')- /=1
Глава 3. Статистика цепей Маркова с дискретным временем Значит, имеет место равенство s п-\ Y,Pi'd^L(°' Z) = Ys MOM') /= 1 т= 1 что немедленно дает нам правую часть соотношения (3.8.17). Основываясь на уравнениях (3.8.23)—(3.8.25), перепишем преобразование Баума—Уэлча Ф для задачи фильтрации с.м.м. в виде Ф:(Х, Я, 0)^(1*, P\ Q*), (3.8.33) где V = (EXmiL(CT;Z)) ^M°;2), (3.8.34) t^^L(a;Z)) V^L(a;Z) (3.8.35) m=l ' И % = (£^iL<CT; z>) '^iL^ z>- <3-8-36> Важно подчеркнуть, что в силу леммы 3.8.2, преобразование (3.8.33) имеет существенное преимущество с вычислительной точки зрения: оно сводится к сумме суперпозиций локальных преобразований. Это приводит к огромной экономии в вычислениях, требуя ns2 операций, в то время как прямой подход требует nsn операций. Анализ сходимости итераций Ф^ отображения Ф опирается на основные геометрические идеи, восходящие к первой половине XX в. Он проведен в §3.9, а результат сформулирован в теореме 3.9.9 (для задачи фильтрации с.м.м.). Аналогичный результат имеет место для задачи интерполяции. Значительная часть данного параграфа служила иллюстрацией важности выбора математических методов для проведения компьютерных вычислений. Завершим его историей о профессиональных вычислителях (т. н. «computors»). Недавно авторы этой книги натолкнулись на воспоминания А. А. Самарского, выдающегося русского прикладного математика н действительного члена Российской академии наук, о раннем этапе развития параллельных вычислений в СССР. (См. Губарев В. С. Белый архипелаг Сталина. М.: Молодая гвардия, 2004.) В конце 1940-х гг. в Советском Союзе усиленными темпами создавалась собственная атомная бомба, что требовало проведения огромного объема вычислений. В частности, ежедневно необходимо было численно решать системы, состоящие из сотен линейных уравнений. Советская компьютерная промышленность того периода выпускала только механические арифмометры. Однако вычисления были выполнены быстро и надежно. Советское решение проблемы было весьма элегантным: Самарский,
§3.9. Обобщения алгоритма Баума—Уэлча. Глобальная сходимость итераций возглавлявший вычислительную группу, взял себе в подчинение около 30 юных девушек- «компьютеров», только что окончивших Московский институт геодезии и картографии. Каждая из девушек должна была решить на своем персональном арифмометре дюжину уравнений и передать свои результаты другой девушке для сравнения и дальнейшего использования в соответствии со специально разработанным алгоритмом параллельных вычислений. Во время первого испытательного взрыва (август 1949 г.), ученые сумели численно предсказать результаты испытания с точностью до 30 %, что, согласно Самарскому, превосходило уровень точности, достигнутый американцами (которые уже пользовались первыми прототипами ЭВМ). На эффективность советской вычислительной системы того времени могло повлиять то, что неспособность верно провести вычисления рассматривалась как акт саботажа и могла иметь тяжелые последствия. Блестящий физик или инженер, работавший с радиоактивными материалами, с легкостью мог превратиться в заключенного и отправиться в шахту добывать тот же радиоактивный материал, но уже без всякой защиты. В это время специально натренированные вычислители (иногда их называли computors, в отличие от вычислительных устройств computers) использовались во многих странах. Так, в некоторых британских университетах была специальная должность («computor»), закрепленная за профессорами математики. Обязанностью ассистента было проводить вычисления, комбинируя наборы специализированных (механических или электрических) калькуляторов, подходящие для решения данной задачи. § 3.9. Обобщения алгоритма Баума—Уэлча. Глобальная сходимость итераций Я чувствовал себя подобно старому менестрелю, который пел свою песню в течение 18 лет, а теперь с огромным удовлетворением обнаружил, что его фольклор стал темой могучей симфонии. X. О. Хартли (1912-1980), американский статистик Как было установлено выше, преобразование Баума—Уэлча для задачи фильтрации с.м.м. задается с помощью (эквивалентных) формул (3.7.28), (3.8.20), (3.8.33), а для задачи интерполяции с помощью формулы (3.7.33). Для определенности далее будет рассматриваться только задача без ограничений. В случае задачи фильтрации преобразование переводит изначальную модель Z в модифицированную, или уточненную модель Z*, где Z* = Ф(2) лежит в области V(Z) = {Z€U: L(o; Z) ^ L(o; Z)} (3.9.1) (ср. с теоремой 3.7.12). Аналогично для задачи интерполяции Р* — = ЩР) е V(P), где V{P) = {Р е V: ЦР | Хт = хт) > ЦР | Хт = хт)} (3.9.2) (ср. с теоремой 3.7.8).
Глава 3. Статистика цепей Маркова с дискретным временем Доказательство сходимости алгоритма Баума—Уэлча не использует его специфических черт. В частности, структура цепи Маркова используется только при доказательстве монотонности в формулах (3.7.9) и (3.7.30). Это позволяет нам доказать сходимость более широкого класса алгоритмов, а именно т.н. алгоритмов типа ЕМ (expectation-modification, т.е. условное математическое ожидание плюс модификация) и их обобщений GEM (generalized EM, т.е. обобщенные ЕМ). Эпиграф к этому параграфу взят из статьи: Meng X.-L., van Dyk D. The EM algorithm — an old folk-song sung to fast new time // Journ. Roy. Stat. Soc. 1997. V. В 59. P. 511—567. За ним следовал такой текст: «Так же как народную песню, как правило, напевают в течение многих лет, прежде чем ее мелодия становится хорошо узнаваемой, различные методы и идеи, относящиеся к ЕМ... можно отыскать в [ранней] литературе... Аналогия с народной песней является точной и в том смысле, что она символизирует коллективный вклад в развитие ЕМ-алгоритма... Баум и другие (1970 г.), пожалуй, внесли наибольшее усовершенствование.» В 1992 г. число публикаций, относящихся к ЕМ, превзошло 1000 (сейчас их, конечно, намного больше). Любопытно, что среди 300 журналов, где были опубликованы вышеупомянутые 1000 статей, лидировал, что неудивительно, Журнал Американского общества статистиков (Journal of the American Statistical Association), но Журнал Королевского Статистического общества, Серия В (Journal of the Royal Statistical. Society), был вытеснен на пятое место Журналом науки о сыроделии и производстве молочных продуктов (Journal of Dairy Science). ЕМ-алгоритм работает следующим образом. У нас есть два выборочных пространства X (недоступные выборки с «полными данными») и У (наблюдаемые выборки с «неполными данными»), а также многозначное отображение Ф из X в У (это наш механизм наблюдения, он неточен). Это означает, что вместо наблюдения выборочного вектора х е X мы наблюдаем искаженный вектор у = Ф(х) е У. Такая ситуация часто возникает в статистике, когда данные можно группировать или цензурировать, т. е. усекать или отбрасывать. Пусть f(x; Q)(=fx(x; 0)), хе X, — плотность распределения случайного выборочного вектора X, зависящего от параметра 066. Тогда плотность распределения g(y,Q)(=gy(y,Q)) случайного вектора Y = Ф(Х) задается формулой g(y;9)= J f(*;B)dx, уеУ, (3.9.3) где Х(у) — это прообраз {х : Ф(х) = у}. Параметр б неизвестен и будет оцениваться методом максимального правдоподобия, т. е. путем максими-
§3.9. Обобщения алгоритма Баума—Уэлча. Глобальная сходимость итераций зации функции g(y; 9), или, что эквивалентно, lng(y; 9), на множестве 9 6 Э. Поскольку выборка х недоступна наблюдениям, заменим логарифм правдоподобия 1п/(х; 9) его условным ожиданием при заданном у. В описании алгоритма это проделывается для произвольного 9 6 в, но при последовательных итерациях в качестве 9 будем выбирать значение 9^, полученное после jV-й итерации; см. ниже. Равенство (3.9.3) — это отправная точка так называемого Е-шага ЕМ-алгоритма. Чтобы выполнить итерацию, соответствующую Е-шагу, положим Л(х|у; 9)' = ЩГУ хеХ' У = фМеЗ>; (3-9-4) здесь h(x | у; 9) — условная плотность св. X при условии что Ф(Х) = = у. Чтобы максимизировать lng(y; 9), запишем логарифм правдоподобия /(9')(=/(у;9'))ввиде lng(y|8') = ln/(x|9')-InA(x|y, 6') и возьмем условное ожидание Ее[ • | Ф(Х) =у]. Таким образом, / рассматривается как функция переменной 9' 6 в: /(9') = In g(y 19') = Q{& 19) - tf (6' 19). (3.9.5) Здесь Q(B' 19)(= Q(y; 9' 19)) и tf(6' 19)(= #(y; В' | 6)) означают условные ожидания д(9/|9) = Е9[1п/(Х|9/)|Ф(Х) = у], Я(9,|9) = Е9[1п/г(Х|у;9,)|Ф(Х) = у]) ( ' ' ' причем предполагается, что они существуют для всех пар б', 9 G 0. Теперь определим jV-ю итерацию ЕМ-алгоритма как отображение А: 0(ЛО g О ь-> 9(/V+1> = Л(9(М)) 6 6, действующее следующим образом. Е-шаг. При заданном находим Q(Q10М). М-шаг. Выбираем в качестве значение, которое максимизирует функцию 8 €вь+д(в|еМ): 6(/v+1) = argmax[(?(91б(М>): 9 6 в]. (3.9.7) Значение 0(/v+1) зависит от 9^ и выборочного вектора у. Мы надеемся (и, вероятно, так и бывало в первых приложениях), что последовательные значения 0(W', /V = О, 1, ..., полученные с помощью итераций алгоритма (их часто называют ЕМ-последовательностью), будут «хорошими». В идеале 0W должны сходиться (и достаточно быстро) к 9*, т.е. к о.м.п., максимизирующей правдоподобие g(y; 9) из формулы (3.9.3). К сожалению, это не всегда так, и значительная часть материала этого параграфа направлена на то, чтобы прояснить эту ситуацию.
Глава 3. Статистика цепей Маркова с дискретным временем С учетом дальнейших приложений используем в примерах альтернативное обозначение LnanH(9) = Ln0JIH(x; 6) для функции правдоподобия /(х; 0) и LHa6-"(9) = LHa6-"(y; 9) для g(y; 9), с /(9') = LHa6jI(9'). При выполнении итераций значение £"абл (0(^+0) всегда не меньше, чем /,набл(0М): LHa6-n(9(/V+1)) ^ LHa6-n(9(/V)). (3.9.8) Теперь, чтобы сделать отображение П взаимно однозначным преобразованием, нам нужно точно определить 0^+') среди точек максимума. Этот выбор может повлиять на различные аспекты реализации ЕМ-алго- ритма, как теоретические, так и практические. Очевидно также, что выбор начального значения 9'0) должен быть разумным, критичным. Пример 3.9.1. В этом примере ф обозначает стандартную нормальную плотность распределения N(0, 1): tf(x) = ~e~x'/2, xeR. (3.9.9) Наблюдается выборка из н.о.р.с.в. Y = : , имеющая распределение с плотностью \Уп/ g(y;Q) = ^{f(y) + f{y-Q)), 0€R; (З.9.10) которое является смесью с равными весами стандартной нормальной плотности распределения и нормальной плотности распределения со средним 9еМ и единичной дисперсией. В данном примере полные данные х состоят из napxi = (i/i,ai), ..., хп = {уп,ап), где г/, eR и at; = 0 или 1,/ = 1,..., п\ ау определяет, какой плотностью распределения, ф(х)или ф(х — 9), порождена /'-я точка наблюдения уг Функция Ф(х) = у «уничтожает» все at/ и оставляет только точки у\, ..., уп. То же применимо и к случайным выборкам УиХ. В этом примере логарифм правдоподобия lnLHa6,n(9) задается формулой л lnL„a6,(Q) = £1п ^^ + 1 у{у. _ Q)y (3 9 П) а логарифм правдоподобия lnLnanH(9) — формулой л lnLno,H(Q) = £ ](a. = 0) \n(?{yi) + |(a. = j} 1пф(^. _ Q) (3 9 12) (=1
§3.9. Обобщения алгоритма Баума—Уэлча. Глобальная сходимость итераций Приведенное выше описание ЕМ-алгоритма приводит в этом случае к такой формуле: л <?(9', 6) = 5^(1 - Wi(B)) 1п<рЫ + w,(B) ln<p(# - 9') + с, (3.9.13) где ш,-(ш = , . ,—; ?гг для i= 1,.... я и с — постоянная, не зависящая ip(yi) + cp(j/, - 9) от б и б'. Очевидно, (?(0', б) является квадратичной формой по 9' и может быть легко максимизирована. Далее, в силу приведенного выше описания М-шага значение 9(/v+1\ полученное после (jV+ 1)-й итерации алгоритма, задается формулой QlN+i) = e(yv+i)(e(AOi у) = 1=1 (3.9Л4) /=i П Пример 3.9.2 (двумерные нормальные данные с пропущенными значениями). Пусть X = ( ' 1 —случайный вектор, имеющий двумерное нормальное распределение N(ji, Е), где [I—действительный двумерный вектор (^') средних [li = EXit а Е— положительно определенная действитель- ная (2 х 2)-матрица ковариаций вида (ст" Ст|2) с элементами а и = VarX; \CT21 СТ22/ и CT2i = Ст|2 = Cov^i, ^2), i — 1, 2. Предположим, что мы хотим оценить совокупность параметров 9 = {(!,-, а1П i, j = 1, 2} по случайной выборке размера л, образованной из независимых копий случайного вектора X, причем данные по первой компоненте ^| пропущены в т\ местах, а данные по второй компоненте Х2 пропущены в гпч местах и т\ + m<i ^ п\ кроме того, позиции, по которым пропущены Х\, не пересекаются с позициями, по которым пропущены Х2. В этом примере в С М5; на самом деле в лежит bIxIx M.+ х R+ x R. (Первые два декартовых множителя М задают область изменения для [i\ и (1г, две копии пространства М.+ выполняют ту же задачу для Оц и стгг, и последний множитель М—для а\2', неравенство Коши—Шварца \а212\ ^ апстп указывает на то, что в — подмножество в KxRx R+ хR+ x R, не совпадающее с нулем или со всем пространством.) Обозначим массив наблюдаемых данных через у. Для определенности пронумеруем данные таким образом, что а) у^ = [ ^ I, /' = 1, ..., т, соответствуют точкам с полностью наблюдаемыми данными, где т = = п — т\ —т.2, б) ( ф J, j = m+ 1,..., т + т\, обозначают т\ наблюдений
Глава 3. Статистика цепей Маркова с дискретным временем с пропущенной первой компонентой и f ^' ), j = m + mi + I, ..., п, обозначают ГП2 наблюдений с пропущенной второй компонентой. Тогда у в развернутом виде соответствует массиву {«O-CRW-Wn-CT)}-^ Полные данные, конечно, представимы массивом векторов у^ = ( й ), —{GS0-CF»- (3*16> Мы используем для случайных выборок одновременно обозначение Y и X и отождествляем Y с частью X указанным ранее способом. Логарифм правдоподобия 1пЛнабл(0) = 1пЛнабл(у; 0) для 0, вычисленный по наблюдаемым данным у, имеет вид 1п!набл(0) = -я1п(2я) - ^mln(detE) - jj^^ - ^)TS_1(y(/') - Ц)- 2 г л т+т\ -1^тЛпои-\ аП1 £ (ц?-щ)* + а£. £ {yf - Ца) i=l <- j=m+m, + \ j=m+\ (3.9.17) Логарифм правдоподобия, соответствующий полным данным, 1пЛполн(0) = = 1п1полн(х;0), равен 1пЛполн(0) = -л1п(2я) - ^ln(detE) - ^^(У^ - ц^Е""'^ - у.) = 1 У=1 = -П 1п(2л) - -П ln(Oi 1022 - of2) - - 2(°11°22 - 012)-1 [022^11 +Оц522 - 2cJ|2S|2 - 2T\(\L\CS22 ~ Ц20|2) + + 27"2(Ц20|| -Ц1012) + «(Ц?022+^2°11 - 2(^1(^2012)], (3.9.18) где Ti = J2y^ Sa^yfyf, i.Z= 1,2. (3.9.19) /=i /=i Нетрудно видеть, что функция правдоподобия Лполн(0) принадлежит к экспоненциальному семейству с достаточной статистикой, образованной совокупностью {Т\, 72, 5ц, 5)2, 5гг}. Если бы в нашем распоряжении
§ 3.9. Обобщения алгоритма Баума—Уэлча. Глобальная сходимость итераций имелся массив полных данных х, то оценка методом максимального правдоподобия (по полным данным) 6 параметра 6 имела бы вид ft = Ti/n, да = (5н - re' 7/ Tt)/n, i, /=1,2. (3.9.20) Это замечание наводит на мысль, какой должна быть форма ЕМ-ал- горитма в данном примере. Предположим снова, что значение 6(Л,) = = {[i\ , a\j, i, /=1,2} было получено при N-vi итерации, и обозначим через Eqw математическое ожидание, взятое относительно двумерного нормального распределения, с параметрами 6(Л,). Е-шаг (N + 1)-й итерации алгоритма следующий. Нужно вычислить условное математическое ожидание 0(8, 0(ЛО) = ЕвМ[1п^олн(0)|у логарифма правдоподобия, соответствующего полным данным lnLn0"H(X; 6), при условии, что Y = у. Из равенства (3.9.17) видно, что указанная процедура сводится к вычислению математических ожиданий: Em[Y^\y] и EeM[(>f)2|y], } = т + 1,...,т + ти EQm[Y^\y] и EQm[(Y^)2\y], j = m + m] + l п. В силу независимости выборки, в первой строке условие Y = у можно заменить на Y}j = У% , а во второй строке — на К}" =yf. Соответственно можно использовать обозначение Em[Yf\y$] и Em[(Yf)*\y$], j = m+\,...,m + mu (3.9.21) и его зеркальные отображения Евю[У2 IУ?] и E9m[{Y^)2\yf], j = m + m1 + l,...,n. (3.9.22) Далее, если вектор ( ' имеет двумерное нормальное распределение N(^L, E), то распределение Кг при условии, что Y\ — у\, является нормальным N(^2, Oj2) со средним Иг =Ц2 + 012оП1(-х1 -^0 и дисперсией <Т*2 = 022 ( 1 ~ *! ) ■
Глава 3. Статистика цепей Маркова с дискретным временем Таким образом, приведенные выше математические ожидания (3.9.21) имеют вид Еяи Гу« I ,.Щ - „М + ^(»W - ,,{N)\ t9W|/2 \У\ J -^2 + ~W) \У\ Н J CTI1 Eew [()f )2 I yf = Д = (г«(Л0)2 + ^(/V). Здесь аЫ^ = ^(1-Жйг) 4 СТ11 СТ22 ' — это значения, вычисленные при /V-й итерации (ср. с (3.9.23)). Формулы (3.9.22) для Eew [Y® 11/, ] и Ед<« [(К2 )2] #,] легко получить перестановкой индексов 1 и 2. М-шаг (N + 1)-й итерации осуществляется простой заменой статистик Т[ и 5,7 на 7/ и Su соответственно, где последние формируются путем подстановки в формулу (3.9.18) вместо пропущенных значений уУ' и (У?*)2, i= U 2, их текущих условных ожиданий (3.9.21) и (3.9.22). Соответственно значение 6(/V+1) = {[ij + ,a\j + ,/,/'= 1,2} задается формулами ^+1) = 7чл0/я> 0(А/+П = (SW _ „-1 rf >Г(Л0)/п (з.9.23) П Пример 3.9.3 (параметрическое оценивание для экспоненциальных семейств). В этом примере 0 — Ж". Напомним, что экспоненциальное /е,ч семейство плотностей распределения /(х; 6), 6= : GR", задается формулой \8Я/ /(х; 6) = exp[(grade В(9))т[С(х) - 9] + В(9) + Я(х)], (3.9.24) где (grade В(6))т[С(х) - 9] = £ ^-В(9)[С,(х) - 9,]. Вектор-функция С(х) является достаточной статистикой. Эта конструкция включает в себя много популярных примеров: многомерное нормальное распределение, пуассоновское, мультиномиальное, гипергеометрическое (см. том 1, §3.6).
§ 3.9. Обобщения алгоритма Баума—Уэлча. Глобальная сходимость итераций Предположим, что функция Ф: х —►у задана и нам доступна выборка у = Ф(х). Итерация ЕМ-алгоритма с номером N+ 1 осуществляется теперь следующим образом. Е-шаг: запишем функцию 0(у;в|в^) = Евм(//(Х)|Ф(Х) = у)+ + (grade Вф))ТС(у) - (grade S(Q))T6 + B(V). (3.9.25) Здесь С(у)/ = Е9№[С(Х)/|Ф(Х)=у]. (3.9.26) Заметим, что слагаемое в первой строке правой части равенства (3.9.25) не зависит от 6, а значит, не принимает участия в максимизации по 6. В отличие от него, третье и четвертое слагаемые зависят от 0, но не зависят от 6<л,). Второе слагаемое (gradg B(9))TC(y), где С(у) определено в формуле (3.9.26), зависит и от 6, и от 6(/v>. М-шаг: при заданном значении параметра 6^' наша цель — найти максимум функции Q(y; 6, 6(Л/)) по 6 (при фиксированном у). После отыскания этого максимума значение, при котором он достигается, присваивается переменной 0^+4 (=0^+l'(y)). К сожалению, непосредственная максимизация, которую мы осуществили в примере 3.9.2, бывает возможна очень редко. □ Как было сказано ранее, вопрос о сходимости величин 6^, полученных в процессе итераций, является достаточно тонким и требует дополнительного анализа. Относительно простой случай — это когда полные данные Х = и неполные данные Y = Л, ваны н.о.р. векторами Ху = ,1- 1, совпадают и при этом они образо- , я, которые имеют многомерное нормальное распределение с известной ковариационной {d x а")-матрицей £ и неизвестным вектором средних 6 = (i € Rd. В этом случае совместные плотности распределения /х( • ; 6) и gv( • ; 8) совпадают и задаются выражением ( . ' ^ exp -iVto-u^E-'fa-ii) /=1 d а _ ,, г- Tad (3.9.27) xer, 6 = [I e:
Глава 3. Статистика цепей Маркова с дискретным временем В этом случае логарифм правдоподобия lnLHa6"(6) = In LnojlH(0) — это отрицательная квадратичная форма от у. (с коэффициентами, зависящими от выборки х): ц € R» „ -i£(x, - ti)TS-l(x/ - ц). Эта функция вогнутая и имеет единственный максимум, задающий о.м.п.: Значение у* можно также получить как предел различных аппроксимаций, что дает хорошую практику при реализации ЕМ-алгоритма. Стандартный метод аппроксимаций — это метод наискорейшего спуска (используемый для минимизации выпуклой квадратичной формы). Но для оценки скорости сходимости нужно следующее неравенство. Пример 3.9.4 (неравенство Канторовича). Пусть £ — положительно определенная действительная (п х /г)-матрица. Для любого вектора х = G R" имеет место следующая оценка: (хТ£х)(хТ£-'х) ** (ц_ + ц+F (o.y.zo) где [i_ и у+ являются соответственно наименьшим и наибольшим собственными значениями матрицы Е. Решение. Пусть собственные значения yi матрицы £ удовлетворяют неравенствам 0<ц_ = уц ^...^уп = у+. При подходящей замене координат матрица Е становится диагональной, и £*?) i/Ebi* ;_ 1 / ;—\ 4 1=1 ' 1=1 ._ ф(5) (5>*?)( £*?/*) £Ь/ц/ ' ф(5)> \ :_ I / \ ;_ i / :_ I W=l ' Ч/=1 ' 1=1 где £,• = xj/ £ xf. Функция у н-> \/у выпуклая при у > О, точка ф(£) лежит i=i на кривой, а точка ф(£) является линейной комбинацией точек на кривой. Поэтому минимальное значение частного достигается для некоторого у = = Z,\[ii +Z„\i„, \\ +ln = 1. В этом случае ^i/[i| +^2/^л = (^1 + Ц„ -ц)/|1|Цл,
§ 3.9. Обобщения алгоритма Баума—Уэлча. Глобальная сходимость итераций и мы получаем Ф(5) > inf УУ _ W" Ф(?) ^ tii <и<цл (Hi + U-n - И)/Ц1 Ип (Hi + Ил)2' так как минимум достигается в точке \х = (\±\ + (1„)/2. О Пример 3.9.5 (метод наискорейшего спуска для квадратичной формы). Для заданной положительно определенной действительной (п х п)-матри- цы Е и векторов b, xo G Шп положим gk = -£xk-b и xk+l=xk--^-gk, Л = 0. 1, ... (3.9.29) Тогда для любого хо € Ш" последовательность {х^} сходится при k —»оо к единственной точке минимума х» функции Дх) = ^хтЕх - хт Ь. Более того, если обозначить D(x) = -(х — х*)тЕ(х — х*), то имеет место следующая оценка: Д(х*+.) < ({^тт{г)2Д(х*) v*. где [i_ и [i+, как и ранее, являются соответственно минимальным и максимальным собственными значениями матрицы Е. Указание. Примените неравенство Канторовича к соотношению Р(х»)-Р(х»+|)= (gjgkf п Довольно часто нереально выполнить численно процедуру максимизации на М-шаге. Мы уже столкнулись с этим в примере 3.9.3; в случае марковских цепей чаще ситуация именно такова, а никак не наоборот. На этот случай предусмотрен алгоритм GEM — обобщенное условное ожидание плюс преобразование. При выполнении GEM-алгоритма мы просто выбираем 0^+') таким образом, что Q(0(/V+1) | 0(ЛО) -, Q(Q(N) | 0(ЛО) (3.9.30) Поскольку математическое ожидание //(0 | 6) удовлетворяет, в силу неравенства Гиббса, соотношению Я(0 | 9) > Н(в' | 6), 6, 6' € Э, неравенство (3.9.30) приводит к свойству монотонности (3.9.8) (что является основополагающей чертой ЕМ-и GEM-алгоритмов).
Глава 3. Статистика цепей Маркова с дискретным временем При выполнении GEM-алгоритма мы записываем неравенство <?(0' | 6) > <?(0 19), 0,0'еЭ. (3.9.31) При заданном 0 G 8 это неравенство задает множество УИ(9) = {0' е 9: <?(0' | 0) ^ Q(0 19)}, (3.9.32) и мы вынуждены рассматривать многозначное отображение 0 е Э » М(В), причем гарантировано выполнение условия 0(Л,+1)еУИ(0(Л/)), п = 0,1,... Последовательность 0'W), имеющая указанное свойство, называется GEM-последовательностью. Пример 3.9.6. Приведем пример GEM-последовательности {0(/^}, для которой Ц0(Л,)) монотонно сходится, в то время как сама последовательность {0^} не сходится, а имеет в качестве множества предельных точек единичный круг. Рассмотрим двумерное нормальное распределение с неизвестным средним у. = I r I и единичной (2 х 2)-матрицей ковари- аций. В этом примере неизвестный параметр 0 = [i, а полные и неполные У'Г данные совпадают: х = у = лами GEM-последовательность {[i(A,)}, где [i(A/) = I ^\N) J, задается форму- 1И ^ / у.™ = У1 + г™ costi™, где г<°> = 2, i9<°> = 0, а г(Л° = 1 + (Л^+1)-,1 ^ = ^(/+1)-', 6=1,2,... i=i В терминах аналитической геометрии на плоскости г и 1? являются полярными координатами с центром в наблюдаемом векторе у. Для логарифма правдоподобия lnL([i(/V)) = lnL(y | [i^) видим, что InZV^) - \ПЦуМ) = ^((гт)2 - (r<w+l>)2) = = ^[(г^)2-(2-(г(Л")-')2], (3.9.33)
§3.9. Обобщения алгоритма Баума—Уэлча. Глобальная сходимость итераций поскольку r'w+1' = 2 — (г*^) '. Теперь используем элементарную оценку О < 2 — и-1 < и для и ^ 1. Поскольку г(Л/) ^ 1 для каждого k, получаем, что lnL^+'^-InL^^'^O. Значит, последовательность [i^ действительно является GEM-последо- вательностью. В силу того что г^' —> 1 при N —► оо последовательность значений функции правдоподобия {L(\i^} сходится к величине (2л)-'е-1. Но для последовательности {ц*^} любая точка единичного круга с центром в точке у является предельной. □ Перейдем теперь к общей ситуации, мотивированной изложенными выше примерами, на которые мы будем периодически ссылаться. Удобно работать с многозначным отображением М, переводящим точки в множества. В общем случае такое отображение переводит точку 6 G 0 в подмножество M(Q)cQ, где 0 — заданная область в евклидовом пространствеR", М:0е0>->УИ(0)с0. (3.9.34) Примеры, которые мы будем иметь в виду, возникнут из соотношений (3.8.33) и (3.7.38 б). В этих примерах 6 = Z — (X, Р, Q) для задачи фильтрации с.м.м. и 0 = Р для задачи интерполяции с.м.м. Сейчас отображение М на самом деле взаимно однозначное (т. е. переводит точку в точку) и совпадает с отображением Ф в задаче фильтрации и с П в задаче интерполяции. С этого момента предполагаем, что М(6) для любого 6 G 0 — компактное множество. Это охватывает вышеупомянутый случай преобразований Ф и П. Действительно, в задаче фильтрации с.м.м. без ограничений преобразование Ф действует на множестве 0 = U, в то время как в задаче интерполяции с.м.м. без ограничений П действует на множестве 0 = V, причем оба множества U и V компактны в соответствующих евклидовых пространствах (ср. с соотношениями (3.7.11) и (3.1.5)—(3.1.7)). Определение 3.9.7. Говорят, что отображение М замкнуто в точке 6 G 0, если из сходимости 6(&) —> 6 для точек Q(k) G 0 и сходимости \(k) —у v для точек v(&) G M(Q(k)) следует, что v G М(Щ. Если отображение М замкнуто в каждой точке 6 G 0, то говорят, что М замкнуто на множестве 0. В оставшейся части данного параграфа будем предполагать, что все рассматриваемые отображения замкнуты на множестве 0. Очевидно, если М: 0 —> 0 — взаимно-однозначное отображение, то М замкнуто в точке 0, если М непрерывно в точке 0. В общем случае многозначного отображения М точки в множество мы по-прежнему будем говорить об алгоритме
Глава 3. Статистика цепей Маркова с дискретным временем А с начальной точкой 6(0) G 0, порождающем последовательность точек B<N+l) = A(QW), если B{N+l) € M(B{N)), N>0. Такой алгоритм просто задается отображением точки в точку, которое мы снова обозначим А, устанавливающим единственный выбор элемента А(В) из множества М(В). Определение 3.9.8. Функция F: 0 —► Ш. называется функцией, возрастающей на траекториях, или функцией Ляпунова (ascent function), для замкнутого многозначного отображения М точки в множество с разрешающим множеством (solution set) Г С 0, если 1) F непрерывна и ограничена на 0; 2) F(B) > F(B) VG^G 0 и в € М(В); 3) из условия F(B) = F(B) для некоторого 6 G М(В) следует, что 6 G Г. Пример функции Ляпунова возникает в контексте задач без ограничений для с.м.м. Как было сказано ранее, для задачи фильтрации 0 = = 14, отображение М совпадает с преобразованием Баума—Уэлча («точка в точку») Z S U i-> ${Z) (см. (3.8.33)) и разрешающее множество Г совпадает с множеством ?<$ неподвижных точек отображения Ф: T<b = {Z£U: <&(Z) = Z}. (3.9.35) В этом случае можно положить F(Z) = L(o;Z), Z = (X, P, Q)eU (3.9.36) для любой заданной обучающей последовательности а; см. (3.7.9). Аналогично для задачи интерполяции с.м.м. без ограничений множество Q = V (см. (3.7.12)), поэтому естественная функция Ляпунова имеет вид F(P) = L(P|Xr = xr), PeV, (3.9.37) см. (3.7.30). Разрешающее множество совпадает здесь с множеством Тц неподвижных точек преобразования П: J^n = {PeV: ЩР) = Р}. (3.9.38) Заметим, что оба множества Т$ и Тц— замкнутые подмножества множеств U и V соответственно. Желательно доказать, что последовательности моделей (Z^) и (Я(Л^) сходятся или имеют предельные точки при N —> сю. Напомним, что геометрически Z(N) и p(N) являются образами начальных моделей Z(°) и Р(0' при отображениях Ф^ и П^ (т. е. при N-кратных итерациях преобразований Ф и П). Поэтому нужно рассмотреть предел lim $N{Z) = Z\ lim UN(P) = P*. (3.9.39) N—юо N—юо Для краткости изучим преобразование Ф, поскольку рассуждения относительно П полностью аналогичны. Очевидно, что предельные модели Z*
§3.9. Обобщения алгоритма Баума—Уэлча. Глобальная сходимость итераций будут неподвижными точками преобразования Ф: Ф(г*) = Z*, (3.9.40) что согласуется с соотношениями (3.8.23)—(3.8.25). Из общих результатов, установленных далее, можно вывести следующее утверждение. Теорема 3.9.9. Пусть последовательность {Z(W)} порождена итерациями преобразования Ф начальной модели Z^0': zlN+\) = $(Zw}j N = o,l,... Предположим, что F(Z) = L(o; Z), ZeU {ср. с (3.9.36)), является функцией Ляпунова, удовлетворяющей условиям 1 и 2 из определения 3.9.8, причем разрешающим множеством Г является множество F<$ неподвижных точек Ф. Тогда справедливы следующие утверждения. 1. Любая предельная точка Z* последовательности {Z(,v^} лежит в множестве Рф, т. е. является фиксированной точкой отображения Ф. 2. Значения F (Z^) монотонно возрастают, и поэтому lim F (Z(A/)) = F{Z*) {откуда следует, что значение F{Z*) одно и то же для всех предельных точек Z*). 3. Предположим дополнительно, что ||Z(A,+1) - Z(A/)|| —>0 при N—юо и предельные точки Z* образуют замкнутое компактное связное множество U. Следовательно, либо существует единственная предельная точка, либо предельные точки образуют замкнутый компактный континуум. 4. При условии 3 предположим, что F имеет конечное или счетное число точек глобального максимума {т.е. функция правдоподобия L(o; Z), имеет не более чем счетное число оценок максимального правдоподобия) и что F(Z(A/)) сходится {глобально) к максимальному значению F. Тогда в утверждении 3 предельная точка 6* единственна, и, значит, имеет место сходимость lim 6м = 6*. N-юо Теорема 3.9.9 дает достаточные условия глобальной сходимости итераций, но содержит слишком сильные предположения и оставляет открытым важный вопрос о проверке условий 3 и 4. Эти вопросы являются областью интенсивного исследования, как аналитического, так и численного характера; см. замечание 3.9.14.
Глава 3. Статистика цепей Маркова с дискретным временем Наш первый пример в рамках только что принятой общей постановки задачи выглядит так. Пример 3.9.10 (теорема Ляпунова). Пусть F — ограниченная непрерывная функция 6 —► R, а А — непрерывное отображение точки в точку 6 —► 6. Предположим, что F — функция Ляпунова с разрешающим множеством Г, т. е. F(A(B))>F(B) (3.9.41) и если F(A(B)) = F{B), то 0 G Г. (3.9.42) Пусть 0*— предельная точка последовательности {0^}, где Q(N+l) = = A(BW) с начальной точкой 0(О) G в: 0* = lim 0(/Ч к—>оо Докажите, что 0* G Г. Решение. Поскольку последовательность F(B^) монотонно не убывает по N и ограничена сверху, существует предел lim F(B^). В силу Л/—>оо непрерывности функции F этот предел совпадает с F(B*). С другой стороны, в силу непрерывности отображения А и вышеупомянутой монотонности он также совпадает с F(A(B*)). Поэтому F(A(B*)) = F(B*), и с учетом условия (3.9.42) мы получаем 0* G Г. D Пример 3.9.11 (теорема Островского). Рассмотрим последовательность точек B(k) G К", для которых \\B(k + 1) - B(k)\\ -+ 0. Тогда либо эта последовательность сходится (т. е. существует предел lim B(k)), либо к—*оо множество ее предельных точек образует замкнутый связный континуум. Решение. Замкнутое связное множество в W не может быть представлено в виде объединения двух непересекающихся непустых замкнутых множеств; если такое множество содержит более одной точки, то оно образует континуум. Легко видеть, что предельные точки рассматриваемой последовательности образуют замкнутое множество. Предположим, что это множество содержит более одной точки и что мы представили его в виде объединения непересекающихся множеств С\ U C2, где С\ и Сч оба замкнуты. Тогда существует такое 8 > 0, что расстояние от любой точки С\ до любой точки из Сг не менее 8. В силу нашего предположения о норме существует такое £п, что ||8(*+1)-в(*)||<| для всех k>k0. (3.9.43) Возьмем точку G* G С]. Тогда существует сколь угодно большое k' > ko, для которого \\B(k') — 0*|| < 8/3. Так как точки B(k), k > к', имеют предельную точку из Сг, существует такое к" > к', что dist(0(fc"), C2) < 28/3. Здесь
§3.9. Обобщения алгоритма Баума—Уэлча. Глобальная сходимость итераций Видим, что и далее под расстоянием между точкой и множеством понимается, как обычно: _ _ dist(9, C) = inf[||8-8||: Be С]. Предположим, что k\ —наименьшее число k" с таким свойством. Тогда dist(9(£, - 1), С2)>2|, и из неравенства (3.9.43) получаем, что dist(8(*,), C2) > |. |<dist(8(*,)f C2)^~. (3.9.44) Поэтому существует бесконечная последовательность индексов № < № < < ..., для которой имеют место неравенства (3.9.44). Предельная точка 0* последовательности {0(6^)} является предельной точкой начальной последовательности {0(£)} и удовлетворяет соотношению |<dist(8„C2)<y. (3.9.45) Поэтому 9* не принадлежит С2. Тогда точка 0* должна лежать в С\; в то же время расстояние от нее до С2 меньше 8. Получаем противоречие, а тогда множество предельных точек образует связный континуум; ср. с теоремой 28.1 из книги [О]. □ Пример 3.9.12. Предположим, что функция F: 9 —>М и отображение точки в точку А: 9 —► 6 взяты из примера 3.9.10, а разрешающее множество Г совпадает с множеством Та неподвижных точек отображения А: Г = ТА = {вев:А{в) = в}. (3.9.46) Покажите, что для любой начальной точки 0(О* множество предельных точек последовательности {0(A/)}, где Э^"1"1' = Л(0(Л/)), компактно и связно. Решение. Предельные точки образуют замкнутое подмножество компактного множества {0 G 9: F(B) ^ F(B^)}, поэтому они образуют замкнутое компактное множество. В примере 3.9.11 было доказано, что условие lim ||8(A,+1)-8(/V)||-»0 (3.9.47) 4 0О влечет за собой, что либо предельная точка одна (т.е. последовательность 0(Л/) сходится к пределу), либо множество предельных точек — это замкнутый связный континуум. Предположим, что условие (3.9.47) не выполняется. Тогда можно извлечь такую последовательность 0М), для
Глава 3. Статистика цепей Маркова с дискретным временем которой существуют пределы Iim G(/v*' = 6' и lim 6(Л,*+|) = 0", но В'фВ". k—>oo к—>оо Теперь из непрерывности А следует, что 0" — /4(6'), а из монотонности функции F следует, что F{W') = F(W)= lim F(BW). N—юо С учетом условия (3.9.42) из равенства F(B") = F(B') следует, что 9' — неподвижная точка отображения А. Значит, 0" = 0', и мы приходим к противоречию. Следовательно, имеет место условие (3.9.47), и множество предельных точек отображения {0^} связно. □ Итог примеров 3.9.10—3.9.12 подведен в следующей теореме. Теорема 3.9.13 (теорема о глобальной сходимости). Пусть М—многозначное отображение точки в множество 0 € 9 ь-> М(9) С 6 и F — непрерывно дифференцируемая функция Ляпунова на 6 с разрешающим множеством Геб. Зафиксируем алгоритм, порождающий последовательность точек 0<Л/+1) =Л(0(Л/)) еМ(0(л/)) с начальной точкой 0(о). Тогда любая предельная точка 0* последовательности {9(Л,)} лежит в множестве Г, а значения F(BW) монотонно сходятся к пределу, равному F(B*) (откуда следует, что значение F(B*) одно и то же для всех предельных точек). Предположим вдобавок, что а) отображение А можно продолжить по непрерывности на 9, а множество Г взято из формулы (3.9.46), и б) верно соотношение (3.9.47). Тогда множество предельных точек {8^} компактно и связно. Далее, предположим, что нам дополнительно известно, что в) множество предельных точек последовательности {0(Л/)} конечно или счетно. Тогда на самом деле это множество состоит из одной точки, и, значит, последовательность сходится к пределу: lim Bw = Qloo). (3.9.48) Замечание 3.9.14. Возможный путь проверки условия в) теоремы 3.9.13 — это проверить, что а) функция Ляпунова F имеет единственный глобальный максимум 0тах € 9 и б) значения F(B^N)) сходятся к максимальному значению F(BmiiX). Для задачи фильтрации с.м.м. аналогичный результат содержится в теореме 3.9.9. На практике условия а)—в) теоремы 3.9.13 выполняются в широком классе случаев. Однако строгая их проверка не так уж проста. Это вынудило некоторых авторов обсудить паллиативные меры, которые, однако, могут быть полезными в некоторых ситуациях. См. монографию [McLK] и статью Jeff Wu С. F. On the convergence properties of the EM algorithm // Annals Stat. 1983. V. 11. P. 95-103.
Приложение I Андрей Андреевич Марков и его время Цепи Маркова занимают особое место в преподавании теории вероятностей. Они названы именем русского математика, который ввел это понятие и дал толчок этой элегантной теории в 1910-е гг., за 25 лет до того, как в 1930-х гг. было сформулировано определение вероятности в том виде, в каком оно используется и сегодня. Приведенный ниже краткий биографический очерк основан на доступных авторам источниках. См. также библиографию в статье: Basharin G.P., Langville A.N'., Naumov V.A.. The Life and Work of A. A. Markov // Linear Algebra and Applications. 2004. V. 386. P. 3-26. Андрей Андреевич Марков (1856-1922) родился в семье русского чиновника. Отец Маркова, следуя семейной традиции, начал свою карьеру учебой в Рязанской духовной семинарии, но затем поступил на службу в лесное отделение Рязанской палаты государственных имуществ, а позже стал частным поверенным. Марков-отец славился своей честностью и высокими принципами (качества, унаследованные и сыном), но слыл человеком азартным, имел репутацию заядлого картежника. Семейное предание гласит, что однажды он даже проиграл в карты все свое имущество — движимое и недвижимое. К счастью, выяснилось, что играл он с шулером, и поэтому проигрыш был признан недействительным. Марков- сын, в противоположность ему, любил шахматы и был признан одним из лучших игроков своего времени: когда Михаил Чигорин, первый шахматист России, готовился к матчу в 1892 г. с австрийским маэстро шахмат Вильгельмом Стейницем, чемпионом мира на тот период, он сыграл тренировочный матч из четырех партий с Марковым, причем Марков выиграл одну партию и свел вничью другую (Чигорин потерпел драматическое поражение от Стейница в решающей игре, чем вызвал глубокое разочарование у многочисленных российских шахматных энтузиастов, глубоко переживших этот проигрыш.) Марков выиграл у Чигорина еще до этого в 1890 г., показав прекрасную игру, которую приводят во многих шахматных книгах. В матче Оксфорд—Москва, который проходил по телеграфу в 1916 г., в середине Первой Мировой войны, Марков, играя за Москву, вновь провел
Приложение I блестящую игру, на этот раз играя против Павла Гавриловича Виноградова, выходца из России, а в то время профессора социальных наук в Оксфорде. Марков был болезненным ребенком, страдал костным туберкулезом, вследствие чего у него не разгибалась одна нога и в детстве он ходил на костылях. Однако он был очень резвым ребенком и старался играть с другими детьми, прыгая на одной здоровой ноге. К счастью, перед тем как ему исполнилось десять лет, после переезда семьи в Санкт-Петербург, ему сделали удачную операцию, и он стал двигаться почти нормально, чуть- чуть прихрамывая. Он любил ходить пешком, и его любимая поговорка была «пока жив — ходи!». В гимназии он не числился блестящим учеником, хотя и демонстрировал незаурядные способности к математике. (По- видимому, это было наследственной чертой, так как его младший брат также стал видным математиком.) На последнем году учебы он нашел метод решения линейных дифференциальных уравнений с постоянными коэффициентами и сообщил об этом известным русским математикам того времени В. Я- Буняковскому, А. Н. Коркину и Е. И. Золотареву. Когда ему ответили, что его метод хуже стандартного (излагаемого в современных ему курсах дифференциальных уравнений, вследствие чего хорошо уже известного), его интерес к математике лишь усилился, и в 1874 г. он поступил на физико-математический факультет Санкт-Петербургского университета. В университете Марков был выдающимся студентом и был отмечен многочисленными премиями и стипендиями, включая императорскую стипендию. Он всегда получал наивысшие отметки, за исключением богословия (тогда это был один из предметов в расписании) и неорганической химии, где его экзаменатором был Д. И. Менделеев (создатель Периодической системы, также предложивший стандартное 40 % содержание алкоголя в водке). Его любимым профессором был П. Л. Чебышёв, с ним Марков был особенно близок и подолгу беседовал после лекций. Марков окончил курс в университете в 1878 г. и получил степень магистра в 1880 г. (эта степень примерно соответствовала современной степени кандидата наук). Степень доктора наук ему присудили в 1885 г., а в 1896 г. он был избран членом Российской академии наук. За свою жизнь он опубликовал более 120 статей и монографий; из них около трети посвящено теории вероятностей. Цепи Маркова появились в его работе, датируемой 1908 г. (Термин «цепь Маркова» был использован С.Н. Бернштейном1 в 1926 г. В западноевропейский научный обиход этот термин был введен Ж- Адамаром, знаменитым французским математиком. Следует отметить, что само слово 'См. Bernstein S.N. Sur I'extension du theoreme limile du calcul des probabilites, etc. // Math. Annalen. 1926. V.97. P. 1-59.
Андрей Андреевич Марков и его время «цепь» встречалось в оригинальных работах Маркова.) Интересно, что Марков не предугадывал многочисленных применений своей теории. Пытаясь проиллюстрировать ее примерами, он проанализировал последовательность из 200 000 букв, взятых из романа в стихах «Евгений Онегин», написанного А. С. Пушкиным в 1820 г., а также другую последовательность из 100 000 букв, взятых из повести С. Т. Аксакова «Детские годы Багрова- внука». («Евгений Онегин» до сей поры, вероятно, наиболее популярное произведение в стихах в России, и не так уж редко встречаются люди, способные процитировать этот достаточно длинный текст от начала до конца наизусть.) Марков обнаружил, что чередование гласных и согласных в этих текстах хорошо аппроксимируется цепью Маркова с подходящими вероятностями перехода. Поскольку компьютеров в те времена не было, он проделал все вычисления вручную, на что ушли месяцы кропотливой работы, в том числе непрерывного отслеживания погрешностей расчетов. Другой пример, изученный Марковым, — это результаты перетасовки карт; он посвятил немало времени соответствующим вычислениям. (Как известно, на развитие теории вероятностей немалое влияние оказали различные азартные игры.) Следует отметить, что этот пример стал популярным в тех многих областях знания, на которые повлияло появление компьютеров. Высокие исследовательские стандарты Маркова часто приводили его к столкновениям с коллегами, которых он упрекал в недостатке строгости (одной из его мишеней была Софья Ковалевская). Вообще, в это время российская математика была расколота, так как санкт-петербургская математическая школа следовала намного более строгим правилам, чем московская, что не способствовало дружественным отношениям между двумя сообществами. Несмотря на откровенность и нежелание идти на компромиссы (а возможно, и благодаря этому), у Маркова было немало преданных друзей среди коллег, особенно Александр Михайлович Ляпунов (1857—1918). Ляпунов, хотя был всего на год моложе Маркова, считался его первым учеником и последователем (хотя официальным руководителем Ляпунова в университете был Чебышёв). Марков женился в 1883 г.; он был репетитором у своей будущей жены и успешно подготовил ее по математике, однако свадьбу отложили на несколько лет из-за матери невесты, которая не давала согласия, пока претендент не предоставил достаточные, на ее взгляд, доказательства своей финансовой состоятельности. У них было трое приемных детей и один родной сын, которого также назвали Андреем (1903—1979), впоследствии профессор Московского университета, член-корреспондент Академии наук СССР, разносторонний математик, в особенности известный исследованиями по математической логике.
Приложение I Марков был убежденным либералом, последовательным и активным участником как в организации российского научного образования, так и в социально-политической жизни в целом. В 1901 г., когда Священный Синод Русской Православной Церкви постановил отлучить Льва Толстого от церкви, Марков подал прошение быть отлученным вместе с ним. Когда затем один из членов Синода хотел обсудить с ним эту ситуацию лично, Марков ответил, что он готов обсуждать лишь математические проблемы. В 1903 г. Марков отказался от получения орденов от правительства в знак несогласия с государственной политикой ограничения финансовых и общих свобод российских университетов. В 1905 г. он был одним из тех, кто подписал письмо протеста против нищенского состояния российских школ; когда Великий князь Константин Романов в своем циркулярном письме, разосланном всем академикам, подписавшим письмо, упрекнул его за это, он ответил своей знаменитой фразой: «Я не могу изменять своих убеждений по приказанию начальства». В 1905 г. Ученый Совет Санкт- Петербургского университета направил петицию в Министерство народного просвещения, предлагая отказаться от процентной нормы (3 %) для студентов-евреев. Петиция была отклонена. Тогда Марков (поддержанный еще одним членом Ученого Совета) предложил отменить процентную норму в университете решением Ученого Совета. Когда стало ясно, что администрация университета не поддерживает подобного решения, Марков вышел из Ученого Совета. В 1908 г. министр образования Императорского Совета Министров повелел профессорам университетов доносить о политической активности студентов (которая становилась все более и более радикальной). Марков выразил протест словами «Я решительно отказываюсь быть в Университете агентом правительства на своих лекциях» и подал прошение об отставке. Отставка не была принята, но Маркова лишали всевозможных почестей в течение всего оставшегося правления династии Романовых. В 1912 г. он игнорировал празднование 300-летия Дома Романовых и организовал вместо этого научную сессию, посвященную 200-летию закона больших чисел. После большевистской революции, в 1921 г. он вместе с другими коллегами выражал решительный протест в адрес Советской власти в связи с тем, что кандидатуры на университетские должности подбирались с учетом не их профессиональных знаний, а классовой принадлежности или политических убеждений. Эта акция была особенно смелым шагом, так как он был уже серьезно болен и нуждался в особом питании и лечении, осуществимых в этот период всеобщего хаоса и лишений в России лишь через правительственные источники. Марков был замечательным лектором. Многие из его курсов лекций были литографированы (этот способ использовался в тот период для воспроизведения рукописного или печатного текста в количестве нескольких
Андрей Андреевич Марков и его время сотен копий низкого качества) и затем переведены и изданы в Германии. Среди его студентов были Н.М. Понтер и Г. Ф. Вороной, впоследствии выдающиеся математики. К концу 1921/22 академического года здоровье Маркова так пошатнулось, что сын Андрей вынужден был сопровождать его на лекции. Общее состояние здоровья Маркова еще более ухудшилось, когда он узнал о трагическом самоубийстве Ляпунова в 1918 г., совершенном после смерти жены от голода, наступившей среди лишений, которые сопровождали гражданскую войну в России. Уход Маркова был огромной потерей для российской математики. Как писал Понтер вскоре после его смерти: «[Марков] был естественным лидером среди учеников, окружавших его; он останется нашим лидером, так как кладбище забрало лишь смертную часть его, а его высокий дух будет жить вечно в его последователях». После выхода в свет фундаментальных трудов Маркова математическая наука обратилась к созданию общей концепции случайного процесса, включающей понятие броуновского движения, которое является непрерывной во времени/пространстве модификацией однородного случайного блуждания. Великие имена в этой науке — Колмогоров, Винер, Леви, Дуб, Феллер и, уже позднее, Дынкин. Некоторые из этих имен, по мере необходимости, упоминаются в данной книге.
Приложение II Пирсон, Максвелл и другие знаменитые Кембриджские лауреаты: уроки, которые следует усвоить Magna opera domini exquisita in omnes voluntates ejus. Велики дела Господни, вожделенны для всех, любящих оные. Psalm 111.2 (110.2): выбит на воротах старой лаборатории Кавенднша в Кембридже Наши книги, как мы неустанно подчеркивали, во многом основаны на материалах кембриджских экзаменов, различные части в разной степени. Поэтому мы почувствовали, что будет полезным обрисовать в целом форму и сущность системы экзаменов «Математические треножники». По мере того как студенты Кембриджа осваивают программу, эта система бесспорно проникает в их жизнь по крайней мере на протяжении студенческих лет. Но она важна также и для их экзаменаторов: трудно представить себе исследовательскую и педагогическую деятельность полностью обособленными в ведущем университете. Не обладая достаточным профессиональным опытом описания столь увлекательного предмета, мы неизбежно углубились в более широкий контекст: как вообще изучать математику и чего ожидать от хорошего математического образования. Чтобы придерживаться все же основного направления наших книг, мы решили начать с мыслей, высказанных как самим Карлом Пирсоном (1857—1936), отцом современной статистики, так и о нем. Мы полагаем, что несмотря на то, что его кембриджский опыт восходит ко второй половине XIX столетия, суть этих высказываний остается актуальной и сейчас, поскольку многие приметы четко узнаются современным читателем-участником процесса обучения математике на университетском уровне. В ходе наших размышлений мы ознакомились с рядом книг по истории науки, две из которых сочли особенно полезными: Варвик А. Мастера Теории. Кембридж и подъем математической физики. Чикаго и Лондон: издательство Чикагского университета, 2003; Поттер Т. Карл Пирсон. Научная жизнь в статистическую эру. Принстон и Оксфорд: издательство Принстонского университета, 2004.
Пирсон, Максвелл и другие знаменитые Кембриджские лауреаты Также, поскольку биография Пирсона не была полностью обособленной, нам показалось естественным провести параллели с некоторыми другими именами, связанными с Кембриджем, особенно с Джеймсом Клерком Максвеллом (1831—79). (В конце концов, Максвелл не был совсем уж чужд вероятностных концепций, взять хотя бы энтропию.) Здесь основным источником наших знаний стали монографии: Толстой И. Джеймс Клерк Максвелл: биография. Эдинбург: Канон- гайт, 1981; Гольдман М. Демон в эфире: история Джеймса Клерка Максвелла. Эдинбург: Пол Харрис&Адам Хилгер, 1983. Оба, и Пирсон, и Максвелл, наряду с другими учеными, упомянутыми далее, имели глубокие взгляды общего философского плана, которые включали и их отношение к математическому и вообще к академическому обучению. Оба оставили ряд очерков и писем, в которых размышляли о влиянии Кембриджской образовательной системы и в особенности экзаменов «Кембриджские треножники» на их собственную жизнь и жизнь других людей. На самом деле мнения Пирсона и Максвелла по этому поводу были сформированы и определены их философскими доктринами; для детального знакомства рекомендуем вышеупомянутые монографии. Что касается Пирсона, его философия концентрировалась вокруг вечного поиска знаний, истины. Строка из «Похорон грамматика» Роберта Браунинга: «Этот человек избрал пускай не жить, но знать», прочитанная на его похоронах в 1936 г., была избрана Пирсоном эпитафией ко всей его жизни. Он был категоричен в своих мнениях, о чем можно судить по его резко отрицательным отзывам о Томасе Симпсоне (1710—61), английском математике (см. парадокс Симпсона, треугольное вероятностное распределение Симпсона и правило Симпсона решения алгебраических уравнений). Пирсон рассматривал Симпсона как человека, «подло прославляющего себя преобразованием великих открытий де Муавра в рутину учебников» (вероятно, он имел в виду книгу Симпсона 1740 г. «Природа законов случайностей»). С другой стороны, он особенно восхищался Абрахамом де Муавром (1667—1754) и считал его великим ученым, подчеркивая его дружбу с Ньютоном. Думаем, полезно бросить взгляд на систему математического образования в Кембридже тех времен. Общепризнанно, что в тот период XIX столетия, когда оканчивали учебу Максвелл (1854 г.) и Пирсон (1879 г.), Кембриджский университет в математических исследованиях в сравнении с некоторыми другими европейскими университетами (Гейдельберг
Приложение II и Геттинген в Германии, Париж во Франции) не играл ведущей роли. Как отмечали многие наблюдатели, кембриджские «чистые» математики того периода сосредоточились на традиционных «механистических» геометрии и анализе; революционные идеи, рожденные на континенте в основном немецкой (Дедекинд, Дирихле, Риман, Вейерштрасс) и французской (Ли- увилль) школами, не были популярны здесь, по крайней мере до того как Кэли был избран первым садлерианским1 профессором чистой математики в 1863 г. С другой стороны, ради справедливости нужно добавить, что так называемая Кембриджская школа «прикладной» математики и «математической» физики, представленная, в частности, последовательно избиравшимися лукасианскими2 профессорами Бэббиджем, Эйри и Сток- сом, опережала в то время континентальных и заокеанских конкурентов. Тем не менее, между 1854 и 1879 гг. Кембридж славился своей прочной экзаменационной системой. Как правило, вопросы к кембриджским экзаменам «Математические треножники» того времени касались сложных систем блоков, наклонных плоскостей, катящихся колес и других тел. При этом решения сводились к громоздким вычислениям, не требующими особого вдохновения. Заучивание большого числа специфических примеров было очень полезным для этих экзаменов, так же как и способность писать быстро и точно. Кроме того, экзаменуемые должны были обладать незаурядной выносливостью, как физической, так и психологической. Письменные экзамены проводились в начале января («в течение четырех дней подряд, начиная с первого понедельника после 29 декабря, с 9:00 утра до 12:00 и с 13:30 до 16:00»), часто в нетопленых помещениях. Даже оставляя в стороне трудность большинства задач Треножников, без сомнения сам Пуанкаре или Риман не справились бы с решением как следует в таких условиях. Кандидаты с достаточно высокими оценками за письменную работу допускались к последующим устным экзаменам. На основании совокупной успеваемости их разделяли на лауреатов (Wranglers3), старших выпускников (Senior Optimes) и младших выпускников (Junior Optimes); чтобы стать лауреатом, кандидат должен был добраться до устных экзаменов. 'Должность садлерианского профессора в области чистой математики была основана в 1701 г. Леди Садлер. Она завещала часть своего состояния университету для основания лекторской должности по алгебре. Она умерла в 1706 г., и в 1710 г. был основан такой курс лекций. С 1860 г. эта должность была преобразована в профессорскую. 2Должность лукасианского профессора чистой математики была основана в 1663 г. Генри Лукасом, который был членом Парламента от кембриджского университета в 1639—1640 гг. Официально эта должность была основана Карлом II 18 января 1664 г. 3Дословно, «спорщик», или студент, который достиг устного экзамена и может дискутировать с профессорами.
Пирсон, Максвелл и другие знаменитые Кембриджские лауреаты Звание лауреата было самым высоким; оно возникло в средние века, когда все экзамены были устными. Это звание отражало способность кандидата вести многочасовой диспут, сидя перед лицом своих экзаменаторов на трехногом стуле, который назывался «треножник» («Tripos»), откуда и пошло название «Экзамены треножников» («Tripos Exams»), часто упоминаемое в этой книге. Первые по списку лауреаты также именовались старшими лауреатами («Senior Wranglers»), за первым лауреатом следовал второй, затем третий и т.д. Число лауреатов и их уровень, особенно в нижней части списка, менялись от года к году. Данные, приведенные далее, касаются 10 лучших лауреатов: считается, что их уровень был сравним с уровнем выдающихся выпускников лучших зарубежных университетов. Результаты «треножников» привлекали к себе немало внимания. Выдающиеся лауреаты удостаивались громких аплодисментов во время объявления результатов в здании университетского Совета. Их портреты печатали национальные газеты, они получали сотни телеграмм, не только от родственников и друзей, но и от общественности, которая поздравляла их с достигнутыми успехами. Такая известность не всегда была благотворной. В своих письмах, написанных в 1879 г. непосредственно перед экзаменами и после них, Пирсон описывал психологическую атмосферу, окружающую экзамены «Кембриджские математические треножники». Он чувствовал, по мере приближения экзаменов, что его однокурсники слишком усердно обсуждают его математические способности и его место в окончательном списке кандидатов, ранжированных согласно результатам их экзаменов. Особое замешательство вызывал у него тот факт, что результаты экзаменов становились предметом заключения пари среди кембриджской публики. В одном из писем к своей матери Пирсон жаловался на то, что незнакомые люди подходили к нему на улице с вопросом: «А, это Вы собираетесь занять такое-то место в списке Лауреатов, не так ли? Могу ли я держать пари, что Вы удостоитесь такого-то места?» Или был еще такой случай, когда он нечаянно услышал, как в некой компании незнакомцев крупные денежные ставки деловито делались на том, кто получит отличие выше, Пирсон или некий студент из Пемброк-колледжа (о существовании этого конкурента Пирсон никогда и не слышал). Сам Пирсон был студентом Королевского (King's) колледжа. Последней каплей для Пирсона стал случай, когда к нему подошел слуга его друга по колледжу и спросил, приложив руку к шляпе: «Прошу прощенья, сэр. Я полагаю, что прав, делая ставку на то, что Вы попадете в первую дюжину [лауреатов]?» Возможно к их огорчению, Пирсон оказался «лишь» третьим лауреатом в своем выпуске. Неудивительно, что Пирсон испытывал довольно смешанные чувства по поводу своего экзамена в 1879 г., эти чувства он выразил письменно в
Приложение II достаточно сильных выражениях, которые мы процитируем ниже. Двадцать пять лет до этого, в 1854 г., схожими эмоциями был переполнен Максвелл, который начинал как студент Колледжа Питерхаус, однако вскоре перешел в Колледж Святой Троицы (Trinity). Совершил он это, «предвидя будущее соперничество с Раусом», студентом-математиком того же года обучения. И не без оснований — Раус «вытеснил» его на место второго лауреата «треножников». В числе других примеров периода 1854—1879 гг., когда будущим известным математикам и физикам не удавалось попасть на верхние позиции списка, хотя они и успешно учились, назовем имена В. К. Клиффорда (второй лауреат 1867 г.), Дж. В. Л. Глейшера (второй лауреат 1871 г.), Г. Лэмба (второй лауреат 1872 г.), В. Бернсайда (второй лауреат 1875 г.) и Дж. Г. Пойтинга (третий лауреат 1876 г.). Подобные случаи можно наблюдать и после 1879 г.: Дж.Дж. Томсон (второй лауреат 1880 г.), В. Г. Брагг (третий лауреат 1884 г.), Э. Г. Уиттекер (третий лауреат 1895 г.), Е.В. Варне (второй лауреат 1896 г.), ГГ. Харди (четвертый лауреат 1898 г.), Д.Дж. Морделл (третий лауреат 1909 г.). Тем не менее, были и примеры, когда высших позиций достигали будущие знаменитости: Дж. В. С. Струтт, впоследствии лорд Релей (первый лауреат 1865 г.), А. С. Эддингтон (первый лауреат 1904 г.), Дж. Е. Литтлвуд (первый лауреат 1905 г.), Г. Н. Ватсон (первый лауреат 1907 г.). Каждый из этих ученых внес выдающийся вклад в развитие математики и заслуживает отдельного очерка. Мы упомянем здесь, что Дж. В. Л. Глей- шер собрал уникальную коллекцию старинной керамики и фаянса, которую он подарил Кембриджу, она представлена в кембриджском музее искусств. Это позволяет нам задать вопрос о стимулах к соперничеству за высшие позиции, определяемые системой экзаменов по математике, практикуемой в Кембридже, и о сути этого соперничества. Здесь неизбежно всплывает имя Эдварда Дж. Рауса (1831 — 1907), соперника Максвелла. В отличие от многих других первых лауреатов того времени, Раус оставил глубокий след в истории математики. Неудивительно, что после своего успеха в 1854 г. он стал членом (Fellow) Питерхауса. Однако его членство продолжалось лишь десять лет. В 1864 г. он женился на Хильде Эйри, дочери Джорджа Эйри, королевского астронома и прикладного математика мирового уровня (изобретателя функций Эйри). Согласно правилам того времени, женатый человек не мог оставаться членом кембриджского колледжа, и Раус вынужден был выйти в отставку. Однако он не покинул Кембридж и, чтобы заработать себе на жизнь, занимался частным репетиторством. На самом деле он уже занимался этой деятельностью в течение нескольких предшествующих лет. Раус следовал своей собственной системе и до 1888 г. подготовил к экзаменам в частном порядке блестящих и трудолюбивых учеников,
Пирсон, Максвелл и другие знаменитые Кембриджские лауреаты которые им тщательно отбирались. Успехи его были поразительными. В течение 1865—1888 гг. 133 его ученика заняли позиции в верхней десятке списка лауреатов Кембриджских треножников. Его ученики составили 80% от числа всех первых, вторых и третьих лауреатов. Из 23 старших лауреатов тех лет 21 лауреат был обучен им: только две неудачи в этой удивительной цепи успехов случились в 1883 и 1886 гг. И, по- видимому, критерии Рауса при выборе учеников основывались не только на явных признаках выдающегося математического таланта, хотя в числе его учеников были Струтт, Глейшер, Лэмб, Пойтинг, Пирсон, Томсон, и Брагг. Вероятно, признаки математического таланта в те времена не были столь очевидны: Струтт (Релей), например, не был столь блестящим студентом в свой первый год учебы в Кембридже, и Раус иногда открыто критиковал его. Только лишь на третьем и заключительном году, Струтт все же реализовал свои возможности, получив звание первого лауреата. Интересно, что вторым лауреатом в том же самом году был Альфред Маршалл, будущий известный экономист. Раус также был талантливым математиком, хотя и не того уровня, что Максвелл. Он написал две книги по аналитической динамике, «Трактат о динамике твердых тел» (1860 г.) и «Трактат о динамике частицы» (1898 г.), которые были высоко оценены Феликсом Клейном (1849—1925), автором современного подхода в геометрии. Клейн был организатором переводов книг Рауса на немецкий язык и считал их образцовыми источниками для преподавания аналитической динамики в университетах Германии. Более непосредственное отношение к предмету настоящей книги имеет опубликованный Раусом в 1891 г. «Трактат об аналитической статистике», который, несомненно, оказал решающее влияние на его ученика Пирсона. Раус регулярно публиковал свои оригинальные статьи, полные элегантных находок и вычислений. К концу его жизни его родной колледж, Питерхаус, удостоил его Почетной стипендии. Когда он окончил свою деятельность в качестве частного репетитора, его бывшие ученики (в числе около 80) подарили жене Рауса его портрет, написанный известным мастером того времени. В то время были и другие преподаватели, учившие по своим собственным системам: среди современников Рауса можно выделить Персиваля Фроста и Вильяма Безанта. Учителем самого Рауса был Вильям Хопкинс, еще один известный кембриджский частный преподаватель. За 22 года преподавания Хопкинс подготовил 175 лауреатов, в том числе 17 первых лауреатов. Последователем Рауса был Роберт Вэбб, его бывший ученик, занявший место первого лауреата в своем потоке. Успех Вэбба также был ошеломляющим: до момента выхода на пенсию в 1902 г. он подготовил 100
Приложение II лауреатов. Следующим в этой цепочке был Роберт Герман, снова бывший первый лауреат, ученик Рауса. Достижения Германа выглядели более «скромно»: до 1909 г. он подготовил «только» 48 лауреатов. 1909-й год оказался фатальным: с этого года список лауреатов стал оглашаться и печататься в алфавитном порядке (аналогичное правило было принято и для «менее успешных» категорий студентов). В конце концов звание «лауреат» перестало употребляться в официальной лексике. Вообще говоря, в те времена частные уроки были абсолютно необходимы для успешной сдачи «Математических треножников». Без преувеличения, почти все лауреаты брали частные уроки, некоторые даже в течение длительного времени (исключением был Д.Дж. Морделл). Многие жаловались на непомерные физические и психологические требования, необходимые для сдачи «Математических треножников», и, в частности, на форму занятий и ту интеллектуальную деятельность, которая требовалась при таком стиле сдачи экзаменов. Авторы этой книги с готовностью соглашаются с тем, что такие методы могут легко свести на нет естественную тягу к новым знаниям, в особенности у застенчивых и замкнутых людей, которые так часто встречаются среди математических гениев. Ни один из обладателей премии Филдса, не обучавшихся в Кембридже, с кем нам случалось быть знакомыми, не проявлял никакого интереса к подобного рода экзаменам. До 1914 г. Пирсон не так явно критиковал кембриджские «Математические треножники». Напротив, его эссе 1890 г. глубоко поддерживает идею проведения «Математических треножников», направленных на решение задач, подчеркивая их связь с проблемами математической физики. «Каждый фрагмент математического исследования в действительности является «задачей» или может быть сформулирован в форме таковой, и в пост-Кембриджские дни я видел на примере университетов Гейдельбер- га и Берлина, что этот метод решения задач дает нам преимущество перед немецкими студентами, которые обучались на теории, а не на решении задач. Опыт в решении задач в Кембридже сослужил мне большую службу, и я очень благодарен за это». (К- Пирсон, «Треножники в Кембридже в давние времена, как я их вижу с иной точки зрения», Mathematical Gazette, 20, 27—36, 1936). С точки зрения Пирсона, его подготовка была неоценимой для его работы с биологом В.Ф. Вэлдоном (1860—1906), когда они создавали основы современной биометрики. Вэлдон, учившийся в Университетском колледже в Лондоне «никогда не достиг уровня подготовки первого лауреата в применении анализа к решению новых задач; наверное, это требует долгих лет работы с заданиями и упражнениями». (Пирсон К. Вальтер Фрэнк Рафаэль Вэлдон. 1860—1906 // Biometrika. 1906/7. V. 5. Р. 1-52.)
Пирсон, Максвелл и другие знаменитые Кембриджские лауреаты Тем не менее, как показывает его личная переписка, в 1879 г. Пирсон почти потерял веру в свою способность заниматься наукой. В то время его любимой дисциплиной была физика, но он не смог стать старшим лауреатом, что вызвало в нем страх стать посредственным ученым, и он намеренно прекратил свою карьеру физика. Тем не менее Пирсон выжил и стал знаменитым ученым; возможно, в его случае самым сильным «лекарством» было решение отказаться от «узкого карьеризма» и не тратить все силы на «треножники». Интересы Пирсона выходили за пределы математики. Он стал экспертом по культуре эпохи Реформации и знатоком немецких пасхальных пьес и даже подумывал об академической карьере в этой области. Пирсон интересовался также экономикой, он переписывался с Карлом Марксом, предложив ему перевести «Капитал» на английский, однако Маркс отклонил это предложение. Позже, в 1914 г., он нанес удар системе кембриджских «треножников» в первом томе биографии Ф. Гальтона, называя ее «разрушительной системой», «ломающей университетскую карьеру людей, которые могли бы проявить себя в более поздний период жизни». В частности, недостаточные достижения Гальтона были, согласно Пирсону, результатом «невозможной попытки соединить изучение математики с очень широким кругом интересов и занятий». Бернард Шоу в своем письме к Пирсону4 подобным же образом размышляет на тему недостаточных достижений самого Пирсона. В письме к Пирсону Шоу спрашивал: «Могу ли я сделать что-нибудь, чтобы вызволить Вас из карьеры профессора?» Авторы этой книги согласны с подобными критическими взглядами, но только отчасти. С точки зрения профессионального математика, кембриджская система «Математических треножников» того периода в целом прошла проверку временем, как показывает приведенный выше список знаменитых ученых, внесших выдающийся вклад во многие области исследований. Напрашивается вывод: лучшие воспитанники кембриджской системы получили шанс реализовать себя в разных сферах человеческой деятельности. И хотя система была далека от идеала, она не может отвечать за индивидуальные просчеты и недостаточные достижения. Это приводит нас к более общим рассуждениям о роли математического образования в его различных формах. Цитируем Варвика (с. 180—181): «Сильный акцент на математические науки — то, что называлось в раннем викторианском Кембридже «либеральным образованием», требует дальнейших пояснений... Место математики в сердце Кембриджского либерального образования было завоевано, и это объяснялось тем, что обучение математике — не только средство подготовки профессионально июля 1893 г., Pearson Papers, 627, University College, London.
Приложение II ных математиков, но и наилучшая дисциплина для подготовки студентов, обучающая их мыслить четко и правильно путем решения практических задач... Те, кто отличились при сдаче «Математических треножников», позднее проявили себя как потенциальные лидеры, способные занимать такие ответственные должности, как должности учителя, священника, юриста, государственного деятеля, верховного (королевского) администратора и банкира.» Мы четко видим, какие высокие надежды возлагаются на «рационализацию» политической, экономической и социальной жизни, и какова роль математического мышления в достижении столь глубоких целей. Тут есть и другой урок, который желательно усвоить. Острый интерес к математике, в частности к вероятности и статистике среди широкой публики в настоящее время, очевидно, продиктован не только сугубо практическими нуждами, но и определенными возвышенными надеждами. В этом смысле теория вероятностей и статистика могут считаться гораздо более «везучими», чем другие уважаемые математические дисциплины. Оправдают ли они возлагаемые на них ожидания или нет — это уже другой вопрос. Но жизненные примеры учат нас, что вряд ли эти надежды будут оправданы полностью. Что же тогда должны ожидать от жизни хорошие или даже выдающиеся выпускники, не говоря уже о более заурядных? Исторически интересными можно считать два случая: Лесли Стефан (1832—1904), который закончил в том же самом 1854 г., что и Раус с Максвеллом, но был «только» двадцатым лауреатом, и Чарльз Парсонс (1854-1931), который сдал «Математические треножники» в 1877 г. и был одиннадцатым лауреатом. Подробные биографии Стефана и Парсонса можно найти в книгах: Эннан Н. Г. Лесли Стефан: его мысли и характер и их взаимодействие с эпохой. Лондон: МакГиббон&Ки, 1951; Эннан Н. Г. Лесли Стефан: безбожный викторианец. Нью Йорк: Рэндом Хаус, 1984. Эпплярд Р. Чарльз Парсонс: его жизнь и работа. Лондон: Констебль, 1933. Закончив университет, Стефан получил научную стипендию от Колледжа Тринити Холл в Кембридже. Он добился выдающихся успехов не как математик, а как литературный критик и социолог. В 1864 г. он вышел в отставку (как и Раус, он женился — его женой стала дочь Уильяма Теккерея) и занялся редактированием «Словаря отечественной биографии» в 63-х томах, причем сам написал сотни статей для этого словаря. Его книга «История английской мысли в XVIII столетии» (1876 г.) считается наиболее важной из его оригинальных работ. (Дочерьми Стефана от второго брака были писательница Вирджиния Вульф и художница Ванесса Белл.) В тече-
Пирсон, Максвелл и другие знаменитые Кембриджские лауреаты ние всей жизни Стефан поддерживал контакты с математиками и физиками своего поколения; как сильная и активная личность, он оказал большое влияние на многих выдающихся британских физиков и математиков, и его жизнь была неотделимо связана с развитием науки того времени. Непосредственно после Стефана в списке лауреатов стояло имя Адлиса Райта, который стал издателем Шекспира. Следующим в списке лауреатов стояло имя его кузена Эдварда Дисея, который впоследствии стал редактором газеты «Observer». Парсонса также готовил к экзаменам Раус, и по мнению его друзей из Колледжа Святого Иоанна, его одиннадцатое место не было «справедливой мерой его способностей». Д. МакАлистер, первый лауреат того же года, говорил, что Парсонс был сильнее его в решении задач, но слабее в работе с литературой. (Ближе к концу жизни Парсонсу на встрече со своим давним другом (ставшим мастером Колледжа Святого Иоанна) был задан вопрос, понимает ли он современные физические теории — концепцию существования электронов, теорию относительности и т. д. Парсонс ответил: «Нет. И ты тоже не поймешь. Мы никогда не поймем: для этого нужно родиться в мире, в котором эти понятия уже общеизвестны и банальны». Основным увлечением Парсонса была инженерия. В результате интенсивной работы, начатой еще в период его обучения инженерному делу, Парсонс разработал к 1884 г. прототип высокоскоростной турбины и в 1897 г. построил турбинный пароход «Турбиниа». Представленный экспертам военно-морского ведомства, «Турбиниа» со своей скоростью и мобильностью оказал огромное влияние на ближайшее развитие военного и гражданского флота (некоторые историки считают, что, к сожалению, именно этот технологический прорыв и положил начало обострению англо-немецкого военно-морского соперничества, что в конечном итоге привело к Первой мировой войне). В заключение приведем еще одни урок, касающийся XIX столетия: викторианские выпускники Кембриджа наверняка знали, как добиваться успеха, и они жили полноценной жизнью; их опыт сдачи «треножников», возможно, сыграл в этом решающую роль.
Список литературы Некоторые книги незаслуженно забыты, но не бывает книг, которые незаслуженно помнят. У. Г. Оден (1907-1973), британский поэт [BR] Bharucha-Reid A. T. Elements of the theory of Markov processes and their applications. NY: McGraw-Hill, 1960. Имеется перевод: Баруча-Рид А. Т. Элементы теории марковских процессов и их приложения. М.: Наука, 1969. [В] Billingsley P. Statistical inference for Markov processes. Chicago: University of Chicago Press, 1961. [CMR] Саррё О., Motilities £., Ryden T. Inference in hidden Markov models. NY: Springer, 2005. [DG] Daley D.J., GaniJ. Epidemic modelling: an introduction. Cambridge: Cambridge University Press, 1999. [DZ] Dembo A., Zeitouni O. Large deviations techniques and applications. NY: Springer, 1998. [D] Doob J. Stochastic processes. NY: Wiley, 1953. Имеется перевод: Дуб Дж.Л. Вероятностные процессы. М.: ИЛ, 1956. [DRKM] Durbin R., Eddy S., Krogh A., Mitchison G. Biological sequence analysis. Probabilistic models of proteins and nucleic acids. Cambridge: Cambridge University Press, 1998. [Du] Durrett R. Essentials of stochastic processes. NY: Springer, 1999. [DS] Deuschel J.D., Stroock D. W. Large deviations. Boston: Academic Press, 1989. [Dl] Дынкин Е.Б. Основания теории марковских процессов. М.: Фиэматгиз, 1959. [D2] Дынкин Е.Б. Марковские процессы. М.: Физматгиз, 1963. [D3] Dynkin E.B. Markov Process and Related Problems of Analysis. Cambridge: Cambridge University Press, 1982. [DU] Дынкин Е.Б., Юшкевич А. А. Теоремы и задачи о процессах Маркова. М.: Наука, 1967. [F] Феллер В. Введение в теорию вероятностей и ее приложения. Том 1. М.: Мир, 1964. Том 2. М.: Мир, 1967. [GSl] Grimmett С, Stirzaker D. Probability and stochastic processes. Oxford: Clarendon Press, 3rd Edition; 2001. [GS2] Grimmett G., Stirzaker D. Probability and random processes: problems and solutions. Oxford: Clarendon Press, 1992. [K] Karlin S. A first course in stochastic processes. NY: Academic Press, 1966. Имеется перевод: Карлин С. Основы теории случайных процессов/ Пер. с англ. М.: Мир, 1971.
литературы [КТ] Karlin S., Taylor H.M. A second course in stochastic processes. NY: Academic Press, 1981. Имеется перевод издания 1968 г.: Карлин С. Основы теории случайных процессов. М.: Мир, 1971. [Ке] Kelly F.P.K. Reversibility and stochastic networks. NY: John Wiley, 1979. [Ко] Koski T. Hidden Markov models for bioinformatics. Dordrecht: Kjuwer, 2001. [Ki] Kingman J. F. С Poisson processes. Oxford: Oxford University Press, 1993. Имеется перевод: Кингман Дж. Пуассоновские процессы. М.: МЦНМО, 2007. [Ku] Kullback S. Information theory and statistics. NY: Wiley, 1959. Имеется перевод: Кульбак С. Теория информации и статистика. М.: Физматгиз, 1967. [Позднейшее издание: Mineola, N.Y.: Dover; London: Constable, 1997.] [L] Lehmann E.L. Testing statistical hypotheses. NY: Wiley; London: Chapman and Hall, 1959. Имеется перевод: Леман Э. Проверка статистических гипотез. М.: Наука, 1979. [Позднейшее издание: Lehmann E.L., Romano E.P. Testing statistical hypotheses. NY: Springer, 2005.] [McDZ] MacDonald I. L., Zucchini W. Hidden Markov and other models for discrete-valued time series. London: Chapman and Hall, 1997. [M] Martin J.J. Bayesian decision problems and Markov chains. NY: Wiley, 1967. [McLK] McLachlan G.J., Krishnan T. The EM algorithm and extensions. NY: Wiley, 1997. [N] Norris J. R. Markov chains. Cambridge: Cambridge University Press, 1997. [O] Ostrowski A.M. Solution of equations and systems of equations. NY: Academic Press, 1960. Имеется перевод: Островский A.M. Решение уравнений и системы уравнений. М.: ИЛ, 1963. [2nd Edition: 1966.] [RJ] Rabiner L.R., Juang B.H. Fundamentals of speech recognition. Engle- wood Cliffs, NJ: Prentice Hall, 1993. [R] RossS.M. Stochastic processes. NY: John Wiley, 1983. [2nd Edition: 1996.] [SW] Shwartz A., Weiss A. Large deviations for performance analysis. Queues, communications, and computing. London: Chapman and Hall, 1995. [S] Stirzaker D. Stochastic processes and models. Oxford: Oxford University Press, 2005. [Stl] Stroock D. W. An introduction to Markov processes. Berlin: Springer, 2005. [St2] Stroock D. W. An introduction to the theory of large deviations. NY: Springer, 1984. [Z] Zangwill W.I. Nonlinear programming: a unified approach. Englewood Cliffs, NJ: Prentice Hall, 1969.