Текст
                    V
ТЕОРИЯ ВЕРОЯТНОСТЕЙ
МАТЕМАТИЧЕСКАЯ СТАТИСТИКА
Н. В. КРЫЛОВ
УПРАВЛЯЕМЫЕ
ПРОЦЕССЫ
ДИФФУЗИОННОГО
ТИПА

Н. В. КРЫЛОВ УПРАВЛЯЕМЫЕ ПРОЦЕССЫ ДИФФУЗИОННОГО ТИПА
ТЕОРИЯ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКАЯ СТАТИСТИКА Н. В. КРЫЛОВ УПРАВЛЯЕМЫЕ ПРОЦЕССЫ ДИФФУЗИОННОГО ТИПА ИЗДАТЕЛЬСТВО «НАУКА» ГЛАВНАЯ РЕДАКЦИЯ ФИЗИКО-МАТЕМАТИЧЕСКОЙ ЛИТЕРАТУРЫ МОСКВА 1977
517.8 К 86 УДК 519.2 Управляемые процессы диффузионного типа. Крылов Н. В. Главная редакция физико-мате- матической литературы издательства «Наука», М., 1977, 400 стр. Книга посвящена систематическому изложе- нию теории управляемых случайных процессов диффузионного типа в d-мерном евклидовом про- странстве. Интервал времени, на котором изуча- ются процессы, может быть как конечным, так и бесконечным. Наряду с задачами управления рас- сматриваются задачи об оптимальной остановке управляемого процесса. Основное внимание уде- ляется выводу дифференциальных уравнений Веллмана для функций выигрыша и изучению свойств их решений. Библ. — 78. . 20203—167 „ _ К 053 (02)-77 65’ © Главная редакция физико-математической литератур издательства <Наука». 1977
ОГЛАВЛЕНИЕ Предисловие .................................................. 5 Некоторые обозначения..................................... 10 Глава I. Введение в теорию управляемых диффузионных про- цессов ........................................... 11 § 1. Постановки задач. Принцип Веллмана. Уравнение Вел- лмана 12 § 2. Примеры уравнений Веллмана. Нормированное уравнение Веллмана ............................................... 19 § 3. Применение принципов теории оптимального управления к получению некоторых оценок........................... 31 § 4. Одномерные управляемые процессы................... 39 § 5. Оптимальная остановка одномерного управляемого про- цесса 56 Глава II. Вспомогательные предложения........................ 66 § 1. Основные обозначения и определения.................... 66 § 2. Оценки распределения стохастического интеграла в огра- ниченной области ........................................... 74 § 3. Оценки распределения стохастического интеграла во всем пространстве ............................................... 87 § 4. Предельное поведение некоторых функций......... 95 § 5. Решения стохастических интегральных уравнений и оценки их моментов ............................................... 109 § 6. Существование решения стохастического уравнения с измеримыми коэффициентами....................... 122 § 7. Некоторые свойства случайных процессов, зависящих от параметра............................................. 128 § 8. Зависимость решений стохастических уравнений от пара- метра ..................................................... 142 § 9. Марковское свойство решений стохастических уравнений 153 § 10. Формула Ито с обобщенными производными .............. 168 Глава III. Общие свойства функций выигрыша................. 177 § 1. Основные результаты.................................... 177 § 2. Некоторые предварительные рассмотрения................. 192 § 3. Доказательство теорем 1.5—1.7.......................... 200 § 4. Доказательство теорем 1.8—1.11 для задачи об оптималь- ной остановке.............................................. 208 1*
4 ОГЛАВЛЕНИЕ Глава IV. Уравнение Веллмана................................ 220 § 1. Оценки первых производных функций выигрыша.......... 222 § 2. Оценки снизу вторых производных функций выигрыша . . 233 § 3. Оценки сверху вторых производных функций выигрыша 243 § 4. Оценка производной по t от функций выигрыша ........... 252 § 5. Предельный переход в уравнении Веллмана................ 258 § 6. Приближение вырождающихся управляемых процессов не- вырождающимися............................................ 268 § 7. Уравнение Веллмана................................... 271 Глава V. Построение е-оптимальных стратегий.............. 283 § 1. Нахождение е-оптимальных марковских стратегий с по- мощью уравнения Веллмана........................... 284 § 2. Нахождение е-оптимальных марковских стратегий с по- мощью уравнения Веллмана при наличии вырождения . . 290 § 3. Решение уравнения Веллмана и функция выигрыша. Единственность решения уравнения Веллмана................. 303 Глава VI. Неограниченные коэффициенты управляемого про- цесса. Нормированное уравнение Веллмана .... 323 § 1. Некоторые обобщения результатов § II 1.1 .............. 323 § 2. Общие методы оценки производных функций выигрыша . . 334 § 3. Нормированное уравнение Веллмана....................... 349 § 4. Оптимальная остановка управляемого процесса на беско- нечном интервале времени ................................. 360 § 5. Управление процессом на бесконечном временном интервале 374 Добавление 1. Некоторые свойства стохастических инте- гралов ................................................... 383 Добавление 2. Некоторые свойства субмартингалов . . . 387 Примечания............................................. 391 Литература............................................. 395 Предметный указатель................................... 399
ПРЕДИСЛОВИЕ Теория управляемых случайных процессов является сравнительно молодой областью математики. Начало ее интенсивного развития приходится на конец пятидесятых — начало шестидесятых годов. В этот период появилось боль- шое число работ по управлению случайными процессами с квадратичным критерием качества (см. литературу в ра- боте Вонэма [8]), тогда же в работах Гирсанова [10], Ховарда [75] были сделаны первые шаги в построении общей теории. Основным источником идей и, отчасти, ме- тодов для этой теории явилась развитая несколько ранее Веллманом [3] концепция динамического программиро- вания. Два типа практических задач вызвали появление двух разделов теории управления случайными процессами. Пер- вый тип задач —это задачи, связанные с многошаговыми процессами принятия решения, когда воздействие на сто- хастическую управляемую систему может осуществляться только в отделенные друг от друга моменты времени. Подобными задачами занимается теория дискретного сто- хастического динамического программирования. В связи с этой теорией кроме упоминавшихся уже выше книг Хо- варда и Веллмана отметим также книги Дермана [14], Майна, Осаки [45], Дынкина и Юшкевича [17]. Другой круг практических задач, стимулировавших развитие теории управляемых случайных процессов, отно- сится к задачам о непрерывном управлении движением того или иного объекта при наличии случайных помех. Рассмотрение случая, когда движение объекта задается с помощью дифференциального уравнения, а помехи являются непрерывными случайными процессами, состав- ляет предмет теории оптимального управления случайными процессами диффузионного типа. Именно этой теории посвя- щена настоящая книга.
в ПРЕДИСЛОВИЯ Привлечение математического аппарата к изучению эво- люции некоторой системы часто начинается с написания дифференциального уравнения вида относительно вектора параметров х этой системы. Если векторная функция f (/, х) может быть измерена или ука- зана с полной определенностью, то нет необходимости при- менять теорию случайных процессов. К ней стоит обра- титься в том случае, когда вектор /(/, х) с течением вре- мени подвергается случайным изменениям или ошибки его измерения достаточно велики. Как правило, в этом слу- чае /(/, х) представляется в виде b(t, х)4-сг(^, х)Ь, где Ь — вектор, о —матрица, векторный случайный про- цесс. Тогда xt = b(t, (1) Таким уравнениям движения удобно придавать инте- гральную форму t t xt = xo + \b (t, xs) ds + $ о (s, xs) dg5, (2) о о где x0 —вектор начального состояния системы. Поясним, почему уравнение (2) предпочтительнее (1). Обычно ста- раются параметры X/ рассматриваемой системы выбрать так, чтобы знание их в момент t позволяло предсказывать вероятностное поведение системы после момента t с той же определенностью (или неопределеннэстью), как и знание всей предшествующей траектории xs Такой выбор параметров удобен тем, что в векторе х, при этом заклю- чается вся существенная информация о системе. Оказы- вается, что если параметры х, обладают этим свойством, то при широких предположениях можно доказать, что в качестве процесса в (2) может быть взят процесс броуновского движения, или иначе, винеровский про- цесс W/. Производная & тогда является так называемым белым шумом, значения & в каждый момент времени не определены и уравнение (1) не имеет непосредственного смысла. В то же время уравнение (2) имеет смысл, если под вторым интегралом в (2) понимать стохастический интеграл Ито.
ПРЕДИСЛОВИЕ 7 Принято говорить, что процесс X/, удовлетворяющий уравнению (2), является процессом диффузионного типа. Если же коэффициенты Ь, о уравнения (2) зависят еще от некоторого управляющего параметра, то мы имеем дело с управляемым процессом диффузионного типа. Кратко обрисовав предмет изучения, продолжим обсуж- дение отношения некоторых разделов теории оптимального управления к содержанию книги. Формально теория управления детерминированными системами является, конечно, частью теории управляемых случайных процессов. Однако она имеет свою специфику, совершенно отличную от специфики теории управляемых случайных процессов, и здесь не рассматривается. Из имеющейся огромной литературы по управлению детерми- нированными системами укажем только книги: Понтрягин, Болтянский, Гамкрелидзе и Мищенко [54], Красовский и Субботин [20]. В значительной части работ по управляемым процес- сам диффузионного типа рассматривались и продолжают рассматриваться задачи управления линейными системами типа (2) с квадратичным критерием качества. Кроме уже упоминавшейся книги Вонэма [8] можно указать книги Острема [53], Бьюси и Джозефа [6], а также литературу, цитированную в этих книгах. Отметим, что управление такими системами приводит к построению так называемых фильтров Калмана — Бьюси. В связи с проблемами при- менения теории фильтрации к управлению уместно упо- мянуть книгу Липцера и Ширяева [44]. Поскольку теория линейных управляемых систем с квад- ратичным критерием качества хорошо представлена в ли- тературе, мы ее касаться не будем. Один из способов управления процессом может заклю- чаться в его остановке. Общая и тонкая теория оптималь- ной остановки марковских цепей и марковских процессов, развитая благодаря работам многих авторов, излагается в книге Ширяева [78]. В настоящей книге задачам об опти- мальной остановке также уделяется большое внимание. С помощью метода рандомизированной остановки нам удается рассмотреть эти задачи для управляемых процес- сов. Надо сказать, что наша теория отличается некоторой грубостью по сравнению с общей теорией из [78]. Вызвано это тем, что в частном случае управляемых диффузионных
8 ПРЕДИСЛОВИЕ процессов, накладывая на исходные объекты только просто проверяемые, а потому и грубые ограничения, мы стре- мимся получить сильное утверждение относительно спра- ведливости дифференциального уравнения Веллмана для функции выигрыша. Заканчивая первую часть предисловия, подчеркнем, что, вообще, основная цель книги состоит в доказательстве справедливости дифференциальных уравнений Веллмана для функций выигрыша и в нахождении с их помощью правил построения стратегий управления, близких к наи- лучшим, для управляемых процессов диффузионного типа. Сделаем некоторые замечания о структуре книги. Ци- тированная до сих пор литература по преимуществу отно- силась к тому, чего мы не будем касаться. Ссылки на литературу, имеющую более непосредственное отношение К содержанию книги, приводятся по ходу изложения ма- териала, а также в примечаниях, помещенных в конце книги. Выше говорилось только об основных чертах исследуе- мого предмета. Для более подробного ознакомления с со- держанием книги рекомендуется прочитать первый параграф первой главы, введение к первой главе, а также введения к остальным главам книги. Текст книги включает в себя теоремы, леммы и опре- деления, нумерация которых производится серийно по еди- ной системе, последовательно внутри каждого параграфа. Так, ссылка на теорему II 1.1.5 означает ссылку на утверж- дение с номером 5 первого параграфа третьей главы, в главе III теорема II 1.1.5 называется теоремой 1.5, а в § II 1.1—просто теоремой 5. Аналогичным способом нумеруются формулы. Исходные постоянные, фигурирующие в предположениях, как правило, обозначаются символами /G, б/. Постоянные, участвующие в утверждениях и появляющиеся по ходу доказательств, обозначаются буквой N с номером или без него, и в том случае, когда номера нет, считается, что в каждой новой формуле эта постоянная, вообще говоря, своя, отличная от предыдущих. Если же мы пишем W = = W (Л/, 6Z, ...), то это означает, что W зависит только от содержимого скобок. Изложение материала в каждом параграфе ведется при единых предположениях, которые перечисляются в начале параграфа. Иногда, чтобы не
ПРЕДИСЛОВИЕ 9 загромождать формулировки лемм и теорем, дополнитель- ные предположения вводятся не в них, а непосредственно перед ними. Для чтения книги необходимо знакомство с основами теории стохастических интегралов. Некоторые сведения из этой теории собраны в Добавлении 1. Уравнения Вел- лмана, которые мы будем изучать, относятся к нелинейным дифференциальным уравнениям в частных производных. Отметим в этой связи, что знакомство читателя с резуль- татами теории дифференциальных уравнений не предпо- лагается. В заключение мне хочется выразить глубокую благо- дарность А. Н. Ширяеву и всем участникам семинара при отделе вероятностных методов управления Межфакультет- ской лаборатории статистических методов Московского го- сударственного университета за помощь в работе над кни- гой, за полезную критику ее рукописи. Н. В. Крылов
НЕКОТОРЫЕ ОБОЗНАЧЕНИЯ Еа — евклидово пространство размерности d с фиксированным ортонормированным базисом, х1 — f-я координата точки х е Ед (i = = 1, 2,..., d), xt/ = (x, у) — скалярное произведение векторов х, у ^.Е^, х2 = хх — квадрат длины х, | х | = Vx2. а = (о'Д —матрица с элементами о*— транспонированная матрица о, иу — вектор, равный произведению матрицы о на вектор у, хоу=(х, оу)‘, tra — след квадратной матрицы a, det а —ее определи- тель, 1 1 || а Ц = (tr аа*)2 = I |2] 2, || а|| называется дубль-нормой матрицы о. dv , д2и v —7, gradx v — вектор с координатами v {, v t ; ——:— x dxl x x x dxl dx* Если о —матрица размера dxdb b — d-мерный вектор, то d d LQ’bv(x) = У Л blvAx), l.l=l i=i где матрица (а?Д = -^-ост*. символ Кронекера, еГ = Хг (х)— индикатор множества Г, т. е. функция, равная единице на Г и нулю вне Г. Х[0, 7]-гРафик функции X/, заданной на [О, Г]. т Д f = min (т, /), т у / = тах (т, /), ^=<+-=4(|/|+/)’ ''-'-“У <1'1-0. =—равно по определению. (Q, Р) —вероятностное пространство: Q —множество, точки которого обозначаются буквой со с индексами или без них, S' — о-ал- гебра подмножеств Q, Р —вероятностная мера на S — математическое ожидание случайной величины {•. (п. н. Д) — почти наверное на множестве А,
ГЛАВА I ВВЕДЕНИЕ В ТЕОРИЮ УПРАВЛЯЕМЫХ ДИФФУЗИОННЫХ ПРОЦЕССОВ Цель настоящей главы состоит в том, чтобы ввести чита- теля в круг идей, методов и проблем теории управляемых случайных процессов диффузионного типа. В первых двух параграфах мы формулируем основные задачи, которыми занимаемся в книге, и объясняем методы их решения Здесь нет строгих доказательств, рассуждения носят чисто эвристический характер и, по мнению автора, простота идей, лежащих в основе этих рассуждений, оправдывает оптимистический подход к задачам управления. Кстати, в дальнейшем в книге многие утверждения из §§ 1 и 2 дока- зываются при выполнении подходящих условий. В третьем параграфе сначала дается эвристическое обоснование при- менения идей § 2 к получению разного рода оценок, затем уже вполне строго проводятся вычисления для одного конкретного примера. Начиная с § 4 и до конца книги, в изложении мате- риала мы стремимся придерживаться принятых норм мате- матической строгости. § 4 посвящен теории одномерных управляемых процес- сов, § 5 — теории оптимальной остановки одномерных управ- ляемых процессов. В этих параграфах выделяется класс задач, для которых справедливы основные выводы двух первых параграфов. Для понимания содержания этой главы необходимо знакомство читателя с некоторыми результатами теории стохастических интегралов, например, в объеме первых шести параграфов книги [11]. Ради удобства читателя основные сведения из теории стохастических интегралов собраны в Добавлении 1.
12 ВВЕДЕНИЕ В ТЕОРИЮ УПРАВЛЯЕМЫХ ПРОЦЕССОВ [ГЛ. I § 1. Постановки задач. Принцип Беллмана. Уравнение Беллмана Рассмотрим в евклидовом пространстве Ed (d — размер- ность пространства) случайный процесс xh который под- чиняется следующему уравнению «движения»: t t xt = x+^b (as, xs) ds+^o(as, xs)dws. (1) 0 0 В этом уравнении о (а, у), b(a, у) — заданные функции точки у s Ed и управляющего параметра а, х —исходная точка процесса xz, wz —^-мерный винеровский процесс, dx — некоторое целое число. Естественно, b (а, у) — d-мер- ный вектор: & (a, у) = (/4 (а, у), bd (а, у)), а (а, у) — матрица размера dxdf a (а, у) = (ст'/(а, у)). Обозначим множество возможных управлений, т. е. значений параметра а через А. С помощью выбора слу- чайного процесса as со значениями в А мы можем получать различные решения уравнения (1) и тем самым мы управ- ляем рассматриваемым процессом xt. Отметим, что при этом, конечно, сразу возникают следующие вопросы. Суще- ствует ли решение уравнения (1) для выбранного про- цесса {as}? Если решение существует, то единственно ли оно, т. е. определяется ли процесс {xs} однозначно после выбора {as}? Рассмотрение этих вопросов мы отложим на некоторое время и пока не будем задумываться над ответами на них. С точки зрения практических приложений естественно считать, что значения управляющего процесса as в момент времени s выбираются на основании наблюдений над управ- ляемым процессом {xj до момента времени s. Иными сло- вами, as должно быть функцией от траектории Х[о, sj = = x,):0^/^s}: as = as (х[0, S]). Пусть еще задан функционал потерь, характеризующий качество управления, и на каждой траектории xt за время от t до /-J-Д/ наши «затраты» составляют/^'(х^Д/4-о (ДО, где fa (у) — заданная функция. Тогда на индивидуальной траектории xt за все время управления мы теряем р“=Ыи. о
S и ПОСТАНОВКИ ЗАДАЧ 13 а «в среднем» от применения стратегии а = {as (Х[о, S])} Для процесса xt с начальной точкой х наши потери равны va (х) = М J fa‘ (xt) dt. о Таким образом, возникает задача об отыскании страте- гии а° = {а" (Х[о, s])} такой, что (для фиксированного х) о“” (х) = v (х) s inf va (х). (2) а В том же случае, когда такая стратегия а0 не сущест- вует (нижняя грань в (2) может не достигаться), желательно для всякого е > 0 построить стратегию а8 = {а® (Х[о, S])} так, чтобы (х) v (х) + е. Такие стратегии а8 называются s-оптимальными для точки х, стратегия а0 называется оптимальной для точки х. Функция v (х) называется функ- цией потерь, ее нахождение также представляет интерес. Оставляя в стороне вопросы о сходимости интегралов, определяющих ра и v* (х), покажем, как с помощью прин- ципа Веллмана может быть решена задача об отыска- нии у(х) и а8. Утверждение принципа Веллмана состоит в том, что для любого /^0 u(x) = infM J (xs) ds + v (xz) . Lo (3) а Поясним это соотношение. Представим себе, что от начального момента времени прошло уже время /. За это время наши потери уже составили \fa4xs)ds, (4) о и в момент времени t траектория процесса пришла в точку, скажем, у. Задумаемся над тем, что можно сделать после момента /, чтобы суммарные потери были возможно меньше. Поскольку количество (4) уже затрачено, то нужно понять, как минимизировать потери, возникающие после момента времени t. Заметим, что приращения винеровского процесса после момента t вместе с точкой у в конечном счете пол- ностью определяют поведение траектории xs при s^t. При- ращения w4 после момента времени t не зависят от всего,
14 ВВЕДЕНИЕ В ТЕОРИЮ УПРАВЛЯЕМЫХ ПРОЦЕССОВ [ГЛ I что происходило до момента /, и ведут себя так же, как соответствующие приращения после начального момента. Кроме того, коэффициенты системы (1) не зависят явно от времени. Поэтому наши перспективы получить в качестве траектории после момента /, скажем, функцию {ys; s^/} таковы же, как если бы мы собирались получить функ- цию {r/s + n s^O} в качестве траектории после начального момента времени (отправляясь из точки у). Обратим еще внимание на то, что «интенсивность потерь» fa (х) не зави- сит явно от времени. Поэтому, поставив себе задачу мини- мизировать потери после момента /, мы можем ее решать, считая, что траектория отправляется из точки у в началь- ный момент времени. Теперь понятно, что среднее значе- ние потерь после момента времени t при условии, что xt = у, не может быть меньше v (у) и может быть сделано как угодно близким к этому числу. Таким образом, если после момента времени t мы будем действовать наилучшим обра- зом, то средние потери за все время управления будут равны М 5 (xs) ds + о (xz) -О (5) В общем же случае (5) меньше va(x). Понятно также, что если лучшего способа управления не существует, то все же за счет изменения as при s^t мы сможем прибли- зиться к (5) с произвольной точностью. Следовательно, нижние грани (5) и va(x) по всем стратегиям совпадают. Этот факт и записан в формуле (3). Далее, предположим, что v — достаточно гладкая функ- ция. Тогда, применяя формулу Ито к u(xz), получаем *) t v (х) = Ми (х/) — М La* (хД v (хД ds, о где d d L“ W - 2 о" («, x) + 2 Ь‘ («, x) , i, / = 1 1=1 di aif (a, x) = y a'* (a, x) a7* (a, x). k= i •) Напомним, что
§ П ПОСТАНОВКИ ЗАДАЧ 15 Следовательно, из принципа Веллмана О = inf < М J f*3 (Xj) ds + v (xz) — v (х) ? = a I Lo J J = inf М $ (xs) 4- La‘v (xz)] ds. “ о Поделим здесь все выражения на t и устремим t к нулю. Тогда понятным образом получаем уравнение inf [La(x)v (х) + /а(х)] = 0. (6) ае А Это уравнение носит название дифференциального уравне- ния Беллмана для нашей задачи оптимального управления. Мы проделали путь от иа (х) к v (х) и затем к уравне- нию (6). Можно этот путь проделать в обратном направ- лении и дать другой вывод уравнения (6). Именно, пока- жем, что если некоторая функция w удовлетворяет урав- нению Беллмана, то она совпадает с и. При этом мы также поймем, как с помощью уравнения Беллмана можно на- ходить оптимальные и 8-оптимальные стратегии. Для функции w inf [Law +fa] = 0. (7) Значит, —Law^fa, и с помощью формулы Ито за- ключаем t w (х) = Моу (х/) — М § La* (Xj) w (х5) ds о t Моу (х/) + М § f*3 (х^) ds. о Перейдем в этом неравенстве к пределу при предполагая, что в силу каких-нибудь свойств функции w (х) и процессов X/ для любой стратегии а при /->оо Mw (х,) О, t со М § f ** (х,) ds М j (х.) ds.
16 ВВЕДЕНИЕ В ТЕОРИЮ УПРАВЛЯЕМЫХ ПРОЦЕССОВ (ГЛ I Тогда получим w (х) М J fas (xs) ds = va (x), w (x) inf va (x) = v (x) *). 0 a Покажем, что, в свою очередь, w (x)^v (х). Допустим, что для каждого х нижняя грань в (7) достигается при некотором a = a°(x). Пусть, кроме того, существует реше- ние уравнения t t х? = х+5 O(a°(xj), xs°) dws 4- \b (a0 (xj), xs") ds. о о Поскольку — La°(x) (x) w (x) = fa°(x) (x), то по формуле Ито u> (x) = Mu' (X/) — M $ La (x2) w (x2) ds = 0 = Mu' (x?) + M J fa° (x$) ds. о Отсюда при f->oo для стратегии a0 = {a0(x.y)} следует: u> (x) = va° (x) v(x). Поэтому w(x) = v(x) и a°— оптимальная стратегия (для любой точки х). В том случае, когда нижняя грань в (7) не достигается, для доказательства неравенства w(x)^v(x) возьмем некото- рую функцию g(x)>0 такую, что для решения (1) при произвольных х и стратегиях a со М \g(xt)dt^ 1. О Для 8>0 определим функцию а8(х) из условия ^ae(x) w ^ае(х) eg и рассмотрим стратегию a8 = {a8(xz)}. Пусть х8 — процесс, отвечающий стратегии а8 и исходящий из точки х. По •) Обратим внимание читателя на то, что для справедливости неравенства w v достаточно, чтобы левая часть (7) была неотрица- тельна.
I П ПОСТАНОВКИ ЗАДАЧ 17 формуле Ито w (х) = Мш (х<) — М $ Z,“ (*’) (xf) w (х!) ds Ss о Sa Мау (х?) + М Г (х!) ds — е. о Следовательно, w (х) (х) — е v (х) — 8, т. е. опять v(x) = w(x), а стратегия а8 является е-оптимальной (для любой точки х). Таким образом, дифференциальное уравнение Беллмана дает, во-первых, способ нахождения функции потерь v(x), во-вторых, способ нахождения оптимальных и е-оптималь- ных стратегий. Заметим, что построенные выше е-оптимальные стратегии предписывают выбор управления в момент времени t на основании наблюдения не всего начального отрезка траек- тории %[о, ф а в зависимости только от Иными словами, эти стратегии характеризуются тем, что независимо от того, в какой момент времени и каким образом траектория при- шла, скажем, в точку у, в этой точке управление берется всегда одним и тем же: равным а8 (//). То обстоятельство, что подобными стратегиями можно было бы ограничиться с самого начала, понятно и из инту- итивных соображений. Действительно, знание того, как траектория пришла в точку у, никак не может помочь для оказания какого-нибудь особого влияния на дальнейшее поведение траектории xz, так как приращения процесса wz, которыми это дальнейшее поведение определяется, не зави- сят от прошлого. Кроме того, то, что нам придется запла- тить после прихода в точку у, также не зависит от пре- дыдущего отрезка траектории. Значит, если почему-либо после прихода в точку у выгодно применять некоторое управление хотя бы однажды, то в силу тех же причин это управление выгодно применять всякий раз при попадании в у. Стратегии вида {a(xz)} называются марковскими, посколь- ку процессы, им отвечающие, являются марковскими — по- ведение этих процессов после момента времени t зависит только от положения в момент времени t и не зависит от предыстории. Таким образом, искать оптимальные и е-оптимальные стратегии следует среди марковских стратегий. Однако
18 ВВЕДЕНИЕ В ТЕОРИЮ УПРАВЛЯЕМЫХ ПРОЦЕССОВ [ГЛ I оказывается, что доказывать справедливость наших эвристи- ческих рассуждений об уравнении Беллмана нужно с по- мощью рассмотрения всех возможных стратегий. Например, уже при объяснении принципа Беллмана существенно было то, что управления, которые можно применять после момента времени /, никак не связаны с предыдущими. Это может, конечно, привести к применению в некоторой точке у раз- личных управлений до момента времени t и после него. Оказывается, что понятие стратегии иногда удобно еще более расширить. Выбирая стратегию a = az(x[o, ц), мы после решения уравнения (1) получим процесс xz, который зави- сит от траектории wz: xz = xz(W[0, /j). Подставляя это реше- ние в выражение для az, запишим at в виде P/(W[o,/]). Теперь естественно возникает желание включить в множество рассматриваемых стратегий все процессы pz = pz (W[o, ц) со значениями из А. Результат действия таких стратегий на управляемый процесс дает, конечно, решение уравнения t t xt = х + J (A «О (x5) dws + J № (w(°• sl) (xj ds. о о Понятно, что допущение стратегий вида pz (w[0, /]) экви- валентно разрешению выбирать управления на основании наблюдений процесса wz, наблюдения которого, разумеется, дают нам одновременно и всю информацию о процессе X/. Понятно также и то, что после включения подобных стра- тегий в множество всех допустимых предыдущие рассужде- ния относительно уравнения Беллмана, а значит, и мар- ковских стратегий нисколько не пострадают. В частности, применение новых стратегий не уменьшит функцию потерь, поэтому приближаться к этой функции можно все равно с помощью марковских стратегий. Сделаем несколько замечаний о структуре уравнения Беллмана, которые в некоторых случаях облегчают его написание. Уравнение (6) в развернутой форме имеет вид d inf У, a'7 (a, x)vxixl(x) + ае A L;, /=1 d ~1 + £б‘ (а. *)»/(•*) + /“(*) =0. z-i J (8)
$ 2] НОРМИРОВАННОЕ УРАВНЕНИЕ ВЕЛЛМАНА 19 В этом уравнении х принимает значения из того прост- ранства, в котором принимает значения управляемый про- цесс (1), 6‘(а, х) —скорость детерминированной состав- ляющей движения ьй компоненты процесса, когда он находится в точке х и применяется управление а. Матрица а(а, х) = (а‘7(а, х)) = ^-о(а, х)о*(а, х) характеризует диффузионную составляющую процесса. Она является сим- метричной: а* = у (аа*)* =у аа* =а и неотрицательно определенной: (аХ, A,)=g (а*^> а*^) — j I а*Л|2^0. Кро- ме того, как нетрудно видеть, k = 1 так что add (а, х) = 0 при всех х, а тогда и только тогда, когда adk (а, х) — 0 при всех k = 1,... , dt, х, а, т. е. когда последняя координата процесса не имеет диффузионной составляющей. При этом также aid(a, х) = 0, adi(a, х) = 0, и первое слагаемое в (8) приобретает вид d—\ 2 а'7(а, х)улу(х). I, / = 1 1. Упражнение. Пусть ох (а, х), а2 (а, х) — две квадратные матрицы размера dxd. Построим новую матрицу а3 (а, х), имеющую d строк и 2d столбцов. Пусть первые d столбцов этой матрицы образуют матрицу оДа, х), а последние — матрицу о2(а, х). Обозначим через аДа, х) матрицы, соответствующие О/(а, х). Докажите, что а3 (а, х) = аг (а, х) + а2 (а, х). § 2. Примеры уравнений Веллмана. Нормированное уравнение Веллмана Цель примеров настоящего параграфа заключается в том, чтобы показать, что, несмотря на довольно частный вид управляемой системы (1.1) и функционала потерь рч/в,м м, о
20 ВВЕДЕНИЕ В ТЕОРИЮ УПРАВЛЯЕМЫХ ПРОЦЕССОВ (ГЛ. 1 многие задачи об управлении решением стохастического уравнения сводятся к задаче, рассмотренной в § 1. Пусть вместо того, чтобы минимизировать Мра, нам нужно максимизировать его. Тогда так как — sup М $ fa' (xz) dt = inf M J [ — /*' (x,)] dt, a 0 a 0 то функция выигрыша (x) === sup M f*' (x/) dt a 0 удовлетворяет следующему уравнению Беллмана: 0 = inf [La (- ux) + ( - /a)] = —sup [L^ + fa], aG A aGA Отсюда sup[Lat>1 + /:a] = O. (1) a G A Отметим/ что в задаче минимизации мы вывели уравне- ние Беллмана (1.6), в котором присутствовал inf, а в задаче максимизации в нем присутствует sup. В некоторых случаях, для того чтобы обеспечить суще- ствование функционала ра, т. е. сходимость соответствующе- го интеграла, вводят «убивание». Например, рассмотрим задачу о нахождении v2 (х) =н= sup М $ (X/) dt, (2) а о где X/ —решение системы (1.1). Если /а (х) — ограниченная функция, то интеграл в (2) существует. Множитель называется убивающим множителем. Его можно интерпре- тировать как вероятность того, что до момента времени t траектория процесса не исчезнет и мы в самом деле за время от t до t-\-dt получим доход /a'(x/)d/. Покажем, как эту задачу можно свести к предыдущей. Для х Ed, у е ( — оо, оо) положим /а (х, у) = е~у[а (х) и в Edx Ej рассмотрим управляемый процесс, первые d координат которого движутся в соответствии с уравнением (1.1), а последняя подчиняется следующему «уравнению»: t yt = y-¥t = y + \ 1 ds. о
НОРМИРОВАННОЕ УРАВНЕНИЕ БЕЛЛМАНА 21 § Пусть и2(х, у) = sup М {ft (X/, yt)dt. а 0 Тогда, очевидно, у2(х, у) — e-yv3 (х), и если справедливы выводы относительно уравнения Беллмана, то a d sup 2 а'7(а> Х)»2Л/(Х’ + £ b‘{^ X)v2xi (х, у) + а е А Ц / = 1 i = i + ^у(х, y) + f(x, у) =0. Подставляя сюда v2 (х, у) = e~yv2 (х), /а (х, у) = e~yfa (х) и сокращая на е~у, находим d d sup S a‘7(a> *) а2Л7 (*) + S X)v.2xi(x)_ ae4 Li,/ = | , = ) -u2 (*)+/“(-*) =o. Совершенно аналогично для (3) v3 (x) = sup M f' (*/) exp — $ c“« (x5) ds dt, ~ - о I a о где c“ (x) — заданная функция (a, x), получаем следующее уравнение: sup [Lau3 —cau3 + /:a] = 0. (4) aeA Здесь для последней координаты yt естественно возни- кает уравнение t yt = y+\cas (xs)ds. о Мы видим, что введение убивающего множителя / -1 exp — ^cas(xs)ds приводит к появлению в уравнении (4) о J по сравнению с (1) выражения —cav3.
«2 ВВЕДЕНИЕ В ТЕОРИЮ УПРАВЛЯЕМЫХ ПРОЦЕССОВ [ГЛ. ! 1. Упражнение. Пусть Ьг (а, х) — ^-мерный вектор. Вводя дополнительную координату t t Vt — У + ( th (а,, xs) dws — у j I bi (as, xs) |2 ds, o b объясните, почему функция от х, равная °° // * ’ sup М $ (xf) exp 1 (as, xs) dws — -И | bi (as, xs) |2 ds “o (o dt, удовлетворяет уравнению d a sup Lau + 2 (afei)z + fa =0. a L ;=1 2. Упражнение. Покажите с помощью формулы Ито, что если функция а (х) доставляет верхнюю грань в (1) (или в (3) или в (4)) при каждом х, то страте- гия {a (xz)} является оптимальной в соответствующей задаче. Важный пример задач оптимального управления дают задачи оптимальной остановки. В этих задачах наряду с выбором стратегии а нужно еще выбрать, вообще говоря, случайный момент остановки т так, чтобы было максималь- ным среднее от функционала dt + g(xx). о (б) Конечно, приняв решение остановиться в момент вре- мени т, мы перестаем наблюдать процесс после этого момента. Поэтому решение о том, следует остановить процесс в момент времени t или нет, должно приниматься на основании наблюдения процесса только до момента времени /. Иными словами, в качестве моментов остановки мы будем рассматривать марковские моменты. Как обычно, на множестве, где т = оо, полагаем g(xT) = 0, так что если остановка не происходит, то мы получаем \fa‘{xt)dt.
§ 2] НОРМИРОВАННОЕ УРАВНЕНИЕ ВЕЛЛМАНА 23 Оказывается, что задача об оптимальной остановке с помощью метода рандомизированной остановки может быть сведена к предыдущей. Покажем это на примере задачи об остановке винеровского процесса (в (1.1) dx==d, о —единичная матрица, Ь = 0). Будем, кроме того, считать, что /а(х) не зависит от а : (х) = f(x). Возьмем некоторый неотрицательный процесс rt = r (W[0,/j) и определим с его помощью способ остановки траектории W/. Пусть остановка wz в промежутке времени от t до t + + А/, при условии, что она не произошла ранее, происхо- дит с вероятностью rzA/ + o(A/), и за остановку в момент времени t мы получаем (ср. (5)) i Р/ = V (х + ws) ds + g (X + wt). О Тогда, как нетрудно видеть, вероятность того, что на индивидуальной траектории остановка не произойдет \ * — $ rs ds] [в частности, О / \ ехр[—при / = оо\ Следовательно, вероятность \ о / того, что остановка в действительности произойдет на интер- вале (/, / + А/), есть / t rt exp — rs ds | А/ + о (AZ). \ b 1 Поэтому на индивидуальной траектории ожидаемый выигрыш составляет J p^exp — \rsds dt + ^ f (x + ws) dsexp —J rsds = о о о о г t 0 = 5 £(*+ w/)^exP — \rsds dt — 0 — (x + w^dsjdexp — \rsds + + $ f (x-f- wj ds exp — J rt ds . ® L •
24 ВВЕДЕНИЕ В ТЕОРИЮ УПРАВЛЯЕМЫХ ПРОЦЕССОВ [ГЛ I Это выражение после интегрирования по частям преоб- разуется к виду ОО / t \ $ [f (х + w,) 4- rtg (х + w,)] exp J - $ rs ds I dt. o I 0 J Таким образом, в среднем при описанном способе рандомизированной остановки с помощью процесса rt мы получаем М $ fr‘ (х + w/) ехР — \crsds dt, о о где fr = f+rg, cr = r. Нетрудно понять, что если на некоторой траектории x + w/ действительно выгодно останавливаться в момент времени t с ненулевой интенсивностью rt, то на ней неплохо в момент времени t останавливаться и с вероятностью, равной единице. Следовательно, «нерешительная» остановка не может привести к лучшему результату, чем «решитель- ная». С другой стороны, правило мгновенной остановки с помощью момента т можно в понятном смысле прибли- зить рандомизированными, увеличивая интенсивность оста- новки rt после момента т. Поэтому v4(x)s=supM $f(x+w()<# + g(* + wT) = х Lo со Г * ~ «= sup М J fr* (х 4- wz) exp — с s ds dt. r 0 L о Совершенно аналогично, в общем случае v6 (х) = sup М $ (xt) dt + g (Хх) = а. т [0 оо = sup М г< (х,) ехр — а, г о О (6) где fa'r = fa-\-rg, c^r = r. Если на пару (а, г) смотреть как на один параметр, то нетрудно заметить сходство функций vb и v3. Поэтому для v5 можно было бы написать уравнение Беллмана, аналогичное (4). Отметим, что такое уравнение для не выполняется в большом количестве случаев.
§ 2] НОРМИРОВАННОЕ УРАВНЕНИЕ БЕЛЛМАНА 25 Дело оказывается в том, что функции /а’г, с°^г в (6) не ограничены как функции от одного из управляющих параметров г. Вернемся в связи с этим к выводу урав- нения Беллмана (1.6). При последнем перед (1.6) предельном переходе при /->0 естественно предполагалось, что выражение t у | [A &) + (^)] близко к f*0 (х) + La°v (х) в каком-то смысле равномерно по стратегиям а. Для того чтобы так было на самом деле, нужно, по крайней мере, чтобы за малое время процесс xs не отходил далеко от начальной точки х. Значит, разумно предположить, что коэффициенты а (а, х), b (а, х) ограни- чены. Кроме того, естественно считать, что и функция /а (х) ограничена. Далее, как мы видели выше, схема, в которой имеется убивание, сводится к схеме без убива- ния введением дополнительной координаты yt и уравнения t У/ = У+\са^ (xs)ds. о В схеме с убиванием мы, таким образом, приходим к тре- бованию ограниченности са(х). Следовательно, если мы хотим рассмотреть управляе- мый процесс t t = х5)^ + ^(а5, xs)ds о о с функцией выигрыша v3 и неограниченными a, b, с, f, то мы должны, вообще говоря, применять методы, отлич- ные от изложенного в § 1. Один из таких методов основан на случайной замене времени и позволяет от неограниченных о, b, с, f перейти к ограниченным. Возьмем какую-нибудь положительную функцию m(a, х), для которой выражения cY = mc, являются ограниченными функ- циями (а, х). Положим t (as, xs)ds о
26 ВВЕДЕНИЕ В ТЕОРИЮ УПРАВЛЯЕМЫХ ПРОЦЕССОВ [ГЛ. I и будем считать, что в силу каких-нибудь особенностей управляемого процесса можно рассматривать только те стратегии а, для которых ф?<оэ при каждом/, i|£ = oo. Тогда обратная к функции ф? функция т? будет опреде- лена на [0, оо) и т* = оо. Делая замену переменной / = т^ и полагая Р, = ата» zs = %Ta, находим СО / t \ § exp 1 — $ с“* (х3) dsl (х,) dt =« о I о J = $ exp I - $ с’« (z„) du I f*s (zj ds, 0 ( 0 ) 9 s e % + (Р«» ^>u “Ь S (P«> 0 0 где процесс определяется по формуле та тм____1_ *>и = пГ 2 (ар, хр) dwp. о По теореме 3 § 4 гл. I [11] процесс является вине- ровским. Поэтому весьма правдоподобно, что v3 (х) = sup М $ f (?,) ехр 0 о }C^u(za)du ds о и и3 удовлетворяет уравнению d d sup[ 2 a‘i (₽, x)v3xixj+^ *'(₽, x)v3xi- ₽еД Zi /»i /=1 -C?(x)v3-Hf (x)] = 0, где аг = у оуу* = та. Иначе говоря, d d sup/n(a, х)[ 2 a‘i (a, x) v3xixJ + 2 b1 (a, x)v3xi- ОССЛ / я 1 i =a 1 -c*(x)v8 + f«(x)]==0. (7) Это уравнение носит название нормированного уравне- ния Веллмана, Оно отличается от уравнения Веллмана
§ 2J НОРМИРОВАННОЕ УРАВНЕНИЕ БЕЛЛМАНА 27 (4) присутствием нормирующего множителя т(а,х). Мы вывели уравнение (7) для того, чтобы справиться с неог- раниченностью функций а, Ь, с, f. Если же они ограни- чены, то в качестве нормирующего множителя т (а, х) можно взять функцию, тождественно равную единице, и тогда /та, mb, тс, mf ограничены, а (7) совпадает с (4). Посмотрим теперь, что дает нормированное уравнение Беллмана для функции и5. Предположим, что функции /а (х), ё (х) в (6) ограничены. Возьмем т (а, г, х) = (1 + г)-1. Тогда, как нетрудно видеть, функции У 'т (а, г, х) а (а, х), т(а, г, х)Ь(а, х), т (а, г, х)са’л(х), т (а, г, x)fa’r(x) ограничены и в соответствии с (6), (7) d d 8лир 2 аС1 (а> 2bt{a< аеД, г>0 । г /=] z —1 - rvb + f“ (х) + rg (х)] = 0. Полагая е = , отсюда находим sup sup [е (L“u5 + /“) + (1 - е) (g - v5)] = О, ee[0,1] аеЛ sup [e sup (L“t>6+ /“) + (!-e)(g-t>8)] = 0. (8) es[0,lJ аеЛ Принимая во внимание, что выражение в квадратных скобках есть линейная функция е, легко доказать, что (8) эквивалентно совокупности следующих условий: sup (Lau6 + ^)<0, g-u5<0, sup (АЧ + ГМ при g — v5<0. аеЛ Мы получили три соотношения для нахождения функ- ции выигрыша v5 в задаче об оптимальной остановке. Их легко записать одним равенством, если сосчитать верхнюю грань по е в равенстве (8): g-v64-sup [Lat»5 + r + y»-£K = 0- a Это уравнение называется уравнением Беллмана для задачи об оптимальной остановке управляемого процесса. В приведенных примерах управляемый процесс (1.1) рассматривался во всем пространстве Ed. В некоторых
28 ВВЕДЕНИЕ В ТЕОРИЮ УПРАВЛЯЕМЫХ ПРОЦЕССОВ [ГЛ. 1 случаях, однако, существенны значения этого процесса только до момента времени первого выхода траектории (1.1) из некоторой области D. Например, пусть мы хотим, чтобы Мтр было наибольшим или наименьшим. Более общей задачей является задача о нахождении минимума для 'D f'(xz)ctf+g(xTo) Эту задачу можно свести к первоначальной следующим образом. Изменим а (а, х), b (а, х) так, чтобы в области D они остались старыми, а вне области D положим их рав- ными нулю. Новые о (а, х), b (а, х) обозначим через а (а, х), й (а, х). Кроме того, положим f'® (х) = fa (х) при х е О, /а (х) = g (х) при х ф D, с (х) = 0 при х G О, с (х) = = 1 при х D. Тогда процесс, однажды попав на гра- ницу dD области D, навсегда останется в точке xXD и, очевидно, r*D л и, (х) S inf М 5 fat (xz) dt + g (xrD) = • Lo J <x> ~ r t *= inf M J fa‘ (X/) exp — $ c ds dt, “0 .0 где Я/ —решение (1.1) с измененными ст (а, х), 6 (а, х). Уравнение Беллмана для ив (х), следовательно, дает inf 2 &!1 (а> X')v6x‘x/M+ 2 x)v6x‘ W- аеЛи,/-1 i = i -с(х) ve (x) + fa (х)] = 0, где (<2'; (а, х)) = уст(а, х)ст*(а, х). В частности, inf [L“oe + /а] = 0 в D, —Ств+£ = О на dD ♦). (9) а&А Понятно, что подобным же образом можно исследо- вать задачу об управлении в области £>, в которой при- сутствует «убивание» са(х), а также задачу об оптималь- ной остановке до момента первого выхода из D. *) ue = g даже всюду вне D.
§ 2] НОРМИРОВАННОЕ УРАВНЕНИЕ ВЕЛЛМАНА 29 Наконец, еще целый класс задач оптимального управ- ления, который включается в рассмотренную схему, дают задачи об управлении неоднородными пс времени стоха- стическими уравнениями. Довольно часто в коэффициенты уравнения (1.1) явным образом входит время. Пусть, например, управляемый процесс xt начинается в момент времени г в точке х и удовлетворяет уравнению t t xt = x + \b(as, xs, s)ds + $a(a„ xs, s)dws, t^r. Предположим, что нам нужно минимизировать оо (х, г) = М J (х6 t) dt. Обозначим v7 (х, r) = inftfz(x, г). Возьмем прямое произ- a ведение EdxE1 и Ег будем считать осью времени. Тогда процесс (xh t) в начальный момент управления будет находиться в точке (х, г) и за время управления и пере- местится в точку (хг+м, г-\-и) с единичной скоростью по оси времени. Положим yu = (xr+a, r + u), xr+u = y'u1', r + u=y'i\ ₽« = «'+«, тогда Уи' = yw + $ ь (PJ( y's", ys2’)ds + ^a(P^ z/'", y'^)dv/s+r, b о Уи' = У{2) + \ Ids, 0 va(y"\ yw) = M\ yr)dt, 0 где z/(1) = x, z/(2, = r. Отсюда oo t/(2)) = inf f^{y‘t", y'?')dt з о и Г d inf 2 a'7(P- + ₽ел[(>/=1 -s'
30 ВВЕДЕНИЕ В ТЕОРИЮ УПРАВЛЯЕМЫХ ПРОЦЕССОВ [ГЛ. I Следовательно, Г d inf 2 a'/(a, x, r)v^xi{x, r) + a€=A[t,/ = 1 + г)у7?(*. r) + t»7f(x, r) + fa(x, r) =0. : _ 1 Или, иначе, inf ка(х, r)v7(x, r)+^7(f;r) + № r)]=0. A L °' J ae A Аналогично можно рассмотреть задачи с другими функционалами потерь для неоднородного по времени управляемого процесса. Так, например, задача о нахож- дении vs (х, г) = inf М 5 Г' (•*<» 0 dt + g (хт) эквивалентна задаче о минимизации для процесса уа где g{y}=g{y{1}Y Тр —момент первого выхода yt из полосы {у: у{2}<Т}. Поэтому естественно, что при r<ZT inf (х, г) va (х, г) + ^е(х’ г) + /“ (х, г)1 = 0, У £= Л I I ae4 L v8(x, T)=g(x). 3. Упражнение. Пусть при каждых (х, г) нижняя грань в последнем уравнении достигается при a = a(x, г). Определим неоднородную марковскую стратегию по фор- муле а0 = {а (X/, /)}. Покажите, что а0 — оптимальная стратегия. 4. Упражнение. Пусть Si — шар единичного ра- диуса в Ed, A = {a = (a(1), a(2)): a(1)e[0, 1], a^eSj}, a (a, x) = ]/a(i^o(x), где a (x) — некоторая квадратная матрица размера dxd, b (a, x) = a(2) (1 — a(1)), /a(x) = = a(1) (/ (x) + 1) — 1, f (x) — некоторая фиксированная функция. Пусть тд —момент первого выхода траекторий
9 91 ПРИМЕНЕНИЕ К ПОЛУЧЕНИЮ НЕКОТОРЫХ ОЦЕНОК 31 решения уравнений / t xt = х + j/tts1’ or (xj dws + а$2 (1 — as‘ ) ds о о из области D, то v(x) = supM $ [ос/’(/(Х/)4-1) — i]dt, а О d a(x) = (az/(x))=-'-ст(х)а* (х), Lo = У а>7(х)—. 2 . -М дх1 дк I, / = 1 Покажите, что уравнение Беллмана для и(х) экви- валентно совокупности следующих соотношений: -f" f О, | grad v | 1, (| grad v | — 1) (LQv + f) = 0 на D, г = 0 на dD. 5. Упражнение. Пусть А = [0, оо). Рассмотрим одно мерный управляемый процесс t ____ xt=^x + \V^s dws. о Обозначим оо v (х) = sup М 5 f (*/) exp где / — заданная отрицательная ограниченная функция. Напишите уравнение Беллмана для v и докажите, что оно не имеет решений. Докажите, что и = 0 и что функ- ция v удовлетворяет нормированному уравнению Беллмана. § 3. Применение принципов теории оптимального управления к получению некоторых оценок В ряде задач теории случайных процессов диффу- зионного типа возникает необходимость оценить сверху или снизу выражения вида -т 1 = М ехр _о t ч / Т ч — dsp(zz) dt + exp J— J ct dng(zT) „ о J I 0 J
32 ВВЕДЕНИЕ В ТЕОРИЮ УПРАВЛЯЕМЫХ ПРОЦЕССОВ [ГЛ. I В этом параграфе мы покажем, как такие оценки можно получать с помощью идей оптимального управле- ния. Метод, излагаемый здесь, применялся для нахож- дения большинства оценок, имеющихся в книге. Пусть процесс zt имеет следующее представление: t t zt = z + $ Оу dws + \bs ds, о о t —момент первого выхода Zt из области D, f(z\ g(z) — заданные функции, — некоторый случайный процесс. Представим себе, что нам удалось включить процесс zf в семейство управляемых процессов. Иными словами, будем считать, что процесс zt получается как решение уравнения t t xz = x + Ja(a;r, xs) dws + $ b (ax, xs)ds (1) 0 0 при x = z и некотором выборе стратегии а, скажем, при a = {ау(Х[о, s])}« Допустим еще, что можно найти функ- гии са(х), fa(x) так, чтобы са* (zs) = cSi fas (zs) = f (zs). Тогда 1 = va (z) v (z), где T£> ft 1 va (x) = M $ (X/) exp ‘ — $ cas (xs) ds\dt + L о 0 J ( TD Г + g(^D) eXP I” W dSf ’ I 0 J. v (x) = inf va (x), a xz —решение уравнения (1), т^ —момент первого выхода решений (1) из D. Как и в предыдущем параграфе, функция v(x), по всей видимости, должна удовлетворять соответствующему уравнению Веллмана: inf [Lav-\-fa] = O в D, —у-{-§• = 0 на dD, (2) aS А где d d La= 2 а“(а' + i, / = 1 i — l a (a, x) = (a'7(a, x)) = y a (a, x)a* (a, x).
§3] ПРИМЕНЕНИЕ К ПОЛУЧЕНИЮ НЕКОТОРЫХ ОЦЕНОК 33 Теперь для оценки / снизу остается найги явно реше- ние краевой задачи в частных производных (2). Если это решение обозначить через w{x), то w (г) va (г) = /. Заметим, что здесь не нужно, конечно, доказывать равен- ство w = v. Поэтому (ср. рассуждения по поводу уравне- ния (1.7)) для оценки / снизу достаточно решить менее трудную задачу inf [Ла^4-/а]^0 в D, —ауф-g^O на dD. (3) аеЛ Разумеется, возможность явного решения уравнения (2) в немалой степени зависит от его вида, т. е. от удач- ного включения процесса zt в систему процессов (1). Поэтому обычно стараются управляемый процесс ввести так, чтобы у(х) зависело не от всех d координат, а только от какой-нибудь известной функции этих координат, например от 1x1. В этом случае (2) сводится к уравне- нию с обыкновенными производными. Сделаем еще несколько замечаний относительно нега венства w(z)^I. Константу w (z) можно было бы найги и из каких-нибудь других соображений, не связанных с (2), (3). Однако доказательство того, что w (г) /, очень удобно производить, используя (2) (или (3)), т е. используя функцию w (х), а не только значение ее в точке г. В соответствии со сказанным в § 1 для доказатель- ства неравенства w(z)^va(z) нужно применить формул) Ито к решению уравнения Беллмана для соответствую щим образом модифицировайной задачи, в которой функ- ционал потерь имеет вид о В нашем случае нужно применить формулу Ито к / t ч w (xz) exp I — J са* (xj ds j, \ о / где X/ —решение (1) при г = г, as = as. Заметим, что t последнее выражение равно w (zt) exp I — cs ds I. \ о / 2 H. В. Крылов
34 ВВЕДЕНИЕ В ТЕОРИЮ УПРАВЛЯЕМЫХ ПРОЦЕССОВ [ГЛ. I По формуле Ито -гАт ( S 1 w (z) = M $ Iv (Zj) — L°^b>w (z^)] exp J — $ cr dr Ws + о I » ) 4- w (ztM) exp Здесь в силу (2) (или (3)) csw (z,) - L°s' l'*w (zj = — (x.) w (xs) fa* (xj = f (zj. Короче, Отсюда с,иу (zs) - L°s-'’sw (zj f (zf). (4) W (z) M ( V + w(zMT)expJ— J crdr\ . (5) Поскольку w(zx)^g(zx), то, полагая / = оо, получаем w (г) /. Обратим внимание на то, что в проведенных рассуж- дениях (2) (или (3)) использовалось только для того, чтобы получить (4). Иначе говоря, w(z)^I для любой функции w, для которой w (гт) g (гт) и выполнено (4). Подобные функции w называются стохастическими функ- циями Ляпунова (см. [38]). Таким образом, метод, осно- ванный на применении уравнения Беллмана, может слу- жить для отыскания стохастических функций Ляпунова. Эти же рассуждения показывают, что, написав явное Езыражение для функции w так, чтобы выполнялось (4), мы вовсе не нуждаемся в привлечении уравнения Бел- лмана, функции потерь или других понятий теории опти- мального управления при обосновании неравенства х-(г)^/. Однако нахождение явного вида для функции w, как мы увидим ниже, облегчается, если представлять себе ее как функцию потерь и использовать уравнение Беллмана. Кроме того, оценка w (г) va (z) является точной (не- улучшаемой) в классе процессов (2) в том случае, когда w = V.
| 3] ПРИМЕНЕНИЕ к ПОЛУЧЕНИЮ НЕКОТОРЫХ ОЦЕНОК 85 Приведем один пример. t Рассмотрим процесс £/ == z + $ где а — матрица размера dxd, wz —d-мерный винеровский процесс. Пусть e<|z|</?. Будем оценивать сверху вероятность того, что этот процесс достигнет замыкания шара S8 = = {х: | х | < е} раньше, чем выйдет из шара S^. Иначе говоря, нужно оценить сверху Mg(zx), где g=l на dS8 = {x: |х| = s}, g = 0 на dSR и т —момент первого выхода zt из Z) = D(e)«S^\(S8|JdS8). Предположим, что as не вырождается и ограничена. Более того, пусть для всех s^>0 и всех со р | X |2 < у (oso^, X) < v | X |2, где р, V —константы, большие нуля. Возьмем в качестве А множество всех матриц а раз- мера dxd таких, что для всех X&Ed р 11 |я -с аа*Х, < v | % I2. (6) Для а е Л положим а (а, х) = а, b (а, х) = 0, са (х)«= 0, ^а(х) = 0. Рассмотрим управляемый процесс t t */ = *+$ a («j, х5) dws = х + J as dw^. о о Ясно, что процесс zt включается в этот управляемый процесс и Mg (zT) v (z), где u(x) = sjipMg(xTp). (7) Уравнение Веллмана для v(x) дает d sup У aiJ'(а, х) vxtx/(x) = 0 в D, v = g на dD. (8) а еА (> j _ ] Заметим, далее, что в силу сферической симметрии задачи функция v зависит только от |х|: и(х) = ы(|х1). Кроме того, а (а, х) не зависит отх, а (а, х)=а(а). Из (8) а*
36 ВВЕДЕНИЕ В ТЕОРИЮ УПРАВЛЯЕМЫХ ПРОЦЕССОВ [ГЛ. I для и (| х |) получаем следующее соотношение: SUP *а(а)хи(\х\) + as А к । л । +-|7j-[tr a (а) — (а)х] и' (| х |)| = 0. (9) Фиксируем х, положим г = |х| и подберем какую-ни- будь ортогональную матрицу Т так, чтобы x = \x\Telt где ^i = (l, 0, ...» 0). Тогда (9) приобретет вид sup [efi (a)^1u"(r)+“ [trа (a) ” e\& (a) eilu' = 0, аеД 1 r ' где й (a) = T*a (a) T = a (T*a). Заметим, что tra(a) = = tra(a), e1a(a)e1 = an (a), и когда a пробегает все A, матрицы T*a также пробегают все А. Поэтому причем это соотношение эквивалентно (9) при г = |х|. Уравнение (10) является уравнением второго порядка с обыкновенными производными. Разрешим его относи- тельно старшей производной. Имеем sup a11 (a) as A d y«A!2Ll„' w Z. a1-1 (a) r v 7 i = 2 = 0. (11) Заметим, что a(a) = |aa* и из (6) для V = l, X2 = =... = Xd = 0 следует неравенство a11 (a) Ss p. Поэтому пер- вый сомножитель в (11) не может приближаться к нулю, и значит, (d \ “(')+2:4g-7 «'И U ( = 2 ! (12) u"(r)+7as^/ (r)i2^ 0. Нетрудно понять, что w(r) убывает с ростом г, т. е. и' (г)^0. Это следует, например, из такого варианта
$ Ц ПРИМЕНЕНИЕ К ПОЛУЧЕНИЮ НЕКОТОРЫХ ОЦЕНОК 37 принципа Беллмана. Пусть 8<г<|х|, =» 3/Д(3Л U5S-), тогда м (I х I) = sup Мг> (ХтО1) = и (г) sup Р {| XrDt | = г} «С и (г). Стало быть, из (12) d “м+7“'«“(2 Sw-o- Последняя нижняя грань легко считается (а11 (а) ме- няются независимо при разных i в отрезке [р, v]), и окон- чательно мы получаем м" ы'(г) = 0, г е [е, /?], ы(е) = 1, ы(/?) = 0. Отсюда , . -rV4-/?Y АТ-ШУ и — — eY-f-flY’ v(x)~ Ry—tX • (13) где Y= 1 -(d — 1)Ь*). Рассуждения, связанные с выводом (13), носили эври- стический характер. Поэтому (13) еще нужно доказать. Имея в виду поставленную выше задачу, докажем сна- чала, что P{|*tl = e} = Mg(M<^A (14) Отметим, что и (г) и v(x), определенные в (13), яв- ляются бесконечно дифференцируемыми функциями своих аргументов при г>>0, х=/=0 соответственно. Кроме того, н'(г)<0. Поэтому и действительно удовлетворяет (12), (11), (10), (9), а значит, v удовлетворяет (8). Отсюда, ввиду гладкости у(х), вытекает, что для любого t Му (zt д т) у (г) (ср. (4), (5)). Устремляя здесь t к бесконечности и поль- зуясь неотрицательностью у и леммой Фату, получаем (14). Таким образом, основная задача решена. Желательно, однако, знать, насколько точна оценка (14) и нельзя ли ') Предполагается, что у 0.
38 ВВЕДЕНИЕ В ТЕОРИЮ УПРАВЛЯЕМЫХ ПРОЦЕССОВ (ГЛ. Г ее усилить. Иными словами, желательно доказать, что, v(x) в (13) есть действительно функция выигрыша. Найдем оптимальное управление а (х) с помощью урав- нения Веллмана. При x1 = r, x2 = ... = xd = 0 верхняя грань в (8) достигается при том же а, что и в (9), (10). В (10) она, как показывает наше исследование, дости- гается на диагональной матрице а (а) такой, что ан(а) = = р, z^2, an(a) = v. У нее собственные векторы все, кроме первого, ортогональны оси х1 и имеют собственные значения, равные р, первый собственный вектор идет вдоль оси х1 и имеет собственным числом v. Ввиду сферической симметрии задачи, верхняя грань в (8) при другом х будет достигаться на матрице ах, у ко- торой один из собственных векторов параллелен х и соот- ветствует числу v, остальные собственные числа равны р. Следовательно, матрица ах характеризуется тем, что axx — vx, = если (х, у) = 0. Поэтому, поскольку любой вектор У = х(х, + и (^— jxF*’ х)= °’ 1*1 \ IлI / 1*1 Значит, и, полагая a(x) = }^2av, получаем функцию а(х), для которой я(а(х), х) (= ал) дает верхнюю грань в (8). Выражение для а(х) легко найти, если учесть, что собственные векторы а (х) те же, что и у ах, а собствен- ные числа равны ]/2v и ]/2р. Имеем а'' (х) = ]/2ji б'' + (/2? - /2ц) Функция а(х) является гладкой всюду, кроме х = 0. Значит, если взять стратегию a0 = {az (xz)}, то уравнение t i xr = x+to(a(xj, Xj)dw5==x + $a(x^)dw5 (15) О о имеет решение, однозначно определенное вплоть до мо- мента первого попадания в нуль.
Ml ОДНОМЕРНЫЕ УПРАВЛЯЕМЫЕ ПРОЦЕССЫ 39 Применяя для этого решения формулу Ито, получаем V (х) = Му (х, д Т£)), откуда при / —>-оо v (х) = Му (хТ£)) + lim Му (х,) > t = = Уа“ (х) + lim Му (xz)%Td > t. t — оо Таким образом, для доказательства того, что v(x) из (13) есть действительно функция выигрыша, а0 —опти- мальная стратегия, и значит, что оценка (14) является точной, достаточно доказать, что последнее слагаемое равно нулю. Поскольку же v — ограниченная функция, то до- статочно показать, что конечно с вероятностью 1. По- ложим gi(x) = — x2-\-R2. Тогда по формуле Ито gi(x) = M[g1(x/AxD) + 2(v + (d- 1)ц) (t Д td)]Ss Ss2(v + (d-l)H)M(/ AfD). Отсюда по лемме Фату Мт^ 2 (v ф- (d — 1) р) gr (х) и Мт;) < оо. Сделаем еще несколько замечаний о v(x) и оптималь- ном процессе (15). Предположим, что у>0, т. е. (d — l)p<v, и обозначим £) (0) = Sx\{0}. Тогда из равен- ства иа°(х) = ^(х) получаем Р {Хто (0) = °} = J™ Р {| X^D (8) | = е} = 1 “ | | • Отсюда следует, что процесс (15) с ненулевой вероятностью раньше попадет в нуль, чем достигнет dSR. Кроме того, эта вероятность стремится к 1, когда исходная точка про- цесса стремится к нулю. Подчеркнем, что процесс х, не вы- рождается и не имеет сноса. § 4. Одномерные управляемые процессы В этом и следующем параграфах будет доказано, что если ни при одной стратегии одномерный управляемый процесс не вырождается и выполнены еще некоторые пред- положения технического характера, то функция выигрыша дважды непрерывно дифференцируема и удовлетворяет уравнению Беллмана. Кроме того, здесь обосновывается правило нахождения е-оптимальных стратегий с помощью уравнения Беллмана.
40 ВВЕДЕНИЕ В ТЕОРИЮ УПРАВЛЯЕМЫХ ПРОЦЕССОВ [ГЛ. 1 Поясним соотношение между теорией, которая изла- гается в этом параграфе, и теорией многомерных управ- ляемых процессов, развиваемой в следующих главах. Одномерные управляемые процессы, разумеется, являются частным случаем многомерных управляемых процессов. Поэтому из общей теории можно извлечь значительную информацию о функции выигрыша, уравнении Беллмана и Е-оптимальных стратегиях. Однако за счет специфики одномерных процессов здесь удается в некоторых случаях доказать более сильные утверждения. В тоже время, под- черкнем, результаты, изложенные ниже, не перекрывают всех следствий из общей теории. Пусть А — (непустое) выпуклое подмножество некото- рого евклидова пространства, о (а, х), b (а, х), еа(х), fa (*) — действительные функции, заданные при а е Л, хе(—со, со). Предположим, что са(х)^0; о (а, х), Ь(а, х), са (х), /а(х) ограничены и удовлетворяют условию Липшица по (а, х), т. е. существует постоянная К такая, что при всех а, £ е А, х, у^Е1 |а(а, x)\ + \b(a, х) | +1 с- (х) | +1 (х) | К, а (а, х)-ст(р, y)- + \b(a, х)-Ь($, «/) Ц-1 (х) - (у) | + + 1/а W-F (у)\^К(\х-у\ + \а-$\), где, как обычно, а (а, х) = [а (а, х)]2. Предполагается также, что управляемые процессы рав- номерно невырождены, т. е. что для некоторой постоянной д>0 при всех аеЛ, хе^ а (а, х) д. Пусть еще на некотором полном вероятностном про- странстве (Q, Р) задан винеровский процесс (wz, </д). Пусть о-алгебры полны по мере Р. 1. Определение. Стратегией называется случай- ный прогрессивно измеримый относительно системы о-ал- гебр {qzz} процесс at (со) со значениями в Л. Множество всех стратегий обозначается через Ш. Каждой стратегии ае^и точке х мы поставим в соот- ветствие решение х уравнения t t Л/ = х + $о(о^, xs) dws 4- \b (a,, xs)ds. (1) о о
ОДНОМЕРНЫЕ УПРАВЛЯЕМЫЕ ПРОЦЕССЫ По теореме Ито решение этого уравнения существует и единственно. Фиксируем два числа /д <С г2 и некоторую функцию g(x), заданную при х = /д, х = г2. Обозначим через та’ х момент первого выхода х^* х из (гь ^2) и положим \а, х иа(х) = М 5 X)exp dt + та. х + ^(х“а.\)ехр — $ O(xsa'x)ds V (х) = sup va (х). ае Д Нам довольно часто придется писать математические ожидания выражений, в которые многократно входят ин- дексы а, х, где а —стратегия, х —точка отрезка [гр г2]. Условимся эти индексы писать только у знака математи- ческого ожидания. Например, будем писать М? (xz) dt Ta, х вместо М fat(xf’x^dt и т. п. Кроме того, удобно ввести о следующее обозначение: ср^ х = jj сл$ (х?’ *) ds. Тогда определение va (х) приобретет следующий вид: va (х) = М? Л (*/) е (f>tdt+g (хт) е Данное определение стратегии позволяет при управле- нии решением уравнения (1) пользоваться информацией о поведении процесса wz. С точки зрения приложений такое положение дел кажется искусственным, поэтому мы рас- смотрим также иные способы управления. Пусть С[0, со) — пространство непрерывных действи- тельных функций X/, заданных при t [0. 00), ^^ — наи- меньшая a-алгебра подмножеств С|0, со), содержащая все множества вида {х(о. оо* sec/, а еЕ (—оо, сю). 2. Определение Функция az(X|о >0) = (Х[о, /1), со значениями в А заданная при t е [0, оо), х^, оо) е С[0, сю).
42 ВВЕДЕНИЕ В ТЕОРИЮ УПРАВЛЯЕМЫХ ПРОЦЕССОВ [ГЛ Т называется естественной стратегией, допустимой в точке х е [гр г2], если она прогрессивно измерима относительно системы o'-алгебр & / \ и существует хотя бы одно решение стохастического уравнения t t Xt = X + $ a (as (х[0, s]), xs) dws + \b (a, (xl0, s]), xs) ds, (2) 0 0 ^-измеримое при каждом t. Множество всех естественных стратегий, допустимых для точки х, обозначим через 21 (х). Каждой стратегии а е (х) мы поставим в соответствие одно (фиксированное) решение х^ х уравнения (2). 3. Определение. Естественная стратегия а( (х[0, /]) называется (однороднэй) марковской, если aL (Х[о, /]) = a (х,) для некоторой функции a(x). Множество всех марковских стратегий, допустимых в точке х, обозначается 21 л< (х). Заметим, что любой естественной стратегии az (х10, /]), допустимой в точке х, можно поставить в соответствие некоторую стратегию 0 21 так, чтобы х“»х = хР’х. Действительно, возьмем решение xt (<о) = х^ х (о>) урав- нения (2) и положим 0, (со) = а, (х10,/] (о))). Ясно, что {0J является стратегией, и уравнение dxz = o(0z, xz) dwz + + b (0/, xz) dt с начальным данным x0 = x удовлетворяется при xt = x®’ x. В силу теоремы единственности других решений это уравнение не имеет, и, значит, х^х = х*'х. Следова- тельно, включения 21Л1 (х) cz 21^ (х) cz 21 имеют вполне опре- деленный смысл. Покажем, что 21Л1(х)=/=ф. Возьмем некоторую функ- цию а(х) со значениями в А так, чтобы | a (х) — а (у) | \ х — у\ при всех х, у для некоторой постоянной АС Так как суперпозиция функций, удовлетворяющих условию Липшица, удовлетворяет условию Липшица, то решение уравнения Х/ = х-ф (a (*s), xs) dws + \b (a (xs), xs) ds о 0 существует. Это означает, что {а (х,)} 2( и (х). Аналогично тому, как выше была введена функция v (х), вычисляя верхние грани по 21д (х), 21^ (х), введем функции
f 4] ОДНОМЕРНЫЕ УПРАВЛЯЕМЫЕ ПРОЦЕССЫ 43 V(E) (х), v (М) (х). Понятно, что V(M) (х) V(E) (х) < V (х). 4. Определение. Пусть е^О. Стратегия ае?( назы- вается г-оптимальной для точки х, если v (х) иа (х) + е. О-оптимальные стратегии называются оптимальными. Наша ближайшая цель состоит в том, чтобы доказать следующую теорему. 5. Теорема. и(м) (х) = v{E) (х) = v (х) при хе[г1( г2], v (ri) = g(ri)> v (r2) = £ (r2), v (х) и ее производные до вто- рого порядка включительно непрерывны на [гр г2] *), v" (х) удовлетворяет условию Липшица на [гх, г2]. При всех X (= [гь Г2] sup [а (а, х) v" (х) + b (а, х) v' (х) — са (х) v (х) + fa (х)] = 0. аеА (3) Кроме того, v — единственное решение (3) в классе функ- ций, дважды непрерывно дифференцируемых на [т^, г2] и равных g на концах этого отрезка. Для доказательства этой теоремы нам понадобятся четыре леммы и некоторые дополнительные обозначения. Положим F (х, 4/, р, г) = sup [а (а, х) г + b (а, х) р — са (х) у + fa (х)], 7Е А г / \ Г b (а, х) са (х) . /а (х) 1 Л(х, у, р)^ + Lau (х) - La (х) и (х) = es а (а, х) и" (х) + Ъ (а, х) м' (х) — са (х) и (х), F[«]sf(p](x)= sup [Lau(x)+fa(x)]= F(x, и, и', и"), а е А И«ЪМи!!в[г.. sup 1«(*)1. [''1» Гг1 II и U, S3 II и |^, (г„ г,] = J I и (х) I dx. В. Лемма. Пусть а(х), b(x), с(х), f(х) — некоторые непрерывные функции на\1\, г2] и на этом отрезке а^Ь, | а | +1 6 j + [с | л. Тогда существует и притом *) (ri) (ri)) по определению полагается равным пределу у' (х) (х)) при х \гъ Аналогично определяются у' (r2), у" (rj.
44 ВВЕДЕНИЯ В ТЕОРИЮ УПРАВЛЯЕМЫХ ПРОЦЕССОВ (ГЛ. I единственная функция и (х), дважды непрерывно дифферен- цируемая на [rn г2], равная g на концах отрезка [гх, и такая, что при всех х е [гх, г2] а (х) u" (х) + b (х) и' (х) — с (х) и (х) + / (х) = 0. (4) Кроме того, ||и‘'||в + ||и'11в + ||«11в^^1(Н||в+1) (5) « при g(r1)=g(ri')-=Q (6) где А\ зависит только от гг, г2, 6, /С, g(r1), g(r2); Af2 зависит только от rlf г2, б, К. Доказательство. Утверждения такого рода хорошо известны из теории дифференциальных уравнений (см., на- пример, [39]). Поэтому приведем лишь набросок доказа- тельства. Прежде всего, рассматривая вместо функции и функ- цию и — ф, где ф линейна на [гх, г2] и ф (/*/) = £ (/;•), убеж- даемся, что лемму достаточно доказать при g = 0. Далее, легко найти явное выражение для ункции z/(x) такой, что замена неизвестной функции по формуле и (х) = и (у (х)) приводит уравнение (4) к виду «1 («/) и" (у) -с, (у)й(у) + Ь(у) = 0, t/e=[0, 1]. Деля здесь обе части на аг, окончательно приходим к урав- нению и" (у) (у)й(у) -f2 (у), у<=[0, 1], (7) с граничным условием ц(0) = й(1) = 0. Заметим, что в (7) c2(z/)^0 и из свойств решения (7) легко извлечь аналогичные свойства решения (4). Следо- вательно, лемму достаточно доказать для уравнения (7). Положим g0 (х, у) = (х Л у) (1 — * V У) и ПРИ > 0 8к (х' у>> = "|/Г h i/i sh Л у) sh -х V у)- У Л sn у к Простое вычисление показывает, что совокупность соот- ношений и" — Кй = — h, и (0) = и (1) = 0 эквивалентна сле- дующему: U(x) = \gt(x, y)h(y)dy. о
I 41 ОДНОМЕРНЫЕ УПРАВЛЯЕМЫЕ ПРОЦЕССЫ Кроме того, (7) эквивалентно и" — кй = (с2 — к)й~ f2. Таким образом, (7) эквивалентно уравнению 1 *(x) = \gK(x, y)f2 (y)dy + О I + \gx(x, y)(X-c2(y))u(y)dy = T^a. (8) О Возьмем А = || с2 ||в р. q, тогда || 7\«i — Л «г ||в го, и < «S||«i -м21|В[о, qAmax $gx(x, у) dy = е || — и2 ||в (0, । j, при- х о чем, как нетрудно вычислить, £=1-----------:-< 1. Следо- ch у Кл вательно, 7\ —сжимающий оператор и уравнение (8), а вместе с ним (7) и (4) имеют и притом единственные решения с нулевыми граничными условиями. Перейдем к выводу оценок (5), (6) для решения (7). Из (8) вытекает: I й '|В|0. !|==s max maxgy(x, у) !| f21|^ [0, ij + е || й ,|в [0, q, Отсюда X // находим || й|1в [о, ijsSA^II^H^to, q. Далее, из равенства (7) получаем оценку для ||й"|!В[о, ij. Наконец, оценка й' полу- X чается с помощью представления и' (х) = J и" (у) dy, где Vo х0 —точка из [0, 1], в которой й' = 0. Лемма доказана. 7. Лемма. Существует постоянная N, зависящая тогько от гг, г2, 6, /(, такая, что M/rsC/V для любых х [/-j, г2]. В частности, va(x), v (х) — конечные функции. Доказательство. Не ограничивая общности, можно считать, что 1\ = — г2. Положим с / к г к Y. \ , . / \ О -Т- г2 А- X I Г2 — I X ®(Л = ^г\еб -е6 )- к Несмотря на то, что &>(х) есть разность двух недиффе- ренцируемых функций, нетрудно проверить, что w(x) дважды непрерывно дифференцируема и при любых а ^6, (= [—К, К], х [гр г21 aw" (х) + bw' (х) — 1.
46 вввдвнив в теорию УПРАВЛЯЕМЫХ ПРОЦЕССОВ |ГЛ ! Кроме того, w 0 на [г15 r3], w (rz) = 0. По формуле Ито для любых а ей, г2], /^0 М“ОУ (ХтЛ<) = тЛ/ = w (х) + М? jj [а (а5, xs) w" (xs) + b (as, xs) w’ (xs)] ds. 6 Отсюда с помощью свойств функции w заключаем: w (x)-^M? (тД /) и, при /-^оо, w (х)^М?т. Лемма доказана. 8. Лемма. Пусть функция а(х) удовлетворяет усло- вию Липшица. Определим марковскую стратегию az(X[o, ц) равенством at (х[0>,]) = a (xz). Тогда, если f(x) непрерывна на [гх, г2], то функция и (х) = М? h f (х<) е*‘ dt + g (xT) V b ) дважды непрерывно дифференцируема на [rn г2] и является единственным решением уравнения (v) (х) и (х) + f (х) = 0, х е [Гр г2], (9) в классе дважды непрерывно дифференцируемых функций, равных g на концах [гь г2]. В частности, La (л) (х) va (х) + [а (х) = 0. Кроме того, если некоторая функция w (х) имеет две непрерывные производные на [rp rj, до(/Д = = g(n) и La(x'1 (х) w (х) + /a (v) (x) 5= 0, xe[rlt r2], (10) mo w + N!! где N — постоянная из (6). Доказательство. В силу леммы 6 уравнение (9) с граничными условиями и (rz) ^=g{ri') имеет гладкое реше- ние. Обозначим это решение через ut. Применяя формулу — спа» * Ито к выражению и^х^ ^е ' , легко находим f тЛ/ А «xW = M? Hxs)e^ds + U1(XxM)e-^ . V 6 ' Отсюда при ввиду конечности та>х, М?т, огра- ниченности f, их, а также неотрицательности са, следует равенство w1(x) = w(x). Первое утверждение доказано. Докажем второе Положим Law-]-fa = — /ц и заметим, что функция /lx непрерывна и La[w — — й1. Отсюда
§ 4] ОДНОМЕРНЫЕ УПРАВЛЯЕМЫЕ ПРОЦЕССЫ 47 по первому утверждению w (х) — (х) = М? § Л, (xz) е^1 dt «g о dtи2(х). О Остается оценить и2 (х). Лф как и /ib является непре- рывной функцией. Значит, и2 (х) удовлетворяет уравнению Ьаи2 =— и, кроме того, и2 (</) = 0. Следовательно, по лемме 6 имеем: и2 1|/гф|^,, а так как еще то ht^h\ II йг h, <1 h k,; u2 || А Ц^. Лемма доказана. 9. Лемма. Пусть и (х), щ (х), и2 (х) — борелееские огра- ниченные функции на [гэ, г2], 8>0. Тогда существует функция а (х) со значениями в А такая, что а (а (х), х) х X и2 (х) + b (а (х), х) щ (х) — са {х} (х) и (х) + /а и) (х) + е ^F(x, и(х), п1(х), и2(х)) при всех хе[г1( г2]. Кроме того, существует а (х), удовлетворяющая условию Лип- шица, и числовая неотрицательная функция h (х) такая, что ||h ||^ и при всех хе[гь г2] а (а (х), х) и2 (х) + b (а (х), х) щ (х) — са {х} (х) и (х) + (х) _yh (х) = F(x, н(х), щ (х), н2(х)). Доказательство. Фиксируем некоторое счетное всюду плотное в А множество {а(/)}. В силу непрерыв- ности а, Ь, с, f по аргументу а F (х, н(х), пДх). и2 (х)) = sup [а (а (/), х)н2(х) + + b (а (i), х) щ (х) — с*{z) (х) и (х) + fa{i} (х)]. Отсюда заключаем, что для всякого хе[гх, г2] найдется i такое, что a(a(i), х) u2(x)-\-b (a(i), хр/^х) — — Са(/) (х) H(x) + /a(z) (x) + e^F(x, н(х), щ (х), п2(х)). Обозначим теьерь через i (х) наименьшее значение t, для которого это неравенство выполи»чю Тогда, очевидно (измеримая) функция а(х)=на(/(х)) будет той, существо- вание которой утверждается в nepBoii чао и леммы. Докажем второе утверждение леммы Продажам функ- цию /(х) вне [/-J, /Д, полагая i (х) = 1 при х [гА, г2].
48 ВВЕДЕНИЕ В ТЕОРИЮ УПРАВЛЯЕМЫХ ПРОЦЕССОВ (ГЛ. I Обозначим 1 Р (У-х)2 at,n(x) = Ma(n/\i(x+wt))=y=r a(n/\i(y))e 21 dt. — оо Нетрудно видеть, что (х) — бесконечно дифферен- цируемая функция. Кроме того, а/л(х)еЛ ввиду выпук- лости множества А. Отметим еще, что, как хорошо известно (см. например, [13]), для любой измеримой ограниченной функции у(х) при /|0 функция Му (х + wz) у (х) (п. в.). Поэтому (Х/.л (х)(/? Д/(х)) (п. в.) при фи, очевидно, а (п Д i (х)) -> а (г (х)) при п ->оэ. Отсюда, полагая h** n(x) = F (х, и (х), Ui (х), и2 (х)) — [a (az>n(x), х) и2 (х) + + &(а/>я(х), х)и1(х) - са‘ '>м (х)и(х) +/“ЛЛ<Х,М]. получаем, что lim lim/V*п (х) 8 (п. в.), п (х) 0. /z —* оо НО Далее, поскольку ц, и2 ограничены, то функции h(>n ограничены в совокупности. Значит, lim limp’ п |ф^ 8 (г2 - гх), п —► оо 11 О и можно подобрать /, п так, чтобы р- п 28 (г2 — и)* Лемма доказана. 10. Доказательство теоремы 5. Применим так называемый метод последовательных приближений в про- странстве стратегий. Этот метод Беллмана — Ховарда позво- ляет находить 8-оптимальные стратегии и приближенные значения функции выигрыша, не решая нелинейные диф- ференциальные уравнения. Возьмем в качестве а0(х) любую функцию со значе- ниями в Л, удовлетворяющую условию Липшица. Опреде- лим марковскую стратегию а0 по формуле at (Х[0, zj) = а0 (xz), и пусть vQ(x) = vao (х). Если а0, ах, ..., аП1 Vo(x), (х), ... ..., ип(х) уже построены, то выберем функцию ап+1 (х) так, чтобы она удовлетворяла условию Липшица и + + = (И) где hn+1 — функция с малой нормой: ||hn+1Р [Гь Гг1 .-. Л—гтг. Положим vn+1 (х) = (х), где стратегия ал+1 е 'Лм (*) определяется с помощью функции аЛ+1.
§ 41 ОДНОМЕРНЫЕ УПРАВЛЯЕМЫЕ ПРОЦЕССЫ 49 Докажем, что последовательность {ул(х)( имеет предел и этот предел удовлетворяет уравнению (3). После этого будет доказано что предел vn совпадает с v. Прежде всего изучим поведение vn, v'n при п->оо. Применим лемму 8. Так как L?nvn + fn = 0, то F[vn]^0, и из (11) заключаем vn^vM-\-N -—г-тД—Значит, 4 7 п +1 1 (п +1) (п + 2) ’ vn — N —J-r W i-тг-, п +1 п + 2 ’ т. е. последовательность функций ип = vn — N воз- растает. Кроме того, в силу леммы 7 функции vn, а вместе с ними и ип ограничены в совокупности, поэтому lim ип существует. Теперь очевидно, что vn также имеет предел. Положим при % е [rlt г2] й(х) = lim vn(x). п —► со По лемме 6 из равенства Lanvn + = 0 вытекает, что || Vn ||в + II Vn ||в + II V' ||/J N, где W не зависит от п. По теореме Лагранжа I vn (х) — — vn (У) I N I х — у |. Следовательно, функции vn, а также и ип равномерно ограничены и равностепенно непрерывны. По теореме Арцела некоторая подпоследовательность функ- ций ип сходится к пределу равномерно по х. Поскольку функции ип возрастают с ростом и, то и вся последова- тельность ип сходится к пределу равномерно по х. Отсюда вытекает, что сходимость vn к v также равномерна по х. В частности, у(х) непрерывна на [гь г2]. Далее, из равномерной оценки |] // по теореме Лаг- ранжа имеем | v'n (х) — v'n (у) | W 1 х — у |, где W не зависит от п. По теореме Арцела последовательность {v„} компактна в смысле равномерной сходимости на [гг, г2]. Пусть {v'nk} — некоторая равномерно сходящаяся подпоследова- тельность и й1 — ее предел. Переходя к пределу в равенстве v«k (х) - Vnk (г,) = $ Vnh (s) ds,
50 ВВЕДЕНИЕ В ТЕОРИЮ УПРАВЛЯЕМЫХ ПРОЦЕССОВ [ГЛ. 1 имеем х v (х) — v (rj = $ S1 (s) ds. Следовательно, v1 = 5', имеет всего одну предель- ную точку и v'n -> v' равномерно на [гь г2]. Кроме того, |б' (х)-й' (y)\^N \х-у\. Посмотрим теперь, что можно сказать о v" и F[y], Используем равенство (11). Как уже отмечалось, F[un]^0 и /а«+1 + La^vn+1 = Q. Значит, из (11) (vn - vn+1) + Лл+1 = F 0. Поделив это неравенство на а (ал+1 (х), х), легко находим Vn - Vn+1 + б"1 К (I Vn - Vn +11 +1 vn - vn+11) + б'1^ (12) Заметим еще, что у, p, r) = = supa(a, + + I [ cl (ос, X) a {ex, X) a (a, x) jj Из такого представления F вытекает, что уравнения F = 0 и r + F1 = 0 эквивалентны, а также, что если 0=с ^F^e, то 0 г +<1 б~ хе. Значит, из (12) ft-1 К [v"n — Vn + | 4- 6 lK (I v'n - v'n + I I + I Vn — fn+i I) + + 6-‘/z„+1] 3s Vn + Ft (X, Vn, Vn)^0. Интегрируя здесь по x и полагая rz->oo, в силу известных свойств vn, v'n получаем v' (х) — v' (rj + lim \F1(s,vn(s), v'n(s))ds = 0. (13) П-»°° Г1 Следующий шаг мы сделаем с помощью одного свой- ства функции Fr (х, у, р). Поскольку модуль разности верхних граней не превосходит верхней грани модуля разности, то У1, P1)-F1(X, Уг, pi)\^ as“P (Р1 -Р^ -У^ | (I Pl-?21 +11/1-02 1).
§ 41 ОДНОМЕРНЫЕ УПРАВЛЯЕМЫЕ ПРОЦЕССЫ 51 1Z В частности, | (s, vn, v'n) — Fx (s, б, д') у (| v'n — v'1 Ь + jVn — б I)» и из (13) д'(х) — д'(г^-\- \F1(s. d(s)t 8'(s))ds«0. (14) Г1 Далее, пользуясь элементарным неравенством 1^1 ^2 I 1 ^1 — ^2 I » I I 1^1 — g2 I I aj а2 I I I I 2 I 1 а^а и уже отмеченным свойством верхней грани, находим 1Л(-ч. у< р)-рЛхъ у> р)1^ ^£(1+*)(1 + М + |р|)|Х1-хг|. Отсюда заключаем |fi(xi, о(хг), 3'(*i)) “ Л (*2, 0(*г), б'(х2)|=с ^|Л(Х1, гЦхД V’ (x1)) — F1(x2, у(Х1), £'(*i))I + +1Л (*2, ° (*1). Ъ> (*1)) - Л (*г. б (*г). у' (хг)) I < < N I хх - х21 + £(l v (Xi) - v (х2) I +1 у' (Х1) - Ъ' (х2) I) ==S |х, — хг|. Короче говоря, Fr (х, д (х), д' (х)) удовлетворяет усло- вию Липшица. Значит, дифференцируя в (14), во-первых, получаем, что д" (х) -ф F± (х, 5(х), 5'(х)) = 0 и F [г?] = О, во-вторых, из равенства д" = — F1(xi д, д') следует, что д” удовлетворяет условию Липшица. Для доказательства теоремы остается показать, что для любого дважды непрерывно дифференцируемого решения и (х) уравнения F [и] = 0, удовлетворяющего граничным условиям и (/-j) = g(ri), и (r2) = g(r2), выполняются равен- ства u = v{M} = v{E}^v. Прежде всего, если е>0и и —функция с описанными свойствами, то по лемме 9 найдутся а(х) и /г (х) такие, что La{X}u (х) (х) -\-h (х) = 0 и 5С е. Отсюда по лемме 8 вытекает и va-\-Ne и, значит, и v. С другой стороны, из равенства F[u] = 0 для любых a<=Vl, х е [rx, Г2] ПРИ получаем ‘)^0.
52 ВВЕДЕНИЕ В ТЕОРИЮ УПРАВЛЯЕМЫХ ПРОЦЕССОВ [ГЛ. I Применим формулу Ито к выражению и(х?,х)е , тогда «(х) = М?\— ^а$и (xs)e~tf‘ ds + u (хтд/)е_фтЛ4^ I о ' М? ff ‘ fas (xs) е~ ^ds + u (хх л,) е~ч>х л 4. (15) I о ' Отсюда при t -> сю, ввиду конечности т00’х, М?т (лемма 7), ограниченности f, и, равенства и (xf ^ = g(x%' а также неотрицательности са, следует неравенство u^va. Поэтому и v и и v Теорема доказана. 11. Замечание. Поскольку 5 = v, то v = lim v\ и п -> ОО доказательство теоремы дает способ приближенного нахо- ждения функции выигрыша v и способ'нахождения Е-опти- мальных стратегий. При этом способе нужно уметь решать уравнения вида LaMu(x) + /а(х)(х)=0 и находить р (х) такие, что LP {х}и (х) + /|3 (Л) (х) F [и] (х) — е. Равенство v = 1 im va” П -+ оо позволяет также оценить v", vf, v следующим образом. По леммам 6, 8 II vn ||в +1| v'n ||в + II Vn ||в < Nt (sup I fa (x) : + p == N2, где Ух зависит только от максимумов модулей а (а, х), b (а, х), с° (х), g(rj), g (r2), гх, г2. 6. Следовательно, по теореме Лагранжа при всех х, у е [г1( г2] I vn(x)\ |х-1/| + 1 vn(x)-vn (у) | + |»;(х)-^ (у)\^ =СЛГ2|х-//|. Полагая п->оо, находим аналогичное неравенство для функции v. Деля после этого обе части неравенства на |х — у\ и устремляя у к х, получаем, что при всех хе е [/*!, г2] сумма | v (х) | +1 и' (х) I +1 v" (х) i не превосходит N2. Таким образом, || V ||в + IIV ||в + IIV" ||в fsup 7» (X) I + 1 у 12. Замечание (Условие гладкой склейки). В любой точке х е (rlt г2), v (х — 0) = v (х+0), v' (х — 0) = v' (х + 0), i/"(x-0) = u"(x + 0).
ОДНОМЕРНЫЕ УПРАВЛЯЕМЫЕ ПРОЦЕССЫ В8 § О Этот факт вместе с граничными условиями v =g (гД v (г>) = g (^2) помогает найти x0, Q, c2, ^1» ^2, если, напри- мер, установлено, что на некотором отрезке [rlt х0] функ- ция v имеет вид ^(х, съ с2), а на отрезке [х0, /*2]"“ВИД u2(x, dlt d2), причем выражения щ и v2 известны. 13. Упражнение. Пусть Л=[—1, 1], t х« = х + wz 4- а9 ds. 6 Докажите, что третья производная функции v (х) = = sup Мтах разрывна в точке -. а е 'Л 14. У п р а ж н е н и е. С помощью неравенства v'n + + F1(xy vn, u,')^0 докажите, что v” = lim v'n (п. в.). Сделаем еще несколько замечаний о доказанной тео- реме 5. Как мы видели, сначала было доказано существо- вание решения уравнения А[ц]=--0, а затем совпадением с v. При этом естественно получилась теорема единствен- ности решения уравнения F [м] = 0 с граничными данными и (r/) = g(riY Нужно иметь в виду, что в теории дифферен- циальных уравнений теоремы существования и единствен- ности доказаны для класса уравнений, гораздо более широкого, чем уравнения вида (3) (см. [2], [26], [35], [39], [40]). Результат упражнения 13 показывает, что даже в слу- чае аналитической зависимости о, b, с, f от (а, х) функ- ция выигрыша может не иметь трех непрерывных произ- водных. В связи с этим отметим, что если, например, функция Fr (х, у, р) имеет 10 непрерывных производных по (х, у, р), то v имеет 12 непрерывных производных. Этот факт с помощью индукции легко выводится из экви- валентности уравнений F[u] = 0 и и') = 0. Следующая теорема вытекает из замечания 11 и равно- мерной сходимости va п к v. 15. Теорема. Для всякого е>0 существует удовлет- воряющая условию Липшица функция а (х) такая, что марковская стратегия at (Х[0, /j) = a (xz) является г-опти- мальной для всех х. В том случае, когда функция выигрыша v найдена, отыскание Е-оптимальных марковских стратегий можно производить с помощью лемм 8,9. Действительно, по лемме 9
54 ВВЕДЕНИЕ В ТЕОРИЮ УПРАВЛЯЕМЫХ ПРОЦЕССОВ [ГЛ. I можно найти удовлетворяющую условию Липшица функ- цию а (х) так, чтобы Ла (х) v (х) + fa (%) + h (х) = О, причем || h е, а по лемме 8 тогда v (х) va (х) + Много сложнее обстоит дело с оптимальными страте- гиями. Для того, чтобы это показать, при е^О положим As (х) = {а е А: La (х) v (х) + fa (х) — е}. Понятно, что при некоторых х множество А0 (х) может быть пусто. Следующая теорема приводится без доказательства. 16. Теорема, а) Если стратегия at является опти- мальной для точки г е (гь г2), то при почти каждом t случайный вектор at е Д° (х*»почти наверное на мно- жестве {та’ 2 > /}. б) Марковская стратегия az(X[Ot Z]) = a(xz), допустимая для точки z <= (rb г2), является оптимальной для точки z тогда и только тогда, когда а (х) А0 (х) при почти всех г2). Из этой теоремы мы видим, что требование оптималь- ности накладывает очень жесткое ограничение на страте- гию Читатель, сделавший упражнение 13, легко поймет, t что если Л = (—1, 1), х^ = х + wz + $ as ds, и(х) = $ирМ“т, о а то множества Л° (х) (х^О) пусты. Значит, в этом случае оптимальной стратегии нет. Интереснее обстоит дело при Л=[—1, 1] (как в упражнении 13). Здесь Л°(х) = {1} при хе|г1( Ц^-j, Ло(Ц^ = [-1, 1], Л»(х) = {-1} при х g 'г]- В этом случае функция а(х), задаю- щая оптимальную стратегию, должна (по крайней мере для почти всех х) удовлетворять следующим условиям: а(х) = = + 1 при хер!, а^Мр)е=[—1, 1], а(х) = —1 при х g г2]. Возникает вопрос о допустимости стра- тегии a(xz) с такой функцией а(х), т. е. вопрос о разре- шимости уравнения t xt-=x + wt + \a(xs)d$ О
14] ОДНОМЕРНЫЕ УПРАВЛЯЕМЫЕ ПРОЦЕССЫ 65 с разрывным коэффициентом сноса. Это уравнение имеет решение, что легко доказывается с помощью подходящего преобразования */z = /(xz), сводящего исходное уравнение t к yt = f (*) + а (Ух) dws, где а (у) удовлетворяет условию о Липшица. Поэтому в упражнении 13 оптимальная страте- гия существует. Вообще же об уравнениях с коэффициен- тами, не удовлетворяющими условию Липшица, известно довольно мало (см., впрочем, [7], обзор [19] и § II.6). При выводе уравнения Беллмана в § 1 мы пользовались принципом Беллмана. Теперь мы в состоянии доказать этот принцип. 17. Теорема (принцип Беллмана). Пусть для всяких хе[гь г2], определен марковский момент <^та’х. Тогда для любой дважды непрерывно дифференци- руемой на отрезке [г1? г2] функции и (х) такой, что F(u) = Ot на [гь г2] имеет место равенство и (х) = sup МхК fa'(xt)e dt-\-u (xv)е М- (16) ае i (о ' В частности, это равенство справедливо для u = v. Доказательство. Обозначим правую часть (16) через й(х). Взяв в (15) вместо тД/ выражение уД/, легко находим, что и(х)^й(х). С другой стороны, для 8>0, гладкой функции а(х) и функции Л(х) такой, что La (х) (х) и (х) + fa (х) (х) + Л (х) = О, определим марковскую стратегию (Х[0, ц) = a (xt). По формуле Ито (г ] и (х) = М? К [fa (xz) + h (X/)] ё~ *tdt + u (xv) е~ М. V0 ' Отсюда v т и (х) С. й (х) + М? j h (Xz) е~ ^dt^u (х) + М? $ h (xt)e~ ^dt. о о Здесь мы воспользовались также тем, что Л^О, по- скольку 0 F[u] -La{ v)z/(x) + /а(х) (х) = —/Цх). По лемме 8 последнее ожидание как функция от х удовлетворяет урав- нению £“''|ы1(х) + Л(х) = 0.
56 ВВЕДЕНИЕ В ТЕОРИЮ УПРАВЛЯЕМЫХ ПРОЦЕССОВ [ГЛ I Значит, по лемме 6 оно не превосходит Ms. Окончательно, u(x)^u-\-Ns для любого 8Д>0. Поэтому и^й, что вместе с доказанным ранее противоположным неравенством дает равенство и = й. Теорема доказана. 18. Упражнение. Докажите, что равенство (16) останется справедливым, если от [а (х) требовать только измеримости по х, непрерывности по а и ограниченности по (а, х). 19. Упражнение. Для г2] положим т и (х) = sup М? (h (X/) dt. а е 'Л о Докажите, что | и (х) | N ЦЛ^,, где N не зависит от Л, х. § 5. Оптимальная остановка одномерного управляемого процесса Рассмотрим снова схему управляемого процесса из пре- дыдущего параграфа. Возьмем то же самое множество А и функции о (а, х), b (а,х), са (х), /а(х), удовлетворяющие прежним условиям. Для простоты обозначений в этом параграфе будет удобно считать, что са (х) = 0. В отличие от предыдущего параграфа будем предполагать, что функ- ция g(x) задана на всем отрезке [/д, г2] и дважды непре- рывно дифференцируема на этом отрезке Будем, как и в § 4, обозначать через х*’ v решение уравнения (4.1), т = — момент первого выхода х?'х из (гь г2). Для марковского момента у положим * рАт ] v“ v(x) = M? fa‘(xt)dt + g(x^)\ v 0 1 и введем функцию выигрыша в задаче об оптимальной остановке по формуле w (х) = sup v (х). V В этом параграфе мы занимаемся задачей о нахожде- н ш стратегии а и марковского момента у таких, что v (х) w (х) — е. 1. Определение П\сть 8 "-0. Марковский (отно- сительно {/д}) момент у = уа называется s-оптимальным
§ 5] ОПТИМАЛЬНАЯ ОСТАНОВКА ОДНОМЕРНОГО ПРОЦЕССА 57 для точки х, если sup va’ (х) W (х) — 8. ае VI О-оптимальный марковский момент называется опти- мальным марковским моментом. Задача об оптимальной остановке будет изучаться с по- мощью метода рандомизированной остановки. В соответ- ствии с этим обозначим через множество пар (а, г), где ае?1, г = rt — неотрицательный прогрессивно измери- мый относительно 1\ процесс такой, что rz(o))^n при всех (/, (о). Положим [J Для аеЯ, обозначим г (х) ==/а (х) + rg (х) и для (а, г) е S3 [т«’ х / t \ иа> ‘ (х) = М j $ г* (х?’ х) ехр — $ rs ds\dt + (о \ о / / * \ А +<i>p - s r*ds ’ \ 0 )} vn(x) = sup иа’г(х), v (х) = lim vn(x) = sup ua’r(x). (a. г) e n -* °° (a, r) e V3 Основные свойства функций vn (x) и их связь с w(x) устанавливаются в следующей лемме. Первое утверждение этой леммы обосновывает, кроме того, применение метода рандомизированной остановки. 2. Лемма, а) ay(x) = u(x) на [гь г2]; б) I w (х) — vn (х) | ~ W при всех х (= [гт, г2], где N за- висит только от К и функции g\ в) vn (х) дважды непрерывно дифференцируемы на [/р vn (*) удовлетворяет условию Липшица, vn(ri) = f РД + Я (g - = 0 на [rb r2]; (1) г) |! v'n |1в [Г„ г,| + II Уп Ив [г., л2] + ' vn :|в [r„ rt] < N, где N не зависит от п. Доказательство. Функцию vn (х) можно себе пред- ставлять как функцию выигрыша из предыдущего пара-
58 ВВЕДЕНИЕ В ТЕОРИЮ УПРАВЛЯЕМЫХ ПРОЦЕССОВ (ГЛ ! графа, если там вместо множества А взять Вп -= А х [0, п\ и при р = (а, г) Вп положить о (Р, х) = о (а, х), b (Р, х) = = b (а, х), ср(х) = г, р (x) = fa (х) + rg(x). Управляющим параметром теперь будет р, а множество стратегий й за- менится на 33л. Поэтому из теоремы 4.5 непосредственно вытекает утверждение о гладкости vn (х) и то, что vn (х) удовлетворяет своему уравнению Беллмана. Это уравнение имеет вид О = sup [а (а, х) v'n (х) + b (а, х) v'n (х) — rvn (х) + а е А, г е [0, л] + rg (х) + fa (X)] = а^Рд (х) + fa (х)] + + sup r[g(x)-Mx)i = F[vn] + n(g-v„)+. r e [0, n] Утверждение в) доказано. Докажем б). Равенство (1) можно записать в виде sup [а (а, х) Vn (х) + b (а, х) u„(x) + (х)] = 0, ае А где f^ = fa + n(g — vn)+. Отсюда по теореме 4.17 для всех марковских тов у = уа’х получаем vn (х) = sup М? ( fan‘ (X/) (М + vn (хтлг) . acj L о Здесь vn^g-(g-vn)+=gn и fn^f9, поэтому Г VAT un(x)^ sup М“ fat(xt)dt + gn (xvAT) ae\i(, v L b момен- (2) (3) С другой стороны, если в (2) взять у = у0 = у“'х ~ = inf р: g(x?-д„(х^’то при имеем и Значит- ТоДт Vn (х) = sup М? 5 dt + Sn (-ЧоА-r) L о Сравнивая это с (3), получаем Vn{x)= sllP М“ J Г'(х>) dt + gn (Худт) as Vb v L о
§ 5] ОПТИМАЛЬНАЯ ОСТАНОВКА ОДНОМЕРНОГО ПРОЦЕССА 59 Мы получили весьма важный факт. Оказывается, что если g заменить на gn=g — (g— vn)+, то функцией выигрыша в задаче об оптимальной остановке будет ип(х). Применяя теперь неравенство между модулем разности верхних граней и верхней гранью модуля разностей, на- ходим IW (х) - vn (х) I sup М? I g- gn i (xvAT). а е VI. V Следовательно, | w (х) - ti„(x) I sg sup I (g(x)-&„(*))+!• (4) X e kj, r2J Оценим (g — vn)+. Равенство (1) можно записать также в следующем виде: <sup [а (а, х) (v„ (х) -g(x))" + b (а, х) (уп(х) -g(x))' - - п (v„ (х) - g (х)) + % (х)] = О, где = /“+п (g - vn)+ + n(i)n-g) + Lag. Отсюда по тео- реме 4.17 vn (X) -g(x)= sup M? $ е~пТп‘ (Xt) dt. аея о Заметим, что =5= /а + Lag — (fa + поэтому vn (х) — g(х) — sup М ( e~nt dt sup (/а + L.ag)_ =-l-N, a <= ?( (y a, X n g-vn^--N, (g-vn)+^±-N. (5) Это с помощью (4) заканчивает доказательство б). Ут- верждение а) очевидным образом следует из б). Докажем г). Из (2) имеем йл(х)= sup М“ ( /“z (xz) dt + g (хт) . a e 4?( Lo Нетрудно проверить, что функция /^(х) удовлетворяет условию Липшица. По замечанию 4.11 К’л [|В + il [н + 4 vn ||в Л/ I sup I /п (х) | + 1 \а, х j
60 ВВЕДЕНИЕ В ТЕОРИЮ УПРАВЛЯЕМЫХ ПРОЦЕССОВ [ГЛ I где N зависит только от максимумов модулей а (а, х), b (а, х), £(г:), гг, т*2, б. Остается заметить, что |/?|^ ^C|/aH~72(g —г)л)+ и оба слагаемых в правой части оце- ниваются постоянными, не зависящими от п. Лемма до- казана. Из этой леммы легко выводятся все нужные нам свой- ства функции w(x). Прежде всего из утверждения г) и из сходимости vn к w так же, как в доказательстве 4.10, вытекает, что w, w' непрерывны на [гх, г2], и'п -> рав- номерно на г2], | w' (х) — w' (у) | < N | х — у |. Из по- следнего неравенства получается, что w' (х) абсолютно непрерывна, w" (х) существует почти всюду на [гх, г2] и |^"(x)|^W на том множестве, где существует. Впредь удобно будет обозначать через w" (х) функцию, определен- ную всюду на [/*!, г2], равную второй производной w (х) в тех точках, где эта производная существует, и равную нулю в других точках. Очевидно, что w~^g на [rb r2], w (г/) = g (/•/). Кроме того, из леммы 2в) следует, что и, значит, 5« + Л(х, Зл, Интегрируя это неравенство и пе- реходя к пределу, при х>у находим w' (х) — w' (у) + $ F± (s, w (s), w' (s)) ds 0. v Поделим здесь обе части на х — у и перейдем к пре- делу при у\х. Тогда получим w"-\-F1(xt w, (п. в.), т. е. F [оу] 0 (п. в.) на [гх, г£]. Далее, положим Г = {х: w (х) = g (х)}. Г — замкнутое непустое (/•/ е Г) подмножество отрезка [гх, г2]. Пусть отрезок [рх, р2] принадлежит некоторому интервалу, смеж- ному к Г. Тогда ny(x)>g(x) при' х е [рр р2]. Поскольку vn-+w равномерно на [/^ г2], то, начиная с некоторого номера г/, будет выполняться неравенство vn{x')Z> g(x) при х е [plt р2]. Следовательно, (g— vn)+ = 0 и по лемме 2в) = 0 на [рь, р2]. Поэтому £п + Л(х, vn, v'n) = 0 на [Pi, Рг] при достаточно больших п. Это, как и в доказа- тельстве 4.10, приводит к утверждению, что w" (х) непре- рывна на [рх, р2], w" + F1{xi w, w') = 0 на [рь р2]. Отсюда, в свою очередь, вытекают два факта. Во-пер- вых, w" = — Л(х, wt wf) на любом смежном к Г интер-
§ 5] ОПТИМАЛЬНАЯ ОСТАНОВКА ОДНОМЕРНОГО ПРОЦЕССА 61 вале, и значит, w" вне Г удовлетворяет условию Лип- шица. Во-вторых, F [оу] = 0 вне Г. Замечая, наконец, что из неравенства w — g^O и ра- венства w — g = 0 на Г следует, что w' — g' = 0 на Г (] (гь г2) приходим к следующей теореме. 3. Теорема, a) w непрерывна вместе со своей про- изводной на [гь r2], w’ абсолютно непрерывна, w" огра- ничена на [гь г2]. Вне множества Г = {хе [гь r2]: w (х) = = g(x)} функция w" удовлетворяет условию Липшица. б) w^g, w (r,) = g(ri), F [до] 0 (п. в.), F[t£>] = 0 на [Г1, г2]\Г. в) w'=g' на множестве Г Q (гь г2). Перейдем к изучению е-оптимальных стратегий и опти- мальных моментов остановки. 4. Теорема, а) Для а ей, х е [гх, г2] обозначим через уо = Ya'х момент первого достижения процессом xf> х множества Г; тогда у0 — оптимальный момент остановки. б) Для е>0 определим функцию а(х), удовлетворяю- щую условию Липшица, и числовую функцию h(x) так, чтобы [| h ||^1 е и La (х) до (х) + fa м (х) + h (х) F [до] (х), х е [/*!, г2] (6) (см. лемму 4.9). Определим марковскую стратегию а по формуле (Х[о,/]) = a (xf). Тогда а является Nz-оптималь- ной стратегией для любой точки х и, более того, до(х)^М? ~Yo .. О ^(x^dt + glx^) + Ms, (7) причем N не зависит от е и х. Доказательство. Нетрудно понять, что в дока- зательстве нуждается только формула (7), а остальные утверждения теоремы из нее вытекают. Ясно также, что (7) нужно доказывать только при хф Г. Пусть (р1? р2) —один из интервалов, смежных к Г. Функция до дважды непрерывно дифференцируема и до" удовлетворяет условию Липшица на (рь р2). Поэтому су- ществуют пределы до"(Р14-0) и до"(р2 — 0). Кроме того, -из (6) на (рь р2) La w (х) 4- /а (х) + h (х) 0.
G2 ВВЕДЕНИЕ В ТЕОРИЮ УПРАВЛЯЕМЫХ ПРОЦЕССОВ [ГЛ. I Применим к функции w и стратегии а лемму 4.8, рас- сматривая в качестве исходного отрезок [рх, р2]. Тогда rVo ~| u»(x)«cM? fanxt)dt+g(xy.) +ЛГ||йк.[Р..Р.]. Несложный анализ вывода оценки (4.6) показывает, что здесь постоянную W можно взять одной и той же для всех рх, р2 е [/*!, г2]. Очевидно также, что Икар,. Р.)^Ики. . Г.] 8‘ Теорема доказана. 5. Упражнение. Пусть у“>х = у“’х—момент первого выхода процесса х?-х из {х: w (х) >g'(x) + e}, тогда у“-х —е-оптимальный момент остановки. 6. Упражнение. Пусть w(x)>g(x) на (рь р2) и ау(р<) *Sg(P;) + e- Найдем е-оптимальную для точки х0 s s (Pi> Рг) стратегию а8 в задаче максимизации М? $ F'^dt + glXb) где тх — момент первого выхода из (рп р2) (см. теорему 4.1В). Тогда v(x0)<M J f'(x^‘)^+g(x?/0) +2е, т. е. — 2е-оптимальный момент остановки, а — 2е-опти- мальная стратегия в исходной задаче для точки х0. Объясним, каким образом предыдущие результаты мо- гут быть применены для нахождения 8-оптимальных стра- тегий и 8-оптимальных моментов остановки. Найдем сна- чала п такое, что |г)л —(см. лемму 26)). Функ- ция vn есть решение уравнения sup [а (а, х) v№n (х) + b (а, х) д'п (х) — ае A, ге[0, п] - rvn (х) + rg (х) 4- fa (X)] = О, поэтому Ъп можно искать, например, с .помощью метода последовательных приближений в пространстве стратегий (см. доказательство 4.10). Пусть Vn~+vn при /п-»-оо.
$ 5] ОПТИМАЛЬНАЯ ОСТАНОВКА ОДНОМЕРНОГО ПРОЦЕССА 63 Выберем т так, чтобы I vn (х) — v" (х) | | при х е [г1( г2], и положим G = {x <=(/•„ r2): Vn (х) >g(x) + ~}. Нетрудно проверить, что ay(x)^Cg(x)-]~8 на [гг, r2]\G, и если (рь p2)czG, то w>g на (рь р2). Следовательно, е-оптимальная стратегия для точек [гг, г2]\6 состоит в мгновенной остановке. Для точек же любого (рь p2)czG 8-оптимальным моментом остановки является момент первого выхода из G (упражнение 5), и е-оптимальные стратегии могут быть найдены с помощью упражнения 6 В некоторых случаях такой путь кажется тяжелым, и в то же время удается найти явно некоторую функцию и (х) такую, что кажется правдоподобным, что она совпа- дает с w. В этих случаях бывает полезна следующая теорема. 7. Теорема (единственности). Пусть функция и (х) определена и непрерывна вместе со своей первой производ- ной на [гь г2]. Предположим, что и' (х) абсолютно не- прерывна на [гр л>]. Наконец, пусть u^g, u(rt) = g(ri), F[w]^0 (и. e), F(u) = 0 п. в. на множестве {хе^, г2]: и (х) >я(х)}. Тогда u(x) = w (х). Доказательство. Докажем сначала, что и^ю. Положим Г={х: u(x)=g(x)}. Тогда, поскольку g^w, достаточно установить неравенство и w на любом интер- вале (рь р2), смежном к Г. Возьмем последовательности р? так, чтобы р? р.? р"|рр P2tP2- Заметим сразу, что по теореме Лагранжа I §(р?)-и (р") I <I“ (р<)-«(р?)I+1 g(р<)-g (р?)I WMIp.-p/HO при оо. Далее, на (рг, р2) имеем F[u] = 0 (п. в.). Отсюда + и» и') = 0, и” = —Тг(х, и, и') (п. в.). Выраже- ние Fr (х, и, и') непрерывно по х, следовательно, и" почти всюду на (рх, р2) совпадает с непрерывной функцией. Из этого факта совсем легко вытекает, что функция и" сама непрерывна на (рр р2). Применим теперь на отрезке [р", р"] к функции и теорему 4.5. Тогда, обозначая через уп = уп^> х МОмент
64 ВВЕДЕНИЕ В ТЕОРИЮ УПРАВЛЯЕМЫХ ПРОЦЕССОВ (ГЛ. I первого выхода х^ х из [р", р"] и замечая, что и (xPf равно и (р") или и(р"), получаем Г уп sup М? fa‘ (Xt)dt + g(x п) а е ?l L о +|g(p?)-«(p;)'+ +к(р«) -и (рО I w (*)+| £(р?) ~и (р?) I + +j g(p?)- и (р0|. Отсюда при п->оо вытекает, что и (х) (х). Дока- жем противоположное неравенство. Обозначим через и" (х) некоторую борелевскую функ- цию, равную почти всюду производной от и' (х). Функ- цию и" (х) можно подобрать так, чтобы неравенство F[u] О выполнялось во всех точках [rlt г2]. Действительно, по предположению это неравенство имеет место почти всюду. В тех же точках, в которых для случайно выбранной и" справедливо неравенство F [и] (х) > 0, и" (х) можно пере- определить, замечая, что в силу очевидного неравенства: F (х, у, р, г) + К ( I р ’ +1 У I + 1) при г <0, для любых х, у, р можно подобрать г^О так, что/Дх, у, р, г)^с0. При этом Lau-\-fa^F[u]^0 всюду на г2] при лю- бом a G Л. Поскольку и' (х) абсолютно непрерывна, то J |u"(x)ldx< <оэ. По теореме II. 10.1 выполнение этого условия до- статочно для применимости формулы Ито к выражению и(х*’ху С помощью этой формулы и неравенств u^g, Lau-\-fa^O для любого аи марковского момента у заключаем и (х) = М VAt о La‘u(x?-*)dt + u(^ М f^.^dl + g^ = U“'v(x). Следовательно, и (х) sup u'z-' (х) = w (х). Теорема до- а, у казана.
§ 5] ОПТИМАЛЬНАЯ ОСТАНОВКА ОДНОМЕРНОГО ПРОЦЕССА 65 Последние рассуждения в этом доказательстве устанавли- вают также такую теорему. 8. Теорема. Пусть функция и(х) определена и не- прерывна вместе со своей первой производной на [гь г2]. Предположим, что и' (х) абсолютно непрерывна на [/р г2]. Тогда, если u^g и F[u]^Q (п. в.), то u(x)^w (х) на Р1. /-2]. Иными словами, w — наименьшая из функций, удов- летворяющих неравенствам u^g, на [гь г2]. 9. Упражнение. Возьмем функцию са(х) из пре- дыдущего параграфа и переопределим t>a’Y(x), полагая (х) = М? И (X/) exp — $ с“^ (xs) ds dt + VAt + .£(*YAr)exp — 5 c“s (*s) ds Предлагаем читателю провести все рассуждения дан- ного параграфа. 3 Н. В. Крылов
ГЛАВА I! ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ § 1. Основные обозначения и определения Кроме обозначений со стр. 10 мы будем постоянно пользоваться следующими: Т —неотрицательное число, отрезок [0, Т] интерпрети- руется как отрезок времени; точки на нем обозначаются, как правило, через /, $. О —открытое множество в евклидовом пространстве, D — замыкание Z), dD — граница D. Q — открытое множество в Е^ + 1, точки Q обозначаются через (/, х), где /е Eb хе Edt d'Q — параболическая граница Q (см. § IV.5). = {х е Ed: | х | < /?}, CTt % — (0,- Т) х S#, C# =* C^t HT = (0, T)xEd. Если v — вполне аддитивная функция множеств, то | v | — вариация v, v+= у (| v |+ v) — положительная часть v, v_ = у (| v | — v) — отрицательная часть v. Если Г —измеримое множество в евклидовом простран- стве, то mes Г —его мера Лебега. При Хр (Г) — множество действительных борелев- ских функций f (х) на Г таких, что И/11р№ А И (x)\Pdx\p <оо. \г / В тех случаях, когда здесь среднее выражение равно бесконечности, мы его продолжаем обозначать ||/||р,г. Вообще мы допускаем бесконечные значения для разного рода интегралов (и математических ожиданий) от измери-
I п ОСНОВНЫЕ ОБОЗНАЧЕНИЯ И ОПРЕДЕЛЕНИЯ 67 мых функций. Они считаются определенными, если или положительная часть, или отрицательная часть интегрируе- мой функции имеют конечный интеграл. При этом интеграл полагается равным + оо ( —оо), если положительная (отрицательная) часть функции имеет бесконечный интеграл. Для любой (возможно, не измеримой) функции f (х) на Г определим внешнюю норму в <^Р(Г) по формуле ]IHP.r = inf||Akr, где нижняя грань берется по множеству всех борелевских функций Л(х) на Г таких, что \f\^h на Г. Мы будем пользоваться тем, что внешняя норма удовлетворяет нера- венству треугольника: ]| А + ft ]|р, г ]| А ||р, г + ]| f21|₽, г, а также тем, что если ]| fn ||р,г -> 0 при п оо, то сущест- вует подпоследовательность {«'}, для которой А-(х)->0 при п'-»-оо (п. в. Г). В (Г)— множество ограниченных борелевских функций на Г с нормой ||/||b(d = sup |/(х) |. хеГ С (Г) — множество непрерывных (возможно, неограни- ченных) функций на Г. Слова «/ — гладкая функция» означают, что f беско- нечно дифференцируема. Говорят, что / — финитная функ- ция в области £>, если она равна нулю вне некоторого компакта, лежащего в D. С™ (D) — множество всех гладких финитных в области D функций. f(JZ)(/, = X), если I у |=/=0; f (в) (t, х) s 0; (,.> = '|у/|7|уГГ 2 х}' если I1 • I ^ । * °: если \у! |-|у21 = 0. Аналогично вводится /(р >... <Уп). Эти объекты являются производными /(/, х) по пространственным направлениям. Производная по времени всегда обозначается *)• 3*
68 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ [ГЛ II С2 (D) — множество функций и(х), дважды непрерывно дифференцируемых в D (т. е. дважды непрерывно диффе- ренцируемых в D и таких, что и (х) и ее все первые и вторые производные продолжаются до функций, непрерыв- ных в D)± С1-2 (Q) — множество функций и (/, х), дважды непре- рывно (по (/, х)) дифференцируемых по х и один раз непрерывно (по (/, х)) дифференцируемых по t в Q. Пусть D — ограниченная область в Ed, и (х) — функция на D. Мы пишем и е W2 (£>), если существует последова- тельность функций ип е С2 (D) такая, что II и иП Ив (d) О» II иП II (£>)"* 0 (1) при п, где d d И f Hu/2 (£>) s S ИЛ:ху1Ь,в + S Их* lb, Лв (d). i, / = 1 i = 1 В силу первого из условий (1) и непрерывности ип функции из W2(D) непрерывны в D. Второе условие в (1) означает, что последовательности u“h ип^ фундаментальны в Xd (D). Поэтому существуют (борелевские) функции щ, uij е £d (£>), к которым Uj, unxixJ сходятся в <£d (D). К ним же они сходятся и слабо. В частности, взяв ф е Cg° (£>), интегрируя по частям, находим $ фи“. dx= — J ф iUn dxt D Х D х а полагая п -> оо, заключаем ущ dx = — J ф t и dx. (2) d d x 1. Определение. Пусть Dc.E^ v и А —локально суммируемые в D борелевские функции, Zx, ..., ln<=Ed. Функция h называется обобщенной производной в области D функции v порядка п по направлениям Zx, , Zn и обозна- чается через ... (/л), если для любой ф е Со (D) J Ф (х) h (х) dx = (- 1)” J V (х) ф(/ >... (/ ) dx. D D
§ 1] ОСНОВНЫЕ ОБОЗНАЧЕНИЯ И ОПРЕДЕЛЕНИЯ 69 В том случае, когда направление // совпадает с направ- лением г/-го координатного вектора, обозначают также V г, г = V х 1 ... х П (zp . (1п) Свойства обобщенных производных хорошо известны (см. [50], [62], [63]). Ниже мы без доказательства приведем только те из них, которыми будем часто пользоваться. Прежде всего отметим, что обобщенная производная определяется однозначно почти всюду. Равенство (2) показывает, что щ = их1 в смысле опре- деления 1. Аналогично, uif — uxixj- Таким образом, функ- ции «ЕЙ72 (О) имеют обобщенные производные до второго порядка включительно и эти производные принадлежат Мы считаем, что у каждой функции u(=W2(D) значения первых и вторых производных фиксированы в каждой точке. По построению для последовательности ип, участвующей в (1), \\u\-u X л->0, \\и\ — и t J| л->0. 11 / x'"d,D и X'XJ xlxJ"d,D Введенное множество функций W2 (D) напоминает известное пространство Соболева Wd(D) (см. [39], [62], [63]). Если граница области D достаточно регулярна, например, один раз непрерывно дифференцируема, то теорема Соболева о вложении (см. [39], [40]) показывает, что и на самом деле W2 (D) = Wd (О). В этом же случае и е W2 (D) тогда и только тогда, когда и непрерывна в Z), имеет обобщенные производные до второго порядка включи- тельно, и эти производные суммируемы по D в степени d. Понятно, что если функция и один раз непрерывно дифференцируема в D, то ее обычные первые производные совпадают с соответствующими обобщенными первыми производными (почти всюду). Оказывается (следствие теоремы Фубини), что, например, обобщенная производ- ная их^ существует в области D, если при почти всех (xg, ..., функция и (х1, х2, х*) абсолютно непре- рывна по х1 на {х1: (х1, х§, ..., xfy&D} и ее обычная производная по х1 локально суммируема в D. Верно также и обратное утверждение, только, быть может, функцию и придется заменить на ей эквивалентную по мере Лебега. Известно, что если при почти всех (х^1,..., xj*) функция
70 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ [ГЛ II ц(х\ ..., х1, х^1, х{*) имеет обобщенную произ- водную на {(х1, , х1’): (х1, , х\ XJ+1, ... , х0^)еО} и эта производная локально суммируема в D, то и имеет обобщенную производную в D. Используя понятие слабой сходимости, можно легко доказать, что если функции ф, vn (n = 0, 1, 2, ...) равно- мерно ограничены в О, vn-+v° (п. в. D), для некоторых ...,/* при п^1 существуют обобщенные производные ••• <lk} и I ••• I (п- в- В), то обобщенная произ- водная U(/p ... (iky также существует, | ... (ik) | ф (п. в. D) и f&p... ... <гА> слабо в <5?а в любой ограниченной части области D. В различных случаях нужно приближать некоторые функции гладкими. Мы будем это делать стандартным образом. Пусть £(x), *)== (/)£ (х) — неотрица- тельные, бесконечно дифференцируемые функции аргумен- тов х е Ed, t е Еъ равные нулю при |х|>1, 111 > 1 и такие, что $£(x)dx==l, J dt J £(/, x)dx=l. Ed -°0 Ea Для e=/=0 и локально суммируемых в Ed, E1y^Ed функ- ций и (х), и (t, х) положим u(8) (х) = * и (х) (свертка по х), и<°-8>(/, х) = 8~ V и (/, х) (свертка по х), «<•>(/, х) = е_(</+1)^у, ---)*«(/, х) (свертка по (/, х)). Функции ы(8) (х), ы<0' 8> (t, х), u(8) (t, х) называются сред- ними функциями функций м(х), u(t, х). Известно (см. [13], [62]), что u(8)->-« при е->-0 а) в каждой точке Лебега функции и, а следовательно, почти всюду; б) в каждой точке непрерывности функции и; равно- мерно в каждой ограниченной области, если и непрерывна; в) по норме Хр (D), если и^Хр (D) и при вычислении свертки ы(8) функция и полагается равной нулю вне D.
<11 ОСНОВНЫЕ ОБОЗНАЧЕНИЯ И ОПРЕДЕЛЕНИЯ 71 Кроме того, г?8) бесконечно дифференцируема. Если в Ed обобщенная производная и(/) существует, то [И(/)](8) = «=[и18)](/). Наконец, при || И(8) ||р, Ed < || И ||р, Ed, || И(8) \\В (Ed) < || U ||в (Ed)- С помощью рассмотрения функций доказывается, что обобщенная производная uxi непрерывной в D функ- ции и (х) почти всюду не превосходит постоянной Л\ тогда и только тогда, когда функция и(х) удовлетворяет в D условию Липшица по х1 с этой постоянной, т. е. когда для любых точек хь х2 е D таких, что отрезок с концами хп х2 лежит в D и х;=х* (i = 2, ...» d), выполнено неравенство | и (xj — и (х2) | ^ А\ | хх — х2 Оказывается, что если ограниченная функция о имеет ограниченную обобщенную производную, то о2 также имеет обобщенную производную и при ее вычислении можно пользоваться обычными формулами. Кроме пространства U72(D) нам понадобятся также пространства V/2(£>), W1’2 (Q), ^*-2(Q), которые вводятся дпя ограниченных областей D, Q аналогично W2(D), отправляясь от множеств qbyHKimft C2(D), С1* 2(Q), С1*2^) соответственно, с помощью норм yii^(D)=nu(D)+i \\fx<w2d.D, i = \ d W,-|M+1.«+ 2 H,V1„+,.O+ C / = ! d + 2 H?IL+,.O+I/IS(a, i=l d II Л^.2 (Q) = В Ли?1.2 (Q) 4" S И fxl Иг (d-H).Q. i = l При доказательстве существования обобщенных произ- водных у функций выигрыша оказывается полезным еще одно понятие. 2. Определение. Пусть функция и (х) задана и локально суммируема в области D. Пусть v (Г) —функция множества Г, определенная, о-аддитивная и конечная на о-алгебре борелевских подмножеств каждой ограничен-
7i ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ [ГЛ и ной области D' cz.Dr aD. Говорят, что функция мно- жеств v внутри D является обобщенной производной функ- ции и по направлениям /х, ... , lk, и пишут v(dx)~u{ij ...dk)(x)(dx), (3) если для всякой функции Ф е Cj° (D) имеет место равен- ство J wcp<z >... (Zft) dx = (- l)ft $ <pv (dx). (4) D D Аналогично определяется обобщенная производная и (/, х) (dt dx) для функции и (t, х), локально суммируе- мой в области Q. Следующие свойства легко вытекают из данного опре- деления. Нетрудно видеть, что функция v (dx), удовлетво- ряющая (4) при всех ф е (D), может существовать только одна. Если существует функция и^. (ik) (х), являющаяся обобщенной производной и по направлениям 119 ... , lk в смысле определения 1, то, полагая v(dx)=« в^(/)... (/р (х) dx, очевидным образом получим функцию множеств v, являющуюся обобщенной производной и по направлениям /ь ..., lk в смысле определения 2. Наоборот, если функция множеств v из определения 2 абсолютно непрерывна относительно меры Лебега, то в силу (4) ее производная Радона —Никодима будет удовлетворять определению 1 и, стало быть, является обобщенной произ- водной ищу... (ik) (х). Это обстоятельство оправдывает обозна- чение (3). В том случае, когда направление Ц совпадает с направлением ггго координатного вектора, будем также писать Пользуясь единственностью обобщенной производной, легко доказать, что если производные u(Zi)... (z^ (х) (dx) для некоторого k существуют при всех 119 ... , lk9 то = El I... | /л I 2 ихг1...хг» W А1... 4*, Г1...ГА
§ 1] ОСНОВНЫЕ ОБОЗНАЧЕНИЯ И ОПРЕДЕЛЕНИЯ 78 при | /j |... | lk | =# 0. Далее, если производные u(/) (/) (х) (dx) существуют для всех /, то существуют все производные ^(/i)(Z2)W(rfx), причем если ||. |/2 | у= 0, то "Щ) (/«) W (dx) = 4 | Zi | • | /в | l-^1 + + (x) (dx) - (/i - /2)2 u(/1_z2) (Zt—z2) (x) (dx)]. Действительно, пользуясь определением 2, легко дока- зать, что правая часть этой формулы удовлетворяет опре- делению 2 при k = 2. Основным инструментом, позволяющим установить су- ществование (x)(dx), является теорема V § 1 гл. I [76], в соответствии с которой неотрицательная обобщен- ная функция является мерой. Рассматривая 5 - ('*) - (—в* Wv как обобщенную функцию, получаем следующий результат. 3. Лемма. Пусть и(х), v(F) такие же, как в пер- вых двух предложениях определения 2. Пусть для всякой неотрицательной ф (D) выражение (5) неотрицатель- но. Тогда существует обобщенная производная И(/х)...(/А) в смысле определения 2 и при этом внутри D (—В* И(/х)... (ik) (х) (dx) (— 1)* V (dx), т. е. для всех ограниченных борелевских Г с: Г cz D Мы закончим параграф сводкой более или менее стан- дартных обозначений и соглашений. (wz, gFz) — винеровский процесс (см. Добавление 1). oFt — а-алгебра, состоящая из тех и только тех мно- жеств Л, для которых множество А[\\х t при всех t. 3)i (/) — множество всех марковских относительно {aFJ моментов т, не превосходящих t (см. Добавление 1). С ([0, ^]» Еа) — банахово пространство непрерывных функций, заданных на [0, Т] и принимающих значения из Ё(Ь ^’/ — наименьшая о-алгебра подмножеств С([0, Т], Еа),
74 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ [ГЛ II содержащая все множества вида {х[о, т] е С ([О, Т], Еа): xs Г}, где s Г — борелевское подмножество Ed. l.i.m. — предел в среднем квадратичном. ess sup — существенная верхняя грань (по отношению к мере, которая подразумевается). inf ф = оо, f (хт) ж f (xt) Хт<00- Когда мы говорим об измеримых функциях (множест- вах), то, как правило, имеются в виду борелевские функ- ции (множества). Словам «положительно», «отрицательно», «убывает», «возрастает» мы придаем тот же смысл, что и словам «неотрицательно», «неположительно», «не возра- стает», «не убывает», соответственно. Наконец, d I = 1 — оператор Лапласа. Используемые в гл. IV—VI опера- торы La, F[h], определены во введении в гл. IV. § 2. Оценки распределения стохастического интеграла в ограниченной области Пусть Д —некоторое множество пар (а, Ь), где а — матрица размера dxd^ b — d-мерный вектор. Пусть слу- чайный процесс (а6 bt) е А при всех (со, /), и предполо- жим, что процесс t t Xt =•= х0 4- $ as dws 4- $ bs ds 0 0 определен. Как мы увидим позже, в теории управляемых про- цессов большую роль играют оценки вида м S |/(/, xl)\dt^N\\f\\p,Q, (1) О где f — произвольная борелевская функция, xD — момент первого выхода Х; из области Z), Q= ^0, оо)х£>. Особенно
$ 21 ОЦЕНКИ РАСПРЕДЕЛЕНИЯ В ОБЛАСТИ 75 важно при этом, чтобы постоянная N не зависела от кон- кретного процесса (az, fez), а определялась только множе- ством А. Цель настоящего параграфа заключается в выводе нескольких вариантов оценки (1). Будем считать, что D — ограниченная область в Ed, xQ — фиксированная точка D, целое число d± d, (wz, aFz) — di-мерный винеровский процесс, az (w) — матрица размера dxdb bt (со) — d-мерный вектор, cz(cd), rt (со) — неотрица- тельные числа. Предположим, что az, bt, ct, rt прогрес- сивно измеримы относительно J и являются ограничен- ными функциями (/, со). Обозначим а/ = уа/а*. Пусть еще р — фиксированное число, p~^d. Положим t f 1 ys.t=\rudu, qStt = \cudu, ^t=^ct (г, det а,)?*1. S S P~d Следует иметь в виду, что при p = d выражение ср+1 считается равным единице даже в том случае, когдас/ = 0, 1 так что при p=*d ф/ = (rt detaz)fZ+1. 1. Определение. Неотрицательная функция F (с, а), определенная на множестве всех неотрицательных чисел с и неотрицательно определенных симметричных матриц а размера dxd, называется правильной, если для всякого е > 0 найдется постоянная такая, что для всех с, а и единичных векторов % F (с, a)^8tra + £(e)[c + (aX, X)]. 2. Теорема. Допустим, что | bt | F (ct, при всех (t, со) для некоторой правильной функции F (с, а). Тогда существуют постоянные А\, N2, зависящие только от d, функции F (с, а) и диаметра области D, такие, что для всех s^O, борелевских f (t, х) и g(x) на множестве {тр^$} почти наверное XD d — I p (det at) p | g (xt) | dt | &s} ==j Nt ||g ||p, D. (2) (3)
76 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ [ГЛ I! Прежде чем переходить к доказательству этой теоремы, обсудим ее утверждения, а также приведем примеры пра- вильных функций. Заметим, что в силу требований об из- меримости левые части неравенств (2), (3) имеют смысл. Очевидно, функция F(e, а) = с является правильной. Далее, по неравенству Юнга ( X \ z Ч _ 6^ . хр если х, р-1 + ?-1=1 Поэтому при ае(0, 1), eg е(0, 1) 1 —~ 1 — 1 с* (tr а)1-а е (1 — а) tr а + ае ае е tr а + е ас. Значит, са (tra)1”* — правильная функция при а е (0, 1) 2 Покажем, что не зависящая от с функция (det a)d яв- ляется правильной. Пусть |i2 — собственные числа матрицы а. Известно, что X), если | Xi = 1. Кроме того, det а = ^2... Ptf, ^6? = ^ + ... + ^. Отсюда по неравенству Юнга 2 2 1 (deta)d = (р-2 - - • «С < 7 е"(<<_1) Hi + (ф2 • • • 1 j 8-{а~и (ak, X) + + 2 е (ц2 +... + p.d) < е tr й + е- (аХ, X). Из уже приведенных правильных функций можно по- строить большое число других, заметив, что линейная комбинация с положительными коэффициентами правиль- ных функций является правильной функцией. Функция tra есть предел правильных функций ^(tra)1-* при оЦО. Однако при d^2 она не является правильной. В связи с этим читателю предлагается 3. Упражнение. При p=*df ct = Q), s = 0, из (3) имеем XD 2_ 1 М $ (det at)d dt^N2(rnQsDy , (4) о Возьмем в формулировке теоремы 2 D = S$, F (с, а) = = К tr а, причем К > R~l.
4 9) ОЦЕНКИ РАСПРЕДЕЛЕНИЯ В ОБЛАСТИ ?? Докажите, что при 2 не существует постоянной М2» зависящей только от d, К, /?, для которой бы выполня- лось (4). Это упражнение показывает, что требование | bt | ^F(ct, at\ где F — правильная функция, является суще- ственным. В отличие от него предположение об ограни- ченности а, Ь, с, г можно значительно ослабить. Напри- мер, рассматривая вместо уг, t процессы */ = ХО + $ <TDo„ dw„ 4- $ <zDba du, gs, t = 5 X« <Т//« du, где тр —момент первого выхода xt из D, и замечая, что xt = ys, t = ys, t при t <Z xD, немедленно получаем утвер- ждение теоремы 2 в том случае, когда X/<tdq6 X/<td£/, Х/< — ограниченные функции от (/, а)). Пожалуй наиболее важным частным случаем теоремы 2 является случай, когда s = 0, rzsl, p = d. Нетрудно на самом деле понять, что из этого частного случая вытекает утверждение теоремы в самом общем виде, хотя доказать это непросто. Следует отметить, что рассмотрение s=/=0, rt 1 при нашем подходе существенно облегчает доказа- тельство оценок при s = 0, rzsl. В дальнейшем будет удобно пользоваться таким еще более ослабленным вари- антом утверждений теоремы 2. 4. Теорема. Пусть т — марковский момент относи- тельно {<^}, не превосходящий xD, и существуют посто- янные К, 6>0 такие, что при всех /<т(<о), X е Ed | bt (со) К К, 2 atf (<°) S | X |2. ?, /=1 Тогда существует постоянная N, зависящая только от d, К, & и диаметра области D, такая, что для всех s 0 и борелевских f (/, х) и g (х) на множестве {$ т} почти наверное xl)\dt\Jrs\^N\\f\\d+liQ, М Н\ё (*/) I dt\ # Д < N ilgllrf, D.
78 Вспомогательные предложения (ГЛ п Эта теорема сразу следует из теоремы 2 при ct = 0, p — d. Действительно, имеем / t X/At = ^o + Jx«<tO«dw„ + Jxu<xd„ du, О о мН И (Л I dt\efs\ (s J I s 1 поскольку = (det £/)d + 1 и detaz, равный произве- дению собственных чисел матрицы at при /=Ст, не меньше 6rf. 2 Кроме того, | X/ < Л | Кб-1 (det X/ < Л)d, функция F (с, а) = 2 = Кб"1 (deta)rf является правильной и {s td} о {s^ т}. Перейдем к доказательству теоремы 2. Нам понадо- бятся три леммы. 5. Лемма. Пусть \bf\^F at) при всех (t, w) для некоторой правильной функции F (с, а). Тогда существует постоянная N, зависящая только от функции F (с, а) и диаметра области D, такая, что на множестве {t^^s} почти наверное TD J «Г, S М J e~*s-tF(ct, at)dt\<Ts u s Доказательство. He ограничивая общности, можно считать, что х0 = 0. Обозначим через R диаметр области D и при а>0, p>ch(a/?) положим м(х) = Р —cha|x|. Заметим, что и (х) дважды непрерывно дифференцируема и и (х) 0 при хеО. Применим формулу Ито к e_<lps- щ (хД. Тогда при /Sss на множестве {rD^s} получим РЛто < J ё~r [cru (xr) — L°r’ bru (xr)] dr + I s + e-^,t^Dlj(r_____ ( е"ф. \cru (хД — L°>- brU (хД] dr | s (п. н.).
« 2] ОЦЕНКИ РАСПРЕДЕЛЕНИЯ В ОБЛАСТИ 79 Предположим, что для всех xsD, г^О cru (х) — L0'" ьги (х) F (сг, аг). Тогда (<ЛТ£> $ e~4's-rF(cr, ar)dr\<fs 8 j (5) откуда утверждение леммы следует при /->оо с помощью леммы Фату. Итак, остается подобрать постоянные а, 0 такими, чтобы выполнялось (5). При этом, очевидно, можно счи- тать х=#0. Для простоты обозначений не будем писать индекс г у cri or, ar, br и положим % = р = |х|. Не- сложная выкладка показывает, что / = (1 + a sh а | х |)л [си (х) — La- bu (х) — F (с, а)] = = (1 + a sh ар)-1 {с (0 — ch ар) + a sh ар (b, X) 4- 4-a2 ch ар (аХ, X) 4- — sh ар [tr а — (аХ, X)] — F [с, а)} 5= В —chap , , , a2chao . С Т-,-Г-Л 4- (<*X, X) ч-:-------к 1-j-ashap 1 v ’ zl-|-ashap 1 + 7 [f 41- ><с’ “> <6> Заметим, что ch ар 1, ch ар sh ар, a sh ар а2р и при x^D число р=сА?. Поэтому 0 —ch ар 0 —ch aR 1 + a sh ар ' 1 + a sh а/? ’ 1 a sh ар р 1 +а sh ар ' Следовательно, из (6) /^ciPr~Cllhttj?p + (^. Ь)тт- 1 + a sh aR 1 v ’ 7 1 + ( а2 ch ар а2 ch ар _____________ а2 1 +а sh ар ch ap-f-а ch ар 14-а * 1 а2р а2 р l-f-a2p • 14-а2# ’ а2 а). Вспомним теперь, что F (с, а) — правильная функция, фиксируем некоторое е<у, выоерем а столь большим, а2 а2 чтобы > е> k (е) 4- е. После этого возьмем
80 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ [ГЛ. II еще столь большое число 0, чтобы 0—ch а/? 1 + а sh aR k (е). Тогда / & (е) [с + (аХ, А.)] + е tr а — F (с, а) 0. Лемма доказана. 6. Следствие. Пусть G(c, а) — правильная функция. Тогда существует постоянная N, зависящая только от F (с, a), G(c, а) и диаметра области D, такая, что ро ] МИ а,) d/| (п.н. Is J Действительно, положим Fr (с, a) = F(c, a)-[-G(c, a). Тогда I bt | F1 (ch at), G (ct, a<) Fr (ch at), и для Fx (c, d) выполняется утверждение леммы. 7. Лемма. Пусть R>0, h(t, х)^0, h е (С^), h (/, х) = 0 при /=<0, h(t, х) = 0 при | х| Тогда на (— оо, оо) х Ed существует ограниченная функция z (t, х) гС О, равная нулю при /<0 и такая, что для всех доста- точно малых е>0 и неотрицательно определенных сим- метричных матриц а = (eft) на цилиндре CR 1 а N(d)(deta)*+r/i(8)=3S-^z(e) + а1>2^> К /=1 где N (d)> 0. Кроме того, если вектор b и число с таковы, d что то на том же множестве У b'z^ ^сг{г\ i = 1 если 8 достаточно мало. Наконец, при всех t ^0, х Ed t I z *) l^+1 (d, R) J $ hd+1 (s, у) ds dy. sR о Эта лемма доказана в [34] с помощью геометрических рассмотрений. 8. Лемма. Пусть | bt | F(ct, at) при всех (/, со) для некоторой правильной функции F (с, а). Тогда сущест- вует постоянная NT, зависящая только от d, F (с, а) и. диаметра D, такая^ что для всех s f (/, х) на
« 2] ОЦЕНКИ РАСПРЕДЕЛЕНИЯ В ОБЛАСТИ 81 множестве {td^s} почти наверное М $ ехр|—саdu)(rt det az)d + l к S I S J ft 1 f\\rudu, xt \S л s ' <?• Иными словами, имеет место неравенство (2) при p = d. Доказательство. Воспользуемся введенными обо- значениями: t 1__ t <ps.t = \cudu, ip/ = (^detaz)</ + 1, ys,t = \rudu, s s обозначим через R диаметр D и без ограничения общности будем считать, что хо = 0. В этом случае DclSr. Пусть еще —момент первого выхода xt из S#. Очевидно, Предположим, что нам удалось доказать неравенство ря ] М 5 e~^t \f{ys,t, xt)\dt\fs ^^||^+1.ся (7) Is J (п. н. для произвольных s, /, где N = N (d, F, R). Тогда, беря в (7) функцию f равной нулю при х ф D9 получаем ро ] М < $ е~^’ Ар, | f (ys, t, xt) I dt I eg I s J «gM e 9s’ I f (ys, t, xt) | dt |eF3 < (п. h. {т/^s}) и, подавно, (п. н. {t^^s}). Таким образом, достаточно доказать неравенство (7). Стандартные рассуждения (с использованием, например, результатов § 2 гл. I [48]) показывают, что (7) доста- точно доказать только для ограниченных, непрерывных, неотрицательных /(/, х). Замечая еще, что по лемме Фату
82 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ [ГЛ. II для такой функции ря 1 М i $ е~^. tytf (У*, t, Xt) dt I Is J ря eg lim M < J е~ф*’ '[(г, 4- e) det at]d + 1X e | 0 [ s X f (rtt4-e) du, x^\ dt\ Д (п. h.), \S / J заключаем, что достаточно рассмотреть случай, когда rt (о) > 0 при всех (/, со). Фиксируем Т>0. Положим h (у, x) = f(T — у, х) при 0<Zy<T, x^SR и h = 0 во всех остальных случаях и по лемме 7 найдем соответствующую функцию г. Пусть x = tt r — момент первого выхода процесса (ySt t, xt), рас- сматриваемого при t^s, из множества [0, При 8 > 0, t^s к выражению 'z(8) (Т — ySt t, xt) применим формулу Ито; тогда - (Т, xs) = М | J [-/•„ 4 2<8) (Т - «> - — c„z(e) (Т - ys, а, ха) 4- La«- b«zw (Т — ух„)] е-ф^ «du — —.e-^,tMzM^T — yS'tM, *Mr) I (п. н.). Пользуясь свойствами г(е) при малых е>0, находим -г.^-^ + ^‘-гм = Г. — — г<е) dt z d u ZxlxJ + d 4- 2 b«zJ N (d) ^(e) + i I b« I *(e)- i = 1 Кроме того, z(e)sgO. Поэтому рЛт -z^(T, х,)>МН Хи)4- I s 4- 1 bu | z(8’ (T — ys, %„)] du | ^s] (п. h.). Перенесем в этом неравенстве член с z(e) из правой
<2! ОЦЕНКИ РАСПРЕДЕЛЕНИЯ В ОБЛАСТИ 83 части в левую и воспользуемся оценкой | z(8) | sup | z | / //Ат \\ N (d, R) || f ||rf+1, CR 1 + M И е^.и | ba | du | «F, > \ I s J ' e~^ “фиЛ(е) (7 — ys, „, xa) du \ °F А (п. h.). Здесь yt„e(0, T) при и e (s, т) в силу условия rt>0, а такжэ xa e SR; поэтому функция h непрерывна в точке (T — ys.a, хи) и h(T — ySiU, хи) =f (ys<u, х„). Устремляя в последнем неравенстве е к нулю, по лемме Фату получаем N (d, R) ||/U. Cr 1 + М И е~*’- и | Ьа | du | ^Д > \ I S ) / (/Ат \ $ е“ф* "W(th, a, xa)du\^A (п. н.). Далее, на множестве очевидно, т^тк. Зна- чит, по лемме 5 /Мт \ J е~^ «|&„|da|eFA = Is J мН “ Iba I du I К S I I с ^?V(F, 7?) (п. н.). Окончательно, на множестве {t^S=s} при всех 7'>0, t>s получаем (/Атг> R J е-ф«. «ф„/ (ySi а, S ха) du\^t^ ^N(d, F, (п.н.). Остается положить сначала t -> оо, затем Т -> оо и воспользоваться леммой Фату и тем, что, очевидно, ->Тя при Т->оо на множестве $}. Лемма доказана.
84 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ (ГЛ. I! 9. Доказательство теоремы 2. Прежде всего заметим, что теорему достаточно доказать только при p = d. Действительно, при p>d по неравенству Гёльдера, например, XD d 2 1 М-$е-ф*'с, ₽(deta,)₽ |g(x,) | Л | < .s J / (TD 1 p 1 \ d ClM J е-ф*'' (det az)JI g (x,) d/1 Л j₽ X \ [ s ) / [ pD XIM § e-<₽s- <ct dt | . \ I s d р TD _ -Ф При этом e~4>s' lct dt = 1 — e S TDsgl, и если теорема s доказана при p = d9 то первый сомножитель не превос- ходит N(d, F, D)ML J₽ = ^(d, Л ^(N(d, F, D)+mg\\P.D- При p = d неравенство (2) образом, достаточно доказать, доказано в лемме 8. Таким что r^D ’Ф-1 (det atY | g (xz) | dt И. N (d9 F9 D) || g U D (п. h. {xp^s}) для всех g. Без потери общности можно считать, что g — неотрицательная ограниченная функция. В этом случае, поскольку (deta^ — правильная функция, то по следствию 6 число (т£> 2 ( (det atY g (X/) t dt | s > s конечно. Бели t> = 0, то доказывать нечего, поэтому будем считать, что а>0. Используя теорему Фубини или интегрируя по частям, для любых чисел и неотрицательных функций Л(/),
ОЦЕНКИ РАСПРЕДЕЛЕНИЯ В ОБЛАСТИ 85 I 2] г(0 получаем t» / t \ J h (t) dt = J h (t) exp J— r (u) du\dt-\- G h I h J + exp {— \ r (u) du \ r (t) [ \ h (и) du) dt. Отсюда для s 0, A e j == (det at)d g(x() находим XD MXx.rD>s 5 h^idt^ u s XD = МХЛ, T S h‘W~ u s XD + M*a,.d>s $ exP ~ s Последнее слагаемое равно ГК т -<ехр(— \radu — <pa tt J '•< / 1 I >, г, = —g(x<) (det at)d, ht~ t ] -<Pj.Z —5r«du( + S J t j /TD \ J r„ du / rt И Aee-4>*’" du j dt. t ) \ t J r.A^x i L ’ ‘ xxT vj = Г[МХл,го s L xM 00 МХл,ro>s s s ) (XD \" D > t И ht£~*t- “du\ dt^ ( * 1 >s exp|— \rudu-(f>t'AratD>t* Is / XD Г • $ hue~^‘- и du |«?”/? dt^ . t 1- exp J — - Ф^, A XTD > dt = Is / TD ( t = МХЛ, TD>s 5 Mxpj—JredH-q>,.AdL 1 I •
86 Вспомогательные предложений (ГЛ. И Следовательно, XD Мхл. hte~^ t dt =sg s XD ( t <2MxAiT£)>s J A/expj— $ rudu-qs,t s [ s dt^ 1 XD 1 /t \ «г^'+'МХд _ >s J (rid&tal)d + 'f Hr„du, xt «"*»/<//, Z1 t U Tj 3 I V f s \« / d где /(/, %) = e +1 (%). Значит, по лемме 8 xd i Мхл,То>$ + I P TD>S}< f d 1____ ^k|g+D>^ + > P{A To^s}, где постоянные W (они разные) зависят только от d, функ- ции F(c, а) и диаметра Z). Последнее неравенство экви- валентно тому, что (п. н. {xp^s}) (XD j J (det at}d g (xz) ' dt | <FS > = s XD = МИ hte-^(dt\^s . s J d _!_ Отсюда, беря верхние грани, находим d 1 d d vd + i> vd + i^Nlg\\d+)' и v N ||g||dt р. Теорема доказана. 10. Замечание. Пусть 6 > 0. Функцию F (ct а) назо- вем S-правильной, если для некоторого е е (0, 6) найдется постоянная &(е) такая, что при всех с, а и единичных векторах X F (с, a)^etra + fe(e)[c4-(aX, X)]. В смысле этого определения правильными функциями являются функции, 6-правильные при всех 6>0. Почти дословно повторяя доказательства лемм 5, 8 и предыдущее доказательство, убеждаемся в том, что если
9 3J ОЦЕНКИ РАСПРЕДЕЛЕНИЯ В ПРОСТРАНСТВЕ 87 область D содержится в круге радиуса /?, | bt | F (ctt а<) при всех (/, о) и F (с, а) является R^правильной функ- цией, то существуют постоянные ЛГр зависящие толь- ко от d, F (с, a)t R, такие, что выполняются неравенства (2), (3). 11. Упражнение. Пусть d 2, D = SR, е > 0. При- ведите пример (/?-1 + е)-правильной функции F (с, а), для которой не верны утверждения теоремы 2. (Указание: см. упражнение 3.) 12. Упражнение. Пусть г(е) —функция из леммы 7. Докажите, что при достаточно малых е функция z(8) (t, х) убывает по t и выпукла вниз по х на цилиндре CR. § 3. Оценки распределения стохастического интеграла во всем пространстве ОО В этом параграфе*) выражения вида \f(t, x<)\dt о оцениваются через <5?р-норму /, т. е. оценки из предыду- щего параграфа здесь переносятся на случай D = Ed. Будем пользоваться обозначениями и предположениями, введенными в начале § 2. Обозначим еще t t <Pt = <Po,t = \cudu, yt = y0,t = ^ru du. о о На протяжении всего этого параграфа фиксированы два числа > 0 и постоянно предполагается, что | bt (со) | (со), tr at K2ct (со) при всех (t, со). Заметим сразу же, что в силу этого условия | bt | не превосходит правильной функции F(cz, at)^KiCt. Мы начнем с некоторого варианта теоремы 2.2. 1. Лемма. Пусть 7?>0, т — марковский момент относительно {=^z}, = inf {/2s т: | xt — xt I2s/?} **). Тогда существует постоянная N = N(d, R) такая. *) См. также теорему IV. 1.8. inf (р=оо?
88 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ (ГЛ. II что для любой борелевской f (t, х) ря М j $ | f (yh xt) | dt | оГЗ < IT <РтХт<ооЛ/г J x)p+1dxd/| (п. h.). Vt / Доказательство. Пусть сначала т —неслучайная конечная величина. При /^0 положим qFJ = qFt+Z) wj = - wT+, - wT, = ^T+6 ~ bx+t, t = ^r+6 *t = dw'u + \b'udu = xx+t - xx, 0 Ct — Cx+f, Г t о yi = Гц du, о т' — момент первого выхода очевидно, ф/ = 5 с'и du, о процесса x't из Тогда, (ЛМ j 5 е I / (у6 х() I dt I сГ. = ММ е_ф'- (О Кроме того, (wj, qF'J) — винеровский процесс и по теореме 2.2 мй е_ф^;\f(y’t + у, x’t+x)\dt\ I» ) 1 /ОО z)\p^dzdt\ (п. и.) \о / для любых x^Ed, y^Q. Теперь, чтобы доказать лемму для постоянных т, остается в последнее неравенство вместо у, \ вставить ^('-измеримые величины ух, хх. Сде- лаем это. Положим хл(0 = ^г’ ПРИ
♦ «] ОЦЕНКИ РАСПРЕДЕЛЕНИЯ В ПРОСТРАНСТВЕ 89 (*) = ><лxd) = (хп(х1), хл(х^)). Заметим, что хп (0|/ при всех —оо, оо), хл(х)->х при всех x^Ed. С самого начала доказательства, не ограничивая общ- ности, можно было считать, что / — непрерывная неотри- цательная функция. Обозначая через Г„, Г„ множества значений функций ип (/), хл (х) соответственно, для такой функции по лемме Фату получаем Nlft е ^^'tf (y't + ух, x’t + xx)dt\^r'S^l (о J < lim М ft (y't + x„ (yT), x't + xn (xt)) dt | «/"Д =» n—>oo \0 • = lim У У Mft e_<₽/\|)Z'x n—co j,er„ xer^J 1° X f (</'/ + «/, x’t + x) dt | {xt) » x < 1__ lim / J \fp+1 x) dx dt\p + i i__ УР+1(1, x)dxdt\P +1. \yx I Перейдем к доказательству леммы в общем случае. Возьмем Ле/Ти положим тЛ = хл(т), х” = inf {/ хп: ' xt — хтл 12=5 /?}. Нетрудно видеть, что тл|т, п ->оо тп R XR %т<00 lim $ е-ф'^ | f (yt, xt) | dt J | f (yt, xt) | dt П-> оо хп т и при s е Г/, множество {A, Tn = s} = {4,
90 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ (ГЛ к Значит, по доказанному выше М%д $ е Xt)\dt^ т Trt XR =S lim Мхд, т<оэ J I f (Уь xt) | dt = = Hm 2 мХд,гп=5 $ е Xt)\dt=~ n“*°°ssr^ s XR = lim 2 M^.?=sMn e~ф<1|5/1 f (yt, xz)|d/|eFJ< s£=rl s ___1_ lim МхЛ тл<00е J $ I / (*» x)|₽+1dxdA₽ + П-.ОЭ 1 \u I (oo \ I p 5 Sim*, x)ip+idxdt\ yi I Лемма доказана. 2. Лемма. Введем R, т, т#, как в предыдущей лемме, и для X > 0 обозначим через р, = р (X) положительный корень уравнения X —рЛ^ — р?/<2 = 0. Тогда (п. н.). Доказательство. Положим л(х) = chр, |х|. Про- стое вычисление показывает, что Хс/Л (х) — L°t' л (х) == Xcz ch р, | х | — р, sh р, | х | \ bt, j — -ц2 ch н I х I Н2тти sh НI х | [traz - | л । И | Л | L I x i J Воспользуемся тем, что shp.|x|sgchpi|x|, shp|x,=C p | x | ch p | x |. Тогда, очевидно, получим Лс/Л (л) — L°‘’ ь‘ л (х) ct ch р | х | (X — рЛ\ — р2Л2) = 0.
ОЦЕНКИ РАСПРЕДЕЛЕНИЯ В ПРОСТРАНСТВЕ 91 « э] Далее, отсюда с помощью формулы Ито, примененной к e~K<f‘n (%/ + %), находим (Мт/? л (xz дт + х) = М < J е~^“ [ксил (ха 4-х) — идт — £"“• ь“ л (ха 4- х)] du 4- е-Хф/Лх« л (х,Лтл 4- х) |^дт} > М Rn(xt^XR 4-^)|«^/лг|« Пользуясь непрерывностью л (х), вставим в это нера- венство вместо х величину (—Х/дт). Тогда е~Кч>1 лт м {е ХфтЯл (х, Д XR — xt д т) | «Г, Л т}. Из этого неравенства для А е получаем М*А. т<оое-Х<₽Т = Jim М*А. Лт^ /—►со > lim Мхл x<te~^XRя (хМт/? - xtЛ т) /—►оо Мх/'м>т« Я (xXR - xt) XrR<oo = Ch нЯМх/'Хфт«хЪг<00. Лемма доказана. Сформулируем и докажем теперь основ- ную теорему этого параграфа. 3. Теорема. Существуют постоянные. N}=Nz(d, Klt К2) (i = 1, 2) такие, что для всех марковских моментов т и борелевских функций f (/, х), g (х) м|[е-<Ч|Ж xz)|d/|A|< /°° Л \1/(р + 1) ^.Nje фт Ц $ \f (t, x)|p+1dxd/j (п. н.), Г? i_l А 1 М К е ч‘с( р (det az)₽ | g (xt) | dt | < (п- н.). Доказательство. Будем считать f, g неотрица- тельными ограниченными функциями и введем рекуррентным
92 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ [ГЛ. II образом следующие марковские моменты: т° = т, тл+1 = inf т": — хтп[^1). Заметим, что в силу леммы 2 М (К) - М |м I ,"} I А) < где р — положительный корень уравнения 1—pKi— -р2Х2 = 0. Очевидно, тл возрастают с ростом и, а величины —ч>„п убывают с ростом п. Приведенная оценка показывает, что при и->оо + О (п. н.). В силу ограниченности функции с, (со) отсюда немед- ленно следует, что тп-^оо (п. н.) при zi->oo. Значит, применяя лемму 1, получаем (п. н.) /ОО ч ОО /Tn+1 'I ММ xt) dt\ = у, ММ |®М = v J п — О I %п I ^N(d, Кг) 5 М п = 0
§ 31 ОЦЕНКИ РАСПРЕДЕЛЕНИЯ В ПРОСТРАНСТВВ 93 Первое утверждение теоремы доказано. Докажем вто- рое утверждение. Применим тот же прием, что и в доказательстве 2.9. Функция g ограничена и 1 1 — 1 - ~ ct р (det а<) р ^ct р (tr at) р &р ct. Поэтому оо ] d 1 $ ё~ ^ ‘ct ” (det at) ₽ g (xt) dt sg ^N\e~^‘ctdt = N (1 T и ЧИСЛО /оо __d 1 \ v = sup ess sup M К e~ ‘ct p (det az)₽ g (xt) dt | <^A T “ It ' конечно. Будем считать, что о>0, и положим rt = , 1 !_£ 1 = — ct р (detaz)p g(xt), ht = ct p (detaz)*’g(xt). С помощью теоремы Фубини получаем мК e~^-‘htdt\eftl = Mk /izexpf—фт>/ —§rudu|d/|<z?r.t14- (t J It ( T J J + mK rzexpJ—Tt,z —(п. h.). |т l т J V / J Отсюда, как и в доказательстве 2.9, вытекает м{\ ё~ф*’ ‘ht dt | 2M (/izexp{—фт< — |т J 1т I T J J Замечая, что на множестве {т = оо} последнее выражение равно нулю, преобразуем его к виду exph ru du4-^T|%T<oo2u₽-H мЬ х [О ) (т X f Ь rudu9 \5 / J
94 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ [ГЛ. II Р где /(/, х) = e-‘gp+1 (х). Значит, по первому утверждению [ % ) /7 с ^/ViVP+1e^xT<oo( J \e-<p+l>tgp(x) dxdtl Vt / J 1 (n. H.)t Следовательно, £rf<l+^)kk£d. Последнее неравенство эквивалентно второму утверж- дению теоремы. Теорема доказана. Приведем один важный частный случай доказанной теоремы. 4. Теорема. Пусть К3, Ki<Z<x>, %>0, б>0, О, при всех t^zs, шей, I bf (со) | /Сз, Тогда существуют постоянные Ni = М/ (d, р, X, б, К3, Kt) 2) такие, что при всех борелевских f (t, х), g(x) xt)\dt^N1\\f\\p+l,f1a>t (2) s (3) Эта теорема вытекает из предыдущей. Действительно, например, возьмем //=!, С/ = Х при t^s, Ki = -^, Кг — = ^-- Тогда при t^s \bt\^KiCh trat^K2ct. При/<в определим ct так, чтобы эти неравенства сохранились, и
§ 4) ПРЕДЕЛЬНОЕ ПОВЕДЕНИЕ НЕКОТОРЫХ ФУНКЦИЙ §5 1 d заметим, что (det at)p+1^6^ + 4 Следовательно, °$е~и | f (t, xt)\dt^ s 0° ( t V p— d 1 exp j(rt det at)p + ’[f (yh xt)\dt^ » Vs / <M (yt, xt)\dt. s 5. Упражнение. Заменим третье неравенство в условии (1) таким: det at 6, и сохраним первые два. Используя автомодельность винеровского процесса, а также то, что в (3) вместо g(x) можно подставлять g(cx). докажите, что оо ! 1 М J ^|g(x,) I dt^-iT^N [d, £rf, где N (d, K3) — некоторая конечная не убывающая по К3 функция. § 4. Предельное поведение некоторых функций Основными в этом параграфе являются теоремы 6, 7 и следствие 8. Они будут использованы в гл. IV при выводе уравнения Беллмана, причем в случае равномерно невырождающихся управляемых процессов использоваться будет только следствие 8. Отметим в связи с этим, что утверждение следствия 8 вполне понятно из интуитив- ных соображений, поскольку участвующая в нем нижняя грань по ae53(s, х) является нижней гранью по неко- торому множеству равномерно невырождающихся диффу- зионных процессов с ограниченными коэффициентами (см. определение 53 (s, х) перед теоремой 5). Фиксируем целое число d, число d и числа Кг > О, ^>0, К3>0. Буквой а мы будем обозначать произ- вольный набор вида (Q, <F, Р, W/, <Ft, at, bt, ct, rt), (1) где (й, &, P) — вероятностное пространство, целое число
96 Вспомогательные предложения (ГЛ и (wz, ^-мерный винеровский процесс на (Q, <гГ, Р), О/= О’/(со) — матрица размера dxd^ bt = = bt (о)) — d-мерный вектор, cz = cz(cd), rt = rt (w) — неот- рицательные числа, О/, bh ch rt прогрессивно измеримы относительно и являются ограниченными функциями (/, со) при /^0, cdeQ. В том случае, когда набор (1) обозначается а, мы пишем Q = Q“, = ^а и так далее. Обозначим через 21 (/Q, К2> /<3) множество всех набо- ров а, удовлетворяющих условиям |#|^ад, 1г4о?и*^ад, г?^ад при всех (/, со). При x^Edi К2, К3) положим t t х^> х == х + j о* о о t t y^>3 = s-\-{r^du, q*=^c%du, af = о о p — d 1 ф“ = (c®)p+1 (r“det a“)₽ + i Как всегда, при p = d, ф“ = (r? det cff)d + 1. Для борелевской функции f(t, у), s <= (— co, oo), xe Ed положим v(s, x) = t»(f, s, х) = и(Къ /<2, K3, Д s, х) = sup Ma °? e~ (i/?’ \ x) dt, aeStCKx, K2, Kt) J где Ma обозначает интегрирование no Qa по мере Pa. Позже кроме этих объектов в наших рассуждениях будут участвовать еще объекты, введенные перед теоремой 5. 1. Теорема. Пусть f Xp+1(Ed+1), тогда v(s, х) — непрерывная функция от (s, х) на Ed+1 и г |o(s, x)|^^(d, Klt K2)[^\f(t, y)\^dydt\p+ . Доказательство. Поскольку ' bf । Kidt, tr я? «5 sg Л2с“, то оценка для v следует из теоремы 3.3. При этом
9 4] ПРЕДЕЛЬНОЕ ПОВЕДЕНИЕ НЕКОТОРЫХ ФУНКЦИИ 97 можно взять N (d, K2) = A\(d, Ki, Кг), гДе ^ — пос- тоянная из теоремы 3.3. Далее, заметим, что для любых семейств чисел hf, /г2 I sup h? — sup /1% I sup, /ц — j. I a a I a Поэтому IV (Si, xj — u(s2, x2)|< 00 _ a C sup Ma $ e ф/ I f (y^ s\ Af’ *) - f (tfr s% x«« *«) I dt. a 0 Если f(t9 x) — гладкая финитная функция от (/, х), то | f (у? S1, х<*>- f (tfr % x“> **)! < sup (I gradx f (/, x) | + + |!ЦгН)(1^- s*-^ s'|+;*r'-xr’|)= = yV(|s1-s2| + |x1-x8|). Кроме того, p—d 1 1 d 1|)“ < (c“)p+1 (К8с“сИ (tr a“)d)₽+1 Kp+ 'K₽ + >c« и, значит, °? e~"% dt =c °? e~ ф“ d<p“ < J 'I о 'L J 1 I 3 2 0 0 Следовательно, для гладкой финитной функции f(t9 х) имеем |u(sb xj - v (s2, x2) | < N (| Si — s21 +1 xx — x21). В этом случае v — непрерывная функция. Если / — произвольная функция из Хр+1(Еа+1), то возьмем последовательность гладких финитных функций fn так, чтобы \\f — fn\\P+i,Ed 1_>0- Тогда в силу уже исполь- зованного свойства модуля разности верхних граней по- лучаем |ц(/, s, х)~v(fn, s, x)\^v(\f — fn\, s, х)^ <^И-M|p+1,Brf+1. Отсюда вытекает, что непрерывные функции v (fn, s, х) равномерно в £rf+1 сходятся к и(/, s, х). Стало быть, и(/, s, х) непрерывна, и теорема доказана. 4 Н. В. Крылов
98 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ (ГЛ II Из непрерывности о (з, х) следует измеримость этой функции. Для изучения свойств интегрируемости v (s, х) нам понадобится такая лемма. 2. Лемма. Пусть /? > О, т*-х — момент первого до- стижения процессом х^* множества SR, уа — некоторая случайная величина на Qa, е — положительный корень уравнения К2е2 + — 1 = 0. Тогда при всех t19 s — van МаХ а е f <£>еЯ-е|х| V < оо ’ va ^"V^exp {'И_т1Х|_2Г (^1-8)}. Л УуО, . V < 00 I z z zAg J Доказательство. Фиксируем а, х и индексы а, х для простоты писать не будем. Кроме того, у*’а = = s + ^a° будем записывать как s + yy. Первое утверждение леммы очевидно при |х|^/?; поэтому можно считать, что |х|>/?. По формуле Ито, примененной к е“ф/~81дс/1, получаем * /ЛТ* ^МГФ'Лт*~е] /Лт*1==е-«1'1 + М 5 ^“^’/.(xjds, о где / М ss »а ______________р V ft г а — ^asX' 1 — zb х — с < 53 8 | х )2 е | X I Lrr “s I X I2 ] Ws I X I Cs «С e2 + s/CjCj — c, < e2K2c, + - cs = 0. Поэтому e-eRMe~4’y/,f<t^e-e'x', и при t-+oo с по- мощью леммы Фату приходим к первому неравенству. Для доказательства второго заметим, что на множестве {/js^^y + s} в силу предположения имеем — — 5^Л3фу. Отсюда — cpY sg — Кз ‘ (/1 — s), Mx<1<^Y+s.v<coe-,pv<e-K’,(/‘-’). Кроме того, V< MXv < e|*l4
f 41 ПРЕДЕЛЬНОЕ ПОВЕДЕНИЕ НЕКОТОРЫХ ФУНКЦИЙ 99 Перемножая крайние члены последних двух неравенств, получаем второе утверждение леммы. Лемма доказана. 3. Теорема. Существует конечная функция N (d, KJ, возрастающая по Ki и такая, что при всех f е (Ed+l) k(f. •. 1 d •)l,+№+l'<5+w Доказательство. Допустим, что теорема доказана в предположении, что /<2 = /С3 = 1. Выведем отсюда ее утверждение в общем случае. Мы применим рассуждение, заменяющее в несколько завуалированной форме исполь- зование автомодельности винеровского процесса (см. упраж- нение 3.5). Если /<а, Л8), то положим Очевидно, а' 81' = 81 [—?=, 1, 1V Более того, ясно, что когда а пробегает все множество 81 (Кь /Са, К8), то а' пробегает все множество 81 1, 1V _Далее, для f е £р+1 (Еа+1) обозначим f' (t, x)=f (K.3t, УК2х). Имеем 00 __ a v (Klt K2, Ks, f, s, x) = sup M“ J e ф/ («/“• *) dt =* aeS( о <=K.p + 'Kp+1 sup Ma' ^7(s + «'-0, * + a'G$T Q ___ 1 d + VKi^'°)dt = Kp + lKP+ix x лргм“' +^°. jdl- . i. r.
100 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ [ГЛ II Следовательно, если теорема доказана при К2 = = L то Н4 К2, К3, f, •, .)|^i,£rf+l = оо I JhvV ’ ‘'л — оо =ад>2 v!- 1, 1, f, S, X \V к2 1 dx d s 'if"" (d- «' E + -K,KtN^ld. Таким образом, теорему достаточно доказать только при К2 = Аз = 1 • Наше доказательство в этом случае ис- пользует представление выражения °° __ (X Ia (s, х) = Ма ф/,ф^ (yf' s, х) dt о в виде «суммы» слагаемых, каждое из которых учитывает тот вклад в это выражение, который происходит при дви- жении процесса s, х^ s) по области, соответствующей данному слагаемому. Не ограничивая общности, можно считать, что /^0. Выберем R так, чтобы объем равнялся единице, и через w(t, х) обозначим индикатор множества Поло- жим Х1)(/, x) = w(t1^t, x1 — x)f(t, х). Очевидно, оо /(<, Х)= J x)dx1dt1, — оо /“ (s, х) = f dt. 5 dx,M“ [ е~ Xt} (iff s, X?’x) dt. — co 0 Оценим последнее математическое ожидание при фик- сированных хг. Заметим, что /(/1> Х1) (/, х) может быть отлично от нуля только при 0 — t ^1, \x1—x\^zRt Поэтому, если у* — момент первого достижения процессом
5 4] ПРЕДЕЛЬНОЕ ПОВЕДЕНИЕ НЕКОТОРЫХ ФУНКЦИЙ 101 (/1 —s, %! —множества CliRi то ^x}dt = о v“ Кроме того, на множестве {уа<оо} И R >|хх-ху| = |х“а‘"Ч Последнее в обозначениях предыдущей леммы влечет за собой неравенство уа^т^’х~Х1. По этой лемме и по тео- реме 3.3 теперь получаем М“f е~Х1)», х*. *) dt = М“Х<>_1<уу^<а* х М“ К е~ х.) (#’s. х)dt | ^“4 lv“ J < ^111/(6. X,) ||р + 1. Ed+1 exp {у/? - у I x - х1; - |(/1 - s - 1)J , где N1 = N1(d, Kr, 1) — постоянная из теоремы 3.3. За- метим еще, что при ^Cs первое выражение в этой вы- кладке равно нулю, так как тогда — у*-s tx — s < 0 и уа = оо. Поэтому Ia (s, x) Ni f dtr dxj || fyv Xi) ||p + i, Ed+l n(s-tlt x-xj, где л (/, x) = exp[^y/?—y|x| + y (^+l)j при /=^0, л (/, x) = 0 при t > 0. Следовательно, поскольку v = sup /“, a oo v (s, x) Sg 5 5II f(tv x1} Up 4-1, £d+in (s - tlt x- xj dx± dtv — co
102 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ [ГЛ II Здесь в правой части стоит свертка по (t19 хг) двух функций: ||/(/r Х1)||р +1, Ed+1 и л(/г, Известно, что норма в свертки не превосходит произведения нормы в Хр одной из функций на норму в другой функции. Учи- тывая этот факт, заключаем I+ 1. £rf+i=^ 00 5 \n(t, x)dxdtIllif{ti, Xi)|p + b e^Jp + 1. Ed+1 = — 00 N(d, KJ \ \dtidxtX X t, xx — x) (t, x) dx dt = N(d, KJWfWp + ^.E^ Для окончания доказательства теоремы остается пока- зать, что последнюю постоянную N (d, KJ можно считать возрастающей функцией Положим N(d, K1) = sup||u(/<1, 1, .)Лр + 1, E.J/IIA >, £rf+1, где верхняя грань берется по всем f е £р+1 (Е^+1) таким, что H/IIp + i. е(/+1>0- По доказанному выше N (d, KJeco. Кроме того, множества 31 возрастают по Ki- Поэтому v, N (d, KJ возрастают по Kv Наконец, очевидно, | v (f, s, x)|sg v (| f |, s, x) и MK1( 1. 1. A •. М1Л₽ + ><^+1. Теорема доказана. Перенесем утверждения теорем 1 и 3 на случай, когда функция /(/, х) не зависит от /. При этом, как и в пре- дыдущих параграфах, мы исключим из рассмотрения про- цесс Г/. Положим V (х) = V (g, х) “ V (Klt Kt, g, X) = «= sup М“ Г ввШ(К|,Л.. 0) I в 1 (с«) » (deta“)P g(xf *\dt.
I 4] ПРЕДЕЛЬНОЕ ПОВЕДЕНИЕ НЕКОТОРЫХ ФУНКЦИИ 103 4. Теорема а). Пусть g <£p(Ed), тогда v(x) — непрерывная функция, \v(x)\^N(d, K2)kkv б) Существует конечная функция N (d, /Q), возрастаю- щая по Ki и такая, что при всех g^Xp (Ed) l»te. Эта теорема доказывается почти так же, как тео- ремы 1 и 3. Перейдем к основным результатам настоящего параг- рафа. Пусть фиксированы числа /<>0, 6>0 и каждой точке (/, х) е Ed+1 (х е Ed) каким-нибудь образом постав- лено в соответствие некоторое непустое множество Ъ(1,х) (соответственно 53 (х)), состоящее из наборов а вида (1). Пусть 53 —объединение всех множеств 53 (/, х), 53 (х). Будем считать, что функция (со) ограничена на 53 х [0, сю) х X U йа н для всех ае®, и е [0, оо), со е у Ed (2) Полезно отметить, что (2) можно переписать так: (afy, у) — 2 Ss у б21УI2, I. / = 1 поскольку (а“у, «/) = у (°? (ст?)* «/. #) = у |(а/“)* */|2- 3. Теорема, а) Пусть X^Zo>O, QczErf+1, Q —от- крытое множество, f е %p+i (Q), та = та. s, ж = inf |/^0: (/H-S, X«’x)c£Q}, z*(s, х)= sup Ма + x?'x)dt. aeQJ(s, х) о Тогда к, б, Mll/ilp + i.Q-
104 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ [ГЛ II б) Пусть X Хо > 0, DaEd, D — открытое множество, т“ — za-x= inf {t 0: х“>х ф £>}, та гх (х) = sup Ма ? е~ ф< " и g (х?- *) dt. a<=QJW 0 ' Тогда 4\z^WP.D^N(d, к, б, Мкко- Доказательство. Поскольку все собственные числа матрицы а? больше у б2, то det а? 2 df>id. Отсюда, пола- гая / = |/|х<?, с? = с7 + А., ф“ = <р“ + А/ и замечая, что c?S»A., находим \гк ($, х) | N (б) V + 1 sup М“^ е~Ч‘ (с“)р+ 1 х aE*B(s. *) о 1 х (r“det a“)₽ +1 f (#“s, x/*> s) dt. Очевидно, Следовательно, I zK (s, x) | sg v (-5-, ?, s, x\ N (6) Xp + 1. \ /V А* Л j Отсюда по теореме 3 < (6) n {d, ) || / U. Ed+1. Этим первое утверждение теоремы доказано, так как /£)>£_ /S'
§4] ПРЕДЕЛЬНОЕ ПОВЕДЕНИЕ НЕКОТОРЫХ ФУНКЦИЙ 105 Совершенно аналогично с помощью теоремы 4 полу- чается утверждение б). Теорема доказана. 6. Теорема, а). Пусть Q —область в Ed+1, х) — ограниченная борелевская функция, Х>0, та = та, s,x= jnf 0: (s + /, *) Q], zx(s, x) = zx(/, s, x) = Тогда существует последовательность Хп->оо такая, что ’knz'n (s, х) -> f (s, x) (n. в. Q). б) Пусть D —область в Ed, g^x)— ограниченная боре- левская функция, g^Xp(D), X>0, та = та, x — jnf 0: x ф D}, zx (x) = zx (g, x) = sup a e $ (x) Хта 61 (*Ta j Тогда существует последовательность 1л->оо такая, что (п. в. D). 7. Теорема, а) В пункте а) теоремы 6 введем еще один объект. Пусть Q' —ограниченная область Q'czQ'czQ. Тогда ] | — f ||p+r Q> ->0 при X->oo. Если же = то можно взять Q'=Q- б) В пункте б) теоремы 6 пусть D' — ограниченная область, D' cz.D' cz D, тогда ] | — g\Pt D, -> 0 при оо. Если же g1 = Q, то можно взять Df =D. Доказательство теорем 6 и 7. В§ 1 отмечено, что из сходимости по внешней норме вытекает существо- вание подпоследовательности, сходящейся почти всюду. С помощью этого факта легко понять, что в доказатель- стве нуждается только теорема 7. Докажем утверждение а) этой теоремы. Пусть сначала Д = 0. Возьмем последовательность функций fn е (Q)
106 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ [ГЛ II так, чтобы \\fn — f\\p+i, q->0. Очевидно, | Xzx (/, s, x) — f(s, x) | sg X | zx (/, s, x) — гк (fn, s, x) | Ц- + |Xzx(f", s, x) — fn(s, x) I +1 fn (s, x)—f(s, x)|. Отсюда, замечая, что s, x) — zl(fn, s, x) | <||zx(|/— fn\> s> x)> по теореме 5 а) получаем Hrn]|XzX(f, •, •)-/(•, Jki.QSg ^N(d, K, a, .)- -/"(•,’’•Ги<?+Ил-/и <?• Здесь левая часть неравенства не зависит от п, а пер- вый и третий члены в правой части могут быть сделаны сколь угодно малыми за счет выбора п. Поэтому для того, чтобы убедиться, что левая часть равна нулю, достаточно показать, что при каждом п ita ]| •)Uq=o. X. —* оо Короче говоря, утверждение а) при достаточно до- казать для (Q). _ а _ По формуле Ито, примененной к x“'je ‘ при каждом ae®(s, х), t^O имеем f(s, х) = рАта а = М“ 5 e-vr-Kr[Kf(s + r, x?'x)-L?Ks + r, *)]^ + I о + f(s + /AT“, (3) где /,?/(/, x)^^f(t, х)+ 2 *) + Ь / = 1 + 2 X).
<4] ПРЕДЕЛЬНОЕ ПОВЕДЕНИЕ НЕКОТОРЫХ ФУНКЦИЯ 107 Поскольку а?, 6®, с? ограничены, то | L“f (/, х) | не превосходит выражения d d 41^».*)!+ 2 *)|+2 !/?<'• ^)|+ i, /«1 f-1 + \f«, х)|]. Последнее выражение мы обозначим буквой h(t, х). Заме- тим сразу, что Л(/, х) — ограниченная финитная функция, в частности, h е (Q). Перейдем к пределу в (3) при /->оо, воспользовав- шись теоремой Лебега о мажорируемой сходимости. Тогда получим та а f (s, х) = ХМ“ 5 е 4,1 K‘f(s + t, х?' x}dt - о - Ма (s +1, х?’ х) dt. о Отсюда сразу следует, что |Xzx(/, s, х) — f(s, х)| = = sup М“ е Х Lfffs + t, х?‘ x)dt «С ае *B(s, х) 0 т° а - sup М“ \ е ф< л< | / (sx“,x)|d/^zz(/i, s, х). ae53(s, х) q Короче говоря, | Xzx {f, s, x) — f (s, x) I Z* (Й, s, x). Это по теореме 5a) дает lim ]j Xzx(f, •, •)-/(•, X -» 00 ЙГП ] zx (Л, •, ^Цр+ьо^ЛГЦЛЦр+ьо lim 4=0. X-*oo J X -*oo л
108 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ [ГЛ II Тем самым при fi = 0 теорема 7а) доказана. В общем случае |Xzx(/, s, х) — f (s, х)| X sup М“е“ф“~ хт“ IЛ (s + т“, х“а Ч I 4- ae®(s, х) 14 т 71 т а X sup Ма e-<₽z - Ktf (s 4-1, xt' x) dt — f (s, x) ае$(М) q Здесь внешняя норма второго слагаемого стремится к нулю, а в силу ограниченности fr первое слагаемое не превосхо- дит произведения некоторой постоянной на (s, х) = Х sup Мае“Лта*s* х. a G $8(s, х) Значит, для окончания доказательства теоремы 7а) остается показать, что ]|лЛ||р+ i, Q'->0 при Х->оэ для любой ограниченной области Q', лежащей в Q вместе с замыканием. Для этого, в свою очередь, достаточно дока- зать, что nx(s, х)->0 равномерно на Q'. Кроме того, всякую такую область Q' можно покрыть конечным чис- лом цилиндров вида Cr, r(s, y) = {(t, х): \y — x\<R, |/ —s|<r}, причем так, чтобы C2r, 2/?(s, у) cz Q. Ясно, что достаточно доказать, что лх(/, х)->0 равномерно на любом подобном цилиндре. Фиксируем цилиндр Cr, t?(s, у) такой, что С^г, 2R (s, у) cz Q, положим т* (х) = inf {/0: |х — х^х|^/?} и через р(Х) обозначим положительный корень уравнения X — рК— — р2К = 0. Заметим, что при (/, х) е Cr, r (s, у) имеем Д (х). Поэтому Шае-Кха" х ==S XMae-v л т«(х> Хе-Кг 4- ХМае“Хт«(ж). Кроме того, по лемме 3.2 *) справедливо неравенство Следовательно, на Cr, r (s, у) функция лЛ(/, х) не превос- ходит Xe-V + X(ch fx(X)/?)-1. Простая выкладка показывает, что последняя постоянная стремится к нулю при Х->оо. ♦) В лемме 3.2 следует взять т = 0, ct = 1.
§ в] РЕШЕНИЯ СТОХАСТИЧЕСКИХ УРАВНЕНИИ 109 Значит, (/, х) равномерно на Cr, r (s, у) стремится к нулю. Теорема 7а) полностью доказана. Утверждение б) теоремы 7 доказывается вполне анало- гично, и проведение деталей этого доказательства предостав- ляется читателю в качестве простого упражнения. Дока- зательство теорем 6, 7 закончено. 8. Следствие. Пусть / е (Q), /^0 (п. в. Q) и при всех (s, х) g Q та inf М“( e~^f(s + t, x?'x)d/ = 0. (4) aeQ3 (s, x) q Тогда f = 0 (п. в. Q). Действительно, в силу теоремы 2.4 равенство (4) ос- танется верным, если f изменить на множестве меры нуль. Отсюда ясно, что при та inf Ма\ e~^~Kt f(s + t, xfx')dt = O. asQ3 (s, x) о Кроме того, при Д = 0 та а zx(—/, s, х) = — inf Ма f e~4>t ~Kt f(s + t, xf’^dt. aeQ3(s, x) q Значит, zK==0 в Q и —/= lim XzzZn = 0(n. в. Q). n -* co § 5. Решения стохастических интегральных уравнений и оценки их моментов В этом параграфе излагаются некоторые обобщения в нужную для нас сторону хорошо известных результатов о существовании и единственности решений стохастических уравнений и об оценках их моментов. Моменты решений оцениваются при выполнении условия линейности роста коэффициентов (условие (/?)), теорема существования и един- ственности доказывается для случая, в котором коэф- фициенты удовлетворяют условию Липшица (условие (<5?)). Фиксируем две постоянные Т > 0, К > 0 и условимся относительно обозначений, которые применяются ниже. (w6 — ^-мерный винеровский процесс; х, у — точки Ed\ az, аДх), (*) — случайные матрицы размера &/(х),
но ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ [ГЛ II bf (х), 5/, — случайные d-мерные векторы; r{, ht — неотри- цательные числа. Все процессы предполагаются заданными при t е [О, Т], Ed и прогрессивно измеримыми отно- сительно Если при всех /е[0, Т], w, х, у И (*) - II < А" | X - у I, I bt (х) - bi (у)| < № ! х - у I, то мы говорим, что выполнено условие (<^). Если же при всех t (= [О, Т], со, х Р а, (х) ||* < 2г? + 2№ | х |2, I bt (х)| ht + К2' х |, то будем говорить, что выполнено условие (/?). Заметим, что эти условия не будут накладываться на П/(х), bt(x). Кроме того, полезно иметь в виду, что если выполнено условие (^), то выполнено и условие (/?) при rt = || (ь (0) Ц, ht = | bf (0) | (с той же постоянной К), посколь- ку, например, || ot (х) ||2 2|| ст (0) ||2 + 2|| ст, (х) - ст, (0) |2. Как обычно, под решением стохастического уравнения t t Xt~lt-ir\os(xs}d'Hs + \bs(xsyds (1) о о понимается прогрессивно измеримый относительно {<#\} про- цесс X/, для которого правая часть (1) определена*) и для некоторого множества Q' полной меры хДо) совпадает с правой частью (1) при всех /е[0, 7], соей'. 1. Лемма. Пусть xt есть решение уравнения (1) при ^ = 0. Тогда для q^\ d | xt I2’ = [2<? | x, I2’-2 xfit (x,) + q | x, |2’-2 J ст, (x,) Ц2 + + 2q (q — 1) lx, |2*-‘|ct,* (x,)x, |2]d/ + + 2q | xt |2’-2x,ct, (x,) dw, < <71 x, |a?~2 (21 x, 11 bt (x,)| + -{- (2q - 1) В ст, (x,) ||2) dt + 2q | x, |2’~2x,ct, (x,) dw,. Доказательство этой леммы строится на применении формулы Ито к дважды непрерывно дифференцируемой функции 1 х|2? и использовании неравенств xibt^t\xi\bt\ |ст? (х,) X, I2 || СТ, (X,) ||2 I X, I2. 2. Лемма. Пусть выполнено условие (/?) и xt —реше- ние уравнения (1) при = Тогда при всех q^l9 е>0, ♦) Напомним, что стохастический интеграл в (1) определен Т и непрерывен по t при t 7\ если ( | (хЛ) J2 ds < оо (п. н.).
§ 5J РЕШЕНИЯ СТОХАСТИЧЕСКИХ УРАВНЕНИЙ 111 /(=[0, Т] (МI xt |2ф < 1 s> [МЛ?’]’ ds + + 2 (2q - 1) J ? 1'~г) [Mr?’] « ds, (2) 6 где A = 4^№4-e^ Если же выполнено условие (X), mo в (2) можно взять hs = \bs(O)\, = || сг^ (0) ||. Доказательство. Фиксируем q^ 1, е>0, /о е [0, Т] и обозначим правую часть (2) через ф(/). Докажем (2) для t = t0. Очевидно, можно считать, что ф(/0)<оо. Сде- лаем еще одно предположение, от которого мы избавимся в конце доказательства. Будем считать, что xt (со)— огра- ниченная функция св, t. Воспользуемся предыдущей леммой и условием (/?). Тогда получим d | xt |2* < [4?2№ | xt |2* + 2q | xt I2*-1 ht + + 2q (2q — 1) | xt |2’-2 r? ] dt + 2q | xt |2’-2 xtat (xt) dwt. Проинтегрируем no t и возьмем математические ожида- ния обеих частей этого неравенства. При этом ожидание стохастического интеграла пропадает, так как ввиду огра- ниченности хДсв), конечности ф (/0) и неравенства Гёльдера М $ | X/14? 41 °* to) I2 d* < ATM $ II az (xt) ||2 dt 0 0 t. to WM J I xt I2 dt + W $ dt о 0 to 1 + [Mr?’]’ Л<оо. 0 Кроме того, используем следующие неравенства: i_± 1_ М | xt j2?'1 ht (М | xt |2?) 2<7 (MV7)2q = 1 11 = (М | Xt I2’)2 [(М|xt I2’) ’ (M/i?’)’]2 < I м Ixt |2’ + i'e (M I Xt I2’)1 “V (M/i?’)V, M I xt I2’-2 d < (M I xt I2’)'" < (Mr?’)».
112 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ [ГЛ. II Обозначим еще т (/) = М I xt |2?, gt = f + 2<? (27 - 1) (M/?)< В силу изложенного выше при m (/) $ [ kqm (s) + gd™ Q ($)] ds. (3) о Применим далее известный метод преобразования подоб- ных неравенств. Возьмем б>0 и введем оператор F&, действующий на неотрицательные функции одного перемен- ного, заданные на [О, /0], по формуле FtU (/) = $ (s)+g,«* ’(s)]ds4-6, /е[0, /0]. О Нетрудно видеть, что F& — монотонный оператор, т. е. если О и1 (/) и2 (/) при всех /, то 0 ^F^u1 (/) ^F^u2 (t) при всех /. Кроме того, если неотрицательные функции и" в совокупности ограничены и имеют предел при каждом /, то Иттрия (/) = F& lini ип (/). Наконец, для функции п —► оо п ->оо v(t) = NeKq* при всех достаточно больших AhU^l имеем F&v (t) -С v (/), если i е [О, /0]. Действительно, 1-1 ' Fgu (/) N (eKqt — 1) + W q eKqt gse ~Ksds + 6 NeKqt о при N q gse~Ksds + 6AH 1. 6 Из этих свойств и из (3), выбирая W так, чтобы т (/) v (/), получаем т (/) F^n (/) ^... ^ Fd m (/) ^ у (/). Значит, lim/?6m(Z) существует, и если его обозначить п —► 00 уб(/), то m(f) Переходя к пределу в равенстве F2 + хт (/) = F§ (Firn) (/), заключаем, что щ = F6v6. Та- ким образом, при каждом б ^(0, 1) функция m(t) не пре- восходит некоторого неотрицательного решения уравнения = "(sjjds-hd. О
I 5] РЕШЕНИЯ СТОХАСТИЧЕСКИХ УРАВНЕНИИ 113 Решим это уравнение. Из него следует, что 0б(/)^6, иб(0) = 6 и Vs (0 = Xqv& (/) + g V6 o(t). (4) 1—1 Уравнение (4) после умножения на vg (что возможно в силу неравенства ^1^6) превращается в линейное урав- 1 11 нение относительно Решая его, находим vg (/) = fi<7 + + Ф (О- Таким образом, т (/) (6^ + Ф (О)7 при всех ^[0, AJ, д (0, 1). При 6->0 получаем утверждение леммы для ограниченных xt (w). Для доказательства леммы в общем случае обозначим через г# момент первого выхода xt из S#. Тогда х, дт^ (<о) — — ограниченная функция (со, /) и, как легко видеть, t t = T/?) dws + Xs<tRbs(xsЛXR) ds. 0 0 Значит, процесс xt ^XR удовлетворяет такому же уравнению, что их/, только оДх), fes(x) нужно заменить на Xs<^asW» %s<x#bs(x) соответственно. По доказанному выше М | X/ д XR |2? [ф (/)]?. Остается здесь положить R оо и воспользоваться леммой Фату, а также тем, что в силу непрерывности X/ момент т^-^оо при /?->оо. Лемма доказана. t 3. Следствие. Пусть § ||as||2ds < оо с вероятно- о стью 1, т — марковский момент относительно {^s}. Тогда при всех q^l т Д t asdws о М 27 И 1 'j 7 ^242?- l)?KlM||Qs|^Xs<r]'' ds\ lo ТА/ < 2» (2(7-1)^-^ H^rds. о Действительно, второе неравенство получается с помощью •равенства Гёльдера. Первое — вытекает из леммы, если
114 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ [ГЛ II взять as (х) = < т, bs (х) = 0, записать утверждение леммы с произвольными К, е и положить /<|0, е'О. 4. Упражнение. Анализируя доказательство леммы, покажите, что множитель 2? в следствии 3 можно заменить на единицу. 5, Следствие. Пусть выполняется условие (X) и xt —решение уравнения (1), a xt —решение уравнения Я< = It + 5 (ЯЛ dws + 5 bs (ЯЛ ds. 6 6 Тогда при всех q 2s 1, / е [О, Т] М | xt - Я, |2? «С 4?М I - h ft + t + # (<;, К) J е* k - С |2? ds + 6 t + N (?) J & {I bs (ЯЛ - bs (ЯЛ J2? Л- о + |fa,&)- М*Л!И ds, где ц = 4g2 № + q. Доказательство. Положим у, = (х, — Я/) — (& — £/). Тогда, как нетрудно видеть, t Dt = 'i fas G/s + + Ь - fs) - (ЯЛ] dws + 0 + hMl/s+*s+k-fs)-M^)]ds, 0 причем [аДх + Я. + ^-^-оДЯЛ], fas(*+*s+b-b)-M*s)l удовлетворяют условию (X). Отсюда по лемме, применен- ной к процессу yt, (М I yt |2^ {t ~s) [М | bs(Xs + Ь - L) - bs (ЯЛ |М di + О + 2 (2q - 1) J ° (Я, + - L) - о, (ЯЛ Н ’’ ds.
ft Ч РЕШЕНИЯ СТОХАСТИЧЕСКИХ УРАВНЕНИЙ 115 Возведем обе части неравенства в степень q и воспользуемся неравенством Гёльдера и тем, что t)-&Ж)|< =ss | bs (X + - L) - bs (xs) 14-1 bs (xs) - bs (xs) I< ^M2lL-£j4-lM^)-M^)l. + 2* 1 (a? + &?). Тогда получим M | yt >2? < 2?~1/?~1M 5 el,(z~s) [22?-*^ ! ^ - L l2? + + 22'7 11 bs (Sf) - bs (xs) + 27 (2g - 1 )< 22?' | b -1Г + + 2* (2q - 1)? 227 11) а(Xs) - as (x!s) Ц27] ds. Остается заметить, что | xt — | | yj + | & — |/1, i xt— xt |2? 27-11 yt |2? + 227 11 |2?- Следствие доказано. 6. Следствие. Пусть выполнено условие (/?) и xt — решение (1). Тогда существует постоянная N^N^q, К) такая, что при всех q 1, t <=[0, Т] М | х/ |l? ММ | ЬI29 4- Nt9 ХМ \[| |2« 4- h? 4- г2’] eN « - •> ds. О Действительно, процесс yt==xt — 5/ удовлетворяет урав- нению dyt = a (yt 4- It) dwt + b(yt + dt, y0 = 0, и коэффициенты этого уравнения удовлетворяют условию (/?), правда, с другими ht, rt, К. Например, i: (X + ы II2 2ц + 2№ IIX +11|2 2r} + 4К21Ь i2 + 4К21 х |. Следовательно, с помощью леммы мы можем оценить М | yt |2?. После этого нужно воспользоваться тем, что |х/|2^22^1|^| + 22<?-1|^|. В предыдущих утверждениях мы предполагали сущест- вование решения уравнения (1) и писали неравенства, которые иногда могут выглядеть как оо^оо. Теперь нам удобно доказать один из вариантов классической теоремы Ито о существовании решения стохастического
lie ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ [ГЛ. II уравнения. Поскольку доказательства таких теорем хорошо известны, то мы остановимся только на наиболее сущест- венных моментах. 7. Теорема. Пусть выполнено условие (X) и м$ [|&|2+1М0) i2+k/(0)li2]^<°o- О Тогда при t^T уравнение (1) имеет решение такое, что т М | xt |2 dt < оо. Если xh yt — dea решения (1), то о Pf sup \xt-yt\> 01 = 0. l'e[0, 7] I Доказательство. В силу следствия 5 М | xt — yt |2= = 0 при каждом t. Кроме того, процесс xt — yt представ- ляется в виде суммы стохастических интегралов и обычных интегралов. Поэтому он непрерывен почти наверное, и из равенства xt = yt (п. н.) при каждом t вытекает, что xt = = yt при всех t сразу (п. н.). Этим доказано последнее утверждение теоремы. При доказательстве первого утверждения, как всегда в подобных случаях, применим метод последовательных приближений. Определим оператор / по формуле t t Ixt = 5 (xs) dws + 5 bs (xs) ds. (5) 0 0 Этот оператор определен на тех процессах xt, для кото- рых правая часть (5) имеет смысл, и переводит их в про- цессы Ixt, значения которых вычисляются по формуле (5). Обозначим через V пространство прогрессивно изме- римых процессов xt со значениями в Ed таких, что Ы1 = Н V 0 < оо. Легко показать, что оператор / переводит V в V. Кроме того, из условия (X) нетрудно вывести, что t ^\Ixt-Iyt\2^aM\ i xs - ys j2 ds, (6) о где а = 2К2(1 + 7Ж2).
§5] РЕШЕНИЯ СТОХАСТИЧЕСКИХ УРАВНЕНИЙ Ц7 Положим х<0)=0, x<rt+!) = ^ + 1х\п} (/1=0, 1,2,...). Из (6) вытекает t М | х<п + 0 — х^ |2 ^аМ $ |х<л) — х*"-1) j2 ds. 1 о Итерируя это неравенство, находим и+'^п’^ЧгИ'Т т п п Поскольку ряд из чисел (Та)2 (п!) 2 сходится то из (7) вытекает, что ряд, составленный из функций х*"*0— — х<п), сходится в V. Иначе говоря, функции хр+]) схо- дятся в V и существует процесс g V такой, что ||х<п) — X/J->0 при п-^оо. Далее, интегрируя (6), получаем (8) В частности, оператор / непрерывен в V. Переходя к пределу в равенстве + —(£/ + /x<n))||==0, заключаем: II II = 0. Отсюда и из (8) следует, что Ixt — = I (g + Ix)t ПРИ почти всех /, со. Однако обе части этого равенства непрерывны по t при почти всех со. Поэтому они совпадают при всех t сразу почти наверное. Окон- чательно, обозначая xt = + /х6 получаем xt = %t + + Щ +Ix)t = i>t +Ixt при всех / сразу почти наверное. Таким образом, х, —решение исходного уравнения (1), и теорема доказана. 8. Упражнение. Замечая, что vs (х) = [о^ (х) — — <М0)] + а5 (0), докажите, что утверждения теоремы т остаются в силе, если | |2 dt<Z сю, где о t t = It + 5 (°) dv/s + Ь° (°) ds- о 0 Продолжим оценки моментов решений стохастических уравнений. 9. Теорема. Пусть выполнено условие (X) и xt — решение уравнения (1), xt —решение уравнения t ~ t й = & + $ (Ъ) dws + $ (^) ^8. о о
118 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ [ГЛ II Тогда, если процесс 5, —сепарабелен, то процесс xt — %t сепарабелен, и при всех q^\, t е [О, Т] М sup I х$ - |2’ < NeN‘M sup I - L Iм + S^t s^t + Nfi-W'M J [| bs (x.) - bs (*,) ,2’ + II °* (xs) - as (^) ||2’] ds, 0 где У = У(?, К). Доказательство. Очевидно, xt — %t есть сумма tt — Е/, стохастических интегралов и обычных интегралов. Последние непрерывны по t. Поэтому из сепарабельности It —It вытекает сепарабельность xt — xt и, в частности, изме- римость по со величины sup'x5 — х5|. Далее, как и в доказательстве следствия 5, утвержде- ние теоремы в общем случае легко выводится из ее утвер- ждения при Ez = |f = xz = O, сг5(х) = О, Ь5(х)=0. В этом частном случае нужно доказать, что М sup I xs I2’ < ([| bs (0) j2’ 4- II as (0) II2’] ds. (9) о Используя те же рассуждения, что и в доказательстве леммы 2, убеждаемся, что при этом можно рассмотреть только случай ограниченных функций xf (го) и дополни- тельно предположить, что правая часть (9) конечна. Докажем сначала, что процесс о является субмартингалом. Фиксируем 8>0 и введем вспо- могательную функцию действительного переменного г по формуле ф (г) = уг/'2 + е2. Заметим, что ф (| х I) — гладкая функция на Ed. По формуле Ито d [ф (I xt 1)е«*'] = е™ {№ф (| xt |) + Ф' (| xt |) + 1 * Q? (х X |2 1 1 Г + ф"(Ы)4 1 +фг (1м4г^[!1<ШИ- _ |а? (*/р7 |2~Ц d( + Х,0, (Xt) d
§ б] РЕШЕНИЯ СТОХАСТИЧЕСКИХ УРАВНЕНИЙ 119 Проинтегрируем по t от Si до s2^si и возьмем услов- ное ожидание при условии При этом математическое ожидание стохастического интеграла пропадет (см. доказа- тельство леммы 2). Воспользуемся также тем, что поскольку bt(x^xt^ - |M*,)I^I^ - №]x,|2 - |^(0)||xJ, 0 < ssS <p'(r) «S 1, | r I <p(r), T0 №<P (I xt I) + q>' (j xt i) -1 b‘ (°) I’ I Л/ I Кроме того, <p"^=0, | xt |21| <jt (xt) ||2 2s1 ot (xt) xt |2. Таким образом, M {<p (| xs, I) eK's‘\ /J - Ф(Ixs, I) eKts* >мПe™\bt (0) | dt | «Fs I. bi * Устремляя теперь 8 к нулю, из этого неравенства с помощью теоремы о мажорируемой сходимости получаем М К1 Следовательно, ty — субмартингал. По известным неравенствам для субмартингалов (см. Добавление 2) и по неравенству Гёльдера М sup | xs |29 М sup г]*? 4Мт]?*7 4 • 227~1^7<2/М | xt |27 + + 4.22«-1е2дк»72?-1М j | bs (0) |2? ds_ о Остается применить лемму 2 или следствие 6 для оценки М | xt |27 и заметить, что taebt N (a, b) e2bt при а>0, 6>0, />0. Теорема доказана. 10. Следствие. Пусть выполнено условие (R) и xt — решение уравнения (1). Тогда существует постоянная N (q, К) такая, что при всех q^l, t е [0, Т] М sup I xs - Ь i2’ =с ([ IL |2?+Й1’ 4- г2,4} ds. s^t 5 Если же h — сепарабельный процесс, то Msup|xJ27<WMsup||, |27 + s^t + Nt«-W‘M J [ IL |2? + + r?’] ds. 0 Прежде всего заметим, что второе неравенство легко следует из первого. Для доказательства первого введем
120 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ [ГЛ. II процесс yt = xt — lt. Очевидно, dyt = ot (yt 4- dwt 4- bt (yt + + Уо = О- При оценке yt> как и в доказательстве леммы 2, достаточно рассмотреть только случай, когда yt (о) — ограниченная функция. В этом случае, как и в доказательстве теоремы, пользуясь неравенством bt (у( 4- + Ъ) & - № Ш2 ~ 1 It I + ht) | yt I, получаем, что про- цесс тк = ШеК!' + И5 (№|hl + ^)ds О является субмартингалом. Отсюда по неравенствам для субмартингалов и по неравенству Гёльдера находим М sup | yt |2* М sup t NeNtM | yt |29 + NeNtt24~1M J (| |29 + ft29) ds. 0 Для оценки M | yt I27 остается применить лемму 2, заметив, что <^(%4-£f), + удовлетворяют условию (/?), если в нем Г/, hh К заменить соответственно на r2t + 2K2\lt\\ A,4-/<2IU 2К. t 11. Следствие. Пусть ^||oj2ds<;oo (п. н.). Тогда о при всех q 1 S М sup \ a (Tws g 2q t 29+2 (2? - 1)’ /9^M J || a, ||29 ds. 0 Это следствие, как и предыдущее, легко выводится не из утверждения теоремы, а из способа ее доказательства. Взяв vs(x) = GSt bs(x) = 0, мы получим процесс xt = = § Оу dw.y. Из доказательства теоремы при = 0 мы о видим, что | xt | — субмартингал. Поэтому М sup | xs |27 s^t sg 4М | х( |29. Последнее выражение нужно оценить с по- мощью следствия 3. 12. Следствие. Пусть существует постоянная такая, что || at (х) || +1 bt (х) | (1 +1 х I) при всех t, <о, х. Пусть xt —решение уравнения (1) при lt = x0, где х0 —
§ Б] РЕШЕНИЯ СТОХАСТИЧЕСКИХ УРАВНЕНИИ 121 фиксированная точка Ed. Тогда существует постоянная N (q, KJ такая, что при всех [О, Т] £ М sup | xs -х01* Nt2eNt (1 +1 х01)9, М sup I xs\q^ NeNt (1 +1 XO1Л s^t Действительно, при q 2 эти неравенства являются частными случаями оценок из следствия 10. Для их дока- зательства при ?е[0, 2] нужно взять гц = sup | xs — х01 х s^t X(l+|xo|)-1, ib = sup |xj (1 + |х0 I)"1 и воспользоваться 5 < t Q_ тем, что по неравенству Гёльдера М | ?]/(М | ?]/12)2 • 13. Замечание. Последовательные приближения х", определенные в доказательстве теоремы 7, обладают тем свойством, что lim М sup I х" — х. I5 * * 8 = 0, л —*-со , < Т 1 1 1 где х, —решение уравнения (1). В самом деле, ^+1=^+/х7, xt = it+mt, x?+'-xt = ix?-izt. Отсюда по неравенству Коши — Буняковского и по след- ствию 11 t 2 + 2Msup $[Mxs")-\Ods т о 5 II os (х") - <ys (^) II2 ds + 0 0 0 Последнее же выражение, как мы видели в доказатель- ве теоремы 7, стремится к нулю при п->оо.
122 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ [ГЛ II § 6. Существование решения стохастического уравнения с измеримыми коэффициентами В этом параграфе на основе оценок из предыдущих параграфов доказывается, что в широком классе случаев существует вероятностное пространство и винеровский про- цесс на нем такие, что стохастическое уравнение с изме- римыми коэффициентами и этим винеровским процессом имеет решение. Иными словами, как принято говорить, мы строим здесь «слабые» решения стохастических уравне- ний. Основное отличие «слабых» решений от обычных («сильных») решений заключается в том, что последние строятся на любом a priori заданном вероятностном про- странстве и по любому заданному винеровскому процессу. Пусть о(/, х) — матрица размера dxd, b(t, х) —d-мер- ный вектор. Будем предполагать, что а (/, х), b (t, х) за- даны при /^0, х g Ed, ограничены и измеримы по Борелю относительно (/, х). Пусть еще матрица а(/, х) положи- тельно определена и, более того, для некоторой постоян- ной б > 0 при всех (/, х), X е Ed (а (/, х) X, X) б | X |2. 1. Теорема. Пусть x<=Ed. Тогда существует ве- роятностное пространство, винеровский процесс (wz, eFz) на нем и непрерывный процесс xt, прогрессивно измеримый относительно такие, что почти наверное при всех t^O сразу t t X/ = x + ^o(s, xs) dws-\-^b (s, xs)ds. о 0 Для доказательства этой теоремы нам понадобятся два утверждения, принадлежащие А. В. Скороходу. 2. Лемма (см. § 6 гл. 1 [61]). Пусть на некотором вероятностном пространстве определены й^мерные случай- ные процессы lnt (/^0, n = 0, 1, 2, ...). Предположим, что для всяких 8>0
§6] УРАВНЕНИЯ С ИЗМЕРИМЫМИ КОЭФФИЦИЕНТАМИ 123 Тогда можно подобрать последовательность номеров п', вероятностное пространство и случайные процессы \t, определенные на этом пространстве, так, чтобы все ко- нечномерные распределения совпадали с соответствую- щими конечномерными распределениямииР{\^'-h\> >е}->0 при п' ->оо для всех е>0, /^0. 3. Лемма (см. § 3 гл. 2 [61]. Пусть выполнены пред- положения предыдущей леммы и на том же вероятност- ном пространстве определены еще димерные винеровские процессы (w?, а?7). Предположим, что функции %" (о) огра- ничены на [0, оо)хй равномерно по п и стохастические интегралы /" = $ dw" определены. Пусть, наконец, Q -> о s 1°, ws ws по вероятности при п^оо для всякого s^O. Тогда /? -> /? при п^оо по вероятности для вся- кого t^O. 4. Доказательство теоремы 1. Сгладим а, b с помощью свертки. Положим (/, х) = а(8л) (/, х), bn(t, х) = = b^(t, х) *) (см. § 1), где ел —> 0 при п->оэ, елу=0. Понятно, что оп, Ьп ограничены в совокупности, ал->а, bn^b (п. в.) при п->оо, (аЛ Х) = ((А, X)(8«)^6|Z|2 при всех n^l. Обозначим сг0 = а, Ьц = Ь. Возьмем некоторый d-мерный винеровский процесс (wz, и при п = 1, 2, ... рассмотрим решения следую- щих стохастических уравнений dxf = ал (/, х") dwz + + &л(/, xtydt, х" = х. Заметим, что производные о", Ьп ограничены при каждом п, поэтому функции оп, Ьп удовлетворяют условию Липшица и решения этих уравне- ний действительно существуют. По следствию 5.12 при всяком Т sup М sup I х" I < оо. п t < Т 1 1 Отсюда по неравенству Чебышева вытекает, что lim sup sup Р fix" I >с}«0. с-оо п t < т 11 1 J ♦) При вычислении свертки мы полагаем а1/ (/, х) = 66% Ь1 (/, х) = 0 при /<0.
124 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ [ГЛ. II Далее, при /2 > tr Xt, ~ Хь = 5 °п (S- Xs") dw* + 5 bn (S- Xs") ds- t1 Отсюда no следствию 5.3*) при /2 —получаем 2 12 М I XG“ Xtx П lMK(S’ Xs) II4] 2 ds( + +AfM J &n(s, xs)^s ^N{t2 - ttf+N(t2 - - /J2, где постоянные N зависят только от верхних граней [| а ||, | b | и не зависят от п. По неравенству Чебышева lim sup sup Р f| х" — х" | > el =0. (1) /Ц0 n \tl-i2\<h 11 r’ h 1 J С помощью леммы 2 теперь заключаем, что существует последовательность номеров д', вероятностное пространство и случайные процессы (хГ; w/ ) на этом пространстве та- кие, что конечномерные распределения (х? ; w? ) совпадают с соответствующими конечномерными распределениями про- цессов wz) и при всех /^0 существует предел, ска- жем, (х°; w°) по вероятности последовательности (х"'; w"') при л'->оо. Для простоты обозначений будем считать, что последовательность совпадает с {1, 2, 3, Процессы (х"; w") можно считать сепарабельными при всех п^О. А так как М | х^ — xz^ |4 = М | х" — х^ |4 ^TV|/2 —^il2 при я>0, |^2~^11=^1, то (по лемме Фату) соотношение между крайними членами этого неравенства имеет место и при п = 0, а тогда по теореме Колмого- рова х" — непрерывный процесс при всех n^O. w" также непрерывны, как сепарабельные винеровские процессы. Далее, фиксируем некоторое Т>0. Процессы (х”; w,) измеримы относительно при t^T, а приращения w5 после момента Т не зависят от Следовательно, про- цессы (х"; wz) (t^T) не зависят от приращений после момента Т. Ввиду совпадения конечномерных распределе- ний процессы (х^; w") (t^T) также не зависят от при- •) В следствии 5.3 нужно взять т = оо, t = = ол (s, >
§ 6] УРАВНЕНИЯ С ИЗМЕРИМЫМИ КОЭФФИЦИЕНТАМИ 125 ращений после момента Т при п^1. Это же свойство, очевидно, имеет место и для предельного процесса, т. е. оно справедливо при п = 0. Отсюда легко вытекает, что при п О процессы w" являются винеровскими относи- тельно о-алгебр определяемых как пополнение a{xsn, w$: s^c/}. Кроме того, при и каждом s^t величина xsn -измерима, а так как х" непрерывно nos, то — прогрессивно измеримый процесс относительно {^п)}. Эти рассуждения показывают, что встречающиеся ниже стохастические интегралы имеют смысл. Пусть (а) = 2~m [2ma], где [а] —целая часть числа а. Так как vn(t, х") при являются ограниченными функциями (со, /), непрерывными по /, и (/)->/ при пг -> оо, то lira J,")-<7,(«„(/), т —► оо Q т при п 1 для любого Т 0. Поэтому для любого t 0 t t 5 Стп (s, &п) dvr" = 1 ,i .m (<зп (xm (s), xZ (s>) dw" = 0 zn->oo0 m = l.i.m an(^2 , *£2“mMW(*+l) 2“™“ WA2“/n)* m °° k2~m t t Записывая аналогичные соотношения для $ an (s, x") dw^, о t t $ bn (s, x") ds, $ bn (s, x") ds и пользуясь совпадением извест- 0 о них конечномерных распределений, нетрудно доказать, что при всех п 1, t 0 t о М t %)ds о 2 « 0. Иными словами, (S> tyd*s+\bn(.S> 4~}ds (2) о о при каждом /^0 почти наверное. Мы закончили первый шаг доказательства. Если раньше у нас были процессы х^
126 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ (ГЛ II относительно сходимости которых ничего не было изве- стно, то теперь мы имеем уже сходящиеся процессы х". Они, правда, в отличие от х" удовлетворяют уравнению с меняющимся при изменении п винеровским процессом. Перейдем к пределу в (2) при п->оо. Для любого /io 1 имеем §cr„(s, X2)dw? = О #)dwsn + $[a„-ano](S, X")dw?. (3) О о Здесь ano(s, xs) удовлетворяет условию Липшица по (s, х). Поэтому ||аПо(/2,Х<")-стп,(4,Х<")||<^(|/8-/1|4- +1 I) и в СИЛУ (1) limsup sup Р{||стпо0г, X",) — о„0 (/ь X/,)В>в} = 0. МО п Отсюда по лемме 3 вытекает, что первое слагаемое t в (3) по вероятности стремится к $ano(s, х$) dw$. Стало о быть, применяя неравенство Чебышева, получаем lim Р п —♦ оо t t i <3n0{s, Xfidw" — ( ano(s, X°)dw° «С lim Р оо CTn0 (s, Xtn)] dw" + lim P n —► oo i j [o„0 (s, XS) — CT0 (s, XJ)] dw°s 0 t Ц — an01|2 (s, X*) ds + 0 i + M QoJ2 (s, *2) ds
16] УРАВНЕНИЯ С ИЗМЕРИМЫМИ КОЭФФИЦИЕНТАМИ 127 Оценим последнее выражение. Очевидно, (s, xs")|ds^ezM Jе~s \f (s, xs")| ds^ о о \e~*\f (s, j?sn) | ds. о Значит, по теореме 3.4 *) м[ |/(s, + 0 при n^l, где N не зависит от n. При n = 0 это нера- венство также имеет место, что легко доказывается для непрерывных f с помощью предельного перехода при п->оо и леммы Фату, а затем для всех борелевских с помощью результатов § 2 гл. I [48]. Пусть еще w (/, х) — непрерывная функция, равная нулю при /2 +1 х |2 1 и такая, что оу (0, 0)=1, х)=С1. Тогда при/?>0 t + Hm М f #)ds< П~+<Х) J \ К ' 0 t Аналогично оценивая M || оПо — а01|2 (г, х°) dr, оконча- о тельно находим ♦) Нужно, конечно, отметить, что у (ала*^> = у | |2 Зе у 6а IX I», так как б | X |а (ояХ, Х) = (Х, а*Х) | X | |а*Х|.
128 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ [ГЛ I! для любых По > О, R > 0. Заметим наконец, что послед- нее выражение стремится к нулю, если сначала положить п0->оэ, а затем R->oo. Следовательно, a„ (s, X?) dw" -> $ °o(s, 2s) dw^ 0 0 по вероятности. Аналогично обстоит дело со вторым ин- тегралом в (2). Таким образом, из (2) заключаем г / 2, = х + $ ст0 (s, 2j) dv/l +$MS, 2s) ds ° 0 при каждом почти наверное. Остается заметить, что обе части этого равенства непрерывны по t и поэтому совпадают при всех t сразу на множестве полной вероят- ности. Теорема доказана. § 7. Некоторые свойства случайных процессов, зависящих от параметра При исследовании гладкости функции выигрыша в за- дачах оптимального управления удобно пользоваться тео- ремами о дифференцируемости в среднем случайных вели- чин по некоторому параметру. При этом часто оказы- вается, что интересующая нас случайная величина, ска- жем, J (р) зависит от параметра р сложным образом. Например, J (р) может задаваться как функционал от траекторий некоторого процесса х/>, зависящего от р. В этом параграфе как раз и доказываются утверждения о дифференцируемости в среднем тех или иных функцио- налов от процессов, дифференцируемых в среднем. На протяжении всего параграфа фиксированы три по- стоянные Т, К, 1. Определение. Пусть действительный случайный процесс xt (со) определен при t е [0, Т]. Мы пишем xt если процесс х,(со) измерим по паре (со, t) и при всех т | xt I? dt < оо. о Будем писать xt^XB. если X/ —сепарабельный процесс и
I 7J СВОЙСТВА ПРОЦЕССОВ, ЗАВИСЯЩИХ ОТ ПАРАМЕТРА 129 при всех q 1 М sup |xz|?<oo. t < т В множествах ХВ естественным образом опреде- ляется сходимость. 2. Определение. Пусть xj, х\, ^Х(ХВ). Мы говорим, что «if-предел («ifB-предел) про- цессов х" равен xj, и пишем lim хр = xj (ХВ- lim х" = и —* оо \ п ->оо = xj\ если при всех qp^ 1 lim IVK I x? — x%? dt = O ( lim M sup I x" — x? I? = 0\. n —► co о 1 \n —► co t^T 1 1 J После того, как введены понятия «if-предела, «SfB-npe- дела, понятно, что означает, что процесс хр «if-непрерывен или «ifB-непрерывен по параметру р в точке р0- 3. Определение. Пусть pv^Ed, единичный век- тор / е Ed, yt^X (ХВ) и для всякого р из некоторой окрестности точки р0 задан процесс xPt е X (ХВ). Будем говорить, что yt является «if-производной («ifB-производ- ной) xPt в точке р0 по направлению Z, и писать если ~di х? = Ро (и* ~ х* = Ро) ’ yt = Jf-lim у (хр° +rl — х^°) (yt = XB-\]m у (xp» + rl — хр^\. Мы говорим, что процесс хр один раз «^-дифференци- руем (<5?В-дифференцируем) в точке р0, если он имеет «if- производные («ifB-производные) в точке р0 по всем направ- лениям I. Процесс хр называется i раз (f^2) «^-диффе- ренцируемым («ifB-дифференцируемым) в точке р0, если он один раз «^-дифференцируем («ifB-дифференцируем) в не- которой окрестности *) точки р0 и каждая его (первая) ♦) То есть в каждой точке этой окрестности. 5 Н. В. Крылов
130 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ [ГЛ I! «^-производная (^^-производная) i— 1 раз ^-дифферен- цируема (J^B-дифференцируема) в точке р0. Эти определения даны только для числовых процессов xt. Понятным образом они переносятся на векторные и мат- ричные процессы xt. Далее, как и в обычном анализе, мы пишем у? = = Х~хр, если ур° = «5?-^- хр |р = Ро для всех рассматри- ваемых р0> = и так далее. д1г dl2 f д1г \ dl2 * / Мы говорим, что хр i раз «^-непрерывно ^-дифференци- руем, если все «if-производные х? до z-го порядка вклю- чительно «^-непрерывны. Подобные само собой разумею- щиеся вещи впредь объясняться не будут. Определения 1—3 будут применяться не только к слу- чайным процессам, но и к случайным величинам. При этом случайные величины будут рассматриваться как про- цессы, не зависящие от времени. Для того чтобы привыкнуть к данным определениям, отметим несколько их простых свойств. Очевидно, понятия «^-непрерывности и ^fB-непрерывности для случайных ве- личин совпадают. Далее, | Мхр — Мх^° | М | хр — хр° |. По- этому ожидание «^-непрерывной случайной величины не- прерывно. Поскольку | у (Мхр° +rl — Мхр°) — Му | М | у (хр° + rl — х^°) — у |, то производная по направлению I от Мх^ в точке р0 равна математическому ожиданию от «^-производной хр, если последняя существует. Таким образом, знак первой производной можно переставлять со знзком математиче- ского ожидания. Комбинируя уже перечисленные свойства, получаем, что Мхр существует и непрерывна в точке р0, если величина хр X-непрерывно «^-дифференцируема в точке р0 по направлению /. Аналогично обстоит дело с производными высших порядков. Так как при г<Т М | ХР — ХР° М sup | ХР — ХР° то — ^-непрерывная величина, если т (со) Т при всех ®, — <5?В-непрерывный процесс и —измеримая функция
$ Л СВОЙСТВА ПРОЦЕССОВ, ЗАВИСЯЩИХ ОТ ПАРАМЕТРА 131 от со. Аналогичное неравенство показывает, что для тех же т (1) если xf> имеет «ifB-производную по направлению /, хр и правая часть (1) являются измеримыми функциями со. Эти рассуждения позволяют выводить свойства «^-непре- рывности и X-дифференцируемости случайной величины хр из свойств «ifB-непрерывности и «2?В-дифференцируе- мости процесса хр. Кроме того, формула (1) показывает, что можно переставлять знаки подстановки т вместо t и знаки вычисления производных. Предположим, что непрерывный по t процесс хр ХВ- непрерывен по р в точке р0 и т (р) — случайные функции со значениями в [О, Т], непрерывные по .вероятности в точке р0. Утверждается, что в этом случае хР{р} «^-непрерывны в точке р0. Действительно, разность I х%\р) “ х?(р0) |,<7 О п0 вероятности при р р0 и ограни- чена суммируемой величиной 2?-1 sup | хр° |*. Стало быть, ее ожидание стремится к нулю, т. е. величина х£°(р) X- непрерывна. «^-непрерывность второй величины вытекает из «^-непрерывности первой и неравенств М | ХРг (Р) - *?°(Ро) |? 2?-1 М I (Р) - (Р) |? + + 2?-1 М | х?»(р) - х₽«(ро) 29-1 М t J5upr ] | х> - |? + + 2?-1М|х₽«(р) -х^. По неравенству Гёльдера I Xs “ Xs° I T T^-1 M $ | хр — хр9 |? ds. о t Следовательно, х£ ds —«^^-непрерывный процесс, если о процесс хр «^-непрерывен. Подобным же образом до- казывается, что этот интеграл имеет JfB-производную по б*
132 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ (ГЛ II направлению I и она совпадает с интегралом от «^-произ- водной хр по направлению /, если последняя существует. Иначе говоря, знак производной можно вносить под знак интеграла. Комбинируя приведенные выше утверждения, можно получить массу других нам необходимых, но совершенно элементарных фактов. Из-за их простоты мы их не фор- мулируем и не доказываем. Полезно иметь в виду, что если {^t} — некоторый поток о-алгебр в Q и процесс хр k раз <5?-дифференцируем в точке р0 и прогрессивно измерим относительно {^/}, то все его производные могут быть выбраны прогрессивно измеримыми относительно {^/}. Имея в виду возможность индукции, докажем этот факт только при k=l. Пусть yp = £-JL хр. Фиксируем р и найдем последовательность гл->0 так, чтобы у- ^ + Гп1 — xpt) -> ур почти всюду по мере dPxdt. После этого положим ур= lim —1х^ + Гп1 — — х^} при тех со, /, при которых этот предел существует, и ур = 0 на оставшемся множестве. Ясно, что процесс р? прогрессивно измерим, и так как ypt=ypt (п. в. dPxd/)» то Сделанное замечание будет всегда учитываться при вычислении ^-производных стохастических интегралов. Выше мы говорили, что знак производной можно пере- ставлять со знаком обычного интеграла. Используя след- ствие 5.11, немедленно получаем, что если (wz, мерный винеровский процесс, of’ —матрица размера d2xd13 прогрессивно измеримая относительно {<^\} и <5?-непрерыв- t ная в точке р0, то интеграл Qt dwt <2?В-прерывен в точке р0. о Если же о? «^-дифференцируема в направлении I в точке р0, то при р = р0 t t j af dws = J (X-± of) dvis.
§ 7] СВОЙСТВА ПРОЦЕССОВ, ЗАВИСЯЩИХ ОТ ПАРАМЕТРА 133 Аналогичное утверждение очевидным образом справед- ливо для производных высших порядков. 4. Упражнение. Докажите, что если функция х? непрерывна (непрерывно дифференцируема) по р в обыч- т ном смысле при всех (/, со) и функция М $ | xpt f dt о 7 Т N IМ | xf dt при любом /; | /1 = 1 j ограничена в неко- \ о ) торой области для любого то процесс хр «^-непре- рывен (^-дифференцируем и Х? = ~^Г в этов °б- ласти. Перейдем к изучению непрерывности и дифференцируе- мости сложной функции. Нам понадобятся три леммы. 5. Лемма. Пусть при п = 1, 2, ..., t е [О, Т], х е Ed определены измеримые по (w, t) dr мерные про- цессы х* и измеримые по (со, /, х) величины ИЦх). Пред- положим, что х"->0 при п^-оо по мере dPxdt, h"(x) непрерывна по х при всех п, со, t и выполнено одно из следующих двух условий: а) при почти всех (w, t) lim lim w” (S) = 0, d -► 0 n —►oo где w" (6) = sup I h" (x) I; б) для всякого e>0 ___ T lim lim f P ! w* (6) > el dt = 0. 6->0n->oog 1 ’ Тогда |)->0 при n-^oo no мере dP xdt. Доказательство. Заметим, что поскольку Л" (х) непрерывна по х, то w” (6) измерима по (со, /). Далее, из условия а) вытекает б), так как а) означает, что w" (6) -^0 при п->оо, б—>-0 почти всюду, а б) означает то же, но по мере dPxdt.
134 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ [ГЛ. II Наконец, для всяких е>0, 6>0 ___ т lim Р {^?(| n->co Q ___ Т ___ 1 < lim \ Р {| х? I > 6} dt 4- lim \ Р f ш" (6) > е] dt. П-*ОО 0 1 J П —► ОО q Здесь первое слагаемое равно нулю по предположению. Значит, положив 6->0, с помощью б) получаем утвер- ждение леммы. 6. Лемма. Пусть х” —измеримые по (со, I) ^-мер- ные процессы (п = 0, 1, 2, ... , t е [О, Т]) такие, что X- lim х“ = х®. Пусть ft(x) —случайные величины, опреде- п —► оо ленные при t е [О, Т], хе Ed, измеримые по (<о, /), не- прерывные по х при всех (со, t) и такие, что \ ft(x | «С /С(1 +1 х | )т при ecex<a,t,x. Тогда J£-lim /Д*?) = f (я?). Доказательство. Заметим прежде всего, что в силу условия | f( (х) | sg К (1 4-1 х | )т процессы /Д х?) е <5? при всех n^sO. Далее, ft^) представляется в виде АД у?), где АДх) = /Дх 4-х®) - /Дх?), i/"=x"-x*. Т Поскольку М$ | у"| то у"-*-0 по мере dPxdt. Отсюда по лемме 5, примененной к у” и АДх), получаем: АД^")-*О по мере dPxdt. Так как функция 0ГРаничена и ^ = |йДг/?)|[|ЛД{/?)|4-1]-1-0 по мере dP х dt, то для любого q 5= 1 т lim М $ lg? I2? dt = Q. (2) П-+СО Q Кроме того, ввиду оценки | ft (х) | К (1 + |х | )т и того, что 7 Т Mj | x?-xQt^mdt~+0, IVK \x}^mdt<<x>9
§ Л СВОЙСТВА ПРОЦЕССОВ. ЗАВИСЯЩИХ ОТ ПАРАМЕТРА 135 имеем т sup I х" l2?m dt < оо, (3) п о т т supMj (l+|Az(j/")|ptf<supM$ [l+K(l+|x?|)m + П о п О + К (1 +1 х? I)"1]27 dtcoo. Из (2), (3) по неравенству Коши — Буняковского заклю- чаем, что т lim М \q Л—*СО Q I Т \- / т \- lim IМ 5 |g;p<#)2 (М$ (1 +\ht («/") Ip Л)2 =0 п-*оо У о / \ 0 4 / для любого q^l. Лемма доказана. Отметим простое следствие этой леммы. 7. Следствие. Если при п = 0, 1, 2, ... определены одномерные процессы х”, и X- lim x" = xj, «Sf-lim у* = у^ n-*oo n-»oo mo X- lim xnttf} = x“«/°. В самом деле, двумерный процесс (х", у"} имеет «if- предел, равный (х?, уЧ), а функция f (х, у) = ху удовлет- воряет условию роста | / (х, у) | ^(1 -}-рх24-г/2)2. Поэтому •SMhn f(x", = У°)- 8. Лемма. Пусть выполнены предположения леммы 6 и, кроме того, при п=1, 2, ..., и е [0, 1] определены непрерывные по и, измеримые по (<о, t) ^-мерные случай- ные величины х?{и) такие, что jx^(u) — х° j^xj1 — х°|. Тогда Jf-lim \ft(x1^du = ft{x^. (4) Доказательство. По неравенству Гёльдера при q 1 о 1 Q №(х?(м))_Мх°)Ии < о 1 Q du. о
136 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ [ГЛ II Из неравенств । х“ (и) — х® — х" , х" (и) х° + -Ь ' х* — xQt I следует, что хр (и) е X и X- lim хр (и) = х° 1 и —♦ со 1ри каждом ие[0, 1]. Значит, по лемме 6 /„(«)= м 51А («)) - А (х?) р dt -> о. о Наконец, в силу неравенств , А(хр («))|^/<(1 +;Х/" (“) *(1 +|*?-xt |' + |*?!Г получаем, что допредельное выражение в (4) принадлежит X, а величины 1п(и) в совокупности ограничены. По тео- реме Лебега при п->оо т 1 MJ о о Q 1 Л < \ln (и) du ->- 0. о Лемма доказана. Докажем теорему о непрерывности и дифференцируемо- сти сложной функции. 9. Теорема. Пусть при х е Edl и р из некоторой окрестности точки pQ е Ed определены случайные процессы хр = хр(ы), ft (х) = /Дсо, х) со значениями в Ed и Ег соот- ветственно, заданные при t е [0, Т] и измеримые по (t, со). а) Пусть при всех t, w функция ft (х) непрерывна по х, | ff(x) | К (1 +1х 1)т, процесс хр X-непрерывен в pQ. Тогда процесс ft{x^) также X-непрерывен в точке pQ. б) Пусть при всех t, со функция ft (х) i раз непрерывно дифференцируема по х, она сама и все ее производные до порядка i включительно по абсолютной величине не прево- сходят К (1 +1 х | )т. Тогда, если процесс хр i раз {X-непре- рывно) X-дифференцируем в точке pQ, то процесс также i раз (X-непрерывно) X-дифференцируем в точке р0- Кроме того, для единичного вектора I Еа 1. (Ч) -I, и (Ч)|Ч|. ® I, И)=I, (,f) (ч) | ч I+1. (,?) w (ч) I у; Г <6) где ?р = Х-^хр, ур = Х~ хр, для тех it р, для которых
свойства процессов, зависящих от параметра 137 § Л выше утверждается существование левых частей форму (5), (6). Доказательство. Для доказательства а) достаточнс взять любую последовательность точек рп-+Ръ, положить х<п) = х^ и воспользоваться леммой 6. Докажем б) при i = 1. Заметим прежде всего, что (х, у) = s= ft (у) (*) IУI — непрерывная функция (х, у) и !А(х, y)\ = \ftw (X) ||у|<К(1 + |х|)т|у|^________ N (1 + К|х|2+Ш2)т+1- Далее, возьмем единичный вектор I е Ed, какую-нибудь последовательность чисел /•„->() и положим х^ (и) = ихр*+Гп1 + (1 — и)хр\ y(nt) = — (х^о+Гп1 — хр*\ По формуле Ньютона — Лейбница имеем ;; [Л (<•+- f. i ,U I. W” <“» d“ - 0 = («), y^du. 0 Здесь |x (u) -xf° |2 +1 y\n} - y? |2 \xpt°+r*1 - xp° |2 + +' У(р} ~ Ур° |2 и B силу леммы 8, примененной к х<п) (и) и <5?-lim jfz(x<n>(«), y(tn)}du = f(xP°, yp^. п ->oo о Следовательно, 7 ft И9 + rZ) - ft И”)] = ft Наконец, по утверждению a) ft(xp\ ypt0} «^-непрерывно по po, если хр «^-непрерывно X-дифференцируемо no po Этим доказано первое утверждение в б) при i = 1. Одновре- менно доказана и формула (5), которую нам удобно запи- сать так: га »?)
138 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ [ГЛ II Для доказательства б) при всех i применим индукцию. Предположим, что первое утверждение в б) доказано для i^j и для любых процессов /Дх), хр, удовлетворяющих условиям б). Пусть пара /Дх), хр удовлетворяет этим усло- виям при / = Возьмем некоторую производную <£~-ft(xty и докажем, что она / раз «^-дифференцируема в точке р0. Представим эту производную в виде /Дхд yty и заметим, что процесс (х£, yty j раз «^-дифференцируем в точке pQ по предположению, функция ft (х, у) непре- рывно дифференцируема j раз по переменным (х, у), и ее производные до порядка / включительно по абсолют- ной величине не превосходят АЦ1 + у |х|24-|y|2)m+1- Значит, по предположению индукции /Дх£, z/Д / раз X-дифференцируема в точке р0, а поскольку / — любой век- тор, то по определению /Дх£) /+1 раз «^-дифферен- цируема в точке р0. Аналогично доказывается «^-непрерывность «^-производ- ных ff(xP) в точке р0, если в этой точке «5?-производные хр «^-непрерывны. Наконец, по формуле (5) ,?)W. sOW + W, что после несложных преобразований дает (6). Теорема доказана. 10. Замечание. Это теорема может быть легко использована для доказательства «^-непрерывности и «^-диф- ференцируемости различных выражений, содержащих слу- чайные процессы. Например, рассуждая так же, как в следствии 7, можно доказать, что если хр, ^ — действи- тельные i раз «^-дифференцируемые процессы, то произве- дение xfyp также i раз «^-дифференцируемо. Если действи- тельный неотрицательный процесс хр i раз «^-дифференци- руем, то процесс е ' также / раз «^-дифференцируем. В самом деле, хотя функция ех растет быстрее любого многочлена при х-> —оо, однако мы рассматриваем сейчас неотрицательный процесс хр и можем взять любую глад- кую функцию f(x), равную нулю при х^— 1 и равную е~х при х^О. Тогда условия теоремы относительно f (х)
§ 7] свойств г ПРОЦЕССОВ. ЗАВИСЯЩИХ ОТ ПАРАМЕТРА 139 будут выполнены и е х* = f(xP}. Объединяя эти соображе- ния с уже известными свойствами интегралов от ^-непре- рывных и «^-дифференцируемых функций, получаем сле- дующее утверждение. 11. Лемма. Пусть процессы xf, f\(х), f2(x) удовле- творяют условиям теоремы 9 а) (теоремы 9 б)) и (х) 0; тогда процесс ^(x₽)expf-pj(x₽)ds I О X-непрерывен в точке pQ (i раз (X-непрерывно) X-диффе- ренцируем в точке р0). т Фиксируя т е [О, Т] и рассматривая $ fls (х£) ds как о постоянный по времени процесс, заключаем также, что справедлива 12. Лемма. Пусть процессы хр, f\(x), f2t(x) удовлетво- ряют условиям теоремы 9а) (теоремы 96)), /}(х)^0. Пусть случайная величина т (со) е [О, Т] и случайные про- цессы ур, f2 (х) таковы, что процессы xt = ур, f( (х) = f2 (х) удовлетворяют условиям теоремы 9а) (теоремы 96)). Тогда случайная величина К(УРУ expf- $P(xP)ds I о X-непрерывна в точке pQ (i раз (X-непрерывно) X-диффе- ренцируема в точке Ро). 13. Замечание. Формула (5) показывает, что при вычислении «if-производной сложной функции можно пользоваться обычными формулами, известными из курса анализа. 14. Упражнение. С помощью (5) выведите формулу для производной произведения (указание: рассмотрите функцию Цх, у)=ху). Мы изучили свойства функций ft(x^ когда ft(x) не за- висит от п. Докажем несколько утверждений для случая, когда ft(x) явно зависит от параметра п. 15. Лемма. Пусть I (ы) — d^-мерный случайный век- тор, h(x) = h(u, х), w(R, e) = ^(w, R, e) — измеримые
140 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ (ГЛ II величины, определенные при х Ed , R^O, 8^0, соей. Предположим, что w(R, е) возрастает по R и по г, | h (х) — h (у) | w (| х | VI У |, 1х — у\) при всех со, х, у и | h (х) | К (1 +1 х | )т при всех со, х. Тогда при всех R^O, е^(0, 1) + + 8)4- ЦП=гЯ Доказательство. Фиксируем R^=0, s£(0, 1) и возьмем с^-мерный вектор г] так, чтобы он не зависел от w и был равномерно распределен в сфере {х е £</,; | х । < <е}. Очевидно, М\h® | | A© Ixi 6|>я-! + + M|A(£)-A(£ + n)|Xi5l=s«-i + M|A(g + T])IX£=s«-i- Отсюда и из предположений леммы вытекает ее утвер- ждение, так как | т] | < е < 1, при | g | <: R — 1 |£ + п1<#» + е) и M|A(£ + n) IXiv=s«-i = = N (djJe-^M Jxixi<e, i5i=sr-। ]ft(14-х) | dx = = N (dJe-^M Jx^-5i<e, iskr-1 \h(y)\dy^ (dJe-^M \h(y)\dy- I у । H 16. Лемма. Пусть при x<=Edi, /е[0, T], n=\, 2, 3, ... , /?>0, 8> 0 определены измеримые по (со, /) с^-мерные процессы xnt, измеримые по (со, t, х) величины Л" (х) и измеримые по (о, t), возрастающие по R и по е, величины w" (R, е). Предположим, что ^?(|x|VI*/l> |* — — УI) I W (у) | при всех со, t, х, у, ___ т lim lim $ Р {| хр | > /?} dt = 0 (7) R-*co п -♦ оо 0 и для всяких R>Q, 6 > 0 ___ Г lim lim Р (/?, е)> 6} dt = 0. (8) е|0 п->ос 5
4 Л СВОЙСТВА ПРОЦЕССОВ, ЗАВИСЯЩИХ ОТ ПАРАМЕТРА 141 Наконец, пусть hnt{x)-^0 при п-+оо по мере dPxdt для каждого х е Ed. Тогда Л" (%")-> О при п-+ся по мере dPxdt. Эту лемму мы докажем несколько позже. Из нее (так же, как лемма 6 выводится из леммы 5) вытекает 17. Теор ем а. Пусть выполнены предположения предыдущей леммы. Пусть еще | hnt (х) | «5 К (1 + |х |)т при всех п, со, t, х и для всех 1 г sup М ? | х" |9 dt < оо. п 6 (9) Тогда X- lim Л" (х") =0. п —* со 18. 3 амеч а н и е. По неравенству Чебышева (7) сле- дует из (9). С помощью того же неравенства легко дока- зать, что условие (8) выполнено, если wnt (/?, е) неслучайна и _____ 7 lim lim до" (/?, e)d/ = 0. ej 0 n -► oo Q В качестве wf (R, е) удобно брать Кг, если | hf (х) — — hf (у)\^К\х-у\. Доказательство леммы 16. Поскольку сходи- мость (xnt) к нулю по мере эквивалентна такой же 2 сходимости — arctg hf (х"), последняя величина ограничена и | arctg hf (х) — arctg hf (у) | «S < I hf (x)— hf (y) | < wf (| x IVI У I, I x - у I), то, не ограничивая общности, можно считать, что | Л" | ^С1. При этом, очевидно, вместо w" можно взять 2ДдоД так что wf также будет предполагаться ограниченной.
142 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ (ГЛ п По лемме 15 (берем в ней К=1, /п = 0) для любых /?>0, ее(0, 1) т т 5 М I А" (X/) I dt^ J Р {|х« |> R - 1} dt+ О о т т + $Мо7(/?, + У $ | Л; (у) । dy dt. (10) О о Воспользуемся тем, что для равномерно ограниченных последовательностей сходимость по мере эквивалентна сходимости в среднем. Тогда получим, что последователь- ность т 5 М | Л" (у) | dt -> 0 о при п->оо для любого y<^Edi. Кроме того, члены этой последовательности не превосходят Т, Отсюда вытекает, что последнее выражение в (10) стремится к нулю при п->*оо для любых е>0, 7?>0. Полагая в (10) сначала п-^оо, затем 8 | 0, 7?-^оо и пользуясь (7), (8), а также упомянутой связью между сходимостью в среднем и сходи- мостью по мере, заканчиваем доказательство. § 8. Зависимость решений стохастических уравнений от параметра Пусть Е — некоторое евклидово пространство, область DcE (D — область изменения параметров), Т, К, пг — фиксированные неотрицательные постоянные; (wz, qFJ — ^-мерный винеровский процесс и при t е [0, Т], x^Ed, n==0, 1, 2, ... определены: az(x), о/ (х), ojp, х) —случайные матрицы размера dxdr и Мх), bt (х), bt(p, х), (р) — случайные d-мерные векторы, прогрессивно измеримые относительно {^}. Предположим, что при всех /, со, х, у К (х) — ст/ (у) |1+1 bt (х)-bt (у) | К | х-у\, (1) а также, что о'1 (х), Ь’’ (х) удовлетворяют этому условию при каждом п 5= 0 и ot (р, х), bt (р, х) — при каж- дом р &D.
ЗАВИСИМОСТЬ РЕШЕНИЙ УРАВНЕНИЙ ОТ ПАРАМЕТРА 143 § 8] Будем считать, что при всех значениях х, п, р все рас- сматриваемые процессы принадлежат Напомним, что пространство X введено в § 7. Ниже мы широко исполь- зуем также и другие понятия и результаты из § 7. Определим процессы xf, х£, хр как решения следующих уравнений: t t Xxt = х + J (x>) dws 4- $ bs (x*) ds, о t t x* =£;' + $a" (*?) (*")ds» о 0 t t Xpt = It (p) + J О J (p, xps) dws + J bs (p, X?) ds. 0 0 Заметим, что по теореме 5.7 все эти уравнения имеют решения и по следствию 5.6 они принадлежат X. Если же Е/, lt(p) е ХВ при всех п, р, то по следствию 5.10 также х*, х", хр^ХВ при всех и, р, х. 1. Теорема. Пусть о" (х)-> о° (х), Ь" (х)->Ь° (х) в X при п^оо для всякого х ^Ed и в X при п^оо. Тогда x^->-xQt в X при п-+оо. Если же еще в ХВ при п-^оо, то и xnt^x® в ХВ при п-+ оо. Доказательство. Положим о" (х) = оГ (х) — о" (0). Очевидно, о Г (х) удовлетворяет условию Липшица (1) и условию роста || о" (х) || К | х |. Кроме того, о? (х) -> а? (х) в X при всех х. Отсюда по теореме 7.17 и замечанию 7.18 Gt (*?) о/1 (Х?) в Складывая это соотношение с о" (0) -> -> о? (0) в X. получаем: о" (х°) -> (х°) в X, Аналогично, ^(x?)->fez0(x?). Применяя теперь следствие 5.5 и теорему 5.9 при (хь oz, bt) = (х?, о?, bt), (xz, oz, bt) = (x?, Gt\ b?), сразу полу- чаем оба утверждения теоремы. 2. Следствие. Если процесс (р) X-непрерывен (ХВ-непрерывен) и при каждом x^Ed процессы ot(P, х), bt(p, х) X-непрерывны по р в точке то процесс х$ X-непрерывен (ХВ-непрерывен) в точке pQ.
144 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ (ГЛ II 3. Лемма. Пусть при каждых /е[0, Т], p^D, со функции (р, х), bt (р, х) линейны по х. Пусть процесс (р) и при каждом x<=Ed процессы ot (р, х) и bt (р, х) i раз (X-непрерывно) X-дифференцируемы в точке pQ^D. Тогда процесс х% i раз (X-непрерывно) X-дифференцируем в р0. Если, дополнительно, %t(p) i Раз (%В-непрерывно) ^SB- дифференцируем в точке ро, то таковым же является и процесс хр . Доказательство. В силу линейности crt(p, х), bt(P, X) d t d t x?=mp) + S $ (*»/Ср» */)dw* + b° (P' ds< /=1 0 /=1 0 где (x?/ —/-я координата вектора xf в базисе {в;}. Отсюда видно, что последнее утверждение леммы есть следствие первого и доказанных в § 7 результатов об «^В-диффе- ренцируемости интегралов и «^-дифференцируемости про- изведений «^-дифференцируемых процессов. Докажем первое утверждение. Воспользуемся индукцией по i. Пусть сначала i = 1. Возьмем единичный вектор I <= Е и в соответствии со сказанным в § 7 выберем для всяких x<=Ed процессы #-^-£/(р0), x-ji°s(Po, х), х) так, чтобы они были прогрессивно измеримы. По следствию 2 заключаем, что процесс х? «^-непреры- вен в точке р0. Нетрудно видеть, что процесс d t (р) = it (p)+2 $ °s ^p’ dWs+ /=i ? d t + 2 J W X'^bdP, ej)ds о при p = Po существует, прогрессивно измерим (и «^-непре- рывен по р, если ^~Ь(р), X~0s(p,x),X~bs Х) «5?-непрерывны по р). Кроме того, 'пДро)^^’- По теореме 5.7 при р = р0 существует и единственно решение уравнения t t ypt = 1]/ (р) + $ (р, ур) dws + j bs (р, ур) ds. (2) о и
§ 8} ЗАВИСИМОСТЬ РЕШЕНИЙ УРАВНЕНИЙ ОТ ПАРАМЕТРА 146 Покажем, что ур = х? при р = р0. Возьмем какую- нибудь последовательность гп -► 0 и положим ур (п) — = г~} (х?+гп‘ — хр). Как нетрудно видеть, t У? («) = Л/ (Р, n) + \os(p + rnl, tfi (л)) dws + 6 + $ Mp + rnl, yp (n)) ds, (3) о где Г]/ (p, n) = rn1 [& (p + rnl) - lt (p)] + + 5 Гп' К (p + rnl, rf)-<js(p, x?)]dw.s + 0 t + \fn'[bs(p + rnl, xp) — bs(p, xf)]ds. 0 Нам дано, что Jf-lim r~n' & (Po + M)-^ (Po)] = X-zrlt (Ро)- И-М.ОО Кроме того, поскольку «Sf-предел произведения (суммы) равен произведению (сумме) ^-пределов, то в X r~n[os(pn-\-rnl, X^—GsiPo, xf’)] = = Е (хрУ rt [<js (ро + Гп1, ej) - (Ts (р0, е,)] ->• /=1 d Аналогично, в X rn'[bs(p0 + rnl, x^) — bs(p0, xf*)]—>- d +2 (xpy^bs(p0, ej). /=1 Таким образом, т], (p0, ^)->Л/(Ро) в ПРИ Сравнивая уравнения (2) и (3), по предыдущей теореме
146 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ (ГЛ II получаем ур* (п) ypt ° в X. Поэтому у?~%4х? w при р = р0. Этим доказана X-дифференцируемость х*\ Понятно, что (4) имеет место во всякой точке р, в которой существуют «/’-производные (р), oz(p, х), bt (р, х). Теперь, если последние производные непрерывны в точке р0, то они определены в некоторой окрестности, и в ней справедливо (4). В этом же случае, как уже отмеча- лось выше, ть (р) ^-непрерывен в точке р0, и из уравне- ния (2) по следствию 2 вытекает, что процесс ур «^-непре- рывен в точке р0. Последнее означает, что процесс хр «^-непрерывно «/’-дифференцируем в р0. Пусть лемма доказана при i = i0, а ее предположения выполняются при i = z0 +1. Мы закончим доказательство леммы, если покажем, что каждая первая «/-производная хр z’o раз («/-непрерывно) «/-дифференцируема в точке р0. Рассмотрим, например, Х-^~хр. Этот процесс существует и удовлетворяет уравнению (2) при р, близких к р0. Поскольку предположения леммы выполнены при i‘ = i0 (даже при f = r0+l), то по предположению индукции про- цесс xf 10 Раз Р?-непрерывно) «5?-дифференцируем в р0. Отсюда вытекает, что процесс т]/(Р) h Раз (^-непрерывно) «5?-дифференцируем в р0. Применяя предположение индукции к (2), убеждаемся, что процесс у? iQ раз («/-непрерывно) «/-дифференцируем в точке р0. Лемма доказана. 4. Теорема. Пусть процесс &(р) i раз (X-непре- рывно) X-дифференцируем в точке pQ^D, функции vs(p, *), bs(p, х) при каждых s, со i раз непрерывно (по р, х) дифференцируемы по р, х при р D, х е Ed и все их производные до порядка i включительно по норме не превосходят К (1 +1 * I )т для любых p^D, s, w, х. Тогда процесс хр i раз (X-непрерывно) X-дифференцируем в точке Pq. Если, дополнительно, процесс ^(р) i раз (XВ непре- рывно) XВ-дифференцируем в точке р0, то и процесс хр обладает этим свойством. Доказательство. Ввиду локальности понятия «/-производной теорему достаточно доказать в любой подоб-
f 8] ЗАВИСИМОСТЬ РЕШЕНИЙ УРАВНЕНИЙ ОТ ПАРАМЕТРА 147 ласти D' области D, лежащей в D вместе с замыканием. Построим каким-нибудь образом бесконечно дифференци- руемую функцию w(p) так, чтобы w (р) = 1 при p^D\ w(p) = 0 прирфй. Положим (р) = (р) w (р), о\ (р,_х) = = аДр, x)w(p), bs(p, x) = bs(p, x)w\p). Тогда |z, bs, <3S удовлетворяют условиям теоремы при D = E, а из спра- ведливости ее утверждений для й, Ь в Е следует их справедливость для g, ft, а в области D'. Эти рассужде- ния показывают, что при доказательстве теоремы можно считать, что ее предположения выполняются при D*=E. Применим в этом случае индукцию по i. Пусть сначала i = 1. Возьмем единичный вектор / е Е и последователь- ность чисел гя->0. Положим P?(«) = '’71(xp+r",-xf\ X? (П, и) — ИХ**'"1 + (1 — По формуле Ньютона — Лейбница легко получаем yt (п) = П/ (р, п) + + $ (р, yPs («)) dws + Ьп, (р, ур (п)} as, (5) О о где П (р, п) - гп1 [|, (р + гп1) - & (р)] + t г 1 1 + $ S pi{p + urnl, х?(п, и)) du dws + oL / о t г 1 ,-i + 5 pj(p + urnl, xp(n, u))du ds, о L i о d 1 а" (p, x)=~ У x^a, xj(p + urnl, хр(п, uy)du, /=i о d 1 b" (p, x)= У х>\Ьа xj(p + urnl, xp(n, u))du. j-i 0 Рассмотрим пару (p+ urnl, x? (n ,u)) как процесс в ExEd с временным параметром t. Очевидно, \{p + urnl, х$ (п, «)) —(р,
148 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ [ГЛ II Кроме того, в силу следствия 2 и «^-непрерывности -дифференцируемых функций х^°+ Гп1 -+х?° в X. Для того чтобы применить лемму 7.8, отметим еще, что, напри- мер, ' bs х, (р, х) t К (1 + /И2 + |Р12)т ПРИ всех со, s, р, х. По этой лемме при р = р0 Os (р, х)->оДр, х), b" (р, x)-+bs(p, х), Т)/(Р, п)->т]/(Р) в смысле сходимости в пространстве <5?, где d ° Ар, х)= ,х/(р« XPS), 7 = 1 d bs(p, Х)= 2 xJbs xj(p, xf), 7*1 Л/ (p) — t t 0 7 о / Заметим, что as, bSt т]п аГ, лДр, л) прогрессивно измеримы при тех р, х, при которых они существуют. В самом деле, производную можно взять про- грессивно измеримой и, например, os х/(р, х) прогрессивно измерима (обычная производная по параметру прогрессивно измеримого процесса) и непрерывна по р, х, поэтому про- цесс °s xi (p + urnl, (п, и)) прогрессивно измерим и не- прерывен по и, откуда, в свою очередь, вытекает прогрес- сивная измеримость интеграла Римана 1 Sas Xj(p + Urnl> Xs(n< u))du о и процесса о" (р, х). Далее, поскольку о5 (р, х), bs (р, х) удовлетворяют условию Липшица (1) по х, то as хУ (р, х), bs xj (р, х) — ограниченные величины. Отсюда вытекает, что линейные относительно х функции о5(р, х), bs(p, х) удовлетворяют условию Липшица (1). По теореме 5.7 при р = р0
« 8] ЗАВИСИМОСТЬ РЕШЕНИЙ УРАВНЕНИЙ ОТ ПАРАМЕТРА 149 существует решение уравнения t ~ t ^ = Л/(р)+ 5 ~as(p> У?) dv/s+\ 'bs(p, у?) ds. (б) О 0 По теореме 1, сравнивая (5) и (6), заключаем, что cif-lim гй1 + — ==«£’-lim у?(п) = у? П-+ОО ' ' n -* оо при p = pQ. Это показывает, что ур = Х~-хР при р = р0 и, стало быть, процесс х? «^-дифференцируем в точке р0- Ясно также, что ур = Х~-хр в любой точке р, в кото- рой существует Пусть теперь £z(p) «^-непрерывно X-дифференцируем в точке ро- Тогда <5f-~^(p) существует в некоторой окрестности точки р0 и в ней же ур является ^-произ- водной хр по направлению /. Кроме того, процесс (р, х£) «^-непрерывен в точке р0, функции as рУ(р, х), bs pJ(p, х) непрерывны по (р, х) и по норме не превосходят К (1 +1х I У71- Значит, по теореме 7.9 процессы as pJ-(р, х?), &s ^(р, xf) «^-непрерывны, а тогда и процесс Л/ (р) «^-непрерывен в р0. Аналогично, из ограниченности и непре- рывности по р, х функций asAj(p, х), bsxj(p, х) выво- дится «Sf-непрерывность в р0 при каждом х процессов (р, х) и bs (р, х). Мы закончим эти рассуждения, заклю- чив, что по следствию 2 процесс ур как решение уравне- ния (6) является «^-непрерывным в точке р0. Таким образом, первое утверждение теоремы при i= 1 доказано. Пусть оно доказано при i = z0, а предположе- ния теоремы выполнены при f = Z0-|-l. Рассмотрим произ- водную %~хр. Как показано выше, можно считать, что этот процесс есть yPt и он удовлетворяет уравнению (6). По предположению индукции xf z0 раз «^-дифференцируем в р0, следовательно, пара (р, х^) также z0 раз «^-диффе- ренцируема, и по теореме 7.9 процессы os pJ(pt х£),
160 ВСПОМОГ ЧТ ЧЬПЫЕ ПРЕДЛОЖЕНИЯ [ГЛ II bs.pj(p, xf)’ as.x>(/?- xf)> Ь!.ЛР' xs) ‘о Раз ^-дифферен- цируемы в точке р0. Поэтому в уравнении (6) процессы т]г(р), ^(Р. х)< bs(p, х) i0 раз X-дифференцируемы по р, а так как о Др, х), bs(p, х) — линейные функции от х, то по предыдущей лемме процесс yt iQ раз <5?-дифференци- руем в точке Ро- Мы доказали, что производная -^xpt iQ раз ^-дифференцируема в точке р0. Поскольку же / — произвольный единичный вектор из Е, то по определению это означает, что х? iQ+ 1 раз «if-дифференцируем в точке р0. Если, кроме того, (р) раз «^-непрерывно «^-дифференцируем в точке р0, то, вставляя в предыдущем рассуждении слова ««^-непрерывно» в соответствующих местах, докажем, что xf также /04~1 раз ^-непрерывно ^-дифференцируем в точке р0. Первое утверждение тео- ремы полностью доказано. Для доказательства второго в силу равенства t t Xpt = &r (P) + $ <JS (P> <4 + \bs (p, x₽) ds 0 0 достаточно доказать, что процессы о Др, xf), bs(p, xf) i раз (cSf-непрерывно) «^-дифференцируемы в точке р0. Очевидно, процесс, тождественно равный (р, 0), i раз «if- непрерывно «^-дифференцируем, а так как функция 0) i раз непрерывно дифференцируема по р и ее производ- ные ограничены, то по теореме 7.9 процесс а^(р, 0) i раз «^-непрерывно «^-дифференцируем. Далее, процесс (р, xf) i раз («^-непрерывно) <5?-дифференцируем в точке р0, функ- ция as (р, х) —оДр, 0) по норме не превосходит К|х| и ее производные также удовлетворяют необходимым огра- ничениям на рост. По теореме 7.9 процесс а Др, xf)— — оДР» 0) * раз («^-непрерывно) «if-дифференцируем в точке р0. Ясно, что таков же процесс оДр, х^) = = as (р, 0) + [оДр, х0 —аДр, 0)], Аналогично рассмат- ривается процесс в bs(p, xf). Теорема доказана. 5. Замечание. При 1^1 мы доказали, что для любого единичного I е Е Я-пуъпзьъжъпхР по направлению/
§ 8] ЗАВИСИМОСТЬ РЕШЕНИЙ УРАВНЕНИЙ ОТ ПАРАМЕТРА 151 является решение уравнения (6): у' + j XPS) dWS + о + j bs, <Z) (p, xf) ds + $ о / px (p, xf) I p? I dv/s + и о SHM + bs.(p₽)(p, *ps)\yps\ds. Мы видели, что это уравнение линейно по у?9 и при t>2 к нему применяли лемму 3. В лемме 3 выведено уравнение (2). В соответствии с ним решение следующего уравнения является «^-производной у? по направлению /, т. е. второй «^-производной х? по направлению /. Имеется в виду уравнение t = 11, (р) + ) а (Р, х₽) 1 zf , rfw5 + t + н,.(гр)(р. O'2f!ds- где по правилам ^-дифференцирования сложных функ- ций (см. (2)) t Т], (р) = It (р) + 5 <Ь. (I) (.Р, Xs) dws 4- + $^.(o(p- ^)ds + ..S ^)+ + CTs,x7(^)(P. XPS ) I yps I] dws + + X j Ш [bs. (I) (P- + bs. („₽) (P. ^f) | Pf I] Заметим, что эти уравнения, а также уравнения для стар- ших Jf-производных х? можно было бы получить, исходя из факта ^-дифференцируемости нужное число раз,
152 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ [ГЛ II дифференцируя равенство / t Xt = Ыр) + $°Др, *f)dw, + ^(p, xf)ds, о 0 переставляя знаки производных со знаками интегралов и пользуясь формулой для ^-производной сложной функции. Простым следствием теоремы 4 и следствия 2 в слу- чае, когда D = Ed, %t(p) = p, ot(p, x) = at(x), bt(p, x) = ^bt(x), является следующее утверждение. 6. Теорема. Процесс Xх ХВ-непрерывен. Если оДх), Ь5(х) при каждых со, s, i раз непрерывно дифференци- руемы по х и все их производные до порядка i включи- тельно по норме не превосходят К (1 +1 х | )т для любых s, х, со, то процесс х* i раз ХВ-непрерывно ХВ-диффе- ренцируем. Мы закончим параграф двумя теоремами об оценках моментов производных решений стохастических уравнений. Поскольку, как мы видели в замечании 5, можно для этих производных написать уравнения, то при оценках их моментов естественно воспользоваться следствиями 5.6, 5.10 — 5.12. Приводимые ниже теоремы читатель легко докажет самостоятельна. 7. Теорема. Пусть найдется постоянная Кг такая, что при всех s, х, р, со IMP, *)|+Н(Р, (1+И)- Предположим, что процесс %t(p) X В-дифференцируем в точке Pq^D и его ХВ-производные имеют прогрес- сивно измеримые и одновременно сепарабельные модифика- ции. Пусть функции vs(p, х), bs(p, х) при каждых s, со непрерывно дифференцируемы по р, х при p^D, x<=Ed и дубль-нормы производных os (р, х) и нормы производных bs(p, *) по всем направлениям меньше К (1 +1 х | )т, где т^1, при всех p^D, s, со, х. Тогда для любого еди- ничного вектора 1^Е, ^1, t е [0, Т] NeNt ( 1 + М su,р | ХВ-Ь (Ро) |2 9 + м j | в, (р0) I2ds где N = N(q, К, т,
§ 9] МАРКОВСКОЕ СВОЙСТВО 153 8. Теорема, а) Пусть функции а5(х), бДх) при каждых s, со непрерывно дифференцируемы по х. Тогда для любого единичного вектора l^Edi ql^l, t е [О, Т], X(=Ed Msup \ХВ~ хх ^NeNt, dl si где N = N(q, К). б) Пусть функции os(x), bs(x) при каждых s, со дважды непрерывно дифференцируемы и для любых х, s, <о и еди- ничных векторов I е Ed II (i) (/) W II +1 bs (Z) (/) (x) | К (1 +1 x | )m. Предположим еще, что || (х) || +1 bs (х) | Ki (1 + | х |) при всех х, s, со для некоторой постоянной Kv Тогда для любых q^ 1, t е [О, Т], xe£rf и единичного I е Ed М sup | 'ХВ~*х* < N (1 +1 х j )gm eNl, где N — N(q, К, т, Kt). § 9. Марковское свойство решений стохастических уравнений Марковское свойство решений стохастических уравне- ний с неслучайными коэффициентами хорошо известно (см. [12], [15], [16]). В этом параграфе мы доказываем аналогичное свойство для случайных коэффициентов урав- нения (теорема 4) и выводим из него некоторые след- ствия. Фиксируем две постоянные Т, /О 0. О (w6 qFz), Ot(x), bt(x) с индексами и волнами или без них в этом параграфе постоянно предполагается следующее: (wz, — ^-мерный винеровский процесс, oz(x)— случайная мат- рица размера d х db bt (х), & — случайные d-мерные векторы; оДх), bt(x), определены при t <= [О, Т], х <= Ed, про- грессивно измеримы относительно и MHl^|2 + ||0/(x)||2 + |fez(x)|2]d/<oo, о li (х) - <3t (у) || +1 bt (х) - bt (у) I К I х - у I при всех возможных значениях индексов и аргументов.
154 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ [ГЛ II Цель настоящего параграфа теперь может быть описа- на более конкретно. Она состоит в выводе формулы для условного ожидания при условии функционалов от решения стохастического уравнения t t *t = It + $ o-s (xs) bs (xj ds. (1) о 0 Заметим, что при выполнении высказанных выше пред- положений по теореме 5.7 решение уравнения (1) на от- резке [[О, Г] существует и единственно. 1. Лемма. Пусть для всяких целых i, />0, t19... ...9tt&[09 Т], Zj.... Zj ^Ed вектор {W<p, Ър, Vtp(z9), btp(zqy p = l..i, <7=1....../} не зависит от аГ0. Тогда процесс xt, являющийся решени- ем уравнения (1) также не зависит от Доказательство. Как и в доказательстве теоре- мы 5.7, введем оператор 1 по формуле • t t Iyt = \^s (ys) dws + 5 bs (ys) ds. о 0 В доказательстве теоремы 5.7 говорилось, что этот опе- ратор определен на множестве прогрессивно измеримых функций из ([0, Т]хй) и переводит это множество в себя. Возьмем функцию (со) из этого множества (например, yt = 0) так, чтобы совокупность случайных величин {w6 yt9 оДх), bt(x)\ /€Е[0, 7], xe£rf} (2) не зависела от qF0. Докажем, что тогда совокупность слу- чайных величин {w6 Ъ + Iyt. <М*), М*): ^[0, x^Ed} (3) также не зависит от оГ0. Обозначим через 2 пополнение о-алгебры подмно- жеств Q, порожденной совокупностью случайных величин (2). По предположению S не зависит от Понятно, что для доказательства независимости (3) от достаточно доказать, что случайные величины Iyt S-измеримы при t [0, Т].
§91 МАРКОВСКОЕ СВОЙСТВО 165 При действительном а положим хп(а)*=2п[2па], где [а] — целая часть числа а. Если у е Edt то пусть хп (у)« = (xZI(z/1), Ъп(уаУ), Гл —множество значений функции хл(у), у е Ed. Ввиду непрерывности аДх) по х имеем О/ (уд = lim а/(х„(у/))= lim £ °t (У) п-+сх> и—>оо (4) Следовательно, величина ot(yt) S-измерима. Аналогично показывается S-измеримость bt(yt). Далее (см. Добавле- ние 1) при почти всех se[0, 1] для некоторой последо- вательности и' целых чисел по вероятности lim $ nz->°°Lo a*n' (''Ч-s) —S (Ухл/ (r + s) —s) dWr-\- t + 5 ЬиП' (' + $)—s (УкП' (r + s) —s) dr 0 = iyt- (5) Поскольку функция хл(г + $) — s на отрезке [0, /] при- нимает лишь конечное число значений, то в допредельном выражении интегралы являются интегралами от ступенча- тых функций. Они записываются в виде конечных сумм произведений значений ar(z/r) на приращение wr и значе- ний br(yr) на приращения г. Упомянутые суммы S-изме- римы. Поэтому допредельные выражения S-измеримы. От- сюда и следует S-измеримость Iyt. Определим теперь, как и в доказательстве теоремы 5.7, последовательность х" рекуррентной формулой xJfsO, XJ+1 = ^ +и^О. Из доказанного выше по индукции вытекает независи- мость процессов от <^0 ПРИ /е[0, Т]. По за- мечанию 5.13 при /е[0, Т] 1.1.Ш. X" = хг п-юо Стало быть, процесс X/ не зависит от Лемма до- казана. В следующей лемме наряду с (wz, ajx), &Дх) рассматриваются (wz, oFz), |z, oz(x), bt(x). Как мы выше договорились, предполагается, что эти объекты удовлетво- ряют тем же условиям, что и (w/t О/(х),
156 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ (ГЛ. II Пусть ^ — решение уравнения t t ~ xt = It + J о, (xr) dwr 4- jj br (xr) dr. о 6 2. Лемма. Пусть для всяких целых I, />0 и ... .^е[0, Г], Zj, Zj^Ed одинаково распределены следующие векторы: {wZp, hp, <j/p(zq), btp(zq): p=l, .... i, <7 = 1, /}, {w/₽, о,р(г9), btp(zq): p = l, i, <7=1, .... /}. Тогда конечномерные распределения процессов xtl xt совпадают. Доказательство. Воспользуемся опять операто- ром I из предыдущего доказательства и положим t t Iyt = \ (ys) dWs + $ bs (ys) ds. 0 6 Возьмем процессы yt, yt, так чтобы они были прогрес- сивно измеримы относительно {^}, {эТД соответственно t t М J | yt |2 dt < оо, M $ | yt ;2 dt < co о 0 и чтобы при любых i, />0, ..., ti е [О, Т], z19 ... ..., Zj Ed векторы {W, , В/ , yt , OtAZq), bt (zqy. p= 1, .... t, <7 = 1, _p .p p .p A (6) {wZp, ltp, ytp, atp (Zg), btp (ZgY p = 1, ..., i, <7 = 1,..., /•} имели одинаковые распределения. Заметим, что если два случайных вектора имеют одинаковые распределения, то любая (борелевская) функция от одного имеет то же рас- пределение, что и эта же функция от другого. Отсюда с помощью формулы (4) вытекает, что при любых i, / > О, /(е[0, Т], г1( .... Zj е Ed векторы {WZp, ltp, ytp, 0lp(ytp), 0tp(Zg\ ь‘Р(уО'ь‘Аг<1У- р=У •••- l’« <7 = 1> •••> /}> (7) {W/p,g/p, iilp, <y/p(ytp), Olp(Zg), btp(ylpYbtp(Zq): p=l, .... i, <7=1, .... /}
§9] МАРКОВСКОЕ СВОЙСТВО 157 имеют одно и то же распределение. Нелишне обратить вни- мание читателя на то, что при доказательстве этого факта используются векторы типа (6) при значениях zq, отли- чающихся от тех, которые присутствуют в (7). Далее, выберем s е [0, 1] так, чтобы формула (5) была справедлива при / = tt и были верны аналогичные представления для /. Тогда мы увидим, что векторы {W,p. ltp, llp + Iytp, <Jtp(zg), btp(zqY P = h •••> г'- Я= h •••• /}• Л„. <8) btp(zg): р = 1, .... i, q = \, .... /} могут быть представлены как пределы по вероятности оди- наковых функций от векторов типа (7). Следовательно, векторы (8) имеют одинаковое распределение при любых i, />0, ..., ttf= [О, Т], zx, ..., Zj(^Ed. Сравним теперь векторы (6) и (8). Определим последо- вательности процессов 4 = о, X? + 1 = ^ + /X?, х?+' = |,+ Н?. По индукции, переходя от векторов типа (6) к векто- рам типа (8), доказывается, что конечномерные распреде- ления х“, х" совпадают. Стало быть, совпадают конечно- мерные распределения их пределов в среднем квадратич- ном, т. е. xt и X/. Лемма доказана. 3. Следствие. Если az(x), bt(x) неслучайны и равны о>(х), fe/(x), соответственно, при всех /е[0, Т], х е Ed, то xt, xt имеют одинаковые конечномерные рас- пределения. Кроме того, процесс xt не зависит от а процесс xt от Следствие вытекает из лемм 1, 2 и того, что все вине- ровские процессы имеют одинаковые конечномерные рас- пределения и, например, w/ = wz —w0 не зависит от Формула, о которой шла речь в начале параграфа, со- держится в следующей теореме. Для того, чтобы не загро- мождать формулировку теоремы, приведем условия, в кото- рых она будет доказана заранее. Пусть Z — сепарабельное метрическое пространство с метрикой р и при zeZ определены (wj, = (Wz, «Fz),
158 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ ГГЛ I! о* (х), fe?(x). Считается (в дополнение к предположениям, высказанным в начале параграфа), что функции а*(х, со) и bt (х, со) непрерывны по z при всех /, со, х и М 5 [sup || Gt (х) II2 + sup I bt (x) I2] dt < co 0 2 z при всех x. 4. Теорема. Пусть выполнены высказанные перед теоремой предположения. Пусть совокупность величин {w6 ozt (х), bz (х): t (= [О, Т]9 х е Ed} не зависит от ни для одного z ^Z9 £ — &^измери- мая случайная величина со значениями в Ed и с конечным вторым моментом, I, —^-измеримая случайная функция со значениями в Z, yt — решение уравнения yt = I + $ (уг) dwr + $ b$ (уг) dr. (9) О о Обозначим через xzt- х решение уравнения хГ = *+ $ о* (х2- dWr + {Ьгг *) dr, (10) о о и пусть F (z, Х[о, т]) — неотрицательная измеримая функ- ция, заданная на ZxC([0, Т]9 Ed). Тогда М{Ж f/[0. Г])Ио} = Ф(^, ю (П. н.), (11) где <D(z, x) = MF(z, Х[6,хт])« Доказательство. Прежде всего заметим, что в силу наложенных условий уравнения (9), (10) имеют решения и они (см. (9), 10)) непрерывны по t. Далее, равенство (11) достаточно доказать для функций вида F (z, х^, ..., xt^9 где t19 ..., tn е [0, Т]9 F (z, х19 ... 9 хп) — ограниченная непрерывная функция от (z, х19 ..., хп). Действительно, в этом случае равенство (11) стандартным образом распро- страняется на все неотрицательные функции F (z9 Х[о, т]), измеримые относительно произведения о-алгебры борелев- ских множеств в z на наименьшую о-алгебру, содержащую цилиндрические множества пространства С ([0, Т]9 Ed).
§ 9] МАРКОВСКОГ СВОЙСТВО 159 Последняя же о-алгебра, как хорошо известно, совпадает с о-алгеброй борелевских множеств метрического простран- ства С ([О, Т], Ed). Будем в дальнейшем рассматривать функции F только указанного вида. Пусть Л = {г(0; —счетное всюду плотное подмножество в Z. Для z е Z будем обозначать через хл(г) первую точку последовательности {zU)}, для которой р (z, z(i))^2~n. Легко видеть, что (г) — измери- мая функция от г и р (z, хл (z)) 2 п при всех zgZ. Возьмем еще функцию хл(х) из доказательства леммы 1. По лемме 1 почти наверное ” 2 2 (F(z, | а^"0| = zeA = 2 (12) геЛ Х£ГП п п Перейдем в этом соотношении к пределу при п->оо. Мы договорились рассматривать только ограниченные непрерывные функции F (z, х[0, т]) (к тому же, еще специ- ального вида). Поэтому из левой части (12) получится левая часть (11), если мы покажем, что для некоторой подпоследовательности {п'} Р I lim sup = (13) Vi'-oo/^T1 1 1 При этом правая часть (12) даст правую часть (11), если доказать, что <D(z, х) — непрерывная функция (z, х). Так как величины хл(£), хл(|) «^-измеримы, то инди- катор множества {хл(£) = г, хл(£) = х} можно вносить под знак стохастического интеграла. Умножая равенство (10) на индикатор этого множества, внося его под знаки интег- ралов, заменяя величины z, х на равные им на рассмат- риваемом множестве величины хл(£), хл(£) и вынося, наконец, индикатор обратно, получаем, что на каждом множестве {хл(£) = г, хл(£) = х} процесс х**^’удовле- творяет уравнению t _ t_ xt = *n (£) + j оМ’ (Xr) dwr + \ br^ (xr) dr. (14) о 0
160 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ [ГЛ II Объединение множеств {хл_(С) = г, яп(1)^=х} по геЛ, х<=Гп дает все Q. Поэтому удовлетворяет урав- нению (14) на Q. Сравнивая (9) и (14), по теореме 5.9 получаем М sup | _ уJ2 ДМ11 I _ Хп (£) |2 + + $ [| ьу® (yt) - b\ (yt) |2 +1 <№ (t/,) - ctF (yt) l|2] dt. 0 Здесь | £ — хп (I) |->0 равномерно на Q, b*n(t) (yt) -> -> b, (yt) при каждых t, co в силу непрерывности bf (x) по z. Кроме того, 16*',(S> (!//) f + l to) Г не превосходит 4 sup j bt (0) |2 + 4№|У/12- z Последнее выражение суммируемо no dPxdt. Проводя аналогичное исследование для а? (х), по теореме Лебега заключаем Msup |x*'^)* х"(|) —z/J2->0. 1 1 Отсюда вытекает (13). Для доказательства непрерыв- ности Ф(г, х) по (г, х) достаточно показать, что, какова бы ни была последовательность (z„, xJ-Дг, х), найдется подпоследовательность (znS хП'), для которой Ф(ггГ, хп>)-> ->Ф(г, х). Из вида Ф(г, х) легко находим, что для последнего достаточно, чтобы Р J lim sup I xztn’’ Xn' — x2> KI = 01 = 1. In'-oo/^T1 1 1 ) Существование такой подпоследовательности {n'} для любой последовательности (zn, хД сходящейся к (z, х), получается из соображений, весьма схожих с предыдущими рассуждениями по поводу формулы (13). Теорема доказана. 5. Замечание. Функция MF(z, х^хГ]) измерима по (z, х). Действительно, множество функций F(z, Х[о, п), для которых Ф (z, х) измерима, содержит все непрерывные и ограниченные функции F. Для них Ф(г, х) даже непре- рывна по (z, х). Отсюда стандартным образом выводится, что упомянутое множество содержит все неотрицательные борелевские функции F (z, xLo, гД
§9] МАРКОВСКОЕ СВОЙСТВО 161 6. Упражнение. Докажите, что предположение теоремы 4 о конечности т м $ [sup | of (х) |2 + sup bf (х) dt О I 2 2 J можно ослабить и требовать вместо него равномерной интегрируемости по dPxdt величин ] of (0) j]2, |^(0)(2 при г, пробегающих каждое вполне ограниченное подмно- жество Z. Рассмотрим далее задачу о вычислении условного ожи- дания при условии s, где s s [0, Т]. Мы ее будем сво- дить к вычислению условного ожидания при условии eF0 с помощью сдвига по времени. Если функция F(x[o>t-S]) определена на С([0, Т — s], Ed) их[0, т-s] <= С([0, Т — s], Ed\ то через F(X[S, ?]) обозначается значение F на функции Орс, определяемой по формуле (9pc)z = xz+J при t е [0, Т — s]. Иногда F(X[S>T]) обозначают также через т—s])- Аналогичные обозначения применяются и для функций F (Я[0, оо))« 7. Теорема. Пусть выполнены предположения тео- ремы 4, se[0, Т], £ = £((d), g = g (cd) — ^-измеримые величины со значениями в Z и в Ed соответственно, ds + /(x) и bzs+t(x) *не зависят от со при всех /^0. Пусть процесс yt при t е [s, Т] удовлетворяет урав- нению t t yt = ? + $ Or (уr) dwr + 5 £ (yr) dr. s s Определим процесс xzt-s- x при t e [0, T — s] как реше- ние уравнения t t X/ = x4- (x,.-) dwr + \b* + r (xr) dr. 0 6 Тогда для любой неотрицательной измеримой функции F(z, xto, r-sj). заданной на ZxC([0, Т — s], ЕД М{Е(£, Ms. г]) | = Ф (С, £) (п. н.), где Ф(г, x) = ME(z, x^s/_s]). 6 Н, В. Крылов
162 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ ггл II Доказательство. Положим wz = w/+5 —w5, « = «*%, St — yt+s, О/(x) = of+s(x), bf (x) = bt+s(x). Оче- ВИДНО, yt = l + ^’°r(gr)dwr+ \'ь\(уг) dr, 0 0 причем £, £ ^-измеримы, a wz—винеровский процесс относительно t. По теореме 4 М{Ж Z/[s.r])l^} =M{F& ^О.7-5])Ио}=Ф(?( Е) (П.Н.), где Ф(г, x) = MF(z, X[6,xt-S]) и х*’* —решение уравнения t ~ ~ t ~ xt = х + oz (xr) dwr + $ bz (xr) dr. о 0 Остается заметить, что по следствию 3 процессы xi, s, х> ц, х ИМеют одинаковые конечномерные распределе- ния и, значит, Ф(г, х) = Ф(г, х). Теорема доказана. Прием, основанный на сдвиге времени, может быть применен и в случае, когда s является марковским момен- том. Следующий факт, который мы предлагаем читателю доказать тем же приемом, говорит о так называемой стро- гой марковости решений стохастических уравнений. 8. Упражнение. Пусть о, (х) = о (х), bt(x)==b (х) не зависят от t и от со, т —марковский момент относи- тельно х* — решение (оно определено при всех t) уравнения dxt = о (X/) dwz + b (xz) dt, х0 = х. Докажите, что тогда для любого х е Ed и неотрица- тельной измеримой функции F = F(X[o, оо)), заданной на С([0, оо),ЕД Мх {0tF | = М х F (п. н. {т < оо}), т где индекс х означает, что при вычислении условного ожидания в качестве аргумента F нужно брать х^ а индекс х* означает, что сначала нужно вычислить U\yF = MF (х^0 а затем вместо у подставить х^.
§9] МАРКОВСКОЕ СВОЙСТВО 163 9. Замечание. Утверждения теорем 4 и 7 справед ливы не только для неотрицательных функций F. Это свойство F нужно было только для того, чтобы выраже- ния, с которыми мы оперировали, имели смысл. Например, теорема 7 справедлива для любой измеримой функции F, для которой M|F(£, f/[s, т]) | < оо. В самом деле, по тео- реме 7 М {F± (£, y[s, т]) | ^s} = Ф(±) С, ?), (п. н.), (15) где Ф(±) (z, x) = MF±(z, x^syx_s]). При этом левая часть (15) конечна с вероятностью 1 как для знака « + », так и для знака «—». В частности, функции Ф(+) (г, х), Ф(_) (г, х) конечны для тех (z, х), которые являются зна- чениями (£ (со), £ (со)) на некотором подмножестве Q, име- ющем полную вероятность. Вычитая из (15) для знака « + » формулу (15) для знака «—», находим M{F& ^.7])И4 = Ф(СЛ) (П. н.), (16) где Ф(г, x) = MF(z, x^syx_s]), причем функция Ф(г, х) существует во всяком случае при тех (z, х), которые нужны, чтобы обеспечить равенство (16). Теорема 7 позволяет вывести уравнение Колмогорова для известных математических ожиданий в том случае, когда О/(х) и bt(x) не зависят от со. Обозначим х*« х решение уравнения t t Xt = X + vs+r (xr) dwr 4- 5 bs+r (xr) dr, (17) 0 0 (a'/ (x)) = |o( (x)a* (x), d d L = L(t, x)= ati(x'>d№ + 2 i, j — \ i—l 7 — s F (S, XLU, 7-s])= 0 h+t (Xt) exp t — {j cs+r (xr) dr 0 dt + + g(xT-s) exp T-s 5 cs+r (xr) dr 0 v(s, x) = MF(s, ^b;r_s]). 6»
164 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ ГГЛ II 10. Теорема. Пусть ft(x), g(х) — неслучайные действительные функции] ct (х) 0; (х), bt (х) также не зависят от <о. Пусть Qt (х), bt(x), ct(x)f ft(x), g(x) дважды дифференцируемы по х, они сами, их первые и вторые производные по х непрерывны по (t, х) в полосе [0, Т] xEd, а будучи умножены на функцию (1 + | х|)-от (функции и их производные) дают ограниченные функции в этой полосе. Тогда функция v (/, х) обладает следующими свойствами'. 1) | v (t, х) | sg N (1 +1 х |)m при всех х е Ed, t е [0, Т], где N не зависит от (t, х); 2) v (t, х) один раз дифференцируема по t, дважды дифференцируема по х и упомянутые производные непре- рывны в полосе [0, T]xEd; 3) при всех t е [0, Т], хе Ed ^v(t, x) + Lv(t, x)+ft(x) = Q, v(T, x) = g(x). (18) Кроме того, любая функция, обладающая теми же свойствами 1) —3), совпадает eve полосе [0, T]xEd. Доказательство. По предположению |laz(0)||, | bt (0) | непрерывны. Поэтому они ограничены на [О, Т] и И(х)ЖМ*)1^К (0)Н|Ь/ (0)\+к\x\^N (1 +|xj),] где Af не зависит от /, х. Кроме того, F (st — случайная величина, поскольку F (s, Х[о, г—sj) — измеримая (даже непрерывная) функция на С([0, Т — s], Ed). Отсюда, а также из предположений \ft(x)\^N (1-\-\х |)m, | g (х) | ^2V(1 + \x\)m и cz(x)^0 с помощью оценок моментов решений стохастических уравнений (см. следствие 5.12) вытекает первое свойство функции v. Уравнение (17) имеет смысл, вообще говоря, только при /е[0, Т — s]. Далее удобно будет считать, что про- цесс х[ х определен для t е [0, Т] при всех s е (— оо, оо), х е Ed. Как и прежде, мы его зададим с помощью реше- ния уравнения (17), в котором, переопределяя, если необ- ходимо, функции О/(х), fe/(x), продолжим их с отрезка [0, Т] на ось (—оо, оо) по формулам аДх) = от (х), bt(x) = bT(x) при t^T и по формулам О/ (х) = а0 (х), fez(x)«&oW при /^0. По теореме 8.6 процесс xst-х дважды ^В-дифференцнруем по х. В силу результатов § 7 (см. леммы 7.11 и 7.12) это доказывает, что случай-
МАРКОВСКОЕ СВОЙСТВО 165 I ®1 ная величина F(s, x^xr_s]) дважды «^-дифференцируема по х при каждом s е [О, Т] и функция v (s, х) имеет все вторые производные по х при каждом s е [О, Т]. Для доказательства непрерывности по (s, х) функции v(s, х) достаточно в (17) положить p = (s, х), х = ^(р), °s+t (у) = о? (р, У), bs^(y) = bt(pt у), в выражении для F обозначить cs+t (у) = ct (р, у), fs+t (у) = ft (р, у) и восполь- зоваться следствием 8.2, а также результатами § 7. С помощью аналогичных обозначений, написав уравнения для первой и второй «^В-производной xj- х по х (см. заме- чание 8.5), выражение для «^-производных F(s, x^xr_s]) и применяя следствие 8.2, а также результаты § 7, дока- зывается непрерывность по (s, х) первых и вторых произ- водных v(st х) по х. Отсюда вытекает непрерывность Lv (s, х) + fs (*) по (з, х). Поэтому, если первое соотношение в (18) доказано, то из него следует непрерывность v(t, х). Кстати говоря, второе соотношение в (18) очевидно. Таким образом, отно- сительно v остается доказать существование производной ^v(/, х) и выполнение первого равенства в (18). Более того, это достаточно доказать даже не для v (t, х), а только для правой производной функции v(t, х) по t и только при t е [О, Г). Действительно, как известно из курса анализа, если f(/), g(t) непрерывны на [О, Г] и правая производная f(t) равна g(t) на [О, Т), то f'(t) = -g(t) на [О, Т]. Фиксируем х и возьмем ti> 4е Р» 7"]. Поло- жим s = t2 — tt. По теореме 7 (см. также замечание 9\ M{F(/2, ^:хг-м)К4=ф(х'И <п- н->’ <19> где Ф(г/) = МГ(/2, xfa uT_l2i) = v (t2, у). Кроме того, простые преобразования показывают, что S F (^i. хю, т = $ fti+t (xt) exp О t — J cil+r (xr) dr 0 dt + + F(ti, •»[,. r-/,j)exp s - 5 Ch+' (Xr) dr 0
166 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ [ГЛ. II Отсюда и из (19) находим s v (/„ х) = М $ ft,+t (х/- х) х dt + Mu (4, £' х) х, (20) о где Т*1, = ехр — J с/1+л (x‘r ’ х) dr . о Пусть, далее, w (у) — гладкая финитная функция, рав- ная 1 при \у — х|<1. Положим v1(t2, y) = v(t2, y)w(y), v2(t2i y) = v(t^ У}- Представим второе слагае- мое в (20) в виде суммы двух выражений, отправляясь от ра- венства v = + и выражение, содержащее преоб- разуем с помощью формулы Ито. Заметим, что производные финитной функции (/2, у) непрерывны и финитны, а по- тому ограничены. Имеем V X) = Vi (t2, х) + Mt>2 (t2, Xs1’ x) ¥'*’ x + М/г'ъ x, (21) где h ^x = $ (x/*’ x) + L (t, +t, %;*’ x) V1 xj1’ *)} x dt. 0 Очевидно, v = vr в точке x. Подставим в (21) вместо (/2, х) выражение v (/2, х), перенесем его в левую часть, поделим обе части равенства на s = t2 — tr и положим t21 tv По теореме о среднем и в силу непрерывности рассматри- ваемых выражений ^t(x) + L(^ x)v1(t1, х) = = ft, (х) + L (tr, x)v(tif х). Кроме того, * | не превосходит суммируемой вели- чины N (1 + sup | х | (22) tefO, Г] для некоторых подходящих значений постоянных Л^, q. Наконец, v2 (t2, у) = 0 при \у — х|^1, и по свойству 1) ^2^2. у)\^ N (1 + \у')т. Поэтому |и2(/2, у)|^ < W I у — х и по следствию 5.12 U Mv2(/2, х1^ *)’!'(' М sup I x‘t" х - х ;m+4 Sg Is I s
МАРКОВСКОЕ СВОЙСТВО 167 § 9] Проведенные рассуждения позволяют получить из (21) существование в точке / = правой производной функ- ции v (t, х) и доказывают равенство ее и — Lv (tlt х)] при всех ^^[0, Т). Этим самым, как объяс- нено выше, мы закончили доказательство свойств 1) — 3) для функции V. Докажем последнее утверждение теоремы относительно единственности решения (18). Пусть и (t, х) — некоторая функция, обладающая свойствами 1) —3). По формуле Ито для любого 7? > 0 и (s, х) = = M{u(s + t«, Jvr + О + о ф-L (sф-/, Xt* х^ dt] = [ TR ] = M \u (sф- xsTRx) WSTRXФ- 5 fs+t (4 x) T/’ x dt , (23) l о ) где равно минимуму из T — s и момента первого выхода Xs/’х из SR. Очевидно, —s при Кроме того, выражение, стоящее в фигурных скобках под знаком последнего математического ожидания в (23), непрерывно по т^ и не превосходит суммируемой вели- чины вида (22). Значит, полагая в (23) 7?-> оо, по теореме Лебега мы можем переставить знак предела со знаком ожидания. Сделав это и заметив, что и (Т, x) = g(x), сразу получаем и (s, x) = u(s, х). Теорема доказана. 11. Замечание. Последнее утверждение теоремы показывает, что v (s, х) не зависит от исходного вероят- ностного пространства и от винеровского процесса. Эта функция однозначно определяется по функциям at (х), bt (х), ct (х), //(х), g(x), т. е. по тем объектам, которые входят в соотношения (18). Функция v (s, х) не изменится, если изменить вероятностное пространство, взять другой винеровский процесс, может быть, даже Л2-мерный с d2 ф ~-t=diy и взять другую матрицу о, (х) размера dxd2t лишь бы матрица Q/(x)o*(v) не изменилась.
168 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ (ГЛ. II § 10. Формула Ито с обобщенными производными Важным инструментом теории стохастических интегра- лов является формула Ито. В классической формулировке теоремы о формуле Ито требуется, чтобы функция, к кото- рой эта формула применяется, была дифференцируема достаточное число раз. В теории оптимального управления, однако, возникает необходимость применять формулу Ито к негладким функциям (см. § 1.5). Здесь мы докажем, что формула Ито в некоторых случаях остается справедливой для функций, обобщенные производные которых являются обычными функциями. Доказываются также полезные для дальнейшего соотноше- ния между функциями, обладающими обобщенными произ- водными и некоторыми математическими ожиданиями. В пространствах Ed, Ed+1 фиксируем две ограничен- ные области D cz Ed, Q cz Ed+1, и пусть d± — целое число, dr^d, (wz, q7\) — б/рмерный винеровский процесс, ot = «= ot (w) — матрица размера dxdlt bt = bt (со) — d-мерный вектор, ct = ct (co) — число. Обозначим t 1 С . at = — ct/Cf? , Ф/ = \ crdr, о d d I,- У + dx'dxJ ** dx1 i, /=1 t=M Предположим, что oz, bh ct прогрессивно измеримы относительно {qFJ и при всех 1^0 t t М ||ог ||2 dr <сю, М | Ьг | dr < сю, Ct^Q. о о При этих предположениях для каждой точки х0 е Ed определен процесс t t = *0 + $ or dwr + J br dr. 0 и 1. Теорема. Пусть s, x0 фиксированы, xQ^Ed, s g (- оо, сю), Tq — момент первого выхода процесса (s +/, xt) из области Q, х-некогкорый марковский (относи- тельно {z?~t}) момент такой, что t=Ctq, %D —момент
5 ю] ФОРМУЛА ИТО С ОБОБЩЕННЫМИ ПРОИЗВОДНЫМИ 169 первого выхода процесса х, из области D, т' — марковский момент, не превосходящий td. Пусть существуют посто- янные К, S > О такие, что || az (со) || 4-1 bt (со) | 4- ct (со) К, (щ/., X) 61X |2 при всех ХеEd и (со, /), удовлетворяющих неравенству _ Тогда для любых u^W2(D), v е¥'’2 (Q), е ^'и (хт-) — е ф'ы (xz) = т' т* = е-ф'- Lru (xr) dr + $ е-ф'- gradx и (хг) <зг dwr, t t е-фти(8 + т, хт) — (s +/, xz) = т = J е“ф/-^ + Аг) v(s + r, xr)dr + t Т + J £-<₽r gradx v (s + г, хл) ал dwr (1) t почти наверное на множествах {т /} соответ- ственно. Кроме того, для любых и W2 (D), v е IT1*2 (Q) и(хо)=— М$е ^rLru (xr) dr + Me Фт'и(хТ'), о т v (s, х0) = — М$ е-ф'- + Lr^ V (s + г, xr) dr + + Ме ф^($ + т, кх). Доказательство. Оба эти утверждения доказы- ваются совершенно аналогично с помощью приближения и, v гладкими функциями. Разберем поэтому доказатель- ство только первого из них. Возьмем последовательность vn е С1’2 (Q), так чтобы II» - иП Ив (Q) °> I! V “ V" Huzl.2 (Q) ->0, IIIgradx (u-v'’)2||j+1,q->0. Положим t t yt = x<A $ 7.r<^r dwr + Хг<т^ dr. 6 Q
170 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ [ГЛ II Заметим, что yt — xt при /^т<оо. При это оче- видно, а при t — т < оо это следует из непрерывности yt и xt. Докажем, что правая часть формулы (1) имеет смысл. Очевидно, при г < т где V зависит только от d, К. Отсюда по теореме 2.4 *) м j l(^ + o)y(s + r, xr)|dr = о = м Jxo(s + r, Уг) + -О) v (s + г, yr)\dr N II V lluzl.2 (Q). (2) Аналогично, М г § е~Фг gradx v (s 4- г, xr) ar dwr о а =C-VM Jx0(s + r, уг) |gradx v (s + г, yr)\2dr^ ^ЛГ|||бгас1л^|2Ь+1.0. (3) Применим теперь формулу Ито к выражению vn (t,yt) е~^. Тогда на множестве {/^т} почти наверное получим (s 4» т, хт) — е~ф' vn (s 4-t, xt) — = j +Lr)vn (s r'dr+ t T + 5 е~^г grad v vn (s + r, xr) (Jr dwr. (4) *) В ней в качестве D нужно взять любую область такую, что ( — ио, co)xD и Q.
§ 10] ФОРМУЛА ИТО С ОБОБЩЕННЫМИ ПРОИЗВОДНЫМИ 171 Перейдем к пределу в этом равенстве при п->оо. Тогда, пользуясь оценками, аналогичными (2) и (3), легко докажем, что правая часть (4) стремится к правой части (1). Почти буквально так же доказывается первое утвержде- ние для функции и. Небольшое отличие будет в том, что если для vn определенность выражений, стоящих в (4), вытекает из очевидной ограниченности т(со), то анало- гичная формула при доказательстве первого утверждения для и верна, поскольку т' (со) < сю (п. н.) и даже Мт' < <оо (возьмите s = 0, g= 1 в теореме 2.4). Теорема доказана. В дальнейшем при ссылках на эту теорему мы ее утверждения будем называть формулами Ито. Наиболее ограничительным предположением теоремы 1 является предположение о невырожденности процесса xt. Заметим, что в формулировке общеизвестной формулы Ито невырожденность процесса не требуется, при этом, однако, рассматриваются только дифференцируемые функ- ции. В следующей теореме предположение о невырожден- ности снимается и вместо равенства в формуле Ито доказывается некоторое неравенство. Рассмотрим случай, когда oz, bt и ct зависят от пара- метра x^Erf. Фиксируем se£b и пусть при /^s, x^Ed определены: аДх) —случайная матрица размера d X dx, bt (х) — случайный d-мерный вектор, ct (х) и ft (х) — слу- чайные величины. Предположим, что os+t (х), bs+t (х), cs+t (х), fs+t (х) прогрессивно измеримы относительно {^} при каждом х, ct (*), ft W непрерывны по х и ограничены при (со, /, х) е eQxQ, где Q, как и прежде, есть ограниченная область в Ed+1. Пусть также при всех t^s, х и y^Ed II + (х) - О/ (у) || + \bt (х) - bt (у) I К | х — у I, Цо, (х)|| + 1Мх) |^К(1 + |Х|), где К —некоторая постоянная. При этих предположениях для всякого х е Е сущест- вует и единственно (см. теорему 5.7) решение х^ * уравне- ния t t Xt = х + а5+г (хг) dwr + j bs+r (xr) dr. 0 0
172 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ [ГЛ II Обозначим момент первого выхода (s-H> xt х) из области Q, at (х) = 4 W а* d d L‘ w = У a‘‘ (x> ГТГ7 + У b‘< W A - Ct (X), . , dxldxJ dx1 i, /=1 t=i t (ft ’C = ^CS+r(XrX)dr- 0 2. Теорема. Пусть (s, x) e Q и некоторая функция v<=C(Q) и принадлежит IT12 (Q') для всякой области Q', лежащей в Q вместе со своим замыканием. Допустим, что производные v могут быть выбраны таким образом, что для некоторого множества Г cz Q, для которого mes (Q\T) = = 0, при всех со и (t, у) е Г выполнено неравенство y)^ft(y). (5) Тогда для любого марковского относительно мо- мента т, не превосходящего v(s, x)^Me~4w (s + x, xx) + M\e~<t‘js+t(xt) dt, (6) 0 где ф, = ф*’*, xz = xz’ x. Доказательство. Будем опускать индексы s, х. Заметим прежде всего, что при доказательстве теоремы можно считать, что т где Q' cz Q' cz Q. Действи- тельно, пусть для всех таких марковских моментов тео- рема доказана. Возьмем произвольный момент т tq. Оче- видно, tq'^Tq и тДтс'|т, когда области Q', расширяясь, сходятся к Q. Подставляя в (6) вместо т величину тДт^, переходя к пределу при Q'fQ и замечая, что v непре- рывна в Q, ф/ и х, непрерывны по t, а т и (xt) при t т ограничены, получаем утверждение теоремы в общем случае. Итак, пусть t^tq'. Применим далее довольно извест- ный метод возмущения исходного стохастического уравне- ния (см. упражнение 1.1.1). Возьмем некоторый d-мерный винеровский процесс wz, не зависящий от {отД}. Формально это делается с помощью рассмотрения прямого произведе-
$ 10] ФОРМУЛА ИТО С ОБОБЩЕННЫМИ ПРОИЗВОДНЫМИ 173 ния двух вероятностных пространств: исходного и какого- нибудь, на котором определен d-мерный винеровский процесс. Обозначим через х* решение уравнения t t х?=х+] (xr) dv/r + e„wz + J bs+r (x?) dr, о и где 8Л =/= 0, 8п-^0 при n->oo. Это уравнение удобно переписать в несколько иной форме. Пусть о" (х) — матрица размера d х (dx + такая, что ее первые dr столбцов образуют матрицу аДх), а столбцы с номерами dr +1, d^d образуют матрицу 8Д/, где / — единичная матрица размера dxd. Возьмем также (dx + d)-MepHbift винеровский процесс w, = (w), ..., w/', w}, ..., w/). Тогда X? = x+$ a"+ r (x;) dwr + J bs+r (x?) dr. (7) 0 0 По теореме 8.1 sup |x“ —x l->0 при n оо по вероят- r Г 1 ности при любом /. Значит, существует такая подпоследо- вательность {til}, что suplx^ —х I—>0 (п. н.) при г->оо г t ' и любом t. Чтобы не загромождать обозначения, будем считать, что {пД = {п}. Пусть —момент первого выхода (s-H, */) из Q'. Нетрудно показать, что lim т", (п. н.). Поэтому, если п -► оо ПОЛОЖИТЬ т' = тД inf т",, п > i то и tz->t при / -> ОЭ (п. Н.). Применим теперь теорему 1 к u, Q', х", т‘ при n^i. Заметим, что при n^i. Кроме того, и IF1*2(Q')« Далее, очевидно, \ 0 < (*") I + I Ь^‘ (Х^ I + I Cs+I I) N> где не зависит от /, со, п. Наконец, I а, — 2 (х") [°" (х”)Г=°.' (х0+ 27-
174 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ [ГЛ II Все предположения теоремы 1 выполнены. Следова- тельно, вычисляя для процесса х" (см. (7)) оператор Lr, участвующий в теореме 1, и полагая t 4t=\Cs,rWdr' о Г д g? М = dt + L‘ W v + ~2 x>> при n i получаем т1 n n n n -- (Li u(s, x) = — M J e-<₽%n+r(x"r)dr + Me T v (s + t'\ xnxi\ (8) По условию теоремы „ en -Хг(Л x)gt (х)=эХг(/, x)yM x). Кроме того, по теореме 2.4 xi м 5 Х<?\г (S + г, х?) dr^N\\ xQ\r Urf4-1. нт = 0. о Следовательно, при интегрировании по г в первом выражении в правой части (8) можно считать, что (s + хпг) Г. Из (8) находим т1 п _ п v (s, х) М е~ ^rfs+r (xnr) dr + Me (s + xl, хп\ — о g2 V _ П — у М е Фг Ди (s + г, хп^ dr. о В силу того, что т' не превосходят диаметра Т обла- сти Q', sup \хпг-хг|-^0 при n->oo, f (у) и с (у) не- I * 1 I 3 Г / 0-Г/ прерывны по у и т1’ f i при i -* оо, заключаем, что в по- следнем соотношении для v (s, х) первые два слагаемых в правой части при а затем при /->оо дают пра- вую часть формулы (6). Таким образом, для доказательства теоремы остается показать, что Г/2 lim е^М । <\v(s-[-r, x:‘y^dr=-Q.
§ 10] ФОРМУЛА ИТО С ОБОБЩЕННЫМИ ПРОИЗВОДНЫМИ 175 Воспользуемся теоремой 2.2. Возьмем в ней s = 0, ct = 1, F (с, а) = с, bt = bs+t (х/), rt == 1, p = d, oz = о” +1 (x?). За- метим, что при этом, как уже отмечалось, | bt | N • 1 = = Nct при где W не зависит от п, и 1 1 /82 \ d (det aty + 1 = (det ans +1 (x?))d +1 \dljd +1. Следовательно, тп •e1 8nMj |Au(s + r, x") | dr < $ e-r|Ay(s + r, x")|dr^ о о n XQ' d 2 e-r|Au(s + /', x")| dr ^2d + }zd + }eT x о n V 1 xM $ e-r(deta"+r (x"))rf+ 1 (xQ, | Ду |)(s + r, xtydr*^ о d 2 <2‘z + le^ + 'e7W||x<?'l Mk+i, нт, где N не зависит от n. Последнее выражение стремится к нулю при н->оо, так как v е UZ1,2(Q'), и, значит, вхо- дящая в него норма конечна. Теорема доказана. 3. Замечание. Из доказательства видно, что если при всех (/, со) функция ft (х) полунепрерывна сверху / lim ft (xn) ^ft (x)\, то утверждение теоремы по-прежнему V'F7* / верно. 4. Следствие. Если az(x), fez(x), Ct(x) не зависят г / \ /л \ t dv (t, х) от со и Lt (х) v (t3 х) -j-——-— непрерывная ограниченная функция от (t, х) е Q, то в обозначениях теоремы v(s, х) = Ме ^(s + t, хт) — - м e- <p'-^+r (хг) v (s + г, Xr) + ^(s + r, Xr)]dr. О 5. Упражнение к теореме 1 (ср. стр. 37 [39]). Пусть 2, число а е (0,1), р = 1, w(x) = |х|а, а(х) =
176 ВСПОМОГАТЕЛЬНЫЕ ПРЕДЛОЖЕНИЯ [ГЛ. II = ]/ 2а (х), где аУ (х) = + И . Возьмем в качестве D шар S# и в качестве xt некоторое (возможно, «слабое») ре- шение уравнения dxt = о (xt) dwt, х0 = 0. Положим а, = о (х,), bf = O, ct = 0. Покажите, что вторые производные и суммируемы по D в степени р = • (Заметим, что p-^d при а->1.) По- кажите также, что Ltu (xz) = 0 (п. г.) и что формула Ито не применима к w(xz). 6. Замечание. В том случае, когда Q = (0, T)xSr, в обозначениях, введенных перед теоремой 2, при s = 0 имеем Ts*x = 0. В связи с этим полезно иметь в виду, что если Q = (0, T)xSx, то в теореме 2 вместо ts« х (а в тео- реме 1 вместо Tq) можно взять минимум из Т — s и мо- мента первого выхода процесса х^х (соответственно xz) из S#. Для s = 0 этот минимум, вообще говоря, не равен нулю, и из теорем 1 и 2 получаются содержательные утверждения. Для доказательства справедливости сделанного замеча- ния достаточно буквально повторить доказательства тео- рем 1 и 2.
ГЛАВА III ОБЩИЕ СВОЙСТВА ФУНКЦИЙ ВЫИГРЫША В этой главе мы занимаемся изучением общих свойств функций выигрыша — свойств, которыми обладают функции выигрыша при минимальных предположениях относительно исходных объектов. Основное внимание уделяется доказа- тельству непрерывности функций выигрыша, доказательству различных вариантов принципа Веллмана и того, что стра- тегии, близкие к оптимальным, можно искать среди естест- венных стратегий. Отметим, что возможность дальнейшего сужения множества стратегий до множества марковских стратегий без уменьшения функций выигрыша обсуждается в гл. V. При рассмотрении задачи об оптимальной оста- новке управляемого процесса здесь мы описываем также правила остановки, использование которых позволяет до- стичь того же эффекта, как и использование всевозмож- ных правил остановки. § 1. Основные результаты Пусть А — сепарабельное метрическое пространство (мно- жество допустимых управлений), Ed — евклидово простран- ство размерности d, Т — неотрицательное число. В прост- ранстве Ed на промежутке времени [О, Т] будет рассмат- риваться управляемый процесс. Возьмем целое число dlt и пусть (wz, oF,) —б/гмерный винеровский процесс. Пусть при всех а^Л, />0, определены: о (а, /, х) — матрица размера dxdn & (а, /, х) — d-мерный вектор и числа са(/, х)^0, /а (/, х), #(х). Как и в пер- вой главе, о будет характеризовать диффузионную состав- ляющую процесса, Ь — его детерминированную составляю- щую, [а (/, х) А/ играет роль выигрыша за время от t до Z-j-А/, если управляемый процесс находится в момент
178 ОБЩИЕ СВОЙСТВА ФУНКЦИЙ ВЫИГРЫША [ГЛ. III времени t вблизи точки х и применяется управление а, g (х) — доход в момент времени Т. Функция са (t, х) является интенсивностью «убивания». Она вводится, во-первых, ради большей общности, во-вторых, потому, что мы будем рас- сматривать задачи об оптимальной остановке управляемого процесса и исследовать их, как это делается в § 1.2 и 1.5, с помощью метода рандомизированной остановки. Будем предполагать, что функции о, b, с, f, g непре- рывны по (а, х), непрерывны по х равномерно по а при каждом t и являются борелевскими по (а, /, х). Кроме того, пусть для некоторых постоянных /п, К 0 при всех х, y^Ed, t^0f а^А || а (а, /, х) — а (а, /, у) || +1 b (а, /, х) — b (а, /, у) | ^К\х-у\, (1) к(а. х) 11 +1 b (а, t, х) I «SK (1 + |х|), (2) |с“(/, x)\ + \fa(t, х)| + |£« |^К(1 + |х|Г. (3) Ниже мы будем рассматривать также функцию g(t, х). Предположения относительно нее формулируются перед теоремой 8. Как и в § 1.4, введем понятия стратегии, естественной стратегии и марковской стратегии. 1. Определение. Стратегией называется прогрес- сивно измеримый относительно системы а-алгебр про- цесс (cd) со значениями в А. Множество всех стратегий обозначается через Я. Каждой стратегии aeSl, se[0, Т], x<=Ed мы поста- вим в соответствие решение х*>s* х уравнения t t xz = x+$(T (ar, s+r, xr) dwr + ^b (ar, s + r, xr) dr9 о о Заметим, что в силу предположений о о и решение этого уравнения существует и единственно. Процесс s» х всегда удобно себе представлять как набор последних d координат (d -ф 1)-мерного процесса z?> s> х = s* х, xj4*s*
§ И ОСНОВНЫЕ РЕЗУЛЬТАТЫ 179 являющегося решением следующей системы уравнений: t yt=s + \ 1 dr, О t t xt = x + a (ar, yr, xr)dwr + § b (ar, yr, *r) dr. о о В этом случае s выступает в качестве одной из компо- нент начального данного, а если мы рассматриваем про- цесс s, * на участке времени [О, Т — s], то это означает, что процесс s>х рассматривается до момента первого выхода из полосы [О, Т) х Ed. При s^T положим фа, s, х с<*г ($ 4- г, X? S’ Х) dr, О Г s a s t va(s, х) = М $ f“'(s44 *“• s,*)e~'P' dt + L О a, s, ж “I + g(x^s*)e <₽r-s ]. v(s, x) = sup va(s, x) *). ae=9l Для удобства записи при вычислении математических ожиданий выражений, зависящих от s, х и стратегии а, индексы a, s, х мы пишем у знака математического ожи- дания. Например, М“х T\Sfa‘(s + t, x^e-^dt^ О ее М Y f*‘ (s +1, х?’s’ x) e~ ф“’S'X dt, о M“ ^(xT^e-^-* = Mg(x^Y)e-<P“-A Аналогично мы поступаем с вероятностями событий. Например, Р“ х {| xj Ss^} = Р {| х^-s-х 12s /?}. *) Конечность двух последних выражений доказывается после формулировки теоремы 7 (см. ниже).
180 ОБЩИЕ СВОЙСТВА ФУНКЦИЙ ВЫИГРЫША [ГЛ. III В этих обозначениях [T-s ( ^(s + Z, xt)e~~(p^dt + g(xT-s)^T~s о Пусть С([0, оо), Ed) — пространство всех непрерывных функций xt со значениями в Ed, заданных на [0, оо), ©^'/ — наименьшая о-алгебра подмножеств С ([0, оо), Ed), содержащая все множества вида {х[0, оо).* хг е Г} при г е е [0, /] и борелевских Г cz Ed. 2. Определение. Функция а, (*[о, оо>) = а/(х[0>/]) со значениями в А, заданная при t [0, оо), Х[о, оо) gC([0, оо), Ed), называется естественной стратегией, допустимой в точке (s, х), если она прогрессивно изме- рима относительно J и существует хотя бы одно реше- ние стохастического уравнения t Х/ = х + 5ст(аг(х[0, и), s + r, xr)dwr + о t + 5b (“г (*[0. г]), S + г, xr) dr, (4) о прогрессивно измеримое относительно & h Множество всех естественных стратегий, допустимых в точке (s, х), обозна- чается через 3t£(s, х). Каждой стратегии а е 3(f (s, х) мы поставим в соответ- ствие одно (фиксированное) решение х^’ s> х уравнения (4). 3. Определение. Естественная стратегия »/(Х[о,/]) называется (неоднородной) марковской, если щ (Х[0, /]) = = at(x^ для некоторой борелевской функции аДх). Мно- жество всех марковских стратегий, допустимых в точке (s, х), обозначается через 31Л1 (s, х). Как и в § 1.4, устанавливается естественное вложение 31£(s, х) в 31. Необходимо отметить одну существенную особенность этого вложения. Естественной стратегии ае e9tf(s, х) ставится в соответствие стратегия Ре 31 по формуле РДш) = аДх«’(со)). При этом р, (со) зависит от (s, х), а если та же самая стратегия а принадлежит еще и 3l£ (s', х') при (s', х') (s, х), то, вообще говоря, стра- тегия Р' (со) = at (х*- "у х' (со)) вовсе не совпадает с р. Зна- чит, операция вложения 3I£ (s, х) в 31 зависит от (s, х).
I n ОСНОВНЫЕ РЕЗУЛЬТАТЫ 181 Заметим еще, что 21^(5, x)cz2lf(s, х) и 21^(5, х) Ф Ф х) содержит стратегии вида at (х(о, ?]) = а, где а — фиксированный элемент Д). При s^T положим 0(2n(s, *) = sup Va(st х), (s, х)= sup Ua(S, X). ae3I£(s, X) (s,x) Понятно, ЧТО ViE) V. 4. Определение. Пусть e^O. Стратегия а ей называется s-оптимальной для точки (s, х), если v (s, х) ^ua(s, х)ф-е. О-оптимальные стратегии называются опти- мальными. Сформулируем те результаты относительно и, принципа Беллмана и е-оптимальных стратегий, которые будут дока- заны в следующих параграфах этой главы. 5. Теорема. Функция u(s, х) непрерывна по (s, х) на [О, Т] х v (Т, x)=g (х). Существует постоянная N = N (т, Kt Т) такая, что при всех se[0, Т], x^Ed \v(s, x)|^Af (l-Hxl)"1. (5) 6. Теорема. Пусть s е [О, Т], х Ed и для всякого аЕЙ определены: марковский относительно {oFJ момент xa^T — s и ограниченный по (t, со), неотрицательный прогрессивно измеримый относительно t] процесс г*. Тогда V (S, х) = sup М“ х К [f' (S +1, xt) + aejl ' |.о t т A -^-\rudu -vM + rfv(s + t, x,)]e 0 dt-j-v(s + xf xT)e 0 J. (6) 7. Те о p e м a. v (s, x) = (s, x). В предыдущей тео- реме верхнюю грань можно брать по aej|f(s, х). Обсудим утверждения этих теорем. В теореме 5 равен- ство v (T, x)=g(x) очевидно. Неравенство (5) вытекает из того, что по следствию II.5.12 МТ, sup |xZi'”^W(m, /<, Т) (1 ф-1 х |)m, (7) с Т — S и того, что (Т — s \ | Р (s, X)|sS sup М? J \ + Xz) I d/4-!g(X7-_s) «ЕЯ I () ) (Т-$+ l)sup М“ sup (1 4-1Xt |)m. asst ’ »
182 ОБЩИЕ СВОЙСТВА ФУНКЦИЙ ВЫИГРЫША [ГЛ III Содержательным утверждением теоремы 5 является, таким образом, утверждение о непрерывности v(s, х). Мы увидим, что непрерывность v (s, х) по х будет вытекать из непрерывности a, b, с, f, g по х, а непрерывность v (s, х) по s —из специфики задачи. Напомним, в связи с этим, что а, Ь, с, f только измеримы по /. Теорема 6 при = Q представляет собой обычный принцип Веллмана. В некотором смысле утверждение тео- ремы 6 является принципом Веллмана и в общей ситу- ации. Поясним это при г<* = к. Используем метод, по существу близкий к методу рандомизированной остановки из § 1.2. Введем случайную величину g, показательно распределенную с параметром к и не зависящую от Равенство v (s, х) = sup М“ (s +1, xt) dt 4- “sSl • L о 4-v(s + tAL выражает собой принцип Веллмана. Его с помощью записи последнего математического ожидания в виде М“ х f Y Г‘ (s +t, xt) е~^ dt + о L о 4-и(«4-тАр, хтЛр)е dp и теоремы Фубини легко преобразовать к (6). Теорема 7 показывает, что е-оптимальные стратегии следует искать среди естественных стратегий. Из доказа- тельства этой теоремы (см. замечание 3.4) будет видно, что е-оптимальные естественные стратегии можно брать весьма специального вида. Некоторые общие результаты можно доказать и для задачи об оптимальной остановке. Пусть g(/, х) — непре- рывная функция от (/, х) (х Е6/, /^0) такая, что | g (/, х) | /С (1 I х при всех /, х При s е [0, Т] через SDJ(T — s) обозначим множество всех марковских относи- тельно моментов, не превосходящих T — s. Для VI,
§ и ОСНОВНЫЕ РЕЗУЛЬТАТЫ 183 т е ЭЭТ (Т — s) положим ua’T(s, х) = М*х + xt)e Ф/ dt + g(s + x> хх)е Фт , L о ay(s, x)==sup sup ua*T(s, x). (T — s) Аналогичной формулой введем w{E} заменяя верх- нюю грань no a на верхнюю грань по21 (s,x) (по*ЛЛ1 (s, х)). 8. Теорема. Функция w(s, х) непрерывна по (s, х) на [0, T]xEd, w(s, x)^zg(s, х), w(T, x)=g(T, x). Существует постоянная N = N (m, К, T) такая, что при всех s е [О, Т], х е Ed |oy(s, х)|=^АГ(1+|х1)т- (8) 9. Теорема. Пусть s [О, Т], х е Ed и для всякого а е 21 определен момент та Э)1 (Т — s). Тогда w(s, x) = sup sup М? х ! F‘(s + t, xt)e~^t dt + ae?l ’ I о + g(s + Y, xY)e-(₽YXv^T + ^(s4-T, xT)^XT<v (9) причем верхнюю грань no s2l можно заменить на верхнюю грань по 2(^(s, х). При е>0 положим та, s, х = jnf 0: &y(s + /, X^’s’ x)^g(s + /, X?’s’x)4-£|. 10. Теорема. w(s, x) = w(E](s, x). Более того, при e > 0, s g [О, T], х Ed справедливо неравенство [те w (s, х) sup М* х < $ (s +1, xt) е ф' dt + a^^(E(s,x) [5 -Т 1 + £(з + те, хХ£)е Те| + £. Если же А состоит из одной единственной точки, то это неравенство превращается в равенство при £ = 0.
184 ОБЩИЕ СВОЙСТВА ФУНКЦИИ ВЫИГРЫША [ГЛ. ш 11. Теорема. В обозначениях теоремы 6 w (s, х) sup М“ х К [/“'(s 4- t, Xt) + rtw (s 4- /, X/)] X to / T ч \rpdP Jrp dP\ xe 0 dt + w (s + т, xT)e 0 J. (10) Если же та s* x при некотором e > 0 w всех а e Й, то в (10) имеет место знак равенства. В любом случае верхнюю грань по а е можно заменить на верхнюю грань по (s, х). Наконец, если А состоит из одной точки, Ta^T°f’s’x, то в (10) имеет место знак равенства. В теореме 8, как и в теореме 5, наиболее сильно пер- вое утверждение. В самом деле, равенство w(T, x) = g(T, х) очевидно, неравенство ш (s, x)^g(s, х) сразу следует из определения w(s, х) и того, что т = 0 — марковский момент, (8) доказывается с помощью (7) так же, как и (5). Теорема 9 является принципом Веллмана для задачи об оптимальной остановке управляемого процесса. Далее, заметим, что s*х — момент первого выхода процесса (s + /, х®’s*х) из открытого (в относительной топологии [0, Г] xEd) множества Q8 = {(s, х): w(s, x)>g(s, х) + е}. Так как w (Т, x) = g(T, х), то s> х — s. Понятно, что т®’s’ х еЭЛ (Т — s). Теэрел а 10 показывает, что т*’ s, х — е-оптимальный момент остановки управляемого процесса. Если же речь идет об остановке одного диффузионного процесса, то теорема 10 утверждает оптимальность мо- мента т*’ х. В этой связи отметим, что все теоремы 5—11 могут применяться при изучении решений стохастических уравнений, когда управление отсутствует. В теореме 11 дается еще одна формулировка принципа Веллмана, более удобная по сравнению с теоремой 9 для вывода дифференциальных уравнений. В некотором смысле эта теорема является центральной. Заметим, что теорема 10 немедленно вытекает из теоремы 11, если в последней взять r“ = 0, Ta = Ta, s, х и воспользоваться тем, что при этом &y(s4-Ta, ху x)^g(s-hTa, ^’s'x) + e*), *) Неравенство строгое, если (s, х) qL Qo.
§ П ОСНОВНЫЕ РЕЗУЛЬТАТЫ 185 Покажем еще, как теорема 9 выводится из теоремы 11. Обозначим правую часть (9) через (s, х). Из неравенств {ТЛТ8 о + g(s + TE, хТ£)е-Фт<7.Т(,<т + ^(5 + т, *г)е_фтхт<г8} и g($ + te, *ТЁ) =S= w (s + Те, Ае)-е вытекает, что (тЛте х) sup М* х ] \ xt)e~^dt + [ g + ay(s + xATe, Хтлте)е-ФтЛтв>-е. Поскольку тДт£Сле, то по теореме 11 при г?==о полу- чаем, что последняя верхняя грань равна w (s, х). Стало быть, (s, x)^w(s, х). С другой стороны, g(s, х)^ ^w(s, х). Значит, рЛ V ^(s, х)^ sup sup \ Г'(з + /, xt)e~4>t dt-\- ае'Л ve2)| ( T-s) ’to + w (s 4- т A у, хтЛт) e~ ФхЛт1. Остается в теореме 11 положить г^ = 0, заметить, что последняя верхняя грань не превосходит ay(s, х), и по- этому (s, х) (s, х). Аналогичные рассуждения можно провести, когда в (9) вместо VI взято множество Vl£(s, х). Одним из важных моментов в доказательстве сформу- лированных, а также многих других результатов является приближение исходных о, с, f, g дифференцируемыми функциями и последующий предельный переход. В этом параграфе мы докажем одну теорему о таком предельном переходе. Пусть заданы функции х) (n = 0, 1, 2, ...). Бу- дем писать /г*(/, х)->А^(/, х) в ^([0, Т], В), если для
186 ОБЩИЕ СВОЙСТВА ФУНКЦИИ ВЫИГРЫША [ГЛ III каждого R > О lim $ sup sup |^“(Л х)~ х)|Л = 0. п -> оо Q а е А х j R 12. Теор ем а. Пусть оп(а, /, х) — матрица размера dxdr, bn(a, t, х) — d-мерный вектор, c%(t, х) —неотрица- тельное число, fn(t, х), gn(t, х) — действительные числа, определенные при п=1, 2, а^А, t е [О, Т], x^Ed, Предположим, что вп, bn, сп, fn измеримы по (a, t, х) и сходятся в ([О, Т], В) при п-+оо к a, b, с, [. Пусть еще при каждом п функции оп, bn, сп, fn, gn удов- летворяют неравенствам (1) —(3) с одинаковыми постоян- ными Кит, gn(t, х) измеримы по (t, х) и для всякого Я>0 lim sup sup \gn(t, x) — g(t, x)| = 0. (11) n -► co t [0, T] 1 x 1 R Для a g se [0, T], x e Ed обозначим через x*'s’x (n) решение уравнения t t X/ = x + ал (ar, s + r, xr) dwr + J bn (ar, s V r, xr) dr о 0 t и положим ср*’s’ x (n) = $ canr (s-|- r, xar's* x (n)) dr. Тогда для о любых 7^1, R > 0 S|ft(s+Z’ ^(«))е-<Р/(п> - о М“ csup_ s | gn (s +1, xt (n)) e~ w - - g(s + t, xz)e-<r'|?->-0 при n-+&3 равномерно no a s [0, T], x<=SR. Доказательство. Будем считать, что все функции а» Ь, с, f, g, оп, bn, cn, fn, gn равны нулю при T. Тогда в утверждениях (12) T — s мы можем заменить на Т. Да- лее, утверждение о равномерности стремления левых ча- стей (12) к нулю, как нетрудно видеть, эквивалентно тому, что соотношения (12) останутся в силе, если в них раз-
ОСНОВНЫЕ РЕЗУЛЬТАТЫ 187 § п решить величинам a, s, х произвольным образом зависеть от п, лишь бы 5 = 5„е[0, Т], x = xnt^SR. В дальнейшем мы будем представлять себе, что в (12) а, s, х заменены на подобные ап, sn, хп и число R > 0 фик- сировано. Обозначим = уп=хузп,Х^ По следствию II.5.12 для любого q^l sup М sup (W < оо. (13) Положим ht (х) = sup I fn (Sn +1, x)-f* (sn +1, x) I, a G A w" (r) = sup (x). |x|<r Очевидно, при n -> oo т т wf (r) dt f sup sup | (/, x) — (/, x) I dt 0. 0 ga G Д х О Кроме того, |Л"(х) —Лр(у) |^2^p(|x| V Ш)- Отсюда по теореме II.7.17 при п->оо в X |f?'(s« + Z’ xp)-f«'(sn + Z, х?)|^(х?) + 0. (14) Заменяя в этих рассуждениях f на о, b и используя теорему 11.5.9, получим, что т]“->0 в ХВ при и->оо. Далее, функция wt (г, 6) = sup sup I fa (/, x) - P (/, y) I a G A lx — г/ | < d, | x I, | у | < r стремится к нулю при <Ц0 в силу равномерной относи- тельно а непрерывности /а(/, х) по х. Кроме того, она не превосходит 2K(l+r)m. По теореме Лебега ___ т т lim lim ? ws +t(rt d) dt lim wt (r, 6) dt — Q. 6 -> 0 n - co о n 6 0 Q По лемме 11.7.5 ^’s^4_z(r, т]")->0 для любого r>>0 при по мере dP x dt. Отсюда в силу (13) и
188 ОБЩИЕ СВОЙСТВА ФУНКЦИЙ ВЫИГРЫША [ГЛ. III неравенства Чебышева получаем т т lim $ Р М lim \ Р {I L" I > г) dt-\- Л —♦ ОО Q 1 п 7 ' Г —* ОО Л —► ОО q 11 1 1 ___ т + lim lim^Pl^s +/(>, П7)> e}d/= 0. Л —► ОО n -* оо о 1 п 4 7 J Иначе говоря, o>s^ + /(^n, г]{*) -► 0 по мере dP х dt. По- скольку, очевидно, |Г«‘ (s. + /, x?)-f"(s. + /. + Л?), то первое из этих выражений стремится к нулю при п->оо по мере dP х dt. С помощью (13) нетрудно доказать, что оно стремится к нулю и в X (см. вывод леммы II. 7.6 из леммы II. 7.5). Сравнивая это с (14), заключаем, что при п-+оо в X. Этим теорема была бы доказана, если бы gn> S равнялись нулю. Если с£, са, gn, g не равны нулю, то читатель легко закончит доказательство теоремы, заметив, что I ф‘-te~v,\IА - fz 1 +1 fi + N 11 Фх - ф21. если <рь ср2 0, а также применяя предыдущие резуль- таты и неравенство Гёльдера. Теорема доказана. 13. Следствие. Пусть выполнены предположения теоремы и определены еще измеримые функции gn (х), удовлетворяющие неравенству \gn (х) | К (1 +1 х |)т и та- кие, что для любого /? > 0 lim sup \gn(x)-g(x) | = 0. (15) п —► оо , х Я По функциям оп, bn, сп, fn, gn (I, х), gn (х) построим функции Vn’т, f“, wn, vn так же, как выше по о, b, с, f, g(t, х), g(x) строились va’x, va, w, v. Тогда wn(s, x)->ay(s, x), vn (s, x)->-u(s, x) при n^>-oo равномерно no se [0, T], x e для любого R>0. Бо- лее того, v*' л (г - s) (Sj уа. т л а - s> (S( (s> xj -*
I П ОСНОВНЫЕ РЕЗУЛЬТАТЫ 189 ->ua(s, х) при п^оо равномерно по aeJl, TeSDlfT), SG[0, Г], xeS,; для любого A>0. Действительно, например, | wn (s, x) - w (s, x), ==S sg sup sup I €)“ T (s, x) — va-x (s, x) I == ae9iTean(r_S) 1 1 = sup sup I »“• x A (T -s) (s, x) — Va' т л (Г — s) (s, x) |. te®!) Кроме того, очевидно, | va, x Л (T - s) (s> x) _ ya. x A (T - s) (s> x) | <M“ J \^(s + t,xt(n))e~^M -f*‘ (s + t, X/)e-^ldt + 0 + M“x sup |g„(s-H. х,(п))е_ф'<")— g(s-\-t, x()e~9‘ t < T - s Последнее выражение стремится к нулю при п->оо в силу теоремы равномерно по а ей, $е[0, Т], xeS/?. Мы уже приближали заданные функции бесконечно дифференцируемыми с помощью сверток с гладкими яд- рами. Посмотрим, что дает этот способ приближения в рас- сматриваемом случае. Мы сейчас покажем, что оп (а, /, х) и т. д. можно выбрать бесконечно дифференцируемыми по х. 14. Теор ем а. Пусть последовательность 8п->0 при п^оо. Тогда утверждения теоремы 12 и следствия 13 справедливы для оп (а, /, х) = о(0’(а, /, х), bn (a, t, х) =« = №(а, /, х) и т. д. (относительно обозначений см. § II. 1). Доказательство. Утверждается, собственно говоря, что <7„, bn, сп, fn удовлетворяют неравенствам (1) —(3) с одинаковыми постоянными /Сити сходятся к a, b, с, f в Х-! ([О, Т], В). Кроме того, нужно проверить (11), (15) и то, что Ig'n(x) | + Ig„(/, х) | N (1 +1х |)ffl, где W не за- висит от п, t, х. Нужные оценки для ал, bn, сп, fn, gn вытекают из того, что, например, ‘I стл (a, t, х) || = || $ а (а, /, х - елг) С (z) dz III г i < 1 < sup ||а(а, /, х —8лг)||^К(1+e„ + |x ) <^ (1+|х|), |г|<1 Цо, (a, t, x)-a„(a, t, f/)||< sup || a (a, t, x-s„g)- 111 < 1 -a(a, t, z/-enz)|l<K|x-^|.
190 ОБЩИЕ СВОЙСТВА ФУНКЦИЙ ВЫИГРЫША [ГЛ. Ш Далее, как и в доказательстве теоремы 12, введем до, (г, д). Мы говорили, что wt(R, е)->0 при е->0 для всяких /, R. Отсюда при любом t получаем sup sup х) х) I = а е А | х । < R = sup sup I 5 [/“(/, x-eny)-fa(t,x)]t(y)dy\sz ae A | x |<R|| у I jg ! I «СоуД7?4-еп, e„)->-0. По теореме Лебега т sup sup I f* (t, x) — fa (t, x)\dt^ 0. oaeA | x 1 1 Аналогичным образом доказываются соотношения (11), (15) и то, что an, bn, сп-+в, Ь, с в ([0, 7J, В). Теорема до- казана. В некоторых случаях an, bn, сп, fn, gn можно выбрать бесконечно дифференцируемыми по (/, х). 15. Теорема. Пусть множество А состоит только из конечного числа точек и последовательность &п -> 0 при п~+оо, | 8Л | 1. Тогда утверждения теоремы 12 и след- ствия 13 справедливы для оп (а, /, х) = (/ел)(а, /, х), Ьп (а, /, х) = (а, /, х) и т. д. (при вычислении свертки по (t, х) мы для t^Q полагаем а (а, /, х) = а (а, 0, х) ит. д.). Доказательство. Оценки роста an, bn, сп, fn, gn получаются так же, как в предыдущем доказательстве. Кроме того, равенства (11), (15), как сказано в § II. 1, известны. Значит, остается показать, что ал, bnt сп, fn^ ->о, b, с, f в <^х([0, T], В). Докажем только сходимость fn. Для an, bni сп соответствующие рассуждения повторяются буквально. Заметим, что в определении сходимости в ([0, Т], В) участвует верхняя грань по А, Поскольку же А состоит из конечного числа точек, то эта верхняя грань не превос- ходит суммы по а е А выражений, стоящих под знаком верхней грани, и мы докажем, что fn-+f в ([0, Т], В), если докажем, что для каждого а е А при всех R > 0 т lim sup |ЛЧ/, х) — р (/, х), dt = O. (16) ®-ooq 1
f П ОСНОВНЫЕ РЕЗУЛЬТАТЫ 191 Возьмем функцию wt (г, 6) из доказательства теоремы 12. Расписывая подробно свертку f“(t, х) и вспоминая, что £(/, х) = ^(/)^(х) (см. § II. 1), нетрудно доказать, что при И, \У\^%, \х-у\^8 |^(/, *)-$(/, у) (Я 4-1, = w" (R 4- 1, ел), где подразумевается свертка по t. Положим h% = f% — При | х\, \y\^R, \х-у\^г |Л“(/, y)\^w"(R + l, e) + wt(R, е). Применим теперь лемму II.7.15, взяв в ней R +1 вместо R и Для любого е>0 |Ч(;. I•= «;®?(й + 2, е) + ш,(й+1, J ifi'dg. \y\^R+' Отсюда вытекает, что допредельное выражение в (16) меньше т \wt (R + 2, s) + Wt (R + 1, e)J dt + о +N&-“\dt ю, y)\dy. о \у ^я+l Здесь второе слагаемое стремится к нулю при п->оо, так как средние функции некоторой функции из сходятся к этой функции в По этой же причине первое слагае- мое при п->со стремится к т т (R + 2, е) dt + wt (R + 1, е) dt. о о (17) Последнее выражение оценивает, таким образом, левую часть (16) для любых е>*0. В доказательстве теоремы 12 мы видели, что (17) стремится к нулю при е-^0. Теорема доказана.
192 ОБЩИЕ СВОЙСТВА ФУНКЦИЙ ВЫИГРЫША [ГЛ пг § 2. Некоторые предварительные рассмотрения Утверждения теорем 1.5—1.11 мы будем доказывать с помощью приближения произвольной стратегии ступен- чатыми стратегиями, т. е. стратегиями, которые постоянны на каждом интервале некоторого разбиения I отрезка [О, Т], Естественно, что верхняя грань выигрышей, получаемых от всех ступенчатых стратегий, построенных по данному разбиению I = {0 = tQ, ..., tn = T}, должна стремиться к соответствующей функции выигрыша когда max (ti+1 — t,) -> i ->0. Предварительной подготовке к доказательству специаль- ной формы этого факта (см. теорему 3.2) и посвящен дан- ный параграф. В нем мы доказываем также непрерывность v (s, х) и w (s, х) по х. Пользуясь определениями, предположениями и обозна- чениями из § 1, введем некоторые новые объекты. Возьмем Р е еЛ, функцию и (х), определим стратегию Р/ = Р и положим G* t и (х) = Msp х $ (s + г, xr) е dr + и (xt-s) е , - о G$, ,«(%)= sup Gp tu{x). ре A Для того чтобы лучше освоиться с оператором GSt t, читателю предлагается сделать: 1. Упражнение. Пусть 0 s0 Si С... ^sn = Т. Покажите, хотя бы не строго, что GSQt • • • GSn vs g(x) есть верхняя грань va (s0, x) по всем стратегиям a e 31, для которых az постоянно на каждом полуинтервале [Sx+1 — So, Si - So). О функциях и (х), которые подставляются в опера- торы G|3, G мы будем постоянно предполагать, что для некоторых постоянных /( и т^О при всех x^Ed \и(х)\^К(1+\х\у». О) При этом Gp ,lMi(x)<:/V(l+!x.) где N не зависит от р, s, /, х. Как мы уже видели при обсуждении тео- рем 1.5—1.7, такие неравенства легко вытекают из оце- нок моментов решений стохастических уравнений.
НЕКОТОРЫЕ ПРЕДВАРИТЕЛЬНЫЕ РАССМОТРЕНИЯ 193 2. Теорема. Пусть непрерывная функция и(х) удо- влетворяет неравенству (1). Тогда функция G^ tu(x\ непре- рывна по х равномерно по р е А и s, t таким, что Функции va(s, х), wa>тЛ (s, х) непрерывны по х равномерно относительно a s Й, s е [О, Т], т е 3)1 (Т). В частности, функции GSttu(x), v(s, х), &y(s, х) непре- рывны по х равномерно относительно s, t таких, что Q^s^t^T. Доказательство. Последнее утверждение вытекает из того, что, например, sup | GSt tu (хл) - GSt tu (x0) | < 0 < T < sup sup |G?, t (x„)-O£^(x0) 0<s</ < T И A и правая часть стремится к нулю при хл->х0 по первому утверждению. Возьмем, далее, некоторую точку х0 е последователь- ность хп -> х0 и положим hn = хп — х0, ол (а, /, х) = ^=а(а, t, x + hf^. Аналогично введем bn, сп, fn, gn, ип. Например, ип (х) = w (х + ^л). Поскольку са (t, х) непрерывна по х равномерно относительно а, то при всяком t sup sup х) —са(/, х) I -> 0 при п->оо. По теореме Лебега т lim sup sup | Cn (t, x) — са (t, x)|df — O. Нетрудно проверить выполнение и остальных предположе- ний теоремы 1.12. Значит, она применима в нашем случае. Кроме того, заметим, что процесс х*>s* х* (и) из теоремы 1.12 и процесс х*’s' *п —hn очевидным образом удовлетворяют одному и тому же уравнению. Поэтому х®’s* х°(п) = х*’s> Хп — — hn, с^ (s +1, х^ s’ хо (и)) = са^ (s + /, х*'s’ *rt) и т. п. По 7 Н. В. Крылов -
194 ОБЩИЕ СВОЙСТВА ФУНКЦИЙ ВЫИГРЫША [ГЛ. III теореме 1.12 теперь получаем Mrf \fa‘(s + t, x^s-x^e~^’S’Xn- О - ja< (s +t, x? s- xo) e~^' ’’ *° I dt-+Q, M sup Ig (s +1, Xх’s'Xn} e 4>t — a, s, x0 — g(s + /, x^'s’x°^e Ф/ l->0 при n -> оо равномерно по аей, s g [0, Т]. Беря в послед- нем соотношении вместо g(s, х) функцию и(х), —а это можно сделать в силу непрерывности и (х) и неравенства (1), — находим М sup I и (xza’s’ Я е~S,Xn -и (х? s’ Я е~*’ **. п при п -> сю равномерно по а е Й, s [0, Т]. Из доказанных предельных соотношений утверждения теоремы выводятся совершенно элементарно. Теорема доказана. Нам понадобятся свойства непрерывности va, Ga по а. Пусть метрика в множестве А задается функцией р (аь а2). Будем считать, что р(<хь a2) < 1 при всех аь а2еЛ. Выполнения этого неравенства всегда легко добиться, заме- няя при необходимости исходную метрику новой, ей экви- валентной, по формуле р' («ь «2) = arctg Р (а1( а2). 3. Определение. Для а1, а2 е s2l положим т р (а1, а2) = М $ р (a}, a?) dt. о Если але?1(п = 0, 1, ...) и р (ап, а°)->0 при п->сю, то мы пишем а^-^а0. Поскольку р(а1,а2)<1, то р(а\ а2) определено для любых а1, а2^?(. 4. Упражнение. Используя теорему 11.8.1, докажите, что если p(a\ а2) = 0, то sup I s> х — s’ х j = 0 (п. н.) для всех ($, х).
$2] НЕКОТОРЫЕ ПРЕДВАРИТЕЛЬНЫЕ РАССМОТРЕНИЯ 195 Множество А по предположению сепарабельно. Фикси- руем счетное всюду плотное в А подмножество {а (г)}. 5. Определение. Пусть / = {О = /о, /ь tn = T}— разбиение отрезка [О, Г], аеЯ, У —целое число. Мы пишем ае31с1(/, N), если at (о) е {а (1), a(N)} при всех (о g Q, / G [О, 7], и а, = а, при t е [th /z+1), i = 0, 1,... ... п-1. Обозначим 3lCT(/) = U31ст(/, N), 31ст = 1|81ст(/). w / Стратегии класса ЙС1 называются ступенчатыми. 6. Лемма. Пусть диаметр разбиения 1п отрезка [О, 7] стремится к нулю при п-±оо. Тогда для всякой страте- гии a G 51 найдется сходящаяся к ней последовательность стратегий ап е 31с1 (/л). Доказательство. Расстояние р удовлетворяет нера- венству треугольника. Поэтому достаточно доказать, что а) в смысле расстояния р множество U 21ст (1п) плотно в 31ст; б) множество 31ст плотно в множестве всех стратегий, каж- дая из которых принимает только конечное число значе- ний из {а (/)}; в) последнее множество плотно в 31. Докажем а). Еслиае31ст, то для некоторого разбиения / = {0 = /0, ..., = Т] выполняются равенства^ = at. при Zge [//, По стратегии а и разбиению 1п построим стра- тегии ап так, чтобы aj2 была непрерывна справа, постоянна на каждом интервале разбиения 1п и в левых концах этих интервалов совпадала с Тогда а" отличается отос/ только на тех интервалах разбиения 1п, которые внутри себя содер- жат хотя бы одну из точек /z.Hcho, что p(cz", az)->0 при п-+оо всюду, за исключением, быть может, точек Поэтому р (ал, а) -> 0. Для доказательства б) возьмем какую-нибудь страте- гию которая принимает значения из {а(1), ..., a(N)}. В евклидовом пространстве EN выберем произвольным обра- зом W точек хъ ..., xN так, чтобы |jq —при /. Пусть pz((D) = xz, если az((o)=a(i), t е [0, 7], (со) = 0 при t>T. Нетрудно видеть, что при s, t е [0, Т] Р (а6 а,) | - Р, |2. (2) Доопределим функции ah pz для отрицательных Z, пола- гая ccz = a0, pz = po. Пусть х (n, t) = j2n при j2~n^t<Z <(/+1)2-л, /=0,±1, ±2, ... Как хорошо известно 7*
196 ОБЩИЕ СВОЙСТВА ФУНКЦИИ ВЫИГРЫША ГГЛ. ш (см., например, доказательство леммы 4.4 [44]), существует число s и последовательность, состоящая из целых чисел п' оо, такие, что т lim М J | 0/ Рх(п', / —»)+«|я dt = 0. п* -► ОО О В силу (2) для функций а? (п> t-S) 4-s имеем: р (а"', а) 0 при п' -> оо. Кроме того, нетрудно видеть, что х (n, t — s) + s — ступенчатая функция от /, х (n, t — s) + + s</. Поэтому а" ^/-измерима и ап е 21ст. Для доказательства в) на А введем следующие функции: i„ (а) = min (i: р (а, а (i)) < х„ (а) = а (in (а)). Понятно, что хл (а) равно тому а (/), которое отстоит от а не дальше, чем на, и имеет наименьший возможный номер. Поскольку {a(t)} всюду плотно в А, то функции 1л(а), хп(а) действительно определены на Л и р(хп(а), а)) при всех а G Л. Положим еще хЛг N (а) = а (N Д in (а)). Очевидно, хп>дг(а)->а, если сначала А/->оо, а затем м->эо. Поэтому р(хП(Лг(а), а)->0 при тех же условиях для любой стратегии ае21. Остается заметить, что стратегия nntN (az) принимает значения только в множестве {а(1), a(Af)}. Лемма доказана. 7. Лемма. Пусть sg[0, Т], Tn ^ — случайные вели- чины со значениями в [О, Т — s], и (х) — непрерывная функ- ция, удовлетворяющая условию (1). Тогда случайная вели- чина т« v ™а> s, х , а, s, х dt + u(x*;-x)e-^ (3) tl является X-непрерывной функцией (а, х) при а е 21, xeErf. Доказательство. Заметим сначала, что если ал -> а, хп —>х, то <5?В-предел х*п♦ s« хП равен х?’s’ х. С помощью тео- ремы II.8.1 это выводится из непрерывности о (а, /, у) и b(a, t, у) по а, ограниченности их при фиксированном у и сходимости aj1 (о) к аДсо) по мере dPxdt. Далее, рассуждая так же, как при доказательстве леммы П.7.6, используя условие (1.3) и непрерывность
9Я НЕКОТОРЫЕ ПРЕДВАРИТЕЛЬНЫЕ РАССМОТРЕНИЯ 197 х) и fa(t9 х) по (а, х), можно доказать ^-непрерыв- ность процессов са< (s + /, х“* ’’ *), f*t (« +1 xf" s’ х) по (а, х). Применяя еще результаты § II.7 о JfB-непрерывности интегралов и «if-непрерывиости произведений «^-непрерыв- ных процессов, сразу получаем утверждение леммы. Лемма доказана. 8. Следствие. При sa[0, Т] и x^3R(T — s) функции va (s, х) и va' т (s, х) непрерывны по (а, х) при xe£rf. При O^s^t функция Gsp tu(x) непре- рывна по (Р, х) на А х Объединяя это следствие с леммой 6, получаем 9. Следствие. u(s, x) = lim sup ua(s, x) n—coaster (Zrt) для любой последовательности разбиений, диаметр которых стремится к нулю. 10. Упражнение. Докажите «^-непрерывность (3) по s и выведите отсюда непрерывность ua (s, х) по s. Вместе с теоремой 2 это позволит заключить, что (s, х) непре- рывна по (s, х), а u(s, х) — борелевская функция (s, х). Докажем еще несколько свойств операторов Gs, t- Пусть последовательность еп->0, ел=/=0. Рассмотрим средние функции для функций a, b9 с9 f. Положим од (а, /, х) = /, х) (см. обозначения в § II.1) и т. д. Иначе говоря, возьмем ал, ЬП9 сП9 fn из теоремы 1.15. Обозначим через х?’s’ х (и) решение уравнения dxt^an(at9 $ + /, Xt) dwt + bn (a,, s + t, xt)dt9 x0 = x. Положим = + x?’5 X(n))dr 0 и для постоянной стратегии P/is Р при 4-w(x/-,(n))e ф^"')
198 ОБЩИЕ СВОЙСТВА ФУНКЦИЙ ВЫИГРЫША [ГЛ. III Рассматривая 0 как единственную точку А и пользуясь теоремой 1.15, а также оценками моментов решений сто- хастических уравнений, получаем следующее утверждение. 11. Лемма. Пусть непрерывная функция и (х) удов- летворяет условию (1), ип(х) = и^ (х). Тогда I G^rnu„(x)|^/V(l +И)т при всех s^t^T, x^Ed, п>0, ₽ е А, где N не зави- сит от s, t, х, п, р. Кроме того, Gl;?un(x)^Gltu(x) при п-^со для всякого 0еД равномерно на любом мно- жестве вида {(s, /, х): О С s t Т, | х | /?}. Функции an, bn, сп, fni ип являются гладкими по (/, х). Кроме того, их производные растут не быстрее (1 + |х|)т. Например, | д11 «л W | — и (х - 8лг) -gp- £ (г) dz < dz. В соответствии с теоремой II.9.10 функция Gl'tun(x) является единственным решением некоторого уравнения. По замечанию II.9.11 она однозначно определяется по нк- циям an = ^-anG*, bn, cnt fn, ип. Для знания последних, очевидно, достаточно задать a, b, с, f, и. Отсюда ввиду леммы 11 имеем 12. Следствие. Функция Gsp tu (х) не изменится, если изменить вероятностное пространство и взять другой димерный винеровский процесс. Она однозначно определяется по а, Ь, с, f, и. Используем более полно информацию о Gsp;/luzl(x). 13. Следствие. Пусть 0еЛ, функция а(0, /, х) (Ь (0, /, х)) при каждом t е [0, Т] дважды (один раз) непрерывно дифференцируема по х и ее вторые (первые) производные по х ограничены на любом множестве ви- да [0, Т] xSr. Пусть t [0, Т], т] (s, х) — бесконечно дифференцируемая функция на Ed+i, равная ну ню вне
<21 НЕКОТОРЫЕ ПРЕДВАРИТЕЛЬНЫЕ РАССМОТРЕНИЯ 199 некоторого цилиндра [0, /] х SR. Тогда J ds [Gl.z и (х) L₽* t] (s, х) + /Р (s, х) т] (s, х)] dx = О, О где d L?*r\(s, x)s-^n+ 2 s’ <./=> d — 2 s, x)T])?-c&(s, x)T], 1 = 1 a (P, s, x) = у ст (P, s, x) о* (P, s, x). Действительно, пусть d (s> x) =& + 2 S’ X) dxldxJ i, /=1 + 2 s* x)a?--c«(s- *)• i = 1 По теореме II.9.10 L?(s, x)G$%n«n(x) + fS(s, x) = 0 в полосе [0, Z] x Ed. Умножая это равенство на т], интег- рируя по частям и вводя естественным образом оператор Ln*, получаем $ ds [О,; " ип (х) Ln* л (s, х) + (s, х) т] (s, х)] dx = 0. Остается здесь положить п -> оо и заметить, что интегри- рование производится по ограниченному множеству и, напри- мер, Ь„?(Р. 8, Х) = = 6Х,(Р, s, x)*e7<rf+1^(en's, е7*х)^-^<(Р, s, х) при почти всех s, х (см. свойства средних функций в § II. 1). Последнее свойство операторов Gs, t, которое мы приве- дем в этом параграфе, непосредственно вытекает из теоремы II.9.7 и замечания II.9.9.
200 ОБЩИЕ СВОЙСТВА ФУНКЦИЙ ВЫИГРЫША (гл. m 14. Лемма. Пусть se[0, 7], —s и стратегия aE'il такова, что at = ati при /2). Пусть непрерывная функция и (х) удовлетворяет условию (1). Тогда почти наверное М“ х IJ Г1 (s +1, xt) е~ 41‘dt + и (xt,) Г vX I it e£ Gss + tzUyXt ). Отметим, что для доказательства леммы в теореме 11.9.7 вместо Z, s, Т, С, (х), br (х) следует взять соответ- ственно Л, tlt t2, a/p ^+г(х). § 3. Доказательство теорем 1.5 —1.7 В предыдущем параграфе мы доказали, что некоторые математические ожидания вида MsaxFa непрерывны по (а, х) на St X Ed. Кроме того, мы научились любую стратегию приближать ступенчатыми и ввели важные для настоящего параграфа операторы Gs₽ /, Gs> t. Покончив, таким образом, с техническими деталями, перейдем к непосредственному доказательству теорем 1.5—1.7. 1. Лемма. Пусть sQCs1<-^<sn = Tt Тогда V(E) ($0, X) С«о, s1Gsb s2 • • • GSn_ ] sng (x). Доказательство. Обозначим щ (x) = GS/ f. • * ’ Gsn-isn^ W G = °, 1>• • • , n “ 1), un (x) = g (x) и фикси- руем e>0. По теореме 2.2 функция ип-1 (х) = Gs^_x sng(x) непрерывна. Кроме того, она удовлетворяет неравенству l^n-i (х) (1 + lx|)m. Отсюда по теореме 2.2 функция ип_2 (х) = Gsn_2 sn Un-\ (х) непрерывна. Продолжая эти рас- суждения, убеждаемся в том, что все функции щ (х) непре- рывны. Далее, W = GSi si+1ul+1 (х) = sup Gft Sj+u,+1 (x), i — 0, 1,... , n — 1. По следствию 2.8 функции Gf( s/+1«n-i (x) непрерывны по p, поэтому последняя верхняя грань может вычисляться по
ДОКАЗАТЕЛЬСТВО ТНОРВМ 1.5-И.7 201 любому счетному всюду плотному в А множеству. Замечая еще, что G^ si+1Ui+1 (х) по следствию 2.8 непрерывна по х, заключаем, что существует (счетнозначная) борелевская функция Р/ (х) такая, что при всех х Ui (х) < %ul+1 (х) + в, / = 0, 1,..., п-1. В пространстве непрерывных функций Х[о, оо) со значе- ниями в Ed определим теперь функцию at (Х[о, оо>) = (Х[о. ц) по формуле az(x[0, <j) = p<(xs._So) при s0, s1+1 — s0), / = 0, n— 1, at (X[o, <]) = Ро (0) ПРИ t^T — s0. Очевидно, функция at прогрессивно измерима относительно Д и уравнение X/«x + ^a(ar(X[o, г]), s-f-r, xr)dwr + о эквивалентно последовательности уравнений x« = x+Jo(Po(x), s + r, xr)dwr+(/>(Р0(х), s + r, xr)dr, о о Ze[0, $i — s0); X/ = xS1—se-|- J ° (Pi (S“ so)> s + r> Xr)dv/r + + 5 s+r’ x<-)dr’ si~’o ^[«1-% «а —s«); и так далее. Каждое из этих уравнений имеет решение. Следовательно, ^ — естественная стратегия, допустимая в любой точке (s, х).
:02 ОБЩИЕ СВОЙСТВА ФУНКЦИЙ ВЫИГРЫША (ГЛ III Наконец, по лемме 2.14 при i = 0, 1, п— 1 М“ (+1$ Уфо-К xt)e~^dt + + «I + l(*s/ + 1-s0)e Ф5г+1-8° = M“. + SsMl хв Ф’< s0Ui(xSl-,9)-s. Складывая все такие неравенства и приводя подобные, находим V(E) (s0, х) S* va (s0, х) Uq (х) — пе. Лемма доказана. В следующей теореме доказывается первое утвержде- ние теоремы 1.7. 2. Теорема, a) v{E] = v. б) Пусть s0 = < sj <... ...<sjl(0 = 71(f= 1, 2, ...), max(sj + 1 — sj) ->0 при i-+oo. Тогда u(s0, x) = limG i iG i si...G( , g(x) = i-+oo s0* S1 SH s2 sn(O-V sn (i) = sup G , iG i Si---G i t g(x). (1) i s0’ S1 sl’ s2 sn(Z)—1’ sn(Z) Доказательство. Утверждение а) вытекает из б), леммы 1 и очевидного неравенства v{E)^v. Кроме того, из леммы 1 следует, что верхняя грань в (1) не превосхо- дит v(s0, х), а так как верхний предел меньше верхней грани, то для доказательства б) достаточно показать, что v(s0, x)sg lim G i J...G i i g(x). (2) 0’ 1 sn (!)-!• sn<i) Пользуясь следствием 2.9, построим ступенчатые стра- тегии так, чтобы va> (s0, х) —> v (s0, х) при и af == = а\ при t (=[s/-s0, s/ + i-so)- s : —
««1 ДОКАЗАТЕЛЬСТВО ТЕОРЕМ 1 5—1.Г СОЗ Введем еще функции по формулам u‘n(i}(x)=g(x), Gsi si. + iu/+1W (/ = 0, 1, .... n(i)-l). По лемме 2.14 K', x «/ 1 — so s/-so — ф I e ’/ + '“*» 7 + 1 -Ф ; a . s'_4 (SGS°«/ + 1 s/ + l i -Ф i <M“x* S/-S°M/fx/ \ (3) k ’/"’о/ Складывая такие неравенства по / от / = 0 до / = п (/) — 1 и приводя подобные, получаем: иа+0, х)^и‘о(х). Следовательно, u(s0, x)==g lim и‘п (х). Последнее в точности 1 -> оо эквивалентно (2). Теорема доказана. 3. Упражнение. Докажите, что если разбиения {s/} вложены, то функции, стоящие в (1) под знаком предела, монотонно сходятся к v (s0, х). 4. Замечание. Доказанная теорема вместе с постро- ениями из леммы 1 дает способ нахождения е-оптимальных стратегий в классе ступенчатых естественных стратегий. 5. Лемма, а) Пусть s е [0, Т], хе Ed9 а е Й. Тогда процессы д“. s. + s. Х_ Ма x{g(xT-^e~<tT~s + + Г /“'(s + g хг)е~чг dr\^t}, t * = v(s + /, х«. ’’ * + <• М _та> ’• * + § f r (sг, х?>’• х) е ф' dr, определенные при t е [0, Т — s], являются супермартин-
204 ОБЩИЕ СВОЙСТВА ФУНКЦИИ ВЫИГРЫША (ГЛ. II! гидами относительно причем первый из них неотри- ателен (п. н.). б) GStfV (t9 х) v ($, х) при х е Ed9 0 ^Т. Доказательство. Очевидно, ^а, s, х___^а, s. х___ = - М“ / f f(8 + г, хг) е~ dr+ g (Хт _ ,) е- -1 Здесь правая часть является мартингалом. Поэтом d?’s’ х — супермартингал, если х?’ s’ х — супермартингал. Неотрица- тельность 6“’ ’• х вытекает из того, что по определению супермартингала 6“’s> х^ М“ х {6r_ s I t\ и = 0. Далее, по теореме 2.2 функция v (s+t, х) непрерывна по х. Кроме того, |u(s-}-/, х) | (1 +1 х |)m. Значит, по лемме 2.7 •SMimx?" s-x~rf- s'x П-+0О при каждом t е [0, Т — s], если ал а. По лемме 2.6 можно выбрать ступенчатые а"->-а. Отсюда вытекает, что супермартингальность х“- ’х достаточно доказать для сту- пенчатых стратегий. Поскольку же участки постоянства at можно рассматривать отдельно, то достаточно доказать, что М“ s’ х (п. н.) для и а, = а/, при iapj, t2). По лемме 2.14 для такой стратегии Ms“ x{Kt,\^t,}^far(s + r, # ’• ‘-xdr + о 4-е~ф*’ ’ ,+tiv (s + t2, x“,s,x) (п.н.). Отсюда видно, что остается доказать утверждение б) леммы. Возьмем poe4, s0 = t и построим последовательность раз- биений s0 max(s‘ + 1 = «о < si <... < s„ (1) = T отрезка [/, T] так, чтобы — s')->-0. По теореме 2 и лемме 2.14 нетрудно
«Л ДОКАЗАТЕЛЬСТВО ТЕОРЕМ 1.8-1.? 20В получить /...Gj s0’ si 2sGp? i...GpJ Mz₽,°J 5 + Хг)е~^ sl si g(x)^> sn (0 — 1’ sn (0 Л gW*) = n (0 где постоянные W не зависят от х. Отсюда вытекает, что для любого Р <з А последовательность G. s‘ #(XF-s *) s0’ ’1 »n(0—! sn(i) ' ' по абсолютной величине не превосходит 2V(1 +|x^ss- *|)m. Последнее выражение имеет конечное математическое ожи- дание. Следовательно, вспоминая, что Gs, tu (х) bs mF, (s-f-r, хг)б dr 4- и (xt _ s) е ф<-* . б и применяя теорему Лебега, легко находим Gf, tV(t, х)= lim G|, tG i J...G i i g(x). 1-+ОЭ s0’ S1 sn(i)— I’ sn (i) Здесь выражение, стоящее под знаком предела, по лемме 1 или по теореме 2 не превосходит v (s, х). Лемма доказана. 6. Теорема (принцип Веллмана). При s^t^T v(s, х) = sup М“ J (s + г, xr)e 9r dr + аей ’ I 8 + »(<, xt-t)e ф<-' причем верхнюю грань можно брать также по а е 21 е (s, х). Доказательство. Из свойств супермартингалов имеем V (s, X) = MS, Ms, Ms, xXr-s = V (S, X). Беря верхние грани по а е 21 или по ае 21g (s, х), получаем то, что требовалось. - s *) Считая, что А состоит из одной точки р0, вместо неравенств в (3) получим равенства.
206 ОБЩИЕ СВОЙСТВА ФУНКЦИЙ ВЫИГРЫША [ГЛ. III Следующая лемма доказывает теорему 1.5. 7. Лемма. Функция u(s, х) непрерывна по (s, х) при s е [0, Т]9 х е Ed. Доказательство. По теореме 2.2 функция v(s, х) непрерывна по х равномерно относительно s е [0, Т]. Значит, достаточно доказать, что v (s, х) непрерывна по s для всякого х. Фиксируем х0. Нам нужно доказать, что если sn, /л(=[0, Г], tn- sn-+ 0, то v(sn, x0)-u(/„, х0)->0. Не ограничивая общности, будем считать, что tn^sn. При- меним предыдущую теорему при х = х0, s = sn, t = tn и подберем еще ап е так, чтобы верхняя грань в ее утвер- ждении достигалась при a=tan с точностью до Имеем lim \v(sn, х0)-ц(/л, х0) | П —♦ ОО ___ “ sn I п I lim М $ |/ar (s„ + r, Xr)|dr + п —оо о где индекс п над х, ф заменяет (an, sn, х0). По следствию II.5.12 для любого q^\ sup М sup I х" I? < оо. (5) п t^T 1 1 Отсюда в силу (1.3) вытекает, что допредельное выра- жение в первом слагаемом в (4) не превосходит N(tn — sn), а само слагаемое равно нулю. Если в этих рассуждениях f заменить на с и воспользоваться неравенством Чебышева, то мы увидим, что ф^_5л->0 по вероятности. По следствию II.5.12 по вероятности x^_s^->xc, В силу равномерной непрерывности v (/, х) по х sup |и(/, (/ + х0)-и(/, х0) |->0 /е=[0. Г] при z/—>-0. Отсюда h(xntn~s — х0)->0 по вероятности. В частности, v(tn, Xtn-S/^ — v (tn, x(l)->0 по вероятности. Теперь легко доказать, что выражение, стоящее во втором сла- гаемом в (4) под знаком математического ожидания, стремится к нулю по вероятности. Из (5) заключаем, что и его мате-
ДОКАЗАТЕЛЬСТВО ТЕОРЕМ 1.5—1.7 207 § 3) матическое ожидание стремится к нулю (ср. вывод леммы II.7.6 из леммы II.7.5). Лемма доказана. 8. Доказательство теоремы 1.6. Будем опускать верхние индексы (a, s, х) и возьмем супермартингал х, = = х?’ s’ х из леммы 5. По предыдущей лемме он непреры- вен по /. Значит, по лемме из Добавления 2 процессы ' , -фо-ри«“ = “(« + «. xa) + ruv(s + u, хи)]е ° du + о t -<₽/- Srudu + v(s + /, xt)e ° , x/ —р/ являются супермартингалами при /^[0, Т — s]. Следова- тельно, о — Ms, х [ХО Ро] Ms, X [хт рт]. Еще раз применяя свойства супермартингалов, полу- чаем V (s, X) = Ms, хРо Ms, xPt Ms, хХт Ms, xXt'_s = V (S, х). Остается в этих неравенствах взять верхние грани по а ей. Теорема 1.6 доказана. Если же в последних неравенствах взять верхние грани по ае Slf (s, х) и воспользоваться теоремой 2а), то получим второе утверждение в теореме 1.7. Теорема 1.7 доказана. 9. Упражнение. В доказательстве леммы 7 введена функция h(y). Определим с ее помощью выпуклый модуль непрерывности v(t, х) в точке х0 по формуле <о (е) = sup {МЛ (£): М£<е, 1}, где h(r) = sup h(y). \У'^г Докажите, что I V (S, х0) - V (t, Хо) I -С ^N\t-s\(\ 4-ix0|)2m + 1-}-o)(/V /|/-s |), если N]f\t — s|=cl, где N! = N(K, T, tn). 10. Замечание. Из теоремы 2 и следствия 2.12 выте- кает, что функция v (s, х) однозначно определяется после задания функций о, b, с, f, g. Она не зависит от того, какое взято вероятностное пространство и каков винеров- ский процесс.
208 ОБЩИЕ СВОЙСТВА ФУНКЦИЙ ВЫИГРЫША (ГЛ. III § 4. Доказательство теорем 1.8—1.11 для задачи об оптимальной остановке Мы воспользуемся методом рандомизированной оста- новки (см. § 1.2). Напомним, что он состоит во введении в функционал, характеризующий выигрыш, множителя / 1 \ ехр (— и замене функции ^на^ф^. В соответ- \ о / ствии с этим сделаем следующее построение. При п > 0 положим Вп=Лх[0, п\ и для р = (а, Г) е Вп пусть о(Р, /, х) = а(а, /, х), fe(P, /, x) = fe(a, /, х), (/, x)=Ca(t, х) + Л Р (t, х) = fa (t, x) + rg(t, x), g (x) = g (T, x). Понятно, что для каждого п при р е Вп, хи y^Ed функции а(Р, /, х), fe(P, /, х) удовлетворяют усло- виям (1.1), (1.2) с той же постоянной Л, а функции с|3(/, х), fp(/, х), g(x) удовлетворяют условию роста (1.3) с той же постоянной пг и другой постоянной /С Поэтому так же, как в § 1 по Л, а (а, /, х), b (а, /, х), ca(t, х), /а(/, х), g(x) были введены понятия стратегии, естествен- ной стратегии и функции выигрыша, по Вп, а(Р, /, х), Ь(Р, /, х), ср(/, х), /р(/, х), g(x)=g(T, х) мы можем ввести аналогичные объекты. Соответствующее множество стратегий обозначается 33л, естественных стратегий — ®h.e(s, х). Обозначим Э1я множество неотрицательных прогрессивно измеримых относительно t] процессов rt таких, что rt (со) п при всех (/, со), ® = U 53л, ЪЕ (s, х) =[J^Bn Е (s, х), = U Каждая стратегия Р е 53п, очевидно, является парой процессов (az, rz), причем а = (офей, r = {rt}^iRn. Наоборот, любая такая пара образует стратегию из Нетрудно видеть, что если р = (а, г) е 93„, то решением уравнения t t Xt = X 4- 5 a (Рь, s + ^1, Xt,)dwt,+ $ b (P,„ S4-/1( xti) dtx 0 I) является x^’s- x. Иными словами, 5’x = x^’s> *,
| 4) ДОКАЗАТЕЛЬСТВО ТЕОРЕМ 1.8-1.11 209 Положим 6n(S, Х)=» = sup MP х J f‘ (s+t, x^e-^dt+giT, xT-s)e^-s . ’ L о J Здесь, как и выше, индексы у знака математического ожидания означают, что имеется в виду математическое ожидание выражения, в которое всюду, где возможно, эти индексы вставлены. К функции vn (s, х) как к функции выигрыша в задаче управления без остановки применимы результаты § 2 и 3, а также теоремы 1.5—1.7. В част- ности, vn(s, х) непрерывна по (s, х), vn(T, x)=g(T, х) (теорема 1.5). 1. Лемма. Пусть sg[0, Т], xe£d, 0 = (а, 0 ^53. Тогда процесс S, X * vn(s-\-t, +^0(s + p, + о + ^Pvn (s + р, хар * х)] dp, определенный при t е [О, Т — s], является непрерывным супермартингалом. Доказательство. По лемме 3.5 а) при процесс Ms 44 s’x)e~^' +y^p(s + p, X^s-x)e~^' ' dp О является супермартингалом. В частности (Р=(а, 0)), Vn(s + t, xta-s- х) е~^ S’ Х + $ fap (s + р, х*s-х) е< ’’ ' dp о — супермартингал. Остается к последнему применить лемму из Добавления 2. Лемма доказана. 2. Лемма. Пусть s е [0, /], x^Ed, у1 — s), fV = (а‘, r‘) е ® (i= 1, 2,...), борелевская функция и (t, х) удовлетворяет неравенству \u(t, у) | W (1 +1 у |)т с одной постоянной N при всех t 0, (j ® Ed. Пусть еще t . т< rpdr limM“x№ 0 = ‘-“° о
210 ОБЩИЕ СВОЙСТВА ФУНКЦИЙ ВЫИГРЫША (ГЛ. III Тогда / IV i __ lim MSPJ$ + xt)e~4>t dt + ufs + tf, хЛе~^‘ i -* оо [ о \ (s + t, Xf)e ^dt + ufs + yi, b 0 Доказательство. Нетрудно видеть, что Интегрируя обе части по t е [0, у1 * *], вводя обозначение h‘ = sup (1 4-1 ха‘-s-х | )m /Е[0. T — s] z и замечая, что \fa(t, х) | К (1+ |х | )m, \g(t, х) | < К(1 +1х|)т, находим Ms₽'/^₽hs + /, Xje-V'dt- о / i -Mb ya‘(s + t, Х1)е~^ dt о v* — J r‘pdp li т‘ ~! rpdp $\l-e 0 /dt+\f‘te 0 dt о 0 I — f rt dt I <K(T-s4-l)MA'\l-e 0 /. Очевидно также, что | Msp\u(s + y', x?.)e Ф^-М“\«(8 + т',
«41 ДОКАЗАТЕЛЬСТВО ТЕОРЕМ 1.8—1.1! 211 Таким образом, достаточно показать, что последнее выражение стремится к нулю. Поскольку с“ (/, х) К (1 +1 х | )т, то <р“"’х K.RT при h‘^R. Поэтому (V1 \ / v1 \ - f _________ I — J <«| 1— е 0 / «g lim М/1'хл<>д \1 — е 0 / + i —» оо i -> оо --- С i~^~r'pdp 1 + # lim Мхл1<„ \ rte 0 dt=sS4-sup М (h1)2 + i-*oo i ___ v‘ 7'dp _|_£екят lim Мхл1<л 0 dt. i — co о По предположению последнее слагаемое равно нулю. Кроме того, из оценок моментов решений стохастических уравнений (см. следствие II.5.12) вытекает, что sup М (Л‘)2< <оо. Значит, полагая /?->оо в неравенстве I 4- sup М (Л*)2, к i получаем / = 0. Лемма доказана. 3. Лемма, а) Пусть s s [О, Т], x^Ed и для всякого а е 21 определены та е Ю? (Т — s), га е Э1. Тогда vn (s, х) = sup М“ х ае?( т -’’r-I rpdP Vn(s + x, хх)е ° t т — — J г dp + $[^ + п<£_5'>)+ + ''Л](з + Л xt)e 0 dt(. (1) О б) Положим gn = g/\vn- Тогда + grn(s4-t, хх)е фт Кроме того, в утверждениях а) и б) верхнюю грань по а <= 21 можно заменить на верхнюю грань по as21^(s,х).
212 ОБЩИЕ СВОЙСТВА ФУНКЦИИ ВЫИГРЫША ГГЛ. HI Доказательство. По теореме 1.6 равенство (1) справедливо при любых та, га, если оно справедливо при та = Т —s, га = 0. Утверждение б) выводится из а) при г* = 0 так же, как соответствующее утверждение в доказа- тельстве леммы 1.5.2 выводится из формулы (1.5.2). Воз- можность заменить в предыдущих рассуждениях на 21/7 (s, х) следует из теоремы 1.7. Таким образом, остается доказать (1) при na = T — s, га = 0. Пусть Р = (а, 71) е Обозначим X, = V„ (s 4-1, xf’ s,x)e~’ + / Bax I T dp + + $ *' dp, Oz==e° P . о По лемме З.В а) процесс xz — супермартингал. По t лемме из Добавления 2 процесс р, s — $ nsd<I)s — су- о пермартингал и vn(s, x) = Mp0^Mpr-s^ ^емг-s) [Mxr_s._ f)n(s, x)]_|_yn(s, x). (2) С помощью теоремы Фубини легко доказать, что Mpr-S = M“X^(T, xr_s)e~4>r-s + + Т If' + (s + е~"‘ dt\ о ‘ Верхняя грань этого выражения по г е очевидно, равна f lf' + «(g-Pn)+](s-H. х^е~^‘<И-{- I о +£(Т, Принимая это во внимание, вспоминая определение vn и вычисляя верхние грани в (2) по а полу- чаем (1) для та = 7 — s, га = 0. Лемма доказана. 4. Следствие. Так как gn^g, то vn^w.
I 41 ДОКАЗАТЕЛЬСТВО ТЕОРЕМ 1.3-1.11 213 5. Лемма, а) Функция w (s, х) непрерывна по s, х. б) Существует постоянная N такая, что | vn (s, х) | N (1 +1 х |)т при всех п, s, х. в) vn (s, х) f w (s, х) равномерно на всяком множестве вида {(s, х): sg[0, Т], |х|^/?}. Доказательство. Утверждение а) вытекает из в) и непрерывности vn(s, х). Так как 95лс=ЗЗл+1, то после- довательность vn(s, х) возрастает. Кроме того, по преды- дущему следствию vn w и, очевидно, vQ (s, х) vn (s, х), причем функция д0 не сильно отличается от функции v из § 1. Это вместе с оценками v, w из § 1 доказывает утверждение б). Положим w(s, х) = lim vn (s, х). По предыдущему след- П-+9Э ствию ®(s, x)O(s, х). С другой стороны, для ае'21, te3>I(7’-s) возьмем Л = ₽/ = («/, Л)- Тогда, как нетрудно получить с помощью теоремы Фубини, бл(», Х)5» >М£ J f + xt)e-^dt+g(T, xr_s)e_4,r-sU I o J T-s rt ==M®x J пе~п(/_т) (s + p, xp)e~4>pdp-\- r Lo + g(« + Z, х,)е“ф']л+ + M“ Xe_n(r-S“T) j /“'(8 + /,х/)Гф'Й+ + g(T, Хт-^-’г-ф Перепишем это соотношение несколько иначе. Обозначим п«.«. «(0 = J(s + р, хар‘s’ х)е~ф“’ S’Xdp + о хГ-х)е~^Х при KT — s, s- х (i) = т]а- »•х (Т — «) при t>T — s. Вве- дем еще случайную величину I, имеющую показательное распределение с параметром, равным единице, и не зави- сящую от {т]“’s- х (/)}. Тогда то, что мы получили, можно
214 ОБЩИЕ СВОЙСТВА ФУНКЦИЙ ВЫИГРЫША (ГЛ. ш записать так: vn (s, х) М* хт) (j + ~ . w (s, х) хЛ + УстРемим здесь п к бесконечности и заметим, что процесс ла’s* х (0 непрерывен по /, | ла*s’ х (/) | К (Т - s + 1) /1 + sup I х^ s- х | \т \ Т—s 1 1/ и последняя величина суммируема. Значит, по теореме Лебега w(s, х) М“ хЛ (т) = va' т (s, х), w (s, x)^ay(s, х). Окончательно, w (s, x) = t£>(s, х). Из последнего равенства и неравенства w (s, x)^g(s, х), в частности, следует, что убывающая последовательность неотрицательных непрерывных функций g(s, *)-gn(s, x) = g(s, x)-g(s, x)/\vn(s, x)^ -+g(s, *)-g(s, x)A^(s, x) = 0. По теореме Дига g (s, x) — gn (s, x) -> 0 равномерно на всяком цилиндре Ct,r- Теперь ввиду леммы 3 (и след- ствия 1.13) для доказательства в) достаточно показать, что | gn (s, х) | (1 4-1 х | )m с одной постоянной N при всех n, s, x. Это неравенство вытекает из утверждения б). Лемма доказана. 6. Замечание. Утверждение а) заканчивает доказа- тельство теоремы 1.8. Теоремы 1.9 и 1.10, как мы видели в § 1, вытекают из теоремы 1.11. Для доказательства последней нам пона- добится аналог леммы 1, который получается объедине- нием лемм 1 и 5 (и теоремы 1.12). 7. Следствие. Пусть s е [0, Т], х Ed, р = (а, г) е е 53. Тогда процесс __ В, S, X р^, S, X w (s Ц ха, s, Х^е t / R s х + 5lr₽(s + p, x“'^) + fp(0(s + p, x“-s^)]e-V ’ dp, о определенный при t е [0, Т — s], является непрерывным супермартингалом. Процесс х также является супермартингалом для любого Вычитая из этого процесса при
§ 4) ДОКАЗАТЕЛЬСТВО ТЕОРЕМ 1.8-1.11 215 р = (а, 0) мартингал М“ х к f'p (s + р, xp)e_<!Wp + g(s4-T, хт)е-ф* (о ) получаем супермартингал, который при t = T — s равен k(s + T, x?’-)-g(s + T, Это выражение неотрицательно. Далее, из определения супермартингала сразу вытекает, что супермартингал, поло- жительный (п. н.) в какой-то момент времени, положите- лен (п. н.) и во все предыдущие моменты. Объединяя все, только что сказанное, приходим к такому результату. 8. Следствие. Пусть se[0, Т], теЭ^Т1- s), х е а е 21. Тогда процесс w(s-\-t/\x, х?дт’х)е — — M“xfc(s + T, хт)е-Фт + 5 /“р(5 + р, Хр)е~^р dp\^\ I ТА/ ) является неотрицательным супермартингалом при t е €= [0, T — s\. 9. Доказательство теоремы 1.11. Из след- ствия 7 и свойств супермартингалов имеем W (S, х) М* х h [fa‘ (s + */) + (о t T \ -vt-\rpdp -Фг-JrPM + rtw(s + t, xt)\e 0 d/-f-ш(s + t, xx)e ° J. (3) Этим доказано неравенство (1.10). Пусть теперь s- *, e>0. Для P = (a, r) e 33 положим т₽ = т“. По принципу Беллмана (см. теорему 1.7) при любом п vn(s, х)= sup Ms₽,*hf₽/(s + Z, х<)е_ф< d/ + E<s-*> (о 4-U„(s + r, XT)(?_<P4=^ sup sup M“ X К [/“'(s+ /,%,) + J as?l£(s, x) regj (0 t _ T \ , -4>t-Wdp -<pt-rrPdpl + + xt)]e ° d/-j-u>(s-|-T, xr)e 0 /.
218 ОБЩИЕ СВОЙСТВА ФУНКЦИЙ ВЫИГРЫША [ГЛ. III Перейдем в этом неравенстве к пределу при п->оо. Тогда, используя неравенство g(s, x)^tfl(s, х) и (3), а также то, что vn f w, получим w (s, x) = sup sup M? x A [f06' (s + /, Xt) + aeE3l£(s, x)r-s^ (0 t _ % \ . -Vt-f'pdp “^“PpM + Л5Г(« + ^» x0le 0 dt + w(s + i:, xr)e ° j. Далее, возьмем последовательность a' & 'Л£ (s, х), г’еЗЧ, для которой w (s, х) = Jim Ms“‘x If1* (s +1, Xt) + t_t t { A , ] r„4p -q>T-f"rpdpl + fig(S +1, */)] e 0 d/ + ay(s4-T, xx)e 0 J. (4) Из неравенства g (s + /, x“- ’• < w (s +1, xf-s- *) — e при t <. t“- ’•x, (3) и (4) находим r-t Iх r dp elimM“x^e 0 P dt = Q. i-^CO 0 Отсюда и из (4) по лемме 2 w (s, х) == i (Х * ) = lim ($ + Л xt)e dt + w (s + т, хт)е”М. (5) Z —оо ’ [q J По следствию 7 процесс + ^P(s + p,x“—)e-<S,Xdp <1 является непрерывным супермартингалом. Значит, по лемме из Добавления 2 процесс s>( — рР.s- ' — супермартингал для любого р = (а, г)е’-3. В частности, М£ rxT Ms, хрт-
Ml ДОКАЗАТЕЛЬСТВО ТЕОРЕМ 1.в—1.11 217 Это вместе с (5) и (3) дает u>(s, х)=с Иш (s + <, х,) + Г 4- rtw (s +1, xz)|e 0 dt 4- T \ -чЧ-ррМ 4-ay(s4-T, xx)e 0 J < / ~<pt-/<•₽<<₽ < sup M,_ * [w (s4-t, xT)e 0 4- ae^ (s, x) c t 4 X “ф/~рп^ I + J[fa'(s + ^ Xt) + rtw xz)J e 0 x). 0 Остается доказать, что в (1.10) имеет место знак равен- ства, если А состоит из одной точки и та<ст^ s>*. В этом случае не будем писать индекс а, так как имеется всего одна стратегия. Пусть При е>0, очевидно, ТЛТ8 *» и по доказанному тЛте ($, [/(«44 х,)4- t Чр 4- rtw (s 4-1, xz)] e ° dt-\- tAtg ~ ’•’tATg ~ f 'P4P 4-a»(s4-TAxe, xxMJe 0 j Полагая eJO и замечая, что тДт|’ тДт^* = те^ Т — s, функция w (t, x) непрерывна по (/, x), а вели- чины г-. -Jrpjp \ flf(s44 *r)l + n sup |ay(s4-p, xp)11 e 0 dt, о L ₽<r-s J sup |&y(s4-p, xp)| p T —s
218 ОБЩИЕ СВОЙСТВА ФУНКЦИЙ ВЫИГРЫША [ГЛ III имеют конечное математическое ожидание, получаем то, что требовалось доказать. Теорема 1.11 доказана. 10. Замечание. Применяя замечание 3.10 к функ- циям vn (s, х), получаем, что они однозначно определяются функциями а(Р, /, у), Ь(Р, /, у), y)t у) и g(T, у). Последние функции выражаются через а (а,/, у\ Ь(а, /, y)t ca(t, у), fa(t, у) и g(/, у). Это вместе с ут- верждением в) леммы 5 доказывает, что для вычисления функции w (s, х) достаточно задать функции о (а, /, у), b(a, t, у), ca(t, у), fa(t, у) и g(t, у). 11. Упражнение. Имея в виду возможность «под- клейки» к стратегии, которая «хорошо служит» до мо- мента т8, другой стратегии, которая будет «хорошо слу- жить» между т8 и Tg , имея в виду также возможность 2 продолжения этого процесса, покажите, что последнее утверждение теоремы 1.11 верно в любом случае, а не только, когда А состоит из одной точки. 12. Упражнение. Докажите, что при u = w и при u*^g Г T-s w(s, х) = sup sup 5 [Г' (s + Л Xt) 4- a e 51 r e 91 I о t frpdp 4- rtu (s 4-1, X/)] e ° dt + + u(T,xT_s)e о f. Мы закончим параграф формулировкой двух теорем, в первой из которых оценивается скорость сходимости vn к w, во второй — указывается одно свойство связности множества Qo. Доказательства этих теорем даны в § V.3. Отметим, что участвующие в нижеследующих формулировках выра- жения F[g] определены во введении к гл. IV, простран- ства W\w(Hr) вводятся в § V.3 (см. определение V.3.1) 13. Теорема. Пусть g^W\^(HT)(\C(HT), F[g] — К (1 4-1 х | )т (п. в. НТ). Тогда в Нт |u'(s, x)-v„(s, х) | 1N (К, m, T)(l 4-jx|)ffl.
$ 4J ДОКАЗАТЕЛЬСТВО ТЕОРЕМ 1 8-1.И 219 14. Теорема. Пусть g е ITUc (#r) А С (НТ), se е [О, Т\), и пусть существует непрерывная в (s, T)xEd функция h(t, х), почти всюду в (s, T)xEd совпадающая cF[g](Z, х). Обозначим Q = {(/, х): /g(s, Т), x<=Ed, h(t, х)>0}, Qo = {(^ *): /e(s, Т), x<=Ed, w(t, x)>g(t, x)}. Тогда Q cz Qo и любая связная компонента области Qq содержит хотя бы одну связную компоненту области Q. В частности, если множество Q связно, т. е. состоит всего из одной связной компоненты, то и множество Qq также связно.
ГЛАВА IV УРАВНЕНИЕ ВЕЛЛМАНА В предыдущей главе мы исследовали общие свойства управляемых процессов, такие как непрерывность функ- ции выигрыша, возможность предельных переходов от одних процессов к другим, справедливость различных форм принципа Веллмана и т. п. Предположения, кото- рые при этом накладывались, были довольно слабыми. В этой главе мы увидим, что, накладывая дополнитель- ные предположения о гладкости исходных объектов, можно доказать некоторую гладкость функций выигрыша и то, что они удовлетворяют уравнениям Веллмана. На протяжении всей главы приняты предположения, определения и обозначения из § II 1.1. Исключение состав- ляет лишь § 5 о предельном переходе в уравнении Велл- мана. Изучаемые в § 5 объекты и предположения о них вводятся внутри этого параграфа. К основным предполо- жениям из § III. 1 в каждом параграфе главы добавля- ются свои, как обычно, формулируемые или упоминаемые в начале и действующие только в пределах данного па- раграфа. Об одной из особенностей наших предположений хочется сказать особо. В них участвует параметр т^О, показы- вающий степень роста тех или иных функций при | х | -> оо. Случай, когда т = 0, при этом не исключается. Он яв- ляется наиболее простым и соответствует предположению об ограниченности рассматриваемых функций. В связи с этим при первом чтении этой главы мы советуем счи- тать, что /п = 0. Кроме того, понимание излагаемого ма- териала облегчается, если считать, что са(/, х) = 0.
гл. m УРАВНЕНИЕ ВЕЛЛМАНА 221 Обозначим a (a, t, х) = уа(а, t, х)а* (а, t, х), d Lau = La(t, х)и~=~+ 2 а"(а> *) “?«'+ ttl = 'd + ^J^(a> х) и^—с0 (t, х)и, i= I d La*u^= La* (t, х) u = —КМШ" i, /=1 d — *)**]/—c°(t x)ut 1 = 1 г d F(u0, ui}, ut, a, t, x)«= sup u0+ У a'7 (a, t> x)ut/ + aS^L ,,/ = ! d 1 + ^b‘ (a, t, x) и, — c0’ (/, x) u +/“ (/, x) , ‘ = i d Fr (ut/, t, x) = su-p У, a1' (a, t, x) uy, aeA /a=1 F[M] = F [«](/, x) = = F^~u(t, x), x), uxi(t, x), u(t, x), t, xj, Л[«]-Л [«](*, x) = F1(uA7(/, x), t, x). Отметим некоторые свойства введенных объектов. Так как при каждых (t, х) функции a (a, t, х), b(a, t, х), с“ (t, х), [а (t, х) равномерно ограничены по а (см. усло- вия (III. 1.2), (III.1.3)), то функции F, Fr конечны. По- скольку a (a, t, х), b (a, t, х), са (t, х), fa (/, х) непре- рывны по а е А и множество А сепарабельно, то верх- нюю грань в определении F, Ft можно брать по любому счетному всюду плотному в А множеству. Отсюда, напри- мер, вытекает измеримость функций F (м0, Щ/, и, t, х), F^un, t, х), F [«](/, х) по своим аргументам. Кроме того, если в некоторой области Q для всякого а е А и неко- торой функции и (t, х) ^-«+/«<0 (п. в. Q), (1) то для всякого ае ,4 можно выбросить из Q множество Га меры нуль, так чтобы на оставшемся множестве выраже-
222 УРАВНЕНИЕ ВЕЛЛМАНА [ГЛ IV ние LPu-yf'1 не превосходило нуля. Объединение Га по всем а из некоторого счетного подмножества А множе- ства А будет иметь меру нуль, и вне него Lau + fa О на Q при всех аеЛ. Если в последнем неравенстве взять верхнюю грань по as Л, а множество А выбрать всюду плотным в Л, то окажется, что Е[и](/, х)<0 на Q\ (J Га. В частности, F[u]^0 (п. в. Q). Это рассужде- ние показывает, что если (1) выполняется при каждом аеЛ, то (п. в. Q). Очевидно, что верно также обратное утверждение. Наконец, укажем, что функция Fr может вычисляться непосредственно по функции F по следующей простой формуле: F1(uii, /, х) = lim — F(u0, uh и, t, x). § 1. Оценки первых производных функций выигрыша В дополнение к предположениям, сформулированным в § II 1.1, будем считать, что при всех /е[0, Т], аеЛ, /?>0, х, у е Sp x)-c“(t, y)\ + \fa(t, y)\ + \g(x)-g(y)\ + + \g(t, x)-g(t, y)\^K(l+R)m\x-y\. (1) 1. Теорема. Функции v(s, x), w(s, x) при каждом s <= [0, T] имеют первые обобщенные производные по х. Кроме того, существует постоянная N = N (К, т) такая, что для каждого s е [0, Т] при почти всех х | gradx v (s, х) | +1 gradx w (s, x) | (1 +| x| ymeN <r-s\ Доказательство. Докажем сначала теорему в предположении, что при каждых t е [0, Т], осе Л функции о, Ь, с, f, g один раз непрерывно дифференци- руемы по х. В этом случае из наших предположений (см. (1) и (III.1.1)) вытекает, что для l^Ed II (a, t, х) 11 +1 д(0 (а, /, х) | «С К, I (z. I +1 f?z) (*. *) | +1 &Ф WI +1 Say V. x) | (1 +1 x | )m. Опираясь на результаты § П.7, 11.8, получаем, что для любой стратегии а е 'Л, s е [0, 71] и те 2)1 (Т — s)
§ п ОЦЕНКИ ПЕРВЫХ ПРОИЗВОДНЫХ 223 функции (s, х) и va> т (s, х) непрерывно дифференци- руемы по х. При этом, например, т —s v“Z)T(s, Х)= j Mx/<T^-4[/e'(s + ^ ^s-x)e-^'S,X]dt + + M#JJ-[g (S + Tt X%,s’x')e~4>x ]. Оценим ^T(s, x). Положим = xffttX. Имеем Mz. 4 [/“'(s + *) e“’?' ’’ 1 “ — (s + /, xt)e~9‘\c^r}(s + r, xr)\yr\dr. (2) 0 Здесь первое слагаемое по абсолютной величине не пре- восходит КМ“ Д1 +1 xt I )m I yt I К [Ms“ 41 +1Xz1 )2m]y [MM yt |ф. Отсюда по следствию 11.5.12 и по теореме 11.8.8 об оценках моментов xf>s- *, iff*s- х получаем | M“xX«r/(“zz) (s +1, xt) | yt | е~ъ | m) (1 + |x | )">eN Для оценки второго слагаемого в (2) применим нера- венство Коши — Буняковского. Тогда его квадрат оценится через произведение величины М“ X | f“‘ (s + *, X/) Г К2М“ х(1 +1 Xz I )гт N (1 + |х| )'2meNt и величины t м“х $cM(s + r, Xr^y^dr О 2 О < K2t $ [М“ х (1 + I хг | )4т] 2 [М“ х | Уг |‘F dr < о t ^Nt(\+\x\Ym\eNr dr^N (l-y\x\)2meNt. о
224 УРАВНЕНИЕ БЕЛЛМАНА (ГЛ IV Следовательно, второе слагаемое в (2) по абсолютной величине не превосходит TV (1 +1 а: | )2zn Оценивая ана- логичным образом выражение Г ~а> *1 M^’5/’k(s+x’*)е т J> которое весьма похоже на левую часть (2), окончательно находим I (s, х) I АГ (К, т) (1 +1хI )2m eN <г - •). Теперь при |х|, |(/|</? по теореме Лагранжа | w (s, х) — w ($, у) | sup | va> т (s, х) — ua*т (s, у) | < а г Я, теЭД(Т-$) W (1 + R)2m \x — y\eN(T-s\ (3) Как указывалось в § II. 1, функция, удовлетворяющая условию Липшица, имеет обобщенные производные, и ее градиент не превосходит константы Липшица. Поэтому из (3) вытекает существование первых обобщенных производ- ных х) и неравенство | gradx w (s, х) | N (1 + R)2m eN <Т - s> при почти всех xeS/^. Последнее неравенство в точности означает, что | gradx w (s, х) | (1 +| х | )2т eN <т-s) (п. н.) с той же постоянной АГ. Аналогично рассматривается функция u(s, х). Этим теорема доказана в случае гладких a, b, с, f, g. В общем случае воспользуемся теоремой II 1.1.14 и следствием III.1.13. Тогда мы приблизим о, b, с, f,g(x), g(t, х) гладкими функциями ол, bn, сп, fn, gn(x), gn(t, x), которые получаются из исходных с помощью операции свертки с функцией t (в~^х) (см. теорему II 1.1.14). Возьмем ел=При этом, например, для х, y^S# у)| = = ( С (z) — — z\ — fa (t9 y — —z П ' \ * t7 п ^K^+R+[-p\x-y^2mK(l+R)m\x-y\.
< и ОЦЕНКИ ПЕРВЫХ ПРОИЗВОДНЫХ 225 Отсюда понятно, что о„, bn, сп, f„, gn(x), g„(t, х) удовлетворяют нашим предположениям с одними и теми же постоянными К, т. Поэтому, если обозначить через wn(s, х) функцию выигрыша, построенную по о„, Ьп, сп, gn (/, х), то при I х I, I у I < R (см. (3)) I w„ (s, х) — w„ (s, у) I < < W (К, m) (1 + eN —> IX - у |. • Переходя здесь к пределу при п оо, по следствию II 1.1.13 и по теореме II 1.1.14 получим неравенство (3) в общем случае. Из него, как мы только что видели, вытекают утверждения теоремы для функции w(s, х). Аналогичные рассуждения годятся для v(s, х). Теорема доказана. 2. Упражнение. С помощью принципа Веллмана докажите, что для некоторой постоянной А = N (/<, т) при t^s I v (t, х) — v (s, х) | TV 1^/ —s (1 + ix| )2rn + 1e/v (r~s). 3. Замечание. Если с*(/, x) = 0, то второго сла- гаемого в (2) нет и | gradx v (s, х) | +1 gradx w (s, х) | Для функции v(t, х), имеющей только первые произ- водные по х, нельзя утверждать справедливость уравне- ния Веллмана F[a] = 0. В самом деле, в это уравнение кроме первых производных по х входят еще вторые, а также производная по /. Оказывается, что хотя эти же производные входят в неравенство F[u]^0, однако ему уже можно придать смысл с помощью интегрирования по частям. 4. Теорема. Пусть /?>0, т](/, х) — неотрицатель- ная бесконечно дифференцируемая функция на Erf+1, равная нулю вне [0, Т] xSr. Тогда при u(t, x) = v(t9 х) и при и (t, х) = w (/, х) для любого 0 е А Г d d -1 J и 5 + 2 2 « + Пси - itf dx dt 2* 0, нТ L с /=1 где для простоты записи положено alt = а11 (0, t, х) и т. п. 8 Н. В. Крылов
226 УРАВНЕНИЕ БЕЛЛМАНА [ГЛ IV Заметим, что утверждение теоремы имеет смысл, так как функции wxi, vxi существуют, о(0, /, х), b (0, /, х) удовлетворяют условию Липшица по х и также имеют даже ограниченные первые обобщенные производные. В каждом цилиндре Ст, ъ ограничены первые обобщенные производные функции а(0, /, x) = -^-a(0, t, х)о*(0, t, х). Доказательство теоремы проведем сначала для дифферен- цируемых а, Ь. В нижеследующей лемме предположение (1) не используется. 5. Лемма. Пусть 0еЛ, функция о(0, /, х) при каждом t е [О, Т] дважды непрерывно дифференцируема по х, 6(0, /, х) при каждом ? е [О, Т] один раз непре- рывно дифференцируема по х. Пусть соответствующее производные этих функций ограничены в каждом цилиндре Ст.ъ- Тогда при u(t, x)==v(t, х) и при u(t, х) = w (t, х) J + Р Л] dx dt О, где т) — функция, обладающая теми же свойствами, что и в теореме 4. Доказательство. Введем постоянную стратегию 0/ = 0 и при X 0 положим ДуР ($, х) = = м£ х S е~* [/3 (s +1, xt) + Xu (s +1, X,)] dt + 0 + МЬ^(Л xT-s)e~^T~s~l {T~S\ Если в следствии 111.2.13 вместо c$(t, x) взять cP (/,x) = cP (t, x) + X, вместо /|3 (t, x) функцию (t, x) = =ffi (C x) (С x) и заменить и (x) на и (Т, х), то получим $ [oyP (LP*T] — Хт]) + + М Л] dxdt = 0. нт По принципу Беллмана (теоремы III. 1.6, II 1.1.11) w^^u; значит, 0^Хт](и — сф и 5 [w^x} + f^]dxdt^Q (4) нт при любом Х^О. Перейдем к пределу в этом неравенстве при Z->oo.
$ U ОЦЕНКИ ПЕРВЫХ ПРОИЗВОДНЫХ 227 Заметим, что ввиду оценки | и (s + /, х^s- х) | N (1 + sup | *• х |)т, t^T—s суммируемости последней величины и непрерывности u(s + t, xf>s* x) no t функция As, A- (/) == mF, xe~*t u(s-\-t, Xt) является непрерывной функцией от t. Следовательно, если g —случайная величина, имеющая показательное распреде- ление с параметром, равным единице, то MASiX[(T-s)A|-j->/iSiX(O) при Х->оо. Это в точности означает, что при se[0, Т], Х->оо М,Э,х ~Т—s - О e_,₽<_wX«(s + /, xt)dt + + и(Т, xT-s)e <tT~s К{Т s) ->u(s, x). 6гз) Кроме того, из оценок моментов решений стохастичес- ких уравнений вытекает, что j hs> х (/) | N (1 +1 х |)т, где N не зависит от s, х, t. Поэтому левые части в (5) равномерно по к ограничены в CTtR. Из этих же оценок моментов и неравенства s) |^Л(1+ 1Х1)/Я следует, что при s е [О, Т] т—s т —3 М?л 5 е_<₽^7₽(8 + Л Xt)dt </V(l + ix|)m ( О о < |/V(1 + | х|)т, где N не зависит от s, х, X. Таким образом, функции в совокупности ограничены на [0, T]xS# и при Х->оо. Так как в (4) интеграл можно брать по множе- ству СЛ7?, то, полагая Х->-схэ, заменяем в (4) функцию на и. Лемма доказана. Доказательство теоремы 4. Как и в доказа- тельстве теоремы 1, приблизим о, &, с, /, ^(х) гладкими функциями ол, bnt сп, fn. gn^)t свертывая о, bt ct f, z;(v) с функцией nd^(nx) (см. теорему III.1.14). Обозначь:.: 8*
228 УРАВНЕНИЕ ВЕЛЛМАНА [ГЛ. IV через vn функцию выигрыша, построенную по оя, ЬП9 сп, fnt gn (*)• По предыдущей лемме $ + (6) нт где оператор L„* естественным образом строится по <2«(Р» t, х) = -^о(Р, *)СТ*Ф. t, х), bn®, I, х), c£(t,x). Так как функция vn имеет обобщенную производную по х, то, интегрируя по частям в (6), получаем т а О i, /=1 «s j Un Q +2 Un + r]Cnvn - rifn] dx dt. (7) нг 1=1 Перейдем в этом неравенстве к пределу при п -> оо. По теореме 111.1.14 и по следствию II 1.1.13 функции vn(t9 х) сходятся к v(t9 х) равномерно на [0, T]xSR. Как указывалось в § 11.1, с£(/, х)->ср(/, х) при всех t9 х ввиду непрерывности (/, х) по х и (ЬпТ))/ = blnxir\ + ЬпЪ1 -> при почти всех (/, х)9 так как обобщенная производная blxi существует. Кроме того, | bxt | /С, поэтому | bnxt | = | bxi * ndZ (пх) | К. Из этих рассуждений следует, что правая часть (7) при п->оо стремится к г d J v 5+2v+w _ dx dt' HT Z=1 Далее, по теореме 1 | gradx vn (/, x) | sg N (1 +1 x |)2m при t e [0, 7], x e Еа, где W = N (K, m) не зависит от n.
§ П ОЦЕНКИ ПЕРВЫХ ПРОИЗВОДНЫХ 229 Отсюда получаем $ (an^xiVn^dxdt~ $ (a^^v^dxdt < Н <р $ \(aVr\)xi-(atfvi)xi\dxdt+ Н <j> + J (a,,v[)xi[vnxs—vx)]dxdt , (8) нт где N зависит только от К, т, /?. Мы знаем, что -+dxi почти всюду. Нетрудно также видеть, что эти произ- водные в совокупности ограничены на [0, T]xSfl. Поэтому первое слагаемое в правой части (8) стремится к нулю при и->оо. Второе слагаемое также стремится к нулю, так как vn-^v в <5f2(Cr</?), нормы | gradx vn | в £г(Ст, т?) ограничены и, следовательно (см. § II.1), слабо в <^2(СГ|^). Стало быть, предел левой части (7) при п->оо равен - 5 Л (a^jvjdxdt. нт I, /=1 Совершенно аналогичным образом теорема доказывается для w(s, х). Теорема доказана. Выведем два следствия из доказанной теоремы. Нам понадобятся два простых факта. Если в области Q cz [О, Т] х xEd ограниченные функции <р(/, х), ф(/, х) имеют обобщен- ные производные 4xixj, Ф/, причем последняя из них ограничена, то для любой т] g CJ°(Q) $ (фП V dx dt = — 5 (Ф^Л7^ dx di> (9) Q Q J Ф/ OM/dx dt = — J d* (10) Q Q Оба эти равенства доказываются аналогично. Нужно взять функцию т]! е С™ (Q), так чтобы она была равна единице всюду, где т] =# 0. После этого в (9) вместо фх? нужно вставить и в обоих равенствах заменить ф средними функциями ф1е). Тогда, так как произведения ф(8)ц1г С™ (Q)f tq по определению обобщенных
230 УРАВНЕНИЕ ВЕЛЛМАНА [ГЛ IV производных можно «перебросить» производные с ф(8)Л1, ф(е)Л на ф. Затем делаем предельный переход при е-^0 с помощью теоремы о мажорируемой сходимости. Наконец, присутствие г)1э очевидно, не влияет на значения полу- чающихся выражений, и в конечном результате т)г можно убрать. 6. Следствие. Пусть область Q cz Нт, Р е Л, функ- ция а(Р, /, х) как функция переменных (t, х) имеет вто- рые обобщенные производные по х. Тогда для любой неотри- цательной функции т] е С™ (Q) при u = v и при u = w $ uU>*v\ dx dt — x\dx dt. Q Q Здесь мы применили предыдущие замечания для того, чтобы снять производные с функции и. Применяя их же и «перебрасывая» производные в утверждении теоремы на и в том случае, когда это возможно, получаем x\(pu + f*)dxdt^Q. нТ Пользуясь произволом в выборе приходим к такому утверждению. 7. Следствие. Пусть область Q cz НТ, функция v (пу) как функция от (t, х) имеет две обобщенные производные по х и одну по t в области Q. Тогда для любого р е А почти всюду на Q L^v + f^O (№ + ^0). Иначе говоря, почти всюду на Q F[v]^Q (F[w]^0). Лемма 5 (или следствие 6) имеет несколько неожиданное примене- ние для получения утверждений типа теорем II.3.3 и II.3.4. Напомним (см. [33]), что для фиксированного К > 0 бесконечно дифференцируемая неотрицательная функция и (х), заданная на Е^, называется k-выпуклой, если матрица (ки (х) 6^— и^^(х)) неотрица- тельно определена при всех х. По следствию 1 леммы 1 [33] для любой Х-выпуклой функции | grad и (х) | ^Vk и (х) в любой точке х. 8. Теорема. Пусть на некотором вероятностном пространстве при t е [0, оо) определены измеримые процессы xt, at, bt, ct, <р/, причем xt^Ed, at —неотрицательно определенная матрица размера dxd, bt —d-мерный вектор, ct, ср/ — неотрицательные числа. Пред- положим, что существует постоянная к > 0 такая, что Ct^ktrat-{- -]- Vx I z?/ ] при всех t, со. Наконец, пусть для любой убывающей по t,
§ и ОЦЕНКИ ПЕРВЫХ ПРОИЗВОДНЫХ 231 ^.-выпуклой по х, гладкой ограниченной функции и (t, х), имеющей на д [О, оо) ХЕа ограниченные производные — и, и i, и t h выполнено нера- ot х х xJ венство Ми (0, х.) Ss - М J i~<tt Lt и (t, xt) dt *), (11) О где d Ltu(t, xt)= a‘>U i ,(t,x() + i, /=1 d blt uxi (t, Xt)—CtU (t, Xt) + ^ и (/, xt). 1=1 Тогда для, любой борелевской неотрицательной f (/, х) оо * М J е~*‘ (det az)d+‘ f (t, x() dt^N (d, X) ||/|| +, [0 0 ’ a Доказательство. Прежде всего заметим, что ctu \и tr at + Y'k и \bt\^'ku tr at + (grad u, bf). Поэтому — Ltu =s Xu tr at — tr [a, (“/*/)] —^ u = tr [а, (Xu6"—u^,)] — J- u. Последнее более нуля, так как след произведения положитель- д ных матриц положителен; кроме того, по предположению и 0. Отсюда, в частности, следует, что правая часть (11) всегда определена. Из (11) далее получаем М и (0, х.) =з-М j е VfLt и (t, xt) dt, (12) О где d L<tu= 2 a//“Ay_X“tra/+d7“ i, /=1 Возьмем теперь гладкую финитную функцию f (tt х) и некоторое п > 0. Пусть Ап — множество всех матриц а размера dxd таких, что traa*^2n. Для а е Ап пусть о (а, /, х) = а, b (а, /, х) = 0, ____________________________1__ cct = Xtra(a), fa = (det a (a))d+1 f (/, x). В качестве T выберем такое число, что f (/, х) = 0при t^T — 2. Положимg (х) = 0. По введен- ным объектам с помощью некоторого d-мерного винеровского процесса !) Это условие можно заменить на (12).
232 УРАВНЕНИЕ БЕЛЛМАНА [ГЛ IV определим функцию выигрыша vn (/, х). Очевидно, vn (t, х) возрастают с ростом п. Положим v (/, х) = lim vn (t, х). По теореме П.З.З. при П-*ОО всех х, п \ 1 (г, ж) dr dx рТ (13) Значит, мы докажем теорему для выбранной функции /, если покажем, что 00 1 sup sup v (t, х)^М( (detat)d + 1 f (/, xftdt. (14) t 0 x GE Ed о Кстати говоря, в силу результатов § 2 гл. I [48] утверждение теоремы достаточно доказать только для гладких финитных неотри- цательных / (/, х). Таким образом, остается доказать (14). Воспользуемся леммой 5, взяв в качестве т] (/, х) функцию e-(rf+D£ , е е (О, 1). Если s G [8, Г- е], то эта функ- ция, как функция (/, х), удовлетворяет условиям леммы 5. Замечая еще, что в нашем случае коэффициенты L& не зависят от (/, х), с помощью леммы 5 при s & [8, Т — е], п>0 легко находим d S И.” (s’ tr a + i. /=1 ny 1 + ~ ttf) (s, y) + (det a)d+ 7<e> (s, у) < 0 (15) для всех у ^.Ea и неотрицательных симметричных матриц а таких, что tra^n. Функции v (t, х), vn (t, х) равны нулю, как нетрудно видеть, при t е [7 — 8, 7]. Нам удобно считать, что v (t, х), vn (/, х) определены не только при t е [О, 7], но и при t^T и ц (/, х) = — Dn (t, х) = 0 при t^T. Тогда f(8) (s, y) = v^ (s, i/) = 0 при se e [7— 1, oo) (e < 1). Следовательно, (15) справедливо не только при s е [8, 7 — е], но и при s^7 — 8. В силу (13) по теореме Лебега -> tAe), и из (15) получаем d У af/ y(8)y ($, у)—Хс/(е) ($, у) tra+ /=1 уу + (s, f/) + (deta)</ + 1f'8>(s) г/)<0 (16) при s^e и y^Ed для любой неотрицательной симметричной мат- рицы а. Если в (16) взять а затем поделить обе части (16) на п и положить п -> оо, то получится d 2 VSZ<1’у (S. У> - (s, у) I2 0. 1,/=1 уу
ОЦЕНКИ СНИЗУ ВТОРЫХ ПРОИЗВОДНЫХ 233 § 2] Короче говоря, матрица ^p(8)6f/— г/О и функция и(е) Х-выпукла по у. При а = 0 из (16) получаем, что у(6) убывает по $. Из (16) и (12) при и (/, х) = у(8) (e-f-/, х) находим ОО 1 Mo'8' (е, х0) =s М J е-ф/ (det а/)<' + 1 fie> (e-f-Z, xt) dt. О Остается заметить, что левая часть очевидным образом не пре- восходит левой части (14), положить е|0 и из правой части полу- чить правую часть (14), пользуясь леммой Фату и тем, что /(8) (/, х) -> ->-/(/, х) равномерно по (/, х). Теорема доказана. § 2. Оценки снизу вторых производных функций выигрыша В этом параграфе мы оценим снизу вторые производ- ные функции выигрыша и с помощью этих оценок при- дадим локальную форму неравенству (см. лемму 1.5 или следствие 1.6) J [uL^x\ + f^v]dxdt^O. н у Предположим, что выполнены условия § II 1.1 и функ- ции а (а, /, х), b(a, t, х), с“(/, х), fa(t, х), g(x), g(t, х) при каждых ае Л, t е [О, Т] дважды непрерывно диф- ференцируемы по х. Пусть при всех а е A, t е [О, Т], х s £,/, l^Ed ||o(Z) (а, t, х) || +1 (а, t, х) | К, Кош (а, t, х) || +1 b{l) (Z)(a, t, x)|^K(l + |x|)m и при Ua(t, x) = c“((, x), ма(/, x) ==/“(/, x), U^ft, %) = sg(x), «“(/, X)=g(t, X) I x)| + l «“/)(/) (Л Xjl^/Cd + Ixir. При этих предположениях мы докажем, что вторые обобщенные производные функций выигрыша v(s, х), w(s, х) по х и их первые производные по s являются счетно аддитивными функциями множеств (см. определе- ние II.1.2). Как и в предыдущем параграфе, мы будем опираться на оценки производных функций va(s, х), va’ T(s, х), кото- рые в силу результатов § II.7 и II.8 дважды непрерывно дифференцируемы по х. Если взять l^Ed) а ей, те
234 УРАВНЕНИЕ БЕЛЛМАНА [ГЛ IV ^30? (T — s) и непосредственно написать производную v^^Js, х), пользуясь правилами дифференцирования мате- матических ожиданий, интегралов и сложных функций, то получится довольно громоздкое выражение. Для того чтобы его сделать несколько короче, введем следующие обозначения: У*- S. X = %В~ X*- s- х, Z*- s-x = ХВ- Xf- ’• хг ИО = $ (s + г, xr) dr + + e-(<₽t-o>^(s+T) Хт)> (1) ^(Z).Ts. x(t) = e (Фт v^g(yx) (s + T> xr) I Уг I + + J e-^r~ <₽/) | yr | (s _|_ r, xr) - (s + Г, Xr) & ' (r)} dr, (2) £(Z),T(/). S. * (0 — e <P^Sr(Ux) (yt) (s + т> хт) I У-c I2 + + je-(^-^)|«/r|^/“;)(JZr)(s + r, xr)- -<?Ws+r’*<>>}*+ + e~~ ^ё(гх) (s + T, xx) I zx I + 4- J e- (Vr-Vt) I Zr I (s+r> Xr) _ - c“;r) (s + r, xr) } (r)| dr - - 2 ]e~ | yr | c“^ (s + r, xr) ^, 7 x (r) dr, (3) где xr = x?’ s> x, yr = y?' s’x, zr = z?’ s' x, <pr = <p?' s- \ Как нетрудно видеть, при каждом со и почти всех t е [0, т] 4 [£:х =- е~^* (s+о ^)- Выполняя дифференцирование, находим 4 ё“' х (0 = (S +1, xt) ; (0 - Р (s +1, xt).
» 2) ОЦЕНКИ СНИЗУ ВТОРЫХ ПРОИЗВОДНЫХ 238 Замечая еще, что (т) =g (s + т, xt), заключаем, что при t е [0, т] (f)~g(s4-Т, Хх) + + J{fr(s + r, x,)_car(s + r( xr)^:^r)}dr. (4) t Это соотношение представляет собой уравнение относи- тельно при t е [0, т]. Поскольку же проделанные преобразования обратимы, то единственным его решением на [0, т] является В*’* (О- Далее, нетрудно видеть, что процесс £*’ХТ(^ЛТ) <=^В-диф- ференцируем по х. Из (4) с помощью известных правил действия с производными вытекает, что для почти всех со при t е [0, т] ~дГ Л т) — (s + т» Хх) I Ух I + + $ {IУ г I [ (S + Г, Хг) - } (S + г, хг) & хх (г)] - - A (S + г, хг) % В- ; (г Дт)| dr. (5) Удобно рассматривать (5) как уравнение относительно «ЭД-производной. Сравнивая (1) и (4) с (2) и (5), легко понять, что x(f) удовлетворяет уравнению (5) при t е [0, т]. Поскольку же решение уравнения (5) единст- венно по тем же причинам, по которым единственно реше- ние уравнения (4), то для почти всех со при t е [0, т] (6) Вполне аналогичным образом, дифференцируя (5) по I и рассматривая получающееся соотношение как уравнение для 4f), доказывается, что для почти всех <о при t е [0, т] ст 1. Упражнение. Докажите (6) и (7) непосредствен- ным дифференцированием (1).
236 УРАВНЕНИЕ ВЕЛЛМАНА (ГЛ IV Из (6) и (7) можно вывести оценки | ХВ- £“• J (/ /\ т) |, I д2 I I =О-J (/Д т) I. Прежде всего, в силу наших пред- положений, при t^x 1J (о I (^—s 4-1)r jup_s (1 +1 xf-s-х |)m. Далее, ^№(7-s+l) sup (!+>?’ s’x|)2/n. t < T — s 4 1 17 Поэтому из (6) и (2) получаем \х в- it '1 <' л t) |« sup (1 + lx“- ’> x |Ym sup I £/?•’• *1 (8) t^T — s' 1 17 l^T-s' 1 где N1 = K(T — s-f-1)-}-№(T — s4-1)2. Аналогично, sup (1 + I л?* s> x Г)3т sup |«/?’s’x|2 + /<T-sV 1 17 t^T — s 1 + A\ sup (1 +|x?’ s’ xl)2rn sup lz?’s’*l (9) /<T-sV 1 17 f<T-s* 1 где N2 = N1 + 2N1K(T^s). Воспользуемся еще оценками моментов производных решений стохастических уравнений из теоремы II.8.8. Тогда, например, получим М* х sup (1 +1 Xt |)2w sup I Zt I < t^T — s t^T — s ^Гм*х sup (1 + \Xt |M2 [M* x sup L J L t^T—s J ^^(Г-s) (1 + | x |)3m где W = Af(/C, tn). Производя таким же образом оценки других выражений в правых частях (8) и (9), а также замечая, что va’ т (s, X) = М£ J (0), т (s, X) = М* х (0), U) (s» х) — М* г£(0,т(/), s, х (0),
О) ОЦЕНКИ СНИЗУ ВТОРЫХ ПРОИЗВОДНЫХ 237 докажем справедливость для va- т (s, х) следующего утверж- дения. 2. Лемма. При каждых se[0, Т], а ЕЙ и те е ЭЭТ (Т — s) функции va (s, х) и va< т (s, х) имеют вторые непрерывные производные по х. Существует постоянная N = т) такая, что при всех l^Ed |^)(0(S. х) l + (S, X)|^^(T-s) (l+|x|)3mt |t>“(S, X) | + | €>“.( * (s, +| X I)2'», |va(s, x)| + |v“- x(s, x)|^^<r-s>(l+|x|)'n. Доказательство этой леммы для va(s, х) вполне ана- логично ее доказательству для v“-T(s, х). Нужно только в произведенных рассуждениях взять т = Т — s и g (t, х) заменить на g(x). 3. Теорема. Существует постоянная N —N (К, т) такая, что при всяком s е [О, Т] функции *?+i v(s, x) + NeN^T-s>(l+\x\2)2 , — 4-1 w(s, х) -]-NeN(T~s) (1 +|x|2) 2 выпуклы вниз no x. Доказательство. Пусть /у=0. Простое вычисле- ние показывает, что —+ 11 1 + И2)2 ](/>(/> = 3m = (-yL+l)2 (’ + 1* 4« + (^г+ 1)х Х(1 + | х |2)~ 2^(1 + |х|)3'п2_“. (Ю) 3m Возьмем из леммы 2, и пусть Д\ = 2 2 Тогда в силу (10) и леммы 2 вторая производная по направле- -4-1 нию от функций ua(s, x)4-A\eyVi<7'-s) (1+|х|2) 2 положительна для любых а е 21, s е [0, Т]. Значит, эти функции выпуклы вниз. Подавно выпукла вниз их
238 УРАВНЕНИЕ ВЕЛЛМАНА (ГЛ IV верхняя грань по а: — 4-1 v(s, x) + N1eN^T-s> (1+И2) 2 • Аналогично рассматривается w(s,x). Теорема доказана. 4. Следствие. Каждая из функций о и w представ- ляется в виде разности двух выпуклых вниз по х функ- ций, причем вычитаемую функцию можно выбрать равной з^+i для некоторой постоянной N = N(K, т). Действительно, например, возьмем N из теоремы и напишем Г - + 11 v (s, х) = [у (s, x)-\-NeN (r~s) (1 +1 x |2) 2 J — _^V(T-s)(l+|x|2) 2 + # В следующей лемме приводятся общие свойства раз- ностей выпуклых функций. 5. Лемма. Пусть в выпуклой области Q<^HT задана некоторая функция u(s, x) = u1(s, x) — u2(s, х), где щ и и2 определены, измеримы, локально ограничены в Q и при каждом s выпуклы вниз по х в Q5 = {x: (s, x)gQ). Тогда для всяких 1Ъ /2 Ed в области Q существуют производные U(io(i2)(s>x)(dsdx) (см. определение II. 1.2). При этом внутри Q w(/i)(/i)(s» x)(dsdx)^ — u2(GHZ^s, x)(dsdx). (11) Кроме того, если ограниченная функция T](s, х) изме- рима по s, дважды непрерывно дифференцируема по х при каждом s и равна нулю вне некоторого компакта, лежащего в Q, то для любых 1Ъ /2 е Ed 5 «'Hu,) a,)ds dx = $ гуЛм (Zj) (ds dx). Q Q Доказательство. Из равенства u = u1 — u2 и свойств производных иъ и2 легко получить аналогичные свойства производных и. Ниже мы увидим, что вторые производные по направлению 1Х от выпуклой вниз по х функции неотри- цательны. Поэтому неравенство (11) легко последует из равенства и^щ — и2. Таким образом, лемму достаточно
$ 2) ОЦЕНКИ СНИЗУ ВТОРЫХ ПРОИЗВОДНЫХ 239 доказать только для функций и, которые сами выпуклы вниз по х (и = иъ и2 = 0). Далее, очевидно, достаточно доказать, что утверждения леммы справедливы в любой ограниченной области Q' с: Q' cz Q. Заметим, что по пред- положению в любой такой области Q' функция и ограни- чена. Итак, при доказательстве леммы можно считать, что область Q ограничена, функция и выпукла вниз по х и ограничена в Q. Удобно будет также предполагать, что функция и некоторым образом продолжена вне Q. Возьмем единичный вектор / е Ed, s е (О, Т), неотри- цательную т] е GT (Qs) и для действительного г введем оператор Д, по формуле Д^ (s, х) = £(s, х + rl) - 2> (s, х) + g(s, % - rl). Интегрируя по частям, легко доказать, что 1 АгП (х) = г2 \ (1 -1 гх |)т|(0 (о (х + г\г1) dr\. —1 Отсюда по теореме о среднем получаем: Д(х) = (/} (х + 4-6/7), где |6|^1. В частности, при | г | 1 функции ДгЛ (х) ограничены в совокупности и при г->0 сходятся к т|(/)(/)(х). Стало быть, f и (s, х) т](/) (/) (х) dx = lim \ и (s, х) ДгП (х) dx. (12) п г~*° г о Функция т] равна нулю вблизи границы Qs. Поэтому для достаточно малого г функция Д^т] (х) будет также равна нулю вблизи границы Qs. Для этих г последний интеграл в (12) можно распространить на Ed. Если после этого расписать иДгЛ dx в виде суммы трех интегралов и сделать в них замены переменных типа у = х-\-а, то нетрудно получить, что для достаточно малых г $ и (s, х) ДгЛ (х) dx = J т] (х) Д*и (s, х) dx = Еа = $ Y] (х) Д,и (s, х) dx. Ввиду выпуклости и txru(s, х)Э=0, если расстояние от х до больше | г |. Кроме того, т]^0. Следовательно,
240 УРАВНЕНИЕ БЕЛЛМАНА (ГЛ. IV при малых г J т] (х) (s, х) dx 0, J и (s, х) А?г) (х) dx О и в силу (12) J u(s, х) Т](П (Z) W dx > 0. Аналогично, для неотрицательной функции т] е Со° (Q) имеем vdsdx^O. Q По лемме П.1.3 из доказанных неравенств вытекает существование при каждом s меры m(Z)(Z) (s, x)(dx) на Qs и существование меры «(Z) (Z) (s, х) (ds dx) на Q. По теореме Фубини при т] е Со° (Q) 5 W) щ (ds dx) = J ыт](/) {i)ds dx = Q Q T T = $ R R(0 (Z)dxl ds = J ds Г J T]U(Z) (/) (dx)] о LQ, Jo Le, J- Короче говоря, J т] (s, x)««) (Z) (s, x) (ds dx) = Q T e 5 ds Г S 11 (S) x>> H(Z) (Z> (S’ X) (rfx)] ° Lqs j- Это равенство, доказанное для т] е С (Q), с помощью стандартных рассуждений из теории меры переносится на все неотрицательные борелевские функции г). Далее, по определению 5 u(s, x)T](Z)(Z)(x) dx= $ Т] (х) u(Z)lZ)(s, x)(dx) (13) Qs О, для всех (QJ. Приближая функцию ц e C2 (Qs), равную нулю вблизи dQs равномерно в Qs вместе с ее вторыми производными функциями из (Qs), убеждаемся, что равенство (13) продолжает оставаться верным и для таких функций г] е С2 (QJ.
§2) ОЦЕНКИ СНИЗУ ВТОРЫХ ПРОИЗВОДНЫХ 241 Теперь, если неотрицательная функция т] взята из фор- мулировки леммы, то т 5 W^s dx = $ ds И и (s, х) т](/) (/) (s, х) dxl » Q 0 lA J т = 5 ds Г 5 ’I (s> “(О <0 (s> x) (dx)] = $ w (') (ds dx)' о L<?s J Q Остается вспомнить (см. § II.l) простые соотношения между u(/1)(/2) и u{tl + /,)(/, + /,), — z«) и представить ограниченную функцию т), удовлетворяющую условиям леммы, в виде разности двух неотрицательных, также удовлетворяющих условиям леммы. Лемма доказана. 6. Теорема. Для любых llt l2^Ed внутри Нт суще- ствуют обобщенные производные ^(zj (z2) (s, х) (ds dx} шщ) (z2) (s, x)(dsdx) (см. определение 11.1.2). Существует постоянная N = N(K, m) такая, что для любых l^Ed внутри Нт при u = v и при u=^w u(z)(z) (s, x)(dsdx)^-NeN(T~^(\+\x\Ymdsdx. (14) Доказательство. Существование производных выте- кает из леммы 5 и следствия 4. Из них же следует, что u(Z)U)(s, x)(dsdx)^ Г —+ d ^-Ne»(T-s}[(l+\x]2)2 + \{l)(l}dsdx. (15) С помощью равенства в (10) получаем, что [и+и2++1/нп А? М ¥ (1++2 )^+ + 2(^+ 1)(1 +|х|)3'л^(Зт + 2) (3/n + 1) (1 + ,х|Г. Отсюда и из (15) следует (14). Теорема доказана. Теперь мы можем придать интегро-дифференциальным неравенствам из § 1 локальную форму. Введем одно обо- значение. Положим L^u (s, х) (ds dx) = ^-su (s, x) (ds dx) + d + У! at7(P, s, *)(dsdx)-f- t /=i d + S (₽» s> x) ux{ (s» x) ds dx — (s, x) и (s, x) ds dx.
242 УРАВНЕНИЕ ВЕЛЛМАНА [ГЛ IV 7. Теорема. В Нт существуют обобщенные произ- водные vxi(s, х), wxi(s, х). В НТ существуют обобщенные производные vxixJ (ds dx), wxixf (dsdx), v (ds dx),~^w (ds dx). Кроме того, для u~v и для u = w внутри НТ при всех р А — L$u (s, х) (ds dx) — р (s, х) ds dx 0. Иначе говоря, [ — L$u(s, x)(dsdx) — f& (s, x)dsdx] является (положительной) мерой. Доказательство. Существование производных vxi и wxi доказано в § 1, существование vxixj(ds dx) и wxixj (ds dx) утверждается в предыдущей теореме. По лемме 1.5 для Р е Л и неотрицательной г] е Со° (Нт) § [vL^A-px^dsdx^O. нт Отсюда в силу леммы 5 вытекает, что j v ^y\dsdx^ r]vp(dsdx), нт нт где d vp(dsdx) = У a'l (Р, s, x)vxixj(s, x)(dsdx) + i. i = i d + 5 b>$, S, x) vxi (s, x)dsdx — i= 1 — (s, x) v (s, x) ds dx + p (s, x) ds dx. По лемме 11.1.3 это позволяет заключить, что произ- водная v (s, х) (ds dx) существует и не превосходит [ — v^(dsdx)] внутри Нт. Тем самым для функции v тео- рема доказана. Аналогично рассматривается функция w. Теорема доказана. 8. Замечание. Мы не пользовались никакими пред- положениями о невырожденности управляемого процесса. В частности, все утверждения настоящего параграфа спра- ведливы в том случае, когда о (a, t, х) = 0.
ОЦЕНКИ СВЕРХУ ВТОРЫХ ПРОИЗВОДНЫХ 843 § 3. Оценки сверху вторых производных функций выигрыша Неравенства вида Lav (ds dx) + fa ds dx 0 (1) (см. теорему 2.7) позволяют оценить сверху вторые произ- водные (l} (ds dx). Идея этой оценки состоит в том, что производную у(/) (/) (ds dx) мы оставляем в левой части (1), а все другие выражения переносим в правую часть. При этом нужно, чтобы производная у(/) (Z) (ds dx) «реально» присутствовала в каком-нибудь неравенстве вида (1) или чтобы производная (s, х) «реально» входила в опера- тор F[u]. Кроме основных предположений данной главы считаются выполненными также предположения § 2 относительно произ- водных a, Ь, с, f, g(x), g(t, х). При t е [О, Т], x^Edt аеЛ, / =/= О обозначим па (/, х) = (1 + tr а (а, /, х) +1 Ъ (а, /, х) | + + са(/, х) + |Г(Л х)|)Л р (/) = р (/, х, /) = inf sup па (/, х) (а (а, /, х) X, X), %: 1к= 1 ае А Q(l) = {(t, х)(=Нт‘- р(/, X, Z)>0}. Заметим, что в силу непрерывности а (а, /, х), па по а и сепарабельности А верхняя грань в определении р(/, х, /) может вычисляться по счетному подмножеству Л. Следовательно, она измерима по (/, х). Кроме того, эта верхняя грань непрерывна по X; значит, р(/, х, I) изме- рима по (/, х). В частности, Q (Г) — борелевское множество. Далее, функция na(t, х) введена в формулу, опре- деляющую р(/, х, /), для удобства. Поскольку при каж- дых (/, х) функции па (t, х), [па (tt х)]1 ограничены сверху на множестве Л, то р(/, х, /)>0 тогда и только тогда, когда inf sup (а (а, /, х) X, X) > 0. X /X = 1 а €= А Иначе говоря, когда inf /, х)>0.
244 УРАВНЕНИЕ ВЕЛЛМАНА (ГЛ IV Таким образом, Q(/)={a, х) е Нт: inf Л (W, /, х) > 01 Х:/Х = 1 |. Объясним теперь, в каком смысле Q (I) является мно- жеством, на котором производная реально входит в операторы F[u], ^[и]. Пусть точка (Zo, x0)^Q(Z). Тогда, как легко видеть, найдется вектор Хо такой, что ZXO=1 и ^(ХоХо, *о) = О- Не ограничивая общности, можно считать, что направление Хо совпадает с направле- нием первого координатного вектора. Тогда а11 (а, /0, х0) = = 0 при всех а^А. Из неотрицательной определенности матриц а (а, /, х) вытекает, что аи (а, Zo, х0)=ап (а, /0, х0) = = 0 при всех аеЛ, f=l, d. Следовательно, d Fi[u](/0, х0)= sup У a,1’(a,, t0, xQ)uxtxjy а е / = 2 и для вычисления Fr [и] (Zo, х0) нужно знать производ- ные uxixj только при Z, /^2. В то же время только через эти производные нельзя выразить Ш2 i, i = 1 1 так как I1 = I ,=/= 0. Например, функции и, и 4- (х1)* I ^0 I имеют одинаковые производные по xlxJ (i, j^2), но раз- ные производные по (Z) (Z). Операторы Fr на этих функ- циях, очевидно, совпадают в точке (/0, х0). Произвольное изменение zZ) не оказывает, таким образом, влияния на значение Fr [uj. В этом же смысле производные uxixh их»Х2 не входят в оператор LU = UXlXl 2UX1X2 -j" UX2X2. Действительно, полагая Г=(1, 1), нетрудно доказать, что Lu = 2u(Z-)(/-), и через u^pi нельзя выразить ни их1хЧ НИ UX2X2. Читатель поймет, каким образом равенство р (/, х, Z) = 0 оказывает влияние на возможность оценки вида v(Z) (Z) (ds dx) ф ds dx, выполнив следующее
«3] ОЦЕНКИ СВЕРХУ ВТОРЫХ ПРОИЗВОДНЫХ 245 1. Упражнение. Пусть d = = 2, Т = 1, А =» = Ql/ = h b1 (а, /, х)=а, Ь2 (а, t, х) =—а, g W = T+frl-xy ’ V (S> X) = aS“P( M“ XS (*!-*)• Докажите, что p(/) = 0 при /^/ = (1, 1), p(/)>0, ^-^ = 0, функция v (s, x) является гладкой функцией от s и и(/)(/)(Г)>0 при / где Г = [0, 1]х{х: х1 = х2}. Обратите внимание на то, что ^dsdx = 0. г Таким образом, если pi (Z) = 0, то для вычисления F [w] не нужно знать u{l}li} и производная (Z) (ds dx), вообще говоря, не является абсолютно непрерывной относительно меры Лебега, т. е. обобщенная производная u(Z)(Z)(s, х) не существует. Ниже (см. теорему 5) мы увидим, что если р (/, х, /) > 0 в некоторой области Q, то обобщенная про- изводная u(Z)(Z)(s, х) существует в Q. 2. Лемма. Пусть и = (ич) —матрица размера dxd, ф — число. Предположим, что при всех Xg Ed (/Л, X) ^ф | Xj2. Тогда при всех (t, х) <^НГ и единичных I р(/, х, l)(ul, /) ^ sup па(/, x)tra(a, /, х)иф-ф_. а е А Доказательство. Фиксируем /, х и через Г обо- значим наименьшее замкнутое выпуклое множество матриц размера dxd, содержащее все матрицы па (/, х)а(а, /, х) (а Л). Множество Г можно, например, получить замы- канием множества I 2 *)я(аь t, *): п=\, 2, ...; pz^0, 4 = 0 2 Pz=l, azG± Лк i =* 1 / Из этого представления множества Г вытекает, что мно- жество Г ограничено и max (аХ, Х) = sup па (/, х)(а(а, t, х) X, X), а £ Г а е А ' max tr аи= sup na(t, x)tra(a, /, x)u. a Г a e A
246 УРАВНЕНИЕ БЕЛЛМАНА (ГЛ IV Докажем, что р (/, х, 1)= inf max (ак, X) = max inf (ак, к). (3) X: Ik = 1 а €= Г а е Г к: Ik = 1 Первое равенство здесь следует из первого равенства в (2). Для доказательства второго применим основную тео- рему теории игр. Возьмем R>0. Функция (ак, к) задана на Гх{Х: /1=1, выпукла вверх (линейна) по а, выпукла вниз по к в силу неотрицательной определен- ности матриц из Г. Кроме того, множества Г, {X: /Л=1, выпуклы, ограничены и замкнуты. Следовательно, для любого R>0 Ря (Z) =а min max (ак, к) = X: Ik = 1, | X | < R a S Г = max min (ak, X). о GE Г X* Ik = 1, | X I R Из второго равенства вытекает, что существует матрица aR <= г такая, что (aRk, k)^p.R(l), если ZZ=1, |X|^R. Полагая R -> оо и выбирая сходящуюся последовательность матриц aR, найдем матрицу а Г такую, что (ак, к) lim p^(Z), если ZX=1. Из определения р^ (Z) видно, что R -► оо lim p#(Z) = Р(Z). Следовательно, R —► оо inf (ак, X)^p(Z), х - /х = 1 р(/)^ inf (ак, X)^sup inf (ак, к). X: Ik = 1 аег X: lk= 1 С другой стороны, sup inf (ак, X)^sup inf (aX,X)=p7?(Z)-^p(Z). a e Г X: Ik = 1 a e Г X: Ik = 1; | X | < R Этим доказано второе равенство в (3). Положим теперь р(а, Z)= inf (ак, к). По определению р(а, [)^(ак, к), к* /X = 1 если ZX=1. Подставляя в последнее неравенство вместо к выражение к (Ik)-1, при ZX=/= 0 находим р (а, I) (1к)2 (ак, к). При 1к = 0 и подавно р(а, 1)(1к)2^(ак, к). Отсюда выте- кает, что матрица а — р(а, Z)(Z‘Zy')^O для любой а е Г. Матрица у (и-\-и*) — -ф/, где / — единичная матрица раз- мера dxd, также неотрицательно определена по предпо- ложению. След произведения неотрицательно определенных
§ 3] ОЦЕНКИ СВЕРХУ ВТОРЫХ ПРОИЗВОДНЫХ 247 симметричных матриц неотрицателен. Поэтому для любой а еГ О =С tr [а — р (а, /) (/'7')] [у (и + и*) - яр/] = = tr[a — (л (а, /) (/Ф)] и — ф [tra — р (а, /)]=^ =gtraa — р(а, I) (ill, /) + Ф- Последнее неравенство имеет место в силу того, что na(t, x)tra(a, t, x)sgl, 1 Satra s^p(a, l) при a <= Г. Окончательно, p (a, /) (ul, /) tr an + ф_. Остается здесь взять верхние грани по ae Г и воспользоваться соотно- шениями (3) и (2). Лемма доказана. Введем еще несколько обозначений. Если v — a-аддитив- ная функция множеств, то | v | — вариация v, v_ = = у (| v |— v)— отрицательная часть меры v. Хорошо известно, что если v абсолютно непрерывна относительно меры vx и = f(x), то меры | v | и v_ также абсолютно непрерывны относительно vx и I V I (dx) __ Vj (dx) IfWI. V! (dx) В следующей теореме участвуют объекты, существова- ние которых установлено в § 1 и 2 (см., в частности, тео- рему 2.7). 3. Теорема. Обозначим Ui = v, u2 = w, и пусть изме- римые функции ф1( ф2 таковы, что ^idt dx ^ищщ) (dt dx) внутри НТ для любых 1=£0, 1=1, 2. (В качестве фг по теореме 2.6 можно взять правую часть неравенства (2.14).) Тогда при всех единичных I и 1=1, 2 внутри НГ р (/) ut (Z) (Z) (dt dx) (ф,)_ dt dx + (J u^ (dt dx) -f- +1 gradx щ \dtdx + (ut)+ dt dx + dt dx, (4) J Ui (dt dx) C inf | | [(i|>z)_ +1 grad.t u, | + (u,)+ 4-1] dt dx, (5) ₽ где x)! = «tra(₽, t, x) + j*(0. t, x)|4-c₽a. x)+fl(t, x).
248 УРАВНЕНИЕ ВЕЛЛМАНА [ГЛ. IV Доказательство. Введем меру v по формуле d v (dt dx) = I ~ v I (dt dx) + | vxixj | (dt dx) + dt dx. i. I — \ Все функции множеств j ~ v (dt dx), vxixj (dt dx), f dt dx. г г г абсолютно непрерывны относительно v. Соответствующие производные Радона —Никодима по мере v обозначим че- рез vt(t, х), V{j(t, х), p(t, х). По теореме 2.7 [— L&v (dt dx) — dt dx] — мера. Оче- видно, она также абсолютно непрерывна относительно меры v. Ее производная Радона — Никодима по мере v не- отрицательна. Отсюда для любого р е Л получаем d vt(t, х)+ 2 а"(₽, t, X) + G /я 1 + 2 HP, i, X)vxi(t, X)p(t, x)- i = 1 — (t, x) V (t, x) p (t, x) + p (t, x) p (t, x) 0 (6) почти всюду в Нт по мере v. Множество (t, х), на кото- ром выполняется (6), имеет полную меру и, вообще говоря, зависит от р. Пользуясь сепарабельностью А и непрерыв- ностью а, Ь, с и f по р, легко доказать, что множество тех (t, х), для которых (6) имеет место сразу при всех р, также имеет полную меру v. Далее, по предположению при любом единичном X е Ed внутри Нт yfadtdx^ о(Х) (X) (dt dx) = У ttMvxtxj (dtdx). i, i = i Стало быть, d У i.i=i почти всюду в Нт по мере v. Последнее неравенство ввиду непрерывности А/А/ по X имеет место сразу при всех еди- ничных Ь на некотором множестве полной меры v. Зна-
§ 3] ОЦЕНКИ СВЕРХУ ВТОРЫХ ПРОИЗВОДНЫХ 249 чит, на нем выполняются условия леммы 2 при = Заметим еще, что так как па(/, х)|6(а, /, х) | 1, па(/, х)са(/, х)^1, па(/, х) |/а (/, х)\=<с 1, то из (6) на множестве полной меры v при всех 0 s А находим d rP(t, X) у а'/(Р, t, *)]- + i, i = i +1 grad v v (t, x) | p (t, x) + t>+p (t, x) + p (t, x). Применяя лемму 2, отсюда заключаем, что почти всюду в Нт по мере v d Н(0 S /,№<7^(4’i)-P + (^)- + |gradxt>|p + v+p + p. i, j = 1 Умножая это неравенство на v (dt dx), получаем (4) при t=l. Докажем (5) при i=l. Замечая, что матрица (vi}< — ipipS'7) 0 и след произве- дения симметричных положительных матриц положителен, находим У, a‘f (Р, t, х) vlf (t, х) = = tra(P, t, х) (v{j) s^ptra (P, t, x). Из (6) получаем, что почти всюду в Нт по мере v vt(t, x)^[(^1)-tra(P, t, x)4-|gradxv| |6(P, t, x)| + 4- C₽ (/, x) V+ + (t, X)] P sg < i ^-p i [(ipi)- +1 gradxv I + v+ + 1] p. Вычисляя нижнюю грань правой части этого неравен- ства по счетному множеству 0, плотному в Л, и пользуясь непрерывностью | ZJ31 по 0, а затем умножая получив- шееся неравенство на v (dt dx), заканчиваем доказатель- ство (5) для 1 = 1. В точности так же неравенства (4) и (5) доказываются при i = 2. Теорема доказана. 4. Следствие. Пусть область QczHt и мера № dx) ' соответственно мера (dtdx)^ в обла- сти Q абсолютно непрерывна относительно меры Лебега
250 УРАВНЕНИЕ ВЕЛЛМАНА (ГЛ IV dt dx. Тогда сужение функции множеств р(/) (Z) (dt dx) (соответственно (Z) (dt dx)) на множество Q П Q (l) также абсолютно непрерывно относительно меры Лебега. Кроме того, при этом в Q существует обобщенная производная v (t, х) w (t, х)в смысле определения 11.1.1. Действительно, возьмем в качестве правую часть неравенства (2.14). Из (4) и теоремы 2.6 получаем, что внутри Q Н (0 Ф1 dt dx И (0 ^(/) (/) (dt dx) dt dx, где (д \ \mv] ft = (’l’i)-+^^-4-|gradxp|4-t>+4-l. Отсюда, очевидно, вытекает, что внутри Q И (01 v(i) (1) I dx) [Н (0 14*11 + А] # dx. Следовательно, если TcQ, ^dtdx — Q, то Г $H(/)|v(Z)(Z)|(d/d/) = 0. г Если же еще ГсфЩ, то ввиду неравенства р(/)>0 на Q(/) $|v(Z)(Z)|(d/dx) = 0. Г Иначе говоря, (dt dx) абсолютно непрерывна отно- сительно меры Лебега на Q р Q (/). Далее, поскольку — v_ (dt dx) v (dt dx), то внутри Q (0\ — dt dx^^- v (dt dx). at dx dt v ' Это дает нижнюю оценку и (dt dx) через меру Лебега dt dx. Возьмем верхнюю оценку из (5). Тогда, как и выше, получим, что ~ v(dtdx) абсолютно непрерывна
§ 3] ОЦЕНКИ СВЕРХУ ВТОРЫХ ПРОИЗВОДНЫХ 251 относительно меры Лебега на Q. Стало быть, если i^O), то — с/ f v x]dtdx = — [r]^v(dt dx) = — f r] dt dx J ot 1 J 1 dt v 7 J 1 dt dx Q Q Q и, значит, плотность меры v (dt dx) по мере Лебега является обобщенной производной v по t в смысле опре- деления II. 1.1. Аналогично рассматривается функция w. 5. Теорема. Пусть область Qcz НТ и мера v j (dt dx) в области Q абсолютно непрерывна от- носительно меры Лебега dtdx. Тогда в Q существует производная— v (t, х) и а) если Q czQ(l) для некоторого единичного вектора I, то вторая обобщенная производная (/, х) существует, причем н(0 и (О vd) io < ^(^i)- + (/z у). 4-1 grad.v f 1 +v+4-1 (n- в. Q), где ipj — любая функция, удовлетворяющая предположению теоремы 3; б) если же при всех (t, х) е Q, / =Н= О sup (a (a, t, х) I, I) > 0, (7) аЕ А то Qcz P|Q(Z), все обобщенные производные вида vxixj(t, х) i существуют в Q и F[v]^ 0 (п. в. Q). Доказательство. По предыдущему следствию v (t, х) существует в Q и в условиях а) функция мно- жеств t>(Z)(Z) (dt dx) в области Q абсолютно непрерывна относительно меры Лебега. Ее производная Радона —Нико- дима по мере Лебега является обобщенной производной вида v(/)(/)(/, х). Оценки для нее немедленно вытекают' из (4) и предположения dt dx u(Z) (Z) (dt dx). Для доказательства б) заметим, что функция sup па (/, х) (а (а, /, х) I, I)
252 УРАВНЕНИЕ БЕЛЛМАНА [ГЛ IV непрерывна по /. Отсюда и из (7) следует, что на Q р (t9 х) = inf supna(/, х) (а (а, /, х) I, /)>0 11! = 1 ае А Ясно, что при всех sup па (/, х) (a (a, t9 х) X, X) р (/, х) | X |*. ае А Отсюда при 111 = 1 получаем р(/, х, /)^ inf р(/, х) | X |2 = р (/, х). X: /Х=1 Стало быть, р (/) ^ р >0 на Q. Иначе говоря, Q (= П Q(Z)« Отсюда по утверждению а) заключаем, что в Q существуют все обобщенные производные вида u(Z)(Z)(/, х). Как мы знаем, из этого факта вытекает существование всех вто- рых смешанных обобщенных производных в области Q. Наконец, неравенство (п. в. Q) получается из следствия 1.7. Теорема доказана. 6. Замечание. Очевидно, теорема 5 останется в силе, если в ее формулировке всюду и и заменить на w и ф2, гДе ф2“ любая функция, удовлетворяющая условию теоремы 3. § 4. Оценка производной по t от функций выигрыша В предыдущем параграфе мы видели (см. теорему 3.5), что для доказательства существования и для оценки вто- рых обобщенных производных от функций выигрыша по пространственным переменным нужно уметь оценивать снизу их производные по /. В этом параграфе оцениваются абсолютные величины х), х). Предположе- ния, в которых это делается, отличаются от предположе- ний § 2 и 3. Здесь, кроме основных предположений главы, считается, что функции о (а, /, х), b (а, /, х), са(/, х), (/, х) при каждом а е Л_один раз непрерывно диффе- ренцируемы по (/, х) на Нт, g (х) дважды непрерывно дифференцируема по х, g(t, х) один раз дифференцируема по /, два раза по х и ее производные ^g(t, х), gxi(t, х), gxi*j(t9 х) непрерывны в Нт. Кроме того, пусть при всех
§4J ОЦЕНКА ПРОИЗВОДНОЙ ПО t 253 аеЛ, /е[0, Т], х, l^Ed [±а(а, t, х)|+ |^(а, t, х) | + |£с“(t, х) | + + *)|+lc“')(z’ х): + '^> х>1+ + IS(i) (х) I + lg(Z)(Z) W I + 157 £ (Л х) | + + 1^(0 (Л х) I +1 g(l> (Z) (Л х) I К (1+1 х |У», Ц“(Л х)г(х)! + |Л“^(Л х)|<К(1 + |Х|Г, (1) где постоянные Кит, разумеется, те же, что в (III.1.1)— (III.1.3). Последнее неравенство, если в его правой части К (1 +1 х \)3т заменить на N (К, d) (1 +1 х |)(т+2> V 2m, легко будет вытекать из предыдущего и (III.1.2), (III.1.3). Очевидно также, что (1 + |х|)ш^(1 -ф |x|)(m+2)V2m. Поэтому, если существуют постоянные К и т^О, для которых выполняются все предположения, кроме (1), то существуют (другие) постоянные Кит, для которых выполняются все предположения вместе с предположением (1). Следова- тельно, можно обойтись без этого предположения. Однако мы этого делать не будем, поскольку оценка (1) удобна, например, в том случае, когда т = 0 и а (а, /, х) и b (а, /, х) — ограниченные функции. Кроме того, специаль- ный вид правой части (1) оказывается удобным при наших вычислениях. Понятно, что всегда можно продолжить функции a, Ь, с, f и g(t, х) при t>T так, чтобы наши предположения выполнялись уже при всех t е [0, оо), правда, быть может, при этом для t > Т постоянную К придется заменить на 2К. Мы будем считать, что такое продолжение сделано. В силу результатов § II.8 на отрезке [О, Т] процесс xf> s> х «ZB-непрерывно «ZB-дифференцируем по s при s е е (О, Т), и если q^ s> х = ХВ~ х*> s> х, то для любого (см. теорему II.8.7) М sup ! s« х I2" < NeNT (1 +1 x |)2шп, (2) т 1 где N = N (К, т, п). Очевидно, процесс (s + /, х^«s* х) также «ZB-непрерывно «ZB-дифференцируем. Из § 11.7 вытекает, далее, что функции т (s, х) непрерывно диф-
254 УРАВНЕНИЕ БЕЛЛМАНА [ГЛ IV ференцируемы по s на (О, Т) при любых аеЯ, x^Edt т е (Т). Наша ближайшая цель состоит в том, чтобы получить формулу ДЛЯ ^Va’ xA(T-s) х) 1. Лемма. Пусть на квадрате (0, Т)х(0, Т) задана ограниченная функция ф($, г), измеримая по (s, г). Пред- положим, что при почти каждом г функция ф (s, г) абсо- лютно непрерывна по s и функция д [ lim г\ , если предел существует, r) = j /-s f~s I 0 в противном случае удовлетворяет неравенству Т т г) \dr ds << оо. Г—s Тогда функция J ф (s, г) dr абсолютно непрерывна о по s и ее производная по s при почти всех s совпадает с T—s ( T — s). Лемма вытекает из того, что при тех г, при которых ф($, г) абсолютно непрерывна по s, функция ^ф($, г) является производной ф (s, г), она измерима по (s, г) и, как нетрудно проверить с помощью теоремы Фубини, Метод использования этой леммы проясняет следующая формула, которая получается из определения ua*T(s, х)
§ 41 ОЦЕНКА ПРОИЗВОДНОЙ ПО t 255 с помощью формулы Ито: U“-TA(r-s)(S( Х)= $ М“ x%T>r[^r(s + r, Хг) + О + Larg(s + г, xr)]e~v'- dr+g(s, х). Если предположить, что функция g (/, у) бесконечно дифференцируема и ее производные растут не слишком быстро при | у | -> оо, то функции Larg (s + /*, у) будут непрерывно дифференцируемы по (s, у), а поскольку про- цесс (s + r, х^>s* х) «Z’B-непрерывно «^^-дифференцируем по s, то в силу результатов § II.7 при каждом г е [О, Т] случайная величина + x^s-x) + Larg(s + r, x^x)]e~^S'X будет «^-непрерывно «^-дифференцируемой по s на (О, Т). В этом случае математическое ожидание М“л>г[Л(« + г, xr) + Larg(s + r, хг)]в-фг (3) непрерывно дифференцируемо по s на (О, Т) для любых а, х, г. Если произвести вычисление производной (3) по s и воспользоваться известными оценками моментов х?-s> х, а также неравенством (2), то легко доказать (ср. доказа- тельство теоремы 1.1), что производная (3) по s ограничена при s е (О, Т), г е (О, Т) для каждого х. Стало быть, в рассматриваемом случае по лемме 1 функция va>Т/, (Г ~s) (s, х) абсолютно непрерывна по s и (п. в. (О, Т)) va' TMT — s) (s х) = ds \ > / =-M^xT>r_s[fr-s(7\ Xr-s) + LaT-*g(T, Хг-$)]е—Фг—s + T — s + J xXt > r [/<Xr (s + Г, xr) 4~ 0 + La^(s + r, xr)]e~(frdr + ^g(s, x). Преобразуем полученное выражение. С помощью фор- мулы Ито и правил из § 11.7» позволяющих переставлять
256 УРАВНЕНИЕ БЕЛЛМАНА [ГЛ. IV знаки производных и интегралов, заключаем t j £ М“ хХт > re~ *rLar g(s +г, xr) dr = 6 т л t “^М”х 5 e-,4.“'g(s + r, x^dr=* О = ^[M“x<r<₽TA<g(s + T Л t, xxAt)-g(s, х)]. Таким образом, если §•(/, ^—достаточно гладкая функ- ция, то ^va, xMT — s) (s> х) = = -MJД,, T_,|Г --(T. tr-,) + ' xr.,)]e-’r- + + ®M f j'/»'(s + G + 0 +e-^A’4(s + T д tf x?’AV)}|< = r-s (П. B. [0, T]). Непосредственное вычисление последней производной по s с дальнейшим применением теоремы Фубини (или преобразований, подобных преобразованиям, о которых идет речь в начале § 2) приводит к такому результату. 2. Лемма. При всяких x^Ed, а <=21, т е (Т) функция уа’т A(T'-s) (s> х) абсолютно непрерывна по s и почти всюду на (0, Т) ее производная совпадает С 0«, тА(Г —s) х), где 6а-т (s, х) в “ М“ X (е~ [(Й (s + т’ + ^(’г)(s + т’ 1^|] + +J е~ф/ Ш A')(s+z>xt}+/)(s+ 0 - %: I [(£ c“') (s++C“A(s+z> Xt) 1 qt О! " -M“xXr>T-s[fr-s(7\ xr-s) + LaT-sg(T, xT.s)]e-^-\ m(t) = \e-^-^r(s + r> Xr)dr+e-^~^g(s + x, xt). t
ОЦЕНКА ПРОИЗВОДНОЙ ПО t 257 § 4J Рассуждения, проведенные перед леммой, использовали предположение о большой гладкости g(/, у). Однако лемма справедлива и в общем случае. Для того чтобы в этом убедиться, достаточно приблизить g(/, у) свертками с глад- кими ядрами и затем в формуле va, тЛ(Г —s2) (S2> %) —уа. М(Г-51) = s2 = J &“ тЛ <t-s) (S) x)ds, (4) Si доказанной для гладких g(t, у), перейти к пределу. Воз- можность предельного перехода обеспечивается с помощью известных оценок моментов х%>s> *, qf’s* х. Эти же оценки позволяют утверждать, что |6a’T(s, x)\^NeN <7' —s> (1 + |х I)3'”, (5) где W = W (Л, т) (ср., например, доказательство теоремы 1.1). ?. Теорема. При каждом x^Ed функции v(s, х) и w (s, х) абсолютно непрерывны по s на [0, Т], имеют на этом отрезке обобщенную производную по s и для некоторой постоянной N = N (Л, т) \dsV^ *)| + |^Ш(5’ Х)И ^M>AUT-s)(l+|x|)3m (П. в. Доказательство. Из (4) и (5) при s2>sx находим । va, тЛ(Т — s2) х) _ va, тЛ(Г — s,) < NeN (1 + | X I)3"1 (S2 - SX). Отсюда, поскольку w (s, х) = sup sup Va> ™T - s) (s, x) as 21 те ЭД (T) и разность верхних граней не больше верхней грани раз- ностей, получаем I (S2, х) — w (sb х) | NeN (Т ~ (1 +1 х |)3m (s2 — sx). Это неравенство влечет за собой абсолютную непрерыв- ность tc(s, х) по s, а после деления на s2 — sx и перехода к пределу при sz-->s дает нужную оценку для (обычной) 9 Н, В. Крылов -
258 УРАВНЕНИЕ БЕЛЛМАНА (ГЛ IV производной ^ay(s, х). Доказательство теоремы для w завершается ссылкой на то, что обобщенная производная функции одной переменной совпадает почти всюду с ее обычной производной. Для того чтобы доказать теорему для функции v (s, х), во всех рассуждениях этого параг- рафа достаточно взять т = Т и g(s, х) заменить на g(x). Теорема доказана. 4. Упражнение. В упражнении 3.1 изменим а и Ь. Пусть о(/, х) —единичная матрица размера 2x2 при х) = 1 при t е (у, lj; b (a, t, х) = 0 при t е= [о, у]; b (а, t, х) — (а, —а) при t е (у, 1]. Покажите, что производная v (s, х) не ограничена ^вблизи точки ojL § * § 5. Предельный переход в уравнении Беллмана Из § 1—4 мы знаем, при выполнении каких условий на о, ft, с, f и g функции выигрыша имеют вторые обоб- щенные производные по х и первую обобщенную произ- водную по t. В дальнейшем (см. теоремы 7.1 и 7.2) будет показано, что из существования этих производных и из предположения о невырожденности всех процессов х**s* х совсем просто выводятся уравнения Беллмана для функ- ций выигрыша. Для того чтобы отказаться от условия невырожденности всех процессов х, нам понадобятся теоремы о предельном переходе в уравнении Беллмана. Всюду в этом параграфе Q — ограниченная подобласть Н г, а (а, /, х) — неотрицательная симметричная матрица размера dxdt b(a, tt х) —d-мерный вектор, са (/, х), fa (t, х) и га (/, х) — числа. Предполагается, что a, b, с, f и г определены при (а, /, х)еЛх(?, измеримы по (/, х) и непрерывны по а. Кроме того, считается, что r^O; d, b, с и г ограничены на XxQ, sup । fa (/, r)|e ^d+1 (Q)-
$ 8J ПРЕДЕЛЬНЫЙ переход в уравнении БЕЛЛМАНА 269 Положим G(«0» uih и< х) е=з Г <1 sup ra(t, x)u0+ У dZ/ (a, f, х) u,'/4- aeAl , ,- = , d + У b‘ (a, t, x) U( — ca (t, x) и + fa (t, x) I = 1 G[tz]ssG [iz] (/, x) = / d ' = G {zr-u(t, x), x), Ui{t, x), u(t, x), t, x \0l XX X Через d'Q обозначается параболическая граница Q, т. e. множество тех точек (/0, х0) (обычной) границы Q, для каждой из которых существует число 6 > 0 и непрерывная функция X/, определенная на [/0 —S, ^о] такая, что х/0=х0, (/, X/JgQ при /е[70 —6, /0). Легко понять, что если процесс (s04-/, X/) непрерывен по t и в момент времени / = 0 находится внутри Q, то выйти из области Q он может только через параболическую границу Q. Сформулируем две основные теоремы настоящего параг- рафа. 1. Теорема. Пусть функции un^W]>2(Q) (п~ = 0, 1, 2, ...), причем sup || ип \\в {d'Q) < оо, lim \\un — uQ\\d + \tQ = 0. 0 п-> оо Тогда а) если sup G [«„], sup f^-4-д') е «S?rf+1 (Q), то lim G [мп] 5s G [u0] (n. в. Q); п -* оо б) если inf G[u„], inf f/+ ^</+1 (Q), т<> п^О n^0''Ot / G[u0155 lim G[m„] (n. в. Q). n —► 00 Из этой теоремы вытекает, что при выполнении подхо- дящих условий lim G [ип\ G [ 1 i m ип]^ lim С[ип] (п. в, Q). -* 2° ОО n~GGo 9’
260 УРАВНЕНИЕ ВЕЛЛМАНА (ГЛ IV 2. Теорема. Пусть для некоторой постоянной д>0 при всех (а, /, х) е А х Q, X е Ed (а (а, /, х) X, X) 6 | X |2, га (/, х) S. Пусть ип е й?1*2(Q) (n=0, 1, 2, ...), причем sup II и" Цв(d'Q) <оо, lim ||wn-z/ollrf + i,Q = O. л > 0 л —* со Тогда для любой функции h^<£d+1(Q) a) ||(G[u0] + /i)J|rf + ltQ^A^lim \\(G[un] + h)+\\d + LQ; 6) || (G [w0] + ^)-Ik +1, Q lim l| (G [un] + Л)- lk +1, Q, л —* co где N зависит только от d, 6 и от максимумов по i, j = = 1, ...» d и (а, /, х) е А х Q модулей функций Ь' (а, /, х), (а, /, х), ra (t, х). В частности, если G \ип} ->-h в норме <£d+i(Q), т0 G[u0] =— h (п. в.). Важно заметить, что в условиях теорем не предпола- гается ничего о сходимости производных функций ип к про- изводным функции г/0. В связи с этим обратим внимание читателя на 3. У п р х(-1, 1), ажнение. Пусть d=T=l, Q = (0, l)x <J [ы] = I sup! ^u + auxxy Положим /л (x) = sgn sin (2плх), urAt, *) = J (x - y) %n («/) dy, n = l, 2, u0(t, x) = 0. 2-л-1 Докажите, что un, unx, unxx в совокупности ограни- чены, un-+uQ равномерно в Q и тем не менее O = G[wo]^ lim G[un]=l (п. в. Q). п —> со Иногда утверждения а) теорем 1, 2 можно усилить. 4. Упражнение. Пусть для всех a ge А функции а (а, t, х) (b (а, /, х)) дважды (один раз) непрерывно диф- ференцируемы по х, га (/, х) один раз непрерывно диффе- ренцируема по t в Q и соответствующие производные огра- ничены в Q. Докажите, что если uri g iV’ 9 (О) (п = 0,
§ 5] ПРЕДЕЛЬНЫЙ ПЕРЕХОД В УРАВНЕНИИ БЕЛЛМАНА 261 1, 2, lim||M„-z/0||d + i>(? = 0, то lim G[u„] ^G[u0] (п. в. Q) и (с постоянной М = 1) II (G [Щ>] + Л)+ lid +1, Um || (G \un\ + Л)+ |Ь,, Q. Теорема 1 легко вытекает из теоремы 2. Докажем, например, утверждение б) теоремы 1 в предположении, что теорема 2 уже доказана. Заметим прежде всего, что если и е W71,2^), то G[w] е <^+1 (Q). Этот факт сразу следует из измеримости G[w](Z, х) (ср. введение к главе) и очевидного неравенства / d d \ IGWi-SW |s|+ 2 К'.'1,+ 2К'! + !“Н1 . (1) \ , /=1 .=1 / где постоянная N зависит только от верхних граней модулей а4'(а, /, х), Ь1 (а, /, х), са(/, х), /а(/, х), га (/, х). Далее, для 8>0 положим ае (а, /, х) = а(а, /, х)ф-е/, где /—единичная матрица размера dxd, г* (t, х) = = ra(t, х)ф-8. По d8, b, с, f и r8 построим оператор G8 так же, как оператор G строится по a, b, ct f и г. Оче- видно, G8 [w] = G [w] ф- e + Aj и и (/, x) 8, (a8 (a, /, x) X, X) 8 | X |2. (2) При n0>0 обозначим hnn = — inf Ge [ип]. Поскольку n > n0 inf G8 [un] hnQ G8 [^MoL n < то в силу предположений б) и неравенства (1) функция hl2n Xd+1 (Q). Кроме того, (GE[un]-\-!inQ) при п^п0. Неравенства (2) позволяют применить теорему 2 и полу- чить (Ge [г/014- ЛПо) _ = 0 (п. в. Q), т. е. Ge [z/0] - /гПо (п. в. Q), + +^\u0^ inf Ge[un]^ I По inf С[нл]4-е + (п- в- При п0-^-оо, е | 0 отсюда выгекаег утверждение б) теоремы 1.
262 УРАВНЕНИЕ БЕЛЛМАНА (ГЛ IV Таким образом, в доказательстве нуждается только теорема 2. Эта теорема будет доказана в конце параграфа, а сейчас мы займемся изучением одного вспомогательного объекта. При этом постоянно будем предполагать, что условия теоремы 2 выполнены. Удобно считать, что а (а, /, х), b (а, t, х) определены не только на Q, но вообще при всех (/, х). Переопределяя их, если нужно, вне Q, добьемся того, чтобы Ь(а, /, х) = 0, а (а, /, х) = 6/ при (/, x)c£Q. Пусть о (а, /, х) — положительный симметричный ква- дратный корень из матрицы 2d (а, /, х). В множестве А фиксируем счетное всюду плотное подмножество {а (О, i^l} и через обозначим множество всех измеримых функций а (/, х), заданных на (— оо, оо) х Ed и принима- ющих значения из {a(i), Поскольку каждое собственное число матрицы а больше д, то каждое собственное число о больше j/2d. Значит, (о X, X)}А26 | к |2. По теореме II.6.1 получаем, что для всяких аеШ, sg[0, Т], x^Ed существует вероятност- ное пространство, d-мерный винеровский процесс (wz, и непрерывный процесс xt = ^s'x на этом пространстве такие, что xt = х+ 5 о (a (s 4-г, xr), s + r, xr)dwr4- о + \b(a(s-\-r, xr), s4-r, xr)dr. о Обозначим c^(t9 x) = ca(t'x>> (/, x), R£i (s, x) = M h + /, x«- s« x} x о n«/2(s, x) = Г T _ f = M// -|- i, x^ exp | — at — + r, x"x' dr I 0
§ 5] ПРЕДЕЛЬНЫЙ ПЕРЕХОД В УРАВНЕНИИ ВГЛЛМАНА 2G3 где т — момент первого выхода процесса (s + s> х) из об- ласти Q. Конечно, в этих обозначениях надо было бы как-то учесть зависимость от выбора вероятностного про- странства, винеровского процесса и от s-x. Однако мы этого делать не будем, подразумевая, что для каждых ае ge й, х е Ed, s е [0, 7] фиксированы одно из нужных вероятностных пространств, один винеровский процесс и один из процессов xf« s«х. Для сокращения обозначений при а ей положим еще /а(/, %). 5. Лемма. Пусть ueW1’2(Q), га (/, x)sl, С[ц] = = — h(n. в. Q), Тогда при всех (t, x)eQ и (t, х) ~ sup + fa + h) (t, х)4-П£ц(/, x)]. (3) а ge Й Доказательство. Обозначим правую часть (3) через u(s, х) и заметим, что в силу теоремы II.2.4 она не изменится, если функцию h заменить на ей эквивалентную h (/, x) = G [«](/, х). По а, I) и с построим оператор £а так же, как во введении к главе по а (а, /, х), Ь (а, /, х) и са (t, х) строился оператор La. Очевидно, Lau-\- Ja — h всюду в Q при аеЛ и при а ей, (/, х) е Q Z,a<z-X)u(/, х) —Хи(/, х)^ —х) —fa(/, х) — h(t, х). Применяя формулу Ито (теорему II. 10.1), получаем и (t, х) = R% (Ku — Lau) (/, х) + П* и (/, х) ^/?«(Xtz + f“ + A)(Z, х) + П“н(/, х). (4) Это неравенство справедливо для любой функции a е= ей. Значит, и и. Для доказательства противоположного неравенства заметим сначала, что в силу непрерывности a (a, t, х), b (а, /, х), (/, х) и fa(t, х) по а и плотности множества {a(i)} в множестве А G [и] = sup [Z?il]и + fa (I)] = lim шах [La(I,u + fa(t)]. i n -♦ co i n Следовательно, для всякого 8>0 и всяких (/, х) е Q с^ществх е«' номер i такой, что G[//](/, х) х).
264 УР\ВНП1ПГ RHBHIU [ГЛ IV Наименьший номер, удовлетворяющий этому неравен- ству, обозначим через ie (/, х). Легко доказать, что мно- жество {(/, x)gQ: ie(Z, x) = i} измеримо для любого i. Поэтому функция (t, х) измерима, а вместе с ней изме- рима и (|ункция ае (/, x) = a(iE(t, х)). Для нее 7/ (t, г) - F = G [и] (/, х) - е х,« (/, х) + fE (/, X) п| и (/, х) е Q. Отсюда (ср. (4)) вытекает, что ;/(/, х)с ^R^^u+fa^ + h)(t, х) + П“М/, x) + R^e(t, х)^ x) + R^e(t, x)^u(t, x) + e(T-i). Здесь г — произвольное положительное число; стало быть, и<и. Лемма доказана. При X = 0 из леммы получаем вероятностное представ- ление решения уравнения G[z/] =— h: и= sup (г + /г) + П“и]. (5) а е 6. Упражнение. С помощью (5) докажите, что если га (/, х)=1, и2<=М1 2 (Q), G[w1]2^G[^2] (п- в. Q)» uY (>'q^u2 d'Q> то ui и2 всюду в Q. В частности, если = (п. В. Q), u^d'Q = u2^d'Q, ТО Ui = u2 в обла- сти Q Отметим также еще одно простое следствие формулы (5), которое, правда, лежит несколько в стороне от темы настоящего параграфа. 7. Теорема. Пусть (выполнено первое предположение теоремы 2) Q = Cr,R, ra(t, х) = 1, иъ и2 (= W1'2 (СТ,я)9 h = ess sup | G [ux] — G [r/2] I, (Л = x)- CT. R Тогда для всякого п>0 найдется постоянная N = = N (К, п) такая, что при всех (s, x)^Ct,r их (s, х) — и2 (s, х), ^h(T-s) + R nNeN'T-s) (1+ х\)п[и1 — и2\\В{д^Т R). Доказательство. Положим /zf = — G[zzf], напишем представления (5) для и± и и2 и вычтем эти представления.
ПРЕДЕЛЬНЫЙ ПЕРЕХОД В УРАВНЕНИИ БЕЛЛМАНА 2С5 § 5] Тогда, замечая, что модуль разности верхних граней не превосходит верхней грани модулей разностей, получим I «1 — «2 i -;S sup I I л, — Л214- П“ I «х — и21 ]. аЕ'Д Поскольку ।//j —/г2 ] sg;/г(п. в.), то | hY — Л21 (s, х)^ ^zR^/i(s, x)^/i(T — s). Кроме того, так как и1(Т, х) = = и2 (Т, х), то П“| — «2 l(s, M2|(s + t, X?,S,X)xt<7'-s< sg sup sup I U2 (t, y) — u.2 (t, y) I P {|x?’s’ x| =/?}• [О, 7] r/, = 7? Остается оценить последнюю вероятность. Очевидно, она равна р/ sup sup |x?-s’T- — s ) * t^T-s По следствию II.5.12 это выражение, в свою очередь, не превосходит R~nNeN (1 1 х | )п. Теорема доказана. С помощью вероятностного представления из леммы 5 для решения уравнения G[z/] =— h можно дать вероят- ностную формулу для оператора G. 8. Лемма. Пусть ra(t, х)^1. Обозначим &ки (t, х) = sup I Rl iXu + f + h) (t, x) + n?u (/, x)]. a G'Jl Тогда при всех h<^ Xd+1(Q), u^Wx'2 (Q), X]j Crtu - «)± L +1. о < w II (G [«] + h)± ||rf + Q, где П зависит только от б/, 6 и максимумов модулей ai] (a, /, х), b' (а, /, х). Кроме того, при тех же h, и lim || А — и) — G[zz] —h j|d н ь = 0. а,-* со-1
266 УРАВНЕНИЕ БЕЛЛМХНА [ГЛ IV Доказательство. По лемме 5 u — ^iu, где = = — G[w]. Оценивая разность верхних граней, находим — и = q?iu — q?i'u sup Ri (h — hr) sup Ri (h — /zx)+, ас ~l aef( <&hKu -u^ inf R% (h - //j) - — sup R% (h, -h)^ at'ii ае>Л — sup Из этих неравенств и теорем II.4.5 и II.4.7 вытекают оба утверждения леммы. Действительно, по теореме II.4.5 X J| (^iU — и)± \\р 1, S=AJ| sup Z?“ (Л —/iJiJIp+i, <? II (Л — ЛОх ||p+1. Q. аеЙ По теореме 11.4.7 выражения A sup Ri (h — /zj, — \ sup Ri (hi — h) аеЙ аеЙ сходятся в смысле верхней нормы Jf,Z41(Q) к 7z —/гР Поскольку же X(^iu — и) заключено между ними, то и это выражение сходится к h — hlt Лемма доказана. 9. Доказательство теоремы 2. Рассмотрим сначала случай ra(t, х) = 1, h = 0. Пусть область Q' cz cz Q' cz Q. В силу леммы 8 II(G[и])-|Ij + i, Q' = lim A,} (^iu — u) I’d+i.Q'. X-OCO Далее, очевидно, | — e7£u„ | < % sup Rk I и — un | + A^sup П“1, ае?( аеЙ где jV0 = sup[j— «0|!в(<7'<?>. По теореме II.4.5 п Ml sup Rk\ii- Un 1 I’d + ] Q < R:! и - Un ",d I. Q, ^г--Й причем, так как здесь постоянная /V не пвисиг от /г, правая часть неравенства стремится к нулю при п-^ со.
§5] ПРЕДЕЛЬНЫЕ! переход В УРАВНЕНИИ ВЕЛЛМАНА 267 Следовательно, | (G [м]) l’rf +!. q' ’sSKm Пт (Х]| - ип) _ |ld +у + + А.]| — <&).ип |</ +1, <?' +А.Ц и — ип jjd4-1, q') ’С < Лги lim %Ji(s7x«n-un)- IL + i,Q' + А—юо n —♦• oo + wo iim XII sup П“1 II . >.-оэ 5e5j rf + 1.0' В последнем выражении по лемме 8 первое слагаемое не превосходит W lim || (G [ил])_q, а по теореме II.4.7 я-юэ второе слагаемое равно нулю. Таким образом, ;| (G [«])_ ||d4-1. q’^N lim || (G [мл])- ki.Q (6) n-*oo для любой области Q' c Q' cz Q, причем N зависит только от d, 6 и от максимумов по а, /, х, /, / модулей aV (а, /, х), Ь' (а, /, х). Выберем теперь последовательность областей Qt' так, чтобы они расширялись и в сумме давали Q. Подставляя в левую часть (6) вместо Q' область Qt' и полагая i -> оо, заканчиваем доказательство второго утверждения теоремы для га (/, х)=1, /г = 0. Аналогично в этом случае дока- зывается и первое утверждение теоремы. Общее утверждение мы выведем из рассмотренного частного случая с помощью формальных преобразований. Пусть /г = 0, а га (/, х) — произвольная функция, удовлет- воряющая условиям теоремы. По функциям (г)Ч, (г) Ч, (г) Ч, (г)1/, 1 построим оператор G[w] так же, как по функциям а, Ь, с, f, г строился оператор С[ц]. Положим /Vx = sup sup ra (/, x). аея (t, x)GQ Заметим, что, каково бы ни было множество чисел /а, 1) если О^С sup /а, то sup la^N} sup (га(/, х)) 1 sup /а; 2) если sup Iй ^0, то sup /а^ Aj sup (7а (/, х)) 1 /а NJ5 1 sup /а. аеА аЕД аед
268 УРАВНЕНИЕ БЕЛЛМАНА [ГЛ IV Отсюда вытекает, что (G [ы])+ < A\ (G [Ы])+^ (G [«])+( (G [«])_ < АГХ (G [«])_ < АГ#1 (G [«])_. Эти неравенства вместес утверждениями теоремы, спра- ведливыми для оператора Сий = 0, немедленно доказывают теорему для G и /г==0. Для того чтобы доказать теорему для произвольного ftG^rf+1(Q), достаточно заметить, что G [u] + h очевидным образом записывается как G[u], если G[u] построить по функциям а, Ь, с, /4-й и г так же, как G[u] строится по at b, с, f и г. Теорема доказана. § 6. Приближение вырождающихся управляемых процессов невырождающимися Пусть (wz, — (<Д + ^-мерный винеровский процесс, е — число, сг8 (а, /, х) — матрица размера d х (<Д + d), у кото- рой первые столбцов совпадают с соответствующими столбцами матрицы о (а, /, %), а блок последних d столбцов дает е/, где / — единичная матрица размера dxd. Обозна- чим через Й множество всех процессов a = az(w), прогрес- сивно измеримых относительно и принимающих зна- чения из А. Для s е [О, Т], x<=Ed определим про- цесс x}'s,x (е) как решение уравнения t t xt = х + °е (ar> + xr) dwr-\- j b (ar, ;> + r, xr)dr (1) о о и положим + $(xr 5(f))e-^-s<e) Vf, (s, x) = sup Ug (s, X). a e Й
§ 6] ПРИБЛИЖЕНИЕ ВЫРОЖДАЮЩИХСЯ ПРОЦЕССОВ 269 При s е [0, 7] обозначим еще $)l(T — s) множество всех марковских относительно {#}} моментов т, не превосхо- дящих Т — s, v? '(S, х) = М“ х + xt(e))e-^{E}di + _0 + g(s + T, x~(e))e Фт~<8> we (s, x) = sup sup v“’1 (s, x). ae Й t e ШЦГ — s) Процессы x?’s* x (e) при e Ф 0 являются невырождающи- мися в следующем смысле. Пусть ае (а, /, х) = = ое (а, /, х) Ое (а, /, х). Очевидно, что а8(а, /, х) = а(а, /, х) + е2/ е2/. (2) Поэтому для любого X е Ed (ае(а, /, х)Х, Х)^^е2|Х|2. Из равенства ае = а-]-^ е2! сразу вытекают следующие полезные для будущего соотношения: d Lae U (/, X) = + 2 *) Х) + I, / = 1 d 4- Ь' (а, /, x)uxi(t, x)—ca(tt x)u(t, х)— i = i = Law (/, х)4-2 е2ДЫ (/, х), (3) Fg[iz] = sup \l%u(t, x)+/“(/, x)] = /?[zz] + 5-е2Ды. ae A 2 В том случае, когда t cz o7'z при всех /, множество стратегий cz Й. Если, к тому же, первые dx координат процесса wz образуют процесс wz, то при а е в силу единственности решения уравнения (1) х^’s* Х^х^*s» х (0). Поэ-
270 УРАВНЕНИЕ БЕЛЛМАНА (ГЛ IV тому мы можем сказать, что управляемый певырождающийся процесс х;у-s- '(е) при е->0 приближает (вообще говоря, вырождающийся) процесс х** s> *. 1. Теорема. При г ->0 1’8 (/, х) -> V (t, х), we (t, х) -> w (t, х) равномерно на всяком цилиндре Ст, r- Доказательство. По следствию II 1.1.13 уе(/, х)—>v0(/, х), ^8(/, х)->^0(/ х) (4) при е->0 равномерно на всяком цилиндре CTtR. Очевидно, при 8=-0 процесс х*’s’* (е) определяется как решение урав- нения t ~ t xz = x+Ja(ar, s4-r, xr) dw't + $ b (ar, s + r, xr)drt о о где W/ —вектор, составленный из первых dx компонент век- тора W/. Это уравнение совпадает с уравнением для х?’s’ *, только в нем винеровский процесс (возможно) другой и стра- тегии разрешается выбирать измеримыми относительно довольно широких о-алгебр. Однако, как мы знаем из заме- чаний III.З.Юи III.4.10, замена вероятностного пространства и одного di-мерного винеровского процесса другим также di-мерным винеровским (относительно, может быть, очень широких о-алгебр) процессом не оказывает влияния на функции выигрыша. Стало быть, = w0 = w, что вместе с (4) доказывает теорему. В ряде случаев, например, при численном нахождении функций выигрыша важно знать, сколь велика разность ire(s, x)-v(s, X) |. 2. Теорема. Пусть при всех s е [0, Т], аеЛ, R > 0, х, у SR |са (s, x)-c“(s, у) 1 + 7“ (s> x)-fa(s, у)\ + + \g(x)-g(y)\ + \g(s, x)-g(s, y)i^K(l +R)mlx-y[. Тогда существует постоянная N = N (К, m) такая, что при всех (s, х) е НТ, е е [ — 1, 1] I ve (s, х) — v (s, х) j+| we (s, x)-u>(s, x)
§ П УРАВНЕНИЕ БЕЛЛМАНА 271 Доказательство. Его можно провести с помощью ди.|)ференцирования уравнения (1) по параметру е. Однако мы предпочтем формальное использвание теоремы 1.1. Присо- t t единим к уравнению (1) уравнение ez = e+ $0dwr+ в (1) заменим е на гг и будем на &t смотреть как на послед- нюю компоненту управляемого процесса (х?’ s* (х’ 8)> ga,s, (х.е)) Заметим, что при s е [О, Т], х, у е Ed, еь е2 е е А ||а81(а, s, х)-а82(а, s, у) ||2 = |] а (а, s, х)-а(а, s, y)f + + (ei - е2)2 К21 х —у |2 + (£1 - е2)2 ^(К2+ 1) I (х, ej -(у, е2) |2. Иначе говоря, функция а8 (а, s, х) удовлетворяет усло- вию Липшица по (х, е) равномерно по a, s. Следовательно, управляемый процесс (х*«s*e),eaz’ s> укладывается в схему, рассматриваемую в настоящей главе. Теорема 1.1 дает тогда оценку градиента функций ve(s, х), we (s, х) по переменным (х, е). В частности, обобщенные производные ve, we по е при е2 + I х |2 R2 не превосхо- дят М (1 -\-R)2meN{T~s\ Как указывалось в § II. 1, из огра- ниченности обобщенной производной вытекает оценка по- стоянной Липшица. Поэтому при е2 + |^|2^/?2 |ye(s, x)-a0(s, х) | +1 we (s, x)-oyo(s, x)|^ ^\e\N (l+R)2meN<T-*\ где N = N(K, m). Остается при | e| 1 взять /?2 = х2+ 1. Теорема доказана. § 7, Уравнение Беллмана Уравнение Беллмана играет важную роль при отыска- нии функций выигрыша и 8-оптимальных стратегий. Ока- зывается, что если процессы х^- s> х невырождены, то урав- нение Беллмана может быть получено с помощью предполо- жения о существовании обобщенных производных функций выигрыша. Мы начнем с доказательства двух результатов подобного рода, а затем выведем уравнение Беллмана, накла- дывая ограничения только на о, Ь, с, /, g. Эш ограниче- ния на a, Ь, с, f, g сформулированы после теоремы 2.
272 УРАВНЕНИЕ ВЕЛЛМАНА [ГЛ IV Разумеется, как и всюду в главе, мы считаем выполнен- ными предположения § III. 1. 1. Теорема. Пусть ограниченная область Q<zzHT, w g 2 (Q) и для всякой области Q', лежащей в Q вместе со своим замыканием, существует число 6 = 6 (Q') > 0 такое, что при всех (/, х) еQ', а е А, Хе Ed (а (а, /, х) X, X) 6 | X |2. Тогда F [оу] 0 (и. в. Q), F [оу] = 0 (п. в. Q Q {(/, х): w(t, x)>g\t, х)}), w^g в области Q. Короче говоря, (F[oy] + oy-g)+ + g- w = 0 (n. в. Q). Доказательство. Для РеЛ_ введем постоянную стратегию Р/ = Р. Пусть область Q' е Q' cz Q, точка (s, х) е е Q' и т' —момент первого выхода процесса (s + /, х^5**) из области Q'. По теореме II 1.1.11 при любом Х^О w (s, х) Ms₽, х (J [/р (S +1, xt) + ш (s +t, x,)] dt + 0 + w(s4-t', xT')e_4>x'_XTJ. По формуле Ито (теорема 11.10.1) w (s, x) = = М£,Д[Хи> (s + /,xz)-№(s + /, х^е-^-н dt + lo 4-u)(s + t', xx>) e~ Следовательно, вычитая эти две формулы, получаем 0 Ss Ms₽ х j (s +1, xt) + Р (s + /, xz)] е~ ~ Kl dt. о Умножая последнее неравенство на X и полагая Х->оо, по теореме II.4.6 находим L^w + 0 (п. в. Q'). Стало быть, F[^pc0(n. в. Q). С другой стороны, пусть е>0 и область Q' <= Q fl {(s, х): ay(s, x)>g(s, х) + е}.
§ 7] УРАВНЕНИЕ БЕЛЛМАНА 273 0= sup |м“ X ae9f I Тогда по принципу Беллмана (по теореме II 1.1.11) Л Г1 ($ + ^ е~ ф/ dt + -О + ^(s + t', хТ') е~(₽т' j — w (s, х)|, где т' — момент первого выхода процесса (s + / , х“-s*х) из области Q'. По формуле Ито w (s, х) = М" х [— La'w (s +1, xz)] e~ dt + д + W (s + t', Xt') г“Фт'} . Отсюда вытекает, что 0 = sup M“ x\ [Lttt w (s + t, X/) + fn< (s + /, x,)J e~4>idt^ a 31 о sup M? Д F [ay] (s-f-/, xt)e~4>tdt. (1) a e 3( о Здесь F[ay]^0 (п. в. Q), поэтому правая часть (1) равна нулю и в силу следствия 11.4.8 получаем F [оу] = 0 (п. в. Q'). Ввиду произвольности Q' это означает, что /7[^] = 0 (п. в. QA {($, х)- ^(s, x)>g(s, х) + е}) при любом е>0. Объединение таких областей по всем 8}>0 есть область QO{(s, х): ay(s, x)>g(s, х)}. Стало быть, и в последней почти всюду F[ay] = 0. Наконец, неравенство wx^g очевидно (см., впрочем, теорему III. 1.8), а доказательство последнего утверждения вполне может быть предоставлено читателю в качестве про- стого упражнения. Теорема доказана. 2. Теорема. Пусть ограниченная область Q cz НГ, v W]'2 (Q) и для всякой области Q', лежащей в Q вместе со своим замыканием, существует число 6 = 6 (Q') > 0 такое, что при всех (s, x)^Q', (я (а, /, х)Х, Х)^6р2. Тогда F [и] = 0 (п. в. Q). Доказательство этой теоремы проводится в точности так же, как и доказательство теоремы 1, нужно только
274 УРАВНЕНИЕ БЕЛЛМАНА [ГЛ IV вместо теоремы II 1.1.11 в соответствующем месте исполь- зовать теорему III. 1.6. Сформулируем условия, которые в дополнение к пред- положениям § III. 1 будут предполагаться выполненными всюду ниже в этом параграфе. Введем вектор уа (/, х) раз- мерности dx^ + d + 4 координатами которого являются следующие величины: oif‘ (а, /, х) (i = 1,..., d\ j = 1, ..., dj, bl (а, /, х) (i = l, ..., d), ca(t,x), fa(t, x), g(x), g(t, x). Пусть для всяких аеЛ, l^Ed производные (/, х), V“) (/) х) существуют и непрерывны по (/, х) на Ит. Предположим, что упомянутые производные (они векторы) по норме не превосходят К (1 +1 х \)т при всех схеЛ, I е Ed, (/, х}(=Нт> Удобно также считать, что при всех а е Л, x^Ed \^(Т. x)g(x)\ + \Lag(T, х)|^Л(1+|х|)3- Отметим, что связь этого предположения с преды- дущим обсуждается в § 4. При этих предположениях будет доказано, что функции v и w удовлетворяют своим урав- нениям Беллмана в области Q* = {(/, х)^Нт: sup (а (а, /, х) X, X) > 0 для всех Х^О}. а е А Покажем прежде всего, что множество Q* действительно является областью. Положим па (/, х) = (1 + tr а (а, /, х) +1 b (а, /, х) | + са (/, х) + +im х) к р. = р(/, х)= inf sup na(t, х)(а(а, t, х) к, %). 1 Л, | = 1 а £ 3. Лемма. Функция р,(/, х) непрерывна в [0, T\xEd, справедливо равенство Q* = {(/, х)(=Нт\ р,(/, х)>0}, множество Q* открыто, функция рл1 (/, х) локально огра- ничена на Q*. Доказательство. Третье и четвертое утверждения вытекают из первых двух утверждений и хорошо известных свойств непрерывных функций. Далее, производные по (/, х) функций я (а, /, х), b(a, t, х), са (/, х) и /а (/, х) ограничены на любом множестве вида
УРАВНЕНИЕ БЕЛЛМХНА 275 § Л А х [0, Т]х{х: \x\^R\. Следовательно, эти функции непрерывны по (/, х) равномерно относительно а. По ана- логичной причине функция (а (а, /, х) X, X) непрерывна по (/, х) равномерно по аеЛ, X Отсюда получаем, что функция na(t, х)(а(а, t, х) X, X) непрерывна по (/, х) рав- номерно по яеЛ, Заметим еще, что модуль раз- ности нижних (верхних) граней не превосходит верхней грани модулей разностей. Значит, если (tn, хл)->(/0, *о), то | Н (би %п) И (^о> I < sup I sup па (tn, хп) (a (a, tn, хп) X, X) — |Х| = 1 аеЛ — sup па (/0, х0) (а (а, *о) ае А sup sup | па (tn, хп) (а (а, tn, хп) X, X) — |Х| = 1 аеЛ - па (t0, х0) (а (а, /0, х0) А, X) | —► О по определению равномерной непрерывности. Для доказательства второго утверждения воспользуемся тем, что в силу неравенства ца(/, х)^с1 при ! X| = 1 имеем: sup (а (а, /, х) X, Х)^р(/, х). Поэтому, если (/, х)^Нт а е А и р(/, х)>0, то (/, x)geQ*. Если же р,(/, х)=0, то име- ется последовательность kn^dSlt для которой sup па(/, х) (а (а, /, х) Х„, Хл)->0. аен А Следовательно, («(а, /, х)Х„, Х/г)-^0 при всех а^А. Не ограничивая общности, можно считать, что последователь- ность {ХД имеет предел. Обозначим его через Хо. Тогда (я (а, /, х) Хо, Хо) = 0 при всех а^А. Значит, (/, x)^Q*. Этим доказано второе утверждение, а с ним доказана и лемма. 4. Теорема. В Нт (в области Q*) функции v(t, х), w (/, х) имеют все первые (соответственно вторые) обобщен- ные производные по х и первую обобщенную производную по t. Эти производные локально ограничены в НТ (соответ- ственно в Q*). Существует постоянная N = N(KR т) такая, что при u = v и при u = w для любого I е Ed u\ + \grad.u'^N (1+'x')3meN^T-^(n. в. НТ), (2) — А" (1 + : х и,-, (Л А/(1 + х {Т ~ 1': (п. в. Q*). (3)
276 УРАВНЕНИЕ БЕЛЛМАНА [ГЛ IV Доказательство. В некотором роде эта теорема является сводкой результатов, полученных в § 1 —4. Суще- ствование немедленно следует из теорем 1.1, 4.3. Из них же получаем оценки этих производных. Из существования и вытекает, что меры и (dtdx) и и) (dt dx) абсолютно непрерывны относительно меры Лебега и их производные Радона — Никодима равны соот- ветственно ~~ и и . По теореме 3.56) и замечанию 3.6 все вторые обобщенные производные по х функций v (t, х), х) существуют в Q*. Далее, как показано в доказательстве теоремы 3.5, функция |i(/), участвующая в утверждении а) этой теоремы, больше [х. Следовательно, по теореме 3.5 и замечанию 3.6 Ф W(Z) (Z) Н ! 1 +1 dt и I + I grad-v« । +!« I +1] (п. В. Q*), где ф =— NeN (1 -|-1 х | )3т — правая часть неравенства (2.14). Для завершения доказательства неравенства (3) остается воспользоваться неравенством (2) и вспомнить (см. § HI. 1), что | и | N (1 +1 х | )meN (T~t}. Теорема доказана. 5. Теорема. F[y] = 0(n. в. Q*), (п. в. Q*), F [пу] = 0 (п. в. Q* P{(s, х): w(s, x)>g(st х)}), w (s, х)^ ^g(s, х) в области Q*. Утверждение относительно w можно записать короче: (F[w] + &y-g)+-£-ay = 0 (п. e.Q*). Доказательство. По следствию 1.7 F[oy]<:O(n. в. Q*). Докажем, что F[^] = 0 почти всюду в любой ограниченной области Q', лежащей вместе со своим замыканием в Q* А {(/, х): w(t, x)>g(t, x)}. Очевидно, этого достаточно для доказательства утвер- ждений теоремы относительно w. Воспользуемся приближе- нием вырождающихся процессов невырождающимися из § 6. Возьмем матрицу ое (a, s, х), процесс xrx’s’v(e) и функцию
§ 7] УРАВНЕНИЕ БЕЛЛМАНА 277 &ye(s, х) из этого параграфа. Как указывается в § 6, матрица аг (а, /, х) = о8(ос, t, x)ol (а, /, х) равна a (a, t, х)-)-^ и удовлетворяет неравенству (6.2): (ае (a, t, х) К X) | ег । X j2. (4) Поэтому при 8=^=0 можество Q*, соответствующее матрице ае, совпадает с Нт. Отсюда по теореме 4 следует существование первых и вторых обобщенных производных tc’e по х, первой обобщенной производной по t и их локаль- ная ограниченность в Нт. По теореме 1 в силу (4) при 8 Ф О функция wz удовлетворяет уравнению (см. (6.3)) F[^e] + -ф 82Д^е = 0 почти всюду в области {(/, х)(=Нт: we(t, x)>g(t. х)}. При всех достаточно малых 8 эти области содержат Q'. Действительно, так как Q' cz {(s, х) ^Нт\w(s, x)>g(s, х)}, то на Q' непрерывная функция w (s, х) —g(s, х)>0. Поскольку же множество Q' — компакт, то существует чис- ло 6 >> О такое, что w (s, x) — g(s, х)^6 при (s, x)^Q'. По теореме 6.1 функции &ye(s, х)—g(s, x)->^(s, х) —g(s, х) при 8 —> 0 равномерно на Q'. Значит, при всех достаточно малых 8 на Q' (даже на Q') выполнено неравенство we(s, x)-g(s, X)=Sy. Отсюда заключаем, что при всех достаточно малых е — 4 (п- в- <?')• (5) Перейдем в неравенстве (5) к пределу с помощью тео- ремы 5.16). Предварительно придется оценить Ддое, ^8- Заметим, что при I 8 j 1 матрица ое (а, /, х) удовлетво- ряет тем же условиям, что и о (а, /, х), только с другой постоянной К. В самом деле, дубль-нормы их производных по t и х, очевидно, совпадают, а he (a, t, x)|j2 = ||о(а, t, x),2 + e2^(№+l)(l+|xi)2. Поэтому, применяя при 8 1, 8 Ок функции we теорему 4, найдем постоянную N, зависящую только от К
278 УРАВНЕНИЕ ВЕЛЛМАНА [ГЛ IV и т, для которой К(О (1 +тг-) N (1 +1* |)3тел ,Т - о (п. в. Нг) (6) при всех / е Еа, где цЕ (t, х) = inf sup n“ (t, x) (aE (a, t, x) X, X), X ,=1 аеЛ n“ (^> x) = (1 + ir ae («> Л x) + \b (a, t, x) | + + c“(f, X) + \fa (t, x)|)-\ Далее, очевидно, (ae(a, t, x)X, X)^(u(a, t, x)k, X), а так как 82 traE(a, /, x) = tra(a, /, x) + j (a, /, x) + s2d, TO nE(t, x) Sa ] na (t, x). Поэтому и из (6) заключаем K(z> (Z) l^[l 4“(1 +*2ф| N (1 + |x|)3m^ <г~'’ (П. в. Q*). L H J В силу леммы 3 последнее выражение на Q' ограничено некоторой постоянной. Таким образом, существует постоян- ная N такая, что для всяких е^[— 1, 1], е=^0 неравен- ство I Доу8 | W выполнено почти всюду на Q'. Из теоремы 4 д I вытекает также равномерная ограниченность we при ее[-1, 1]. Возьмем теперь последовательность w i . Из проведен- п них рассуждений и (5) получаем F[uzi] Sa inf F[w i] — N (п. в. Q'), n>l lim F[uz i]S= — 4 lim ^-Au>iSaO (п. в. Q')- n 2 n Первое из этих неравенств позволяет утверждать, что функция inf F[u»i ] е (Q') (она ограничена на Q'). и 1 п Второе вместе с теоремой 5.16) дает lim ] 0 (п. в. Q').
УРАВНЕНИЕ БЕЛЛМАНА 279 § Л Вспоминая, что (п. в. Q*), получаем: F[&r] = 0 (и. в. Q')- Теорема для функции w доказана. Остается доказать, что F[u] = 0 (п. в. Q*). Рассмотрим функции ve(s, х), введенные в § 6. В силу неравенства (4) и теоремы 4 при е Ф 0 существуют и локально ограничены в Нт обобщенные производные -d-ve(t, х), ие xt (/, х), Л-'(^ %)- По теореме 2 при е^О F[ve] + 2-е2Дуе = ° (п- в- »т). Фиксируем некоторую ограниченную область Q' с Q' cz czQ*. На Q' в точности так же, как и выше, с помощью теоремы 4 оцениваются производные ve. Из этих оценок по теореме 5.1 б) заключаем F [у] lim F [щ ] = lim (— ь--2 Дщ ) 0 (п. в. Q'). П—>ОО п Г 1^-00 ' П п Поскольку же, с другой стороны, F[^] cO (п. в. Q*), то F [у] = 0 (п. в. Q'), и ввиду произвола в выборе Q' F[y] = 0 (п. в. Q*). Теорема доказана. 6. Замечание. Неравенство (6) вместе с оценкой це, приведенной в предыдущем доказательстве, показывает, что при всех е^[—1, 1], 8=^=0, l^Ed Лг I (/) (/) I (1 + е2Ф N (1 +1 х |)3" (п. в. Q*), (7) 1 ~г И где W = Af(/(, т). Собственно говоря, из (6) следует, что это неравенство справедливо почти всюду в Нт. Однако вне Q* функция р, = 0. По теореме 4 неравенство (7) имеет место и при 8 = 0. Совершенно аналогично при всех ее е[- 1, 1], l^Ed гАг I v* (Z) (z) |^(1+ гМ) Л?(1 +: х )3т eN (п. в. Q*), I 1-1 где N = N(Ky /72). В гом случае, когда при всех (/, х)^ Нт и sup (а (а, /, х) л, Л) > 0, (8) аеД
280 УРАВНЕНИЕ БЕЛЛМАНА [ГЛ IV множество Q* совпадает с Нг и непрерывная функция li(s, х) >0 в каждой точке [0, Т] х Ed. Поэтому функция р-1 ограничена на каждом цилиндре CT,R и проведенные рассуждения показывают, что производные we (Z) (П и (/) (/) ограничены (п. в.) в каждом таком цилиндре постоянной, не зависящей от 8. То же самое следует сказать и о сме- шанных производных we (/1) (/2) и ve (/,) (/2), которые, как мы знаем, легко выражаются через щ+м (/t+/2), ПУе Щ-/2) Щ-/2), (/1+/2) (/1+/2) И L’e (Z1_Z2) Следующая теорема немедленно вытекает из теорем 4, 5, результатов § II 1.1 о непрерывности v и оу, об оценках । v j и | пу | и из сделанных только что замечаний о свойствах р,, если выполнено условие (8). Напомним, что предположе- ния § 111.1 и предположения о гладкости о, b. с. f. g(x) и *), сформулированные перед леммой 3, считаются выполненными. 7. Теорема. Пусть при всех (/, х)^Нт и Х=^0 имеет место неравенство (8) (m. е, Fr (2/V, /, х)>0). Тогда функции v(t. х) и w(t, х) непрерывны в Пт, имеют в Нт все первые и вторые обобщенные производные по х и первую обобщенную производную по t. Эти производные ограничены в каждом цилиндре С7>R. Существует постоян- ная N = N (К, т) такая. что при всех (t. х)^ НТ \v(t. х) | АЦ1 +: х'J™ (7-/), | w (/, х) | N (1 +1 х уп eN Наконец. a) F[v] = 0 (п. в. Н7). v(T. x)=g(x); б) F [пу] ^ 0 (п. в. Н7). w(t. x)^g(t. х) при (/, х) е ^Нт. F[^] = 0 почти всюду на множестве {(/, х)^.НТ: w(t. *)>g(t. х)}, w(T. x) = g(T. х). Из этой теоремы вытекает, в частности, что производ- д д ные -^v. vxi, wxi. vxixj и wxixj суммируемы по любому цилиндру Cr,R в любой степени. Отсюда с помощью теорем о вложении (см. лемму 3.3 гл. II [40]) получаем 8. Следствие. В предположениях теоремы 7 gradv^'(/, х) и gradv&'(/, х) непрерывны в НТ. Более то- го. для любых /?>0, X ее (0, 1) найдется постоянная N такая, что при (л , , ад , .х2 /. ее [0, Т]
§ 7] УРАВНЕНИЕ БГЛЛМ\Н,\ 281 выполнены неравенства -gradxUi(t, хх) — grad.vщ (t, х2) xr~x2\\ i = l, 2; x l gracL tit (/n x) —gradvH/(/2, xj сЛ tr — /2I2, £=1,2, где ux = v, u2 = w. Далее, поскольку неотрицательная функция w(t, х)— — £(Л *) непрерывно дифференцируема по х, то в тех точках /7Г, где она обращается в нуль, ее производные по х также обращаются в нуль. Отсюда имеем 9. Следствие. Условие гладкой склейки gradxw(t, x) = grad.vg(/, х) в предположениях теоремы 7 выполняется всюду на мно- жестве {(/, х)^НТ: w(t, x)=g(t, х)} и, в частности, на его границе. 10. Замечание. Утверждения теорем 5и7 останутся в силе, если в формулировке условий на уа после теоремы 2 не требовать непрерывности y*Z), (Z) и ~уа, под этими производными понимать обобщенные производные, а от усло- вия \La(T, x)g(x)\ + \L«g(T, х)1<Л(1+И)3'п отказаться совсем. Поясним это. Достаточно на самом деле показать, что останется справедливой теорема 4, если в ее формули- ровке /(, т заменить другими постоянными. Сгладим координаты уа (/, х), считая уа (/, х) = уа(0, х) при /^0, и по вектору уа (/, х, 8) = [уа (7, х)](е) построим функции выигрыша v(t, х, е) и w (t, х, ь). При 0 < е < 1 вектор (/, х, в) удовлетворяет всем условиям, сформулированным после теоремы 2, с постоян- ными К' и /и', не зависящими от 8, поскольку, например, (/, х, e) = [y*Z)(/, х)](е). Поэтому для функций v (t, х, 8) и w(t, х, е) справедлива теорема 4, в которой, конечно, К, /и, ц и Q* заменяются на соответствующие объекты /С, /и', (/, х, 8) и Q* (е), построенные по уа (/, х, 8). Далее, в каждом цилиндре Ct,r вектор уа (/, х) удов- летворяет условию Липшица по (/, х) с постоянной, не зависящей от а, так как оценки обобщенных производ-
282 УРАВНЕНИЕ БЕЛЛМАНА [ГЛ IV ных y(aZ) и уа не зависят от а. Отсюда легко вытекает, что уа (/, х, е)->уа(/, х) при е-> 0 равномерно на А хСт, r для любого R. В частности, р (/, х, е)->р(/, х), а по теореме III.1.12 и следствию III.1.13 также v(t, х, е)-> х) и w(t. х, (/, х) при е->0 равномерно на всяком цилиндре Ct,r- Сходимость функций выигрыша и равномерная по ее (0, 1) оценка из теоремы 4 их пер- вых обобщенных производных по (/, х) позволяет, как сказано в § 11.1, получить существование и оценку первых обобщенных производных v(t, х) и w (/, х) по (/, х). Так же получаются и оценки v(Z) (z) (/, х) и (z) (/, х), если воспользоваться тем, что из-за равномерности сходимости р (/, х, ь) к р (/, х) в каждой ограниченной области Q', лежащей вместе с замыканием в Q*, начиная с некоторого момента, все р (/, х, е)Э Ц(/, х) >0.
Г Л X В А V ПОСТРОЕНИЕ е-ОПТИМАЛЬНЫХ СТРАТЕГИЙ С точки зрения практических приложений основной целью изучения того или иного управляемого процесса является построение оптимальных стратегий или стратегий, близких к оптимальным. В этой главе мы показываем, каким образом можно найти е-оптимальные стратегии в задачах оптимального управления, рассмотренных в гл.III и IV. Напомним, что в гл. III доказано, что е-оптималь- ные стратегии можно всегда найти в классе естественных стратегий. Основное внимание в настоящей главе уделяется построению марковских (см. определение III. 1.3) е-опти- мальных стратегий. Интерес к построению марковских е- оптимальных стратегий объясняется тем, что марковские стратегии наиболее просто устроены. Присоединенные марковские стратегии, которые также изучаются в этой главе, устроены несколько сложнее и это делает их менее привлекательными по сравнению с марковскими стратегиями с практической точки зрения (см. определение 3.17). Однако с теоретической точки зрения присоединенные марковские стратегии в некоторых отношениях удобнее марковских стратегий. Так, в § 3 с помощью рассмотрения присоединенных марковских стратегий доказывается, что решение уравнения Беллмана является функцией выи- грыша. В рассуждениях этой главы большую роль будут играть результаты предыдущей главы о том, что функция выигрыша удовлетворяет уравнению Беллмана. На протяжении всей главы приняты предположения, определения и обозначения из § III. 1.
284 ПОСТРОЕНИЕ е-ОПТИМЛЛЬНЫХ СТРАТЕГИЙ [ГЛ V § 1. Нахождение е-оптимальных марковских стратегий с помощью уравнения Беллмана В §§ 1.1, 1.4 и 1.5 показано, каким образом, зная функцию выигрыша, можно построить Е-оптимальные стратегии. В этом и в следующем параграфах мы проведем подобное построение в трех случаях: а) когда для всякого R > 0 существует число 6# > О такое, что при всех а е Л, (/, х) е Ed выпол- нено неравенство (а (а, /, х)Х, X) 6я' \ |2; б) когда при всех t [О, Т], x^Ed, Z+=0 sup (л (а, /, х) Л, X) > 0; аеЛ в) когда а (а, /, х) не зависит от х. В случае а) в этом параграфе будет дан способ нахожде- ния е-оптимальных марковских стратегий, в случаях б) и в) в следующем параграфе доказывается существование е-оптимальных марковских стратегий и строятся рандоми- зированные е-оптимальные марковские стратегии. В случай в) вкладывается управление полностью детерминированным процессом, когда о (а, /, х) = 0. Кроме предположений из § III. 1 в этом параграфе накладываются также следующие условия. Пусть Л — выпуклое множество в_некотором евклидовом пространстве, при каждых (/, х)еНт функции о (а, /, х) и b (а, /, х) удовлетворяют условию Липшица по а, а именно, пусть при всех а, 0 е Л, (/, х) <=НТ || о (а, /, х) — а(0, /, х) || + I b (а, /, х) — Ь(0, /, х) | < ==£/(|а-Р|. Введем еще вектор уа (/, х) размерности dx ^i + ^ + 4, координатами которого являются следующие величины: ст'' (a, t, х) (i = \, ... , d, j = 1, ..., dj), b‘ (a, t, x) (i = = 1, • • •, d), ca (t, x), fa (/, x), g (x), g (t, x). Предполагается, что для всяких аеЛ, произ- водные (/, х), у®, (Z) (t, х), fa (t, х) существуют и непре- рывны по (/, х) на Нт. Пусть также при всех ае/1,
§ п 8-ОПТИМАЛЬНОСТЬ марковских стратегии 285 / е Ed, (/, х)^Нт |^Та(Л х) | + I т“ (/, х) | + |Т“ (/) (t, X)! < К (1 +1X |)«. Наконец, предположим для удобства, что при всех а е А, х<= Ed w x)i^K(i+ixi)3-. Как показано в § IV.4, от последнего условия всегда можно избавиться с помощью выбора других постоянных К и m в остальных предположениях. Эти предположения считаются выполненными на протя- жении всего параграфа. 1. Лемма. Пусть ограниченная область Qc=HT и некоторая функция и^ W}'2(Q). Для функции а = а(/, х) со значениями в А положим ha (/, x) = F [и] (/, х) - [La (/, х) и (/, х) + /а <' (/, х)]. Утверждается, что для всякого 8>0 можно найти бесконечно дифференцируемую по (/, х) функцию а(/, х), заданную на ( — сю, co')xEd, со значениями в А и постоян- ную N такие, что II Л“ L!, 0 < е, sup sup I а(/) (t, х) I < оо, '• г 1еЕа Ца(а(/, х), t, х) — о(а(1, у), t, z/)|| + + | b (a (t, x), /, x) — b (a (/, y), t, y)\^N\x — y для всех x, у Ed, t^Q. Доказательство. Фиксируем 8>0. Поступим так же, как при доказательстве леммы 1.4.9. Выберем счетное всюду плотное в А подмножество {a(i): Из равен- ства F [и] = sup [La ^и + /а (Z)] = lim max [La ^и + fa ^)] i n^><x> i^n и ограниченности Q легко вытекает существование измери- мой функции а (/, х), принимающей только конечное число значений из {а (/)}, такой, что + • Будем счи- тать, что а(/, х) определена всюду в Ed + 1 и равна а(1) вне Q. Возьмем сглаживающие ядра ^ + 1£(п/, пх) и обоз- начим an(t, х) nd + lL(nt, nx)*a(t, х).
286 ПОСТРОЕНИЕ е-ОПТИМАЛЬНЫХ СТРАТЕГИИ [ГЛ. V Как уже неоднократно говорилось, ап (/, х) бесконечно дифференцируемы, ап->а (п в.). Кроме того, в силу выпуклости A an(t, х) е А при всех (/, х). Далее, из непрерывности fa и коэффициентов La по а вытекает, что (п. в. Q). Ввиду ограниченности fa и коэффициентов La на Q существует постоянная 2V, для которой при всех а е Л всюду на Q F[u]\ + \Lau + fa\^ , d a \ N \ 157 и I + 2 I “7V|+ S IUxi! +1 “ । + 1 )• \ i, /= 1 1=1 / Поэтому в совокупности функции ha* ограничены одной функцией из ^rf + 1(Q). По теореме Лебега + q. Следовательно, существует номер п(е) такой, что И (8) L +1, Q 1 IL +1, Q + у е- Положим теперь а (/, х)=ал(8)(/, х) и докажем, что функция а(/, х) является искомой. Заключим область Q в некоторый цилиндр Ct,r- Функция £(/, х) равна нулю при |х| > 1. Вне Q, а значит, и вне CTtR a = a(l). Из этих свойств функций £ и а нетрудно вывести, что ап (tt х) = = a (1) при | х | > R + 1 для всех п. В частности, a (t, х) — = a (1) при | х | > R + 1. По аналогичной причине a (/, х) =» = а(1) при /<—1 и при />?+!• Отсюда ввиду непре- рывной дифференцируемости a (/, х) следует, что = sup sup | au) (/, x) I < oo. t, x Покажем, наконец, что при всех х, y^Ed, ||a(a(Z, х), t, x)-a(a(t, у), t, y)||^K(l +A\) Имеем ||a(a(Z, x), t, x) —a(a(/, y), t, y) || sg || ст (a (t, x), t, x)— — ст(а(/, y), t, x)|| + K |x — y\^K\a(t, x)—a(t, y),+ + K\x-y\^KNi\x-y\ + K\x — y\. Аналогичным образом оценивается соответствующая разность для ф\ п<ции Ь. Лемма доказана.
§ 1] «-ОПТИМАЛЬНОСТЬ МАРКОВСКИХ СТРАТЕГИЙ 287 Отметим, что функция а (/, х), существование которой утверждается в лемме, зависит от набора Q, и, е. В том случае, когда Q— подобласть Нт, u^W]t2(Q), е>0, набор Q, и, е, мы будем кратко обозначать через р: p = (Q, и, е). Функцию а(/, х), построенную по набору р, удобно обо- значать а [р] (/, х). Для фиксированного s0 е [О, Т] и функции а[р](/, х) можно определить марковскую страте- гию а [р] по формуле а/ [р] (-Чо. /]) = а [р] («о +1, xt). (1) Поскольку функции а (а [р] ($0 + /, х), s0 + ^, *)» 6 (а [₽] (So + Л х), so + ^, х) удовлетворяют условию Лип- шица по х, то марковская стратегия а [р] допустима в точке (s0, х) при любом х е Ed. 2. Теорема. Пусть для всякого /?>0 существует число такое, что при всех аеД, (/, x)^Ct,r, Ed (а (сс, /, х)Х, 7,)^8r\X\2. Тогда vw — v на НТ. Более того, фиксируем s0 е [0, Т], положим р = (СТ'Х, v, е) и определим марковскую страте- гию а[р] по формуле (1). Тогда при всех x^Ed lim limua^(s0, x) = a(s0, x). R -> oo 8 | 0 Доказательство. Прежде всего заметим, что так как ^afpl(s0, х) v(M} (s0, x)^y(s0, х), то первое утверждение вытекает из второго. Из теоремы IV.7.7 получаем, что v е W71’2 (Сг>7?) при всех R. Стало быть, стратегия а[р] определена. Кроме того, F[v] = 0 (п. в. НТ). Следовательно, по определению функции a [р] (<, х) || ||d + I. Cf _ я 8, где hP(l, х) = —*)(tt x)v(t, X)- /“[₽!<'. x).
288 ПОСТРОЕНИЕ 8-ОПТИМАЛЬНЬЕХ СТРАТЕГИЙ [ГЛ. V По формуле Ито v(s0, х)==М“^[ $ (s0 + t, xt)e~<f'dt + О 4-f(so + T7.,/?, хтл/?)е”Фтл^ + Тт, R + М“.,Р2 $ hp(s0-\-t, xje-^dt, (2) О где Tr.R = inf {/=s0: (s0 + /, xz)^[0, T)xSR\. По теореме II.2.4 последнее математическое ожидание по абсолютной величине не превосходит N\\hP\\d + ].cT,R^Ne, где W не зависит от е. Поэтому оно стремится к нулю при е | 0. Далее, ввиду равенства v (7\ x)=g(x) первое выраже- ние в правой части (2) равно Т — So х)-М“5Р’| 5 fa'(s0 + t, xt)e~^dt + Тт, R + g(xr-so)e~’s’T~so ът, /?<r-s0] + + M“/Piu(so4- хХт Xr,R g<r-s,. Для того чтобы доказать теорему, теперь достаточно показать, что два последних слагаемых стремятся к нулю при R-+oq равномерно по е. В силу оценок роста при |х|->оо функций /а(/, х), g(x), ц(/, х) для этого, в свою очередь, достаточно установить, что lim sup M?O[PJ <1 + sup x, , (T-s0+l)XT/ < r_s = R-*coe>0 k /Sr-s. J -n 0 = 0- (3) Заметим, что на множестве s°’ х < Т — soj выпол- нено неравенство sup |Х«1₽Ь \ ‘ 1 — $0 /
§ 1] е-ОПТИМАЛЬНОСТЬ марковских стратегий 289 Поэтому sup jx, !',mXT7. < T — s < \ t^T - So J ' к 0 < pi? SUP м“». 41 + sup 1 xt 1 V” + ' 1 Ct e '?! \ / - T - S'o / и (3) вытекает теперь из оценок моментов решений стоха- стических уравнений. Теорема доказана. 3. Теорема. Пусть выполняется предположение пре- дыдущей теоремы. Тогда w{M} = w на НТ. Более того, фиксируем s0 е [О, Т], положим p = (CTyRt w, е), опреде- лим марковскую стратегию а [р] по формуле (1) и обозна- чим через то s°' х момент первого выхода процесса (s044 х?М’ s” х) из Qo = {(/, w(t, y)>g(t, y)}. Тогда при всех x e Ed lim limva<₽K T"(so. 4 — w(so, x). R -* oo l 1 0 Доказательство. Это доказательство имеет много общего с предыдущим. По теореме IV.7.7 F[оу] = 0 (п.в. Qo). Следовательно, по определению а [р] (/, х) ll^b + h <?оПСГ> где hp(t, х) = —Z4p]«. *)(/, X)w^t х)_;а[Р](/, х)(/( ху По формуле Ито Г^Т ,R j С1 (so + it xt)e dt-\- b r , Tr. « + M?0^ J hP (s0 44 xde-^dt, о (4) где Tr.s = inf (s0 4-/, X,) Qo n ([0, T)xSR)}*). *) Верхние индексы a [p], s0, x опущены 1десь и ниже в дока- зательстве. Ю Н. В Крылов -
290 ПОСТРОЕНИЕ е-ОПТИМАЛЬНЫХ СТРАТЕГИИ [ГЛ V По теореме 11.2.4 последнее слагаемое не превосходит н.СоПСг r и стремится к нулю при 8 | 0. Первое слагаемое в (4) равно иа[₽]> т» (SO) х)-М“.[₽2 | f*‘(s0 + t, xt)e~^dt + R +g(s«+-t., X„)e + Присутствующие здесь математические ожидания стремятся к нулю при R -> оо равномерно по 8. Этот факт доказы- вается так же, как ему соответствующий из предыдущего доказательства, поскольку Тг,/?^т0^Т-50 и на множе- стве {тг,/?<т0} выполнено неравенство < Т — s0. Из проведенного анализа формулы (4) вытекают утвер- ждения теоремы. Теорема доказана. § 2. Нахождение 8-оптимальных марковских стратегий с помощью уравнения Веллмана при наличии вырождения Теоремы 1.2 и 1.3 дают способ нахождения 8-опти- мальных марковских стратегий, если выполнено сильное условие невырожденности: (а (а, /, х) %, X) | X |2 при всех кеЛ, (/, x)(=Ct,r, k(=Ed, /?>0, где (^>>0. Если от этого условия отказаться, то мы уже не знаем, как построить 8-оптимальные «чистые» марковские стратегии. В некоторых случаях, рассматриваемых в этом параграфе, тем не менее удается построить 8-оптимальные «смешанные» марковские стратегии без упомянутого предположения о невырожденности. В этих же случаях доказывается суще- ствование (обычных) 8-оптимальных марковских стратегий. Всюду в этом параграфе считаются выполненными пред- положения предыдущего параграфа, в частности, считается, что А — выпуклое множество в некотором евклидовом про- странстве. Через (s0, х0) обозначается фиксированная точка Нт. Кроме основного ^-мерного винеровского процесса (wz, t) понадобятся также d-мерный винеровский процесс (wz, и (d + dj-мерный винеровский процесс (w6 qF,). Будем предполагать, что эти процессы определяются на
§ 2J 8-ОПТИМАЛЬНЫЕ стратегии при вырождении 291 вероятностных пространствах (Q, , Р), (Q, , Р), (Q, Р) соответственно (допускается, чтобы эти пространства сов- падали). Последние d координат вектора wz образуют d-мер- ный винеровский процесс, который будет обозначаться w/, ^-мерный винеровский процесс, составленный из первых координат W/, обозначается w'. Напомним, что тройку Q, и и в, где Q — ограниченная подобласть Нт, 2 (Q) и е>0, в предыдущем пара- графе мы условились обозначать одной буквой р. Как и в § 1, через а[р](/, х) обозначается некоторая гладкая функция на Ed + 1 со значениями в А такая, что ее пер- вые производные по х ограничены, функции а (а [р] (/, х), t, х), b (а [р] (/, х), /, х) удовлетворяют условию Липшица по х равномерно по t и Существование функции а[р] с перечисленными свой- ствами устанавливается в лемме 1.1. Если p = (Q, w, е), zt — (неслучайная) непрерывная функ- ция, заданная на [О, Г — s0] и принимающая значения из Ed, то мы определим марковскую стратегию a[p, z] по формулам Мр, z](x[0, <]) = a[p](s0-H, Xt + ezt), t^T-s0, ajp, z](xro, fl) = a[p](s0 + /, xz + ezr-So), t>T-s0. Рассмотрим уравнение t t xt = xo + \ar(xr)dwr + \br(xr)dr, (2) о 0 где or (x) = ст (a [p] (s0 + r, x + ezr), s0 + r, x), br (x) = b (a [p] (s0 + r, x + ezr), s0 + r, x). В точности так же, как это сделано в доказательстве леммы 1.1, показывается, что коэффициенты уравнения (2) удовлетворяют условию Липшица по х с постоянной К(1+А\), где А\ взята из доказательства леммы 1.1. Следовательно, уравнение (2) имеет решение и марковская стратегия a[p,z] допустима в точке (s0, х0). Решение уравнения (2) в соответствии с обозначениями из § II 1.1 ю*
292 ПОСТРОЕНИЕ 8-ОПТИМАЛЬНЫХ СТРАТЕГИИ [ГЛ. V записывается как х^р> So- х°. Поскольку же s0, х0 фикси- рованы, то мы будем применять более короткое обозначе- ние Х*^’ Очевидно, t/a^’wJ(s0, хо)<а($о, *о) всюду на Несколько ниже (см. следствие 2) будет доказано, что уа[р, w] х0)— случайная величина. Поэтому для любых наборов p = (Q, и, в) Mv«[p. w] (s0> Хо) < V (s0, х0), (3) где М — символ математического ожидания, отвечающего мере Р. Математическое ожидание в (3) можно интерпретировать как доход, получаемый с помощью смешанной (взвешен- ной, рандомизированной) марковской стратегии. Поясним это, не приводя четкого определения смешанной стратегии. Представим себе, что на множестве (s0, х0) задана веро- ятностная мера и сначала в соответствии с этой мерой разыгрывается марковская стратегия а, а затем произво- дится управление процессом с помощью стратегии а. В процессе управления средний доход будет равен va (s0, х0). Интеграл этой величины по вероятностной мере на 21 (s0, х0) выразит общий средний доход от такого способа управ- ления. В том случае, когда вероятностное распределение на 21ai(s0, х0) задается с помощью случайного элемента a[jp, w], общий средний доход равен левой части (3). С точки зрения практических приложений способ управ- ления процессом с помощью случайной марковской стра- тегии имеет не меньшее право на существование, чем способ управления с помощью (неслучайной, чистой) мар- ковской стратегии. Для дальнейшего весьма существенно, что левая часть (3) может быть выражена с помощью другой формулы. Па вероятностном пространстве (й, р) рассмотрим сле- дующее уравнение: t ~ t ~ xt = x0 + \or(xr) dv/'r+\br(xr)dr, (4) О о где З7 (х) = ст (a [р] (s0 + г, x + ew;), s0 + r, х), Ъг (х) = b (а [р] (s0 + г, x + ew;), s0 + r, х).
§ 2] t-ОПТИМАЛЬНЫЕ СТРАТЕГИИ ПРИ ВЫРОЖДЕНИИ 298 Уравнение (4) имеет и притом единственное решение. Действительно, аг (0) и Ьг (0) ограничены, так как а (а, /, 0) и Ь (а, /, 0) ограничены равномерно по (а, /). Кроме того, функции аг(х), Ьг(х) удовлетворяют условию Липшица по х с постоянной K(l+iVx), где А\ взята из доказа- тельства леммы 1.1. Наконец, процессы ог(х) и Ьг(х) прогрессивно измеримы относительно {eFz}. Введем удобное обозначение для решения уравнения (4). Если X/ —решение (4), то положим Р/ [р] ” а [р] (s0 +1, xt + ew,). Процесс p является стратегией относительно системы о-алгебр {eTj в смысле определения II 1.1.1. Очевидно, что xt удовлетворяет уравнению t ~ t ^“Xo + jffCPrtp], So + Г, Xr) dw’r + \b (pr [p], s0 + r, xr) dr. о о Используя стандартные обозначения, этот факт можно выразить следующим образом: xt — xf[p],So,Xo. Он позво- ляет при записи математических ожиданий функционалов от решения (4) применять обычные сокращения обозначе- ний, писать индексы р [р], s0, х0 только у знака матема- тического ожидания и обычным образом ввести (s0, х0), * (s0> х0). Кроме того, поскольку s0, х0 фиксированы, то мы будем писать хр^1 вместо хр[рЬ So> х°. Интуитивно понятная формула, с помощью которой мы придадим другой вид левой части (3), содержится в следующей лемме. 1. Лемма. Пусть F (г, Х[огт-5о]) — ^меримая функ- ция, заданная на С2 ([0, Т — s0], Ed) и такая, что \F (z, х[0, T-So]) + sup !xz|\n (5) \ t^T-s0 j для некоторых постоянных N, п и при всех z, Х[о, т—So] gC([0, Т — s0], Ed). Пусть ограниченная область Q cz сНТ, функция u^W^2(Q). число е>0. По набору p = (Q, и, е) с помощью леммы 1.1 построим функцию а[р](/, х). По формуле (1) введем марковские стратегии а[Р, *] для z &С ([0, Т — s0], Ed) и определим стратегию
294 ПОСТРОЕНИЕ 8-ОПТИМАЛЬНЫХ СТРАТЕГИИ [ГЛ. V ₽[р] по формуле р/ [р] = а [р] (s0 + /, X/+ewJ), где xt — решение уравнения (4). Тогда функция Ф(г) = МЙв^(г, х[0, r-so]) ограничена и измерима по z при zsC([0, T — Sq], Ed), м Ф (w) = MS₽O!PJOF (w", x[0, T-So]), (6) где IVI (M) — символ математического ожидания, отвечаю- щего мере Р(Р). Доказательство. Ограниченность Ф(г) вытекает из (5) и того, что в силу известных оценок моментов реше- ний стохастических уравнений sup Ms“, sup I xt\n < oo. a e t < T — s0 При доказательстве (6) и измеримости Ф (z) мы будем использовать результаты § II.9. Заметим, что возможен подход к решению уравнения (4), отличный от изложен- ного выше. Обозначим через пополнение по мере Р наимень- шей о-алгебры, содержащей «Л, и все множества вида {w/еГ}, где г^Т- $0 и Г — борелевское подмножество Ed. Обратим внимание читателя на то, что г пробегает весь отрезок [О, Т — s0]. Легко видеть, что процессы az(x), bt(x) из уравне- ния (4) прогрессивно измеримы относительно новых a-алгебр, a (w/, — ^-мерный винеровский процесс. Заметим, кстати, что при переходе от (w6 к (w/, решение уравнения (4) не изменится на [О, Т — $0]. Этот очевидный факт следует, например, из единственности решения уравнения (4) и того, что прежнее решение х< прогрессивно измеримо относительно а ввиду вклю- чения //cz/j (/е [О, Т — s0]) прогрессивно измеримо и относительно Применим далее теорему II.9.4 в случае, когда Z = C([0, Г —s0], Ed), £ = wfo, t-sq], £ = *0
§ 2] е-ОПТИМАЛЬНЫЕ СТРАТЕГИИ ПРИ ВЫРОЖДЕНИИ 295 и при z е Z (x) = a(a[p](s0 + Z, x + ezz), $0 + /, х), b*t (x) = b (a[p](s0 + /, x + ezi), s0 + t, x). В этих обозначениях решение уравнения (4) будет решением уравнения t ~ t xt — £ + J aj (xr) dw'r + J b г (xr) dr. о о По теореме II.9.4 (см. также замечание II.9.9) {F(w", x[0. t_So]) I /о} = Ф (w")> где <t>(z) = l&F(z, 'xfolpr^, x“[₽'21 — решение уравнения (2), в котором wr заменено на Wr. По следствию II.9.3 Ф(г) = Ф(з). Поэтому F (w", Хю, т - Soj) = ЙФ<w") = МФ (w). Формула (6) доказана. Измеримость Ф, а стало быть, и Ф легко вывести из замечания II.9.5, представляя F в виде F+ — F_. Лемма доказана. 2. Следствие. Пусть для а = а[р, z] или а = 0 [р] т = та — момент первого выхода процесса (s0 + /, х?) из неко- торой области Qi cz (— 1, T)xEd. Тогда функция va 2Ь т (s0, х0) измерима, ограничена по г на С ([О, Т — s0], Ed) и Mv<x[p. w], Г (s0) x0) = v₽[p], r (sOt x0). Кроме того, функция (s0, x0) измерима, ограни- чена no z на C ([0, T — Sq], Ed) и Мд“Ь>, «] (So, x0) = t>₽lP I (s0, x0). (7) Действительно, второе утверждение является частным случаем первого (Qi = (—1, Т)хЕа, g(i, x)=g(x)). Для доказательства первого введем функцию т (г) при ze ееС([0, Т~ s0], Ed) как момент первого выхода кривой (Ч + Л 2д из Поскольку (Д cz (— 1, T)xEd, tot(z)^ — s0. Легко доказать, что lim т (гп) т (г). Стало гп^2 быть, функция т(г) полунепрерывна снизу и измерима по г.
296 ПОСТРОЕНИЕ е-ОПТИМЛЛЬНЫХ СТРАТЕГИЙ [ГЛ V Далее, рассмотрим функцию Л (г, Х|0. T-s,j), Z, х[0. r-s,]), где о + jZa[₽](So+^/+^(So + /> Х/)х О $Са[₽'Л + '' V+“r)(So + r> Xr) dr~\dt. О Хехр Последняя функция, очевидно, непрерывна на [О, Т — s0]x xC2([0, T — Sq]9 Ed). Поэтому F(z, xf0, t-soj) измерима как суперпозиция измеримых функций. Применение леммы к этой функции немедленно приводит к первому утверж- дению следствия. 3. Замечание. Выше обсуждался способ управле- ния процессом с помощью начальной рандомизации мар- ковской гратегии. Этот способ давал средний доход, равный левой части (7). В связи с формулой (7) появ- ляется еще дна возможность получить тот же самый доход. Представим себе, что мы реализовали ^’-мерный винеровский процесс w( так, чтобы он был доступен наблю- дению и не зависел от wz. Пара (w6 wz) образует (d1 ф- ^-мер- ный винеровский процесс, а пара (лф’s°’*°, zz), где ?/==* = удовлетворяет уравнению i t = %о + j 0 tar, чф-r, xr) awr ф- \b (ar, 50ф-г, xr)dr, о о = 0 + j 1 d wt. p Мы получили 2^-мерный управляемый процесс. Для неги функция а=а[р](50-|-/, xt-\-szt) является марков- ской стратегией (слова о наблюдаемости w, были сказаны потому, что траектории управляемого процесса трактуются
§ 2] е-ОПТИМАЛЬНЫЕ стратегии при вырождении 297 как наблюдаемые объекты). Если процесс (wz, wz) принять за wz, то, как нетрудно видеть, а s0. х0, О Т\ ° Л (So 44 ^e-^dt + g(xT^So)e-^-^ = ^fp](S0, Xq). Таким образом, левая часть (7) может быть получена не только с помощью смешивания марковских стратегий, но также и в результате воздействия на исходный управ- ляемый процесс стратегии, являющейся марковской отно- сительно несколько расширенного управляемого процесса. Подобного рода стратегии в следующем параграфе назы- ваются присоединенными марковскими. 4. Лемма. Возьмем функции v& из § IV.6 и при е^О обозначим p = (CT Ri vs, е1). По набору р с помощью леммы 1.1 построим функцию а[р](/, х). По формуле (1) введем марковские стратегии а[р, г] при геС([0, Т—s0], Ed) и на вероятностном пространстве (й, <гГ, р) определим стратегию Р [р] по формуле pz [р] = а [р] (s044 xz + ew/), где xt — решение уравнения (4). Наконец, предположим, что Jim lim ll£^s₽o.[pi Ь? (xr-so + ewr-Jx е-> 0 R->oo е1 . О I X ехр |p1(s0-'r г, x, + ew’)t/r T-s. x;-|-ew/)x о Хехр — И[₽](*о+/-, хг 4- ew;) dr Тогда и(Л1) (s0, хо) = а($о, *o)- Более того, lim lim lim *1 (S(b x0) = v (s0, x0) e-* 0 7?-*oo e1 I 0 (8) (9) и для любого 6>0 lim lim lim P W1 (s0, r0) < v (s0, r0) — 6^=0. (10) 8—0 Я —oo 8» i о I J М
298 ПОСТРОЕНИЕ е-ОПТИМЛЛЬНЫХ СТРАТЕГИИ [ГЛ V Доказательство. Из (10) следует, что (s0, х0) = = v(s0, х0). В свою очередь, (10) вытекает из (9), так как по неравенству Чебышева вероятность из (10) не пре- восходит у М[о (So, Хо) - Va (р- (So, Хо)]. Таким образом, нужно доказать только (9). Прежде всего заметим, что при 8=^=0 невырожденность процессов х*’St х (е) (см. § IV.6, неравенство (IV.6.2)) по теореме IV.7.7 гарантирует существование обобщенных производных д vexlxJf dtvz и их ограниченность в каждом цилиндре Ct,r. Отсюда, в частности, следует, что функция а [р] (/, х) опре- делена. Возьмем произвольную стратегию 0 = 0/, прогрессивно измеримую относительно и рассмотрим выражение (T-So и (е) == М < 5 (so+^, xt 4- ewf) X I о X exp — ($o + g Хг + гУ^г) dr dt + о J + g (xr-So + ewr_So) exp г-So 0 где xt — решение следующего уравнения (с коэффициен- тами, не зависящими от е): t t = + $ tf(0r, s0 + г, xr) dw'r + $ b (pr, s0 + r, xr)dr. 0 0 Дифференцируя и (e) по e, внося символ производной под знак математического ожидания и интеграла, пользуясь тем, что производные /, с и g растут по х не быстрее не- которой степени, и применяя известные оценки моментов решений стохастических уравнений, заключаем, что сущест- вует постоянная V (х0, /(, Т, т), для которой \и' (&) (х0, /<, Г, т) при | 8 I 1. Поэтому п (0) — п (е) < ^V(x0, /<, Г, tn) 8 при si <1. Важно, что здесь по- стоянная N не зависит от стратегии 0.
$ 2] е-ОПТИМАЛЬНЫЕ СТРАТЕГИИ ПРИ ВЫРОЖДЕНИИ 299 В силу этого результата всюду в (8) выражение х^ф-ей/ можно заменить на X/. Но после такого преобразования левой части (8) по следствию 2 она совпадет с левой частью (9). Стало быть, последняя не меньше u(s0, х0). Поскольку же va (s0, х0) v (s0, х0) для любой стратегии а е 3(, то левая часть (9), с другой стороны, не больше v (s0, х0). Тем самым лемма доказана. Теперь мы можем доказать основной результат этого параграфа. 5. Теорема. Пусть выполнено хотя бы одно из сле- дующих трех условий'. а) а (а, /, х) и b (а, /, х) не зависят от х; б) а (а, t, х) не зависит от х; в) при всех t е [О, Т], Х(= Ed, X =/= О sup (а (а, х) X, X) > 0. а е А Тогда в обозначениях предыдущей леммы выполнено неравенство (8) и справедливы все утверждения этой леммы. Доказательство. Разумеется, если выполнено усло- вие а), то выполнено и условие б). Мы включили условие а) в формулировку из методических соображений. Доказа- тельство теоремы при выполнении этого условия оказы- вается совсем простым. Действительно, если выполнено условие а), то (см. урав- нение (4)) процесс xj3 ф-ew'z является решением уравнения t Xt = ХО + 5 а (а [р] (s0 4- г, Xr), s0 4- г, xr) dv/'r + ewf 4- о t 4- \Ь (а [р] (s0 4- г, xr), s0 4- г, xr) dr. о Если ввести матрицу ае так же, как в § IV.6, то по- следнему уравнению легко придать вид уравнения (IV.6.1). Стало быть, xM₽]4-8w" = х“ [рЬ s<" (е) при всех t почти наверное. Далее, из определения а[р] = а[Слд, ve, е1] и формул (IV.6.3) имеем Fe [и] - 4- Г] = F [«] - [Lau 4- Г1. Ие [уе] - Ив [/',у‘ 1₽Ч II* + >. Ст.« е1- 0
300 ПОСТРОЕНИЕ 8-ОПТИМАЛЬНЫХ СТРАТЕГИЙ [ГЛ V Отсюда, фиксируя и применяя теорему 1.2 к управ- ляемому процессу %^’s’x(e), получаем, что выражение, стоящее в (8) под знаком нижнего предела по 8, равно с’е (s0, х0). По теореме IV.6.1 v8-+v; следовательно, нера- венство (8) доказано, и вместе с ним доказаны все утверж- дения леммы 4 в случае а). Если условие а) не выполнено, то, вообще говоря, ра- венство х°(е) Уже не справедливо, и мы не можем применить теорему 1.2 для доказательства (8). В случаях б) и в), рассматриваемых одновременно, фор- мула (8) будет доказываться примерно так же, как тео- рема 1.2. Всюду ниже считается, что 8^0, I е I 1. Нетрудно видеть, что процесс у» ss хр + £$'(' удовлетворяет урав- нению t l/i = -v0 + $ ое (а [р] (s0 + г, ур), s0 + г, tfr - ew'') dwr -J- О t + $&(a[p](s0 + r, у?), s0 + г, yp-ewr'}dr. о В силу теоремы IV.7.7 Fe[ve] = 0 (и. в. Нт). Отсюда и из (11) вытекает, что || hp ||d 4-1, cTt R 81, где /гр = ——Поскольку матрица aea* равно- мерно невырождена, то к выражению ve(s0 + ^ yt}ехр jjc^[p,(s0 + r, tfi)dr о применима формула Ито. Применяя эту формулу, для лю- бого получаем М«о. (12) где с помощью обозначений — jj Alpl (s0+ г, У?) dr, о - момент первого выхода процесса (s0 Ц- /, yty из
$ 2J е-ОПТИМАЛЬНЫЕ СТРАТЕГИИ ПРИ ВЫРОЖДЕНИИ 301 [0, T)xSri, величины /?(/?') записываются следующим образом’ № Р /?(/?') = М \ ^[p](so + /, y?)e~v‘dt + v b р /?(£') = IV! }j hp(s0 + t, у1}е~^ dt, о /?(/?’) = М Р(a[pl(s0 +t, у?), S„ + /, у?)- о -&(a[p](s0 + /, y't), su + t, z/?-ew7)]x x grad v v£ (s0 4-1, yri) e~ dt, T/?‘ d Zf(/?‘) = M J 2 [«"’ (“[p]k<) + У?\ so44 y?)~ b i, i = i -a'/(a[p](s04-Z) y?), s0 + t, ift — ew/)|x Ч/ЛШ У^е~^ dt. Как и в доказательстве теоремы 1.2, показывается, что lim/2(^9 = 0, если е* | О lim sup sup sup |/fОЛ<f^-s« + 8 < 1 R > 0 81 > 0 D I + 5 /₽'(₽1и + /, d/}| = 0. (13) 0 Займемся величиной По теореме IV.1.1 при | е | 1 нетрудно получить, что | gracing (/, х) | ^N(K, Т9 m) (1 + । х |)2т (п. в. Нт\ Пусть это неравенство выполняется на множестве Ге таком, что mes (//г\Гс) = 0. Вставим в формулу для (У?1) перед dt сумму Xre(s0 + Z> */P) + ZHr\re(s0 + /, ypj
302 ПОСТРОЕНИЕ е-ОПТИМАЛЬНЫХ СТРАТЕГИИ [ГЛ. V и разобьем соответствующим образом (А?1) на два сла- гаемых. Применяя ко второму слагаемому теорему II.2.4, видим, что оно равно нулю. Первое же слагаемое, а стало быть, и /з(^') по абсолютной величине не превосходит т — So N (К, Т, /п)М |ей'|(1+Ы)2тЛ- о Следовательно, lim sup sup | /3 (A?1) | = 0. e -> 0 R > 0 e1 > 0 Если выполнено условие б), то = Если же выполнено условие в), то по замечанию IV.7.6 производ- ные v^ixj ограничены в Ст (п. в.) постоянной, не зави- сящей от е. Кроме того, для любого I е Ed 1| (а, /, %)5== 1||о(/) (а, /, х)о*(а, /, х) + + а (а, /, х) а*/) (а, /, х) j| N (d, dx) К2 (1 +1 х |). Поэтому || а (а, /, х) — а (а, /, у) || +\у\)\х-у\9 Т — So |я(/?’)!<am $ |ew;|(i+i^ +!w;i)d/, о где N не зависит от 8, А?, 81 (хотя зависит, например, от А?1). Это показывает, что как в случае б), так и в слу- чае в) lim sup sup J /f (A?1); =0. f -* R > 0 e1 > 0 Наконец, из (12) и изученных свойств /f (/?’) заклю- чаем, что при любом lim vE (s0, х0) lim lim lim M {g(ifi _ e~ -s» + e-> <) £-♦()/? —►CO £1 I 0 Г — So p 1 + 5 /P'[pl(so + ^, 0 где у (A?1) — выражение, стоящее в (13) под знаком пре- дела. Полагая здесь и замечая, что по тео- реме IV.6.1 левая часть последнего неравенства есть u(s0, х0),
§ 3J ЕДИНСТВЕННОСТЬ РЕШЕНИЯ УРАВНЕНИЯ БЕЛЛМАНА 303 получаем неравенство (8) (в слегка измененных обозначе- ниях). Теорема доказана. Аналогичную теорему для задачи об оптимальной оста- новке предлагается доказать в качестве упражнения. 6. Упражнение. Пусть выполнено одно из усло- вий а) —в) теоремы 5, p=*(CTtR, е1), t6^t“[₽,zJ’So,Xo — момент первого выхода процесса (s0-H, х?[р*2]) из = =={(/, х)еНт: w(t. x)>g(t, х)ф-б}. Доказывая аналог леммы 4, установите, что lim lim lim lim IVha w’’ (s0, x0) = ^(s0, x0) (14) б | 0 e -► 0 7? ->oo e* | 0 и для любого бх>»0 lim lim lim lim P {va Тб (s0, x0) < w (s0, x0) — 61} = 0. d|0 8 -> 0 R -> oo 811 0 Заключите, что wM = w в 7. Упражнение. Рассмотрим одномерный управляе- мый процесс: d = dx= 1, Т= 1, А = [—1, 1], о (a, s, х) = = а(х + а), где 1 при х^ 1, а(х) = ] х при хе[—1, 1], — 1 при х=С—1, (a, s, x) = ca(s, x) = /a(s, х) = 0, g(x) = х2. Покажите, что v (s, х) = х2 + 1 — s. Положим ап (х) = nTQ (пх) sgn х. Докажите, что е-оптимальные стратегии для точки (0, 0) можно найти среди марковских стратегий вида az (Х[о, /]) = = aZI(x/4-zz) при подходящем подборе п и непрерывной функции Zf. Верно ли это утверждение, если вместо ал (xt + + Zf) взять ап (х/)? § 3. Решение уравнения Беллмана и функция выигрыша. Единственность решения уравнения Беллмана Задача о нахождении функции выигрыша является одной из центральных задач в теории оптимального управ- ления. Знание функции выигрыша, как мы видели в § 1 и 2, позволяет, например, строить е-оптимальные стра-
304 ПОСТРОЕНИЕ F оптимульных СТРАТЕГИЙ [ГЛ. V тегии. В силу результатов § IV.7 функцию выигрыша естественно искать как решение уравнения Веллмана. Пред- ставим себе, что мы нашли какое-то решение этого урав- нения. Сразу возникает вопрос, совпадает ли оно с функ- цией выигрыша? Если заранее известно, что функция выигрыша удовлетворяет уравнению Веллмана, то этот вопрос эквивалентен вопросу о единственности решения уравнения Веллмана. В общем же случае положительный ответ на последний вопрос только содержит утверждение о единственности решения уравнения Веллмана. В этом параграфе показывается, что «гладкое» решение уравнения Веллмана, не слишком сильно растущее при |х|->оо, совпадает с функцией выигрыша. Будем считать, что выполнены предположения § III. 1. Заметим, что, как показывает упражнение IV.3.1, эти предположения не гарантируют существование производных функции выигрыша, а следовательно, и то, что она удов- летворяет уравнению Веллмана. Кроме того, будем считать, что на исходном вероят- ностном пространстве определен d-мерный винеровский отно- сительно о-алгебр {sTj процесс wz, не зависящий от wz. Выполнения этого предположения всегда легко добиться, рассматривая прямое произведение исходного пространства на какое-нибудь, на котором определен d-мерный винеров- ский процесс. При этом важно подчеркнуть, что расши- рение вероятностного пространства не изменяет функции выигрыша (см. замечания II 1.3.10 и II 1.4.10). Доказательство того, что решение уравнения Веллмана является функцией выигрыша, производится в два приема. Сначала доказывается, что решение не меньше функции выигрыша, затем устанавливается обратное неравенство. Попутно выясняется общий вопрос о том, каким образом некоторая функция должна быть связана с уравнением Веллмана, для того чтобы можно было утверждать, что она больше (меньше) соответствующей функции выигрыша. В наших рассмотрениях будет участвовать функция и (/, х), заданная на II т, о кото;'«ой иногда предиола! ается, что существуют постоянные N и такие, что Щ/, х)|^М(1 -’г I % |)р. (1) 1. Определение. Пусть Q— подобласть Нг. Мы пишем и & IV1O< (Q), если и е U *•'(<?') для любой ограни-
§ 3] ЕДИНСТВЕННОСТЬ РЕШЕНИЯ УРАВНЕНИЯ БЕЛЛМАНА 305 ценной области Q', лежащей в Q вместе со своим замы- канием Q'. В следующих определениях используется оператор F, определенный во введении к гл. IV. 2. Определение. Функция и называется эксцессивной (относительно оператора F) в некоторой области Q с НТ, если и^О в Q, u(=w\£(Q) П C(Q), F[u]^0 (п. в. Q). Эксцессивной функцией называется функция, эксцессивная в Н г- 3. Определение. Функция и называется супергармо- нической (относительно оператора F) в некоторой области Qcz.Hr, если и удовлетворяет неравенству (1) в области Q, ueEUZioc(Q) А С (Q), F[u]zc0 (п. в. Q). Супергармони- ческой функцией называется функция, супергармоническая в НТ. Основное для нас свойство эксцессивпых и супергармо- нических функций содержится в следующей лемме. 4. Лемма. Пусть и — супергармоническая (или эксцес- сивная) функция в области QczHp- Тогда для любых (s, х) ее Q, аей, т е (Т — s) и (s, т A XQ . 0 COs + t, xt)e~^dt + 4-iz(s + t Д tq, xrлTq)e~Фтл, (2) где uq = s-х — момент первого выхода (s + хф из Q. Доказательство. Если ($, х) лежит на границе Q, то tq = 0 и утверждение очевидно. Пусть (s, х) е Q. Положим Г={(/, x)(zQi F[u](t, х)<0}. Тогда mes(Q\r) = 0 и при всех (/, х)еГ для любых со Хг (A x)[La'u(t, x)-\-f*'(t, л')]^-Хг(Л x)F [«](/, х) ==£(). Воспользуемся, далее, теоремой II.10.2, принимая во вни- мание, что в ней область Q пре [полагается ограниченной. Мы получим, что неравенство *2» справедливо, если в нем tq заменить на момент первого выхода ($ + /, из Q П П CTR. Обозначим этот момент через tz-q. Заменим на q и запишем неравенство (2). Положим R :> . Если и --супергармонпческая функция, то 'и 1 : N (1 ; х )р и
306 ПОСТРОЕНИЕ 8 ОПТИМАЛЬНЫХ СТРАТЕГИЙ [ГЛ V выражения, стоящие под знаком математического ожидания в модифицированном неравенстве (2), оцениваются через суммируемую величину С11П Й I I va’S’X \”1 + Р sup (J -f- I Xt J t^T — s Поскольку же, очевидно, и xx^Xr то в этом случае доказательство леммы завершается при- менением теоремы Лебега. Если же и — эксцессивная функ- ция, то и^О и вместо теоремы Лебега нужно применить лемму Фату. Лемма доказана. 5^. Теорема. Пусть функция и задана и непрерывна в НТ, область Qcz.HT- Пусть и — супергармоническая (эксцессивная) функция в области Q. Тогда а) если_u(s, x)^g(s, х) в Q, u^w в ffT\Q9 то u^w в НТ\ б) если u^v в H7-\Q, и(Т, x)^g(x) в Еа, то u^v в НТ. Доказательство, а) В силу непрерывности функ- ций и и w неравенство и (s, x)^w(s, х) достаточно дока- зать при (s, х) ^Нт- Поскольку же вне Q оно выполнено по предположению, то можно считать (s, х) е Q. Возьмем еще а 81, те Э)? (Т — s) и применим лемму 4. Рассмотрим после этого соотношение “(s + tAtq- Алту)е <₽ХЛXQ = и (s + t, хх)е~^ %X<XQ + + и (s4-Tq, xXQ'je~4>XQ Xxq<x, (3) где индексы a, $, х опущены для краткости записи. Здесь при t<ctq имеем: w(s + t, xt)^£(s + t, хт)> поскольку (s-Ьь хт) Q, а неравенство u^g, верное по предположе- нию 1£а Q, ввиду непрерывности и и g остается верным и на Q. Далее, если tq<T —s, то (s + tq, и (s-|-tq, xtJ>^(s + tq, Если же tq = T — s, to ввиду непрерывности и, g и нера- венств и g на Q. w^g в И7 и и w в Н/ \Q имеели
§31 ЕДИНСТВЕННОСТЬ РЕШЕНИЯ УРАВНЕНИЯ БЕЛЛМАНА 307 u^g в Нт, ti^g в /77, //(Г, x)2>g(T, х), u(s + tq, xXQ)^g(T, xXQ) = w(T, xTq) = ^($ + tq, xXq\ Из леммы 4 и проведенного анализа формулы (3) заклю- чаем, что и (s, х) М* х т Л Tq 5 fa‘(s + t, Xl)e-^dt + _ о + g(s4-T, хх)е <₽TXT<ry + u’(s + TQ, xXQ)e Фт<? XrQ<?]. Вычисляя в этом неравенстве верхнюю грань по те е ЭЭ1 (Т — s) и сс 2(, по теореме III. 1.9 получаем: и (s, х) ^w(s, х). Утверждение а) доказано. Аналогичное приме- нением теоремы II 1.1.6 для t = tq, rz = 0 доказывается утверждение б). Теорема доказана. 6. Следствие. В том случае, когда w и v явля- ются супергармоническими функциями (см. § IV.7), функ- ция w является наименьшей супергармонической мажорантой g(s, х), а функция v является наименьшей супергармони- ческой функцией, мажорирующей g(x) при s = T. 7. Следствие. Пусть и е IT] ос (Нт) А С(НТ) и выпол- нено условие (1). Тогда, если (F[u](s, x) + u(s, x)-g(s, х)У + + g(s, x) — u(s, x)-<0 (n. в. HT), mo и (s, x) w (s, x) в HT. Действительно, поскольку положительная часть числа больше нуля, то по условию g^u (п. в Нт), а так как g и и — непрерывные функции, то g^u всюду в Нт- Далее, если бы в некоторой точке (s, х) ^Нт выполнялось неравенство F [п] (s, х)>0, то, очевидно, в этой точке F[u]-\-u — g>0, и поэтому — g)+ + g — и = F(u]> >0. Стало быть, F [//] 0 (п. в. Нт) и и — супергармони- ческая мажоранта g(s, х). Теорема 5 и следствие 7 позволяют находить оценки сверху для функций выигрыша. Для того чтобы доказать теорему об оценках снизу, нам понадобятся три вспомога- тельных результата.
308 ПОСТРОЕНИЕ е ОПТИМАЛЬНЫХ СТРАТЕГИИ [ГЛ. V 8. Лемма. Пусть (s0, xQ)^Hr, a(s, х) — борелевская функция на НТ со значениями в А, число 6>0. Положим оп (s, х, z) = ndL(nz) *о(х (s, z), s, x), (s, = fj2 (s, z, z), bn(s, x, z) = nd£(nz) *b (x (s, z), s, x), Ms, (s, Z, z) и определим стратегию an-6 no формуле an,b^=a(SQ-\-t, Z^(a))f где z^ (cd) — решение уравнения t a t Zt = X» + J °n (s0 + r, zr) dwr + 6w, + $ bn (s0 + r, zr) dr. (4) о 0 Тогда при всех 1 sup sup M sup lz"’6l2^<oo, (5) 6e[0,i]/7>i 1 । lim lim M sup IzJ1-6 —х^п’6-So-x«|27 = 0. (6) 6 l 0 n -► oo t T — So Доказательство. Как нетрудно видеть, функции Я + ~ °"fS- х’ г)> n + ~x^bn^S' Х' дифференцируемы по z и их производные не превосходят Nn, где N не зависит от n, s, х, z. Кроме того, эти функции удовлетворяют условию Липшица по х, так как, например, используя простое неравенство ||on(s, х, z) !| С sup о (a, s, х)||^ К (1 + |Xj), а находим ,s’ х<- z)-i+V!”-(s’х-- ^1* + ton(s, %!, г)-<1„(5, х2, z)||sS sg 2/( ; — Х2 ; Ц- К .Г1 — Х2 I = 3 А" ; Xj — х21.
§ 3] ЕДИНСТВЕННОСТЬ РЕШЕНИЯ УРАВНЕНИЯ ВЕЛЛМАНА 309 Отсюда следует, что коэффициенты уравнения (4) удов- летворяют условию Липшица и оно имеет решение. Из неравенства ||<М5» 2) II sup 1| ст„ (s, г, У ==йsup']ст (a, s, +|г|) а и аналогичного неравенства для । bn (tt z) | в силу изве- стных оценок моментов решений стохастических уравнений вытекает (5). Далее, процесс xfn,Q* х° является решением следующего уравнения: t t + a (a”’6, s0 + r, xr}dwr + s0 + r, x^dr. b b Сравнивая это уравнение с уравнением (4), по теореме II.5.9 получаем М sup I-??6 — x/an,d’So’Xol2<7 sup |l6wJ2‘7 + t < Т - so 1 1 t < T - so T — So 4-AWI j Цст„ (s0 + /, z",e) —ст(«"•«, s0 + /, z^{,')fodt + 0 T — So + A7M |^n(s0 + C г?’6) —b (оф-6, s0-H, zp*d) |2<? d/, о где N зависит только от q, К, T — s0. Остается показать, что два последних слагаемых стремятся к нулю при п->оо. Фиксируем 6>0 и рассмотрим только последнее слагаемое. Пусть т"—момент первого выхода процесса гр-6 из S#. Имеем М Д” :^(s0 + /, г?'б)-Ца?’в, s0H4 ~so) s=T(27<)2’M-zt„ _ J+ sup |г«-в|р^ XR < ' " s0 k t < T - s0 1 1 J 7Д2ЛТ7 тфя M ' 1 + <up |z?’6 | )2?+1 ° при К равномерно по п. Значит, доказательство
310 ПОСТРОЕНИЕ e-ОПТИМАЛЬНЫХ СТРАТЕГИЙ [ГЛ V леммы можно будет закончить, если мы докажем, что при каждом R > 0 J | MSo + Z’ 27'в)“ О — fe(a(s0 + ^, z"’6)» s0 + ^ г"’б) |2<? d/->0 при п->сю. Заметим, что процесс 6 является решением уравнения t ~ / Z/ = xo + $CTn(so + r, zr)dwr+$ Mso + '', zr)dr, О о где матрица оп получается из оп приписыванием справа к последней единичной матрицы размера dxd, умножен- ной на 6, wr = (wr, wr). Нетрудно видеть, что при любом X I ст*% '2 = (ст „о;%, 1) = (<т„стД, X) + 6Х2 = I стД I2 + 6V 5s 6Г. Значит, по теореме 11.2.4 /я, || Ьп (/, z) - b (a (t, г), t, z) )|2’ (d + „ с?. r, (7) где W не зависит от п. Наконец, равномерно по п огра- ниченные в Ct,r функции -6(a(/, z), t, z) +| g ( b (a(t, z — T J \ \ n l»l<i | bn (t, z) — b(a (t, z), t, z) | sg < b (оф, z — Ту), t, z^(y)dy- 1 _n+|z|21i y),z~-^y}^^dy- — b(a(t, z), t, z) Следовательно, по известным свойствам сверток (см. § 11.1) они стремятся к нулю при п -> оо для всякого t при почти всех z. Стало быть, по теореме Лебега правая часть (7) стремится к нулю при п->оо. Лемма доказана. Повторяя рассуждения из доказательства теоремы III.1.12, следующие за формулой (III.1.14), из этой леммы получаем такой факт (см. также следствие II 1.1.13).
§ 3] ЕДИНСТВЕННОСТЬ РЕШЕНИЯ УРАВНЕНИЯ ВЕЛЛМАНА 311 9. Лемма. Проделаем построение из формулировки леммы 8 и возьмем произвольные марковские моменты тп,д да (j — s0). Тогда lim lim 6 | 0 п -*со Хехр 6) dr dt\ — vat1'6 (s0, x0) = 0. 10. Лемма. Пусть ограниченная область Q cz НТ, функция и удовлетворяет неравенству (1) в НТ, и W1'2 (Q) [}С F[u]^0 (п. в. Q), число е>0. Возь- мем борелевскую функцию a(s, х), заданную на Нт и при- нимающую значения из Л, такую, что La{s>x)u(s, х)+ /a(s’х) (s, х)^ —8 (д. в. Q). (8) Фиксируем (s0, х0) eQ и определим стратегии ап* 6 с по- мощью леммы 8. Тогда и (s0, х0) "С lim lim Ms“"А, d J, 0 n — co Tn, 6, хтП,6)е ^п'б + u ($0 + т ’ u п 6 -I- j /“" (s0 + /, xt)e~'(‘dt 0 + e — So),
312 ПОСТРОЕНИЕ g-ОПТИМАЛЬНЫХ СТРАТЕГИИ [ГЛ V где хп>6 — произвольный марковский момент, не превосхо- дящий момента первого выхода процесса (s() + /, zf1*6) из области Q. Доказательство. Заметим прежде всего, что так же, как и в доказательстве лемм 1.4.9 и IV.5.5, можно установить существование функции a (s, х) такой, что при всех (s, х) еЕ Q левая часть (8) больше Fp/](s, х) — е. Поскольку (п. в. Q), то эта функция а удовлет- воряет неравенству (8). Применяя формулу Ито, легко находим
§ 3] ЕДИНСТВЕННОСТЬ РЕШЕНИЯ УРАВНЕНИЯ БГЛЛМЛНА 313 Отсюда и из (8) ввиду неравенства г’1» ° 7'— 50 получаем u(S0, A'0)^MJu (% + тп’6, хехр -rrt • А г ап' 6 $ с r (su+ г, z'lr'6) dr X г,п. 6 ‘ (su-H, ^*)х хехр г ап’ 6 \с r (sa + r,z"-6) О dr ЛИ? (Т — s0) +/п’6. Перейдем здесь к пределу при и->сю, 6|0. Полагая в лемме 9 g(s, x) = u(s, х), заключаем, что для доказа- тельства настоящей леммы достаточно показать, что lim lim In> 6 = 0. 6 1 0 п —► co Поскольку процесс z”' 6 не вырождается и det [а„(/, г) + у62 (6'/)] \bn(t, z)^N-l для некоторой постоянной N и всех (/, г) ее Q, О1, то по теореме 11.2.2 (ср. доказательство теоремы II. 10.2) J й2 2 ТП, 6 М j Ли (s0 + /, zj1-б) х и хехр тп, 6 <^-d2e7M j |A«(s0-H, 1___ / <2d \ "H 62eX— Af||u,bl. у j 11 11 где N не зависит от /г, 6. Следовательно, оцениваемое сла- гаемое, входящее в 1п>\ стремится к нулю при п-^оо^
314 ПОСТРОЕНИЕ е-ОПТИМАЛЬНЫХ СТРАТЕГИИ [ГЛ. V 6^0. Далее, по теореме 11.2.2 тп • 6 М j exp u d x 2 [a" (“(S« + /’ 2"'6)’ So + Z> г?'б)~ I, / = 1 2d ~an(so + ^> z7’6)]“x'x/(so + ^ Z?’s)dz 6 d + ' A^x d X 2 ||[а‘'(а(/, г), t, z)-a%: (t, z)]uxixj(t, «)Jd + li(?, (9) i, i = 1 где N не зависит от n, б. В доказательстве леммы 8 (см. рассуждения, следующие за формулой (7)) показано, что bn(t, z)-^b(a(t, z), /, z) (п. в. Нт). Вполне аналогично ол(/, z)->o(a(/, z), /, z), а значит, an(t, z)—^ a{a(t, z), /, z) (п. в. Нт). Поскольку же функции an(ti z) в сово- купности ограничены на Q, а производные uxixJ е ^ + 1(Q), то в силу теоремы Лебега правая часть (9) стремится к нулю при п—>оэ для любого б. В точности так же оценивается входящее в/"• 6 слагаемое, содержащее Ь{ — Ь*п, Лемма доказана. Следующая теорема позволяет находить оценки снизу для функций выигрыша. _ 11. Теорема. Пусть u^W\qc(Ht)[\C(Ht), и удов- летворяет неравенству (1) в НТ. Тогда а) если (F[u] + u — — и^О (п. _в. Нт)9 u(T,x)^w(T, х) при всех x^Edl mo и в Нт\ б) если (F [и\ + и — у)_ + v — и 0 (п. в^ Нт), и (Т, х) ^v(T9 х) при всех x^E(h mou^ve Нт. Доказательство. Утверждение б) вытекает из а). Действительно, возьмем на mi ноьение g(s, x) = v(s, х). Тогда в силу теоремы II 1.1.6 w ~ v и неравенство u^w из утверждения а) означает, что и v. Докажем а). Для любого е>0 (и - 8) +Г - = Л1// -н / ’ 4- 8СХ Lau 4- fa. Значит, F [и — в] F [п] Кроме icio, заметим, что при любых действительных а функция —/ убывает по /.
$ 31 ЕДИНСТВЕННОСТЬ РЕШЕНИЯ УРАВНЕНИЯ БЕЛЛМАНА 316 Эти рассуждения показывают, что (F [и — е] + (Ц — е) — w)+ + w — (и — е) ^{F[u] + u — w)+ + w — u^0 (п. в. Нт). Очевидно, и (Т, х) —8<оу(7', х). Значит, функция и —е удовлетворяет условиям а), причем при s = T она строго меньше w. Если утверждение а) доказано для таких функ- ций, то u — e^w, откуда при е 10 заключаем, что и w. Таким образом, можно предположить, что и (Т, х) < w (Т, х) при всех х е Ed. Отметим еще, что ввиду непрерывности и и w неравенство u^w достаточно доказать в Ит. Положим Q' = {($, х) е Нт\ и ($, х) > w (s, х)}. Мы хотим доказать, что область Q' есть пустое множество. Предположим противное, возьмем (s0, x0)(=Q', число /?>|х0| И обозначим Q = Q' Q Ст, r A {(s, х)^Нт: В силу неравенства и (Т, х)<оу(Т, х) имеем: поэтому U7l,2(Q). На области Q выражение оу —и от- рицательно, следовательно, из неравенства (F [и] + и — оу)+ + + w — и 0 вытекает, что (F [и] + и — оу)+ > 0. Стало быть, почти всюду на Q 0 (F [и] + и — оу)+ + оу — u = F [и] + и — w + w — и = F [и]. Теперь мы можем применить предыдущую лемму и для фиксированного 8 > 0 получить и (s0, Хо) lim lim 6 j 0 n. —► oo w (So 4- Tn-6, Xxn, 6) e Ч>тП’6 + тП’6 an‘b + $ (SO + /, x^e-^dt (J + e (T — s0) + + lim lim М“Дв I и (s +xn-6, x n, 6)- -w (s^ + t^6, xTn.a)|, (10) где xn- 6 — момент первого выхода (s0 -f-1, z"-6) из области Q. Если в лемме 9 вместо g (s, х) взять | и (s, х) — w (s, х) | и положить са (з, х) и» 0, то тогда будет видно, что
816 ПОСТРОЕНИЕ е-ОПТИМЛЛЬНЫХ СТРАТЕГИЙ [ГЛ. V последнее слагаемое в (10) равно ^SMlu(so+xn'6’ -ц,(«0+т"Л z^i. Для оценки этого выражения заметим, что если то точка (s04-Tn’6, лежащая на гра- нице Q, лежит на той ее части, гдем^^. Короче говоря, если то и (% + т"> о, = W (s0 + «, 2^«ву Значит, последнее слагаемое в (10) не превосходит JVsupMfl +|z^%h'n+₽X|2".e |>R< б, п \ I т I / I хп, б | ^-r-^WsupM Д + sup |гф 6 I где в силу (5) постоянные W не зависят от /?. Наконец, первое слагаемое в правой части (10) по тео- реме III.1.11 меньше w (s0, х0), и из (10) получаем N u(s0, x0Xay(s0, x0) + e(T-s0)+T:p^-. Здесь числа /?> |х01, 8>0 произвольны, a N не зависит от /?. Полагая R -> сю, е 0, заключаем и (s0, х0) w (s0, х0). Однако это невозможно для точки (s0, x0)^Qz- Поэтому множество Q' пусто, и теорема доказана. Пользуясь неравенством w(s, x)^g(s9 х) и тем, что при любых действительных а функция (а — /)+ + / возра- стает по /, получаем 12. Следствие. Пусть u&W\£ (НТ)[\С(НТ), и удовлетворяет неравенству (1) в НТ, и (Т, x)^g(T, х) при всех х е Edi (F[u](s, x) + u(s, x)-g(s, x))^ + + g(s, x)^0 (n. в. Нт). Тогда u^w в П^. Замечая, что при а^0 функция (а — + для всех /, получаем 18. Следствие. Пусть и &W\oC(HT)(]C (Нт), и удовлетворяет неравенству (1) в Нт, и (Т9 x)^g(x) при всех x&Edf F[u]^G (л. в. Нт). Тогда u<v в Нт-
| я ВДИНСТВЕННОСТЬ РЕШЕНИЯ УРАВНЕНИЯ ВЕЛЛМАНА 317 Объединение теоремы 5 и следствия 7 с двумя послед- ними следствиями немедленно приводит к утверждению о том, что решение уравнения Беллмана совпадает с соот- ветствующей функцией выигрыша. 14. Теорема. Пусть и W\oc (Н7) (\ С (НТ) и удов- летворяет неравенству (1) в НТ- Тогда а) если (F[u](s, x)-j-w(s, x) — g(s, x))+4-£(s, x)— — u(s, %2=0 (n- Ht), u(T, x)=g(T, x) на Edt mo u*=*w в Нт\ б) если F[u] = 0 (n. в. Нт), u(T, x) = g(x) на Edt mo u*=v в HT. Следствие 13 и леммы 4 и 10 позволяют нам доказать теоремы III.4.13 и III.4.14. 15. Доказательство теоремы III.4.13. Поскольку па+ — па^О, то в силу предположения теоремы sup [L?g — ng + fa] 0 (п. в. HT), ae A где f“ = nvn + n(g — vn)+ + fa + К (1 +1 x |)m. По следствию 13 отсюда вытекает, что {T — s ( + xt)e~(f‘~nl dt + о + g(T, xT^e-^-^n{T-s^ < sup Ms“ Jvn(T, xT-s)e-'tT-s-n(T-s) + as 91 ( + T[’ [f' + n(g-M+ + n6j(s + ^ Х/)е~ф'_п'л} + T—s + sup sup (1 4-! xt |)ffl \ e~nt dt. aGE9( t^T — s 0 По лемме III.4.3 здесь первое слагаемое равно vn (s, х), а по следствию II.5.12 второе слагаемое не превосходит T — s N (К, т, Т)(\ + \х\)т e-n‘dt^^N(K,m,T)(\ + \x\)m. о Таким образом, n(g — bn)^N (1 +|x|)m. Далее, срав- ним определение w с утверждением б) леммы III.4.3 и
818 ПОСТРОЕНИЕ 8-ОПТИМАЛЬНЫХ СТРАТЕГИИ [ГЛ. V воспользуемся тем, что | g — gn | = (# — vn)+ N (1 + I*!)"1. Имеем | пу (s, х)- vn (s, х)|< -С sup sup —#я|($ + т, хт)< аа 51 — s) ei 4"N SUP M“ * SUP О +1 xt |)m. n aa5l t^T—s Ссылка на следствие II.5.12 заканчивает доказательство теоремы II 1.4.13. 16. Доказательство теоремы III.4.14. Покажем сначала, что Q с Q'q. Допустим противное: точка (s0, х0) е eQ\Qo- Ясно, что w(s0, Xo)=g(So, х0). Не ограничивая общности, будем считать, что хо = О, и обозначим 8Х = = y/i(s0, 0). Поскольку 81 > 0 и h(t, х) — непрерывная функция, то при всех достаточно малых /?, р на цилиндре Cp,R = (s0 — р, s0 + p)xSfl функция Л(/, х) больше ех. Выберем подходящие значения R>0 и р>0, а затем уменьшим р так, чтобы неравенство М sup I zt I «= 4 (11) /Ср 2 выполнялось для всех процессов zt вида t i Zt = $ or dwr + $ br dr9 о 0 (12) для которых [la,.|!+i I 2/C (1+/?) при всех г, co. До- биться выполнения (11) с помощью выбора р>0 можно в силу следствия II.5.12. Отметим сразу необходимое нам следствие (11): МтгЦр, (13) где т —момент первого выхода (s04-/, zt) из CPiR. Для вывода (13) из (11) заметим, что с: {т = р}.
§ 3] ЕДИНСТВЕННОСТЬ РЕШЕНИЯ УРАВНЕНИЯ ВЕЛЛМАНА 319 Поэтому Mr^pPjsup | zt | </?| = р (1 — Р jsup I zt | ^p.'l - jJ-Msup jz,|'l>4p- Далее, обозначим через h (t, x) некоторую непрерывную финитную в Нт функцию, равную h(t, х) на CPtR. По предположению теоремы sup [Lag -|- fа] 0 (п. в. Ср.я), ае А где — Фиксируем теперь е>0 и применим лемму 10, заменяя в ней fa на fa. Тогда мы найдем стра- тегии ап>6 такие, что g(s0, 0) < lim lim М^/Г^Зо + т"-6, хт„,6)е 6 I 0 п. -* оо L т ’ „п, б + $ f1 (So + Л x^e-^dt о 4-е (Т — яр), где т"-6—момент первого выхода процесса (s04~C г?’6) из Ср,/?. Из этого неравенства, вспоминая определение w и равенство g(s0, Q) — w(s0, 0), находим т". 6 _ lim lim М“"о j h(s0-\-t, х,)е~'(/dt^e(T— s0). б | 0 n -► оо 0 Отсюда по лемме 9 (взяв в ней g = 0, fa = h) получаем хп>6 lim lim М $ h(sQ-\-t, z?’6)x б | 0 п -> оо 0 I п, б “| хехр — )с r ($о + г, znr-^dr dt^e(T — s0). I о (14) Заметим, что 'z^6\^zR при г < / тп-6. Поэтому са(8о + г» ггп,б)^сК(1 +R)m. Кроме того, (s0 + ^, ^,6)^ Cp,r при Значит, Я в (14) можно заменить на /г. Нако- нец, используя неравенство h > q па CPyR, из (14) полу- чаем е1е-Ар о + Нт lim Мтгг> 6 е (Т — s0). (15) б | 0 п. оо
320 ПОСТРОЕНИЕ е-ОПТИМАЛЬНЫХ СТРАТЕГИЙ [ГЛ V А1омент тп’6 является моментом первого выхода про- цесса (so + /, из CPtR. При этом t г"двг". «° 5хг<х«, 6°п (So + Г, znr' e) dwr + о Н- \ 7.г . т«. bbn (So + г, znr’ 6) dr, \7.г<хч. (So-И, и аналогично оценивается выражение, содержащее Ьп. Значит, в силу (13) Мт"-6^^ р, и из (15) получаем 1ре1е-^р(' + ^''1 ^е(7’-s0). (16) Здесь р, /?, ег не зависят от 8, а 8 можно было взять сколь угодно малым. Следовательно, левая часть (16) равна нулю. Однако это противоречит неравенствам р>0и 81>0. Полученное противоречие доказывает, что Q(=Q'. Возьмем теперь какую-нибудь связную компоненту Qo области Qo и докажем, что она содержит хотя бы одну связную компоненту множества Q. Предположим против- ное. Тогда из включения Q cz Q(\ следует, что Qo П Q = Q. Значит, F[g] ‘С 0 почти всюду на Q'o. Следовательно, по лемме 4 на Q(' g(s, x)^sup sup (s +xt) dt + ae^ve^(T-s) ( о T,?(s + t Л y, xlAv)<T^wj, (17) где т = та s«x — момент первого выхода (s-}-/, х^'х} из Q'. Очевидно, при (s, х)е® g(s + T, хт) = w (s + т, хг). 11оэтому g(s + T Д Y, xTAv)e-^Av = = g(s + Y, xv)e“<,'vxT^I4-u-(s4-T, л\) e~^y_x<v. Пользуясь теоремой III.1 3, из • 17* точагн: о- = w на Q(', что противоречит перавепегзх на Q. Полу- ченное противоречие доказывает теорему.
$ 3] ЕДИНСТВЕННОСТЬ РЕШЕНИЯ УРАВНЕНИЯ БЕЛЛМАНА 321 Многие построения этого и предыдущего параграфов использовали стратегии специального вида. 17. Определение. Пусть (s0, xQ)&HT. Стратегия аДсо) называется ($0, xQ)-присоединенной марковской, если на [О, Т] xEdxEd могут быть определены матрица а (/, х, г) размера dxdlt d-мерный вектор b(t, х, г), функция а (/, х, г) со значениями в Л и число б такие, что суще- ствует прогрессивно измеримое (относительно J) реше- ние (xt\ zt) системы уравнений t Х/“Хо+5 а(а (So + r, *>), «о + ^, *r)dwr + 0 t -I-$ 6 (а (So + г, xr, zr), So 4-г, xr)dr, 0 2< = Xo + 5G(so + r> xr, zr)dwr4-6wz + 0 t + ^(So + r, xr. zr)dr, (18) 0 и, кроме того, для этого решения az(<D)=a(s0 + /, xz(<d), zz(<d)) при всех t е [О, Т — s0], со. Множество всех (s0, х0)-при- соединенных марковских стратегий обозначается через Шпм($о, Xq)- Заметим, что если стратегия а из 31Пм С$о, х0) построена с помощью уравнения (18), то xt = х*’ s°’Хо при t^T — s0. Действительно, первое соотношение в (18) записывается в следующем виде: t t xt = х() + о (ar, s0 + r, xr) dwr + \b (ar, sQ-\-r, xr)dr. 0 0 Нетрудно видеть, что стратегии ап-б, построенные в лемме 8, являются присоединенными марковскими. Если в предыдущем параграфе в качестве wz взять (wz; wz), а в уравнении (18) положить a (/, х, г) = а[р](/, х + + e(z —х0)), сг = О, 6 = 0 и 6=1, то тогда окажется, что стратегия 0 [р], введенная перед леммой 2.1, является присоединенной марковской. Понятно, что использование присоединенных марков- ских стратегий можно трактовать с практической точки 11 НВ Крылов
322 ПОСТРОЕНИЕ е-ОПТИМАЛЬНЫХ СТРАТЕГИЙ [ГЛ V зрения как добавление к рассматриваемой управляемой системе «присоединенных» координат zt и использование уже марковских стратегий относительно расширенной управляемой системы (xz; zz). Отметим еще, что в детер- минированном случае процесс zt называется поводырем (см. Красовский, Субботин [20]). 18. Упражнение. Предположим, что v е Wiic (Hr), Z7[о] = 0 (п. в. //г). Фиксируем е>0 и возьмем боре- левскую функцию a (s, х) на Нт со значениями в А такую, что La<s>*)y(s, x) + /a(s’x) (s, х)^ — е (п. в. Нт). Для (s0, х0) е Нт определим (s0, х0)-присоединенную марковскую стратегию так, как это сделано в лемме 8. Докажите, что о (s0, *0) Нт lim vart’6 (s0, х0) + е (Т — s0). d J 0 rt —* оо 19. Упражнение (ср. упражнение 2.7). Рассмотрим одномерный управляемый процесс; d=d1=i, T=i, А = = {—1} U { +1}» a(a, s, x) = a(x + a), где o(x) = sgnx при |х|^1, а(х) = х при | х | 1. Пусть b==c = f = O, g(x)=X2. Покажите, что v(s, х) = х2+1—s, а е-оптимальные стратегии для точки (0, 0) можно найти среди стратегий вида az = sgnzz, где zt — решение уравнения t zt=<\,an(z/)dwt + f>wl, о ап (х) = л£ (их) * sgnx, п — достаточно большое число, 6 — достаточно малое положительное число. 20. Упражнение. Покажите, что в ситуациях, опи- санных в упражнениях 2.7, 19 не существует оптималь- ных стратегий, если <^t — пополнение о-алгебры, порожден- ной Wj при s е [0, /]. Открытым остается интересный вопрос о справедливости равенства и(Л1) (0, 0) = v (0, 0) в упражнении 19.
ГЛАВА VI НЕОГРАНИЧЕННЫЕ КОЭФФИЦИЕНТЫ УПРАВЛЯЕМОГО ПРОЦЕССА. НОРМИРОВАННОЕ УРАВНЕНИЕ БЕЛЛМАНА На протяжении гл. Ill —V мы изучали управляемые процессы на конечном интервале времени и предполагали, что исходные величины а (а, /, х), b (а, /, х), са (/, х) и /а (/, х) являются ограниченными функциями от а при каждых (/, х). Целью настоящей главы является перене- сение результатов гл. Ill—V на управляемые процессы с неограниченными по а коэффициентами и рассмотрение управляемых процессов на бесконечном промежутке вре- мени. § 1. Некоторые обобщения результатов § II 1.1 Пусть Ed~ евклидово пространство размерности d, число Т е (О, оо), dx —целее число, (w6 — ^-мерный винеровский процесс. Буквой А обозначается сепарабель- ное метрическое пространство. Фиксируем некоторое пред- ставление А в виде суммы непустых расширяющихся оо множеств Ап: А = |J Ап, Ап+1 zz Ап (возможно, Дх = п — 1 = Л2 = ... = Л). При /^0, х Ed и а^А предполагаются заданными функции а (а, /, х), b (а, /, х), са (/, х);>=0, /а (/, х), g(x) и g(t, х), имеющие тот же смысл, что и в § II 1.1. Будем считать, что функции а, Ь, с и f непрерывны по (а, х), при каждых t и п непрерывны по х равномерно относительно аеЛи являются борелевскими по (а, /, х). Кроме того, пусть для всякого п существуют постоянные > 0 и такие, что при всех х и y^Ed, t^O
824 НОРМИРОВАННОЕ УРАВНЕНИЕ ВЕЛЛМАНА [ГЛ VI и а е Ап о- (а, /, х) — о (а, /, у) || +1 b (а, /, х) — b (а, /, у) | ^Кп\х-у\, (1) jа (а, /, х) ||+1 Ь (а, /, х) | < Кп (1 +1 х |), (2) *)\ + \fa(t, x)|^^(l+.x Л- (3) Предположим, что g(x) и g(t, х) непрерывны и для некоторых постоянных т^О и при всех t, х \g^\ + \g(ttx)\^K(l + \x\y\ (4) 1. Определение. Пусть п>1. Мы пишем если процесс a = az((D) (/^0) прогрессивно измерим отно- сительно {и при t е [0, Т] принимает значения из Ап. Обозначим *21 = U 91л. Элементы множества 21 называются п стратегиями. Фиксируя п и рассматривая стратегии а только из *21л, мы получаем схему, рассмотренную в § III.1 —III.4. Пользуясь стандартными обозначениями из гл. III, поло- жим vn(t, х)= sup va(t, х), wn(t, х)= sup sup иа’т(/, х). Множество естественных стратегий, допустимых в точке (/, х), понятным образом определяется для каждого п и обозначается через E(t, х). Положим х) = =-U?u£«. х). п Обозначим v (t, х) = sup vri(t, х), a s ;)[ w (t, x) = sup sup Ua’T(/, x). a s VI т s IK (T — О Очевидно, vfl-^v и wn-^w при n->oo. Кроме того, vn^v и wn^w при всяком п. Отсюда и из теорем II 1.1.5 и III.1.8, позволяющих оценить 1| и 1^1, Находим v(/, х)^ — N (1 +1х)Ш1, wit, х) ^5 — N (1 +| xi)mi (5)
§ П НЕКОТОРЫЕ ОБОБЩЕНИЯ РЕЗУЛЬТАТОВ § III.1 325 при (/, где V = V (Ki, тъ Т). Ясно, что, вообще говоря, функции v и w могут принимать значение, равное 4- оо. Дадим одно условие, достаточное для того, чтобы функции v и w были конечны. Воспользуемся при этом определением V.3.2 эксцессивных и определением V.3.3 супергармонических функций. Заметим, что оператор F, участвующий в этих определениях, записывается той же формулой из введения к гл. IV, что и прежде. 2. Лемма. Пусть функция и задана и непрерывна в Нт, область Q(^HT. Предположим, что и — супергар- моническая (или эксцессивная) функция в области Q. Тогда если а) и (t, x)^g(t, х) в Q, u^w в HT\Q, то u^w в НТ\ б) u^v в Hr\Q, и(Т, x)^?g(x) в Edy то u^v в НТ. Эта лемма немедленно вытекает из неравенств wn^u, vn^u (теорема V.3.5) и того, что wfl-+w и vn-+v при оо. В некоторых случаях условие леммы легко проверить. Покажем, как это сделать, если выполнены, например, предположения § III.1. Те рассуждения, которые мы про- ведем, не дадут нового результата, однако они полезны с методической точки зрения. Итак, возьмем числа К и т из § III. 1 и положим и(/, х) = 2тКе"> » (1 + |х|2)^, где постоянную А\ мы подберем ниже. Имеем т Lau (t, х) + 2тК (1 +1х |2)^ = 4 (1 +1 х I2)”11! о ||2 + + О С1 + 1х I2)"21 а*х 12+т (1 +1 х12)-1 Ьх ~~ - (Nt + с)} и (t, х) + 2тК (1 +1 х |2)^. где а = о (a, t, х) и т. п. Поскольку о и b удовлетворяют условию (II 1.1.2) (т. е. условию (2) при Кп = К), то Lau (t, х) + 2тК (1 +1 х |2)т (Л'2 - А\) и (t, х) + 2тК (1 +1 х '2)Т < «ЦЛ'2 + 1-Л\)и(/, х).
326 НОРМИРОВАННОЕ УРАВНЕНИЕ ВЕЛЛМАНА [ГЛ. VI Отсюда видно, что при А\ = 1 4- W2 левая часть нера- венства отрицательна. Кроме того, в Нт m g(x)Vg(i, х)^К(Ц-|х|Г^2'»К(1+|х|«)^<«а, х), Lau (t, x) + fa (t, x) Lau (t, x) + 2mK (1 +1 x )S)T < 0. Таким образом, функция и (/, х) удовлетворяет сразу всем условиям леммы 2, причем можно взять Q*=HT. Из леммы 2 получаем результат, который нам хорошо из- вестен из гл. III: если выполнены условия § III.1, то V ^и, w^u, В рассмотренном частном случае мы применили лемму 2 при Q = HT. Вообще, при применении этой леммы к кон- кретным случаям естественно пытаться найти супергармо- ническую (или эксцессивную) функцию, для которой усло- вия леммы выполнялись бы при Q = HT. В этом случае HT\Q пусто и в формулировке леммы не содержится усло- вий на неизвестные, вообще говоря, значения v и w в Нт. Однако построение такой функции и не всегда возможно. 3. Упражнение. Рассмотрим одномерный случай: d — dr = T =1, Л = [0, оо), Лп = [0, и], а = ах, Ь = с*= = f = Qt g (х) — произвольная непрерывная функция, удов- летворяющая неравенству I х ! g (х) 2 | х i + 1. Докажите, что не существует супергармонических (в смысле определения V.3.3) в функций, для которых u(l, x)^g(x) при всех х. (В то же время функция 2 1x14-1 является супергармонической в Q==/71\{(/, х): х = б}, при /=1 она не меньше g(x), а при х = 0 она равна 1 ^g’(O) = v (/, 0). Поэтому функция 2 I х 14- 1 вместе с областью Q удовлетворяет условиям леммы 2). В приложениях оказывается неестественным рассмат- ривать только стратегии из 31, т. е. стратегии а( (со), кото- рые 'принимают значения из некоторого Ап, одного для всех /, со. В связи с этим дадим следующее 4. Определение. Пусть (s, х) е Нт. Процесс а, (со), прогрессивно измеримый относительно {^}, со значениями в А называется стратегией, допустимой в точке (s, х), если а) при t е [0, Т — s] существует (хотя бы одно) реше- ние уравнения t { х; = х 4- $ («г, s 4- г, xr) dwr 4- jj b (аЛ, ь 4- г, xr) dr, (6) о о
§ 1] НЕКОТОРЫЕ ОБОБЩЕНИЯ РЕЗУЛЬТАТОВ § III 1 327 для которого t T — s — J car (S .f. dr б) M J + *t)e ° dt<oo, о в) M sup I Xt I m V rnt < oo; t^T — s г) найдется целочисленная функция n (A?) = na (R) та- кая, что а/e Лп (sUp । о при всех /g[0, T — s], cd. Множество всех стратегий, допустимых в точке (s, х), обозначается 21 (s, х). Если х), то через x^tStX обозначается некоторое (раз навсегда фиксированное) ре- шение уравнения (6), удовлетворяющее условиям б), в), г)*). Для стратегий a^2l(s, х) мы будем пользоваться сокращенными обозначениями ф*’s*х, и т. п., при- давая им тот же смысл, что и прежде. Заметим, что вы- ражения va (s, х) и ua’ т (s, х) при а е 21 (s, х) и т е —s) определены в силу требований б) и в) опреде- ления 4 и условия (4), хотя возможно, что эти выражения равны 4-оо. В предположениях § II 1.1 множества 21 и 21 (s, х) сов- падают, если взять Л1 = Л2 = ... = Л. Действительно, срав- нивая определения 4 и III.1.1, получаем, что 21 (s, x)cz2L С другой стороны, для а е 21 условие г) есть следствие совпадения Лл. Условия б) ив) вытекают из оценок моментов решений стохастических уравнений (см. § II.5). Последнее рассуждение показывает также, что в общем случае 21 (s, х) zd 21л, 21 (s, х) о 21. Поэтому v (s, х) sup va (s, х), а е 91 (5, х) w(s, х)^ sup sup Ua’T(s, х). а е 91 (s, х) т е ЭД (Т — s) Перед формулировкой следующей теоремы заметим, что в силу (5) и требований б) и в) определения 4 выражения, стоящие в (7) (см. ниже) под знаком верхней грани, оп- ределены и больше —оо. 5. Теорема, a) v(s, х)= sup ua(s, х) при всех __ a е 9[ (s, х) (s, х) е Нт\ *) На самом деле, нетрудно показать, что такое решение может быть только одно с точностью до эквивалентности.
328 НОРМИРОВАННОЕ УРАВНЕНИЕ БЕЛЛМАНА [ГЛ. VI б) функция v(s, х) полунепрерывна снизу на Нт, и (Т, х) = ^(х); в) если ($, х) <=пт и для всякого а е 81 (s, х) определен момент т = та е (Т — s) и ограниченный по (t, со) не- отрицательный прогрессивно измеримый относительно {^} процесс rt = г*, то V (S, X) = SUp М® х U (S + /, X/) 4- rtV (s + /, X/)] х а е 21 (s, х) [q t т -<PZ-J rudu _^_\rudu X e 0 dt + v (s + t, xT) e 0 |; (7) г) в a) и в (7) множество 81 (s, x) можно заменить на 3l£(s, х) и на 81. Доказательство. Поскольку равенство v (Т, х) = == g (х) очевидно, то а) вытекает из в) при г<* = О, та = = Т —s. Из непрерывности vn (s, х) (см. теорему III.1.5) получаем lim v(t,y)= lim supt^J/, y)^ (t, У) “* («. x) (t, y) — (s, x) n sup lim vn (t, y) = sup vn (s, x) = v (s, x). n (t, y) -♦ (S, x) tl Значит, v (s, x) полунепрерывна снизу. Утверждение б) доказано. Положим б -^’S'X-]rapdP x e 0 dt + u+ (s + t, x^'5- x}e 0 и введем ¥“•’**(«, т), опуская знаки ± в этой формуле. По теореме II 1.1.7 при каждом п V„(s, х)= sup М“ xV (v„, т) sS sup М“Л(и, т). as Я (». х) as 5( (s, х) D С,
§ 11 НЕКОТОРЫЕ ОБОБЩЕНИЯ РЕЗУЛЬТАТОВ § III 1 329 Следовательно, u(s, х)^ sup M?iXV(u, т) sup т)< а£ % ($, х) as ?( sup K/F(v, т). a €= §1 (s, х) Отсюда немедленно вытекает, что для доказательства теоремы достаточно доказать неравенство v (з, х) М“ xY (и, т) (8) для всех а 21 (з, х), т е Э)? (Т — s). Фиксируем а е 81 (з, х) и для R > 0 определим стратегию р по формуле р, = = а/лт^, где тя-момент первого выхода х^ 3>х из SR. Очевидно, Ре21п(7?), где п (R) = па (R) взято из определе- ния 4. Кроме того, процессы х^Д* и xf^^ удовлетво- ряют уравнению (одному и тому же) ^ = х + ^Хг<тдог(Рг, s + r, xr)dwr + о t + $ < тл ь (pr, s + r, xr)dr. 0 Поэтому эти процессы совпадают при всех t е [О, Т — s]. В частности, х$> s* Х = х?' s> х при всех почти навер- ное. Теперь, поскольку Ре21/г(7?)+7 при /=1, 2, то по теореме II 1.1.6 v(s, x)^vn(R}+J(s, х) S& Msp, х T(y„(R)+J, т Д тл) = ==М“ ^(рл(Л)7, тДтл). (9) Положим /—> оо, /?->схэ. Заметим, что когда А?-^оэ, то т Л XR т> причем т А ту? = т для каждого w при всех доста- точно больших R. По лемме Фату lim lim М“ хТ(+) (vn (R}+/, т Д rR) М“ хТ(+) (и, т). R -► оо / -* со Кроме того, в силу неравенств (5) и условий б) и в) определения 4 величины yV^,x(vn(R} h т Д т#) ограни- чены в совокупности суммируемой величиной. Отсюда по
330 НОРМИРОВАННОЕ УРАВНЕНИЕ ВЕЛЛМАНА [ГЛ. VI теореме Лебега находим lim lim М?,*¥(_)(»„ w+/, т Д rR) = (v, т). R — оо / -* оо Поскольку Т = Т(+) — Чг(_), то эти соотношения позво- ляют из (9) получить (8). Теорема доказана. 6. Упражнение. В упражнении 3 возьмем g (s, х) = у2 -шг'Ч' Докажите, что предположения леммы 2а) выполняются для и (s, х) = |х|, Q = /71|{(s, 0)}. Докажите также, что х) = !х|(1—s), и если е^О, s* * —момент первого выхода (s + /, х®’s* х) из области Qe = {(s, х)е/7х: ay(s, x)>g(s, x) + s}, то при (s, х) е Qg sup K.xg(s + Tg, хТр) + е= sup M?.x^(s + t8, xTp) =« аеЩ 7 а<=9[ = е (| х | + 1) < w (s, х). Это упражнение показывает, что, вообще говоря, не все утверждения теорем II 1.1.10 и II 1.1.11 имеют место. В связи с этим в общем случае мы не доказываем теорем об е-оп- тимальных моментах остановки. Отметим тем не менее, что отыскание е-оптимальных моментов остановки удобно про- изводить с помощью теоремы II 1.1.10 и приближения w(sy х) величинами wn (s, х). В следующей теореме полезно иметь в виду замечание, сделанное перед теоремой 5. _ 7. Теорема, а) При всех (s,x)^HT w(s, х) — sup sup ua’T(s, х); a e (s, x) т e 2R (Г— s) б) функция w (s,_x) полунепрерывна снизу на Нт, w(s, x)^g(s, x) на Нт\ в) для любых a e?l(s, х), т е 9?i (Т — s) и неотрица- тельных ограниченных прогрессивно измеримых относи- тельно {aF/} процессов rt справедливо неравенство I -<рх-! гр^р w (s, х) Ss М“ * w (s + т, хт) е 0 dt 4- t i + n/“'(s + Z> + 0 dtl; 9
$ п НЕКОТОРЫЙ ОБОБЩЕНИЯ РЕЗУЛЬТАТОВ § Ш 1 831 г) справедливо утверждение (III.1.9) теоремы III.1.9, причем в нем верхнюю грань по a можно заменить на верхнюю грань по a s 21 (s, х), а также на верхнюю грань по а е 21 (s, х). Доказательство. Утверждение б) доказывается в точности так же, как доказывается утверждение б) пре- дыдущей теоремы. В обозначениях из доказательства тео- ремы 5 утверждение в) записывается в виде &y(s, х) т)« Оно доказывается так же, как доказывается аналогичное неравенство для v. Нужно только вместо теоремы II 1.1.6 использовать теорему Ш.1.11, по которой при всех п9 ₽еЕ21„ (s, х) S& М,р. *¥ (wn, т). Докажем г). Пусть для всякого aeSl(s, х) определен момент т = т“ е ЭЭТ (Т — s). Взяв в в) и заметив, что w (s, x)^g(s, х), получаем w(s, х)^ sup sup тДу)^5 as ?((s, х) vl=Sffl(T — s) pAv sup sup M“ x i (s +1, xt) e~ dt + a e ?((s. X) v s да (T — s) Io + g(s + v, ^)е-^х?<г + оу(5 + т, хт)e-ФтХг<• Продолжим эти неравенства, заменив сначала !i( (s, х) на ЭД с: ЭД (s, х), а затем на ЭДв (s, х)с:ЭД. Наконец, учтем, что последнее выражение, которое при этом получится, будет не меньше следующего: sup sup \ f*'(s-j-Z, Xt)e~<(’1 dt + as ?(„, я о. v s да (T - s> (j + g(s + T, + + хт)е-фтХт<т| = и,л(5(Х) при всех п. Здесь равенство верно в силу теоремы II 1.1.9. Для окончания доказательства г) нужно положить п->оо в той цепочке неравенств, которая получится, если про- делать все действия, указанные выше. Утверждение а) получается из г), если взять та sa Т — s. Теорема доказана.
332 НОРМИРОВАННОЕ УРАВНЕНИЕ ВЕЛЛМАНА [ГЛ. VI В теоремах 5 и 7 утверждается, что v(T, x)=g(x) и w (Т, x)=g(T, х). Иначе говоря, мы знаем граничные зна- чения v и w при s = 7\ К сожалению, может оказаться, что эти граничные значения имеют весьма слабое отноше- ние к значениям функций v и w при s<7" (см. упраж- нение 11). Таким образом, возникает вопрос о том, когда граничные значения принимаются, т. е. когда lim v(s, х) =§(%), lim^(s, х) — g(T, х). т st т Следующая лемма показывает, что всегда lim v (s, x)^g(x), limw(s, x)^g(T, x). ГП7 тут 8. Лемма. При всех равны нулю пределы lim sup [u(s, х) — g(x)]._, lim sup (s, x) — g(T, x)]_. st T x|<R st т X <R Доказательство. По теореме II1.1.5 lim sup I (s, x) — g(x) =0. stT x R Поэтому утверждение леммы для v вытекает из vf [v (s, x)-g(x)]_«s[v1(s, x)-g(x)]-< Vi (s, X)-g(x)\. Аналогично рассматривается функция w. Лемма доказана. 9. Теорема, а) Пусть для всяких е>0 и R>0 найдется 6>0 и су пер гармоническая (или эксцессивная) в области (Т —6, T)xEd функция u(s, х) такая, что в этой области u(s, x)^g(s, х) и и(Т, x)^g(T, x)4-s при I х | R. Тогда при всех /? > 0 lim sup 'w(s, x) — g(T, x)l = 0. s t т x\^R б) Пусть для всяких г > 0 и R>0 найдется 6>0 и супергармоническая (или эксцессивная) в области (Т — 8,Т)х xEd функция u(s, х) такая, что g(x)^xu(T, х) при всех х, и(Т, x)^-g(x)-\-E при \x\^R. Тогда при всех /?>0 lim sup ju(s, х) — g(x)| = 0. stт x^R Доказательство, а) Возьмем 8>0 и 7?>0 и найдем 6>0 и соответствующую функцию и (s, х). При- меним лемму 2а), рассматривая вместо полосы НГ полосу
§ 1] НЕКОТОРЫЕ ОБОБЩЕНИЯ РЕЗУЛЬТАТОВ § III 1 333 (Т-6, Г) xEd и беря последнюю в качестве Q. Тогда по- лучим: и (s, x)^w(s, х) в [Т — в, T]xEd. Это дает [u(s, x)-g(s, x)]+Ss.|>(s, x)-g(s, х)Г и в силу непрерывности и (s, х) и g(s, х) Urn sup [w(s, x)—g(s, x)]+< sup [u(T, x) — g(T, x)]_. stT \x <R |x|<* Последнее по предположению не превосходит e. По- скольку 8 произвольно, то Um sup [&y(s, x)—g(s, r)1+^0. st? \x\^R Сравнивая этот результат e леммой 8 и замечая, что 1а|=а+4-а_, получаем утверждение а). Аналогично дока- зывается б). Теорема доказана. 10. Замечание. Мы применили тот вариант леммы 2, в котором Q = HT. Можно было бы ее использовать в пол- ном объеме, однако формулировка соответствующей тео- ремы была бы более громоздкой. На примере схемы, изученной в § III. 1, покажем, как можно применять теорему 9. Мы увидим, что ее предпо- ложения всегда выполняются, если брать управляемые процессы из § III. 1. Рассмотрим только второе утвержде- ние теоремы 9. Возьмем 8>0 и и прежде всего найдем бесконечно дифференцируемую функцию g (х) такую, что g (х) g (х) при всех х, g(x)^g(x)4-e при i х I -С R. tn Ясно, что так как | g (х) I < 2mK (1 -j-1 х |г)2, то при | х | > т > 2R можно взять g (х) = 2тК (1 -ф х |2) 2. Положим р(s, х) = (1 +| х |2)2 VT — s, и (s, х) = р (s, х) +g(x). Вычисления, аналогичные проведенным после леммы 2, дают Aau(s, х) + 2"‘/<(1 + ;х 2У - = (1 + X 2)-1 || ст 1'21' (1 +1 х 2)-2 О*Х 2 + + т (1 + i х 2)-* Ьх - С - 2^-Ly)} Р (S- + + L,Jg (s, х) 4- 2"'К (1 + х 2) 2.
334 НОРМИРОВАННОЕ УРАВНЕНИЕ ВВЛЛМАНА [ГЛ. VI Пользуясь предположениями из § III. 1 о порядка роста о и Ь, легко находим, что в Нт Lau (s, х) + 2mK (1 +! х |2)т «sj *) + Я(1+И2Л Последнее выражение меньше нуля при s (Т — 6, Т), если 6 выбрать так, чтобы + ’ _1<0. /6 26 Поэтому функция и удовлетворяет условиям теоремы 9 б). 11. Упражнение. Рассмотрим одномерный случай: d = d1 = T =1, Я [0, оо), Ял = [0, и], a (a, s, х) = а, b = с = f = 0. Пусть g (х) — ограниченная непрерывная функция. Докажите, что при s < 1 u(s, х) — sup g* (z/), limu(s, x) = supg(z/). У st 1 у 12. Упражнение. Докажите теоремы III.1.10 и Ш.1.11. для 8>0 в общем случае, если известно, что каждая связная компонента области Q8 ограничена. (Ука- зание: сначала нужно доказать, что Q8 — действительно область, затем, что для каждой ее связной компоненты найдется номер п0, начиная с которого она содержится в множествах |(s, х): wn (s, x)>g(s, + . 13. Упражнение. Докажите теоремы III. 1.10 и Ш.1.11 для 8>0 в общем случае, если известно, что |ay(s, x)| + |/a(s, x)\^N (1 +\x\)m при всех a, s, x и для некоторого г>0 при всех s, х, 8>0 sup sup \Xi |™+г < оо. § 2. Общие методы оценки производных функций выигрыша В гл. IV оценки производных функций выигрыша играли весьма важную роль. Они, в частности, испо/ьзо- вались при выводе уравнений Беллмана. Доказательство этих оценок в гл. IV опиралось на оценки из § 11.8 мо-
§ 2] ОБЩИЕ МЕТОДЫ ОЦЕНКИ ПРОИЗВОДНЫХ 335 ментов производных решений стохастических уравнений по начальным данным. В этом параграфе мы приведем без доказательства более точные оценки производных решений стохастических уравнений и более точные оценки для про- изводных функций выигрыша. Соответствующие доказа- тельства будут опубликованы в другом месте. Введем вектор уа(/, х) размерности dx dx-\-d-\- 4, коор- динатами которого являются величины (а, /, х) (i == = 1, ..., d, / = 1, ..., dj, fez(a, /, х) (f=l, ..., d), £*(/, x), fa(Z, x), g(x), g(t, x). В этом параграфе постоянно предполагается, что выполнены предположения предыду- щего параграфа, а также, что вектор уа(/, х) при всяких аеЛ, t е [О, Т] дважды непрерывно дифференцируем по х и при всех и, а е Л„, Z е Ed, (t, х) <=НТ |y“z)(z- *); + |Та)(/) (z’ х)|^к„(1+|х|)'”п. (1) Кроме этих предположений, о которых мы не будем упоминать в формулировках утверждений настоящего па- раграфа, нам понадобится ряд других предположений. Для удобства ссылок мы придадим им номера. Фиксируем 6 fo, у I и положим d Li (t, х) = °- + V а., (a, t, х) -%- + dt “ дх1 dxj Б / = 1 d + 2 х) ^-2(1-6)с“(/, х), I =1 '. / = 1 d + bl (a, /, х)-^- — 26ca (/, х). i = 1 Фиксируем пять неотрицательных функций (t, х), пх(/, х), u_2(t, х), u2(t, х), u0(t, х), заданных и непре- рывных в Нт вместе с двумя _производными по х и одной производной по /. Пусть на Нт Ltu.^0, LauQ^0. (2)
836 НОРМИРОВАННОЕ УРАВНЕНИЕ БЕЛЛМАНА [ГЛ VI Заметим, кстати, что такие функции всегда существуют; например, ^ = 0. Мы, однако, от функций иногда будем требовать большего, чем только выполнения неравен- ства (2). Следующие условия не считаются выполненными всюду в параграфе. Они будут участвовать в наших утверж- дениях в различных сочетаниях. 1. Предположение (о первых производных о и Ь). При всех (/, х)^Нт, аеЛ, l(=Ed ui I а(^ I2 + (1 + ^) | / [21| а(/) 1|2 -|- 2 111 + + 2 j 11 /a(Z)o* gracL и, < - 1112 L^ult (3) где для краткости записи опущены аргументы (/, х) у функ- ции (/, х), оператора L* (/, х) и аргументы (а, /, х) у функций а (а, /, х), b (а, tt х). Подобным же образом опускаются аргументы и в дру- гих предположениях. 2. Предположение (о вторых производных о и Ь). При всех (/, х)е/7г, аеЛ, l^Ed i-А 1 ui И а(0 (/) II ***( 2 ( (4) !_ б д 1 «Аб (!) + °(П (П°* £rad* «1 (— L?«l) 4 (— 4 • (5) 8. Предположение^ (о первых производных с, f, g). а) При всех (t, х)^Нт, а е Ап, I е Ed, и — vn, wn (zi = l, 2, ...) | fa - fan | <(- LalU1fa(-L“«2) (6) Id J 6 Vw I fa j<(-Z,frh)2 v (- tfufaP 4 (7) : g(l) (t, X) i < Vu±u2 (t, x), i gw (x) I «£ (T, x) (8) или б) c7 (t, x) lie зависит от x, существует линейное под- пространство Ed пространства Ed такое, что для любых I' & Ed , I" ±Ed, а ед Л, (t, х)^Нт а*г')(а, t, х)Г = 0, t, х) = 0, (9) кроме того, для любых t е Ed, I е Ed, а е Л, (/, х) е Нт а(‘)(!)(,а, t, x}l' = Q, t, x) = 0, (10)
ОБЩИЕ МЕТОДЫ ОЦЕНКИ ПРОИЗВОДНЫХ 337 t 21 наконец, при всех (/, х)^Нт, а<=А, I" _]_Е$ ап I g(i^ (!, х) I < х), | g (х) I < Vu^UiiT, х). (12) 4. Предположение (о вторых производных с, f,g). При всех |7, xje//;-, ае Л„, /е£/(, и = vn, wn (п— 1,2,...) [/?/>(/)-</) (0 Ч-1Ли^ + Л (13) [£(0(0 (Л х)]_^ и J " W + * (/, х), [£(/) (/) (*)]- -- tiS " W + 7 (Т, X). Ниже будут сформулированы еще два предположения. Сейчас же мы прервем их перечисление и обсудим способы проверки в тех или иных ситуациях уже приведенных предположений. Прежде всего заметим, что если в каком-нибудь конкрет- ном случае удается подобрать функции и2, каждая из кото- рых удовлетворяет только одному из неравенств (6), (8), (11) — (14), то сумма этих функций годится в качестве и2 сразу во всех неравенствах. Функции и_ъ и_2 входят только в правые части неравенств (4), (5) и (7). В левые части неравенств входит только функция иъ за исключением неравенства (7), где в левой части присутствует еще и2. Наибольшее число условий предположения 1—4 наклады- вают на функцию и19 при этом наиболее жестким является предположение 1. Возможность удовлетворить неравенство (3) зависит только от удачного выбора функции и19 в то время как в правых частях остальных неравенств присутствуют функции, отсутствующие в левых частях и позволяющие надеяться, что за счет их выбора удастся эти неравенства удовлетворить. В связи с этим полезно иметь в виду, что поскольку неравенства можно умножать и делить на 1112, то (3) имеет место для всех I Ed тогда и только тогда, когда (3) выполняется для всех единичных векторов /. Далее, предположение 1 легко проверить, когда первые производные а и b по х ограничены постоянной, одной для всех а, /, х. Действительно, в этом случае возьмем (/, х) = = е~ Тогда левая часть (3), очевидно, не будет превос- 12 Н. В. Крылов
338 НОРМИРОВАННОЕ УРАВНЕНИЕ ВЕЛЛМАНА [ГЛ. VI ходить 11 |а, где постоянная не зависит от а, /, х. Правая же часть (3) равна I \2Ne~Nt + (l — 6)21Z |2 х xca(t, x)e-Nt. Поскольку са^0, то можно, например, положить 6 = у, N = 4Nlt и при этом построенная функ- ция Ui будет удовлетворять условию (3). В наши предположения не входит явным образом постоян- ная Т. Это дает возможность пользоваться ими и в случае бесконечного интервала управления. Отметим, что при Т = оо иногда бывает неудобно в качестве брать функцию вида e~Nt. В этих случаях можно иметь в виду, что пред- положение 1 выполнено, если, например, са (t, х) «достаточно» велико по сравнению с первыми производными а и ft по х, точнее, если 2 Йу I I2 + О + б) II 1|2 4- 2ЬЩ1 < (1 - 6)2 (15) при всех (/, х)^Нт, аеД и единичных l<=Ed. В самом деле, (15) совпадает с (3) при | /1 = 1. (Дальнейшее обсуждение неравенства (15) имеется в примечаниях к главе.) Мы привели два случая, в которых предположение 1 выполняется. Заметим, что первый из них имеет место в схеме, изученной выше в гл. Ill —V. Действительно, если постоянная Кп в (1.1) не зависит от л и равна К, то предположение о дифференцируемости а и b позволяет переписать (1.1) в виде||а(/)|| + ! fe(Z) |^/С. Покажем в связи с этим, что если выполнены условия, в которых доказаны теоремы IV.7.4, IV.7.5 и IV.7.7 о гладкости функций выигрыша и об уравнении Веллмана, то предположения!—4 также выполнены. Иначе говоря, мы хотим показать, что если Л1 = Д2 = ... = Д, К1 = К2 = ---==^» /П1 = /п2 = ... = ли, то всегда существуют функции Ui и число 6, удовлетво- ряющие предположениям 1—4. Как и в аналогичной ситуа- ции из § 1, при этом мы преследуем чисто методическую цель. Для того чтобы удовлетворить (3), возьмем б = и = е~Nit и выберем подходящее Поскольку при этом «1II (/> II2 № (1 +1 * |)2т, - ^иг I (Z) + O(Z) (Z)O* gradx«i I = «11 6(Z) (z> I К (1 +1 x l)m, то для проверки предположения 2 достаточно выбрать
§ 2] ОБЩИЕ МЕТОДЫ ОЦЕНКИ ПРОИЗВОДНЫХ 339 из условия Wa (1 +1 х I)8"1 + N2 (1 +1X |)8zn < О, где N2 — некоторая постоянная. Повторяя рассуждения из § 1, следующие за леммой 1.2*), совсем легко убе- ждаемся, что в качестве и-г можно взять функцию вида д^-АМ(1+ Из гл. III мы знаем, что | v j, [ ил । (1 +1 х \)т. А так как для и = и, w то функцию и2 для неравенства (6) можно искать из условия + (1 +1 х |)4т^0, где Af — подходящая постоянная. Ясно, что функция ц2, равная Nbe~N(it (1 + х 2)2т, при некотором подборе постоян- ных У5, Nq годится для этой цели. Аналогично, для того чтобы удовлетворить (13), достаточно решить неравенство вида L^ + AUl + IxD^sgO. Как мы видели в § 1, это легко сделать. Наконец, выбирая какие-нибудь функции и2 вида N7e~N8t (1 4- | х |2)п, удовлетворяющие неравенствам (8), (14), азатем складывая все найденные выражения для и2, получим функцию, кото- рую можно взять в качестве и2 сразу во всех неравенст- вах (6), (8), (13) и (14). Поскольку каждый раз мы имели дело с выражением вида А9е-Л7,о/(1+'х 2),z, то таким обра- зом найденный окончательный вариант функции и2 будет удовлетворять неравенству | ti21 Af (1 +1 х \)п. С его помощью легко теперь отыскать и_2, удовлетворяющую (7). Итак, все предположения 1—4 выполняются. 5. Упражнение. Подводя итог проведенным рас- суждениям, покажите, что в разобранном выше случае можно взять «ч. U1 = eN{T~ = NeN « (1 +1 x I2)4"1, u2=NeN(T-^(l + \x\2)2m, 12 u_2 = NeN {T ~ +;x!2)5 m. *) В этих рассуждениях нужно взять 8т вместо т. 12*
340 НОРМИРОВАННОЕ УРАВНЕНИЕ ВЕЛЛМАНА [ГЛ. VI Выпишем еще, во что превращаются предположения 1 — 4, если в качестве функций брать постоянные и в предположении 3 рассмотреть только возможность а). При этом (3) приобретает вид (15). Неравенство (4), оче- видно, можно удовлетворить, если существует постоянная N такая, что Иначе говоря, достаточно подобрать постоянную АГ, для которой II со (16) Аналогично рассматривая остальные неравенства, видим, что предположения 1—4 выполняются, если имеют место неравенства (15) и (16) и существуют постоянные N такие, что | b(i) (Z) I < Nca, |c“Z)|«C/Vc“, x)\^N, \g(i)(x)\^N, [g<Z) <z> (t, %)]-N, [§•(/)(/) (х)]-<Л^, (17) | «I < Nca> [fft (0 - </>“]- < Nca при всех (/, a,^Ant l^Ed, u = vn, wn (n=l, 2, ...). В этом случае можно сказать, что са достаточно велико и производные функций g(/, х), g(x) ограничены. Несколько странно, на первый взгляд, выглядят послед- ние неравенства в (17), а также неравенства (6) и (13). В них входят функции vn и которые, вообще говоря, неизвестны. В связи с этим отметим, что I ^) — c(/)z/ I I fy) I +1 Н и [fa) (/)— са) а)и]~ №) <о] + [CU) а)и]+ [?а> (о]-+1 col ’ • и I* Поэтому, если, например, с помощью (1.5) и леммы 1.2 нам удалость оценить функции vn и wn и доказать, что \vn\^u и \шп\^й для некоторой функции й, то условия (6) и (13) будут выполняться, если | Л | (- tfuj* (- L?«2)2, | \й ^(- Lftz/(- L?u2)k 16 1 I б |f“ 4(_L«M2)2 + 4t 1 _ <5 1 d \c^^\a^-LTUiy 4 L2U2)2 + 4. Последние замечания относительно (6), (13) и (17) из- лишни, если са (/, х) не зависит от х. В этом случае
§ Я ОБЩИЕ МЕТОДЫ ОЦЕНКИ ПРОИЗВОДНЫХ 341 ^}=»0 и = 0, функции vn и wn не входят в (6), (13) и (17) и их не надо оценивать. Это обстоятельство пока- зывает удобство примененной записи условий (6) и (13). В том случае когда са (t, х) не зависит от х, предполо- жение 3 считается выполненным, если удается удовлетво- рить группу условий б). Обсудим это. Неравенства (11) и (12) являются частными случаями неравенств (6) и (8), так как и в (11) и (12) рассматриваются не все Г ^Ed, а только ортогональные некоторому подпространству Е%, Могут представиться две крайние возможности: Ef содер- жит только нулевой вектор, Ef совпадает со всем про- странством Ed. Если реализуется первая возможность, то равенства (9) и (10) верны для произвольных о и Ь, любой вектор (11) и (12) должны выполняться при всех (/, х) е а е Ad, Г е Ed, и в этом случае выполняются также условия а). Польза рассмотрения условий б) наряду с условиями а) видна, когда Ed=Ed. При этом только нулевой вектор ортогонален Е^ и неравенства (11) и (12) выполняются автоматически (и(/) = 0 при Z = 0), так же как и равенство (9). Следовательно, когда са не зависит от х, предположе- ние 3 выполняется, если, например, при всех Z', l^Ed имеет место (10). В этом последнем случае можно взять E<d =*Еа. Заметим, что, как нетрудно видеть, (10) справед- ливо для всех Г, Z Ed, а е Л, (/, х) ^ Нт тогда и только тогда, когда функции о (a, Z, х) и b (а, /, х) линейны по х при всех аеД, t е [0, Т]. При этом, очевидно, также выполняется и предположение 2. Для того чтобы рассмотреть промежуточную возмож- ность 0 Ef Ed, представим себе, что пространство Е% порождено первыми координатными векторами ех, е2, ... ..., edo, где l^cd0<d. Равенства (9) и (10) должны тогда выполняться для векторов Г с произвольными первыми dQ координатами и координатами с номерами d0+ 1,..., dt рав- ными нулю.Из этого условия легко вытекает, что при всех Z"_LEf,Z е? Z=l, ..., d0; / = 1, ..., dr t, x) = 0, (a, i, x)=0, o‘('/)U)(a, t, x) = 0, t, x) = 0.
342 НОРМИРОВАННОЕ УРАВНЕНИЕ ВЕЛЛМАНА [ГЛ. VT Вторые соотношения в (18) означают, что первые d0 строчек матрицы а и первые d0 координат вектора b ли- нейно зависят от координат х. Первые же соотношения в (18) показывают, что эти элементы о и b не зависят от х^ + 1, xd. Следовательно, система rfx/==a(a6 xf) dwt + b (az, xt) dt распадается на две: «верхнюю» для координат xlt (/=1,... ..., d0) и «нижнюю» для координат xj (f = d0-|-l, .d), причем «верхняя» линейна по х{, xdtQ и никаких дру- гих неизвестных не содержит. Мы закончим обсуждение предположений 1—4, пред- ложив читателю 6. Упражнение. Покажите, что предположения 1—4 выполняются, если о, Z?, с не зависят от х и при всех (/, а ее Л, 1^.Еа J _ 6 1 . А (—<(-^«2)2 4 । А *)]-^«i2 4 «2 2 4 (t, х), 1 _6 1 4- 6 te(Z) (/> (*)]-«12 4 «2 2 ЧЛ4 Заметьте, что последние неравенства выполняются авто- матически, если /а, g(t, х), g(x) выпуклы вниз по х. 7. Предположения (о производных по /). а) Функции /, g, о, Ь, с непрерывно ^по (/, х)) диф- ференцируемы по (/, х), при всех (/, х)<=Нт, п, а<=Ап (19) при всех (/, х)^.Нт, а е А (2°) + Я °* grad< «11 «С (— ЕЖ)2 (— L*u J2. (21) б) Кроме того, при всех (t, х) <= Нт, а е А„, и = vn, wn (п = 1, 2, ...) ~udica\-^'~^ ,i<h ^2) А')]_=^«оИ> х). (23)
J 2) ОБЩИЕ МЕТОДЫ ОЦЕНКИ ПРОИЗВОДНЫХ 343 в) Наконец, производные gxtx){t, х), gx‘xJ(х)> непрерывны в Нт и при всех xeEd -fig (Г, x)-\-Lag(T, х)+р(Т, х)^и0(Т, х), La(T, x)g(x) + fa(T, х)^и0(Т, х). (24) Многое из того, что сказано выше, можно было бы повторить для предположения 7. Отметим только, что при проверке выполнения предположения 7 не надо стараться сразу найти функцию и_х, одновременно удовлетворяющую неравенствам (20) и (21) (и неравенствам (4) и (5)). Можно найти одну функцию для (20), другую для (21), а затем в качестве взять их сумму. То же самое справедливо и для uQ из неравенств (22) — (24). Следует, кроме того, иметь в виду, что Lag(T, х) в (24) есть значение в точке (Г, х) результата применения оператора La (t, х) к функ- ции g(t, х), a La(T, x)g(x) рассматривается как значение оператора La(T, х) на функции g(x). 8. Предположение (суммарное). Выполняются предположения 1, 2, 36), 4 и 7, причем при Г а е Л, (/, х)^Пт t, х)Г~0, Г-~Ь(а, t, х) = 0, (25) или выполняются предположения 1, 2, За), 4 и 7. Из результатов гл. IV мы знаем, что производные функций v и w могут быть оценены только на тех мно- жествах, где они входят в оператор F[u]. В связи с этим, как и в § IV. 7, положим Q* = {(/, х)^Нт\ sup (а (а, /, х), X, Х)>0 ае А для всех А. т^О}, па (t, х) = (1 + tr а (а, t, х) +16 (а, t, х) | + + са(/, %Ж/а(Л *)1)Л р. = |х (/, х) = inf sup na(t, х)(а(а, t, х)Х, А). IX , = 1 ае А Введем также Q* и р„ (п=1, 2, ...) аналогичными соотношениями, в которых вместо А поставим Ап.
344 НОРМИРОВАННОЕ УРАВНЕНИЕ БЕЛЛМАНА (ГЛ. VI 9. Лемма. рп^рп+1, р,= lim рл, функция р(/, х) _____________________ п -* оо полунепрерывна снизу в Нт, справедливы равенства оо Q* = {(/, х)<=Нт: |х (t, х)>0}= (J Q%, п= 1 множество Q* открыто и функция р-1 (t, х) локально ограничена на Q*. Доказательство. Неравенство очевидно. Далее, ввиду ограниченности па (t, х)а(а, t, х), равномер- ной по (а, /, х), квадратичные формы па (t, х) (а (а, /, х) К, X) и функции sup па(/, х)(а(а, /, х)Х, X), sup па (/, х) (а (а, /, х)Х, X) непрерывны по равномерно относительно а, /, х, и. Из очевидного соотношения sup па (/, х) (а (а, /, х) X, X) f sup па (/, х) (а (а, /, х) X, %) аеЛ^ аеЛ по теореме Дини следует, что сходимость здесь равномерна по Xg dSx при всяких /, х. В частности, нижние грани этих выражений сходятся, т. е. р,л (/, х)->р(/, х) при п->оо. Поскольку предел возрастающей последователь- ности непрерывных функций полунепрерывен снизу и по лемме IV.7.3 функции рл(/, х) непрерывны, то р(/, х) полунепрерывна снизу. Равенство Q* = (J Q* вытекает из того, что [in (/, х)|р(/, х). Другое равенство для Q* до- казывается повторением соответствующего места из дока- зательства леммы IV.7.3. Наконец, последние утверждения являются следствиями непрерывности рл(/, х) и их моно- тонной сходимости к р(/, х). Лемма доказана. Сформулируем теперь основные результаты об оценках производных функций v и w. Следует иметь в виду, что некоторые утверждения теорем 10—12 ради краткости приводятся ниже не в полном объеме. Поясним, что мы хотим этим сказать. В теореме 11, например, утверждается, что для каждого х е Ed функция и(/, х) непрерывна по t слева на [0, Т], а функция t 4 (/, х) = п(/, х) + ^й2(г, x)dx возрастает (не убывает) по t на [0, Т].
ОБЩИЕ МЕТОДЫ ОЦЕНКИ ПРОИЗВОДНЫХ 345 § 2] Фиксируем x^Ed. Функция ф(/, х), как и всякая возрастающая функция, на [О, Т] может иметь не более чем счетное множество точек разрыва, все ее разрывы являются разрывами первого рода и ф(/—, х)=сф(/, х)^ *^ф(/+, х) для всякого /. Так как интеграл по г является непрерывной функцией /, то отсюда заключаем, что для всякого х g функция v (t, х) как функция от t может иметь не более чем счетное множество точек разрыва, все ее разрывы являются разрывами первого рода и и (/, х) + , х) для всякого /, т. е. график v(tt х) может иметь скачки только вверх. Вот эти-то свойства v (t, х) и не приводятся в тео- реме 11. Аналогично обстоит дело с соответствующими утверждениями теорем 10 и 12. В случае теоремы 10, однако, соответствующая вспомогательная функция убы- вает и поэтому v (t, х) будет иметь скачки только вниз. Наконец, заметим, что из неравенства ф (/ —, х) ^Сф (/, х) вытекает неравенство v(t—, x)^v(t, х). Кроме того, по теореме 1.5 функция v(t, х) полунепрерывна снизу. Зна- чит, заведомо, v(t, x)^v(t—, х). Сравнивая это нера- венство с предыдущим, получаем v(t, x) = v(t—, х). Таким образом, в теореме 11 утверждение о непрерывности v (t. х) слева по t является следствием теоремы 1.5 и того, что ф(/, х) возрастает по t, 10. Теорема. Пусть функция v ограничена сверху в каждом цилиндре Ct,r и выполнены предположения 1—4. Тогда а) для любых l19 l2 е Ed внутри НТ существуют обоб- щенные производные ищ) щ) (/, х) (dt dx) (см. определение II. 1.2), для любых l^Ed внутри НТ (t, х) (dt dx) — щ (t, х) dt dx. где _ з _i _ А Г 1 -I- - - - 1 . А~| й1 = 4б 2„2 4 + 4 +^Л2 4-U2 + 4 J; б) при каждом t е [0, Т] функция v (t. х) непрерывна по х, имеет обобщенную производную по х (в смысле опре- деления II.1.1) и для любых /?>0, уе(0, 1], t <= [0, Т] почти всюду в Sr |gradxu(/, х)| < у || v(t, -)||в(5я+1) + у И1(*. •)I|b(s«+i);
346 НОРМИРОВАННОЕ УРАВНЕНИЕ «ЕЛЛМАНА [ГЛ V1 в) внутри НТ существует производная ^v(t, x)(dtdx), X v (dt dx) < inf | Lp | (Щ +1 gradx v | + uT + 1) dt dx, ₽(= A L?v (dtdx) + f* dtdx^O*) для любого f} e Л; для любого I e Ed lw(/) (/) (dt dx) < ^(fli +1 grad* v | + v+ + 1) dt dx + (dt dx); г) для всякого x^Ed функция v (t, x) непрерывна справа no t на [О, T], и для всякого /?>0 найдется постоянная такая, что при всех xgSr функция v(t, x) — Nt убывает по t на [0, Т]. Наконец, если в формулировке всюду заменить v на ш, то утверждения a) — v) останутся в силе. 11. Теорема. Пусть выполнены предположения 1, 36) и 7, причем при всех /' &Ed, аеЛ, (t, х)^ПТ имеют место равенства (25), или пусть выполнены пред- положения 1, За) и 7. Тогда а) функция v(t, х) ограничена в каждом цилиндре Ct.r, для всякого х е Ed непрерывна слева по t на [0, Т], и для всякого х Ed функция t v (t, х) + § #2 (г> %) dr, о £ возрастает по t на [0, 7], где Й2 = (76~1и_1и2)2 + и0; б) внутри НТ существует производная -~v(dtdx) и v (t, х) (dt dx) — й2 (/, х) dt dx; в) для всякого 0 lim sup I v (t, x) — g(x) | = 0. И T \x\^R Эти утверждения будут продолжать оставаться вер- ными, если в них v заменить на w и g(x) — Ha g(T, х). Следующая теорема справедлива, если выполнены пред- положения только предыдущего параграфа. Ее можно *) Относительно смысла обозначения ! LP 1 см. формулировку теоремы IV.3.3; L$u {dt dx) определено перед теоремой IV.2.7.
♦ 2] ОБЩИЕ МЕТОДЫ ОЦЕНКИ ПРОИЗВОДНЫХ 347 было бы формулировать и в § 1, однако по духу она ближе к теме настоящего параграфа. 12. Теорема. Пусть существуют непрерывная функ- ция ф(/, х), заданная на Нт, и число 6х>0 такие, что для^ всякого t е (О, Т] функция ut (s, x)sav (t, х) + + J ф (г, х) dx как функция переменных ($, х) является S супергармонической (или эксцессивнои) в области Нг[\ П(/ —t)xEd (см. определения V.3.2, V.3.3). Тогда имеют место утверждения а), б) и в) теоремы 11, если в них заменить на ср. 13. Теорема. Пусть выполнено суммарное предпо- ложение 8. Тогда функции vn, v, wn и w равномерно огра- ничены и равностепенно непрерывны в каждом цилиндре CTtR. Первые обобщенные производные по (t, х) этих функ- ций равномерно ограничены в каждом таком цилиндре. Более того, каждая из этих функций удовлетворяет нера- венствам & 2 V | grad v и | sgу || и |1В (сг> R+ о + -2- II «1 ||в (сг, R + о (п. в. СТ, r) для любых R>0, уе(0,_1]. Наконец, vn f v и wn j w при п-^(Х) равномерно в Сt,r при любом 7?>0. 14. Теорема. Пусть выполнено суммарное предполо- жение 8. Тогда в области Q* функции v(tt х) и w(t, х) имеют все вторые обобщенные производные по х. Эти про- изводные локально ограничены в Q*. Волге того, для любо го I е Ed - «х < V(l) (1) «£ у [г?! + V )_ +1 grad., и | + v+ + 1], - Z71 w(l) [»! Я- w} 4-' grad.viw I + Wf. -f-11 почти всюду в Q*. Наконец, для каждого nQ все вторые производные функций vn и wn по х при п^п0 ограничены равномерно по х и n^nQ во всякой ограниченной области, лежащей вместе со своим замыканием в Qna.
348 НОРМИРОВАННОЕ УРАВНЕНИЕ ВЕЛЛМАНА [ГЛ. VI Теоремы 10—12 носят вспомогательный характер по отношению к теоремам 13 и 14. Они, в свою очередь, выводятся из следующих оценок моментов производных решений стохастических уравнений. При аеЯ, | /1 = 1, ($, х) ^Нт обозначим Ад*. s, л z^-x = £B-~ >«. Поскольку по определению множества >4 из включения аей следует, что а е'21 „ для некоторого п, то в силу результатов § 11.8 процессы yf- ’> х, г*- ’> х существуют и непрерывны на [0, Т]. Положим <?“• s, х = ха, s, х ds 1 Этот процесс определен при а е 'Л, (s, х) е Нт на отрезке времени [0, Т — s], если выполнено предположение 7а). 15. Теорема. Пусть выполнены предположения 1 и 2. Тогда для любых (s, х) е Нт, теЗЯ(7' —s), осе'Л ._б б lOfi-’Uj 2 ul, (s, х)^=М“ *{«! ($4-т, хт) | гт|2е~2<|-б)ф* — - $ I zt I2 е~2 <*-б) (s+t, xt) dt}. о Кроме того, при любых tx е [0, Т — s], yep), gLg] на множестве {т^/J почти наверное 2b~1ul(s + ti, xf-s- *)| «/“• s. S' 5? М“ х {«1 (s + т, хт) I ух lve~2 (| ~б) — 16. Теорема. Пусть выполнены предположения 1 и 7а). Тогда для любых (s, х) е Нт, т е ЗЯ (Т — s), tze 'Л 76л«-!(5, х) 2S М“ х {«! (s + Т, Хт) I qx |2е~2 (1 “6) — _jl, + х,)Л}. о
I Я НОРМИРОВАННОЕ УРАВНЕНИЕ ВЕЛЛМАНА 349 17. Упражнение. С помощью упражнения 5 и тео- рем 13 и 14 докажите теорему IV.7.4 и что в последней Igrad^u |<tf(l +|*|)am*"<7'-s) (п. в. Нт). § 3. Нормированное уравнение Беллмана Как известно из § 1.2 (см. также ниже упражнение 15), функция выигрыша может не удовлетворять уравнению Беллмана. При этом исходные функции о, b, с, f, g могут быть сколь угодно гладкими. Цель настоящего параграфа состоит в выводе исправленного, нормированного уравне- ния Беллмана для функции выигрыша. Мы увидим, что это уравнение справедливо в очень широком классе случаев. Кроме предположений из § 1 данной главы наложим также следующее. Обозначим уа(/, х) вектор размерности dxd^d-j-4 с координатами о17 (а, /, х) (/=1, ..., d, /=1, ..., dj, t, x) (z = l, ..., d), са(/, x), /а(/, x), g(x), g(t, x). Будем считать, что для всяких аеЛ, ^Ed производные (/, х), y*Z) (/) (/, х), а также произ- водная -^-уа(/, *) существуют и непрерывны на Нт. Пред- положим, что при всех п, а е 4Л, I е Ed, (t, х) ^Нт |>v“a. х)|+|х)|+1^)(о(/, х)|< ^Кл(Ц-|х|)т'>. (1) Обозначим Qn =»{(/, х)^Нт' sup (a (a, t, х)%, Х)>0 1 аеАп при всех Ху=0}, Q* =1(/, х) е Нт‘- sup (а (а, t, х)к, %)>0 ' ае А при всех % =#= О}. По лемме 2.9 множества Q* и Q„ открыты, Q* + i Q* = {J О.п. Сформулируем наше последнее предположение. п Будем считать, что для каждого nQ и каждой ограничен- ной области лежащей вместе со своим замыканием
850 НОРМИРОВАННОЕ УРАВНЕНИЕ ВЕЛЛМАНА [ГЛ VI в Q*o, существует постоянная V такая, что при всех n0; i9 j = 1, ..., d !»„;+, »„л/+[ ®(п.в. от. <2) + + (п. в. <?), (3) К(^, *Y^N, \wn(t, (/, x)t=Q'. (4) Обсудим это предположение. Как показано в § IV.7, функции vn и wn в области Q* имеют первые и вторые обобщенные производные по х и первую обобщенную про- изводную по /. Именно эти производные и фигурируют в написанных выше неравенствах. Из § IV.7 мы знаем также, что эти производные локально ограничены в Q„. Мы требуем, чтобы локальная ограниченность производных в Q* была равномерна по п^п0. Заметим, наконец, что в силу теорем 2.13 и 2.14 предположение о справедли- вости неравенств (2)—(4) выполнено, если выполнено сум- марное предположение 8 из § 2. Из (2)—(4) вытекает, что функции vn и wn равномерно ограничены и равностепенно непрерывны в Вместе с очевидными соотношениями vn-+v, wn->w это позво- ляет заключить, что v и w непрерывны в Q*. Кроме того, из (2), (3) и той же сходимости vn-+v, wn-+w следует, что функции v и w имеют две обобщенные производные по х, одну по t и эти производные локально ограничены в Q. Если та (t, х) — неотрицательная функция, * заданная при аеЛ, t е [0, Т), x^Ed, то обозначим G"?a (Uo, Wz/, £//, и, t, х) = Г d = sup та (t, х) 2 а*7 (а, t, + [ it j==] d + bl (a, /, x) щ — (/, x) и + /a (/, x) Z = 1 (5) 1. Определение. Неотрицательная функция ma (t, x) (а^Л, t e [0, T), x^Ed) называется нормирующим множителем, если при всех и0, и^, uit и9 t е [0, Т), х(=Еа Оти(и09 Uij, Ui, и, t, х)<оо.
§ 3] НОРМИРОВАННОЕ УРАВНЕНИЕ БЕЛЛМАНА 351 Нормирующий множитель та (/, х) называется регуляр- ным, если существует функция N (t9 х) < оо такая, что при всех а, /, х выполняется неравенство та0 (/, х) (t, x)ma(t, х), где d Ша0 X) S 1 + 2 I, /» | а'1 (а, t, х) |2 + d + 2 I Ы (а, I, х) |2 + | с“ (/, х)|2 + 7“(/, х)|2 i = 1 2 2 2. Упражнение. Докажите, что та0 (t, х) — норми- рующий множитель и для любой неотрицательной функ- ции N (t, х) функция N (t, х) та0 (t, х) также является нормирующим множителем. Следующая теорема является теоремой о нормирован- ном уравнении Беллмана. 3. Теорема. Пусть ma(t, х) — нормирующий мно- житель. Тогда a) G'n“[u] = 0 (н. в. Q*); (6) б) G"1* [пу] «С 0 (п. в. Q*), w (t, х) ^g(t, х) в области Q*, Gma[tt)] = 0 почти всюду в области Q° = {(/, x)eQ*: w(t, x)>g[t, x)}. Короче говоря, {Gm^ [оу] + w - g)+ + g - w = 0 (n. в. Q*). (7) 4. Определение. Уравнение (6) называется норми- рованным уравнением Беллмана. Уравнение (7) называется нормированным уравнением Беллмана для задачи об опти- мальной остановке. Для доказательства теоремы 3 нам понадобятся четыре леммы. 5. Лемма. Утверждения а) и б) теоремы 3 справед- ливы, если ma(t, x) = maQ(t, х). Доказательство. Займемся утверждением б) тео- ремы 3. Используя непрерывность w (t, х) и g(t, х), чита- тель легко докажет эквивалентность первого и второго предложений в б). Поэтому мы будем доказывать только первое из них. Заметим сразу, что wn^g (см., например, теорему IV.7.5) и w^wn. Поэтому w^g. Далее, обозначим через G^a(w0, и, t, x) правую часть (5), если в ней
352 НОРМИРОВАННОЕ УРАВНЕНИЕ БЕЛЛМАНА [ГЛ. VI заменить А на Ап. В силу неотрицательности и ограни- ченности та0 (та0^1) понятно, что если для некоторых п 1, u0, uih Ui, и, t, х d d sup Mo+ У a1'(a, t, x)utj + y bl (a, t, x)ut — “s An L i. i = i < = i -ca(t, x)u+fa(t, x) (8) to G™a0(w0, Uij, U{, u, t, х)^сО. Если же в (8) стоит знак равенства, то С^а0(ц0, t, х)=0. Отсюда по теореме IV.7.5 получаем, что С™а°[дол]^0 (п. в. Q*), G^«o [пу J = 0 (п. в. Q° = {(/, х) <= Q*: wn (/, х) > >g(*, *)})• Возьмем теперь ограниченную область Q'czQ'czQ* и подберем номер п0 так, чтобы Q' cz QJ0. Существование такого номера гарантирует теорема о выделении конечного покрытия компакта Q' из его покрытия расширяющимися областями Q*. При п^п0 имеем: Q' cz Q*, G™ao[t0n] G^ao^J, Wna^Wn' Кроме ТОГО, Gma0[^n]^ G^a0[^n], Это вместе с доказанным выше позволяет заключить, что при n^nQ Q’KH0 (п- в- Q'). Gma»[oyn]^O (п. В. Q'nQnJ. (9) Перейдем в (9) к пределу при п->оо. Отметим, что функции та0(/, х), /па0(/, х)а(а, /, х), та0(/, х), b (a, t, х), та0(/, х)са(/, х), та0(/, х)/а(/, х) ограничены, и мы пред- полагаем выполненными неравенства (2)—(4). Применяя теорему IV.5.1, видим, что предельный переход в (9) воз- можен и G^«o [оу] 0 (п. в. Q'), Gma0 И 0 (п. в. Q' Q Q°o). Полагая п0->оо и пользуясь тем, что G^a0jGma0, w, Q° = (J находим п атал [и;] о (п. в. Q'), Gm«» [w] > 0 (п. в. Q' П Q0).
f 3] НОРМИРОВАННОЕ УРАВНЕНИЕ ВЕЛЛМАНА 353 Сравнение этих неравенств дает: Gmao[^]«O (п. в. Q'f) ПО0). Пользуясь произвольностью Q', заканчиваем дока- зательство утверждения б) теоремы 3. Утверждение а) в рас- сматриваемом случае доказывается сходным образом. Лемма доказана. Проведенные рассуждения использовали многие свойства управляемых процессов. Оказывается, что вывод теоремы 3 из леммы может быть основан на том сравнительно эле- ментарном факте, что если ma (/, х) — нормирующий мно- житель, то любое решение уравнения (неравенства) G^o(uo, ui/t щ, и, /, х) = 0 «0) является также реше- нием уравнения (неравенства) Gma(u0, uih uh и, t, х)==0 (<;0). Для доказательства этого нам понадобится 6. Лемма. Пусть d2 —целое число и на А определены две функции: 1а со значениями в Edl и числовая функ- ция №. Предположим, что равенство | Za |2 +1 ha |2 = 0 не выполняется ни при одном аеА При u^Edt положим F(u)«sup (/au + Aa)*), G(u) = sup na0(lau-\- ha), где naQ = (| /а |2 +1 ha |2) 2. Тогда множество Г={«: F (u)^ <0} выпукло, замкнуто (возможно, пусто) и его границей является множество Го = {и: G (и) = 0}. Доказательство. Очевидно, неравенства F (и) =< 0, G(w)<0 эквивалентны. Поэтому Г»{и: G(u)^Q}. (10) Далее, верхняя грань множества линейных функций выпукла вниз. Значит, функция G(u) (F(u)) выпукла вниз. Из неравенства п^и + яа<Ла ^ | ^ | + 1 вытекает конеч- ность G(u), а из конечности и выпуклости — непрерывность G(u). Это вместе с (10) позволяет утверждать, что Г — выпуклое замкнутое множество и Го о дГ. Остается дока- зать, что Го cz <ЭГ. Предположим противное. Тогда найдется точка и0 е Го такая, что и0 ф дГ. Заметим, что, очевидно, Го с: Г. Стало быть, и^ е Г. Поскольку же не лежит на границе ♦) Возможно, что F (и) принимает в некоторых точках или всюду •начение + оэ.
354 НОРМИРОВАННОЕ УРАВНЕНИЕ БЕЛЛМАНА [ГЛ VI множества Г, то ^ — внутренняя точка Г. Не ограничивая общности, будем считать, что ио = О, и пусть число столь мало, что U =--{и: | и | < г} cz Г. Тогда G(u)^0 в [/, G(O) = G(uo) = O. Выберем последовательность ац так, чтобы na^hai->- ->0. Это возможно, поскольку G(0) = 0. Векторы па/0/а/ все лежат в единичном шаре. Поэтому из их последо- вательности можно выбрать сходящуюся подпоследова- тельность. Обозначим ее предел через е. Так как |па0/а|24- + |/ги0Ла |2 == 1 при всехаеЛ и па.о/га/^О, то |е |2 = 1. Наконец, из неравенств na.Qlaiu + па/0Ла/ G (и) 0, верных при всех и е U9 вытекает, что еи^О при всех ueU, Однако если взять и = — е9 то получим е2^0, что невоз- можно из-за равенства | е |2 — 1. Полученное противоречие доказывает лемму. Фиксируем (/, х) е НТ9 некоторую функцию ma (t9 х) > >0 и применим эту лемму для изучения неравенства Gm<* (uq, utj, ui9 и, t9 x)^0. Набор u = (w0, и^9 ui9 u) (i9 j, =1, d) естественно рассматривать как точку евклидова пространства где d2 = 2 + d-\-d2. Обозначим ha = ma(t9 x)f*(t9 х), Fx=(ma(/, х), ma(/, x)af/(a, t9 x), ma(t9 х)Ь'(а9 t9 x), — ma (/, x)ca(t9 x)). Тогда, как нетрудно видеть, Gma (u, t9 x)= sup (/au + /za). as A Функция Gm« (u, t, x) подходит, таким образом, на роль F(u). Очевидно, если ma>0, то функция na0 из леммы 6 равна [ma(/, х)]1 та0 (/, х). Последнее обстоятельство пока- зывает, что в даннном случае функция G(u) из леммы 6 совпадает с Gm™ (и, /, х). С помощью леммы 6 теперь сразу получаем такой результат. 7. Лемма. Пусть (t9 х)^НТ и некоторая функция /па (/, х)>0 при всех аеЛ. Тогда множество Гт«(/, %)== {(^0, иу, “I, и): Gm^(u9t uih uh u9 t9 x)^0}
|3} НОРМИРОВАННОЕ УРАВНЕНИЕ БЕЛЛМАН4 355 как множество в Ez+d + d» выпукло, замкнуто и его гра- ницей является множество Го(/, x)s{(u0, Uy, Ui, и): Gma0(u0, uif, uh и, t9 x) = 0}. 8. Л e м м а. Пусть ma (t, x) — нормирующий множи- тель. Тогда все решения уравнения (неравенства) Gm^(uQ, иу, uit и, t х) = 0 0) являются также решениями уравнения (неравенства) Gma (и0, и^, щ, и, t, х) = 0 (<Л). Если же ma(t,x) — регулярный нормирующий множитель, то верно и обратное, т. е. эти уравнения (неравенства) эквивалентны. Доказательство. Утверждения относительно нера- венств легко вытекают из того, что /па0 (/, х) >0, и если та(/, х) — регулярный множитель, то та (/, х)>0. Докажем первое утверждение леммы относительно урав- нений. Фиксируем некоторые /, х и не будем писать /, х в аргументах функций. По лемме 7 в любой окрестности точки (и'о, u'if, и\, и') такой, что Gmao(z/6, wj/, u') = Q, найдутся точки (ц0, uyt uh и), в которых F>0. В этих же точках, очевидно, Gm* 0. По определению 1 функция Gm« конечна, а так как она выпукла, то Gm^ — непрерыв- ная функция. Сравнивая последние два предложения, заключаем Gm^ (и'о, и'ц, щ, и')^0. Противоположное нера- венство очевидно, стало быть, Gm^ (uq, u'ij, u'it u') = 0. Первое утверждение доказано. Для доказательства второго утверждения леммы заме- тим, что если Gm^(uQ, и'ц, щ, и') = 0, то в (5) выражение, стоящее под знаком верхней грани, отрицательно. Значит, взяв N=N(t, х) из определения 1, получаем O = WGWa(no, Иц, u'i, u')^Gm^ (uq9 u'h, u'h и’). С другой стороны, из равенства G™a = 0 вытекает, что Gzna<0 и (так как ma>0) Gm«°^0. Лемма доказана. Сопоставление лемм 5 и 8 немедленно доказывает тео- рему 3. Лемма 8 показывает, что вся информация о функциях выигрыша, которая может быть получена из нормирован- ных уравнений Веллмана с различными ma (/, х), содер- жится в уравнении, отвечающем нормирующему множителю
356 НОРМИРОВАННОЕ УРАВНЕНИЕ ВЕЛЛМАНА (ГЛ. VI та0 (/, х)- Несмотря на то, что множитель ma0(t, х) играет, таким образом, исключительную роль, в приложениях часто удобно рассматривать и другие нормирующие мно- жители. Кстати говоря, второе утверждение леммы 8 гово- рит, что использование регулярных нормирующих множи- телей не ведет к потере информации о функциях выигрыша. 9. Пример. Пусть d= 1, А = (—оо, со), а (а, /, х) = 1, b (а, t, х) = 2а, са = 0, fa (/, х) = — а8/ (t, х), где / (/, х) > 0. При этом О'”0 (ио> «и, ы1. «, х) = = sup та (t, х) [и0 + ии + 2аах — а8/ (t, х)], а е (- оо, оо) та0 (Л х) = [2 + 4а8 + а*/8 (/, х)] 2 • Уравнение Gm“® = 0 выглядит, во всяком случае на первый взгляд, достаточно неприятно. Возьмем та (з, х) = al. Так как />0, то 2амх — а8/— ограниченная функция от а и 1 — нормирующий множитель. Очевидно, этот мно- житель даже регулярен. Вычисление G1 сводится к нахож- дению вершины параболы 2аых — а8/. Имеем _ 1 G1(M0, «и, «1, И, t, X) = Uo + Uu -|- Ulf 2 (t, Х). Таким образом, в этом случае уравнение Gx = 0 (экви- валентное уравнению Gm“° = 0) приобретает вид H04-«n + «V 2 (Л х) = 0. Непосредственное приведение уравнения Gma0 = 0 к этому виду без использования леммы 8 представляется более сложной задачей. 10. У п р а ж н е н и е. Докажите, что функция та (I, х) s 1 является нормирующим множителем тогда и только тогда, когда для любых г 3*0, t е [0, Т), хеЕа sup {г[tra(a, t, x)+|6(a, t, x) J+ <?“(/, x)]-|- as A (t, x)}<oo. Возвратимся к лемме 7 и посмотрим, как может себя вести функция Gm« на границе множества Г. Если точка
НОРМИРОВАННОЕ УРАВНЕНИЕ ВЕЛЛМАНА 357 I я] (uo, и'у, u't, и') е Го и в некоторой ее окрестности функция Gm« конечна, то, как и в доказательстве леммы 8, функция Gm^ непрерывна в точке (ui, и'у, u'i, и'), и в любой окрест- ности этой точки найдутся точки, в которых Gma > О, a G^a^o, и'у, u'i, и', t, х) = 0. Имеется также случай, в котором Gma(wo, «//, h'i, и, /, х)<0, и в любой окрест- ности ТОЧКИ (u'o, Uy, u'i, и') найдутся точки, в которых Gm« = _|_ оо, 11. Определение. Будем говорить, что в точке (Uq, Uy, и'у и') функция Gma(w0, Ну, Uy U, t, х) (t, X —фиК- сированы) проходит через нуль, если a) Gma(uo, u'y, u'i, и', t, х) = 0, в точке (uq, и'у, и'у и') функция Gma непрерывна, и в любой окрестности точки (u'q, и'у, и{, и') найдутся точки, в которых Ст«>0, или б) Gma(UQ, и'у, и'у и', t, х)=^0, и в любой окрестности точки (uq, и'у, и'у и') имеются точки, в которых GrTla = = + ОО- Напомним, что F (Hq, Uy, Uy U, t, X) d d е= sup [u0 + У аН (a, t, x) Uy + ^bl (a, t, x) щ — аеЛ i,/ = l i = l -са(/, x}u + fa(t, X)], F [«](/, x) = = F(^u(t, x), и i i(t, x), uj(t, x), u(t, x), t, x). \0l XXX j Понятно, ЧТО F (u0, Uy, Ui, U, t, x) = G1(Uq, Uy, Ui, u, t, x). Объединяя сказанное перед определением 11 с утвержде- нием леммы 7, получаем, что функция F (и0, иу, uit и, t, х) проходит через нуль в каждой точке множества Го(/, х). Значит, ввиду леммы 5 справедлива следующая теорема. 12. Теорема, а) При почти всех (t, х) eQ* функция F (uQf Uy, uit и, t, х) как функция от (uQ, Uy, щ, и) про- ходит через нуль в точке ^tv^> х)> х), vxi(t, х), v(t, х)}.
358 НОРМИРОВАННОЕ УРАВНЕНИЕ ВЕЛЛМАНА (ГЛ. VI б) F[^]^0 (п. в. Q*), w(t9 x)^g(t9 х) всюду в Q*, при почти всех (t, х) е Q0 функция F (и0/ uijt иь и, t, х) как функция от (uQ> иц, uh и) проходит через нуль в точке ^w(t9 х), х), wxi(t9 х), w (/, х)^. Эта теорема позволяет придать смысл уравнению Вел- лмана, даже в том случае, когда оно не удовлетворяется. В самом деле, будем писать F (w0, uif9 uit и, /, x) X О, если F проходит через нуль в точке (и0, и^, ui9 и). Тогда утверждение а) теоремы 12 означает, что F[u]X0 (п. в. Q*). Из лемм 5 и 7 также вытекает 13. Теорема, а) При почти всех (t, х) е Q* точка ^и(/, Х), Vxlx](t, X), Vxl(t, х), v(t, x)j лежит на границе Го(/, х) множества Г1 (/, х). б) При почти всех (t, х) е Q0 точка х), WlAt, х), Wi(t, х), w(t, хй \ 01 л л л / лежит на границе Го(/, х) множества Г1 (/, х). Приведем пример использования теоремы 12. 14. Пример. d=l, Л=[0, оо), /а (/, х)=а§(/, х), га д . д2 La = о — а. dt 1 дх2 Уравнение Веллмана здесь выглядит так: sup r^v4-fA-v+a(g(^ х)-и)1 = 0. (И) ae[0.oo)L^ J Это уравнение может не удовлетворяться. Правильное понимание уравнения (11) дает теорема 12, в соответствии с которой функция F(u0, Wn, Hi, ч, t, х) = SUP («о + «п +a fe •*)-«)] ae [0, оо) проходит через нуль в точке t’V По опре- делению 11 есть два способа прохождения через нуль.
§ 3] НОРМИРОВАННОЕ УРАВНЕНИЕ БЕЛЛМАНА 859 При первом способе F[n]s sup [|z» + »«+a(g(/, x)-v)l = 0 (12) ae [0, oo)L<" J и для любых (w0, un, и1У и), близких К VXXt VXf V], функция F(uOt un, ult u, t, x) конечна. Из (12) сразу следует, что g(t, x)^v, ^tv + vxx=*0, а так как никакое малое изменение v в (12) не должно приводить к обраще- нию левой части (12) в бесконечность, то g(t, x)<v. Таким образом, следствием первого способа прохождения через нуль является выполнение соотношений g (t, x)<v, у V + vxx = 0. (13) В оставшемся случае, т. е. на том множестве (/, х), где (13) не выполняется, левая часть (12) не превосходит д нуля и некоторые сколь угодно малые изменения v, vxx, v приводят к обращению левой части (12) в беско- нечность. Последнее возможно, только если g(t, x) = v. Из неравенства же F[u]*<0 получаем ^и-\-ихх^0. Стало быть, или выполняется (13), или g(t, x) = v, yf + VrxsSO. (14) • Разумеется, (13) или (14) имеют место почти всюду в Нт, а не при всех (/, х) е Нт. Отметим еще, что по теореме 12 функция w(t, х), построенная по g(t, х), fa (t, х) = 0, La= +также почти во всякой точке (/, х) удовлетворяет одному из соотношений (13) и (14). Несколько иначе можно получить (13) и (14), если взять нормирующий множитель пга ($, х) = и обозна- чить Р = Тогда уравнение Gm“ [г] = 0 запишется в виде sup 1(1— P)(4v + ^) + P (g(t, x)-u)] = 0. ре [0, 1)1 / 1 Выражение, стоящее здесь под знаком верхней грани, является линейной функцией от 0. Пользуясь тем, что
360 НОРМИРОВАННОЕ УРАВНЕНИЕ ВЕЛЛМАНА ГГЛ. VI линейная функция на отрезке достигает верхней грани в одном из концов отрезка, сразу получаем + g(t, х)-о^0; j-tv + vxx = 0, если g(t, х) — и<0. Это в точности означает, что выполняется или (13), или (14). 15. Упражнение. Покажите, что в примере 14 уравнение (11) не может выполняться почти всюду в Нт, если g (Т, х) = 0 и g (t, х) — ограниченная непрерывная в Нт функция, удовлетворяющая неравенству g(t, х)>0 при (t, х) е Нт. 16. Упражнение. Пусть fa(t, х)^0 при всех а, t и х, ma (t, х) — нормирующий множитель. Докажите, что существует функция N (t, х) такая, что та (/, х)< *5 N (t, х) та0 (t, х) при всех a, t, х. 17. Упражнение. Докажите все теоремы этого параграфа в том случае, когда в формулировке предполо- жения, связанного с неравенствами (2)—(4), неравенства (2) и (3) заменены соответственно на |^оп + Ду„|<У (п. в. Q'). | jy wn + kwn | «S N (п. в. Q'). § 4. Оптимальная остановка управляемого процесса на бесконечном интервале времени В этом параграфе мы изучим предельное поведение при Т оо функции выигрыша в задаче об оптимальной остановке управляемого процесса. Будем считать, что основные неравенства (1.1} — (1.4) выполняются при всех (хеАлв каждой полосе Нт с постоянными Кп, К, tn, вообще говоря, зависящими от Т. Число Т будет меняться, а вместе с ним будут меняться множества 81л и Я и функ- ции wn(t, х) и ш(/, х) (см. § 1), соответствующие управ- ляемому процессу, рассматриваемому в Нт. Естественно поэтому объектам 81п, 81, wn, w, определенным в § 1, присвоить индекс Т. Мы рассматриваем, таким образом, множества стратегий 8ll, 81г и функции wn (Т, /, х), »(Т, t, х).
§ 4] ОСТАНОВКА НА БЕСКОНЕЧНОМ ИНТЕРВАЛЕ ВРЕМЕНИ 361 Кроме предположений о том, что Кп = Кп (Л, тп = Мп (Л» К = К (Л > т = т (Л, ниже в этом параграфе после упражне- ния 11 формулируются и используются еще некоторые условия. Обозначим 2)1 множество всех марковских моментов относительно {^}, ?1 = р]317'. Понятно, что ?1 есть множе- т ство всех прогрессивно измеримых относительно {aFJ функций а/ со значениями в Д, для каждой из которых при всяком Т>0 найдется номер п такой, что аДсо)е при всех t^T, со eQ. Очевидно, SDi (Т — s) о ЯЯ (Т' — s) при Т^Т'. Следова- тельно, w (Г, s, х) = sup sup va-1 (s, x) a s 31T re (7 —s) sup sup Ua’T(s, x). (1) (T'~ s) Если теЮ1(Г-5), то при вычислении ua«T(s, х) значения а, при t>T' (даже при t>T' — s) не играют никакой роли. Отсюда вытекает, что правая часть (1) равна sup sup ua’T(s, х) = оу(Т', s, х). (7' — s) Таким образом, w (T, s, х) возрастает по Т и сущест- вует (быть может, бесконечный) предел lim w (Т, s, x) = w(s, х). 7—►оо Очевидно, что при s S w(s, х) = sun w (Т, s, х) = sup supayn(T, s, х). 7 S T^S п Отсюда вытекает, что функция w (s, х) полунепрерывна снизу по (s, х) как верхняя грань непрерывных функций wn(T, s, х). В частности, w(s, х) — борелевская функция. Понятно, что для произвольных а ете 2)1 м“ х К е~ (s +1, Xt) dt + е~ (S + T, xt)| (2) lo ' может оказаться неопределенным. Обозначим через | Й1х2)? | (s, х) множество пар (а, т)^21х2)?, для которых
362 НОРМИРОВАННОЕ УРАВНЕНИЕ БЕЛЛМАНА [ГЛ. VI конечно хотя бы одно из выражений х) =М“ + Л xl)dt+e~'fvg+(s + -t, хх) 1о (s, х) = М“ х К е~ (s +1, xt) dt + е~ (s + т, xt)|. to ' При (а, т) e - 3( X ЭЛ | (s, x) естественно положить ua*T(s, x) = ^/(s, x) —x). Это определение va>T согласуется с прежним, так как при а е 317, т е Э)! (Т — s) М* *<) I dt + e~^\g(s + i:, хх) 1?< оо. Отсюда также следует, что 31 х ЭЛ (Т — s) cz 131X ЭЛ | (s, х) для любых s^zT, х Ed, и множество 131X ЭЛ | (s, х) непусто. Очевидно, что 131 х ЭЛ | (s, х) = 31хЭЛ при всех s и х, если функции /а (s, х) и g (s, х) при всех значениях аргументов больше нуля или, наоборот, всегда меньше нуля. Изучим связь между функцией w (s, х) и функцией sup Ua’ 1 (s, х), (а, т)е | I (s, x) которую естественно назвать функцией выигрыша в задаче об оптимальной остановке управляемого процесса на беско- нечном интервале времени. 1. Лемма. Пусть функция и (s, х) неотрицательна, непрерывна в [0, oo)xEd и принадлежит I^ioc ((0, оо) х xEd). Пусть ha (в, х) измерима по s, непрерывна по (а, х) и неотрицательна. Наконец, предположим, что Lau + + ha 0 (п. в. (О, oo)xEd) при всяком а А. Тогда для всяких а е 31, (в, х) <= [0, оо) х Ed, т е ЭЛ т -О е (s +1, xt) dt-\-e ^xu (s + t, xt) и (s, x). (3) Доказательство. Утверждение леммы напоминает лемму V.3.4 и будет доказываться сходным образом. Положим Г>»{(/, х): Lau (J, x)4-/za(/, х)^0 при всех аеЛ'},
§ 4] ОСТАНОВКА НА БЕСКОНЕЧНОМ ИНТЕРВАЛЕ ВРЕМЕНИ 363 где Д' —некоторое счетное всюду плотное множество в множестве А. Очевидно, mes((0, оо) хEd\ Г) — 0, и в силу непрерывности ha и коэффициентов по а при всех (t, х)еГ, аеЛ имеем: Lau(t, х)Д-/га(/, х)=^0. Значит, для любых а е И, со, (/, х) е Г Хг (Л х) [La‘u (/, х) + (/, х)] < 0. Отсюда для любых J?>0, Т>0, (s, х)<=Ст, я по замечанию II.10.6 и по теореме II.10.2 неравенство (3) справедливо, если в нем т заменить на тДтГ(Л, где тг, r— момент первого выхода (s Д-t, xt) из [0, Т) x SR. Применяя после этого лемму Фату, полагая R -► оо, Т -> оо и пользуясь неотрицательностью Ло и и, заканчиваем доказа- тельство (3). Лемма доказана. 2. Лемма. Пусть u^s, х) и u2(s, х) — неотрицатель- ные непрерывные функции, заданные на [0, oo)x£d. Пред- положим, что м8 е ITioc ((0, oo)x£J и выполнено одно из следующих двух условий". а) Дам8 0 (п- в- (0» оо) X £d) при всех а е А, 11m sup =0, Т-юо x^Ed и% (Т* х) п я о где выражение вида -у считается равным нулю\ б) Lau2 + u1^z0 (п. в. (0, oo)xEd) при всех аеЛ, Тогда для любых s 0, х е Ed lim sup sup M“ xXr>T_s«i(s + b *<)= 0, (4) если выполнено условие а), и для любых аеЯ lim М“ хг_5)е"Фг~5 = 0, Т — оо если выполнено условие б). Доказательство. Положим e(T)=sup sup х>. T'>T хвЕ^1 » x) В предположении a) 8 (T) | 0 при T ©о. Используя лемму 1, находим л Хг > 7 - S«1 (s + Т> *t) е~ < е (Г) М“ хиг ($ Д- т, хт) "х е (Т) и2 (s, х). (5)
364 НОРМИРОВАННОЕ УРАВНЕНИЕ ВЕЛЛМАНА (ГЛ. VI Этим доказано равенство (4). По лемме 1 J х^е-411 dt^u2(s, х)<оо, о если справедливо б). Поскольку интеграл по t здесь сходится, то подынтегральная функция стремится к нулю и, стало быть, выполняется (5). Лемма доказана. 3. Замечание. Условие б) леммы 2 выполняется, если, например, при всех а для некоторой постоянной Nlt и в этом случае можно взять u2 = Nx. Условие а) выполняется, если oo)x£d) и sg 0 (п. в. (О, оо) х Ed)) при всех а для некото- рого е>0. В последнем случае в качестве и2 подходит функция (s, х) ese. Лемму 2 удобно применять при проверке предположе- ний следующей теоремы. 4. Теорема. Пусть s0, хе Еа и для всяких а е lim xr.s) = 0. 7 —► оо Тогда w (s, х) = sup va>т (s, х). (а, т)€= | ?1ХЗП | (s, х) Доказательство. Ясно, что w (s, х) = lim sup sup va>T (s, x)« Г-юоаеЭДТ «= lim sup sup ua T(s, x)^ Т-*ооае91теЭД(Т — s) sup sup va’ T (s, x) = sup Va' T (s, X). T > 0 (a, t) G | I (s, x) (a, t) g= | ЗДХЭД I (s, x) Докажем противоположное неравенство. Для этого, как нетрудно видеть, достаточно показать, что при всех (а, т) е е | Й X ЭЭТ | (s, х) ua’T(s, х)^С lim иа> xA<r-s) (s, х). (6) Т —► оо По определению gfs + 'i, хт) = 0, если т = оо. Значит,
« 4] ОСТАНОВКА НА БЕСКОНЕЧНОМ ИНТЕРВАЛЕ ВРЕМЕНИ 365 по теореме о монотонной сходимости /ТД(7 — s) t/V(s, x) = lim M“J J е~ф'£' (s + t, xt)dt+ 7 ->oo ( 0 + Хг«Г-«е_ф'£+(8 + т, XT)|=^ pA(T-s) <limM“J J e-^is + t, xt)dt + T —► oo V 0 + Хт < т - te~ ’**+ (S + T> + Хт > т - Se~ ФГ " Sg+ (T’ XT - s)} = «= lim -s) (s, x). Аналогично, (s, x) lim t/^jAcr-s) __ 7 —► oo - lim M“xXT>r_se-<Pr-sg (A xr_s) = 7 —► oo = lim v“.jA<r-s) (Sj xy 7 —♦ oo Вычитая последние неравенства, находим (6). Теорема доказана. W -I/ 5. Упражнение. Рассмотрим процесс xt = — е * 2, где W/— одномерный винеровский процесс. Процесс xt является решением стохастического уравнения t xt=z — 1 -f- xt dwf. о Докажите, что sup MxT = O, sup MxT= —1 теЭД TesPt(T') при любом T>0. Это упражнение показывает, что утверждение теоремы 4 неверно, если на управляемый процесс не накладывать никаких ограничений. Теорема 4 дает ответ на вопрос о том, когда функция выигрыша в задаче об оптимальной остановке управляемого процесса на бесконечном интервале времени может быть
366 НОРМИРОВАННОЕ УРАВНЕНИЕ ВЕЛЛМАНА [ГЛ. VI получена как предел функций выигрыша, отвечающих конечным интервалам времени. Несколько неприятно появ- ление множества j Й( хЭЛ | (s, х) в ее формулировке. Ука- жем в связи с этим один случай, когда |'ЛхЭЛ (s, х) = =51 х ЭЭ?. 6. Теорема. Пусть найдутся непрерывные в [0, оо)х Х-Erf неотрицательные функции w19 w2 е ((0, оо) х xEd) такие, что в [0, oo)xEd и при всех А Law2 +«С О (и. в- (0, ^)xEd)), Тогда | ?(хЭЛ | (s, х)==21хЭЛ при любых s, х. Более того, va^(s, x)^w1(s, x) + w2(s, х) при всех ае'Л, т ЭЛ, s^O, x^Ed; w^w1-\-w2 и функция w конечна. Все утверждения этой теоремы немедленно вытекают из неравенств (S, х) < М“ х (s + /, xt) dt + lo + е-фт[®1 + ®’t] (S + T, Xr) ( < ®1 (S, Х) + ®2 (S, Х) < °°» второе из которых получено по лемме 1. 7. Упражнение. Пусть р, <?>0, W/ —d-мерный винеровский процесс w (Т, s, х) = sup tegn(T-s) |U| l*+*t |Р ,VI(1+s + t)«- В этом случае ст —единичная матрица, 6 = 0, с = / = 0, <?(«. *) = (l+s)? • С помощью теоремы 4 покажите, что w(s, х)= sup М Т€=ЭД |x+wt \Р (l + s + T)g- Докажите, что w (s, х) = оо при p^lq и w (s, х) <С оо при p<%q для всех s, х. (В первом случае используйте закон повторного логарифма, во втором — теорему 6, пола- гая w2 = 0, Wi (S, х) = ^----d е2 (1 +s) +1 (1+sJ и выбирая N подходящим образом.)
§ 4] ОСТАНОВКА НА БЕСКОНЕЧНОМ ИНТЕРВАЛЕ ВРЕМЕНИ 367 Теорема 4 вместе с равенством ш($, х) = lim lim wn(T, s, x) T —► oo /1 —► co и результатами гл. V позволяет находить стратегии и мар- ковские моменты, для которых иа> т (s, х) сколь угодно мало отличается от функции выигрыша в задаче об оптимальной остановке управляемого процесса на бесконечном интервале времени. В некоторых случаях можно указать оптималь- ный момент остановки. 8. Теорема. Пусть множество А состоит всего из одной точки. Предположим, что существует неотрицательная непре- рывнаяв[0, сю) х Ed функциям е ((0,сю) х Еd) такая,что lim sup = 0, L^^O*) (п. в. (0, оо)х£\у)) Г — &xf=Ed w (Т, X) и для всяких $Э*0, x&Ed выполнено одно из неравенств Ms,4 е-Ф7+(8 + /, xz)d/<oo, х ^е~ (s 4-1, dt < oo. 0 Обозначим г** x момент первого выхода процесса (s +t, из Qq={(s, x)e[0, oo)xEd: w(s, x)>g(s, x)}. Тогда для любого теЗЛ величина vx (s, х) определена, vx (s, х)<оо (uT (s, х)> —сю), если выполнено первое (вто- рое) из неравенств (7), w (s, х) — sup Vх (s, х), w (s, х) = vXq (s, х) при всех (s, х). Доказательство. Прежде всего отметим, что по- скольку функция (0(s, x) — g(s, х) полунепрерывна снизу, то множество Qo действительно является областью. Далее, по лемме 2 sup М5,ле-^Хт>т-5|^(54-^ ХТ)|->О (8) *) Индекс а, принимающий всего одно значение, опускается здесь 0 и ниже, выражение — считается равным нулю.
368 НОРМИРОВАННОЕ УРАВНЕНИЕ ВЕЛЛМАНА [ГЛ. VI при Т->оо. Отсюда, в частности, следует, что для любого т е при больших Т Ms,^4’^.x>T-s\g(s + r, xt)|<oo. Кроме того, поскольку | g (s, х) | К (Т) (1 +1 х | )т (Г) при s Т, то в силу оценок моментов решений стохасти- ческих уравнений для любого Т м5. хе~ фтХт < Т - s | g (S + Т, хт) | < оо. Стало быть, для любого т М^~фт |g($ + b Хт) I < оо. (9) Очевидно также, что Ms, х Jj е~ 4>tf± (s +t, xt) dt Ms, ,v J e~ Vlf+ (s +1, xt) dt. о 0 Из этих неравенств сразу вытекают наши утверждения от- носительно vx (s, х). Теперь можем написать | 'Л х ЭЛ | (s, х) =» = Л х ЯЛ, и по теореме 4 w (s, х) = sup Vх (s, х). Докажем оптимальность момента xs0- х. Обозначим х (Т) момент первого выхода (s-f-/, xt) из Q0(T) = {(s, х)^Нт: w (Т, s, х) >g(s, х)}. По теореме III.1.10 при каждом Т наНг То (Г) wT (s, x) = Ms,.v{ § е-Ф7(sxj)dt-\- o + e-^(r)g(s + To(r)> Хто(п)}_ Положим Т->сю. Ввиду соотношения w (Т, s, х) имеем: Q0(T) cz Q0(T') при Т' > Т, Qo= J Qo (П,т’- * (Т) *. 7 Из непрерывности по t следует также, что на мно- жестве |т^х<;оо|
§ 4] ОСТАНОВКА НА БЕСКОНЕЧНОМ ИНТЕРВАЛЕ ВРЕМЕНИ 369 По теореме о монотонной сходимости МЦх 5 e_<p7(s + /, xt)dt = О То (7) = М5,л $ e~4)tf+(s + t1 xl}dt — о То (Г) — млх $ e~vtf_(s + t, xt)dt-+ О То -* Mj, х J е~ '’’‘ft. (s +1, xt) dt — О — М4,Д e_<₽'/L(s + /, Xt)dt = О = М,.Д’е-ф7(« + А xf) dt. О Применяя еще оценки решений стохастических урав- нений и теорему о мажорируемой сходимости, заключаем, что для любого Т' То w(s, x) = Ms>x$ (s + /, xt)dt-\- о + М5, хв~ Фт»ХТо < 7- _ sg (S + То, Хт0) + + lim Ms,Фт»<Г’Хг0(Г) > Т'-sg(S + то (Т), Хт,(7-)). (10) Т —► оо При Т' -> оо последнее выражение стремится к нулю в силу (8), а из неравенства (9) по теореме о мажориру- емой сходимости вытекает, что lim М5,ж«_фт’Хт.«г-5§(8 + т0, хТо) = Т' —► оо = Ms,^-4>T»gr(s0 + Tn, гт„). Таким образом, устремляя Т' в (10) к бесконечности получаем: w х) = vx° (s, х). Теорема доказана. Условие, связанное с (7), нельзя отбросить. 13 Н, В. Крылов ~
370 НОРМИРОВАННОЕ УРАВНЕНИЕ ВЕЛЛМАНА [ГЛ. VI 9. Пример. Пусть с = 0, f (s, х) = (s sin s), g (s, x) = 0. Тогда, как нетрудно видеть, w (s, x) = оо, t0 = oo, a М5,Д f(s + t, x^e^'dl 0 не определено. 10. Пример. Пусть с = 0, f = 0, g(s, х) = — В этом случае в качестве w (s, х) можно взять Очевидно, w (s, х) = 0, т0 = оо и в соответствии с теоремой 8 Ms, xg (s + Т0) Хг0) *) = Ms, х < oog (S 4- То, *т») = 0. 11. Упражнение. В упражнении 7 возьмем р<2р. Покажите, что в этом случае в качестве w в теореме 8 можно взять из указания к упражнению 7. Пользуясь тем, что процесс Vс wt является винеровским для любой постоянной с>0 (автомодельность винеровского процесса), докажите, что Ш(8, х) = (1 +s)? ~9 W (о, |7=У Отсюда, замечая, что р g(s, x) = (l+s)r"9 ОгчУ, \И 1+s/ и пользуясь сферической симметрией задачи, выведите, что Qft вместе с каждой точкой! (s0, х0) содержит часть пара- болоида k х). _±U= 1МД, V’ /1+S /1+soJ’ лежащую в [0, оо) х Ed. С помощью почти очевидного неравенства w(cs, x)^c~qw(s, х) при с^\ докажите, что если (s0, х0) eQ0 (т. е. ^(s0, v0)>g(s0, х0)), то (s, х0) ge /е Qo при всех s^s0. Объединение этого результата с пре- дыдущим сразу приводит к утверждению, что для некото- рой постоянной с0^0 Q0 = {(s, х): s^0, xe£rf, л <с0/1 + <>}. Покажите, что w (s, 0) > 0 и, значит, со>0. *) По определению.
§ 4] ОСТАНОВКА НА БЕСКОНЕЧНОМ ИНТЕРВАЛЕ ВРЕМЕНИ 371 Перейдем к выводу нормированного уравнения Беллмана. В оставшейся части параграфа кроме предположений, сфор- мулированных в начале параграфа, мы наложим еще сле- дующие условия. Пусть уа (s, х) — вектор, размерности d х d2 + d + 3 с коор- динатами eV (a, s, х) (i = 1, ..., d, j = 1, ..., dj, (a, s, х) (i=l, ..., d), ca(s, x), x),g(s, x). Предположим, что вектор ya (s, x) один раз непрерывно дифференцируем по s, два раза непрерывно дифференцируем по х на [0, oo)xEd при любом а е А и при всех п — 1, 2, ..., a е Ап, I е Ed, Т>0, (s, х) е Нт Уа (s, х) | +1 Т“ ($, х) | +1 у» (Z) (s, х) | < ^Кп (Т)(1 +|х|Л(Г). (11) Обозначим- Qn (Т) = {(s, х) е Нт: sup (a (a, s, х) X, X) > О аелп при всех Х=#0}, Q* = {(s, х) е (0, oo)xEd: sup (a (a, s, х)Х, Х)>0 ае А при всех Х=^0}. Будем считать, что для каждых л0, Т0>0 и каждой ограниченной области Q', лежащей вместе с замыканием в Ql(T0), существует постоянная W такая, что при всех п^п0, Т>Т0; i, / = 1, d почти всюду в Q' К (7, s, x)[ + [wnxi(T, s, x)j+^,1A>(T, s, x)j + + |^шл(Т, s, x)|<W. (12) Таким образом, мы считаем, что в каждой полосе //г выполнены обобщения предположений предыдущего пара- графа. В связи с этим заметим, что нужные оценки произ- водных в тех или иных случаях могут быть получены с помощью результатов § 2. Наконец, введем понятие нормирующего множителя так же, как в § 3, полагая Т = оо в определении 3.1. 12. Теорема. Функция w(s, х) в области Q* непре- рывна, имеет первую обобщенную производную по s, две обобщенные производные по х; эти производные локально ограничены в Q*. Для любого нормирующего множителя 13*
372 НОРМИРОВАННОЕ УРАВНЕНИЕ ВЕЛЛМАНА [ГЛ. VI ma(s, х) имеем: Ст«[до]^сО (п.в. Q*), до(5, x)^g(s, х) в области Q*, Ст°[до] = 0 (п.в. Q° = {(s, x)gQ*: до(§, х)> >g(s, х)}). Доказательство этой теоремы проводится так же, как доказательство теоремы 3.36). Ограничимся поэтому только некоторыми указаниями. Утверждение теоремы для произ- вольного нормирующего множителя с помощью леммы 3.8 легко выводится из утверждения для та (s, x) = /nao(s, х). По теореме 3.3 наша теорема верна, если w заменить на w(T)=w(T, s, х), Q* —на Q* (Т) = [J Q* (Т). По теореме п IV.5.1 в равенствах типа GmaQ [до (7)] = 0 и неравенствах типа Gma0 [до (Т)] 0 можно переходить к пределу при Т —> оо. 13. Замечание. Как и в предыдущем параграфе, здесь справедливы утверждения типа теорем 3.126) и 3.136), причем соответствующие рассуждения переносятся без всяких изменений. Рассмотрим один важный частный случай задачи об опти- мальной остановке управляемого процесса на бесконечном временном интервале, когда функции a (a, s, х), & (a, s, х), ^(s, х), fa(s, х), g(s, х) однородны по времени, т. е. не зависят от $. В этом случае для любых а е 21 и огра- ниченных т е ЭЛ функция 1 (s, х) не зависит от s. Для того чтобы в этом убедиться, достаточно расписать подробно выражение (2) и заметить, что х^* s« х не зависит от s. Из равенства до (7\ s, х) = sup sup Ua’ т (s, х) ae^l (Т — s) вытекает, что до(Т, s, х) зависит только от х и от T — s. Отсюда следует, что до (s, х) = lim до (Т, s, х) не зависит от s. Т —► оо Ясно, что если ma (s, х) — та (х), то Gma (u0, uii.ut, и, s, х) не зависит от s. В этом случае положим Gma (Ujj, Ui, U, X) = Gma (0, Uy, uit и, s, х), С'п«[и](х) = бт“(и?хУ(х), u?(x), u(x), х). Понятно, что теперь мы будем опускать аргумент s у тех функций, которые в рассматриваемом случае от s не зависят.
$ 4] ОСТАНОВКА НА БЕСКОНЕЧНОМ ИНТЕРВАЛЕ ВРЕМЕНИ 878 14. Теор е м а. Функция w (х) в области D* = {х е Еа: sup (а (а, х) X, А) > 0 при всех А =/= 0} аеЛ непрерывна и имеет две обобщенные производные по х. Эти производные локально ограничены в D*. Если еще неотри- цательная функция та (х) такова, что при всех х, иц, щ, и sup та (х) < оо, Gma(uij9 uh и, х)<оо, (13) а то Gm“[u/]=c0 (п. в. D*), w(x)^g(x) в D*, <7т«[ш] = 0 (п. в. D° = {x^D*: w (x)>g(x)}). Эта теорема вытекает из теоремы 12, поскольку, оче- видно, Q* = (0, оо)х£>*, Q° = (0, оо)х£>°, ~w(x) = 0 и в силу неравенства G"‘“ («о, и.у, uit и, х) «С sg I и01 sup та (х) + (Uy, щ, и, х) < оо а функция та (s, х) ss та (х) является нормирующим мно- жителем. 15. Замечание. В однородном случае в предполо- жении (11) можно писать Кп и тп вместо Кп(Т) и тп(Т), поскольку вектор у не зависит от s. При проверке усло- вия (12) с помощью результатов § 2 естественно искать функции щ, зависящие только от х. То же нужно ска- зать о функциях и w2 из теоремы 6. 16. Упражнение. Возвратимся к упражнениям 7 и 11, и пусть p<Z2q. Покажите, что функцию g(s, х) внутри области j(s, х): s^O, | х | У 1 +sj> можно изменить так (в ос- новном сгладить), что функция выигрыша не изменится и предположение 2.8 будет выполняться при uQ = u1 = u2 = = (wx из указания к упражнению 7), и_1 = и_2 = 0для любого Т. Выведите отсюда, что w (s, х) имеет одну обоб- щенную производную по s и две по х, эти производные локально ограничены в (0, со) х Ed, ± = 0 (п. в. (0, оо)хЕД (14) где /г = 0 в Q0, /г= —~ — 4 вне Q0. Рассматривая
374 НОРМИРОВАННОЕ УРАВНЕНИЕ ВЕЛЛМАНА (ГЛ VI (14) как уравнение относительно w и замечая, чти <(l+s)-£ для некоторого е>0, докажите, что оу (0, х) = М $ h (/, х 4- W/) dt. о Подставляя сюда х = х0 = (с0, 0, 0), A(s, х) = [--ЗЦ^--1Д£(5, X)] Х|х|>Со/т+7 и пользуясь тем, что w (0, х0) = g(0> *о)> а распределе- ние W/ известно, напишите уравнение для с0. Докажите, что оно имеет единственное решение относительно с0. § 5, Управление процессом на бесконечном временном интервале Пусть функции о (a, t, х), b (а, /, х), са (/, х), fa (t, х) заданы при всех a G Л, /^0, х е £d и в каждой полосе Нт удовлетворяют основным предположениям (1.1) — (1.3) с постоянными Кп и тл, вообще говоря, зависящими от Т. Как и в предыдущем параграфе, введем множества стра- тегий Л„, Л7 = [J л£, Л = р|Лг. Положим п Т T — s Vn(T, s, х)= sup М“х 5 0 V (Т, S, х) = sup vn (Tt st x). n Цель настоящего параграфа — изучить предельное пове- дение v (Г, s, х) при Т->оо. Обозначим через |Л (s, х) множество тех ае Л, для которых хотя бы одно из выражений v“+) (s, X) = м“, х $ е У* (s 4-1, xt) dt, о p“_) (s, x) = M“ x $ e f- (b + l, Xt) dt u
§ 5] УПРАВЛЕНИЕ НА БЕСКОНЕЧНОМ ОТРЕЗКЕ ВРЕМЕНИ 375 конечно. Для а 1VI | (s, х) положим va (s, х) = (s, х) — — va (s, x). На протяжении всего параграфа считается, что суще- ствует а е А и v (s, х) и (s, х) — неотрицательные непрерыв- ные функции, заданные в [0, оо) х Ed, принадлежащие W'ioc ((0,оо) х Ed), и такие, что Eav-}~ (п. в. (О, оо)хЕД 1- v {Т' о lim sup —г-у—г = °> О где отношение вида считается равным нулю, и при всех а^А Lav1^0 (п. в. (О, оо)хЕД Обсуждение этого предположения имеется в замеча- нии 4.3. Кроме него после теоремы 4 к высказанным выше предположениям добавляются еще некоторые условия. 1. Теорема. При всех s^O, x^Ed существует предел v(st х) = lim v(T, s, х), u(s, х)^ — u (s, x), T —>oo ~ v(s, x) = sup ua(s, x). (1) a e | | (s, x) Доказательство. По лемме 4.2 для любых s^O, х Ed lim sup M“ xu(7\ Xr-^e-42 “6 = 0. (2) T -> oo a e $ ~ Положим {T — s § e~~^^ (s + f, x^dt — о x?_jJ. (3) В силу (2) lim iu(7\ s, x) —i’(T, i, x)t = 0. (4)
376 НОРМИРОВАННОЕ УРАВНЕНИЕ ВЕЛЛМАНА [ГЛ VI Далее, пусть Т'>Т, и а, = а при t s ^[Т — s, Т'— s]. По теореме II.9.7 почти наверное Г' — s (s + t, xt)dt- T — s -e-^-Sv{T\ xr,_s)p7._s} = “ MT. { J e~ (? + Z’ Xt) dt “ xT,_T В силу леммы 4.1 последнее выражение больше (—1) v (Т, xfyLf)- Стало быть, для стратегий а рассматри- ваемого вида М“ж{ j fa‘(s + t, х{) dt—e~<rT'—iv(T', хг,_,)|> ^М“4Г$ 'e~vt^(s + t, Xt) dt— e~<s>r ~s v (T, xr_s)l. (6) I 0 J Вычисляя здесь верхние грани, очевидно, получаем v (Т, s, x)^v(Tr, s, х). Следовательно, функция v (Т, s, х) возрастает по Т. Отсюда и из (4) вытекает, что сущест- вуют и равны пределы lim v (Т, s, х), lim v(Tt s, х). Г —► оо Т —► оо Кроме того, эти пределы больше v (s, s, х) = — v(s, х). Докажем (1). С одной стороны, по теореме о монотон- ной сходимости при а е । Ш | (s, х) va (s, х) = eft, (s, x) — (s, x) = T— s lim (s + f, xz) dt 7->oo Q lim v (1\ s, x) = y(s, x). T —> oo
$ 5] УПРАВЛЕНИЕ НА БЕСКОНЕЧНОМ ОТРЕЗКЕ ВРЕМЕНИ 377 Значит, правая часть (1) не превосходит v(s, х). С дру- гой стороны, возьмем sJ5*O, х е Ed, Т> s, и оп- ределим а'<=21 по формуле а? = а/ при t<.T — s, а{=а при t^T — s. При Т' > Т, как и выше, Г — s М5 (s + t, х<) dt^z О ^М“'л $ (s + t, xt) dt + О + M“,'x М f $ faJ (s +t, xt) dt 4- U-s T-s (s + t, xz)d/ + M“xe-^-s£(T, xrJ. о Здесь в силу (2) при достаточно большом Т правая часть конечна, а значит, исходное выражение ограничено равно- мерно по Т'. Поэтому, если Т достаточно велико, то а' (= | 211 (s, х). Из (2) и (5) получаем va' (s, х) = lim M“'J (s + t, Xt)dt — ( о -е“ч’г'-5у(Г, xr_s)|s=M“ J S e-v‘fa‘(s + t, xt)dt- J l о хг-,)}. (6) Стало быть, для достаточно больших Т sup va (s, х) v (Т, s, х), ае|$( | (*» *) и при Т->оо получаем, что u(s, х) не превосходит пра- вой части (1). Теорема доказана. 2. Замечание. Проведенное доказательство можно использовать для нахождения 8-оптимальных стратегий на
378 НОРМИРОВАННОЕ УРАВНЕНИЕ БЕЛЛМАНА [ГЛ. VI бесконечном временном интервале, если v (s, х)<оо. Именно, возьмем сначала Т столь большим, чтобы допре- дельное выражение в (2) стало меньше у и | v (Т, s, х) — — v (s, х) | < -^ затем подберем аеЛ так, чтобы О Т — S М?,л ( (s + t, xt)dt^v(T, s, х)-^. О После этого, как в доказательстве, по а построим а'. Тогда в силу (6) €>“'(s, х) v (Т, s, х) —5~ a (s, х) — е. О 3. Замечание. Утверждение (1) можно записать так: v (s, х) = lim lim vn (Т, s, х) = sup va (s, x). T -> oo n -► oo as । 51 | (s, x) Оказывается, что пределы по п и по Т можно поме- нять местами. Действительно, обозначим через vn (Т, s, х) правую часть (3), в которой 217 заменено на 21*. Как и в теореме, доказывается, что vn (Г, s, х) возрастает по Т, если Ап^а. Пусть это выполняется при Тогда из (2) получаем v(s, х) = lim lim vn(T, s, x) = sup sup vn (T, s, x) = T —► oo n -* oo T^s = sup sup vn(T, s, x) = sup lim vn(T, s, x) = n n* Г s n n* T —► oo = sup lim vn(T, s, x) = lim lim vn (7\ s, x). n^n* T —► oo n —► oo Г -> oo В замечании 2 участвует неравенство v (s, x) < oo. Достаточное условие конечности v(s, x) легко находится из леммы 4.1. 4. Теорема. Пусть существует неотрицательная функция v е U7!oc ((0, оо)хЕ</), непрерывная в [0, oo)xErf 7 такая, что при всех а е A Lac fa ^0 (/?. в.). Тогда 211 (s, х)=21, — y(s, x)<y(s, х) v(s, х) при всех s^O, г (= Еа. Выведем нормированное уравнение Беллмана. Будем всюду ниже считать, что выполняются предположения пре-
§ 5] УПРАВЛЕНИЕ НА БЕСКОНЕЧНОМ ОТРЕЗКЕ ВРЕМЕНИ 379 дыдущего параграфа, сформулированные после упражне- ния 4.11, если в них g (s, х) заменить на 0, а в (4.12) функцию wn(T, s, х) заменить на vn(T, s, х). Как и в § 4, справедлив следующий результат. 5. Теорема. Функция v (s, х) в области Q* непре- рывна, имеет первую обобщенную производную по s, две обобщенные производные по х, и эти производные локально ограничены в Q*. Для любого нормирующего множителя ma(s, х) Gzn«[u] = 0 (п. в. Q*). Рассмотрим более подробно случай, когда функции а, Ь, с, f не зависят от $. При этом, очевидно, функция v(s, х) не будет зависеть от s: v(s, x) = v(x). Как и в пре- дыдущем параграфе, введем Gma (иц, щ, и, х), Gm«[u](x) и область D*. Из теоремы 5 сразу получаем такой ре- зультат. 6. Теорема. Функция v (х) в области D* непрерывна и имеет две обобщенные производные по х. Эти производ- ные локально ограничены в D*. Если неотрицательная функция та (х) такова, что при всех х. uif, щ, и sup та (х) < оо, Gma(ui/‘, щ, и, х)<оо, (7) а то Gm«[v] = 0 (п. в. D*). В некоторых случаях первое из условий (7) (а также (4.13)) является лишним. 7. Теорема. Пусть для всяких п^1, xgD* inf [tr а (а, х) +1 b (а, х) I + са (х) +1 /а (х) | ] > 0. (8) Тогда Gma [и] = 0 (п. в. D*) для любой неотрицательной функции та (х) такой, что неравенство Gm^ (и^, uh и, х) < <оо выполнено при всех х, Щ;, щ, и. Доказательство. Положим vn (х) = lim vn (Т, s, х). Т —» оо Как следует из теоремы 1, для всех п, для которых
380 НОРМИРОВАННОЕ УРАВНЕНИЕ ВЕЛЛМАНА [ГЛ. VI а<=Ап, этот предел существует. Обозначим та0 (х) = _ £ / d d 1 = 2 [а-/ (а, х)12 + [б'’ (а, х)]2 + [с“ (х)]2 + [/“ (х)]2 U, / = 1 i = 1 ' G™a (uiJt uh и, х) = sup та (х) х аел„ г d d -i X у, aV (а, х) иц + У Ь‘ (а, х) щ — са (х) и + fa (х) , G„ m<1 [«] W = Gy (ux.xJ (х), щ (х), и (х), х). Заметим, что в силу (8) sup та0(х)<оо. ае Лп Возьмем п таким, что а е Лп, и положим на минуту А = Ап. Тогда по теореме 6 получим, что Сг™а0 [ул] = = 0 (п. в. Он), где Dn = {x^Ed: sup (а {а, х) X, X) > 0 при всех Х=/=0}. Возьмем ограниченную область D'c.D'gD* и выбе- рем номер п0 столь большим, чтобы О'czZ)no,ae ЛНо. При п nQ Gm«o [u]^Gy»[u]^Gy« [u], поэтому (п. в. O'). (9) Положим здесь /?->оо. По предположению известные производные функций vn (Т, s, х) и сами эти функции ограничены в (0,1) х О' равномерно при Т^2. Отсюда вытекает, что при n^nQ функции vn (х) облада- ют равномерно ограниченными в D' двумя обобщенными производными. При п->оо из (9) по замечанию 3
« б] УПРАВЛЕНИЕ НА БЕСКОНЕЧНОМ ОТРЕЗКЕ ВРЕМЕНИ 381 и по теореме IV.5.1 получаем G^a0[v]^°, ^«°[v]^0 (п. в. О'). Поскольку же D' — произвольная подобласть О* и G™ao f f GWao при n0 -> oo, то [y] = 0 (п. B. £>*). Далее, почти дословно повторяя доказательство леммы 3.8, нетрудно убедиться, что все решения уравнения Gma0 (иу, ult и, х) = 0 являются также решениями уравнения G'n« (иц, uif и, х) = 0, если функция Gma конечна. Стало быть, в этом случае Gma [у] = 0 (п. в. О*), и теорема дока- зана. Иногда применение теоремы 7 дает значительно боль- шую информацию о функции выигрыша, чем применение теоремы 6. 8. Пример. Пусть А = (0, 1], = l^j, функция f (х) 0. Нетрудно себе представить ситуацию, в которой Gma [а] (х) = sup та (х) [аДи (х) — аи (х) + а2/ (х)]. ае А Если функция /па (х) ограничена по а при каждом х и та (х) > > 0, то соотношение Gma [и] (х) = 0 имеет место тогда и только тогда, когда Ди (х) — v (х) + f (х) 0. В частности, этому неравенству эквивалентно уравнение Беллмана (пга = 1). В то же время, если взять та (х) = , то нетрудно убедиться, что _ конечная функция и (по теореме 7, если выполнены подходящие условия) 0= sup (Av — v ф-оф) = Av — v +/. aS A 9. Упражнение. Пусть A = (0, 1], А„ = |ф, ф /(x) — гладкая финитная функция, G"‘« [и] (x) = sup ma (x) [аДн (x) — au (x) -]-a/ (x)]. as A
.382 НОРМИРОВАННОЕ УРАВНЕНИЕ БЕЛЛМАНА [ГЛ. VI Докажите, что Ду — v + f^Q (п. в.), у^ОиДу — у+ + / = О почти всюду на множестве {х: v (х) > 0}. Докажите, что если /^<0, то у = 0, и если взять нормирующий мно- житель а"1, то получится неверное соотношение Ду — у+ + f = 0. Объясните, почему здесь теорема 7 неприменима (указание: см. предположения начала параграфа). 10. Замечание. При выполнении условия (8) можно доказать теоремы о прохождении через нуль или о принад- лежности (vxixj, vxi, у) границе некоторого множества, вполне аналогичные теоремам 3.12 и 3.13.
Добавление 1 НЕКОТОРЫЕ СВОЙСТВА СТОХАСТИЧЕСКИХ ИНТЕГРАЛОВ Ниже приводятся без доказательств некоторые факты из теории стохастических интегралов. Их доказательства можно найти в кни- гах: Дуб [15], Дынкин [16], Липцер, Ширяев [44], Гихман, Скоро- ход [11], [12]. Пусть (Q, У) —измеримое пространство, 0}— семейство расширяющихся о-алгебр j(поток о-алгебр), удовлетворяющих усло- вию JF/CiJF при всех /^0. Процесс (со), заданный при weQ со значениями в называется прогрессивно измеримым (относительно {У Д), если для всякого s > 0 функция (со), рассматри- ваемая при t [0, s], weQ измерима относительно прямого произ- ведения о-алгебры борелевских подмножеств отрезка [0, $] на ^s. Известно, что непрерывный процесс измеримый относительно при каждом /, является прогрессивно измеримым. Неотрицательная функция т, заданная на Q, называется марковским моментом (отно- сительно {^"Д), если для любого s^0 множество {со: т (со) > s} е Известно, что моменты первого выхода непрерывных прогрессивно измеримых процессов из открытых множеств являются марковскими моментами. Пусть на (Q, задана вероятностная мера Р. Непрерывный процесс w,= (w{, ..., w^1), определенный при / 0, wgQ назы- вается ^-мерным винеровским процессом, если wo = O, приращения wz на непересекающихся интервалах независимы и распределение W/— w5 (t > s) является нормальным с параметрами 0, (t — s) /, где / — единичная матрица размера d-^Xd^ Если, кроме того, для любого /^0 величина W/ ^/-измерима, приращение w/+/l — wz при не зависит от и о-алгебры t полны, то говорят, что пара (wz, & образует -мерный винеровский процесс или что wz — dT-мерный вине- ровский процесс относительно {JFZ}. Кстати говоря, любой винеров- ский процесс wz является винеровским относительно пополнения собственных о-алгебр ^'t = o {ws: Пусть (wz, — б/рмерный винеровский процесс, неслучайная матрица размера dxdlt прогрессивно измеримая относительно {^Д и такая, что при любом t 0 MpX.JMs<co. б (1)
384 ДОБАВЛЕНИЕ ! t Тогда определен стохастический интеграл j dwy, который является непрерывным прогрессивно измеримым относительно {^/} процессом, удовлетворяющим условию 2 t = Mp<M2<fc. (2) Этот интеграл строится следующим образом. Пусть процесс О/ является ступенчатым, т. е. существуют числа 0 = /о</1</2< <...</„ = со такие, что oz = oz при t е [/р ^-+1)> 1 = 0, ...» п—\. t Тогда os определяется как соответствующая сумма: если t а О l*b ^+i)> то t i— 1 2 (W0+l-W^)+a/i (W/“WO)- (3) /=0 При этом равенство (2) проверяется непосредственно. В общем случае доказывается, что существует последовательность ступенчатых прогрессивно измеримых процессов oz (п) такая, что при любом />0 t lim М (Ц os — os (п |p7s = 0. n —► OO Q Поэтому в силу критерия Коши и равенства (2) стохастические инте- t гралы j os (n) dws образуют фундаментальную последовательность о в среднем квадратичном и, значит, сходятся в среднем квадратичном. Их предел обозначается j us dws. Заметим, что его значения при каждом t определены только с точностью до эквивалентности. Дока- зывается, что при каждых /, со можно так выбрать значения j <Jsdwst что получившийся процесс станет непрерывным по t. Поэтому под t интегралом osdws обычно понимают непрерывный процесс о Оказывается, что для любого марковского момента т сразу при всех t 0 почти наверное Мт ( о о Стохастический интеграл, вообще говоря, не является пределом интегральных сумм, аналогичных интегральным суммам Римана — Стилтьеса. Однако известно, что для всякого процесса существует
СВОЙСТВА СТОХАСТИЧЕСКИХ ИНТЕГРАЛОВ 385 последовательность целых чисел i (п), стремящаяся к бесконечности при п —> оо и такая, что для всех Т>0и почти всех s е [0, 1] Р < lim sup I n —* оо t Т t t J Grdvir \G'Ki(nyr+s'>-s dwr где x/(/) = 2 1 [/2х], [а] —целая часть числа а. Заметим, что второй интеграл в (4) является интегралом от ступенчатой функции и, стало быть, имеет вид (3). Стохастический интеграл определяется не только для функций О/, удовлетворяющих условию (1). Характерной чертой стохастического интеграла при выполнении условия (1) является то, что М < \ crs dws = 0 (5) почти наверное на множестве {со: т (со) /} для любого ограничен- ного марковского момента т и любого t. Пусть т-марковский момент, os — процесс со значениями в мно- жестве матриц размера dxdi, bs — d-мерный процесс. Предположим, что Xs<Ay прогрессивно измеримы и интегралы t t (xs<xay^W5’ определены. Если процесс удовлетво- о о ряет соотношению .bv ds = 0=1, (6) то принято писать d^t = ut dw^bt dt, £o==*- Формальное выражение ot dvit-\-bt dt называется стохастическим дифференциалом Запись dgz = oz dwf-[-bt dt, t^T, ^o = x есть не что иное, как сокра- щенный вариант формулы (6). Этот вариант, однако, много удобнее, чем (6), если возникает необходимость записать и (5/), где и —некото- рая функция, с помощью стохастических интегралов. Достаточно найти стохастический дифференциал du (£/). Оказывается, что для любой дважды непрерывно дифференци- руемой функции и, заданной на Ed> имеет место следующая формула Ито: d d « —1 I./-I a(g0)=a(x). В (7) первое слагаемое понимается как d j dt \ 2 «?&){ 2 + = t = 1 i di ' d \ Id \ = 2 ! 2 «?(ИИ+1 2 dt. /=1 Z = 1 ( 4 = 1
386 ДОБАВЛЕНИЕ 1 Кратко его записывают так: grad и (|z) d^t или grad и (£/) 07 dwt -f- + grad и (^z) bt dt. При вычислении d^ d^t во втором слагаемом в (7) пользуются обычными правилами раскрытия скобок и следующими правилами умножения стохастических дифференциалов: (dwj)2 = d/, dwzdw^ = 0 при i 5^ /, dwltdt = 0, (dt)2 = 0. Короче говоря, <%} = S dt=(arf)‘' dt. k = 1 Собирая в (7) члены c dt и отдельно члены с dwz, мы перепишем формулу Ито иначе: du(ct) = grad и (^) <jt dwt + La‘,b‘u (gz) dt. (8) Формула (7) являющаяся аналогом формулы Тэйлора с двумя членами, называется также формулой для стохастического дифферен- циала сложной функции. Ее интегральный вариант (ср. (8)) / t о ь и (У = и (X) + f •/<. ст grad и (^) Os dws + j Zs /°s’ su ds, t <£ t, b b носит название формулы замены переменных. Иногда возникает необходимость найти стохастический дифферен- циал и (/, Jz). В этом случае можно к процессу gz добавить еще t одну координату, полагая +1 — ds, и тем самым свести дело О к случаю, когда и зависит явно только от координат процесса. Тогда получится du (t, £z) = gradxu (/, It) dwt + [^-(+Lat,b^ и (t, dt. (9) Наконец, если —неотрицательный прогрессивно измеримый про- т t цесс такой, что j Cfdt < оо, и (pz = j cs ds, то о о d^uit, £/)]=«(/, ^de-V' + e-V'du (t. ^)+(de~^)du(f, £,) = = e-4'zgradA. u(t, £,) az dw, + —u (/, h) dt. (10) Формулы (9), (10) имеют место при вероятностью единица для всех функций и (t, х) непрерывных по (t, х) вместе со своими двумя производными по х и первой производной по t в замыкании некоторой области в пространстве переменных (t, х), содержащей с вероятностью 1 траектории (/, до момента т. Часто приходится пользоваться следствием формулы (10), которое получается после интегрирования (10), вычисления математического
СВОЙСТВА СУБМАРТИНГАЛОВ 387 ожидания и применения свойства (5): = М т ? в ФтИ (Т, 5Т) ['Js~^^<Jstbs ~cs^ U (5> 5s) ds 1 t почти наверное на множестве {т /}, если момент т ограничен, напи- санное математическое ожидание существует и М j | о* gradx и (/, g/) |2 г 2<₽/ dt < оо. О Пусть теперь 07, bf зависят не только от t, со, но и от точки ar==az(x), bt = bt(x). Пусть для всякого х е Ед процессы 07 (х), bt(x) определены при всех /^0, weQ и прогрессивно изме- римы. Предположим, что существуют две постоянные Кг и К2 такие, что при всех возможных значениях аргументов II W — (у) || +! bt (х) — bt (у) | < Кг | х—у |, IIа/ (0) \\+\bt (0)|^/<2. Фиксируем х е Е^. Утверждение теоремы Ито гласит, что стоха- стическое интегральное уравнение t t xt = * + (*s) dws + ( bs (xs) ds b 0 относительно функции x/ = xr((o) (/^0, (o e Q) имеет и притом един- ственное (с точностью до эквивалентности) непрерывное (по t) прогрес- сивно измеримое относительно решение. Добавление 2 НЕКОТОРЫЕ СВОЙСТВА СУБМАРТИНГАЛОВ Пусть (Q, У, Р)— вероятностное пространство, /:>0}— расширяющееся семейство о-алгебр, удовлетворяющих условию ZE [ cz У. Действительный процесс 5/ (со), заданный при t е [0, Г], называется субмартингалом на этом промежутке времени (относительно семейства {^}), если случайные величины 5/ ^/-измеримы, М£7<оо, (п. н) (1) при всех s е [0, Т], s t. Процесс 5/ называется мартингалом, если второе неравенство в (1) является равенством. Процесс 5/ назы- вается супермартингалом, если процесс (—5/) является субмартинга- лом. Свойства субмартингалов, мартингалов и супермартингалов хорошо известны (см., например, [15], [48], [44]). Приведем без дока- зательства некоторые из них.
388 ДОБАВЛЕНИЕ 2 1. Если —субмартингал и ф (х)— возрастающая, выпуклая вниз функция от действительного х, то ф (gz)—субмартингал. 2. Если —мартингал и ф (х)— выпуклая вниз функция, то Ф (£,) — субмартингал. 3. Если —сепарабельный субмартингал, 1, то V Полезно иметь в виду, что 4. Пусть 5/ — непрерывный справа супермартингал и М|£/|<оо при t^T. Если т —марковский момент, то т —супермартингал, а если тх и т2 — марковские моменты такие, что тх (со) т2 (со) Т при всех со, то MgTi=sM?T2. Следующий факт нельзя назвать хорошо известным, и мы его докажем. Лемма. Пусть Uf — су пер мартингал с непрерывными траекто- риями и М sup |xz|<oo. Пусть Ф/(со) — прогрессивно измеримый т непрерывный неотрицательный процесс, возрастающий по t при всех со или убывающий по t при всех со, ограниченный на [0, T]xQ. Тогда t а) процесс pz = х/Ф/ — xs d<Ds — су пер мартингал и для любого о марковского момента т, не превосходящего Т, Мрт sup Ф/М (х7 — х0) + Мх0Ф0; б) р/ — х,Ф0- супермартингал, если Ф/ возрастает по t, и —суб- мартингал, если Ф/ убывает по t. (Отметим, что в приложениях часто -J rsds t Ф/==е 0 , x/=\/sds+u/. b При этом, как следует из теоремы Фубини, s t — JfsIrfs' -Jrs^ Р/= \ (/s+G»s)e ° ds-j-v-e 0 О Доказательство. Представляя xz в виде x0 + xz, легко убе- диться, что достаточно рассмотреть случай, когда хо = О. Будем счи- тать, что хо = О и X/, Ф/ определены при t^T по формулам xz = xr> Ф/ = ФГ>
свойства субмартингалов 889 Докажем прежде всего, что М sup / < Т, rG(0, 1) Заметим, что M sup fas + г ns) Ф5 ds О (2) (3) (Ps + r Ps) ds 0 ^2M sup Р/ = 4 sup M sup ' X/1 <Z oo. (4) t, co t sC T Кроме того, ввиду непрерывности р/ и равенства ро = О t Р/ = lim — \ (pJ + r— ps)ds. r|0 r J 0 Далее, разность допредельных выражений в (2) и (5) по абсо- лютной величине равна где и; (г) —модуль непрерывности функции х. Из этой оценки, стрем- ления w (г) к нулю при г -> 0, неравенства w (г) 2 sup | X/1 t < т и соотношений (4) и (5) вытекают соотношения (2) и (3). Возьмем ti < t и с помощью (2) найдем М |pz | Неравенство (3) позволяет при этом вынести символ предела за символ матема- тического ожидания, а последнее неравенство в (4) дает возможность внести знак математического ожидания под знак интеграла. Восполь- зуемся еще тем, что Ф^Ои при s tA М [(*$ + /• y^s) = М М {х5 + г х5 । У 0.
3Q0 ДОБАВЛЕНИЕ 2 Тогда получим М {pz I < М Jim 1 § (xs + r —xs) Ф5 ds I .УД == Г1 0 J = М{РГ1!^}=РГ1. Следовательно, pz —супермартингал. Далее, т MpT^Mpr = lim J- f MOS M {xs + r — ns j УД ds. r . 0 T J 0 Здесь условное ожидание отрицательно. Поэтому 7 М pt sup Ф/М lim -1- С (xs + r — xs) ds =sup Ф/ М хг, t, (О Г' 0 r J С(0 О Утверждение а) доказано. Утверждение б) доказывается анало- гичным образом с использованием формулы i р, —х;фо=1пп - \ (и5 + г —XS) (Ф, —Ф0)б/«. по г 3
ПРИМЕЧАНИЯ Глава 1 § 1. Применение уравнения Беллмана к некоторым задачам управления, по-видимому, впервые строго обосновал Гирсанов [10]. Его рассуждения в значительной степени опирались на теорию диф- ференциальных уравнений. Используя ее же, Флеминг [66] — [69] сделал дальнейшие шаги в развитии теории оптимального управления, см. также Флеминг, Ришел [70]. Говоря о связи между теорией дифференциальных уравнений и теорией оптимального управления, уместно обратить внимание читателя на работы [23], [24], [28], [60], [73], [74]. Управления, зависящие от всего прошлого, для процессов с непрерывным временем впервые рассматривал Флеминг в [68]. § 2. Нормированное уравнение Беллмана введено в работе автора [30]. Метод рандомизированной остановки развит в работах автора [22] —[24], [29]. Относительно оптимальной остановки марков- ского (неуправляемого) процесса см. Ширяев [78]. Важно отметить, что уравнения теории оптимальной остановки в ряде случаев совпа- дают с уравнениями из теории дифференциальных (вариационных) неравенств, см. Лионе [42], [43], Леви, Стампакья [41], Тобиас [64], [65]. Сравнение упражнения 4 с примером 3.7 главы I [43] показывает другие связи между теорией оптимального управления диффузион- ными процессами и теорией вариационных неравенств. Кстати говоря, метод рандомизированной остановки похож на один из вариантов метода штрафов из теории вариационных неравенств. § 3. Другие примеры применения идей теории оптимального управ- ления к получению оценок, сыгравших важную роль в этой теории, читатель найдет в [32], [33]. § 4. Излагаемый материал в известном смысле является перене- сением на одномерный случай результатов и методов работы Флеминга [66]. В многомерном (d^3) случае теми же методами удается рас- смотреть только задачи оптимального управления, когда управляющий параметр не входит в коэффициенты диффузии; см. [66] — [70], [74]. Вызвано это невозможностью (ввиду известного примера Н. Н. Ураль- цсвой) доказать подходящий аналог леммы 6 при d 3. В то же время для плоскости (d = 2) удается развить теорию, весьма похожую на излагаемую в этом параграфе, и допустить вхождение управляющего параметра в коэффициенты диффузии и сноса; см. [23], [24], [28], [60]. Метод, примененный в доказательстве теоремы 5, п. 10, па самом деле отличается от метода Беллмана — Ховарда тем, что в последнем ищется из условия F [vn\=l?n'4n + . П. П. Мосолов обра- тил внимание автора на то, что метод Беллмана — Ховарда совпадает
392 ПРИМЕЧАНИЯ с методом Ньютона — Канторовича решения нелинейных функциональ- ных уравнений (см. изложение последнего в [2]). Отметим, что метод Беллмана — Ховарда в применении к функциональным уравнениям привел также к появлению метода квазилинеаризации (см. Беллман, Калаба [4]). В связи с задачами управления одномерными процессами укажем работы; Мандл [46], [47], Прохоров [58], Аркин, Колемаев, Ширяев [1], Сафонов [59]. § 5. Методы этого параграфа взяты из [22], [24]. Некоторые ука- зания к нахождению множества Г можно найти в [49] и в § II 1.4. Относительно решения уравнений, возникающих из последовательного анализа, см. также Ширяев [78]. Глава II § 1. Все обозначения и определения этого параграфа являются стандартными. Несколько выделяются только определение 2 и поня- тие внешней нормы. § 2 — 4. Результаты этих параграфов обобщают соответствующие результаты работ [25], [27], [29], [33]. Оценки для стохастических интегралов со скачкообразной частью имеются у Прагараускаса [56]. § 5, § 7 — 9. В этой группе параграфов содержатся более или менее хорошо известные результаты теории стохастических интеграль- ных уравнений Ито; см. Дынкин [16], Липцер, Ширяев [44], Гихман, Скороход [12]. К методическим особенностям нашего изложения отно- сится введение простра! ств X, ХВ. § 6. Впервые существование решения стохастического уравнения с измеримыми коэффициентами, не зависящими от времени, доказано в [21] методом, принадлежащим Скороходу [61]. Здесь это доказа- тельство воспроизведено для случая, когда коэффициенты могут зави- сеть от времени. Относительно вопросов единственности решения и построения соответствующего марковского процесса см. [21], [31], [12], а также работу: С. Анулова, Г. Прагараускас, О слабых марковских решениях стохастических уравнений, Литовск. матем сб , т. XVII, №2 (1977), стр. 5—26, и ссылки, приведенные там. § 10. Результаты этого параграфа примыкают к [21], [27]. Глава Ill § 1. Приведенные утверждения, по-видимому, впервые публику- ются в общей ситуации. Некоторые из них в частных случаях могут быть найдены в работах: Крылов [29], Портенко, Скороход [55]. § 2, 3. Без подробных доказательств часть утверждений этих параграфов приведена в работе Портенко, Скороход [55]. Ступенчатые стратегии рассматривал также Флеминг [67]. § 4. Излагаемые методы изучения задачи об оптимальной оста- новке вз*ты из работ [22| — [24], [29]. Теорема 14 является обобще- нием одного из результатов [49]. Глава IV В этой главе развиваются методы и результаты работ автора [27], [29], [30] и Н1сио |51], [52]. Относительно управления скачкообразны- ми процессами см. Прагараускас [57].
ПРИМЕЧАНИЯ 393 § 1. Если множество А состоит из одной точки, т. е. если мы имеем дело с одним диффузионным процессом, то на функции v, — v можно смотреть как на функции выигрыша. Следовательно, вместо неравенства в теореме 4 в этом случае будет равенство. Подобные утверждения можно найти у Фрейдлина в [71]. Теорема 8 является обобщением одного из результатов [31], [56]. § 2, 3. Примененная здесь техника производных в смысле опре- деления II. 1.2 позволила обойтись без теорем о внутренней гладкости решений эллиптических и параболических уравнений — теорем, кото- рые использовались в упомянутых выше работах Крылова, Нисио, Прагараускаса. § 4. В теореме II.9.10 дифференцируемость v (t, х) по / выводи- лась из существования вторых производных о, b, с, f по х. Упраж- нение 4 показывает, что при наличии управления для оценки — v (t, х) нужно требовать существования производных по t от о, b, с, f. § 5. Результаты этого параграфа для однородного по времени случая опубликованы в [27]. Хорошо известно, что предел гармони- ческих функций есть гармоническая функция. Рассуждения параграфа с идейной точки зрения имеют много общего с доказательством этого известного факта. § 6. Связь между функциями выигрыша, отвечающими вырожда- ющемуся управляемому процессу и его невырождающемуся приближе- нию изучалось в работах: Флеминг [69], Крылов [30], Тобиас [65]. § 7. Тот факт, что функция выигрыша удовлетворяет уравнению Веллмана, в частности, означает, что это уравнение имеет решение. Интересно, что в настоящее время теория дифференциальных уравне- ний не располагает (другими) методами для доказательства разреши- мости рассматриваемых уравнений Веллмана. Условие гладкой склейки (следствие 9) впервые строго было выведено Ширяевым; см. поэтому поводу [78]. Глава V § 1, 2. Часто под марковскими стратегиями понимают борелевские функции а (/, х), для которых соответствующее стохастическое уравне- ние имеет хотя бы слабое решение. В классе таких стратегий суще- ствование 8-оптимальных стратегий доказано в работах: Крылов [29], Нисио [51], [52], Портенко, Скороход [55]. Для одного класса задач Флеминг [68] построил марковские (в смысле принятого в книге опре- деления) оптимальные стратегии. Ряд задач о нахождении оптимальных стратегий решен в работе Бенеша [5]. Наше изложение близка к [28]. § 3. Если (любое) решение уравнения Веллмана совпадает с "функ- цией выигрыша, то уравнение Веллмана может иметь только одно решение. Теоремы о единственности решений нелинейных уравнений без связи с теорией оптимального управления читатель найдет в рабо- тах: Бакельман [2], Ладыженская, Уральцева [39], Ладыженская, Солонников, Уральцева [40], Крылов [26], [35]. Глава VI § 1. Идея упражнения 6 похожа на идею одного примера Дынкина. § 2. В работах [29] и [30] требуется, чтобы с было достаточно велико по сравнению с первыми и вторыми производными о, Ь,
394 ПРИМЕЧАНИЯ При этом имеется в виду, что выполняются неравенства (15) и (17). В [9] с помощью примера показано, что если Т = со и неравенство (15) нарушается, то вторая производная функции выигрыша может быть неограничена. Относительно диффузионных процессов (Л состоит из одной точки) известно, см Фрейдлип [72], что если убивание мало, то «функция выигрыша» при Т = оо может не обладать гладкостью. Для них известно также, что с ростом гладкости исходных объектов и с ростом с неограниченно повышается гладкость «функции выигрыша» (Фрепдлин [72]). Интересно, что этого бесконечного повышения глад- кости может не быть для управляемых процессов. Например, пусть (w/, <FZ) — одномерный винеровский процесс, Л = [0, у], Т — со, оо t v(x) = sup М( е~и cos (*+ \ yr2asdws) dtt a e 21 о о где Z > О Нетрудно показать, что u(x) = ^-cosx, хе|0, г], Л cos X Н —-------- Л+v--------------------------X.(A + v)ch j/^ (г_л) х е |г, л], где z — решение па (0, л) уравнения th j/J (Л_г). Поэтому v" (z — ) = —г cos z =/= 0 — v" (? + ) и при любом 1 вторая Л производная v разрывна. Относительно повышения гладкости для функ- ции выигрыша см также замечания, сделанные перед теоремой 1.4.15 § 3—5 . В этих параграфах развиваются результаты работы [30]. Теорема 4.8 может быть получена методами книги Ширяева [78]. Кроме метода нахождения границы остановки, изложенного в упраж- нении 4.16, известны также другие; см. [37], [49], [77].
ЛИТЕРАТУРА 1. Аркин В. И., Колемаев В. А., Ширяев А. Н., О на- хождении оптимальных управлений, Труды МИАН 71 (1964), 21—25. 2. Б а кельм ан И. Я., Геометрические методы решения эллипти- ческих уравнений, «Наука», М., 1965. 3. Беллман Р. (Bellman R.), Динамическое программирование, ИЛ, М., 1960 (перевод книги: Dynamic programming, Princeton, 1957.) 4. Беллман Р., Кал аба Р., Квазилинеаризация и нелиней- ные краевые задачи, «Мир», М., 1968. 5. Бенеш (Benes V. Е.), Full «bang» to reduce predicted miss is optimal, SIAM J. Control and Optimization 14, 1 (1976), 62—84. 6. Бьюси, Джозеф (Bucy R. S., Joseph P. D.), Filtering for stochastic processes with application to, guidance, John Wiley & Sons, N. Y —London, 1968. 7. Веретенников А. Ю., Крылов H. В., О явных фор- мулах для решений стохастических уравнений, Матем. сборник 100, 2 (1976) 266—284. 8. Вонэм (Wonham W. М.), Random differential equations in con- trol theory, Probabilistic methods in applied mathematics, 2, Acad. Press, N. Y., 1970. 9. Г e н и с И. Л., Крылов H. В., Пример одномерного управ- ляемого процесса, Теория вероятн. и ее применен. 21, 1 (1976), 147—151. 10. Гире а но в И. В., Минимаксные задачи в теории диффузион- ных процессов, ДАН СССР 136, 4 (1961), 761—764. 11. Гихман И. И., СкороходА. В., Стохастические дифферен- циальные уравнения, «Наукова думка», Киев, 1968. 12. Гихман И. И., Скороход А. В., Теория случайных про- цессов, т. 3, «Наука», М., 1975. 13. Данфорд Н., Шварц Дж. Т., Линейные операторы, общая теория, т. 1, ИЛ, М., 1962. 14. Де р м а н (Dorman С.), Finite State Markovian Decision Processes, Acad. Press, N. Y., 1970. 15. Дуб Дж. Л., Вероятностью процессы, ИЛ., М., 1956. 16. Дынкин Е. Б., Марковские процессы, Физматгиз, М., 1963. 17. Дынкин Е. Б., Юшкевич А. А., Управляемые марковские процессы и их приложения, «Наука», М., 1975. 18 3 в о п к и п А К , О последовательно управляемых марковских процессах, Матем. сборник 86, 4 (1971), 611—621.
396 ЛИТЕРАТУРА 19. Звон кин А. К., Крылов Н. В., О сильных решениях сто- хастических дифференциальных уравнений, Труды школы-семинара по теории случайных процессов (Друскининкай, 25 — 30 ноября 1974 г.), II, Вильнюс, 1975, 9—88. 20. Красовский Н. Н., Субботин А. И., Позиционные диф- ференциальные игры, «Наука», М., 1974. 21. Крылов Н. В., О стохастических интегральных уравнениях Ито, Теория вероятн. и ее применен. 14, 2 (1969), 340—348; Исправление к работе «О стохастических интегральных уравне- ниях Ито>, там же 17, 2 (1972), 392—393. 22. Крыл оз Н. В., Задача с двумя свободными границами для эллиптического уравнения и оптимальная остановка марковского процесса, ДАН СССР 194, 6 (1970), 1263—1265. 23. Крылов Н. В., Ограниченно неоднородные эллиптические и па- раболические уравнения на плоскости, Матем. сборник 82, 1 (1970), 99—110. 24. Крылов Н. В., Управление марковскими процессами и про- странства W, Известия АН СССР, сер. матем., 35, 1 (1971), 224—255. 25. Крылов Н. В., Об одной оценке из теории стохастических инте- гралов, Теория вероятн. и ее применен. 16, 3 (1971), 446—457. 26. Крылов Н. В., К теории нелинейных вырождающихся эллип- тических уравнений, ДАН СССР 201, 6 (1971), 1279—1281. 27. Крылов Н. В., О единственности решения уравнения Белл- мана, Известия АН СССР, сер. матем., 35, 6 (1971), 1377—1388. 28. Крылов Н. В., Лекции по теории эллиптических дифферен- циальных уравнений, Изд-во МГУ, М., 1972. 29. Крылов Н. В., Об управлении решением стохастического интегрального уравнения, Теория вероятн. и ее применен. 17, 1 (1972), 111—127. 30. Крылов Н. В., Об управлении решением стохастического интегрального уравнения при наличии вырождения, Известия АН СССР, сер. матем., 36, 1 (1972), 248—261. 31. Крылов Н. В., О выделении марковского процесса из мар- ковской системы процессов и построении квазидиффузионных процессов, Известия АН СССР, сер. матем., 37, 3 (1973), 691—708. 32. Крылов Н. В., Несколько оценок из теории стохастического интеграла, Теория вероятн. и ее применен. 18, 1 (1973), 56—65. 33. Крылов Н. В., Некоторые оценки плотности распределения стохастического интеграла, Известия АН СССР, сер. матем., 38, 1 (1974), 228—248. 34. Крылов Н. В., Последовательности выпуклых функций и оцен- ки максимума решения параболического уравнения, Сиб. матем. журнал 17, 2 (1976), 290—303. 35. Крылов Н. В., Принцип максимума для параболических уравнений, Успехи матем. наук 31, 4 (1976), 267—268. 36. Крылов Н. В., Об уравнении Беллмана, Труды школы-семи- нара по теории случайных процессов (Друскининкай, 25—30 ноября 1974 г.), I, Вильнюс, 1975. 37. Куджма Р., Оптимальная остановка полуустойчивых марков- ских процессов, Литов, матем. сборник 13, 3 (1973), 113—117. 38. Кушнер Г. Дж., Стохастическая устойчивость и управление, «Мир», М., 1969.
ЛИТЕРАТУРА 897 39. Ладыженская О. А., Ура льде ва Н. Н., Линейные квазилинейные уравнения эллиптического типа, «Наука», М., 40. Л а д ы ж е н с к а я О. А., Солонников В. А., У р а л ь- цева Н. Н., Линейные и квазилинейные уравнения параболи- ческого типа, «Наука», М., 1967. 41. Леви, Стампакья (Lewy Н., Stampacchia G.), On existence and smoothness of solutions of some non-coercive variational inequalities, Arch. Rational Meeh. Anal., 41, 4 (1971), 242—253. 42. Л и о н с Ж. Л., О неравенствах в частных производных, Успехи матем. наук 26, 2 (1971), 205—263. 43. Лионе Ж. Л., Оптимальное управление системами, описыва- емыми уравнениями с частными производными, «Мир», М., 1972. 44. Липцер Р. Ш., Ширяев А. Н., Статистика случайных процессов, «Наука», М., 1974. 45. Майн, Ос аки (Mine Н., Osaki S.), Markovian decision proces- ses, Amer. Elsevier, N. Y., 1970. 46. Мандл П., Об управлении процессом Винера при ограничен- ном числе переключений, Теория вероятн. и ее применен. 12, 1 (1967), 73—81. 47. Мандл (Mandi Р.), On optimal control of a non-stopped diffusion process, Z. Warscheinlichkeitstheorie und verw. Gebiete, 4, 1 (1965) 1—9. 48. Мейер П.-А., Вероятность и потенциалы, «Мир», М., 1973. 49. Мирошниченко Т. П., Оптимальная остановка интеграла от винеровского процесса, Теория вероятн. и ее применен. 20, 2 (1975), 397—401. 50. Никольский С. М., Приближение функций многих перемен- ных и теоремы вложения, «Наука», М., 1969. 51. Нис ио (Nisio М.), Remarks on stochastic optimal controls, Jap. J. Math. 1, 1 (1975), 159—183. 52. Нис и о (Nisio M.), Some remarks on stochastic optimal controls, Proc. Third USSR —Japan Sympos. Probab. Theory, Lecture notes in mathematics 550, Springer-Verlag, Berlin —Heidelberg —New York, 1976, 446—460. 53. Ос трем К. Ю., Введение в стохастическую теорию управле- ния, «Мир», М., 1973. 54. Понтрягин Л. С., Болтянский В. Г., Гамкре- лидзе Р. В., Мищенко Е. Ф., Математическая теория оптимальных процессов, «Наука», М., 1969. 55. По рте н ко Н. И., Скороход А. В., О существовании е-оптимальных марковских стратегий для управляемых диффузи- онных процессов, Вопросы статистики и управления случайными процессами, Издание Ин-та математики АН УССР, Киев, 1973. 56. П р а г а р а у с к а с Г., Некоторые оценки стохастических интег- ралов, Литовск. матем. сборник 15, 3 (1975), 211—217. 57. ПрагараускасГ., К теории управления разрывными случай- ными процессами, Труды школы-семинара по теории случайных процессов (Друскининкай, 25 — 30 ноября 1974 г.), I, Вильнюс, 1975, 252—281. 58. Прохоров Ю. В., Управление винеровским процессом при ограниченном числе переключений, Труды МИАН 71 (1964), 82—87.
398 ЛИТЕРАТУРА 59. С а ф о н о в М. В., Управление винеровским процессом при огра- ничении на число переключений, Теория вероятн. и ее применен., 21, 3 (1976), 607—613. 60. Сафонов М. В., О задаче Дирихле для уравнения Беллмана в плоской области, Матем. сборник, 102, 2 (1977), 260—279. 61. СкороходА. В., Исследования по теории случайных процес- сов, Изд-во Киевского ун-та, Киев, 1961. 62. Смирнов В. И., Курс высшей математики, т. 5. Физматгиз, М., 1959. 63. Соболев С. Л., Некоторые применения функционального ана- лиза в математической физике, Изд-во СО АН СССР, Новосибирск, 1962. 64. Тобиас Т., Оптимальная остановка диффузионных процессов и параболические вариационные неравенства, Дифференциальные уравнения 9, 4 (1973), 702—708. 65. Тобиас Т., Об оптимальной остановке диффузионных процес- сов с вырожденной матрицей диффузии, Известия АН ЭССР 23, 3 (1974), 199—202. 66. Флеминг (Fleming W. Н.), Some Markovian optimization prob- lems, J. Math, and Meeh. 12, 1 (1963), 131 —140. 67. Флеминг (Fleming W. H.), The Cauchy problem for degenerate parabolic equations, J. Math, and Meeh. 13, (1964), 987 — 1008. 68. Флеминг (Fleming W. H.), Duality and a priori estimates in Markovian optimization problems, J. Math. Anal. Appl. 16 (1966), 254-279. 69. Флеминг (Fleming W. H.), Stochastic control for small noise intensities, SIAM J. Control 9, 3(1971), 437—515. 70. Флеминг, Рише л (Fleming W. H., Rishel R. W.), Determi- nistic and Stochastic Optimal Control, Springer, N. Y., 1975. 71. Фрейдлин M. И., Замечание об обобщенном решении задачи Дирихле, Теория вероятн. и ее применен. 10, 1 (1965), 175—178. 72. Фрейдлин М. И., О гладкости решений вырождающихся эллиптических уравнений, Известия АН СССР, сер. матем., 32, 6(1968) 1391—1413. 73. ФридЕ. Б., О полурегулярности граничных точек для нелиней- ных уравнений, Матем. сборник 94, 4 (1974), 516—539. 74. Фридман (Friedman A.), Stochastic differential equations, I, II, Academic Press, N. Y., 1975. 75. X о в a p д P. (Howard R. А.), Динамическое программирование и марковские процессы, «Советское радио», М., 1964 (перевод книги: Dynamic programming and Markov processes, John Wiley &Sons, N. Y. 1960.) 76. Шварц (Schwartz L.), Theorie des distributions, 1, Hermann, Paris, 1950. 77. Шепп (Shepp L. A.), Explicit solutions to some problems of opti- mal stopping, Ann. Math. Statist. 40, 3(1969), 993—1010. 78. Ширяев A H., Статистический последовательный анализ, «Наука», М., 1976.
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ Граница параболическая 259 Измеримость прогрессивная 383 Множитель нормирующий 27, 350 Момент марковский 383 Стратегия 40, 178 — допустимая 326 — естественная 41, 180 —* марковская 42, 180 -----присоединенная 321 -----смешанная 292 Сходимость в ([0, Т], В) 185 Пространства jf, 128, 304 X-предел 129 JfB-предел 129 Jf-производная 129, jfB-производная 129 Процесс винеровский 383 Решение слабое стохастического уравнения 122 Уравнение Веллмана для задачи об оптимальной остановке 27 Условия (/?), (Jf) 109—110 Функция выигрыша 20 — гладкая 67 — потерь 13 — правильная 75 — супергармоническая 305 — финитная 67 — эксцессивная 305
Николай Владимирович Крылов УПРАВЛЯЕМЫЕ ПРОЦЕССЫ ДИФФУЗИОННОГО ТИПА (Серия; «Теория вероятностей и математическая статистика») М , 1977 г., 400 стр. Редактор М.. П. Ершов Техн, редактор Л. В. Лихачева Корректор Л. Н. Боровина ИБ № 2299 Сдано в набор 15.04.1977 г. Подписано к печати 23.11 1977 г Бумага 84X108732. Физ. печ. л. 12,5. Условн. печ л. 21. Уч.-изд. л. 21,85. Тирану 5 800 экз. Т-20740. Цена книги 1 р. 70 к. Заказ № 5и Издательство «Наука» Главная редакция физико-математической литературы 117071, Москва, В-71, Ленинский проспект, 15 Ордена Трудового Красного Знамени Ленинград- ское производственно-техническое объединение «Печатный Двор» имени А. М. Горького Союзпо- лиграфпрома при Государственном комитете Сове- та Министров СССР по делам издательств, поли- графии и книжной торговли. 197136, Ленинград, П-136, Гатчинская ул., 26, Отпечатано со стереотипов во 2-ой типографии издательства «Наука» Москва Г-99, Шубинский пер., 10.