Текст
                    

АКАДЕМИЯ НАУК СССР ЦЕНТРАЛЬНЫЙ ЭКОНОМИКО-МАТЕМАТИЧЕСКИЙ ИНСТИТУТ Е.Б.ДЫНКИН, А. А. ЮШКЕВИЧ УПРАВЛЯЕМЫЕ МАРКОВСКИЕ ПРОЦЕССЫ И ИХ ПРИЛОЖЕНИЯ ИЗДАТЕЛЬСТВО «НАУКА» МОСКВА 1975
Книга посвящена одному из наиболее актуальных вопросов в общей теории управления — проблемам оптимального управления с учетом случайных факто- ров. Теоретические вопросы излагаются в ней парал- лельно с приложениями к задачам о распределении ресурсов между различными отраслями производства и потреблением, оптимальных сроках замены обору- дования, регулировании водоснабжения и др. Работа рассчитана на специалистов по приклад- ной математике, теории вероятностей, кибернетика, математической экономике, автоматизированным си- стемам управления. - 10803-167 Д 042(02)-75 -БЗ-20-13 CQ) Издательство «Паука*, г.
ПРЕДИСЛОВИЕ Эта книга посвящена систематическому изложению современной теории управляемых марковских процессов с дискретным временем (по другой терминологии — много- шаговых марковских процессов решения). Рассказано о применениях этой теории к различным конкретным за- дачам; особое внимание уделено математическим моделям экономического планирования, учитывающим случайные факторы. Авторы стремились строить изложение так, чтобы чи- татель, заинтересованный в приложениях, мог обойтись минимальным математическим аппаратом. В то же время математик найдет в соответствующих главах строгую теорию общих моделей управления, основанную на раз- витой теории меры, аналитических множествах, теоремах об измеримом выборе и т. п. Мы отступили от манеры многих математических монографий, в которых излага- ется сразу наиболее общая ситуация и лишь потом рас- сказываются более простые частные случаи и примеры. Ставя своей целью разделить трудности для читателя материала, мы вводим новые понятия и идеи в наиболее простой обстановке, где они уже начинают работать. Так прежде чем рассматривать проблемы управления на бесконечном интервале времени, мы детально исследуем случай конечного интервала. При этом сначала подробно изучаются модели с конечными пространствами состояний и управлений — случай, не требующий выхода за рамки элементарной математики и в то же время позволяющий объяснить важнейшие принципы теории. Результаты, полученные для конечных моделей, переносятся затем на более широкий класс полунепрерывных моделей, ко- торый выделяется с помощью условий топологического 1* 3
характера. При этом используются простейшие факты о непрерывных функциях в метрических пространствах и об интеграле Лебега. Наконец, изучается самый общий случай (борелевские модели), предъявляющий значительно более высокие требования к математической подготовке читателя. Некоторые трудности, с которыми приходится сталкиваться, возникают уже для счетных моделей; их мы рассматриваем предварительно. Более серьезные ос- ложнения, связанные с проблемами измеримости, преодо- леваются с помощью аппарата аналитических множеств и теоремы об изоморфизме борелевских пространств (необходимые результаты доказываются в добавлении). Такая система изложения требует некоторых повторений. Как правило, доказательство подробно проводится для простейшего класса моделей, к которому оно применимо. Для более широких классов указываются лишь необхо- димые дополнения. Общим постановкам задач предше- ствуют конкретные примеры из разных областей прило- жений. Ряд таких примеров описывается во введении. Мы возвращаемся к ним на протяжении всей книги цо мере того, как общая теория дает средства для их решения. Теория многошаговых марковских процессов решения была подготовлена пионерными работами Вальда [1, 2] по последовательному анализу и статистическим решающим функциям. Под названием динамического программирова- ния она развивалась Бцллманом с начала 50-х годов. В этой теории учитывается двоякая роль управления на каждом шаге: непосредственный выигрыш и влияние на последующую эволюцию системы. Уже в первой монографии Веллмана [1] наряду с детерминированным рассматри- вался стохастический случай, -когда управленце не опре- деляет .последующих состояний . системы^ а--лишь влияет на их распределение вероятностей. Дальнейший сущест- венный вклад был внесен Ховардом [1] и Дуббинсом и Сэвиджем [1]. Фундаментальные результаты относительно управляемых марковских процессов с произвольными множествами состояний и управлений были получены Блекуэлом [4, 5] и Штраухом [1]. Их работы составляют основу излагаемой нами теории борелевских моделей. Другое изложение результатов Блекуэла—Штрауха со- держится в монографии Хиндерера [1]. В . первых двух частях предлагаемой книги доказы- вается существование оптимальных и е-оптимальных 4
стратегий для различных классов управляемых марков- ских процессов; исследуются свойства этих стратегий и указываются некоторые способы их нахожденйя. Парал- лельно с общей теорией рассматриваются конкретные задачи: распределение ресурса между производством и потреблением и между различными отраслями производ- ства, замена оборудования, стабилизация линейной си- стемы, находящейся под влиянием случайных возмущений, распределение ставок и др. Сначала рассматриваются процессы, неоднородные До времени, а затем исследуются специфические проблемы, связанные с однородным слу- чаем: существование стационарных оптимальных стра- тегий, максимизация среднего дохода за единицу времени. В третьей части анализируются модели с неполной инфор- мацией. Их удается свести к моделям с полной информа- цией, изученным в первых частях, с помощью введения пространств, точками которых служат распределения ве- роятностей. Последняя глава посвящена новым резуль- татам о вогнутых моделях и моделях экономического развития, учитывающих случайные факторы. Другие главы также содержат ряд новинок (канониче- ские стратегии, суммируемые модели, исследование общих моделей с неполной информацией). Доказательства мно- гих известных результатов подверглись значительной переработке. В книге не затронуты управляемые процессы с непре- рывным временем. Это — тема, требующая специальной монографии. Мы не ставили целью полностью охватить и все результаты о процессах с дискретным, временем (све- дения о некоторых из них содержатся в историко-библио- графической справке в конце книги). Весь материал книги можно разделить на три уровня в зависимости от требований к читателю. Первый предпо- лагает только знание элементов теории вероятно.стей и анализа. Соответствующие разделы доступны специали- стам с инженерным и экономическим образованием. Это — введение, главы 1 и 4, §§ 1—6 главы 6, §§ 1—7 и 11 главы 7. Читателям указанной категории рекоменду- ются также §§ 7—11 главы 2, §§ 9—12 главы 6 и § 12 главы 7, где рассматриваются приложения общих мето- дов к конкретным задачам (при этом придется Дросмотреть формулировки из других параграфов, на которые имеются ссылки). Следующий уровень ориентирован на лиц, ра- 5
ботающих в области прикладной математики. В соответ- ствующих разделах используются лишь начальные све- дения из теории меры и-теории метрических пространств, причем все необходимые формулировки приводятся в тексте. Сюда относятся глава 2, §§ 8—10 главы 7, §§ 1—3 и 5 главы 8 и глава 9 (последний параграф этой главы требует знакомства с элементами функционального ана- лиза). Остальные разделы (главы 3 и 5, §§7—8 главы 6, § 4 главы 8 и добавления 1—5) представляют интерес главным образом для математиков, хотя начальные па- раграфы глав 3 и 5, и § 7 главы 6, где формулируются основные результаты, полезно просмотреть и другим читателям. Для полного чтения этих разделов достаточно обязательного курса математических факультетов. Све- дения, выходящие за рамки этого курса, приводятся в до- бавлении и, частично, в основном тексте.. Аппарат, изло- женный (с подробными доказательствами) в добавлении, находит широкое применение во многих разделах совре- менной математики. * * * ' Формулы нумеруются в пределах каждого параграфа. Принятая в книге система ссылок ясна из следующих примеров: (3.2.7)—это формула (7) из § 2 главы 3; (2.7) — это формула (7) из § 2 данной главы; (0.5) — это формула (5) из введения.
ВВЕДЕНИЕ Управляемые случайные процессы возникают в самых разнообразных областях. Обратимся, например, к экономическому планирова- нию. Планировать можно работу отдельного предприятия, отрасли или всего народного хозяйства. В начале каждого периода, исходя из достигнутого состояния, намечается план на следующий период. Развитие системы можно опи- сывать математически как управляемый детерминирован- ный процесс, если считать, что состояние системы в конце каждого периода однозначно определяется состоянием в начале периода и планом на этот период. Однако не всегда можно пренебрегать влиянием таких факторов, как метеорологические условия, демографические сдвиги, ко- лебания спроса, несовершенство координации сложных производственных процессов, научные открытия и изобре- тения. Эти факторы лучше учитываются стохастическими моделями, в которых, зная состояние в начале периода и план, можно вычислить лишь распределение вероят- ностей для состояния в конце периода. Таким образом мы приходим к управляемому случайному процессу. Проиллюстрируем сказанное на простейшей модели распределения ресурсов между потреблением и производ- ством. Интересные качественные выводы можно, получить даже из крайне упрощенной модели с единственным ре- сурсом, который можно использовать как для производ- ства, так и для потребления. Предположим, что в течение одного периода из у единиц ресурса в сфере производства получается F (у). Если обозначить через yt количество, направляемое в производство в период i, и через ct — количество продукта, потребляемое в этот период, то 7
имеем очевидное соотношение У( + ci = F (!) Влияние случайных факторов вводится с помощью пред- положения, что F зависит, помимо у, от случайного пара- метра s, так что У, + Ъ = Р(У<-1’s<)- (2) К описанной упрощенной модели сводится более содержа- тельная экономическая модель, учитывающая, что для производ- ства необходимы трудовые затраты и производственные фонды.' Уравнение = L^) выражает продукцию за период t через количество фондов и количество труда Lt^ в этом периоде. Функция Ф называется производственной функцией. Произведенная продукция Х( раз? деляется на часть Ct, направляемую на потребление, и часть Xt—Ct, используемую Для приращения производственных фондов. Оче- видное соотношение К^К^-^-Хt—Ct можно переписать в виде = + С/- (3) Обычно предполагают, что производственная функция Ф удовлет- воряет условию Ф (ХК, XL) = 1Ф (К, L) при Х>0. Поделив уравнение (3) на Lt и полагая получим уравнение Уг'= z72 [У/-1 + ф (Уг'-т. 1)1— с1- . (4) Будем считать, чта lt=l не зависит от времени t, так что трудовые ресурсы меняются по показательному закону. Тогда уравнение (4) примет форму (1), если положить 7(у) = г-Чу + Ф(у, 1)]. Отметим, что величины ct и yt имеют простой экономический смысл, выражая, соответственно, потребление и количество»фондов на одного работника. Если учитывать случайные факторы, то .надо ввести случай- ный параметр 5 в производственную функцию Ф. Тогда F тоже будет зависеть от 5, и мы получим уравнение (2). 8
Более содержательная модель экономического плани- рования должна учитывать не единственный ресурс, а множество таких ресурсов. Одна из таких моделей пред- ложена Д. Гейлом (она является обобщением более ран- ней модели Дж. Неймана). В ее основе лежит представ- ление производственного процесса в виде пары неотрица- тельных m-мерных векторов (£, г,): i-ые координаты этих векторов означают, соответственно, количества i-oro ре- сурса, затрачиваемого и выпускаемого в ходе процесса. Для каждого периода t нужно выбрать производственный процесс (^, 7],) из Заданного множества аГt процессов, технологически осуществимых в этот период. При этом затраты на каждом шаге не должны превышать выпуска на предыдущем шаге, так что Va-i (т|0 обозначает заданный вектор начальных ресурсов1. Множество <?Гt может зависеть от случайного параметра st, описывающего, например, состояние научно-техниче- ских знаний или внешней среды. Тогда и выбор процесса (£р t]z) должен зависеть от. st (он может зависеть и от предшествующих значений случайного параметра, но не от будущих, которые еще неизвестны). Еще один пример — задача регулирования запасов воды. Вода запасается в водохранилище и расходуется для орошения в засушливый период. Пусть st — годовое количество воды, которое можно использовать для по- полнения водохранилища. В начале периода t, распола- гая запасом воды х(_х, мы планируем количество воды ait которое будет использовано в этот период на орошение. Ерли бы объем водохранилища был неограничен, то мы имели бы уравнение х^х^—Если же его объем равен U, то вместо этого получаем соотношение = -«/ + «/) Л U2- (5) Значение sf зависит от количества осадков, характера половодия, таяния ледников и т. п. и его естественно рас; сматривать как случайную величину. Следующий пример можно интерпретировать как задачу распределения ставок между двумя вариантами игры. При ставке х выигрыш в первой игре равен ах, а во вто- 1 Запись В < л, где Е и ч — m-мерные векторы, означает, что каж- дая координата В не превосходит соответствующей координаты т]. 2 Сцмвод а /\ Ъ обозначает наименьшее из чисел а и Ь. 9
рой — та, где а и т — случайные величины с различными распределениями вероятностей. Игра повторяется много- кратно. Пусть xt— общая сумма, которой играющий располагает в момент t—1, и пусть он ставит в пер- вой игре и во второй (az+|3Z=1). Тогда = ^tat + ₽Л<) (6) Вместо двух игр можно рассматривать два способа поме- щения денег (например, положить их в сберкассу или приобрести лотерейные билеты) или две производственные отрасли с различными коэффициентами отдачи. В послед- нем случае естественно заменить уравнение (6) на xt = («Л + (^.1 — с#), (7) считая, что выпуск в момент t—1 не полностью распреде- ляется между производственными отраслями, а частично идет на потребление. В каждой задаче управления возникает вопрос о цели управления. В задаче распределения ресурса между потреб- лением и производством естественно оценивать план по последовательности с1; с2, . . . , cz, . . . количеств, направ- ляемых на потребление. Наиболее простая и законченная теория получается, если предположить, что оценка такой последовательности складывается и» оценок каждого ко- личества ct, что приводит к выражению 91 (с? + 92 (сг) 4” • 4" qt (с<) + • • (8) (естественно считать, что оценка объема потребления сг зависит и от времени t). В математической экономике обычно предполагают, что функции qt вогнуты3. Сумма (8) определяет так называемую целевую функцию, максими- зация которой является целью планирования. В многопродуктовой модели Неймана—Гейла в ка- честве целевой функции принимается 91 (4’ *11) 4“ 9г ^2’ 4“ 4" 9/ (£*> "Ч/) + • • • где gz(£, т]) — оценка полезности производственного про- цесса (?, т). Управление запасами воды преследует задачу полу- чить наибольший урожай. Можно считать, что средний урожай за период t является функцией /(а) от количества 3 График вогнутой функции иежцт над каждой его хордой. К)
воды а, отпускаемой для орошения. Оценивая урожай z в году i с помощью функции gt(z), мы приходим к целевой функции Qi (ai) + ?2 («г) • • Н- Qt (at) + • • • > (9) где Если план составляется на п периодов, то в суммах (8) и (9) надо рассматривать первые п членов. Если управляемый процесс случаен, то целевая функ- ция (8) или (9) представляет собой случайную величину. Из двух случайных величин естественно предпочесть ту, у которой больше математическое ожидание. Поэтому в стохастическом варианте управления суммы (8) и (9) заменяют их математическими ожиданиями. Вернемся к задаче о распределении ставок между двумя играми. Здесь естественно стремиться к максимально возможному окончательному выигрышу хп, причем оце- нивать величину хп можно, например, с помощью мате- матического ожидания г(х^), где г — какая-то неубываю- щая функция. Отметим, что оптимальное поведение за- висит от вида функции г. Вообще говоря, получить лишний рубль важнее тогда, когда этих рублей мало, и поэтому часто считают, что функция г вогнута. Однако, может случиться, что нам требуется определенная сумма h, и целью является выиграть эту сумму с максимальной вероятностью. В этом случае надо положить | 1 при x^h, ГI 0 при x<^h. Более общая постановка задачи была бы такая, при которой из любых двух распределений вероятностей для выигрыша хп игрок предпочитает какое-то одно (или считает их равноценными). Из об- щей теоремы Неймана—Моргенштерна вытекает, что при широ- ких предположениях такое упорядочение распределений определя- ется величиной математического ожидания г (хп), где функция г определена однозначно с точностью до постоянного положительного множителя и постоянного слагаемого 4. В задаче распределения средств между двумя отраслями разумно рассматривать Целевую функцию (8). * * * 4 См. К. Эрроу [1], раздел 2, и Е. Б. Дынкин и Л. И. Овсеевич [1]. 11
Приведем еще две задачи оптимального управления случайными процессами. Первая из них — задача о замене оборудования. Предположим, что имеется некоторое устройство со слу- чайным сроком службы, и в начале каждого периода мы должны принять одно из двух решений: заменить устройство на новое или продолжать эксплуатировать старое. Вероятность поломки устройства и доход от его эксплуатации зависят от времени службы. При замене мы несем расходы на новое оборудование, при поломке сверх того терпим определенные убытки. Целью управле- ния является получение возможно большей суммарной прибыли (поскольку она случайна — рассматривается ее математическое ожидание). Вторая задача — поддержание стационарного режима работы технического устройства, подверженного случай- ным возмущениям. Простейшее описание соответствую- щего процесса дается уравнениями У/ = — ai xt= у f Н- где slt s2, . . . , s(, . . . — случайные возмущения, ах, а2, ... , af, . . . — корректирующие воздействия (выби- рая at, мы знаем Мы терпим убытки от отклонения yt от 0 и несем расходы, зависящие от величины at. Можно, например, ставить себе целью минимизировать матема- тическое ожидание суммы (11) 1 1 Другая возможность — минимизировать средние расходы за единицу времени при п -> со. * * * До сих пор мы предполагали, что обладаем полной информацией относительно управляемого процесса. Между тем в реальных приложениях, как правило, получение полной информации либо невозможно, либо слишком сложно и дорого. Например, значение xt в задаче поддержания стацио- нарного режима работы может наблюдаться с некоторой 12 (10)
(неизвестной) ошибкой. В задаче выбора между Двумя отраслями распределения вероятностей для случайных коэффициентов а и г обычно неизвестны, хотя и имеется частичная о них информация, основанная на предваритель- ном опыте и расчетах. В этих условиях каждый следующий шаг не только дает материальную отдачу, но и приводит к дополнительным знаниям. Эти две стороны дела присущи почти каждой сфере чедовеческой деятельности, причем, как правило, на первый план выдвигается одна из них. Для производственного предприятия основной целью яв- ляется материальная отдача, но важным побочным резуль- татом оказывается накопление производственного опыта. Для научного учреждения ситуация противоположна.
Часть I УПРАВЛЕНИЕ НА КОНЕЧНОМ ИНТЕРВАЛЕ ВРЕМЕНИ Глава 1 КОНЕЧНЫЕ И СЧЕТНЫЕ МОДЕЛИ § 1. Управляемый детерминированный процесс Чтобы ввести читателя в идеи, на которых основано решение задач оптимального управления, рассмотрим следующую простейшую схему. На рис. 1.1 изображена система из 4 точек и 8 стрелок, соединяющих эти точки. Возле каждой стрелки указано число — оценка этой стрелки. Разрешается произвольно двигаться в направлении стрелок, причем оценка пути определяется как сумма оценок всех пройденных стре- лок 1 . Среди путей, выходящих из точки х и состоящих из четырех стрелок, требуется выбрать путь с максималь- ной оценкой (назовем его оптимальным). Таким путем, как мы увидим дальше, является путь, выделенный на рис. 1.1 жирными стрелками. При выборе оптимального пути на каждом шагу надо учитывать не только, в какой точке мы находимся, но и сколько шагов еще остается сделать. Поэтому целесо- образно заменить рис. 1.1 схемой, изображенной на рис. 1.2. На этой схеме 5 столбцов изображают 4 точки рис. 1.1 в моменты времени 2=0,1, 2,3, 4. Стрелки, ве- дущие из столбца в столбец Xt, показывают переходы, возможные на 2-ом шаге. Если выбрать любой путь из четырех звеньев на рис. 1.1, то соответствующая цепочка стрелок на рис. 1.2 изобразит график движения. 1 Оценку пути можно представлять себе как вознаграждение, по- лучаемое при прохождении этого пути. Она служит определен- , ным критерием качества принимаемого решения. 14
В отличие от рис. 1.1 схемы, подобные рис. 1.2, поз- воляют задавать системы, меняющиеся во времени (см. рис. 1.3). Если вычеркнуть из схемы, представленной Рис. 1.2 Рис. 1.1 на рис. 1.3, несколько первых или последних столбцов, то снова получится схема аналогичного типа, только номер крайнего слева столбца окажется отличным от < нуля. Рис. 1.3 В общем случае (см. рис. 1.4) имеем конечные множества точек Хт, Хт+1, . . . , Хп (столбцы) и конечные множества стрелок Лт+1, . . • , (стрелки множества At ведут из в X,). Точки множества Хп называются финальными. Из каждой нефинальной точки выходит по крайней мере одна стрелка. Последовательность стрелок образует путь, если начало каждой из них (кроме первой) совпадает с концом предыдущей стрелки и последняя стрелка окан- чивается в Хп. На множестве всех стрелок задана функ- ция q. Сумма значений этой функции на всех стрелках 15
пути называется оценкой этого пути. Среди путей, выхо- дящих из заданной точки х, требуется выбрать путь с наибольшей оценкой (оптимальный путь). Оценку оптимального пути, выходящего из точки х, мы назовем оценкой точки х и обозначим v(x). Для того, чтобы функция v(x) была определена на множестве X всех точек, положим ее равной 0 на Хп. Рис. 1..4 Задача, разумеется, будет решена, если мы переберем все пути, выходящие из х, и сравним их оценки. Но этот метод редко применим, ввиду огромного количества ва- риантов даже в не очень сложных схемах. Предположим, однако, что мы уже знаем функцию v(x). Тогда задача легко решается с помощью следующего критерия: для оптимальности пути I необходимо и достаточно, чтобы для любой стрелки а, принадлежащей I, q(a) = v (х) — v (у) (1) (х — начало стрелки а, у — ее конец). В самом деле, складывая равенства (1) по всем стрелкам пути I, полу- чим, что оценка I равна значению v в начальной точке этого пути. В то же время для любой стрелки а и ее на- чальной и конечной точек х и у v(x)~^q (а) + v (у) (2) (ибо правая часть равна оценке пути, состоящего из стрелки а и оптимального пути, выходящего из у). Если хо- тя бы для одной стрелки пути I в формуле (2) имеет место строгое неравенство, то складывая неравенства (2) по всем стрелкам пути I, получим, что оценка I меньше оценки v в начальной точке, и, следовательно, путь I не оптимален. Заметим далее, что в нефинальной точке х v (х) = max [g (а) -|- v (у)], (3) (я), 16
где у — конец стрелки а, А(х) — пучок стрелок, выхо- дящих из х. Действительно, для любой стрелки а из А(х) выполняется неравенство (2), а для стрелки а, являю- щейся началом оптимального пути из точки х, оно заме- няется равенством [см. (1)]. Формула (3) выражает значе- ние оценки v на Х1Л через ее значение на Xt и позволяет вычислять v рекуррентно, двигаясь справа налево. Рис. 1.5 Рис. 1.6 На рис. 1.5 и 1.6 показаны вычисленные таким спо- собом значения оценки v для схем, изображенных на рис. 1.2 и 1.3, и из каждой нефинальной точки х жирно проведена стрелка, удовлетворяющая критерию (1). Опти- мальны те и только те пути, которые состоят из жирных стрелок. * * * Мы считали, что оценка пути складывается из оценок входящих в него стрелок. Можно рассмотреть более общую задачу, когда в оценку пути вносят вклад не только стрелки, но и точки пути. Пусть 1=хтат+1 хт+1. . . апхп — 2 Е. Б. Дынкин, А. А. Юшкевич 17
путь, состоящий из последовательно проходимых стре- лок ат+1, . . . , ап (at^At) и точек хт, хт+1,. . . ,xn(xtQXt)t причем началом стрелки at служит точка xt_r, концом — точка xt. Определим оценку I пути I формулой Z (Z) = г (хт) -J- д (ат+1) -J- г (хт+1) q (аж) -ф- + г (О> (4) где г — функция на точках, q — функция на стрелках. Если положить 5 (а) = г (х) 4- q (а) (х — начало стрелки а), то оценка (4) запишется в виде: /=тп —|—1 Поэтому мы ничего не потеряем в общности, считая, что г равно 0 на нефинальных точках. Тогда оценкой пути I будет сумма Ц1)= 2 <1Ы-]-г(хп). Функции q и г назовем текущей и финальной платами. Критерий оптимальности пути и формула (3) сохра- няют силу и при наличии финальной платы г. Единствен- ное различие состоит в том, что теперь оценка и равна на Х„ не 0, а г. * * * Удобно ввести оператор V, преобразующий функции на стрелках в функции на нефинальных точках по фор- муле 2 Vg (х) = sup g (а), (5) а£Л(а?) и оператор U, преобразующий функции на точках в функ- ции на стрелках по формуле Uf (a) = q (а) —|—/ (г/) (г/— конец стрелки а). (6) В частности, Uv(a)— это максимальная оценка пути, на- чинающегося стрелкой а. Обозначим эту величину и (а) и * Разумеется, пока мы имеем дело с конечными множествами Л (ж) супремум можно заменить максимумом, 18
йАзойеМ ее оценкой стрелки а. В силу условия (3) v (х) = Vu (х) (х £ Х\Х„), и (а) = Uо (а) (а £ А) (7) v(x) = r (х) (х е XJ. (8) Уравнения (7) с граничным условием (8) определяют иии. Значение Eg (х) приагиз Х{_г определяется по значениям g на ЛрЗначение U / (а) при а из A t — по значениям/на Хг Функ- цию g можно рассматривать как набор (gBl+1, . g„}, rfleg(—• сужение g на At, функцию/—как набор {/m,/m+1,. . где /, — сужение / на Xt. Операторы V и U также можно заме- нить наборами (Ут+1, . . 7J и {Um+1, . . Un}, где Vt пере- водит функции на Aj в функции на Х^, a Ut переводит функции на Xt в функции на At. В этих обозначениях формулы (5)—(8) перепишутся следующим образом: = supgz(a) (х^Х^); Utft (й) — Qt (х) (х — конец стрелки а, a^At; vt^!=Vtut, ut = Utvt (m<Zt^n) (9) 14 = г. (10) § 2. Управляемые марковские процессы и модели Предположим, что выбор стрелки в точке х определяет не состояние у, а лишь распределение вероятностей для этого состояния. Пример такой схемы изображен на рис. 1.7. В Столбике Аг указаны три распределения ве- роятностей на множестве Хп соответствующие трем стрел- „ кам, ведущим из Хо. В столбике А2 указаны пять распре- делений вероятностей на множестве Х2, отвечающих стрел- кам, начинающимся в Хг. Как и прежде, мы стремимся пройти путь с максимальной оценкой (т. е. суммой чисел, стоящих над стрелками пути и его финальным состоянием). Однако,теперь проходимый путь зависит не только от нашего выбора, но и от случая, и мы хотим максимизи- ровать математическое ожидание оценки. Естественно рассуждать следующим образом. В со- стоянии III математическое ожидание оценки равно о-h|.i+4-.2=о+4=4 2* 19
Рис. 1.7 при выборе первой стрелки и равно 2 = 1+±=1 О О о о при выборе второй стрелки. Оценка состояния III 7 равна максимуму из этих двух чисел, т. е. у, и ясно, что при состоянии III следует предпочесть вторую стрелку (см. рис. 1.8, на котором выбранные стрелки проведены ’ жирно). Аналогично р(77) = шах(2 + |. 1 + 1.2; 1 + {• 1 +|.2)= Л, , 4 1 I 8\ 10 = тах(2 + у; 1+-)=т, и в состоянии IV предпочтительнее первая стрелка; 20
Рис. 1.8 p(V) = max ^3 + 1 • 1+0-2; 2 + у• 1 + у-2) = = max (^3 + 1; 2 + = 4, и в состоянии V выгоднее первая стрелка. Далее, выбирая в состоянии I первую стрелку, а затем поступая оптималь- ным образом, получим оценку 3 Т 6 ^9 9 а выбирая вторую стрелку — оценку п , п 7 . 1 10 . 1 , п . И _о 2 0 + °‘У + "2 ‘т + ~2 ’ 4 — ° + 3 Т • Максимальное из этих двух чисел — v (I). В состоянии I нужно выбирать ту стрелку, которая привела к значению v (I), т. е. первую стрелку. Выбранные в каждом нефи- нальном состоянии стрелки (и единственная стрелка из состояния II) описыв'ают оптимальный способ поведения. Чтобы обосновать этот вывод, необходимо сначала точно поставить задачу. 21
Пусть Xt (t=m, m-pl, . „ . , n) и A/(t=m-)A, . . . , n) — произвольные конечные множества. Каждому а из At со- поставлено распределение вероятностей р( |п) на Х( 3 . Функцию р, определяющую закон перехода из At в Х(, мы будем называть переходной функцией. Естественно считать, что точка множества Хт, из которой начинается путь, тоже случайна, и дано ее распределение вероятно- стей fi (начальное распределение). Переход из х^Х^ в A t определяется нашим выбором. При этом мы выбираем а не из всего At, а из его подмно- жества Л (а:), зависящего от состояния х [на рис. 7 А (х) — это подмножество, в элементы которого можно попасть по стрелке, ведущей из х]. Элементы множества А(х) мы называем управлениями в точке х. Множества Л (а:) определены (и не пусты) для всех нефинальных состоя- ний х. Мы будем предполагать, что Л (а:) попарно не пе- ресекаются и их сумма по всем х из Xt_t равна А(. Другими словами, каждое управление а может быть использовано в одном и только одном состоянии. Это состояние мы обо- значим ]'(а), так что запись x=j(a) равносильна записи п£Л(гг). Отображение j будем называть проекцией, а мно- жества А(х)=]'~1(х) — слоями. На множестве всех управлений задана текущая плата q (а), на множестве финальных состояний — финальная плата г(х). Таким образом, мы приходим к понятию управляемого марковского процесса на промежутке времени \т, п]. Этот процесс задают следующие элементы: а) множества Хт, Хт+1, . . . , Хп (пространства со- стояний); б) множества Ат+1, . . . , Ап (пространства управле- ний); п в) отображение j множества управлений Л = U А( 3 Задать распределение вероятностей р на конечном (или счетном) множестве Е — значит отнести каждому х f) Е неотрицательное число р (х) так, чтобы сумма этих чисел была равна 1. Для каж- дого Г С Е р (Г) обозначает сумму р (х) по всем х из Г. Если для подмножества Г множества Е выполняется условие р (Г)=1, то мы говорим, что распределение р сосредоточено на Г. Мы пи- шем р (-|а) вместо р (а:|а), чтобы отличить закон, задающий рас- пределение, от числа р (а:|а), отвечающего конкретному х. 22
п в множество состояний X = U Xt такое, что / (4#) — Х{_г / \ t=m (проекция); г) распределения вероятностей р( |п) на Xt, зависящие от a£At (i=m+l, . . . , п) 4 (переходная функция); д) функция q на множестве А управлений (текущая плата); е) функция г на множестве Хп финальных состояний (финальная плата); ж) распределение вероятностей д на Хт (начальное распределение). При изучении управляемых процессов полезно сокра- . щать отрезок [т, п] до меньшего отрезка [mlt п]. Для сокращенного процесса элементы, перечисленные в пунк- тах а)—е), однозначно определяются по первоначальному процессу. Напротив, начальное распределение (в момент mJ зависит от способа управления на промежутке вре- мени [т, mJ. Естественно поэтому дать специальное название объекту, который определяется элементами а)—е). Мы назовем этот объект моделью 5 . Если задана модель Z, то каждому распределению р на Хт соответствует одно- значно определенный управляемый процесс Z , для ко- торого р — начальное распределение (в случае, когда д сосредоточено в точке х, вместо Z;i мы будем писать ZJ. Наша цель — найти способ управления, при котором максимально математическое ожидание оценки п i<!)= s + (1) пути I = • • апхп (2) msjjsj/i; at £ A (xt_J с 4Z, Необходимо уточнить, что понимается под способом управ- ления. Это будет сделано в следующем параграфе. * * * Сделаем несколько замечаний и рассмотрим примеры. Мы предположили, что множества управлений, воз- можных в различных состояниях, не пересекаются между 4 Иногда удобно считать, что р(-|а) — распределение вероят- ностей на X, сосредоточенное на Xt при a f At. 6 Лучше было бы говорить «марковская модель». Слово «марковская» мы опускаем для сокращения, §3
собой. Это удобно в общей теории, но не всегда удобно при разборе конкретных примеров. Если множества А(х) пересекаются, то естественно считать, что переходная функция и текущая плата в момент t зависят не только от at, но и от xt_x. Однако этот более общий случай не- медленно сводится к нашему, если понимать под управ- лением пару xf~xat (при этом отображение j сопоставляет каждой такой паре первую ее компоненту). Далее, выбор управления может определять не зна- чение текущей платы, а только распределение вероятно- стей для этого значения. Мы можем, однако, снова вер- нуться к рассмотренной схеме, заменив такую случайную плату ее математическим ожиданием 9 . С подобной си- туацией мы имеем дело, например, если плата на шаге t зависит от xt_v at и xt. Такую плату можно заменить на Я = S q P (xt I xi-iat)- (3) Наконец, определение модели значительно упрощается, когда ее элементы не меняются с течением времени (с при- мера такой схемы начинается §1 данной главы). Мы гово- рим при этом об однородной модели. Чтобы задать такую модель надо определить проекцию j пространства управ- лений А на пространство состояний X, распределение вероятностей р на X, зависящее от а из Л (переходную функцию) и текущую плату q на А. Если задана однородная модель У, то каждому нату- ральному п соответствует n-шаговая модель Z в прежнем понимании (неоднородная модель), которая строится сле- дующим образом. Рассматриваются п-Н экземпляров Хо, Хх, . . . , Хп пространства X и п экземпляров Ап . . . , Ап пространства А и считается, что j отображает At в Х/х, а распределенйе р(-|а)при а^А( сосредоточено на Xt 6 7 . (Эта конструкция уже встречалась нам в § 1 данной главы. Финальную плату можно положить равной, например, нулю. Однородные модели более естественно рассматривать на интервале времени [0, со) (см. главу 6). 6 Подробнее об этом см. в конце § 3 (петит). 7 Формально можно .определить Х{ как совокупность пар (t, х), (х 6%), А —как совокупность пар (t, а)(а f 4) и положить j (t, a)=(t—1, j (a)), p (t, z|i, a)=p (x, a), q (t, a) = q (a). 24
* * * Остановимся на том, как сводятся к общей схеме кон* кретные задачи, которые мы рассматривали во введении. Начнем с задачи о замене оборудования. Этой задаче соответствует следующая однородная модель. Под со- стоянием надо понимать время работы действующего обо- Рис. 1.9 рудования. Мы будем считать, что зто время описывается целым неотрицательным числом х (см. рис. 1.9). В каж- дом состоянии х возможны два управления: с — сохранить старое оборудование и d — произвести замену. При управ- лении d система переходит в состояние 0. При управлении с происходит переход х х-^-1, если не случится поломки оборудования. Если такая поломка произойдет, то обо- рудование придется заменить и совершится переход гг -> 0. Вероятность поломки зависит, конечно, от срока службы х. Обозначим ее qx и положим рх=1 — qx. Естест- венно предположить, что qx не убывает с увеличением х. Чтобы иметь дело с конечным пространством состояний, мы допустим, что при некотором х=К эта вероятность становится равной 1; тогда х будет принимать только значения 0,1,2, . . ., К. Переходная функция модели определяется формулами р (х + 11хс) = рх, p(0\xc) — qx, p(0\xd')=±l (4) (х = 0, 1, . . К) (вероятности других переходов равны 0). Текущая плата на шаге t зависит от времени службы прибора, от нашего решения и от того, произойдет ли поломка на этом шаге. Пусть hx — доход при переходе 25
x-i-x-j-1 (т. e. при благополучной эксплуатации оборудо- вания, уже прослужившего время х)\ по смыслу задачи hx не возрастает с увеличением х8. Обозначим через а доход за период, когда происходит замена оборудования (переход хД.0). Мы будем считать, что а не зависит от х и a <^hx при любом х. Наконец, пусть у — доход при переходе х4 0. Поскольку замена оборудования при поломке обходится дороже планомерной замены, то у <С а. Определенная нами текущая плата, вообще говоря, за- висит от всей тройки xt_1atxt. В соответствии с замеча- нием, сделанным ранее, зту плату можно заменить ее математическим ожиданием (3) при фиксированных xi_1 и аг Тогда мы будем иметь q (хс) = pxhx + qx*(, q (xd) = a (5) (x = 0, 1....K). Финальную плату rx (x=0,l, . . ., К) можно положить равной нулю или любой невозрастающей функции от х (последнюю можно истолковать, как оценку стоимости оборудования в конце промежутка управления). Остальные задачи, рассмотренные во введении, соот- ветствуют следующей схеме. Эволюция системы описы- вается уравнением = «п s/)> (6) показывающим, куда она переходит из х1_1 под действием управления at в ситуации, описываемой случайным па- раметром s(. Чтобы получить уравнениеДО. 2), описываю- щее однопродуктовую модель, достаточно положить xt = yt + cv at = yt-v Ft(x, a, s) = F(a, s); (7) управление at можно выбирать из промежутка [0, Уравнение (0.5) в задаче о регулировании запасов воды получится при Ft (х, a, s) = (x — а-|-5)Д£Л (8) К уравнению (0. 6) из задачи о распределении ставок можно придти, принимая за st пару (ар \) и полагая at=at, F (х, a, s) — [«- -1- (1—а)т]х. (9) в Этот доход может быть и случаен; тогда под h надо понимать его математическое ожидание. То же относится и к вводимым далее величинам а и у. 26
В случае распределения ресурса между двумя произ- водственными отраслями и потреблением (уравнение (0. 7)) управление at задается двумя числами: размером it=xt_x—ct вложений в производство и долей этих 'вло- жений, направляемой в первую отрасль. Уравнение (0. 7) получается из (6) при F (х, a, s') — i (jo + (1 — f) т]. Наконец, уравнениям (0.10) соответствует функция F (х, a, s) — x — a-|-s. (11) Во всех этих примерах более естественно описывать состояния и управления параметрами, принимающими значения не из конечных множеств, а из некоторых чис- ловых интервалов. Более общие модели, охватывающие этот случай, будут разобраныТв следующих главах. Сейчас же мы напишем переходную функцию системы, управляемой уравнением (6), в предположении, что х, а и s принимают конечные множества значений. Кроме того, мы будем считать, что значения параметра st в раз- личные моменты времени взаимно независимы. Тогда p((/|ara) = 77/{^(z, a,s) = !/) (у £Xt, x£Xt_v a^At), (12) где /7, — распределение вероятностей параметра st. Доходу (0. 8) в однопродуктовой модели соответствует текущая плата где q( — вогнутые функции. Доход (0. 9) в задаче регу- лирования воды получается при 9 (а«) = ?«(/(«/))• В задаче о распределении ставок текущая плата равна 0 и выигрыш получается только за счет финальной платы. В задаче о распределении ресурса между двумя отрас- лями текущая плата равна В В задаче о стационарном режиме работы ? (*7-i«i) = —ъ — «<)2 — 27
§ 3. Стратегии Вернемся к примеру, разобранному в начале § 2. В этОхМ примере мы определили оптимальный способ по- ведения, . задав в каждом нефинальном состоянии по стрелке. Аналогично поступали мы и в § 1. Как описать это в общих терминах? Отображение х -> А (а:) является примером точечно-мно- жественного отображения или, короче, соответствия. Вообще соответствие Ф из Е в Е' сопоставляет каждой точке х пространства Е непустое множество Ф(а:) в дру- гом пространстве Е'. Однозначная функция ср на Е со значениями в Е' называется селектором соответствия Ф, если <р (гг) принадлежит множеству Ф(х) при всех х из Е. Таким образом, в разобранных случаях мы задавали некоторый селектор соответствия А (а:) изХ\ХявЛ. Условимся все селекторы этого соответствия называть простыми стратегиями. Применяя простую стратегию ср, мы получаем путь l=xA+ixm+i- -аА, гДе х,п — случайная точка с распре- делением fi, at=v(xt_^) и xt — случайные точки с распре- делениями р(- |az) (т < t п). Возможны и более общие способы управления. Можно выбирать каждый раз не определенное управление, а рас- пределение вероятностей для него. Дальнейшее обобще- ние состоит в том, чтобы учитывать при выборе а{ не только состояние х(_1г но и всю предшествующую историю. h = Хтат+1Хт.+1 0) [*8GXS, m<s<t-, т<А^. м]. Мы приходим, таким образом, к следующему определе- нию: стратегия л — это функция, сопоставляющая каж- дой истории (1) распределение вероятностей л (• \h) на множестве управлений А(, сосредоточенное на A(jcz1). Естественно назвать стратегию марковской, если распре- деление зависит только от конечного состояния х истории h (т. е. при известном «настоящем» не зависит от «прошлого»). Марковская стратегия о (• |а:) определяет переход от состояния к управлению совершенно так же, как пере- ходная функция р (• |а) определяет переход от управления к состоянию. Разница между ними только в том, что р 28
нам задана, а а мы выбираем. В случае немарковской стратегии дополнительное отличие состоит в том, что механизм перехода зависит от прошлого 9. Обозначим через L множество всех путей (2. 2). Если заданы переходная функция р и стратегия г,, то каждому начальному распределению р соответствует распределе- ние вероятностей Р в пространстве L, определенное формулой 9<г Р (*ЛА1 • • «А) = И (Хт) 71 («»>+! I Р (*W+1.| «т+1) • • • • • л («J Р К I «J- -(2) Для всякой функции £ на пространстве L положим (3) IEL (математическое ожидание случайной величины Е) 10. Примером такой функции является оценка (2.1) пути I. Ее математическое ожидание мы обозначим через w. Г « u, = P/(Z) = P 2 ?(a()+rW 1=т+1 (4) Для управляемого процесса Z^ с данным начальным распределением р величина w является функцией w(ii) стратегии л (мы назовем ее оценкой стратегии л). Макси- мизация функции w (л) и является целью управления. Верхнюю грань и функции пДл) по всем л назовем оценкой процесса или оценкой начального распределения 9 Можно было бы считать зависящим от прошлого и механизм пе- рехода от управления к состоянию, т. е. рассматривать переход- ные функции вида р ( \xmam+l.. .х^а^. Но этот случай сводится к нашему, если Ввести новые пространства управлений t '— X X • • • X Af • ва После того, как определена мера Р, путь (2. 2) можно понимать как случайный процесс. (Если стратегия л — марковская, то этот процесс является марковским). 10 Обычно математическое ожидание обозначают буквой Е или М. Мы используем для него ту же букву, что и для соответствующего распределения вероятностей. Это удобно потому, что мы будем иметь дело с разными распределениями. Иногда, впрочем, нет необходимости вводить специальное обозначение для распре- деления вероятностей; в таких случаях мы будем пользоваться буквой М. 29
р. Стратегия л называется оптимальной для процесса Z^, если w(n) = v. Мы будем иметь дело одновременно с классом всех управляемых процессов Z , отвечающих некоторой мо- дели Z. Отражая зависимость оценок ш и v от д, мы будем писать гл(д, л) и н(д). Если дсосредоточено в точке х, то будем писать вместо этого w(x, л) uv(x). Естественно назвать v(x) оценкой состояния х. Стратегию л назовем оптимальной для модели Z или равномерно оптимальной, если л оптимальна для про- цесса Z^ с любым начальным распределением д. В § 4—6 будет доказано существование простой стра- тегии ср, оптимальной для модели Z, и описан метод вы- числения v и построения ср. * * # При нашем определении стратегии мы на каждом шаге имеем право произвольно смешивать допустимые в дан- ный момент управления (т, е. выбирать управление слу- чайно, с произвольным распределением вероятностей). Не расширим ли мы свои возможности, если разрешим смешивать сами стратегии? Пусть {л,,} — конечный или счетный набор страте- гий и — неотрицательные числа, в сумме равные 1. Если (при любом начальном распределении д) мы будем пользоваться стратегией с вероятностью у;, то полу- чим в пространстве путей L распределение вероятностей Р, определенное формулой р = 2тЛ. (5) 7с где распределение Р,: отвечает стратегии пк. Оказывается, то же распределение Р можно получить, применяя неко- торую стратегию л. Действительно, положим П (а/+11 Хтат+1 • ' •£/) — S 1Л К.+1 I («/I ht-l) г-к («/+1 I ht) к__________________________________ У Wk | хт) .. . I Лд. (at | ht^) ’ ' = к (6) если знаменатель не равен О, лх (а<+11 ht) в противном случае; 3(1
здесь ht = > ,. xt — любая история, а<+1 — любое управление из А/+1; при t = m знаменатель полагается равным 1. (Выражение в правой части получится, если, отправляясь от меры (5), выписать условное распределе- ние для а/+1 при известной истории хтат+1 .. . хг] Из того, что )хтат+1 ... xt) —распределение вероятностей, со- средоточенное на A(xt), и условий сЛе* дует, что л (• \хтат+1 .. . х() — тоже распределение веро- ятностей, сосредоточенное на A (xt~). Значит, формула (6) определяет стратегию. Из (6) получаем, что для любого пути I = хтат+1 ...х„ " (am+l I хт) ~ (am+2 I Хтат+1Хт+2) • • • К (Ян I Хтат+1 ’ • ^«-1) = = 2 Т ккк (ат+1 I Хт) пк (ат+2 I Хтат+1Хт+2) • • • к • • ~к (ап I Хтат+1 • • Xn-l)’ умножив обе части на р (хJ р (хт^ | ат+1) . . . р (хп | ап) и учитывая формулу (2), находим, что стратегии л отве- чает мера 2тА=р- к Таким образом, ответ на поставленный вопрос отри- цателен. * * * Имея определение стратегии, мы можем уточнить смысл сде- ланного на стр. 24 замечания о возможности заменить случайную плату q ее математическим ожиданием: оценка w (р, п) любой стра- тегии л не меняется при замене платы q (х/^арс^на плату q(xi_1ai), определенную формулой (2. 3). В этом можно убедиться, непосред- ственно используя формулы (2)—(4) (при этом следует учесть, что роль управлений at играют пары § 4. Существование равномерно оптимальной стратегии. Сочетание стратегий Стратегия п описывается конечным набором неотри- цательных чисел л Наборы, задающие стратегии, образуют замкнутое ограниченное множество П в ко- нечномерном пространстве. Функция w (к) непрерывна, так как она выражается через л (a \h) с помощью операций сложения и умножения. Непрерывная функция достигает на множестве П своего максимума. Та стратегия, при 31
которой достигается ^максимум, оптимальна для про- цесса Z. В частности, при каждом х из Хт существует ’ стратегия оптимальная для процесса Z^.. По набору ' стратегий лх мы хотим построить одну стратегию л, опти- ; мальную для модели Z. Естественен следующий способ действий: пользоваться все время стратегией если путь начинается в точке х. Формально для этого надо положить й(. |/г) = лж(Д)(. \h), (1) где х (h) — начальное состояние истории h. Ясно, что эта формула определяет некоторую стратегию я, и что w (х, Tt)=w (х, nx)=v (х) при всех х из Хт. Нам остается показать, что всякая стратегия я, для которой w(x, п) = и(х) .(х£Хт) является равномерно оптимальной, т. е. для любого р. supu?(p, л) = П?(р,, л). Из формул (3.2) —(3.4) следует, что для любой стра- тегии л и?(р, л) = 2 Р (х) w (х, л). (2) В частности, и?(р, л) = 2 р (z) w (х, л). Но w (х, л) «С w (х, л) при всех х из Хт, и, значит, W (р, л) W (р, л). Мы установили, что существует равномерно оптималь- ная стратегия (но пока не знаем, можно ли ее выбрать из числа простых стратегий). Для равномерно оптимальной стратегии я и любого начального распределения р V (р) = W (р, л) =±: 2 р (#) W (х, л) = 2 р (х) V (х) = рр. ^-т Поэтому оценка любого начального распределения р выра- жается через оценки начальных состояний формулой p(p) = pp. (3) 32
Формулы (2) и (3) позволяют сВёсТи изучение управля- емых процессов Z^ при любом р к исследованию процес- сов Zx. Функцию v (х) (х £ Хт) мы будем называть оценкой модели Z. Стратегия построенная нами по набору пх (х £ Хт), обладает следующим свойством: При любом начальном состоянии х из Хт распределения в пространстве путей L, отвечающие по формуле (3. 2) стратегиям я и совпадают. Если выполняется это свойство, то мы будем говорить, что стратегия я является сочетанием стратегий пх. При этом w (х, л)=п? (х, пх) для всех х из Хт, формула же (1), вообще говоря, может не выполняться. С сочетанием стратегий нам еще придется иметь дело в дальнейшем, причем я будет строиться не по формуле (1), а другим способом. § 5. Производная модель. Фундаментальное уравнение Процесс, управления естественно представлять себе как ряд последовательных шагов. Первый шаг состоит в выборе распределения вероятностей на Лт,1 (завися- щего от начального состояния). Если этот выбор сделан, то каждому начальному распределению р на Хт соответ- ствует распределение вероятностей р' на Хт+1. Рассма- тривая р' как начальное распределение в момент m-}-i, мы расчленим задачу максимизации на две задачи: 1) при любом начальном распределении на Хт+1 вы- брать оптимальное поведение в последующие моменты; 2) выбрать первый шаг так, чтобы была максимальна сумма платы за этот шаг и оценки оптимального поведе- ния в последующие моменты при начальном распределе- нии р'. Модель, получающаяся из Z вычеркиванием Хт и Ат+1, мы будем обозначать Z' и называть производной моделью. Важную роль в теории управления играет уравнение ш (ж, к) = 2 «(a I х) [д (а) + W’ (ра, кя)] (х £ Хт), (1) Л(<г) выражающее оценку w любой стратегии л в модели Z через оценки w' некоторых стратегий в модели Z' (фунда- 3 Е, Б. Дынкин, А. А. Юшкевич 33
Ментальное уравнение). Ё этом уравнений йаЧаЛйноё рас- пределение ра и стратегия па для модели Z' определяются формулами «я(* | Ы) = л (• | yah') (а £ Ат+1, y=j (a), h' — история в модели Z'). (па пред- писывает пользоваться стратегией тг, предваряя каждую историю h' предысторией j (a) a). Отметим, что в силу (4. 2) w' (Ра’ Яя) = 2 Р (У Iа) (У> Яя)- (3) xm+i Чтобы вывести уравнение (1), рассмотрим простран- ства L и L' путей в моделях Z и Z'. Пусть Р — распре- деление в L, отвечающее начальному состоянию х и стра- тегии и, Ря — распределение в L', отвечающее началь- ному распределению ра и стратегии тсв. Из формул (2.1) и (3.2) видно, что для любого пути I1 из L' I (««!')=,(«) + /(!-), [а ь А (а:)]. (4) P(araP) = n(a|a:)Pe(Z'), V ' В силу (3.3)—(3.4) w (х, л) = 2 Р (I) I (Г), (5) L ™'(Ра> = (6) If Но Р (Z) отлично от нуля лишь для путей, начинающихся в х, т. е. для путей вида xal'. Поэтому, подставляя в (5) значения I (I) и Р (Z) из (4), и учитывая (6), имеем (1). В случае одношаговой модели, когда т-^-1=п, про- изводная модель Zr вырождается и не содержит управле- ний. Поэтому здесь не имеют смысла стратегии па. Не- посредственно из формул (3. 3)—(3. 4) и (3. 2), определяю- щих w и Pt видно, что в этом случае w (х, к) = У л (а ] х) [д (а) + г (ра)], (7) Л(х) где г = 2 Р (У I а) г (у), (8) 34
г — финальная плата. Чтобы можно было формулы (7)— (8) рассматривать как частный случай формуй (1)—(3), условимся в случае вырожденной модели Z' понимать под w' (х, •) просто г (х). Это вполне согласуется со смыс- лом оценки w. Ясно, что тогда и vr—г, § 6. Сведение задачи оптимального управления к аналогичной задаче для производной модели Теперь мы можем обосновать расчленение задачи оп- тимального управления, описанное в начале предыду- щего параграфа. Из фундаментального уравнения (5.1) следует, что для любого х из Хт и любой стратегии к w(x, n)<sup[g(a)-]-ip'(pe, nJ]<sup[g(a) + v1 (pj] (1) A(x) A(x) (v1 — оценка модели Z'). Обозначим u(a) = q(a)-]-v' (pa) (a €A.+i) (2) (эту величину естественно назвать оценкой управления а). Заметим, что в силу (4. 3) u=Uv', где оператор U на функциях от состояний определен формулой 11 С7/(а) = ?(а) + 2р(г/|а)/(г/) (3) S' Используя функцию и, можем переписать неравен- ство (1) в виде w (х, л) Vu (rr) (4) [V — оператор супремума по слою А (х), определенный формулой (1.5)]. Из (4) следует, что Vu. Мы докажем, что v~Vu, построив такую стратегию, при которой в (4) имеет место равенство. Начнем с одного общего понятия. Пусть л' — произ- вольная стратегия в модели Z' и пусть каждому х из Хт 11 Формулы (2)—(3) обобщают определения, данные в § 1 [см. (1.6)]. 3* 33
поставлено в соответствие какое-нибудь распределение вероятностей Т (• |ж) на Ат+1, сосредоточенное на слое А (х). Выбирая на начальном шаге управление а с рас- пределением у, и пользуясь на последующих шагах стра- тегией л', мы получим стратегию к в модели Z, которая описывается формулами , ( Т(-|*) при h — x£Xm, К । I лг(- \h'} при h — xah'. Будем называть зту стратегию произведением р it' и обоз- начать ул'. Очевидно, если л=ул', то стратегия лй, определенная в § 5, совпадает с л' при любом а из Ат+1. Поэтому для произведения уп фундаментальное уравнение (5.1) при- нимает вид w(x, р')= 5 т(а|я)[9(а)4-нР(рй, л')]. (5) Если л' — стратегия, оптимальная для Z' (существо- вание такой стратегии установлено в § 4), то w' (ра, л') = —v' и согласно (2) уравнение (5) обращается в w (х, ул') = 2 Т (а Iх)и (я)- Если при каждом х распределение Т (• |ж) сосредоточено1 на том подмножестве А (х) слоя А (ж), где функция, и (а) (а£ А (ж)) достигает своего максимума Vu (ж), то последнее уравнение принимает вид w(x, ^') = Vu(x) (х£Хт). (6) Итак мы доказали, что v=Vu. ^7) Из (6) и (7) видно, что стратегия ул' оптимальна для модели Z. В качестве в частности, можно взять распре- деление, сосредоточенное в какой-нибудь одной точке ф (ж) множества А (х). Условие ф (х) £ А (#) равносильно равенству и (ф (х)) = Еи (х) или равенству и (ф (ж))=р (х). Таким образом, мы имеем следующие результаты: а) оценка и модели Z выражается через оценку v' мо- дели Z' формулами v-=Vu, u = Uv', (8) 36
где операторы V и U заданы формулами (1.5) и (3); б) существует селектор ф соответствия А (х) из Хт в Ат+1 такой, что а(Ф(г)) = р(я); (9) в) если п' — оптимальная стратегия для модели Z', и селектор ф — такой, как в пункте б), то стратегия фгс' оптимальна для модели Z12. * * * Иногда бывает удобно пользоваться результатами а)—в) в несколько иной форме. Селектор ф можно рас- сматривать как стратегию в одношаговой модели с про- странствами Хт, Ат+1, Хт+1 (и соответственно суженными проекцией j, переходной функцией р и текущей платой q). Оценка этой стратегии при финальной плате / в силу (5.7)—(5.8) дается формулой T.J(х) = q[ф(х)J-ф- 5р(у|ф(^))/(у). (Ю) -Xm+i Оператор 7^ преобразует функции на Хп+1 в функции на Хт. В силу (2) и (10) Полагая T—VU или, подробнее, Tj{x}= sup [g(a)+ 5 / (у) р (у | а)], (И) i/exm+t можем заменить формулы (8) и (9) на и=Ти' (12) T^ = v. (13) В силу (10) и (12), оператор Т иначе можно определить формулой Г/ = 8нр^ (14) (ибо селектор ф в точке х может быть равен любому управлению а из соответствующего слоя). 1а Как уже отмечалось в § 4, в вырожденной модели Z', состоящей из одного столбца, о'=г. Формулировку в) в этом случае надо заменить следующей: любая функция ф, описанная в пункте б), определяет оптимальную стратегию для модели Z. 37
* * * Если те = фте', где ф— селектор отображения ж->Л(а:) (х£Хт) и п'—произвольная стратегия в модели Z', то фундаментальное уравнение для стратегии п согласно (5.1), (5. 3) и (6.10) можно переписать в виде w(x, фк') = Т^р’ (х, п'). (15) (Оператор применяется к w' (у, п'), как функции аргу- мента у из Хи+1). § 7. Уравнения оптимальности. Построение простых оптимальных стратегий Не ограничивая общности, мы можем считать, что в исходной модели Z m — 0. Рассмотрим модели Zo, Zv ... ..Zn, где Zo~ Z и Zt является производной от Zt_v Оценки v тп и для модели Zt обозначим через vt и п<+1 (vt определено на Xt, ut определено на Л,). Ограничения платы q и переходной функции р на А( обозначим через qf и pt. Согласно результатам предыдущего параграфа оценки vf и ut связаны рекуррентными соотношениями ^ = 7^, uf = Uvt (1<г<п), (1) где Utt (а) = ?Да) + 2 РАУ I®)/(У) (a£At)> Vtg (х) = SUP S (a) причем vn = r. (2) Равенства (1) мы назовем уравнениями оптимальности. Полагая Tt = VtUt [ср. формулу (6.12)], можем записать уравнения оптимальности в виде vt-i — Тtvt. (1 ) Уравнения (1) или (!') вместе с граничным условием (2) позволяют последовательно вычислять. vn, vn_lt и0. Далее, для каждого 1=1, 2, ..., п можно выбрать селектор фг соответствия А (х) из Х^ в At так, чтобы MW = vt-v - (3) В силу результата 6. в) простая стратегия <р = .. фя 38
оптимальнаудля модели 2. Уравнение (3) можно пере- писать в виде — vt-v (3 ) где оператор T^t переводит функции на Xt в функции на Xt^ по формуле T^f (х) — qt [ф, (ж)] -ф- 2 Р (У | Ф, (ХУ) / (У)] (4) [ср. (6.1D) и (6.13)]. Пусть теперь к — любая стратегия в производной мо- дели Zk (к=Л, 2, п) и ф^ — какие угодно селекторы соответствия А (х) из Хг_1 в Af (t — 1, 2, к). Из урав- нения (6.15) По индукции имеем u?0 (х, фхф2 ... фьк) = . Т^kwk (х, к) (5) (wk — оценка w в модели Zk). Формула (5) имеет простой наглядный смысл: результат, даваемый стратегией фхф2. .. ... фьгс не изменится, если прервать управление в момент к, назначив финальную плату, равную оценке стратегии п. В уравнениях (1)—(3) можно опустить индексы и пере- писать их в виде v~Vu на Х\ХЯ, u?=Uv на А, (6) и~г на Хп (!) и (<р) = v на Х\ХЯ .(8) или v~Tv на Х\Х„, (9) v — r на Хя, (10) T4v = v на Х\ХЯ; ' (И) здесь Uf(i)~q(a) (af:4), У Vg (х) = sup g (a) (x £ X\X„), A(x) T-^VU, ^/(*) = ?ГН*)]+2Шр(у1т(*)) (x(x\x„). у Уравнения (1)—(2) [или (6)—(7)] обобщают выведен- ные ранее для простейшего управляемого процесса урав- 39
нения (1.9)—(1.10) [соответственно, (1.7)—(1.8)], а фор- мула (3) [или (8)] — формулу (1.1)13 Подведем итоги. Мы установили, что 1) Оценка v модели удовлетворяет уравнениям опти- мальности, позволяющим вычислять V. 2) Существует простая равномерно оптимальная стратегия. 3) Такая стратегия на каждом шаге находится из урав- нения (3), независимо от ее значений на других шагах. § 8. Марковское свойство Пусть Q<Cji<C.n. Предположим, что на отрезке [0, А:] мы руководствуемся стратегией р, а на отрезке [А:, п] — стратегией л (более точно^ л — стратегия в производной модели порядка к). По аналогии с § 6 естественно сказать, что используется стратегия рл. Рассмотрим пространство Lo путей на отрезке [0, п] и пространство Lk путей на отрезке [А:, п]. Всякую функцию £ = £ (якак+1 . .. xtl) в пространстве Lk можно трактовать как функцию в пространстве Lo, не зависящую от х0, alt.. .,ак. Введем в Lo распределение вероятностей отвечающее начальному состоянию х и стратегии рл, и аналогично определим распределение Р* в пространстве Lk. Из фор- мулы (3.2) видно, что Р^£ равно математическому ожи- данию (относительно меры Р£) случайной величины F (хк), где F(y) = P^. В самом деле, из (3.2) непосредственно следует, что для любого пути уД ... bkykbk+1 ...уп где с = уаЬ± . .. bk, d =Ък+1 ... уп. Умножая обе части на £ (yftd) й суммируя по всем путям, получаем р₽^ = s р₽ (cyj s (М) №• (I) d Так как Pyft(yd) = O при у-^=ук, то 2 Ы & М = 2 (У^) 5 (yd) = F (ук). (2) d yd 13 При разборе примера в § 2 мы фактически пользовались уравне- ниями оптимальности и соотношением (8) для оптимальной стратегии. 40
Остается подставить (2) в (1) и заметить, что Полученный результат можно записать в виде формулы РРД = PPP* ?. (3) Из формулы (3) вытекает, что для любого начального распределения р Р№ = рр;ру. (4) Положим v(y) = P₽ {хк = у} (yW. (5) Правая часть (4) равна 2 v(y)P^ = P^, так что (6) Формула (6) показывает, что распределение вероятностей для участка траектории на отрезке [Л, п) при известном распределении состояния хк не зависит от распределения р и стратегии р. Говоря образно, вероятностный прогноз «будущего» (?) при. известном «настоящем» (») не зависит от «прошлого» (р, р). Это и есть марковское свойство. Подчеркнем, что оно справедливо лишь для стратегий спе- циального вида рл,- т. е. таких стратегий, при которых выбор управления на отрезке [к, п] не зависит от пред- шествующей истории хоаг ... ак. Для общей стратегии марковское свойство, как правило, не имеет места. Воспользуемся марковским свойством, чтобы оценить вклады интервалов [0, к\ и [к, п] в оценку стратегии рл. Применяя формулу (6) к функции 5 = У (,ak+i) + ... -j- q (а„) -j- г (xj, имеем к Р") = 2 рРД (а,) + w (», л). (7) Z=1 г Очевидно, р^(а/) = ррР.?(а/) 41
при t к (формально это выводится из (3.2)). Поэтому сумма в формуле (7) выражает оценку w (р, р) стратегии р при нулевой финальной плате, и мы можем написать w (|л, рте) = ш(р, р) 4- w (v, те). (8) Можно дать формуле (7) и другую интерпретацию. Согласно (4. 2) и (5) М'-*> ^^=^{y}w{y, те) = р>(х&, те). V Поэтому (7) переписывается в виде ' к пф, рте) —Рр 2 g (aj + u? те) r +_4 (9) Таким образом оценка стратегии рте равна оценке стра- тегии р при финальной плате в момент к, равной w (•, те). Частный случай этого результата, когда р==ф1 ... <pfc — простая стратегия, был приведен в § 7 (см. (7. 5)). § 9. Принцип динамического программирования Уравнения оптимальности § 7 являются частными слу- чаями более общего соотношения, устанавливающего вклад различных интервалов времени в общую оценку модели. Пусть Z — модель на отрезке [0, п] и пусть 0 s < < t п. Обозначим через Z* [/] модель, которая полу- чается из Z, если сузить интервал [0, га] до [s, t\ и назна- чить в момент t финальную плату /. В частности, при s=l, i=n и /=г имеем производную модель Z'. Оценку модели Z(, отвечающую финальной плате /, обозначим V* [/]. Ясно, что р{[/] = (ТО)'-*/ = Т'"/наХ. Отсюда следует, что при любом t из промежутка [0, га] имеет место уравнение *4 М = Хо (1) (г задана на Х„). Уравнение (1) [равносильное уравнениям оптималь- ности (7.6) и граничному условию (7. 7)]выражает принцип динамического программирования, согласно которому для 42
оптимизации управления на промежутке [0, п] при фи- нальной плате г можно сперва оптимизировать управле- ние на промежутке [/, п] (при той же финальной плате), а затем оптимизировать управление на промежутке [0, t] при финальной плате и? [г]. Из уравнения (1) в частности следует, что если п" — оптимальная стратегия для Z? при финальной плате г и л' — оптимальная стратегия для Z( при финальной плате п” [г], то стратегия к=к'л" имеет оценку п” [г] и, значит, оптимальна для Z” (при финальной плате г). § 10. Задача о выборе транспорта Покажем на простом примере, как применяется общая теория к конкретным расчетам. Представим себя в положении жителя большого города, желающего попасть в определенное место и могущего вос- пользоваться разными видами транспорта. Выбор может определяться соображениями стоимости или удобства, но чаще всего решающую роль играет время. При этом приходится учитывать не только скорость движения, но и время ожидания. Конкретизируя задачу, мы предполо- жим, что из пункта 0 в пункт В можно доехать автобусом за 3 минуты, трамваем — за 10 минут и дойти пешком за 20 минут. Интервалы между автобусами представляют собой одинаково распределенные независимые случайные величины с показательным распределением, так что, когда бы мы ни пришли на остановку с вероятностью, равной е °, нам придется ждать ближайшего автобуса время, не меньшее т 14. Постоянная с равна среднему интервалу между автобусами, который планируется управлением городского транспорта. Аналогичные предположения мы примем и для трамваев, только средний интервал между ними будем считать равным d. Кроме того, будем считать, что автобусы и трамваи ходят независимо друг от друга. Чтобы иметь дело с задачей максимизации, будем оценивать путь затраченным на него временем, взятым с минусом. В начальном состоянии 0, когда мы приходим на оста- новку, множество управлений состоит из двух элементов: 14 По поводу свойств показательного распределения см., например, В, Феллер [1J. 43
«идти пешком» или «ждать» (см. рис. 1. 10). Плата за пе- ший путь равна —20, плата за ожидание равна По истечении времени ожидания с вероятностью -т j подои- дет автобус (состояние С), с вероятностью — трамвай (состояние D). В каждом из состояний С и D можно Рис. 1.10 ехать или ждать, но в состоянии С второе решение явно неразумно, и мы будем считать, что есть только одно управление — ехать 15. Плата за него равна —3. Реше- нию «ехать» в состоянии D соответствует плата —10. Управление «ждать» снова стоит —cd с 4- d , причем мы попадаем в состояния С и D с прежними вероятностями —г—у и —,. Решение «итти пешком» в состоянии 0 и с + d с + d решение «ехать» в состояниях С и D приводят нас в со- стояние В. В состоянии В по смыслу задачи процесс останавливается. Чтобы не выходить за рамки наших определений, следует задать в В единственное управле- ние, с нулевой текущей платой, переводящее систему снова в состояние В (состояние с такими управлениями будем называть поглощающими). Для перехода к неоднородной модели нужно фикси- ровать число шагов п и определить финальную плату 16 Мы отбрасываем также заведомо невыгодное решение «идти пеш- ком» в состояниях С и D. 44
в состояниях О, С, В и D. Значение финальной платы в состояниях О, С и D должно отражать потери от того^ что мы вообще не попадем в В. Положим г (В)-=0 иг (0) = Ри£. 1.11 =г (0=г (/)) = — К, где К — достаточно большое поло- жительное число 1в. Тогда мы получим модель, изобра- женную на рис. 1.11. При этом введены некоторые упроще- ния, диктуемые смыслом задачи: опущены состояния В, С и D в момент t~Q и состояние 0 в моменты t )> 0. Чтобы выписать уравнения оптимальности, введем следующие обозначения для управлений; на £-ом шаге: art =<<итти пешком», р/=«ехать на автобусе», у, — «ехать на трамвае», 5,=«ждать» (i=l, 2, . . ., п). Тогда система (7.6) запишется в виде v (0) — max [н (аг), «(8JJ, и (aj — — 20 v (By), а (8 Л =---+ —£-j- v(Ct) + -4-y-v(Dt) ' t' c 4- d 1 c 4- d v*/,c4-'“ 4 * v(B)~v(Bi+1) (l^t^n-1), » (*>,) = maxw(S/+1)], (l<i<n —1), u(p#) = —3-\-v(Bt) (2 18 Из дальнейшего будет видно, что оптимальное поведение при всех К > 20 одно и то же. 43
а граничные условия (7.7) — в виде р(вв) = о (1«4 р(Си) = -Я, (2) и(Рп) = —К. Нас прежде всего интересует у(0). Из (1) и (2) сразу находим v(Bt) = 0 (1<*<п), u(yt) = —10 j u(${) =—3 (2^i^n), i?(C,)==—3 (l^t^n —1), 11(04) = —20, 0^) = max [-10, _-^.-Лг] = -10. После подстановки найденных значений в (1), для осталь- ных неизвестных получается система v (0) = max [—20, и (Sj)], =-------с-+7------ (4) v (Dt) = max [—10, и (8<+1)] (1 t п — 2), где v(Dn^ = -AQ. Из (4) находим, что и(8я_1) = х, где —3d — 10с — cd х =-------------- с + d Дальнейшее решение зависит от того, будет ли х больше или меньше —10. При —10 имеем v (Dn_2) ~ max [—10, х] = —10, . —3d — 10с — cd 11 (V2) =----7-r^-----= х> 46
y(D1) = max[—10, 2:] = —10, (5) Г —20 при x —20 v(^) I x ЦрИ—20<>.<';—10. Если x^—10, то последовательно находим U(V1) = *1» где X1 — х> и (£\_з) = *1. w(Vs) = *2> где *2 =----^Га------->х>—10, U (Т^я-з) = Х2’ .<«. v —3d “4— cXn ~~~ cd «ч. 1 л w (г,я-з) = хз> гДе х3— с-\- d 10, (g) р (Dx) = х„_а, ,<ч . —3d 4- cz„_a — cd «(8i) = ц. где хв_х =---------------~d----------- x>—10, v (0) = x„_r Итак, —20 при x1<J—20, к(0) = хг при —20 —10, *я+1 ПРИ — 10<xv где х0 ——Ю, ________ —3d -J- схя — cd х«+’ Г+d ~ (7) (s = 0, 1, 2, ...). Перейдем к простой оптимальной стратегии. Эту стра- тегию достаточно задать только в состояниях 0 и Dt — 1), в которых имеется выбор. При хх^—20 согласно формулам (3), (5)—(7) имеем 1>(0) = — 20, и (с^) = —20, «(8Х) = х^—20, v (/?,) = —10, | и(п+1) = -Ю, } (1<*<п-2) w(W==z<—10» I 47
^^-!) = -10, U(K) = _1O, и, значит, оптимальна стратегия ? (0) = аР ?R = 7i+i (1< При —20 <2х1<;—10 и (0) — х, и (8J = х, ”(ЯИ-1) = ~Ю, “(b) = —Ю, 1 — 1). имеем и (Dt) = -10, w(b+i) = — ю. u(8<+i) = *<—10, и оптимальна стратегия Т (°) = 8i, = W (1< Наконец, при х^.—10 v (°) = Vi, и (аг) = —20 <^х] u(8i) = xH-i> и (£>„_,) = -10, u(T„) = -10, ' с J- d 1). и (8<+1)=*, и оптимальна стратегия <р (0) = 8V ?(^) = 8m (!<*<«-2), Т (^«-а) = V 48
Таким образом, при х —20 рекомендуется итти пешком, при —20 х —10 — ехать на первом подо- шедшем транспорте, при —10 х — ждать, сколько можно, автобуса (на n-ом шаге — ехать и трамваем). Напрашивается естественный вывод, что в первоначаль- ной однородной схеме при —10 х следует ждать авто- буса, пропуская неограниченное число трамваев. Чтобы обосновать этот вывод, нужно перейти к модели на беско- нечном промежутке времени [0, со). § 11. Задача о замене оборудования Обратимся теперь к задаче о замене оборудования, сформулированной в § 2 (остальные задачи, рассмотрен- ные во введении И в § 2, лучше отложить до тех пор, пока не будут изучены модели с общими пространствами сос- тояний и управлений). Переходная функция и платы в этой модели даются формулами (2.4) и (2.5). В этих фор- мулах 5о<31< • •• < А<^ = 1, .. . >Лф>а>ь (1) го>4> Будем считать, что управление проводится на про- межутке времени [0, п]. Заметим, что если ко всем пара- метрам hx, а. и у прибавить некоторое число С, то при лю- бой стратегии суммарный доход w возрастет на одну и ту же величину пС. Оценка модели v тоже увеличится на пС, а оптимальные стратегии останутся прежними. Поэтому, не ограничивая общности, мы можем считать параметр у равным 0 (неравенство а > у переходит при этом в условие а > 0). Для возвращения к первоначаль- ному случаю нужно в последующих формулах заменить hx и а на hx—у и а—у. В отличие от § 8, мы не станем разворачивать модель во времени, а воспользуемся уравнениями оптимальности в форме (7.1)—(7.2). Имеем vt_t (х) = max [ut (хс), ut (zd)], ut (хс) = pxhx + qxvt (0) 4- pxvt (x 4- 1), (2) ut (xd) — л -j- vt(0) (0 x К, 1 t n), 4 E. В. Дынкин, А. А. Юшкевич 49
причем = (оо<ж). (3) Простая оптимальная стратегия равна (₽ = ф1,<раи. . . фк, где _ ( с при ut (яс) > ut (xd), ™ I d при ut (xc) < ut (xd) (если ut (xc) = ut (xd), то в качестве значения ф, (х) го- дятся как с, так и <7; для определенности мы выбираем с). Явное вычисление vt и ф* в общем случае затрудни- тельно, но можно дать качественное описание ответа; Естественно ожидать, что оборудование тем выгоднее в эксплуатации, чем оно новее, так что при любом t пД0)>УД1)> ...>vt(K). (5) Далее, разобьем при каждом t пространство X на мно- жество Ct тех состояний, в которых оптимальная страте- гия (4) предписывает сохранять имеющееся оборудова- ние, и множество Dt, на котором нужно делать замену. Здравый смысл подсказывает, что если в некоторый мо- мент t выгодно заменить оборудование, прослужившее время х, то тем более выгодно заменить более старое обо- рудование. Это значит, что Dt должно иметь вид Dt = (kt, М-!,•••> К) (6) (состояние К принадлежит Dt, так как ut (Kc)=vt (0) <( <С a+vt (O^ — v^Kd)). Множество Ct пусто при kt=0, а при kt > 0 имеет вид С, = (0, 1, -1). (7) Неравенства (5) проверяются индукцией от t к i — 1, причем попутно выясняется структура множеств Ct и Dt. При t = n неравенства (5) вытекают из предположений (1) и формулы (3). Допустим, что эти неравенства верны при некотором t (1<3^га)- Поскольку Ct — (х-. ut (xc) а -|- vt (0)}, Dt = {x:ut(xc)<a. + vt(0)}, (8) ( ut(xc) при x£Ct vt-i (х) — I а _[_ Vt (0) при x£Dt (см. (2) и (4)), то как структура (6)—(7) множеств Ct и D(,
так и неравенства (5) для оценки будут доказаны, если мы убедимся, что из {х > 0, x£Ct} вытекает {ut (х—1, c')~^ ut (хс)}. Используя представление обоих членов в виде (2), и учитывая монотонность hx и vt (ж), имеем ut {х — 1, с) — ut (xc) = (q^ - qx) v{ (0) 4- (1 — q^) X X [Vi + vt (*)1 - C1 - ЧJ + VAX + 1 )1 > - <?>(0) +1(1 - ^-1) - (1 - + vt(x + 1)]= = (qx - qx-i) + »AX +1) - vt (0)j. Так как q , то остается проверить, что ^ + ^ + П>^(0). (9) Поскольку х принадлежит множеству Ct, то ut (хс) л -|- -|- vt (0) и рх > 0 (ибо при рх == 0 из (2) получается ut(xc) = = 2^(0) <^а-[- vt (0)). Поэтому (9) вытекает из соотношений Vi (0) < а + Vt (0) < Ut (ХС) = (0) + Рх + Vt<.X + 1)1 ирЛ9г = 1- В силу (6) и (8) число kt — это наименьшее значение х, для которого ut (хс) < (0), или, с учетом (2), — ^ + ^(^+1)-<^(0) + (^+1)а. (10) § 12. Счетные модели: уравнения оптимальности и е-оптимальные стратегии Условимся говорить, что модель конечна, если все пространства Xt и At конечны, и что она счетна, если все эти пространства конечны или счетны и хотя бы одно из них счетно. До сих пор мы рассматривали только ко- нечные модели. Распространяются ли их свойства на счет- ные модели? Формула (3.2), определяющая распределение Р в про- странстве путей L, отвечающее данному начальному рас- пределению р и данной стратегии л, сохраняет силу и в счетной модели, но теперь пространство 4 не конечно, а счетно. На счетном пространстве L с распределением вероятностей Р не всякая случайная величина имеет ма- тематическое ожидание. Чтобы формулы (3.3)—(3.4) по- прежнему определяли оценку w любой стратегии л, 4* 51
достаточно потребовать, чтобы текущая и финаль- ная платы были ограниче- ны. Можно ослабить это требование, введя любое из следующих двух условий: а) Текущая плата q и финальная плата г огра- ничены сверху; а') Текущая плата q и финальная плата г ограни- чены снизу. / Тогда формулы (3.3)—(3.4) будут давать для оценки w любой стратегии п оп- ределенное значение, ко- нечное или равное —оо (соответственно, + оо). Ясно, что и < + оо при условии а), тогда, как при условии а') возможен случай у= + оо. С этим связаны не- которые преимущества класса моделей, выделяемого усло- вием а), перед классом, определяемым условием а') (см. пример 11.2). Мы будем предполагать, что выполнено условие а) 17. Далее, функция на счетном множестве может не иметь наибольшего значения. Поэтому в счетных моде- лях нельзя ожидать существования оптимальных стратегий. Например, если в схеме, показанной на рис. 1.12, г = 0 и а — 1 , q (а) =—-—(а = 1, 2, ...), то для любой стратегии л со со w (л) = 2 —а— л (а | я) < 71 (<* I *) = 1 > а=1 а=1 в го время как а — 1 V (х) = sup w (л) = sup----- = 1. я а а В главе IV, при переходе к бесконечному интервалу управления, результаты этого параграфа будут распространены и на более широкий класс моделей ва конечном интервале [т, п], содержа- щий, в частности, модели, удовлетворяющие условию а'). 52
Отмеченная трудность лежит в существе задачи и при* водит к следующему видоизменению понятия оптималь- ности. Пусть е 0. Стратегия п называется s-onmu- малъной для процесса (или начального распределения fi), если w (р., к) v (р) — е. Она называется s-оптимальной для модели Z (или равно- мерно s-оптимальной), если это соотношение выполня- ется при ^всех начальных распределениях р. (При е=0 мы возвращаемся к прежнему определению оптималь- ности.) Рассмотрим, какие изменения претерпевают построе- ния §§ 4—9 при переходе от конечных моделей к счетным. В § 4 для конечной модели Z была построена равномерно оптимальная (не обязательно простая) стратегия. В счет- ной модели мы вместо этого для любого е )> 0 построим равномерно е-оптимальную стратегию. Пусть — е-оптимальная стратегия для процесса Zx [поскольку v (х) <+оо, такая стратегия существует по самому определению верхней грани]. Как и в § 4, за- дадим сочетание it стратегий пх с помощью формулы (4.1). Так как w (ж, it) — w (х, пх) при всех х из Хт, то w (х, it) > и (х) — е (х£Хт). (1) Остается показать, что всякая стратегия it, для которой выполнено неравенство (1), является равномерно е-опти- мальной. Как и в конечном случае, иэ формул (3.2)—(3.4) следует, что для любого начального распределения р и любой стратегии те w (р, те) = 2 Н (®)w (х> гс). (2) Х-т Из (1) и (2) получаем, что W ([1, те) = 2 И (^) w (х> ’t) 2 Р- (х)» (•г) Хт < 2 И (х) Iй7 (х> Я) 4- е] = ш (fi, it) е. м Хт Левое из полученных неравенств показывает, что supu? (fi, те)< 2 И (х) v(x)> (3) л Хт 53
Правое — что w(fx, я)^> 2 (x) v(x) — ®- (4) Ввиде произвольности числа s^>0 из (3) и (4) следует, что sup w (fx, л) = 2 Р (я) У (я) w (ft, %) -}- е. (5) Значит, стратегия % равномерно е-оптимальна. Из формулы (5) видно, что по-прежнему V (р) = 2 Р (х) V (х) = [IV (6) ^771 (формула (4. 3)). Содержание § 5, в том числе вывод фундаментального уравнения, без изменений переносится на счетные модели (причем безразлично, выполняется ли условие а или а' — этим замечанием мы воспользуемся в § 4.3). В § 6 сохраняются рассуждения вплоть до вывода не- равенства I w {х, л)^ Vu(x) (я— любая стратегия, х £ Хт). (7) Как и в § 6, из (7) следует, что Vu. Чтобы доказать, что v=Vu, мы теперь для любого е > 0 построим стра- тегию, при которой w {х, я) Vu (х)— е. (8) По-прежнему, фундаментальное уравнение для про- изведения уя' имеет вид w (х, уя') = 2 Т (« I х) \.Ч («) + (ра, *')! (9) 4(1) [см. (6.5)]. Пусть я' — стратегия, е'-оптимальная для производной модели Z (такая стратегия существует при любом е' > 0). Тогда w' (ра, я') v' (pj—е', и из (9) вытекает, что w (х, -И') > 2 Т (« I х) I? (ffl) + (Ра)1 —е' = А(х) = 2 Т (а I х) и(а) ~ °' (^) [как и в § 6, и{а)~ q{a)-]-v'{ра)]. Подмножество А {х) слоя А(х), на котором u(a) = Vu(a:)[=supu(a)| в счет- ло) 54
ном случае может оказаться пустым множеством. Вместо него мы рассмотрим множество (я) = {а : а £ А (х), и(а)^ Vu(x) — х} (xQXm~), непустое при любом х > 0, и примем за у ( |х) любое распределение вероятностей на А (х), сосредоточенное на А* (х). Для такого у 2 т (а | я) u (a) Vu(x) — х. - (И) 4 (ж) При е' + х <1 е из (10) и (И) следует (8). Итак, результат 6. а) (уравнения v=Vu, u=Uv') оста- етбя в силе. Вместо результата 6. б) мы теперь имеем б') При любом х > 0 существует селектор ф ’соответ- ствия А (х) из Хт в Ат+1 такой, что п(ф)^н— х. (12) Результат 6. в) вместе с его выводом тоже сохраняет силу, но им не всегда можно воспользоваться, так как не всегда существуют оптимальная стратегия л и такой селектор ф, что и (ф) = п. Из проведенного рассуждения вытекает следующее обобщение этого результата: в') Пусть е и х — любые неотрицательные числа. Если стратегия т/ s'-оптимальна для модели Z' и се- лектор ф удовлетворяет неравенству (12), то стратегия ф tz (е' -\-х)-оптималъна для модели Z. С помощью оператора Т^, определенного формулой (6.10), условие (12) можно записать в виде TtyV'^v— х. • (13) Из результата 6.а) без изменений получаются все варианты уравнения оптимальности, приведенные в § 7. Из результата в') следует, что если xm+1, хт+2.хп — любые неотрицательные числа и если (i = m + l, т + 2, ...,я), (14) то простая стратегия ? = фт+1Фт+а • • • Фя равномерно е- оптимальна при е = xm+1xm+2... -ф- хп. Согласно б') при любых положительных xt такие ф, существуют. Итак, для счетных моделей: 1) оценка и удовлетворяет уравнениям оптимальности; 2) при любом е > 0 существует простая равномерно ^-оптимальная стратегия ф; 55
3) такая стратегия <₽“Ф1> Фг • • • Фи находится на каждом шаге из неравенства (14), независимо от значений <р на других шагах. Конечно, если можно выбрать все так, чтобы фор- мула (14) выполнялась при х^=0, то существует равно- мерно оптимальная стратегия <р = фот+1 • . . ф„. Так будет, например, если все слои А (х) конечны, ибо супремум по конечному множеству всегда достигается. Результаты §§ 8 и 9 полностью переносятся на счетные модели. § 13. Счетные модели: достаточность простых стратегий Не потеряем ли мы что-нибудь, если будем пользо- ваться только простыми стратегиями? Предыдущие ре- зультаты еще не дают ответа на этот вопрос. Из них сле- дует только, что наши потери можно сделать сколь угодно малыми. Теперь мы покажем, что при фиксированном на- чальном распределении р для каждой стратегии найдется не худшая простая стратегия (вообще говоря, зависящая от р). Это вытекает из следующих двух результатов: 1. Для всякого р и любой стратегии к существует марковская стратегия о такая, что w (р, о) = w (р, к) (1) (условимся говорить, что для процесса Z^такая стратегия равносильна л). 2. Для любой марковской стратегии а существует прос- тая стратегия такая, что ш (и» ?) w (и, °) при всех р (2) (будем говорить, что такая <р равномерно не хуже а или равномерно мажорирует а). * * * Чтобы доказать результат рассмотрим марковскую стратегию о (а | г) = Р (а, = а | Xt_x = х} = (3) (а Е At, х £ т -}- 1 t га), 56
где Р — мера в пространстве путей L, отвечающая на- чальному распределению р и стратегии п. (Выражение в правой части (3) теряет смысл при Р {^_х=а;}=0. Для таких х в качестве а (• Jar) можно выбрать произволь- ное распределение на А (я).) Распределение вероятностей Q в пространстве Z, соответствующее начальному распределению р и страте- гии о4 вообще говоря, не совпадает с Р; но поскольку и аналогично п w А с) = S Q? («/) + Qr (х«)> т+1 то для (1) достаточно, чтобы каждый из элементов хт, am+i> хт+к • • •» аи» хп имел одно и то же распределение вероятностей относительно Р и Q. Это равенство доказывается по индукции. Оно верно для хт (распределение хт относительно как Р, так и Q равно р). Предположим, что оно справедливо для х{_г. Поскольку стратегия а — марковская, то Q{^_1a< = a;a} = Q{^_1 = a:}o(a]a;) (4) («G4> (формально (4) получается суммированием из (3. 2)). Поль- зуясь (3) и (4), получаем Р{а{ = а} = 2 Р= ха} = = 2 Р {^-i = х) ° («|х} = = S Q{^i = ^}°(a|^) = = 2. Q {х, ха = ха} = Q {а( = а}, x&t-i так что наше утверждение справедливо и для а{. Дока- жем, что если оно справедливо для at, то оно верно и для хг По смыслу переходной функции Р (atxt = ах} = Р (at = а} р (х | а), (5) Q {atxt = ах} = Q {at = а} р (х | а) (6) 57
(формально _этй равенства йолуйаютсй суммирОваййем из (3. 2)). Из (5) и (6) получаем Р {xt = х) = 2 Р {atxt = ах) =. a&Ai = 2 р {«, = а) Р <х I а) = afzAf — 2 Q (at = °} р (х Iа) — S Q (atx=ах} — = Q(^ = a;} (x£Xt). * * * Доказательство результата 2 основано на следующей общей лемме. Лемма 1. Пусть / — функция и v—распределение вероятностей на счетном пространстве Е. Если Д то множество r = {x:f(x)^yf) имеет положительную меру у18. Доказательство. Положим с — Д. Если с — — оо, то Т = Е и у(Г)=1. Если с конечно, то v (с — /) -- с — у/ = 0. (7) Допустим, что у(Г) = 0. Тогда v(c—/)= 2 [с — /(ж)]у(ж). (8) хёЁ\Г Так как величина с—f(x) строго положительна всюду на Е\,Г, то из (7) и (8) вытекает, что v (£'\Г) = 0 (ибо v(a;) = O при каждом х из £\Г). Но это противоречит равенству у(Г)4-у(Я\Г) = у(Е) = 1. Лемма доказана. В силу (12.2) условие (2) равносильно требованию W {х, <р) w (х, о) при всех х из Хт. Разложим марковскую стратегию с в произведение а=уа' подобно тому, как мы это делали 18 Лемма справедлива и ее доказательство почти не меняется для распределений вероятностей и функций в произвольных изме- римых пространствах. 58
в § 6 (у — сужение а на Хт, с' — сужение а на Xm+l (J .. . • • • U Хп). По формуле (5.1) гр (х, □) = гДе Ъ (')=Т ('1Ж) — распределение вероятностей на А (х), и / (а) = <1 («) + w' (Ра> °') (а б Лт+1). По лемме 1 подмножество слоя А (х), на котором / (а) (х, о), имеет положительную меру и, значит, не пусто. Еслц ф (х} — произвольно выбранная точка этого подмножества, то / [ф (я)] w (х, о). Но в силу фундаментального уравнения (5. 1) / [ф (х)]=и> (х, фо'). Значит, w (х, фа') w (х, а). (9) Предположим, что результат 2 верен для производной модели Z'. Тогда в этой модели найдется простая страте- гия </, равномерно мажорирующая марковскую страте- гию В силу (5. 1) и сделанного предположения имеем w Ф?') = <1 (Ф (*)1 + ?') > Q СФ (*)1 + + w' (Рц(ху °') = w Ф0') > 3)- Следовательно, в модели Z простая стратегия <р—-фср' равномерно мажорирует а, так что результат 2 справедлив и для модели Z. Наше рассуждение с очевидными видоизменениями сохраняет силу и для одношаговой модели, и дает, таким образом, также начало индукции (<₽' и о' отсутствуют, под w' (ра, •) понимается раг, г — финальная плата). * * * Следующий пример показывает, что в результате 1 стратегию а, вообще говоря, нельзя выбрать независимо от к. Пример 1. Рассмотрим двухшаговую модель, изо- браженную на рис. 1.13. В этой модели оценка любой марковской стратегии а равна w (Ук> °) = 2 ° । (к = 1, 2, «=1 она постоянна на Хо и меньше 1. Оценка же немарковской 59
стратегии те, предписываю- щей при начальном состоя- нии ук идти в zk, равна (fc = l, 2, . ..) и принимает на Хо значения, сколь угодно близкие к 1. Значит, здесь любая марков- ская стратегия хуже те при некоторых начальных состо- яниях. Исключение составляют равномерно оптимальные стратегии те, для которых всегда есть марковские и даже простые стратегии ср, равносильные к при любом ;л. Так как w ([л, те)=р (рс), то равносильность <р и к при любом [л означает, попро- сту, равномерную оптимальность ср. Таким образом, мы утверждаем, что из существования какой-либо рав- номерно оптимальной стратегии вытекает существование простой равномерно оптимальной стратегии. Это утверждение вытекает из результатов 1 и 2 и того факта, что в счетных моделях равномерная оптимальность стратегии к — это jo же самое, что оптимальность те при некотором фиксированном начальном распределении [л, а именно — любом [л, удовлетворяющем условию р. (ж) > 0 при всех х из Х’т. (10) Для доказательства приведенного факта заметим, что по формулам (12. 2) и (12. 6) для стратегии те, оптимальной при начальном распределении ;л, 2 Н (z)fc>(z) — tv (я, те)] = и(р.) — и?(р., те) = 0. (И) *т Поскольку w {х, те) v (х), то из (10) и (11) вытекает, что w (х, те)=р (ж) при всех х из Хт. 60
* * * Отметим в заключение, что если в определении модели вместо ограниченности плат сверху предположить их ограниченность снизу (т. е. условие 12. а) заменить усло- вием 12. а’)), то мы не будем иметь результата 2. Пр и м е р 2. Пусть в модели, показанной на рис. 1.12, г=0 и q (а)=2я (а=1, 2, . . .). Тогда любая простая стра- тегия имеет конечную оценку, а марковская стратегия о, определенная формулой с (а | х)—2~а, имеет оценку W (Х, я) = 4-00 = 1? (ж).
Глава 2 ПОЛУНЕПРЕРЫВНЫЕ МОДЕЛИ § 1. О понятии измеримости В главе I мы постоянно имели дело с распределениями вероятностей в различных пространствах (пространствах состояний, управлений, путей). Для конечных и счетных пространств, которые рассматривались до сих пор, рас- пределение вероятностей — очень простое образование. В случае несчетных пространств положение сложнее. В отличие от дискретного случая, здесь недостаточно за- давать вероятности отдельных точек. С другой стороны, как правило, невозможно определить согласованным об- разом вероятности всех множеств. Поэтому вероятности задаются лишь для некоторого класса множеств (их на- зывают измеримыми). Напомним основные определения, связанные с поня- тием измеримости. Система подмножеств пространства Е называется а-алгеброй, если она включает Е, содержит вместе с каждым множеством его дополнение и содержит вместе с любым конечным или счетным набором множеств их сумму и пе- ресечение. Мы будем говорить, что Е — измеримое про- странство, если в Е выделена некоторая а-алгебра (будем обозначать ее^(Е)). Множество считается изме- римым тогда и только тогда, когда оно принадлежит^ (Е). В конечном или счетном пространстве Е за $ (Е) принимается совокупность всех подмножеств этого про- странства. Если Е — прямая, то под^ (Е) мы будем по- нимать минимальную а-алгебру, содержащую все интер- валы (элементы этой а-алгебры называются борелевскими м ножествам и.) Отображение i измеримого пространства Е в измери- мое пространство Е' называется измеримым, если про- образ любого множества из (Е') принадлежит (Е). 62
£Йсно, ч1о из измеримости отображений Е -\Е', Е' Д Е" вытекает измеримость их произведения Е Ё*. Е". Числовая функция / называется измеримой, если она определяет измеримое отображение в прямую. (Для этого необходимо и достаточно, чтобы были измеримы все мно- жества {г : / (ж) с} или все множества {х : f (х) с}, где с — любая константа.) Все обычные операции над ко- нечным или счетным множеством функций (сложение, умножение, предельный переход, взятие верхней или нижней грани) приводят снова к измеримым функциям. Всякое измеримое подмножество Ё измеримого про- странства Е также становится измеримым пространством, если выделить все подмножества Ё, принадлежащие (Е) (они образуют а-алгебру в Ё). Через ЕГХЕ2Х. . . xEk обозначается совокупность наборов хг х2 . . . хк, где xt £ Et (t=l, 2, . . ., к). Если Elt Е2, . . ., Ек — измеримые пространства, то Ё1ХЕ2Х X. . .хЕк также можно рассматривать как измеримое пространство, принимая за $ (Е-^ХЕ^Х. . .хЕк) мини- мальную а-алгебру, содержащую все «прямоугольные» множества Г^хГгХ. . .хГк, где Tt £ (Е.) (t=i, 2,. . . . ., К). В случае, когда Elf Е2, . . ., Ек — прямые, а;:®(Е1), eg (Е2), . . ., eg. (Ек) — а-алгебры их борелевских подмно- жеств, эта конструкция приводит к измеримому /с-мер- ному арифметическому пространству, причем элементы системы & (Е1 хЕ2х. . .X Ек) также называются борелев- скими множествами. В дальнейшем под измеримыми множествами в к-мерном пространстве мы всегда пони- маем борелевские множества х. Мера v в измеримом пространстве Е — это неотри- цательная функция на^(Е), удовлетворяющая условию: если Г представлено в виде суммы конечного или счетного числа попарно непересекающихся измеримых множеств Гв, то v (Г) равно сумме v (Ги). Если кроме того v (Е) = 1, то v называется вероятностной мерой или распределением вероятностей. Если v — мера в измеримом пространстве Е, то каж- дой неотрицательной измеримой функции / на Е соответ- 1 Класс борелевских множеств в ^-мерном арифметическом про- странстве уже класса множеств, измеримых по Лебегу (их часто тоже называют измеримыми множествами). 63
ствует неотрицательное число v/ = ( fdv = ( / (a) v (dx) = lim У v lx : < J j “-“Я 1 2 (интеграл / по мере v). Кроме конечных значений, v/ может иметь значение -j-co. Для любой измеримой функ- ции / полагают v/ = v/+ —v/-, (1) где /+=тах (/, 0), /~=тах (—/, 0). Чтобы интеграл v/ имел смысл, необходимо и достаточно, чтобы хотя бы одно из чисел v/+, v/_ было конечным. Заметим, что если / = хг2) где Г£в$(Е), то у/ = у(Г). Поэтому мера v однозначно определена, если известны значения интеграла v/ для всех ограниченных измеримых функций. § 2. Общее определение модели Пространство путей L состоит из всевозможных на- боров ~ Хтат+1Хт+1 • • • апХп’ где Хт£Хт, &т+11 &т+1 € ^m+l> • • > ап € -^в> Хп € И j(at+i) = ^i — 1). (1) Оно является подмножеством произведения R„=XmXAm+1xXm+1X ... хлвххв. Если сомножители Xt и At — измеримые пространства, то Rn тоже является измеримым пространством. Если L — измеримое подмножество в Нп, то и Л можно рас- сматривать, как измеримое пространство. Мы будем предполагать, что а) Множество состояний X и множество управлений А являются измеримыми пространствами; при этом Хт, 2 Через /г обозначается характеристическая функция множества Г, равная 1 при х g Г и равная 0 в остальных точках. 64
Xm+i, . . Xn — непересекающиеся измеримые подмно- жества X и 4m+j, . . ., Ап — непересекающиеся измеримые подмножества А. р) Отображение j измеримо. у) Множество всех пар ет (х £ Xt) принадлежит (XtxXt) (т t п). Условия а)—у) обеспечивают измеримость L, а также измеримость множества Ht всех историй h—xmamJrlxm^ ... . . . atxt в момент t (в пространстве Rt=XmxAm+lxXm+1X X ... xAtxXt). В самом деле, условия (1) можно записать в виде Нм*,. 7'(^+1))=^. ' (2) t=m где 8Z (х, у) (х, у g Xt) — функция, равная 1 при х=у и равная О при х^у. Из условия у) следует, что 8^ — измеримая функция на Xt X Xt, Значит, 8Z (xt, j (a/+1)) — измеримая функция на Rn, и В силу (2) L — измеримое подмножество Rn. Измеримость Яг в Rt доказывается аналогично. В конечном и счетном случаях распределение веро- ятностей в пространстве путей задавалось формулой (1.3.2). В общем случае ей соответствует формула р (dxmdam+1dxm+1dam+2 .. . dxn_rdandxn) = = Р (dxm) * (dam+11 хт) р (dxm+1) ат) it (dam+21 хтат+1хт+1).. . ...Pidx^ an_j) тг (dan | xmam+1xm+1am+2. .. x„_J p (dxn | a„) (3) Эта запись означает, что Р/= j p(dxm) J л (dam+11 xm) j P{dxm+1\amvl)x x j rc (dam+21 Xmam+1xm+1) ... J p (dx^ | a^) X Xji-i X j I xmam+1xm+1am+2 ... x^) X X j P (dxn | aj / (xmam+1... zj (4) для всех функций /, для которых правая часть имеет смысл. Рассмотрим сперва внутренний интеграл (по Чтобы он имел смысл, нужно, чтобы / была измерима. 5 Р* Р ТТыякин. А. А. ТОпткрвнч 65
Нам придется применять формулу (4) к случаю, когда / — оценка пути I. Поэтому придется потребовать, чтобы платы q и г были измеримы. Чтобы существовал следующий интеграл [по A нужно, чтобы первый интеграл представлял собой измеримую функцию от ая. Это при- водит нас к необходимости включить в определение пере- ходной функции р (• |а) требование измеримости по а. Чтобы были осмыслены остальные интегралы, надо поза- ботиться об измеримости второго интеграла по перемен- ным хтат+1хт+1. . .x„_v Поэтому мы вынуждены будем включить в определение стратегии к (• |й) требование из- меримости относительно h. Разумеется, в общем случае необходимо сохранить и предположение ограниченности q и г сверху, введенное в § 1.12 для счетных моделей. Учитывая все это, мы будем говорить, что элементы, перечисленные в пунктах а)—е) § 1.2, определяют модель, если выполнены условия а)—у) и следующие требования: 8) Переходная функция р (• (а) измерима по а, т, е. р (Г | а) является измеримой числовой функцией на А( при любом Г из S3 (X,) п). е) Текущая плата q и финальная плата г измеримы и ограничены сверху 3. В определение стратегии мы включаем следующее тре- бование измеримости: и (Г j /г.) является измеримой числовой функцией на Ht при любом Г из S3 {А г) (гм t п—1). Для простой стратегии это требование сводится к тому, чтобы ф, было измеримым селектором соответствия А (х) из Х^ в At (<=1.....п), для марков- ской стратегии о — к измеримости функции а (Г [ж) на Xz_1 при любом Г из S3 {AS- * * * Для любой пары измеримых пространствEzE' можно говорить о переходной функции из Е в Е'. Это функция v (х [ Г) от точки х пространства Е и измеримого множества Г пространства Е', причем при любом х это вероятностная мера на Е' и при любом Г — измеримая функция на Е. В этих терминах можно сказать, что р — переходная 3 Вместо ограниченности плат сверху можно было бы потребовать их ограниченности снизу (ср. аналогичное замечание в § 1.12). Более общий класс моделей, охватывающий оба эти случая, рас- сматривается в главе V. 66
функция из А в X, а к — переходная функция из про- странства всех историй И в А. Дополнительно требуется, чтобы мера р {• |а) была сосредоточена на Xg при а f At, а л (• | h) — на слое А (х), если х — конец истории h. % * * Мы уже упоминали в гл. I, что иногда удобно считать переходную функцию и текущую плату зависящими не только от а{, но и отгЛ1. Этот случай сводится к основному, если принять за управление пару хг~]Лг Такое сведение применимо и в общих моделях, только нужно ввести изме- римую структуру в пространстве пар xt^at. Мы будем считать, что at и xt принимают значения из измеримых пространств At и Xt, причем пара xt_-pit должна принадле- жать измеримому подмножеству^ произведения Xg^ytAg. Проекция j определяется при этом формулой j (xg^ag) — —Xg^. Чтобы в каждом состоянии можно было управлять, мы потребуем, чтобы j отображало А( на все пространство Условие В), очевидно, выполняется автоматически. Условия а) и у) не меняются, а условия 8) и е) видоизме- няются очевидным образом. * * * Вместо того чтобы задавать переходную функцию, можно задать рекуррентное уравнение xi = Ft (^_r s/) (Ч-1а/ € st € и распределения вероятностей П,, на St для случайных параметров st (ср. конец § 1.2). Будем считать, как и в § 1.2, что параметры взаимно независимы. Переходная функция может быть построена по формуле р(Г(ха) — IIg (sf :Fg(x, a, sz) £ Г) (xa^At}. (5) Чтобы формула (5) имела смысл и задавала переходную функцию, достаточно потребовать, чтобы функция Ft была измерима по совокупности своих аргументов. Это значит, по определению, что прообраз /'f1 (Г) любого из- меримого множества Г из Xt при отображении Ft измерим. В пра- вой части (5) стоит мера ^«-сечения этого прообраза. Остается сослаться на следующие общеизвестные факты: а) если С — измеримое множество в произведении К X Z, то все г-сечения Сг являются измеримыми множествами в Y; 5* 67
б) если Р — произвольная мера на У, то Р (Cj — измеримая функция на Z (см. Халмою. [1], §§ 34—35; это нетрудно также вы- вести из леммы § 3 добавления 4). § 3. Переносятся ли на общие модели методы, применявшиеся для изучения конечных и счетных моделей? Исследование конечных и счетных моделей в главе I основано на фундаментальном уравнении (1. 5.1). Для об- щих моделей фундаментальное уравнение (1. 5. 1) прини- мает вид (*, к) j л (da | х) \q (a) w' (pa, kJ] (x£Xm, л—любая стратегия) (1) Оно доказывается так же, как в конечном случае, только суммы заменяются интегралами. При этом вместо равен- ства Р (хаГ) — л (a I#) Pa(Z') используется формула Р/ • • • х») = J Paf К+1«т+1 • • • *„)л {da I х), 4(1) вытекающая из (2. 4) (мера Р отвечает начальному состоя- нию х и стратегии л в модели Z, мера Р„ — начальному распределению рп и стратегии ла в модели Z')- Для оценки w , входящей в фундаментальное уравне- ние, теперь имеем выражение w' (P<v О = J w' (У> О Р № I «) (2) (ср. (1.5.3)). Это следует из общей формулы w (рл) = \ w (х, л) р (dx), (3) %1П которая выводится из (2. 3) точно так же, как в конечном случае (1.4.2) выводится из(1. 3.2). Как и в § 1.4, из (3) вытекает, что если w (х, (х) при всех х из Хт, то стратегия л равномерно оптимальна 4. Аналогично пере- 4 Отметим, что все предыдущие построения остаются справедливыми и в предположении ограниченности плат снизу — этим мы вос- пользуемся в § 5.2. 68
носится на общий случай и марковское свойство (§1.8). В главе I был указан рекуррентный способ построения оценок к и простых оптимальных стратегий, использую- щий операторы U и V. В общем случае оператор U зада- ется формулой Uf(a) = g(a)+ J f(y)p(dy\a) (4) x [ср. (1.6. 3)j. Для оператора V сохраняется формула (1.1.5). Существенная трудность связана с тем, что V может пере- водить измеримые функции в неизмеримые. Действительно, пусть j — ортогональное проектиро- вание квадрата А на его сторону X. Как известно, су- ществует такое борелевское подмножество С квадрата А, что j (С) не является борелевским подмножеством X (см. добавление 2, § 5). Если g(a)=xc(«), то Vg (х)= =XfC Сг)> и последняя функция неизмерима. В силу сказанного, функция вычисленная по фор- мулам v^—Vu,^ un—Ur, может оказаться неизмеримой. Тогда не имеет смысла выражение Uv^, содержащее ин- теграл, и, стало быть, рекуррентные формулы vt^=Vut, ut=%b)t из § 1.7 неприменимы. Один из способов справиться с этими трудностями состоит в том, чтобы рассматривать только измеримые функции из некоторого класса инвариантного относи- тельно операторов У и U. Таким методом будут исследо- ваны в этой главе полунепрерывные модели. На них уда- ется перенести результаты, доказанные для конечных моделей. Построение равномерно оптимальной стратегии для конечных моделей опиралось также на принцип сочета- ния стратегий. Чтобы формула (1. 4. 1) определяла стра- тегию в общем случае, необходимо обеспечить измери- мость л( • \h) по h. Для этого приходится доказывать специальные теоремы о возможности измеримого выбора. Весьма общий класс измеримых моделей (включающий, как частные случаи, счетные и полунепрерывные модели) будет изучен в следующей главе. Однако для них-при- дется применить новые, более тонкие методы построения измеримых стратегий (причем получаются результаты более слабые, чем для счетных и полунепрерывных мо- делей). 69
§ 4. Определение полунепрерывной модели Отправным пунктом для нас является аналогия между свойствами функций, определенных на конечных множест- вах, и непрерывных функций на компактах. В частности, и те, и другие достигают своего наибольшего и наимень- шего значений. Впрочем, для нас существенно лишь наибольшее значение. Доказывая, что непрерывная функ- ция / на компакте достигает своей верхней грани, исполь- зуют только то, что при любом с множество {х : /(ж) с) замкнуто. Действительно, пользуясь компактностью, строят сходящуюся последовательность {хп} такую, что / (хп) сходится к верхней грани Ъ функции /. Для всякого е > 0 множество {х \ f (х) > Ъ— е} со- держит все хп, начиная с некоторого, и, значит, содержит предел х' последовательности {х„}. Поскольку f (х') > Ь—е при каждом е > 0, то / (х')=Ь. Пусть Е — произвольное метрическое пространство 5. Функцию, заданную в Е, назовем полунепрерывной, если все множества {ж : f(x) с} замкнуты 6. Любая невозрастающая последовательность полуне- прерывных функций /я сходится к полунепрерывной функ- ции / (принимающей, быть может, значение —со). Это вытекает из очевидного соотношения {х : /(ж) с}= = П {я:/„(я)с). В частности, полунепрерывны все п пределы невозрастающих последовательностей непрерыв- ных функций. Справедливо и обратное: любая полуне- прерывная функция является пределом невозрастающей последовательности- непрерывных функций. 6 Множество Е называется метрическим пространством, если лю- бым х, у g Е сопоставлено неотрицательное число р (х, у) (рас- стояние между х и у), причем 1) р (х, у)= р (у, х), 2) р (х, у)=0 тогда и только тогда, когда х=у; 3) р (х, у) <: р (х, z) -{- р (у, z) для любых х, у, z £ Е (неравенство треугольника). Сходимость последовательности {хп} к точке х0 в Е определяется требованием р (хп, z0) -> 0 при п -> оо. 6 Обычно такие функции называют полунепрерывными сверху. Полунепрерывными снизу называют функции, для которых замк- нуты все множества {х : f (х)^*с}. Функция непрерывна тогда и только тогда, когда она полунепрерывна одновременно сверху и снизу. Полунепрерывные снизу функции нам не встретятся, и позтому’мы можем употреблять сокращенное выражение «полу- непрерывная функция» вместо более полного «функция, полу- непрерывная сверху». 70
Вот простое доказательство этого утверждения для ограничен- ной сверху полунепрерывной функции / (другие случаи нам не встретятся). Положим 1 1п(х) = [шах Г -п, Fx(jr) dr, Fx(r) = sup /(у). 0J L \ 7J P(«, При каждом x функция Fx не убывает и стремится к / (х) при г j 0. Поэтому fn j /. Из неравенства треугольника вытекает, что {</: Р (*о> г — °} G {У Р(*> У)< г} С С (у: р (х0, у)< г + 8} при р (xQ, я) < 8 < г. Значит, (г — 5) <F* (г) < F Ха (г + 8) при р (х0, х) < 8 < г. Следовательно, Fx (г) -> Fxs (г) при х -> xQ для всех значений г, где FXa (г) непрерывна, т. е. на всем отрезке [0, 1], кроме, быть может, счетного числа точек. Поскольку ~п < max [—nFx (£)] < sup /, в выражении для /я (х) можно перейти к пределу под знаком ин- теграла при х -> xQ, и функция /и непрерывна. Каждое метрическое пространство Е мы будем рас- сматривать как измеримое пространство, принимая за ё$(Е) минимальную а-алгебру, содержащую все откры- тые и замкнутые множества (элементы этой а-алгебры называют борелевскими множествами в пространстве £')7. Обозначим через ^£{Е) совокупность всех полунепрерывных ограниченных сверху функций на Е. Модель Z назовем полунепрерывной, если А. Множество состояний X и множество управлений А — сепарабельные метрические пространства 8; при этом Хт, -^т+п • • ч — замкнутые подмножества X и Ат+1, . . ., Ап — замкнутые подмножества А. В. Если хк -> х £Х и ак £ А(хк), то последовательность 7 Для ^-мерного арифметического пространства это согласуется с определением борелевских множеств, данным в § 1. 8 Метрическое пространство Е называется сепарабельным, если в нем можно построить счетное множество С такое, что для лю- бого х из Е и любого е > 0 найдется у из С, удаленное от х на рас- стояние, меньшее в (такие множества С называются всюду плот- ными). 71
{а,,.} имеет предельную точку, принадлежащую А(х) [это свойство мы назовем квазинепрерывностъю соответст- вия А (х) по х.] В. Если и g(a)=j p(dx\a)f(x) (a£At), (1) mog£S?(At) = .., n). Г. Плата q на множестве At принадлежит плата г принадлежит ^(Х,,). Условия А—Г выполняются автоматически, если про- странства X и А конечны. Таким образом, все конечные модели полунепрерывны. Условие В равносильно более простому требованию: Если функция f непрерывна и ограничена, то функ- ция определенная формулой (1), также непрерывна. Чтобы вывести By из В, достаточно заметить, что функ- ция / непрерывна тогда и только тогда, когда / и —/ полунепрерывны сверху. С другой стороны, В вытекает из By, так как всякая функция класса X является пределом невозрастающей последовательности ограниченных непре- рывных функций 8 9. Отметим, что условия а) и у)—е) § 2 следуют из усло- вий А—Г. Условие р) § 2 также следует из А—Г, если пространство X представляется в виде суммы счетного числа компактов. В самом деле, а) вытекает из А и определения а-алгебры ей? (£) в метрическом пространстве Е. Из Б следует, что про- образ J-1 (С) компакта С CZ X является компактом в А (действи- тельно, для любой последовательности (ая) CZ р1 (С), последо- вательность {J (ав)} CZ С имеет предельную точку х0£С ив силу Б у последовательности {ая} найдется предельная точка а0^Л (х0) = — ]~г (*о) С /-1 (С)). Значит, если С —компакт, то У*1 (С) (Я). СО Если X = (J Сп, где Сп — компакты, то любое замкнутое множе- 1 ство D CZ X является суммой компактов Dn = D (~\Сп, и / 1{D) = 8 Из теоремы о монотонном предельном переходе под знаком ин- теграла следует, что если функции /в измеримы, А ограничена сверху и f№ | f, то pfB | pf для любой вероятностной меры р (см. Халмош [1], § 27, теорема 2). 72
co = U Л1 (D„) (Л). Если измеримы прообразы всех замкнутых 1 множеств, то измеримы прообразы всех борелевских множеств, и мы имеем условие В), Условие 7) вытекает из представления «диагонали» D = {x=y) пространства Е^Е в виде в=а.у1М"’Т>в(«. i)], где В (п, е) = {у : р (у, хп) < е} — е-окрестность точки хп, а {г„} — счетное всюду плотное подмножество Е. В метрическом пространстве полунепрерывная функция из- мерима, так как ее множества уровня {»' : f (х) > с} (с —действи- тельное число) замкнуты. Поэтому из Г) следует б). Чтобы вывести условие о), обозначим через К класс всех функций f, которым по формуле (1) соответствует измеримая функция g. В силу В класс К содержит все непрерывные огра- ниченные функции. Очевидно, он замкнут относительно сложе- ния, умножения на числа и ограниченного предельного перевода. По лемме 1 добавления 5 класс К содержит все ограниченные измеримые функции, в частности, характеристические функции всех измеримых множеств (лемма применяется к множеству X всех непрерывных ограниченных функций). * * * Остановимся на обобщении, о котором говорилось в конце § 2. Нетрудно проверить, что при описанном там сведении получается полунепрерывная модель, если обоб- щенная модель удовлетворяет условиям А и Б в прежней форме, а также следующей модификации условий Вг и Г: В^. Если / — непрерывная ограниченная функция на Xt, то функция g (ха) = J / (у) р (dy | ха) (2) непрерывна по совокупности х и а на Аг Г'. Плата q на множестве А( принадлежит ^(At), плата г принадлежит 73
* * * Вернемся теперь к рекуррентному уравнению ~ (At-V ai' Si) S/E^i)’ (3) рассмотренному в §§ 1.2 и 2.2. Когда это уравнение опре- деляет полунепрерывную модель? На пространстве Xt, At и At, а также платы q и г надо наложить прежние требования А, Б и Г'. Относи- тельно функций Ft достаточно потребовать измеримости по совокупности всех аргументов и непрерывности по сово- купности х)Л и at 10 11. Первое из этих условий позволяет определить переходную функцию р(-|а:<_1а/) (см. §2). Из второго следует свойство В[. В самом деле, пусть / — ограниченная непрерывная функция на Xt. Пере- ходная функция (2. 5) переводит / в функцию g {ха) = j / {у) р {dy | ха) = j / [7^ {х, a, s)] П, {ds) = X/ St = Mf[Ft{x, a, st)] {xa£At). (4) (Равенство интегралов сводится к определению переход- ной функции р в случае, когда / равно индикатору Г( и распространяется на все ограниченные измеримые функции / с помощью леммы 1 из § 1 добавления 5). При сделанных предположениях подинтегральная функция ог- раничена и непрерывна по ха при каждом s из St, и не- прерывность g вытекает из теоремы Лебега о предельном переходе под знаком интеграла и. Итак, при выделенных курсивом условиях уравнение (3) задает полунепрерывную модель. § 5. Уравнения оптимальности и простые оптимальные стратегии Условимся говорить, что соответствие допускает из- меримый выбор {униформизацию), если для него существует измеримый селектор (см. § 1.3). Пример отображения, не допускающего униформизацию, будет рассмотрен в § 3.1 (пример 1). 10 В действительности, измеримость но совокупности и st вытекает из измеримости по st и непрерывности по остальным аргументам. 11 См. Халмош [1], § 26, теорема 4. 74
Мы будем опираться на следующую общую теорему. Теорема А. Пусть Е и Е' — сепарабельные мет- рические пространства и Q(x) — квазинепрерывное соот- ветствие из Е в Е' (см. § 4, Б). Если f£J£(E'), то функция g(x)~ sup f(y) (х£Е) принадлежит ,£(Е), множества Q(x)^=(y.y^Q(x), f(y) = g(x)} (х£Е) непусты и соответствие Q(x) допускает измеримый выбор. Эта теорема будет доказана в следующем параграфе. Опираясь на теорему А, распространим на полуне- прерывйые модели результаты §§ 1.6—1.7 об оценке v и простых оптимальных стратегиях. Для вывода этих результатов нужны следующие свойства: 1) оценка v принадлежит££(Хт) (и, значит, измерима)-, 2) v(p.) = y.v для любого начального распределения fi; 3) существует равномерно оптимальная стратегия. Для конечных моделей свойство 1) тривиально, а свой- ства 2) и 3) были выведены нами до того, как мы при- ступили к исследованию связи между моделью Z и ее про- изводной Z'. В полунепрерывном случае приходится до- казывать свойства 1)—3), также используя индукцию от Z' к Z. В предположении, что свойства 1)—3) выполнены для производной модели Z', докажем, что а) оценка v модели Z выражается через оценку v' модели Z' уравнениями v—Vu, u = Uv', (1) где операторы U и V определены формулами Uf(a) — q(a)-\-^f(x)p(dx\a) (а£А), (2) X Vg (а) = sup g (а) (х£Х\Хп); (3) б) существует измеримый селектор ф соответствия Л (ж) из Хт в Ат+1 такой, что и(^(:^] — и(х); (4) 75
в) если п' — оптимальная стратегия для модели Z', и ф — селектор из пункта б), то стратегия фк' опти- мальна для модели Z; г) модель Z тоже обладает свойствами 1)—3). Для вырожденной модели, состоящей из одного мно- жества Хя, свойства 1)—3) выполняются тривиальным образом [1) следует из 3. Г]. По индукции свойства 1)—3) будут справедливы для любой полунепрерывной модели, а с ними и результаты а)—в). Так же, как в § 1.6, выводим из фундаментального уравнения (3.1), что W {х, -п)< Vu {х) {х£Хт), (5) где и (а) = q {а) -ф- v' (ра) (aGAB+i) (6) (и — любая стратегия). По предположениям 1)—2) »'е%(хт+1) и v'(Pa)= J v'{y)p{dy\a). (7) %т+1 Поэтому из условий 3. В—3. Г вытекает, что Сопоставляя (2) и (6)—(7), имеем u = Uv'. Построим теперь стратегию и, для которой формула (5) выполняется со знаком равенства. Пусть к' — стра- тегия, оптимальная для Z’ [предположение 3)]. Тогда, в силу фундаментального уравнения и формулы (6), для любого произведения ук' (см. § 1.6) w{x, р?) = 7 {da I х) [5 (а) Д- т' (ра, те’)] = = $ | x)[q (а) Д- v' (рй)] = J и(а) у {da | х). Чтобы правая часть была равна Vu (х) ~ sup и (а), доста- 4(Ж) точно чтобы распределение у(-|а;) было сосредоточено в какой-либо точке ф(х) множества Д {х) = (а : а £ А {х), и {а) = Vu {х)}; при этом, чтобы фи' было стратегией, нужно выбрать 76
селектор ф соответствия Л (а;) измеримым. Поскольку и£фДЛю41), это можно сделать по теореме А. Из равен- ства ш(х, ср к') = Vu (х) и из (5) следует, что v=Vu. Мы до- казали а). Ясно, что селектор ф соответствия Л (я) удовлетворяет условию б) тогда и только тогда, когда ф — измеримый селектор соответствия Л (я). Поэтому рассуждения пре- дыдущего абзаца доказывают б) и в). Остается показать, что свойства 1)—3) сохраняются для модели Z. Свойство 3) доказано построением стра- тегии фя'. Свойство 1) по теореме А вытекает из включе- ния и^ф?(Лт+1) и равенства v=Vu. Для доказательства 2) заметим, что если я — равномерно оптимальная стра- тегия для Z, то у(р) —гу(р, = w (х, я) р (йж) = v (х) р (dx) = [W. X т Л т Как и в § 1.6, результаты а)—б) можно сформулиро- вать с помощью операторов Тф и Т, преобразующих функ- ции на Хт+1 в функции на Хт по формулам ^ф/ (*) = Я (*)] + J / ((/) Р (dy I Ф (х)) (8) И Тt = sup Л(ж) 9(а)+ $ Hy)P(dy\a) %1П+1 (9) Ясно, что оба эти оператора имеют смысл для функций / из <%?(Хт+1), и из условий З.В, З.Г и теоремы А видно, . что ВД^СЖ)- В результате а) уравнение (1) можно заменить урав- нением и — Ги', а в результате б) формулу (4) — равенством ГфУ' = у. Из результатов а)—в) совершенно так же, как в § 1.7, выводятся уравнения оптимальности v = Tv на Х\Х„, (10) v = г на Х„,
существование простой стратегии у = . . .фя, для которой Tlfv = v на Х\ХИ, (И) и равномерная оптимальность такой стратегии. * * * В случае обобщенной модели, когда состояние xt^ не определяется однозначно по управлению а( (см. §§ 2 и 4), операторы Т ъ Т„ следует определить формулами Tf(x) — sup а 6 И(х) У W + \f(y)p (dy | ха) %t и (^) = Q (•£? (*)) + t (У) P (dy I x<? (4)- xt Жи) (12) (13) При этом уравнения оптимальности и условия для про- стой оптимальной стратегии ср сохраняют вид (10) и (11). ' * * * Если полунепрерывная модель задается уравнением (4.3), то, в силу (4.4), Т(х) = sup [q (ха) -ф- t (х, a, s)] П2 (ds)] = а 6 I St ) = sup (q (ха) -f- М/ [F, (х, a, sJJ). (14) а 6 Л(д;) Оператор на шаге t записывается в виде T^(x) = q(xi^(x))-}- j f[Ft(x, ср (х), а)|ПД(й) = st = У W (х)) -ф- М/ [F\ (х, ф (х), sz)]. (15) * * * Вычисление оценки модели и оптимальных стратегий по формулам (10)—(11) представляет собой нелегкую задачу. Существуют методы численного решения с по- мощью вычислительных машин, которых мы касаться не будем. Простые же явные выражения удается полу- чить в примерах, где обнаруживается, что оператор Т преобразует в себя некоторое семейство функций, зави- сящее от небольшого числа параметров. Мы восполь- зуемся этим при разборе конкретных задач в §§ 7—11. 78
* * * В приложениях встречаются случаи, когда модель не полунепрерывна, но явное вычисление показывает, что: А'. Существуют измеримые функции vt на простран- ствах Xt и измеримые селекторы ф, соответствий Л (ж) из Xt_r в At такие, что vn=r и T^tvt = Ttvt = vt_1 (t — m -ф- 1, • • •> п). Тогда можно утверждать, что vt=vt при всех t и простая стратегия <р=фш+1 . . . ф„ равномерно оптимальна. В самом деле, условие А' полностью заменяет теорему А при проведении индукции из первого раздела этого пара- графа (в свойстве 1) полунепрерывность оценки v заме- няется ее измеримостью). § 6. Теоремы об измеримом выборе Теорема А будет выведена из следующей более общей теоремы. Теорема Б. Пусть каждому х из измеримого про- странства Е соответствует непустое компактное под- множество Qx=Q(x) сепарабельного метрического простран- ства Е', и пусть для любого у из Е' функция F(x)= у) измерима 12. Тогда соответствие Q (х) допускает измеримый выбор. Соответствие Q(x), удовлетворяющее условию тео- ремы Б, мы будем называть измеримым по х. Заметим, что когда Q (х) состоит из одной точки ф(я:), это определение совпадает с обычным определением из- меримости Т13. Доказательство теоремы Б и вывод теоремы А из тео- ремы Б основаны на следующем предложении. Критерий измеримости. Для измеримости соответствия Q (х) необходимо и достаточно, чтобы су- ществовала последовательность открытых множеств Ql(x)^Q2 (z)ZD. . .T3Qn(x) ZD. . (z) со свойствами: а) при любых п и у измеримо множество {x-.y^Q”^)}; 12 Расстояние р (Q, R) от множества Q до множества R определяется, как нижняя грань р (х, у) по всем x£Q, у £ R. 13 Действительно, если U есть е-окрестность точки у, то (а? : ф (х) f • • С}= {х : р {Qx, у) < е}. 79
б) каждая последовательность точек уп £ Qn (х) имеет предельную точку в множестве Q(x). Для доказательства необходимости достаточно поло- жить Qn^ = {j/:P(j/, <2J<^-}. При этом множество (х : у е Qn (я)} = (z : р (Qx, у) < ^-} измеримо при любых п и у, а в качестве предельной точки у (х) для последовательности точек y„£Qn(x) можно брать предельную точку последовательности {г/'}, где у’п — ближайшая к уп точка компакта Q (х). Чтобы доказать достаточность, рассмотрим последо- вательность {ут}, всюду плотную в Е'. Фиксируем у и положим , , ( р(г/> г/J при ymG<2”(a;), при ym^Q^x). Тогда ?(у, Q" (*)) = inf р(г/, у') = inf р (г/, ут) = inf fmn(х). у' 6 Qn(x'j у 6 т Выберем в Qn(x) точку у'п такую, что Р (г/, 2/Э<р(г/, +^-. Согласно б), у последовательности {у'п} имеется предель- ная точка у, принадлежащая Q (х). Очевидно, Р (*/, <2.J < Р (У> У) < Ига р (у, Q” (х)) < р (у, Qx), >СО так что Р(г/> <2J= limp (г/, <2” (а:)). П->СО Функции fmn измеримы в силу а). Поскольку измеримость сохраняется при взятии' нижней грани и предела после- довательности функций, то функция р (у, Qx) измерима по х. Это верно при каждом у, и, значит, соответствие Q (х) измеримо. 80
Следствие. Если соответствие Q (.т) измеримо по х, то при любом у' из Е' соответствие Q&) = {y, y£Q(x), ?(у, y')~?(Q(.x), у')} тоже измеримо по х. Из компактности Q (х) следует, что Q(x) не пусто и компактно. Положим Qn(*) =--{*/:р(у, р(г/, у')<р(г/'> <2J + -7}• Очевидно, эти множества открыты, удовлетворяют нуж- ным включениям и условию а) признака измеримости. Проверим условие б). Если yn£.Qn(x), то в Q(x) найдется точка у'п такая, что р (уп, y'n)<Z.~^- Так как Q(x) — ком- пакт, то последовательность у' имеет предельную точку у в Q (х). Ясно, что у является предельной точкой и для последовательности уп, и что р(у, у') = р (Qx, yf). Докажем теперь теорему Б об измеримом выборе. Взяв в Е' всюду плотную последовательность {ут}, положим <?о = Q 04 Qm (*) = {у : у СQm-i (z), р(г/> */J = р И ут)}, (т — 1, 2, . . .; х G £"). В силу следствия вложенные друг в друга множества Qm (х) компактны и измеримы по х. Пересечение Q^x) этих компактов не пусто. Если точка у принадлежит Q^(х), то р(Ут, у) = р(ут, <2m-i(*)) (т = 1, 2, ...). (1) Поэтому для любых двух точек у', у" из (х) ?(Ут, У') = ?(.Ут, У") при всех ут, и, значит, у' = у". Таким образом, Q~ (х) состоит из единственной точки, которую мы обозначим ф (х). Поскольку множества Qm_r (х) измеримы по х и в силу (1) Р(*/т, Ф (*)) = Р (Ут, то функция р (г/,и, ф (х)) измерима по х при всех ут. Так как из ут~*У следует, что р(?/м*. Ж)-^р(*/> <!>(*)), 6 Е. Б. Дынкин, А. А. Юшкевич 81
и {j/m} всюду плотно в Ег, то функция р(у, ф (х)) измерима по х при любом у из Е'. Согласно замечанию, приведен- ному перед критерием измеримости, последнее условие равносильно измеримости функции ф (я). Теорема Б доказана. Выведем из нее теорему А преды- дущего параграфа. Прежде всего заметим, что из квазинепрерывности Q (х) вытекает, что любая последовательность yk£Q(x) имеет предельную точку в Q(z). Следовательно, Q (х) компактно. _ Множество Q (х) из теоремы 5.А непусто, ибо полуне- прерывная функция / достигает на компакте Q (х) своего наибольшего значения g (х). Множество Q (х) компактно, как пересечение замкнутого множества {у : / (у) g (я)} с компактом Q (х). Из ограниченности сверху / вытекает ограниченность сверху g. Покажем, что g полунепрерывна., Пусть хп-+ х и g(xn)^c. Выбирая по точке уп в множестве Q(zn), будем иметь / (уп) > с. В силу квазинепрерывности Q у после- довательности уп имеется предельная точка y^Q (х). Ввиду полунепрерывности / имеем f(y)~^c и, значит, g(x)~^ Согласно теореме Б, нам остается проверить, что Q (х) измеримо по х. Из квазинепрерывности Q следует, что при любом у из Е' функция F (х) = —p(y,Qx) полунепре- рывна и, стало быть, измерима. Значит, Q (х) измеримо по х. Чтобы вывести измеримость Q (х) по х из измери- мости Q (х), воспользуемся критерием измеримости. Пусть /„ — непрерывные функции на Е', монотонно сходящиеся сверху к /. Открытые множества Qn(x)=[y.?(y, Qx)<±, f„(y)> g вложены друг в друга и содержат Q(x). Они удовлетво- ряют условию а) критерия измеримости, так как отобра- жение Q (х) и функция g (х) измеримы. Проверим усло- вие б). Пусть ynQQ"(x) и у'п — ближайшая к уп точка ком- пакта Q (х). Тогда р(уп, у’)-*0. Поэтому точка у g Q (х), предельная для {г/,,}, является предельной и для {у„}- При п т fm(y)>f„(y,)> g(x)—^.
Полагая п ->оо, заключаем, что При т -> со получаем, что / (у) g (х), и, значит, у при надлежит Q(x). Итак, условие б) признака измеримости тоже выполнено, и доказательство теоремы А закончено. § 7. Модель распределения ресурса между производством и потреблением Вооруженные общими результатами о полунепрерыв- ных моделях, продолжим теперь изучение поставленных ранее конкретных задач (см. введение и § 1.2). Начнем с задачи распределения одного продукта между производством и потреблением. В этой задаче выпуск xt связан с затратами at уравнением xt = F(at, st) (1) (st — случайный параметр). В качестве Xt и At можно принять полупрямую [0, -)-оо). По смыслу задачи управ- ление at можно брать из отрезка [0, хе^], так что слоем Рис. 2.1 А (х) служит отрезок [0, ж], а множеством At — угол между прямыми а=0 и а=х (см. рис. 2.1). Условия А и Б из § 4 выполнены (квазинепрерывность соответствия А (х) следует из компактности объединения А (х) по всем х с < оэ). Доход за п шагов равен 71 (*о - «1) + 7а СП - ai) + • • • + 7Я (*я-1 - ая). Согласно сказанному в конце § 4, для полунепрерывно- сти модели достаточно потребовать, чтобы функции qt 6* 83
были полунепрерывны и ограничены сверху, а функция F — измерима по совокупности а и s и непрерывна по а. Естественно считать, что если затраты не превосходят константы с, то при любой случайной ситуации выпуск не может превысить некоторую константу Ф (с). Другими словами: функция F (а, в) ограничена на каждом мно- жестве [0, c]xS(. При этих условиях можно отказаться от требования ограниченности сверху функций q,. В самом деле, рассмотрим последовательность с0^,г0, с.,=Ф (сЛ1). Очевидно, при начальном состоянии х0 и любом управле- нии выполняется неравенство и мы можем за- менить пространство состояний в момент t на отре- зок _Xz = [0, cj. При этом множество Л заменяется на тре- угольники At=A(a, х) : 0 a -Д х -Д ct}, и ограничен- ность функции qt на А, вытекает из ее непрерывности. Применим к нашей задаче общие результаты § 5. Пусть vt — оценка модели на интервале [t, п]. Согласно формулам (5.10) и (5.14) ^ = 0- (*) = Ttvt (*) = max {Qt (^ — «) + (a> (2) 0 Простая оптимальная стратегия «р=ф1ф2- -фя получа- ется, если определить ф* (х) как то значение а, при котором достигается максимум в формуле (2). * * * Проведем выкладки для одного специального, но ин- тересного для экономики случая. Пусть ?Дс) = са (0<с<оо) (3) при некотором а из интервала (0, 1), st — положительные случайные величины с одним и тем же распределением вероятностей и F (a, s) = as. (4) (Формула (3) описывает все однородные вогнутые функ- ции. Формула (4) выражает предположение, что при любой случайной ситуации выпуск пропорционален за- тратам). Наша модель однородна. В силу (2) vt = Т“-*0, где Tf (х) = max [(г — a)’ -]-M/(as,)] (а-^-0). (5) О < а х 84
Имеем ТО (.г) = max (х — а)“ = О а х <к (ж) = О. Следующий шаг должен был бы состоять в применении оператора Т к функции /=а;“. Мы решим несколько более общую задачу и вычислим Т (Ъх1), где b 0. Имеем Т (bxa) (х) = max [(я — а)* -]- к&а“], (6) 0 а х где ). = Ms“14. Исследуя задачу на максимум (6) обычными средствами дифференциального исчисления, находим, что этот макси- мум достигается в точке %(Ь)х и равен где ЦЬ)= (X6)1~V, (7) 1 + (U)1-’ x(b) = [l + W^J • Следовательно, где числа Ь!: и dk находятся из соотношений &о=О, Ь„.=[1 +(«1)Г;] . (9) = (W) 1 + (Mfc)1 л (эти числа не зависят от п). Из (9) вытекает, что числа (И) 14 Предполагается, что это математическое ожидание конечно. 85
связаны соотношением ; cfc+i = 1 + P-Cfc> где (12) J Стало быть, со = О, cfc = l + p + pa+...+pfc-1 при Л = 1, 2,... (13) В силу (10) и (11) коэффициенты Ък и dk выражаются через ск по формулам ? ь«=«г-. ^ттк- <п> Формулы (8) и (12)—(14) дают полное решение задачи. , Посмотрим еще, как меняется оптимальное управле- ( ние ф, на фиксированном шаге t при неограниченном увеличении времени управления п. Согласно (8) и (14) । Ф/ (х)= d„ — \ — х- / п-1 1 + р.Сг!_е Если р <( 1, то cfc при к-^-со, и в пределе Ф/ (*) = Рх> так что нужно вкладывать в производство постоянную долю р произведенного продукта. Если же р 1, то ск -> оо и ф^ (х) -> х. Это значит, что в начале периода управления нужно почти всю продукцию использовать для расширения производства (в конце периода управле- ния доля потребления резко возрастает). Не следует, впрочем, переоценивать практического значения послед- него результата. Он получается за счет вклада слагае- мых, отвечающих очень большим значениям с, а оценка полезности таких значений с с помощью неограниченной функции д(с) = са‘ достаточно сомнительна. * * * Явное решение последней задачи было получено бла- годаря тому, что нам удалось угадать с самого начала простое множество функций / (х), инвариантное отно- сительно операторов Tt и содержащее финальную плату г. 86
Такое множество, очевидно, содержит все функции vt=Tt+1 Tt+i . . . Trr, и поэтому, решая задачу оптималь- ного управления, мы можем рассматривать только функ- ции иэ X- (В нашем случае X состояло из функций f(x) = bxa (b'^0), операторы Tt не зависели от t и г=0). Этот прием поможет нам и при решении других конкретных задач. § 8. Задача о регулировании водоснабжения В этой задаче (см. введение и § 1.2) azH-sz, СЛ], (1) где xt — количество воды в водохранилище в конце пе- риода t, at — потребление воды за этот период, st — слу- чайный приток воды и U — объем водохранилища. Целе- вая функция имеет вид q (<h) + q (а2) + • + q (а„). Если считать, что st — независимые случайные величины с одним и тем же распределением П, то мы получим одно- родную модель. Пространством состояний X является здесь отрезок [О, U], такой же отрезок служит и пространством управ- лений А. Слой А(х) состоит из точек [0 a ж], мно- жество А представляет собой треугольник (см. рис. 2.2). Поскольку функция (1) непрерывна по хе-1 и at при каж- 87
дом значении sz, то для полунепрерывности модели до- статочно, чтобы функция q была полунепрерывна и ог- раничена сверху. Выпишем для этой модели оператор Т. Так как ( х — а —]— s при s U — х-\-а, min (я — а-4-s, U)=\ гт . гт . 4 ' ' { U при s > U — х -)- а, то формула (5. 14) принимает вид U-х+а Tf(x)= sup g (а) —( f (х — а -ф- s) П (ds) -ф- -ф-/ (£7) П (£7—х-\-а, Ц-оо) а уравнения оптимальности обращаются в »„ = О, vt-i (ж)= max ? (я) + I vt (х — а -ф- s) П (ds) -ф- L о + ^(С/)П({/-а; + а, —со) (O^z^CZ, l^J^n). § 9. Задача о распределении ставок в игре Согласно § 1.2 эта задача описывается рекуррентным уравнением Ъ = + (1 — “/) (1) где xz_1=azxi_1-b (1—— распределение . ставок на шаге t, о{ и — случайные коэффициенты отдачи. Будем считать, что все пары (о1? tj, (а2, -с2), . . ., (az, независимы, и их распределения вероятностей не зависят от t. Целевая функция совпадает с финальной платой Модель однородна и пространствами состояний X и управлений А служат, соответственно, полупрямая [О, оо) и отрезок [0,1] (см. рис. 2.3). Все слои А(х) совпа- дают с А- Пространства X и А удовлетворяют условиям 88
4.А и 4.Б, а функция F, заданная формулой (1) — тре- бованию непрерывности по at и xt_y. Поэтому модель будет полунепрерывна, если финальная плата г полу- непрерывна сверху и ограничена сверху. Как и в случае однопродуктовой модели, условие ограниченности платы г сверху можно заменить предположением, что случайные величины а, и ограничены. Оператор Т в этом примере имеет вид Tf(x)= sup М/ [а~х -)- (1 — а) та;] (2) (мы опускаем индексы t при случайных величинах сп тр так как по предположению написанное справа выражение не зависит от t). Оценки vt модели на интервалах времени [£, п] находятся из соотношений vn = r, vt_1 = Tvt (£ = 1, 2, . . ., п). * * * Как и в § 7, оператор Т сохраняет инвариантным мно- жество '£ функций вида /(z) = tea (Ь>0) (3) (а — фиксированное положительное число). В самом деле, для функции (3) Tf(x)= sup Mb[aaa;-]-(l—а) та;]” = ХЬхл, (4) где X — верхняя грань на отрезке [0, 1] функции Ф (а) -= М [ас -]- (1 — а) т]“. (5) Поэтому легко получить решение задачи для финальной платы г, принадлежащей Из (4)—(5) следует, что при финальной плате (3) оценка нашей модели на интервале времени И, п] равна vt (х) — 1>кп-*Ха. Предположим, что интеграл (5) и интегралы, получаю- щиеся из него двукратным дифференцированием по а, сходцтся равномерно по а. (Достаточно, например, по- требовать, чтобы с и т принимали значения из некоторого отрезка [е, у], где е > 0). Тогда функция Ф (а) непре- 89
рывна, достигает максимального значения А в некоторой точке а* и Ф' (а) = аМ [ао (1 — а) тJ*'1 (а — т), ф" (а) = а (а — 1) М [аа 4- (1 — а) т]'”2 (о — т)2. (6) Ясно, что на каждом шаге оптимальное управление со- стоит в выделении одной и той же доли а* имеющихся средств в первую отрасль (и доли (1—а*) — во вторую). Рис. 2.4 Из (6) следует, что Ф"(а) < 0 при 0 < а < 1 и Ф’(а) 0 при а 1. Во втором случае функция Ф(а) выпукла (при а=1 линейна) и достигает наиболь- шего значения на конце отрезка [0, 1]. При этом а*=0 или 1 в зависимости от того, которая из величин Ф (0) = ЛЛ“, или Ф (1) = Afa“ больше. В первом случае (при 0 < а < 1) функция Ф (а) во- гнута и положение точки а* зависит от знаков первых производных Ф'(0) = аМ(ат“-1 — и Ф' (1) = аМ (о“ — а"-1!). Поскольку Ф" <" 0, то Ф'(1) < Ф'(0). Если 0 Ф'(1), то а* = 1, если Ф’(0) <1 0, то а*=0, наконец, если Ф'(1) < < 0 < Ф'(0)> т0 0 < а* < 1 (см. рис. 2.4). В этом по- следнем случае точка а* находится из уравнения Ф'(а)=0 или, в развернутом виде, 90
М {О + (1 - а) т]"-1 (о - т)} = 0. (7) Отметим частный случай, когда коэффициент отдачи т не случаен. Тогда двойное неравенство Ф'(1) < 0 < < Ф'(0), при котором следует направлять средства в обе отрасли, принимает вид М7 - тМо”-1 < 0 < т^Ма — т1 или Ма“ Ма1'1 (8) * * * Предположим теперь, что желательно с максимальной вероятностью достичь некоторого уровня накоплений с, причем нас одинаково устраивает любая сумма, большая или равная с, и не устраивает меньшая сумма. Не огра- ничивая общности, можно считать, что с=1 и функция г имеет вид ( 0 при 0 сС х <" 1, г(х) = {..^ (9) ' ' [1 при 1 х. ' ' Мы разберем только простейший случай, когда коэф- фициент т равен 1, а коэффициент о принимает два зна- чения: 2 и 0 с вероятностями р и q=l—р. Можно пред- ставить себе игру, где с вероятностью р выигрыш равен поставленной сумме денег и с вероятностью q ставка теряется. Игрок, располагающий наличностью х, вы- бирает на каждом шаге размер ставки ах (0 а 1). Его цель — с максимальной вероятностью получить в конце игры сумму, не меньшую 1. Оптимальное поведение игрока существенно зависит от соотношения между р и q. Если р > q, то условия игры благоприятны для игрока; в силу закона больших чисел при большом числе игр с малыми ставками игрок достигнет точки х=1 с вероятностью, близкой к 1. В пре- деле при п _> оо оценка v будет равна 1 для всех ;г>0 (в точке 0, очевидно, п=0). При фиксированном числе шагов п задача определения оценки v и оптимальной стратегии остается, но мы ею заниматься не будем, а перей- дем к случаю р q, нетривиальному и при допущении сколь угодно длинного промежутка игры. 91
В случае р < q по тому же закону больших чисел малые ставки с большой вероятностью приведут игрока к разорению. Поэтому возникает предположение, что нужно делать возможно бблыпие ставки, совместимые с наличными средствами (избегая бесцельного риска). Это значит, что при следует ставить на игру весь имеющийся капитал х, при —ставить недо- стающую сумму 1—х, при 1 <2 я — вообще ничего не ста- вить. Соответствующая стратегия задается на всех шагах одним и тем же селектором 1 при 0 х О при 1 х. (Ю) условимся называть ее дерзкой стратегией. Будет по- казано, что дерзкая стратегия оптимальна при любом числе шагов п. Оценка и модели равна Т"г, оценка w( , ф) дерзкой стратегии ф равна Т^г 15. Поэтому дело сводится к до- казательству равенства Ту = Т"т. (И) Оператор Т в данном случае действует по формуле Tf (х) = sup [pf (х -]- ах) -|- qf(x — ах)] = = sup [p/Gr +J/)+ ?/(£ — !/)], (12) получающейся из (2) при рассматриваемых коэффициен- тах а и т. Оператор согласно (10) дается формулой р/(2Л;) + 5г/(0) при 0 < - 1 7V(S) = pf(l) + qf(2x-V) 1 при X 1, (13) /(*) при 1 « X. 16 Формула (1. 7. 5), будучи непосредственным следствием фунда- ментального уравнения, верна и для общих моделей. 92
Мы будем доказывать (11) индукцией по п. При п=0 равенство (11) тривиально: г=г. При п=1, исходя из (9), прямым вычислением находим, что Т^г (х) = Тг (х) = О при 0 х < -2 р при -% X <( 1, 1 при 1 СГж (см. рис. 2.5). Предположим теперь, что (И) <верно для Рис. 2.5 некоторого 1 и докажем, что тогда (11) верно и для числа п+1. Положим для сокращения записи (14) В силу предположения индукции /„= Т"г и потому нужное нам соотношение Т$+1г —- Т',+1г сводится к равенству — = Tfn. Поскольку fn+1—T^fn < Tfu, то достаточно дока- зать неравенство /я+1 Tfn, которое в силу (12) в под- робной записи имеет вид Л+1 (*) > Pf„ + У) + Vfn - У) (0 < £/<*). (15) Из (9), (13) и (14) немедленно вытекает, что О +; ft <2 1, ft (0) = 0, ft (х) = 1 при х (+ 1 (г = 0, 1, 2, ...). (16) Следовательно, при х 1 неравенство (15) справедливо, и в дальнейшем мы можем ограничиться значениями х 1. Далее легко видеть, что оценка и (х) = Tnr (х) =fn (х) — неубывающая функция х: при большем капитале всегда можно достичь не худшего результата, чем при меньшем 93
(достаточно делать те же ставки). Значит, если х~\-у > 1, а х+у'=Л, то р/>+y’pyfp—у')=р+уШ^у’Р ppqfn (х~у)— = Pfn(x + у) + Ч/Лх — У)- Поэтому неравенство (15) будет верно при х-[-у > 1, если только оно верно при x-[-y=i. Итак, можно считать и -'с+ У Р1 • Из предположения индукции следует, что (15) верно при замене п на п— 1: Л(*) > Pfn-i (х + У) + 4fn-i (х — У) (0 <*/<*) (17) (в этом месте используется, что н^1). Чтобы перейти от (17) к (15), заметим, что согласно (14)Д+1 = TJt. Учи- тывая (13) и (16), в подробной записи имеем pf, (2х) при 0 х -у, Л+1(-г)= ! (18> р + ?Л(2^ — 1) при у < £<1.. Далее для вывода неравенства (15) придется рассмот- 1 1 реть четыре возможных случая: 1) х -]-у у, 2)л:^ — 1 1 х -)- у, 3) х — у х, 4) Рх — У Р х (во всех слу- чаях 0 < х <' у, 'я -j- у "Sj 1). В персом случае согласно (18) Л+1(х) = Pin (2-4 fn (х ± У) = Pfn-i (2х + 2У) и (15) получается из (17) заменой х и у на 2 г и-2г/, и умножением на р. Второй случай сложнее. Неоднократно применяя (18), имеем Л+1 (£)=Pfn (2-г) ‘ Ра + PlL-i ^х— 1)=Р2+qfn (2а;—у)> fn (х + У) Р + 4fn-i (2х + 2*/ — 1)« f„(x~ У) = р/п-Л2х~ 2У) (здесь учтены неравенства 2л: —, 2х—выте- кающие из условий второго случая). Поэтому нужное нам неравенство (15) сводится к /я (2^-1) > pfn^ (2г + 2у - 1) + pf^ (2х - 2у) 94
или, в обозначениях z = 2х—, н = |2г/—к /n(z)>p[/„.i(z + «) + /„_1(z-K)]. (19) Поскольку q~^p, последнее неравенство вытекает из (17) ^проверяется, что а <7 z при у <7х и у х -)- yj. В третьем случае из (18) получаем /я+1 (*) = Р + qfn (2ж - 1) = р + qpfn^ (4х - 2) = = Р9 + р/„(2*—у)> Л (х + У) = Р + qfn-1 (2® + 2у — 1), /п (* — У) = Р/„-1 (2ж — 2г/) / 11 (здесь использованы неравенства 2х — 1 v —о > справедливые в условиях третьего случая^. Значит, теперь (15) сводится к неравенству Ч + /„ (2z—4) > ? + Ч/п-Л2х + 2г/ — 1) + qfn-i (2х—2у) или, в тех же обозначениях, что в (19), к /в(г)>Р-9 + 9/„-1(г + м) + 9/п-1(2-м) (20) (по-прежнему 0<7u<7z). Поскольку p<Cq и fn-i ’С 1 > т0 Р —9<(Р —9)/„-i (z +и) и, следовательно, правая часть (20) не превосходит правой части (17). Поэтому (20) вытекает из (17). Наконец, в четвертом случае /я+1 И = Р + ?/я (2-г — 1), fn (х ± У) = Р + qfn_i (2х + 2у — 1) и (15) легко сводится к (17) с заменой х на 2х—1 и у на 2у. Оптимальность дерзкой стратегии доказана. * * * Сделаем одно замечание, которое пригодится при ис- следовании случая бесконечного промежутка управления. Отметим, что дерзкая стратегия максимизирует ве- роятность события Сп— 1 при каком-нибудь t п}. 95
Рис. 2.6 В самом деле, оценка любой стратегии равна вероятности события {.ги 1}. Для дерзкой стратегии ф она равна /„ и, по определению ф, совпадает с вероятностью собы- тия Сп. Поэтому достаточно доказать, что для любой стратегии к Пусть те — стратегия, которая получается из к следую- щей естественной модификацией: мы перестаем делать ставки, как только достигаем какого-нибудь состояния у^1. Очевидно и ввиду оптимальности дерзкой стратегии правая часть не превосходит fK(z). Поскольку Сп (п=1, 2, . . .) образуют расширяю- щуюся последовательность событий, то из сделанного за- мечания, в частности, вытекает, что последовательность функций fn не убывает и, следовательно, имеет предел /т. * * * Формула (18) показывает, что график функции /п+1 получается из графика /„ следующим образом: нужно сжать график /„ вдвое по оси х и сжать его по оси у, во-первых, в р, во-вторых, — в q раз; полученные два графика следует затем разместить в ле- вом нижнем и правом верхнем углах единичного квадрата ^обе части сомкнутся в точке х=~£, у — р— см. рис. 2.6, где для наглядности fn представлена непрерывной выпуклой линией). 96
Индукцией по п устанавливается, что функция /„ будет rid- Тк — 1 АЛ стояние на каждом полуинтервале 1—^—, (А: = 1, 2, .,.,2") и что величина каждого скачка функции /и будет заключена Между рп и qn. Далее при дерзкой стратегии из двоично-рацио- к цельного капитала через п шагов получится либо 0, либо 1; дальнейшее продолжение игры капитала не изменит, и, следова- тельно, /оо = tn (2») • Отсюда легко вывести, что функция /га(г) строго возрастает на отрезке [0, 1] и непрерывна. § 10. Задача о распределении ресурса между потреблением и различными отраслями производства В задаче о распределении ресурса между двумя от- раслями и потреблением Ш А + (1 - L) (!) где — распределение ресурса в периоде t на производство и потребление, и (1—у() — доли ре- сурса it, направляемые в первую и вторую отрасли, at я х( — случайные коэффициенты отдачи (мы считаем, что все пары случайных величин х() взаимно незави- симы). Доход в этой модели измеряется величиной 51 (®о G) 4* (А У 4“ • • • 4“ (A-i Q’ (2) За Х( здесь естественно принять луч [0, -fy-oo), за At — прямое произведение ДхГ=[0, +о°)х[0, 1J. Так как it <1 то слоем Л (я) является [0, я] X [0, 1]. Легко видеть, что пространства Xt и At удовлетворяют усло- виям З.А—З.Б, и так как функция (1) непрерывна по at = (it, tz), то для полунепрерывности модели достаточно, чтобы функции qt были полунепрерывны и ограничены сверху (как и в § 7, вместо ограниченности сверху функ- ций qt можно потребовать ограниченности случайных величин и х(). Операторы Tt в этой модели определены формулами 7\/(z)— sup — i)4-M/[q0< — A (1 — — = sup (qt(x — A) 4- supM/[AT3<4-A(l--r)Tj). (3) 0<f<l 7 E. Б. Дынкин, А. А. Юшкевич 97
+ * + Рассмотрим подробнее однородный случай, когда qt и распределения пар (ар т.), а, следовательно, и опера- торы Tt не зависят от t. Если ?(с) = с“ (0<а<1), (4) то эти операторы снова (как и в §§ 7 и 9) оставляют ин- вариантным множество !£ функций вида f(x) = bxa (Ь>0). (5) Действительно, для функции (5) имеем Tf (х) — sup {(ж — г)” sup М^га[уз (1 — у) т]“} = = sup [(я - г)” Uh], (6) где Х= sup М[уа-|-(1 — т)тр (7) (мы опускаем индекс t у случайных величин ot и поскольку математические ожидания в формулах (6) и (7) от t не зависят). Выражение (6) было вычислено нами в § 7. Там было установлено, что ТЦх) = х(Ь)х' (8) и что супремум в (6) достигается при i = I (6, х) — £ (Ь) х, (9) где х(Ь) и tfb) даются формулами (7.7). Выражение (7) исследовано в § 9. Мы видим, таким образом, что наша задача распада* ется на две уже решавшиеся задачи. Оптимальные доли 7* и 1—7* каждой из производственных отраслей и число X вычисляются, как в § 9 (независимо от распределения ресурса между потреблением и производством и момента времени t). Затем, как в § 7, находится оптимальное рас- пределение ресурса между производством и потребле- нием; при этом две отрасли с коэффициентами отдачи а и т заменяются одной отраслью с коэффициентом отдачи s таким, что Ms” = М [Т*а + (1 - 7*) т]’ = X (или М<? ($) = М<? (1 — у*) т]). 98
В силу формул (7.8) и (7.12)—(7.14) имеем Г 1 2 у/(л:) = |_1 + Х1-а + Х1’7+ ••• +х оптимальный размер вложений в производство на шаге t при ресурсе xt^ равен 1 2 I г + + +к]~ . ^/-1/ 1 2 n-tJjt-V 1 +к1-а + к1-“+ ... +Х1-” оптимальные доли у* и 1—7* первой и второй отраслей равны 7* и 1—т*, и вычисляются, как в § 9. * * * Описанное распадение задачи сохранится также в не- однородном случае в предположении, что qt(c)=Btca (разумеется, при различно распределенных коэффициен- тах отдачи st или т, оптимальные доли первой отрасли уже будет зависеть от t). Оно имеет место также, если рассматриваются не две, а произвольное число отраслей. § И. Задача о стабилизации В задаче о стабилизации Q (^-Л) = - ~b (xt-i — <hT — cal где Ъ и с — положительные постоянные их — независи- мые Случайные величины с одним и тем же распределе- нием вероятностей (финальная плата равна 0). Мы рас- смотрим только случай, когда Msz=0 (т. е. когда отсут- ствуют систематические возмущения). Модель однородна, и за пространства X и А мы примем прямые — со <Z х <С со и — со <( а < оо. Модель не яв- ляется полунепрерывной, так как слои А (х) не компактны (и нарушается условие квазинепрерывности 4.Б). По- этому мы не можем заранее утверждать, что оценка модели удовлетворяет уравнениям оптимальности, и тем более, что существует оптимальная стратегия. Однако мы по- кажем, что применимы утверждения последнего раздела § 5 (выполняется условие А'). 7* 99
Оператор Т в данном случае задается формулой Tf(x) — sup [—b(x— а)2 — са2 -|- М/ (х— а-1- «,)]. —со<а<-|_со (1) Покажем, что множество £ функций вида f(x) — —lx2 — m (1^0, m^O) (2) инвариантно относительно оператора Т. Имеем Tf (х) = sup {—b (х—а)2—са2—М [Z (х—а -1- st)2 -1- mJ} = = sup [—(b -|-1) (х — а)2 — са2 — 1з2 — mJ, а где 02=Ms2 — дисперсия случайных величин st. Дифференцируя по а, находим, что максимум достигается при и равен Tf (х) — —1'х2 — т', где Отсюда следует, что оценка vt модели на промежутке управления [Z, п] равна vt = — (V^2 + m„_t) (0 < t < п), (4) где коэффициенты Z/c и тк вычисляются рекуррептно по формулам 1 п 7 с^к ~Т~ Ьс ь0 и’ 1к + Ь + с ’ (5) mo = O, mfc+1 = o2Z,f Д-т;. (6) и что простая стратегия п — + 6 at ln.t + b + c (7) оптимальна на отрезке управления ~[0,- п]. 100
Остается выразить Zfc и тк из уравнений (5) и (6)’ За- метим, что — где w—g(z)—дробно линейное преобразование Преобразование (8) имеет неподвижные точки _ — Ь + V&2 + 46с zi, г — 2 и его можно записать в виде ~ Z1 — X Z — Ц/ 2 g 3 * 3 g где] __с — Zj 6 + 2с — ^б2 + 46с с z2 b + 2с V62 4£с Поэтому формуле (5) можно придать вид Ог+1 — Z1 lk Z1 lk+l z2 lk z2 и, стало быть, lk zi yk Iq Z1 yk Z1 l к z2 lo z2 z2 Отсюда . (1 - b*) Z1 (9) Из (6) следует, что mk = з2 (^0 + h + • • • + ^-i)- (10) Поскольку |k|<( 1, то в пределе при n — t==k-^co а оптимальное управление на каждом фиксированном шаге I обращается в (12)
Глава 3 ОБЩИЕ (БОРЕЛЕВСКИЕ) МОДЕЛИ § 1. Введение. Основные результаты Теория меры и интегрирования по Лебегу выглядит одинаково просто в любом измеримом пространстве Е. Однако более тонкие конструкции (условные распреде- ления, построение мер в бесконечных произведениях и др.) осуществимы не в каждом измеримом пространстве. По- этому появляется потребность в понятии «хорошего» измеримого пространства. Это понятие должно быть до- статочно узким, чтобы исключить возможность патоло- гических примеров, и в то же время достаточно широким, для того чтобы переход к измеримому подмножеству и перемножение пространств не выводили за класс «хо- роших» пространств. Два измеримых пространства Ег и Ег называются изоморфными, если существует взаимно однозначное из- меримое отображение Ei на Е2 такое, что обратное ото- бражение тоже измеримо. Измеримое пространство Е называется борелевским, если оно изоморфно измеримому подмножеству полного 1 сепарабельного метрического пространства (последнее принято коротко называть поль- ским пространством). Очевидно, измеримое подмножество борелевского пространства также является борелевским пространством. В добавлении 1 доказывается, что всякое борелевское пространство изоморфно либо конечному множеству, либо счетному множеству, либо единичному отрезку (в первых двух случаях а-алгебра измеримых множеств совпадает 1 Метрическое пространство называется полным, если в нем лю- бая фундаментальная последовательность сходится. Последова- тельность {хп} называется фундаментальной, если р {хт, х„) О, когда тип независимо друг от друга стремятся к со. 102
с системой всех подмножеств, в третьем случае — С а-йй- геброй борелевских подмножеств отрезка). Отсюда легко следует, что произведение борелевских пространств — борелевское пространство. В этой главе мы будем изучать общие модели (см. § 2.2) при единственном дополнительном предположении, что пространство состояний X и пространство управлений А борелевские (такие модели будем называть борелевскими). В этом случае условие ?) измеримости диагоналей из § 2.2 вы- полняется автоматически. В силу изоморфизма борелевских про* странств достаточно ограничиться случаями конечного множества, счетного множества и отрезка. Для конечного и счетного про- странств измеримость диагонали тривиальна (ибо все множества измеримы), для отрезка она доказана в § 2. 4 (петит). Для дискретных и полунепрерывных моделей нами были установлены три основных результата: I. Оценка модели v удовлетворяет уравнениям оптималь- ности v =Vu на X \ Х„, (1) u-==Uv на А, где операторы U и V определены формулами Uf (а) ~ q(a) j р (dx\a)f (х) («ЕЛ), (2) х 7g(x)~ sup g (а), (3) А(х) и граничному условию V — r на Хп. (4) II. Для каждого е )> 0 существует простая равно- мерно е-оптималъная стратегия (в конечном и полуне- прерывном случае это верно и при е=0). III. Пр и фиксированном начальном распределении р для каждой стратегии тс найдется не худшая простая стратегия (в конечном и полунепрерывном случае этот результат является тривиальным следствием II, так как за (р можно принять простую равномерно оптимальную стратегию). Мы уже говорили в § 2.3 о трудностях, препятствующих перенесению методов главы I на общие модели. Но может быть можно достичь тех же результатов другими методами? 103
Пример 1. Рассмотрим одношаговую Модель 2, изображенную на рис. 3.1. Здесь Хо — это отрезок О х 1, А-Аг — борелевское подмножество квадрата XoxY, где Y — отрезок 1 у 2, / — ортогональное проектирование А, на Хо [предполагается, что J (А) =Х0], Xj состоит из одной точки. Переходная функция одно- значно определяется условием р (Х1|а) = 1, а£А. Платеж- ные функции можно задать как угодно. Простыми стратегиями являются здесь измеримые се- лекторы ср соответствия /-1. Если к — ортогональное про- ектирование Х0ХУ на У, то для любого такого селектора сложная функция у=к (ср(х)) будет измерима и будет иметь график, принадлежащий А. Между тем известно, что существует такое борелевское подмножество Q квад- рата XoxY, которое проектируется на Хо и не содержит графика ни одной измеримой функции y=f (х) (х£Х0) со значениями в У2. Если A —Q, то в нашей модели нет простых стратегий, и для нее утверждение II неверно. Будет доказано следующее. Предложение 1. Если в модели Z отображение У1 не униформизуемо, то в этой модели вообще нет стра- тегий. Иными словами, существование простых стратегий равносильно существованию каких-либо стратегий. Модели, в которых нет никаких стратегий, мы назовем тривиальными. Для таких моделей теряет смысл сама постановка задачи управления, и мы их исключим из рас- смотрения. См. добавление 3, § 3. 104
Далее, выражение (2) для оператора U имеет смысл только для измеримых функций /. Между тем в уравне- ния оптимальности (1) входит Uv, а функция v может быть неизмерима, как показывает следующий Пример 2. Рассмотрим одношаговую модель Z с теми же элементами Хо, Y, Хи j и р, что в примере 1, и с А=Х0 ХУ (рис. 3.2). Выберем в А борелевское под- множество D и положим текущую плату q равной 1 при Рис. 3.2 a£D и равной 0 при a£D. Финальную плату г положим для определенности равной 0. Очевидно, если х0 не при- надлежит проекции / (D) множества D на Хо, то v (хо)=О. Если же в точку х0 проектируется точка а0 = (х0, у0) мно- жества D, то w(x0, '₽) = ! при простой стратегии tp(o:) = = (Л У о) (0 < X < 1) з, и поэтому р(а:0) = 1. Таким образом, ( 0 при х £ j (Д), v ' [1 при X £ J (Д). Известно 3 4, что существует борелевское подмножество D квадрата ХохУ, у которого ортогональная проекция j(D) на сторону Хо не является борелевским множест- вом. При таком D оценка и будет неизмерима. К счастью, выражению (2) для оператора U можно придать смысл и для более широкого класса функций. Дело в том, что если задана какая-нибудь мера р на из- меримом пространстве Е, то интеграл по этой мере можно определить не только для измеримых функций, но и для 3 Предоставляем читателю проверить в качестве упражнения, что такое отображение <р отрезка Хо в квадрат А является измеримым. 4 См. добавление 2, § 5. 105
всех функций f, обладающих следующим свойством (мы на- зовем их ^-измеримыми): существует измеримая функ- ция f такая, что f=f (п. н. р)5. Хотя / строится по f не- однозначно, но интеграл р/ не зависит от выбора f, и его можно принять за значение pf 6. Множество Г называ- ется р-измеримым, если р-измерима его характеристи- ческая функция /г- Нетрудно проверить, что функция f р-измерима тогда и только тогда, когда для любого числа с р-измеримо множество {х : f(x) с} ’. Если функция f р-измерима относительно любой веро- ятностной меры р, то она называется универсально из- меримой. Это равносильно требованию, чтобы при любом с множество {х : / (х) с} было универсально измеримо, т. е. р-измеримо при любой р. Если функция / универсально измерима, то для нее имеет смысл интеграл по любой мере, а значит, и выра- жение (2). Будет доказано, что в нетривиальной модели оценка v универсально измерима, и что в такой модели справед- ливы результаты I и III. Результат II в общем случае неверен. В самом деле, в примере 2 оценка любой стратегии тс, очевидно, равна w (х, тс) = 1 • тс (D | х) 0 • ~ (А \ D | х) (х р Хо) и является измеримой функцией, не превосходящей функ- ции v(x) (см. рис. 3.3). При любом е из интервала (О, 1) измеримое множество Г= {х : х £ Хо, w (х, л) 1—е) содержится в неизмеримом множестве {х : х £ Хо, и (ас) ^>1— е)=/ (D). Поэтому в / (D) найдется точка х0, не при- надлежащая Г, и в этой точке w (х0, п) <( 1 —е=р(л:0)— е. Таким образом, ни одна стратегия к не является е-оп- тимальной ни при одном е 1. 5 Если I (х) — некоторое свойство точки х, то запись I (х) (п. н. р) означает, что существует измеримое множество Г такое, что р (Г)=0 и I (х)' верно при всех х (< Г. 6 Подразумевается, что хотя бы одно из чисел р/+—р/+, или р/_= =р/_ конечно (см. § 2.1). ~ Если Е — «-мерное арифметическое пространство и р — мера па борелевских подмножествах Е, равная для любого «-мерного параллелепипеда его объему, то р-измеримость множества или функции — то же самое, что измеримость по Лебегу. 106
Мы докажем следующий ослабленный вариант ре- зультата II: II а. В нетривиальной модели для каждого е О и каждого начального распределения ц существует про- стая е оптимальная (п. н. р) стратегия ср. [Мы говорим, что стратегия тс е-оптималъна (и. и. р), если при почти всех х (по мере р) она е-оптимальна для Z, т. е. если w(x, ~)^v(x)—е (и. н. р).] В гл. 1—2 результат II был расчленен на два утверждения: IIj. Для любого в > 0 существует простая стратегия ср такая, что > V — е на X \ Хп, (5) где оператор определен формулой TJ (х) — q (ср (л:)) + J f (у) р (dy) ср (л:)) х (в конечных и полунепрерывных моделях это верно и при е=0). П2. Если простая стратегия ср удовлетворяет условию (5), то она е'-оптимальна прп е' = (п—т)е. В общих моделях утверждение IД несправедливо (пример 2) и результат Па мы докажем, не опираясь на П2. Поэтому в общих моделях утверждение П2 в значительной мере теряет свою ценность, хотя и остается верным (см. петит в § 7). 107
§ 2. План вывода основных результатов Чтобы доказать предложение 1, достаточно по произ- вольной стратегии л построить простую стратегию <р. Это делается в два этапа. Сначала строим марковскую стратегию а, полагая о (- | ж) = тс (- |й), где h = . х^а^х и . л£ — какой-нибудь фиксированный путь (x£Xt, mXlXn— 1). Ясно, что вместе с тг (• \h) также и а (• |х) является распределе- нием вероятностей на At, сосредоточенным на А (ж). Измеримость о (Г|ж) по х при Г £ (Xz) следует из того, что множество : о (Г | ж) > с)' является сечением измеримого множества {xuiAin+i • • х t—latx • Т I хтат¥1 • • • xt—latx) А при хгп = х'Х ат+1 =°т+1- • xt-l = xt~l’ at = a°t’ ИЗВ6СТНО, ЧТО СвЧб- ния измеримого множества в произведении пространств являются измеримыми множествами в соответствующих пространствах-со- множителях. Второй этап — построение простой стратегии <р по мар- ковской стратегии а — опирается на следующую общую теорему об измеримом выборе, доказанную в добавлении 3, § 2. Теорема А. Пусть i — измеримое отображение бо- релевского пространства Е на борелевское пространство Е', и пусть v (. (х' Е') — конечная мера на Е такая, что 1) величина v (Г |ж') является измеримой функцией на Е' при каждом измеримом множестве Г из Е; 2) мера v(. |.г') сосредоточена на слое Е {x') = i~1(x') и v (£ |д;') ^>0 при всех х' из Е’. Тогда соответствие допускает измеримый выбор, т. е. существует такое измеримое отображение у' про- странства Е' в пространство Е, что i(^(x'))—x' при всех х' из Е'}. Эта теорема применяется к Е=А, Е'=Х\Хп, i=j, V= О. # & & Доказательство универсальной измеримости функции и(х) основано на следующем ее представлении: v (х) — sup W (х, л) — sup PI (х Л'т), к PGS(a;) 108
где t — оценка пути, a S (x) — совокупность мер в npOj странстве путей, отвечающих всевозможным стратегиям тс и начальному распределению ц, сосредоточенному в точке х. Положим кР=х, если Р принадлежит 5 (я). Этим определено отображение к множества so= U-S(x) на Xm8. Универсальная измеримость функции v вытекает из следующей общей теоремы: Теорема Б. Если i — измеримое отображение борелевского пространства Е на борелевское простран- ство Е', и f — измеримая функция на Е, то функция f (х!) = sup / (х) (х1 Е1) i универсально измерима. Мы хотим применить эту теорему к E = S0, Е'—Хт, t=k, /(Р) = Р1. Для этого мы выделим в 5'0 а-алгебру (50) так, что So станет борелевским пространством, /(Р) = Р1 — измеримой функцией и к — измеримым ото- бражением (см. §§ 3—6). Теорема Б является следствием еще более общего ре- зультата. Теорема В. При измеримом отображении боре- левского пространства Е в борелевское пространство Е' измеримые множества пространства Е переходят в уни- версально измеримые множества пространства Е'9. Теорема В доказана в добавлении 2. Чтобы вывести из нее теорему Б, достаточно заметить, что для любого числа с {х': / (х') > с) = I (х : / (х) > с). * * * При построении е-оптимальных стратегий общего вида мы опираемся на следующую общую теорему об измери- мом выборе (она доказана в добавлении 3, § 1). 8 Отображение к связано с системой S (х) в точности так же, как отображение / с системой А (х). 8 Пример 2 из § 1 показывает, что образ измеримого множества при измеримом отображении может не быть измеримым. 10
Теорема Г. Пусть i — измеримое отображение борелевского пространства Е на борелевское пространство Е', р — вероятностная мера на Е'. Тогда существует измеримое отображение ф пространства Е' в пространство Е такое, что 10 I (ф (ж')) = х' (п. Н. р). (1) Такое ф мы будем называть измеримым (п. н. р) селек- тором соответствия i~*. Пусть р — произвольное начальное распределение, е — произвольное положительное число. Ввиду универ- сальной измеримости функции и найдутся измеримая функ- ция v и измеримое подмножество Е' множества Хт такие, что р (Е') = 1 и v (x)=v (ж) при всех х из Е'. Обозначим через Ё совокупность всех мер Р из So, удовлетворяющих условиям kP£Ef, PI > v (fcP) - е. (2) Ясно, что Е' принадлежит (Хм) и Е принадлежит (8^, и поэтому Е и Е' можно рассматривать как борелевские пространства. Отображение к индуцирует измеримое ото- бражение i пространства Е в пространство Е'. По опреде- лению v и v, для каждого х из Е' найдется мера Р из S (х), для которой Р/ V (х) — е = £ (ж) — е = v (ZcP) — s, т. е. мера Р из S (ж), принадлежащая Е. Следовательно, I отображает Е на Е'. Положим Рж=ф(ж), где ф — измеримый (п. н. р) селектор из теоремы Г. В силу (1) и (2) PXI v (кР*) — e = v (ж) — s = и (ж) — s (п. и. р). (3) Формула Р(Г)= [ P*(P)p(dx) определяет вероятностную меру Р в пространстве путей L. Мы докажем в конце § 6, что 1) мера Р может быть полу- чена по формуле (2. 2. 3) из начального распределения р 10 Из примера 1, § 1 видно, что теорема Г перестает быть верной, если потребовать, чтобы (1) выполнялось при всех х' из Е'. 110
и некоторой стратегии л; 2) стратегия л является (и. н. р)- сочетанием стратегий гД отвечающих мерам Рх, в том смысле, что ps_p^ (п. н (4) где Р* — мера в пространстве L, отвечающая начальному состоянию х и стратегии к. Из (3) и (4) видно, что s яв- ляется е-оптимальной (и. и. р) стратегией. Зная, что существуют е-оптимальные (п. н. р) стратегии, можно вывести уравнения оптимальности (результат 1) примерно так же, как в счетном случае; однако теперь этот вывод не приводит к построению простой е-оптимальной стра- тегии (см. § 7). * * * В общем случае результат Па выводится из резуль- тата III. Как и в счетных моделях, результат III является следствием двух предложений: III.1. Для любого начального распределения р и любой стратегии тс существует марковская стратегия а, равносильная л в процессе Z . 111.2. Для любой марковской стратегии а существует простая стратегия ср, равномерно мажорирующая а. Оба эти предложения доказываются так же, как и для счетных моделей, но при доказательстве III.1 использу- ется более общая концепция условных вероятностей, а при доказательстве III.2 специального внимания тре- бует вопрос об измеримости ср (см. § 8). Чтобы вывести Па из III, мы должны по простой стра- тегии, е-оптимальной для процесса Z , построить про- стую стратегию, е-оптимальную (п. н. р). Это делается в § 9 с помощью леммы, позволяющей по любой последо- вательности простых стратегий cpfc и любому е Д О строить простую стратегию ср, для которой w (х, <р)Ди> (ас, срд.)— — е (х£Хт, /с=1, 2, . . ,).Там также приводится пример, показывающий, что в общих моделях (в отличие от счет- ных) из существования какой-либо равномерно оптималь- ной стратегии не вытекает существование простой (а сле- довательно, и марковской) равномерно оптимальной стра- тегии.
§ 3. Пространство мер Чтобы довести до конца доказательство универсальной измеримости функции и, проведенное в начале § 2, нам нужно исследовать класс So мер в пространстве путей L, состоящий из всех мер Р, отвечающих начальным распре- делениям, сосредоточенным в одной точке, и всевозмож- ным стратегиям. Предварительно изучим некоторые об- щие свойства класса всех вероятностных мер на любом борелевском пространстве. Класс qM=qM (-Е) всех вероятностных мер р на любом измеримом пространстве Е мы будем рассматривать как измеримое пространство: за принимается мини- мальная а-алгебра, относительно которой измеримы все функции F (р) == р/, где / — произвольная ограниченная (либо неотрицатель- ная) измеримая функция на Е. В добавлении 5, § 2 дока- зан следующий результат: Теорема 1. Если пространство Е борелевское, то. класс (М (Е) тоже является борелевским пространством. § 4. Меры в произведениях пространств и переходные функции Прежде чем двигаться дальше, нам придется остано- виться на общих вопросах о задании мер в произведении пространств с помощью переходных функций. Задать переходную функцию для последовательности измеримых пространств Ео, Ег, . . ., Et— значит задать для каждого t—0, 1,. . ., s—1 переходную функцию из EoXEjX. . .XEt в Et+1 (см. § 2.2). Другими словами, это значит сопоставить каждому h=xox1 . . ,xt (х0£Е0, € Bi,- • • вероятностную меру v (• [й) в простран- стве Ei+1 так, чтобы v (Г|-) было измеримой функцией от h, если Г — измеримое подмножество пространства Е.+1. Заметим, что любую вероятностную меру Р в произве- дении .ЕоХ-ЕхХ. . .ХЕг можно рассматривать и как ве- роятностную меру на произведении ЕдХЕ-рх. . .XEf (t s), полагая для каждого измеримого множества С из ЕохЕгх. . .ХЕ, P(C) = P(WwX..,XE,). 112
Следующие две теоремы устанавливают связь между переходными функциями и вероятностными мерами в про- изведении пространств. Теорема Д. Пусть v — переходная функция для последовательности измеримых пространств Ео, Ег, . . Ea и пусть р — вероятностная мера на Ео. Тогда суще- ствует и притом только одна вероятностная мера Р в произведении ЕохЕгх ... хЕе такая, что Р {dx0} = р (dx0\ (1) Р (dxodxr . . . dxtdxt+1) — = v (dxt+11 xox1 . . . xt) P (plx^x-L . . . dxt) (2) (t = 0, 1, s — 1). Обратное утверждение требует более жестких ограни- чений на пространства Е(. g-Д Теорема Е. Для любой вероятностной меры Р в произведении борелевских пространств EoxErX. . .X XES существуют вероятностная мера ц на Ео и переход- ная функция v такие, что выполняются равенства (1)—(2). Для доказательства теоремы Д заметим, что мера Р, определенная формулой Р (dxodx-L . ., dx^ = = Р (dx~) v (dx-L | О ... v (dx„ | хохг . .. (3) удовлетворяет условиям (1)—(2). С другой стороны, из (1)—(2) следует (3), и поэтому мера Р определяется усло- виями теоремы Д однозначно. Теорема Е доказана в добавлении 4. * * * Пусть В — измеримое подмножество в произведении EoxErx. . •У.Еа. При каких условиях на начальное распределение и переходную функцию соответствующая мера Р сосредоточена на В? Пусть t<^ s. Отнесем набор-to-t!. . . xt (х0 £ Ео, х± £ Еъ . .., xtf<E() к множеству Bt, если некоторое его продолжение XqX-^. . . xtxi+1. . . xs принадлежит В (Bt есть проекция В на произведение EqXEj^X. . .ХЕД Для каждого h из Bt обозначим через Е [Л] совокупность тех х из Et+1, при которых hx принадлежит Bt+1. Теорема 1. Предположим, что все множества Bt измеримы. Чтобы мера Р в пространстве EoxErX. . .X 8 Е. Б. Дынкцн, А. Д. Юшкевич ЦЗ
ХЕа, отвечающая начальному распределению fx и пере- ходной функции v, была сосредоточена на В, достаточно, чтобы ft (2?0)=1 и v (Е [h] | h) = 1 (4) при любом h из Bt (<=0, 1, . . s—1). Положим BS=B и с помощью индукции установим, что Р(Л)=1 (5) при всех i=0, 1,. . ., я. При i=0 наше утверждение следует из условия jx (50) = 1 и формулы (1). Пусть (5) справедливо при некотором t s. Согласно формулам (2) и (4) Р (7?<+1) = j Р (dx^dx-i . . . dxtdxtl) — = Р (dxodxs . . . dxt) v [Е . xt] | xox1 . . . xi') = Bt = j P (dx^dx-L .. . dxt) = P(Bt), Bt так что (5) справедливо и для <4-1. Обратный результат, как и теорема Е, устанавливается при более стеснительных условиях. Теорема 2. Пусть пространства Ео, Еъ . . ., Ев борелевские, множества Во, В1, . . ., BS=B измеримы и со- ответствие h —► Е \h\ допускает измеримый выбор. Для любой вероятностной меры Р в произведении Е0ХЕгХ X. . - ХЕа, сосредоточенной на В, можно выбрать отве- чающие ей по теореме Е меру ц и переходную функцию v так, чтобы fx (Во)=1 и выполнялось условие (4). В-самом деле, из равенства Р (54) = 1 проектированием получаем формулы (5) для всех i=0, 1, . . ., s. При i=0 согласно (1) паходим, что [л(50)=1. Далее, из (5) и (2) следует, что 1=Р(В<+1) = — Р [dxodx^ . . . dxt) v [Е . х^] | х^х-^ ... x^j. (6) Bt В то же время 1 = Р (Bt) = j Р (dx^Xi .. . dxt). (7)
Вычитая (6) из (7), находим, что j [1 - v (Е [7г] | /г)] Р (dh) = 0. (8) Bt Поскольку v (• | h) — вероятностная мера, то v (Е [7г] | h) 1, и поэтому из (8) вытекает, что v (7? [Д] | Л) — 1 (и. и. Р па Bt). (9) Пусть <р — измеримый селектор соответствия Е [h] и 8л — вероятностная мера, сосредоточенная в точке х. В силу (9) найдется измеримое подмножество множества Bt такое, что Р (1\) = 1 и v (Е \h\ | h) = 1 при всех h из 1\. Формула IA _(УНЙ) ПРИ или V i при (7 = 0, 1, . . s — 1) задает переходную функцию, тождественно удовлетворяю- щую условию (4). Так как мера Р в произведении 7?0Х ХЕгХ. .~.XEf сосредоточена на Гг, то v (• | xoxi . . . xt) = = v (• | хйхг ... xt) (п. н. Р па Ео X ЕЛ X • • • X Et). Поэтому равенство (2) не нарушается при замене v на v. Таким образом, переходная функция v удовлетво- ряет всем требованиям теоремы 2. * * * Общая конструкция меры по переходной функции, изложенная в этом параграфе, может быть использо- вана, в частности, для построения меры в пространстве путей L. В этом случае мы имеем последовательность ’ пространств Хт, Л,я+1, Хт+1,. . А„, Хп и правила пере- хода на нечетных и четных шагах поочередно задаются стратегией тс и переходной функцией р модели. На четных шагах для любого набора жта1И+1хт+1 . .. at из Хт X Ат+1 X XXm+1X...XAt v (dxt | хтат+1хт+1 ...at) = p (dxt | at) (7 = m -f- 1, . . n). На нечетных шагах V (dat+11 h) = TC (daM | h), причем последняя формула определяет v только для исто- 8* 115
рий h=xmam+i, xt [т. ё. наборов, подчиненных усло- виям / (am+j=xm,.. j (а<) = л:/_1]; доопределим переход- I ную функцию v для остальных наборов h произвольным образом 11. Переходная функция v удовлетворяет усло- виям теоремы 1 при B — L, и ей (при начальном распреде- лении (1) соответствует мера Р в произведении ХтхАт+1Х X... X Хп, сосредоточенная на L 12. Легко видеть, что это та же мера на L, что и мера, построенная в § 2.2 [ср. формулу (3) с формулой (2.2.3)]. Формулы (1) — (2) для этой меры принимают вид P(dxm) = ^(dxm), (10) Р (dxmdam+1 . . . dxtdat+1) = = гс (dat+L | xtnam+1 .. . xt) Р (dxmdam+1 ... dxt), (11) P (dxm .. . dat+1dxi+1) = p (dxM | at+1) X XP (dxm .. . dat+1) (t = m, m 1, . . ., n — 1). (12) § 5. Стратегические меры . Пусть Z — нетривиальная модель. Любую меру Р | в пространстве путей L, отвечающую какому-либо началь- I ному распределению ц и какой-либо стратегии тс, условимся | называть стратегической мерой. В этом параграфе мы • докажем измеримость и выпуклость класса S всех стра- тегических мер. Из измеримости S будет выведена изме- римость класса 50 и отображения S(j-^Xm. Выпуклость класса S понадобится нам для того, чтобы распространить на общие модели операцию сочетания стратегий. Свойства класса S стратегических мер выводятся из сле- дующего его описания. Теорема 1. В нетривиальной модели вероятност- ная мера Р в пространстве путей L является стратеги- : ческой в том и только том случае, когда при каждом t=m,. п—1 для любой измеримой ограниченной функ- ! ции / на Ht+1 > Pf (hat+1xt+1) = Р j f (hat+1x) p (dx | ai+1) (1) j _____ xi+, 11 Например, при каждом t можно сосредоточить мерух( • [хтат+1.. . | . . . х,') в фиксированной точке пространства At+1. ! 12 Множество jBz при t=2k совпадает с пространством Нт+к историй j в момент к\ при /=2/сЦ-1 Bt состоит из наборов ha таких, что ( h £Нт+к (а)=х, где х— конец истории h (fc=0, 1,. . ., п — т—1). > 116
(h из Ht рассматривается как функция на L, т. ё. каК случайный элемент). Можно выбрать счетную систему W измеримых ограниченных функций на Ht+1 такую, что если (1) выполняется при ff^W, то (1) выполняется при всех измеримых ограниченных функциях f на Ht+1. Необходимость условия (1) вытекает из формулы (4. 12). Чтобы доказать достаточность, применим к вероятност- ной мере Р, удовлетворяющей условию (1), и подмноже- ству B=L произведения Xmx4m+1x. . .ХХ, теорему 2 предыдущего параграфа. Согласно этой теореме р = Iх (dxm), (2) р (dxmdam+1 ... dxtdat+^ = - V (daM I xmam+1 . .. xt) P (dxmdam+1 .. . dxt), (3) P (dxm ... dai+1dxi+1) = = v (dxt+11 xm .. . a/+1) P (dxm ... dat+1) (4) (t = m, m-\-l,...,n — 1), причем переходная функция v удовлетворяет условию (4. 4). Заметим, что для любой истории h=xmam+1. .. xt множество Е \h}, на котором сосредоточена мера v (• |Д), совпадает со слоем A (х,). Стало быть, формула "(• |Л) = v(. \h) определяет некоторую стратегию тс. Формула (4) нам не нужна. Вместо неё мы воспользу- емся вытекающей из (1) формулой Р (dxm ... dat^dxiA) — p(dx.t+11 а<+1) Р (dxm ... dat+J. (5) Формулы (2), (3) и (5), совпадающие с (4. 10)—(4. 12), показывают, что Р является стратегической мерой, отве- чающей начальному распределению д и' стратегии тс. Мы знаем,, что пространство Ht+1 борелевское. Если оно конечно или счетно, то за И7 можно принять систему функций, отличных от 0 на конечном множестве и при- нимающих только рациональные значения. Если Ht+1 несчетно, то пусть q — изоморфное отображение Hf+1 на отрезок. Положим ИЛ={д’’1} (n=0, 1, 2, . . .). Если (1) выполнено всех функций f (h)—qn(h) (h^Ht+1), то (1) справедливо и для любой функции f= ср (q), где ср — много- член, а значит и для функции /= ср (q), где ср — произ- вольная непрерывная функция (по теореме Вейерштрасса). 117
Так как равенство (1) сохраняется при ограниченном По- точечном предельном переходе, то оно удовлетворяется при /=<р (q), где ср — любая ограниченная измеримая функция на отрезке. В силу изоморфизма Н.1+1 и отрезка, в таком виде представляется любая ограниченная измери- мая функция / на Ht+1: f (h) = v (у (А)), где ср (у)=/ (q-1 (у)). Теорема полностью доказана. По определению с-алгебры измеримых множеств в про- странстве мер е/Ж (L), функции от Р, стоящие в левой и правой частях равенства (1), измеримы. Счетное число ус- ловий типа (1) выделяет измеримое подмножество про- странства о/Ж (L), и, значит, класс Ж всех стратегических мер измерим. Далее, из теоремы 1 следует, что класс S является вы- пуклым, т. е. что если v — вероятностная мера в простран- стве S, то мера Р*, определенная формулой P‘(.)=jP(.)v(dP), а тоже является стратегической. Условие (1) линейно отно- сительно Р и сохраняется при интегрировании по Р. § 6. Универсальная измеримость оценки модели и почти наверное (п. н.) е-оптимальные стратегии Теперь мы имеем все необходимое для того, чтобы вы- вести измеримость класса Sn и отображения 50Д.Х,„, использованные в § 2 при доказательстве универсальной измеримости оценки и (х) (х^Х). Заметим, что для принадлежности меры Р из про- странства qM (L) классу So, необходимой достаточно, чтобы Р принадлежала классу стратегических мер S, и чтобы для любого рационального числа с р (9 (*т) < с) = 0 или 1, (1) где q — изоморфное отображение борелевского простран- ства Хт в отрезок. Действительно, (1) имеет место тогда и только тогда, когда распределение вероятностей для случайной величины q (хт) сосредоточено в какой-нибудь одной точке у отрезка, а это равносильно тому, что на- чальное распределение р, отвечающее Р, сосредоточено в точке x=q~1 (у). В левой части (1) стоит измеримая функ- 118
ция от Р, и поэтому счетное число условий (1) выделяет из измеримого класса S измеримый подкласс 50. Далее, для любого множества Г из пространства Хт Л-1 (Г) = (Р : Р 50, Р{1яЕГ) = 1}, откуда следует, что к~1 (Г) измеримо при измеримом Г, и, значит, отображение к измеримо. Лакуны, оставшиеся в доказательстве универсальной измеримости функции и из § 2, восполнены. * * * Переходим к вопросу о существовании е-оптимальных (п. н. р) стратегий. Здесь нам остается обосновать опи- санную в § 2 конструкцию для сочетания стратегий. Мы имеем стратегические меры Р1 (х £ Хт) такие, что Р* К, = х} = 1 (п- н- Iх). (2) и что х -> Р* есть измеримое отображение пространства Хт в пространство S, и полагаем ₽(•)=$ (3) Замена переменной преобразует интеграл (3) в интеграл JP(-)>(dP), s где v — мера в пространстве S, индуцированная мерой р на Хт и измеримым отображением х -* Рж. Ввиду выпук- лости класса S, мера Р тоже стратегическая. Из (3) и (2) следует, что при (Хт) р К, G Р) = j {хт е Г) Р (do:) = j /г («) Р (do:) = р (Г), х1п так что р является для Р начальным распределением. Пусть тс — стратегия, отвечающая Р, и Р” — распре- деление в пространстве путей, отвечающее начальному состоянию х и стратегии тс. Покажем, что для любой огра- ниченной измеримой функции £ на пространстве L Р (п. п- Iх)- (4) ПЭ
Если f — ограниченная измеримая функция на Хт, то в силу (3) и (2) F (/ . S) = J р- (/ (хт) £) р (dz) = j (/ (z) . Р^) Р (dx). (5) Xm С другой стороны, имеем К = х] = 1 при каждом х из Хт, и по формуле (2. 2. 3) ₽(/•?)= J Р* (/ (*т) &) Р- (dx) = j (/ (z) • P^s) р (dz). (6) Хт Ввиду произвольности / из (5) и (6) следует (4). Ясно, что для любого счетного набора функций {?„} можно выбрать такое множество Г из Хт ц-меры 1, что равенство (4) будет выполняться при любом х из Г и любой функции ?я. Множество 9£ тех функций £, для которых (4) верно при всех х из Г, замкнуто от- носительно линейных операций и ограниченного предельного пе- рехода. Выбрав должным образом систему К„)=Ж, получим, что St содержит все ограниченные измеримые функции (ср., аналогич- ное рассуждение из § 5). Это значит, что рк_ра: црИ х£Г, и стратегия it является (п. и. ц) сочетанием стратегий отвечаю- щих мерам Р*. § 7. Уравнения оптимальности Как и в дискретных моделях (см. §§ 1.4—1.7 и 1.12), выводу уравнений оптимальности (результат 1) предше- ствует доказательство формулы у (р.) = р.у ( = J V (z) р. (dz)\ . (1) \ хт / Поскольку функция v (я) универсально измерима (и вместе с платами ограничена сверху), интеграл в (1) имеет смысл при любой начальной мере д. При любой стра- тегии л имеем w (я, л) и (я), откуда w (р., к) — Sj w (х, л) р. (dx) j v (х) р. (dx) = р.у. (2) ^т С другой стороны, для любого е 0 существует е-опти- 130
майьная (п. н. fi) стратегий л, йрй которой w (х, л) v (х)—е (п. н. fi) и, следовательно, w (fi, л) = j w(x, л) fi (dx)~^ j v(x)p(dx)—е = р.к — s. (3) Из (2) и (3) вытекает (1). Из (3) видно, что если стратегия л е-оитимальна (и. н. д), то она е-оптимальна для процесса Zp; это заме- чание пригодится нам в § 9. Переходим к выводу соотношений v=Va, u = Uv!, (4) связывающих оценки и и и' модели Z и ее производной Z' [операторы U и V определены формулами (1.2) и (1.3)]. Так же, как в § 1.6, из фундаментального уравнения (2. 3. 1) выводится, что w(x, л)<Ии(а:) (5) где «(«) = ?(«) +у'(Ра) (aG4ti) (6) (л — любая стратегия). Из (6), (1) и определения (1.2) оператора U следует, что u = Uv’. Чтобы вывести уравнения (4), нам остается для любого е 0 и любого х из Хт построить такую стратегию л в модели Z, при которой w (х, л)^>Уп(ж) — е. (7) [В отличие от дискретного случая (ср. § 1.12), мы не можем теперь выбрать л, так, чтобы (7) выполнялось одновременно для всех х из Хт]. По определению супремума, в слое А (х) можно выбрать управление а такое, что и(а)>Уи(ж)-|. (8) Пусть у — какой-нибудь измеримый селектор соответ- ствия х-* А (х) (х£Хт). Ясно, что функция I а при х = х, Ф^) —при л£Хт 121
Тоже измеримый селектор этого соответствия. Далее, пустЬ л' — стратегия в модели Z', у-оптимальная при началь- ном распределении р~, так что w'(Pa, (Ра)-у и, следовательно, д(а) + ш'(рй, ти')>а(а)—у, (9) Тогда стратегия п=фл' в модели Z, состоящая в примене- нии на первом шаге простой стратегии ф, а затем — стра- тегии л', удовлетворяет условию (7). В самом деле, при- меняя к ?с формулу (2.3.1) и учитывая (8) и (9), имеем ш(г, it) = q (й) -ф- w' (pd, — у Угг (я) — е. Развернутая форма уравнений оптимальности и их запись с помощью оператора Т, приведенные в § 1.7, по- лучается из (4) точно так же, как в конечных моделях. * * * Проведенное рассуждение показывает, что если и/ — равно- мерно егоптимальная стратегия в модели Z' и для измеримого селектора ф соответствия А (х) из Хт в Ат+1 имеем и—е2, то w (х, фл') > v (х)—(ei+ea) при всех х из Хт. Отсюда очевидной индукцией получается результат П2 из § 1. § 8. Достаточность простых стратегий Покажем, что на общие модели распространяется пред- ложение III.1 (см. § 2). Как и в счетном случае, марковская стратегия а, равно- сильная л при начальном распределении р, строится из условных распределений для управлений at при изве- стных состояниях (т t п—1). В общем случае существование таких распределений следует из теорем Е и 2 § 4. Эти теоремы применяются при s=l к простран- ствам Е0=Хг, Е1=Лг+1, множествам B$=Xt, Вг={ха: a£Ai+1, j (а)=х}и мере Р на XtxAi+1, определен- ной формулой Р(Г) = Р{ЭД+16Г) (геадхО 122
Согласно теореме Е Р (da^d«i+1) = Р (dxt) з (4«i+i | xt), (1) где с ( | ) — переходная функция из Xt в A t+1. Поскольку для любого пути / (az+i)=.rz, то мера Р в произведении XfxAt+1 сосредоточена на Blt и согласно теореме 2 можно выбрать а так, чтобы з (Е [х] | х) — 1 при всех а: из Xt. В нашем случае Е [х] = {а : а £ Л/+1, ха G Вх\ = {а: j (а) = х} = А (х), так что меры о (• |гс) сосредоточены на слоях А (х). Формула (1) заменяет использованную в дискретном случае формулу (1.13. 3). Вместо формул (1.13. 4), (1.13. 5) и (1.13.6) в общем случае имеем Q (dxtdal+1) = Q (dxt) a (dat+11 х(), (2) Р (dat+1dxt+1) — Р (dat+1) р (dx/+11 at), (3) <HdaM1dx(_fl) — (^(da/+i)p(dxi+1\ai+1) (4) (Q — стратегическая мера, отвечающая р и а). Формулы (3) и (4) получаются из (4.12) интегрированием по zma,„+i - xt, а формула (2) — интегрированием по xmam+1.. . .. -at формулы (4.11), принимающей в случае марковской стратегии а вид Q (dxmdam^ . . . dxtdaM) = = о (daM | xt) Q (dxmdam+x . .. dxt). Формулы (1)—(4) позволяют доказать совпадение рас- пределений at и xt относительно мер Р и Q с помощью такой же индукции, как в счетном случае. * * * Распространим теперь на общие модели доказательство предложения III.2 о существовании простой стратегии ср, равномерно мажорирующей марковскую стратегию а (ср. §.1.13). Единственное отличие общего случая от счет- ного состоит в том, что мы должны позаботиться об измери- мости селектора ф отображения х А (х) Xm) такого, 123
что / (ф (х)) 7xf=w (х, а). Это делается с помощью тео- ремы А из § 2, которая применяется к Е = {а'.а£Ат+1, f(a)^w(j(a), а)}, Е' = Хт, l = j, *(-к)=тД-)- Легко видеть, что Е — измеримое подмножество простран- ства Ат+1 и, стало быть, является борелевским простран- ством. По лемме 1.13.1 (см. также сноску на стр. 58) (Е) )> О ПРИ всех х из и! значит, все условия теоремы А выполнены. § 9. Простая (п. н.) е-оптимальная стратегия Чтобы установить результат Па, нам понадобится следующая Лемма 1. Для любой последовательности (Zc= 1, 2,. . .) простых стратегий и любого е > 0 сущест- вует простая стратегия такая, что w (х, ф) > sup w (х, — е (хе Хт). Доказательство. Покажем, что наше утверждение спра- ведливо для модели Z, если оно справедливо для производ- ной модели Z'. Пусть обозначает простую стратегию в производной модели Z', к которой сводится при вычеркивании столб- цов Хт и Ат+1. По предположению, в модели Z' существует простая стратегия <?’ такая, что ш'(х, <р')>ш'(х, <?'*) — (хеXOT+i, fc=l, 2, ...) (1) (и/обозначает оценку в модели Z'). Рассмотрим в модели Z стратегии состоящие в употреблении на первом шаге стратегии а затем — стратегии </. По формуле (1.7.5), выражающей w через ш', из (1) следует, что ш(х, ф^)>ш(х, ?л.)-у и, значит, sup W (х, К) > sup W (х, ?fc) - А л 1 л . А 124
Искомая стратегия получится, если применять при на- чальной точке х любую стратегию для которой 1Р(Х, О J > sup w (х, <|»J- у. к & (2) Нужно лишь позаботиться, чтобы зависимость от х была измеримой. Для этого достаточно брать стратегию с на- именьшим номером, удовлетворяющую условию (2) [су- щественно, что правая часть (2) является измеримой функ- цией х]. Наше рассуждение применимо и к одношаговой модели, только в этом случае надо начинать сразу с (2), заменив на ук. Лемма 1 доказана. * * * Пусть р — произвольное начальное распределение и к — любое натуральное число. Если модель Z нетри- 1 виальна, то существует стратегия, -^-оптимальная для Л процесса Z . В силу результата III для Z^ существует простая -^--оптимальная стратегия ук. Ясно, что supiz>(x, (х£Хт). (3) Применяя для оценок v (р) и w (р, рЛ) формулы (7.1) и (-7. 2), имеем J й>(х, P (dx)< i [supiz>(x, <рЛ.)J p. (dx) ( p(x)p(dx) = p(p). J к J При k-^>-co отсюда следует, что I [supiz;(x, cpJj.)]p(dx)= I u(x)p(dx). (4) к J Из (3) и (4) вытекает, что supw(x, ' = и (х) (n. h. p). 125
Применяя к последовательности {cpfc} лемму 1, полу- чаем, что для любого s >0 а любого начального распределе- ния р. найдется простая стратегия такая, что w (х, <р) V (ж) — е (и. н. fi) (результат Па). * * ♦ В счетном случае из существования какой-либо стра- тегии, оптимальной для модели Z, вытекает существование простой стратегии, оптимальной для Z (см. § 1.13). При- ведем пример, показывающий, что в общем случае такой результат не справедлив. Рис. 3.4 Пример 1. Рассмотрим модель Z, показанную на рис. 3. 4. Здесь Хо — такое борелевское множество Q квадрата О у 1, 0 z 1, которое ортогонально проектируется на отрезок 0 у 1 и не содержит гра- фика ни одной измеримой функции z~f (у) (0 у <1 1) (ср. пример 1.1). Пространство равно Хо и j (у, z) = — {у, z). Пространство Х± — это отрезок 0 и 1, пространство А2 — квадрат 0 и 1, 0 s 1; и j (и, з) = и. Пространство Х3 состоит из одной точки 0. Из каждой точки (у, z) пространства Аг происходит детерминированный переход в точку и=у, из каждой точки (и, з) пространства А2 — в точку 0. Финальная плата равна нулю. Обозначим через R множество, в которое перейдет Q, если наложить плоскость yz на плоскость из так, чтобы ось у совместилась с осью и, а ось z — с осью 5. Текущая плата равна 1 на R и равна 0 на Л\Л. 126
Ясно, что здесь v (х) = 1 при каждом х из X. Как ив примере 1.1, простая стратегия <р задается изме- римой функцией s=f (и) (О и 1). Значит, для любой простой стратегии <р найдется такое и, что tp (и) не принад- лежит 7?; в таком случае для начальной точки х=(у, z) с у=и будем иметь w (х, р)=0. Следовательно, ни одна про- стая стратегия р не оптимальна (и даже не е-оптимальна при s 1) для модели Z. Поскольку любую марковскую стратегию равномерно мажорирует какая-нибудь простая стратегия, то в модели Z нет и марковских оптимальных (и s-оптимальных при s 1) стратегий. Однако немарковская стратегия, опти- мальная для Z, существует. Действительно, пусть к предписывает при истории хоа1х=(у, z) (у, z) и выбирать управление а2=(и, s) с s=z (О у 1, O^z^l, O^u^l) (выбор аг при любом #0 однозначен). Так определенная функция а2 от хоагхх измерима, и, значит, задает детерминированную страте- гию. По построению w (х, тс) = 1 при всех х из Хо.
Цасть It УПРАВЛЕНИЕ НА БЕСКОНЕЧНОМ ИНТЕРВАЛЕ ВРЕМЕНИ Глава 4 ДИСКРЕТНЫЕ МОДЕЛИ § 1. Переход к бесконечному промежутку^ управления В тех случаях, когда нет естественного момента окон- чания процесса, целесообразно рассматривать управление на бесконечном промежутке времени. Задачу оптимального управления на бесконечном про- межутке времени можно ставить по-разному. Можно до- биваться максимизации среднего выигрыша за единицу времени. Этому посвящена глава 7. В настоящей главе максимизируется суммарное среднее значение выигрыша е7 за бесконечное время. Такая постановка интересна в пер- вую очередь, когда значения <3 ограничены сверху. В этой главе мы будем заниматься дискретными (т. е. конечными и счетными) моделями. Общий случай, требующий более обстоятельного знакомства с вопросами измеримости, и опирающийся на материал глав 2 и, 3, рассматривается в главе 5. § 2. Суммируемые модели При переходе к бесконечному интервалу управления [т, со) определения управляемого марковского процесса и модели сохраняются, только теперь пространства состоя- ний Хт> Хю+1,... и управлений Ат+1, Ат+2,... образуют бесконечные последовательности и не вводится финальная плата. Стратегии приходится задавать для историй h сколь угодно большой длины. 128
В главе 1 оценка стратегии п при начальном распреде- лении р задавалась формулой л) = Р 2 «W+ гК) н‘+1 = 2 р? («J + Рг (*„) [Р — мера в пространстве путей, определяемая равенством (1. 3. 2)]. В случае бесконечного интервала управления ес- тественно положить СО 7г) = X Р?(^)- (!) т +4 При этом Pg (aj можно вычислять по формулам (1. 3. 2) — (1.3.3), обрывая траекторию хтат+1хт+1. . .апхп. . . на хп при каком-нибудь п t [легко видеть, что значение Pg («,.) не зависит от выбора п]. Вообще говоря, сумма ряда (1) может не иметь смысла. Однако всегда существуют конечные или равные +со суммы рядов СО 2 p?+(«j = «;+(ij'I п) (2) Wl+l И со 5 р?~Ы = цГ(Р" л)> (3) где д+ равно q при j 0 и равно 0 при q < 0, a q~ равно — q при q 0 и равно 0 при q > 0 (см. рис. 4.1). Будем говорить, что модель ^суммируема сверху, если w+ (р, к) <( -|-оо при всех к, и что она у. суммиру- ема снизу, если w~ (р, к) < -|-со при всех л. Формули- ровки для обоих случаев часто оказываются совершенно сим- метричными. В подобных ситуациях мы будем говорить о р-суммируемости, опуская для сокращения слово «сверху» («снизу»). Формулировки этого рода можно понимать дво- яко: всюду со словом «сверху» или всюду со словом «снизу». Если модель р-суммируема, то СО СО СО 5 — 5 р?- («J — S [р?+ Ы — р?~ W1 = 7П-|-1 »Л-|-1 . W-J-1 = 2 pk+(«J — ?"(«<)]• (4) Справедливость этих равенств вытекает из следующего общего свойства числовых рядов: 9 Е. Б. Динкин, А. А. Юшкевич 129
Свойство S. Если сумма по- ложительных или сумма отрицатель- ных членов ряда конечна, то сумма ряда имеет смысл (она может равняться 4- со или —со) и не меняется, если чле- ны ряда как угодно переставлять и груп- пировать в скобки (как число скобок, так и число слагаемых в каждой скобке мо- жет быть бесконечно). • Поскольку q=q+—q~, то правые части (1) и (4) совпадают. Таким образом, для р-суммируемой модели формула (1) имеет смысл и ip(p, л) = и?+(р, л)—ы~ (р, к). (5) Модели на конечном интервале [т, п\ можно рассматривать как частный слу- чай моделей на бесконечном интервале [т, со): достаточно положить Q (а) = г (ja) при a £ Ли+1, q(a) = 0 при a £ Ап+2 (J Л+3 (J • • • Для моделей на конечном интервале управления p-сум- мируемость сверху вытекает из ограниченности сверху функций g и г (см. условие 1.12. а). На бесконечном интер- вале это уже не так. Поэтому вводить условие 1.12. а не имеет смысла, и мы исключаем его из исходных предпосы- лок. В силу этого одновременно с переходом к бесконеч- ному интервалу управления будет получено некоторое усиление результатов для конечного интервала. § 3. Фундаментальное уравнение Покажем, что сохраняются установленные в §§ 1.4— 1.5 и 1.12 формулы w (р, к) — 2 р (х) w (х, к) (1) И w(x, к)= 2 п (а I X) (а) + W' (Р<О Па)1 (2) а£А(х) (фундаментальное уравнение). Точнее, 130
а) Если модель ^.-суммируема, то она х-суммиру- ема 1 при всех х, для которых п (х) 0, и выполняется равенство (1). б) Если модель х-суммируема, то производная мо- дель ра-суммируема при всех а из А (х), и выполняется уравнение (2). \ Рассмотрим сначала случай неотрицательной платы q. Заметим, что если (/-О на всех множествах At с номерами t > п, то выбор управления после момента п не играет роли, и дело сводится к управлению на отрезке [т, п\ (при ограниченной снизу плате). Поэтому для платы qn, опре- деленной формулой _ ( Ч на Ат+1 (J Amf_2 U • • • U Л Чп ~ I ° на Лк+1 U А+2 U • • •, соотношения (1) и (2) вытекают из результатов §§ 1.4— 1.5 и 1.12. При п -» со неотрицательная плата qn моно- тонно сходится к q. При такой сходимости допустим пе- реход к пределу как под знаком математического ожида- ния Р, так и под знаком суммы в ряде (2. 1). Значит, для любых [1 и п оценка wn (jx, п) при плате qn сходится, не убывая, к оценке w (jx, л) при плате q, и то же справедливо для производной модели. При такой сходимости допустим почленный переход к пределу под знаком сумм в формулах (1) и (2), и мы. получаем, что эти формулы справедливы при любой неотрицательной плате q. Пусть теперь q может принимать значения любого знака. По доказанному формула (1) выполняется для оценок п>+ и иг, отвечающих неотрицательным платам q+ и q~: (fx, it) = 2 i1 (x)w+(x, it), (3) u?“(fx, it) = 2'1 (x)w~ (x, it). (4) Следовательно, если (jx, it) <Z +co, to w+ (x, it) <Z +co при всех x, для которых jx (х) > 0, и то же верно для иг. Вычитая (4) из (3) и опираясь на свойство S, получаем равенство (1). Далее, пусть w+ (х, it) -|-оо при всех стратегиях it. Фиксируем произвольный элемент а из А (х) и любую стра- 1 Мы говорим «модель z-суммируема» вместо «модель ;х-суммируема» при распределении ;х, сосредоточенном в точке х. 9* 131
тегию л' в производной модели. Пусть фо — селектор ото- бражения у -» А (у) (у £ Хт), сопоставляющий точке х фиксированное управление а. Применяя формулу (2) к стратегии л=фол' и неотрицательной плате q+, имеем - w+(x, n) = q(a).+ w+' (ра, ла). Но ла=л' и, следовательно, w+> (ра, л') < оэ. Проведя аналогичное рассуждение для w~, получаем первую поло- вину утверждения б). Пусть теперь л — любая стратегия. Применяя формулу (2) к платам q+ я q~ и вычитая с использованием свой- ства S полученные выражения одно из другого, заключаем, что (2) выполнено и для платы q. * * * После того, как мы распространили на общий случай фундаментальное уравнение, можно пользоваться и всеми следствиями из этого уравнения. В частности, если мо- дель ^.-суммируема и если — селектор соответствия А (х) (х^Х^) (£=771+1,. . п) и л — любая стратегия в производной модели порядка п—т, то w (х, к+А»+2 • •_ • V) = Тк+,Рфот+! T^nwn (х, л). (5) (Ср. формулу (1.7.5).) При этом либо для платы либо для платы q~ величина (5), меньше +оо. Для ц-суммируемой модели на конечном интервале [т, п] с платежными функциями q и г формула (5) прини- мает вид w (х> К+1К+2 • • • Ф») = ^фт+7фт+, • • • (х) или, если вспомнить определение левой части, приведен- ное в § 2, T*m+tT*m+l. .. (х) = S Рй (+) + Рй (*„), . (6) m-4-l где ср—простая стратегия, равная ср = фт+1фт_2- • .ф„. Очевидно, формулу (6) можно применять и к модели Z на бесконечном промежутке [т, со) при любом п т и любой функции г на Хп такой, что «укороченная» модель Z" (г), полученная из Z назначением в момент п финальной платы г, остается р-суммируемой. 132
Заметим далее, что для любой стратегии р на отрезке [т, п] рл) = 2 р^(а<) + р^(а;в> ") (7) Для моделей на конечном интервале эта формула была до- казана в § 1.8. Переход к бесконечному промежутку управ- ления в случае q 0 проводится’ так же, как и при доказательстве утверждений а) и б). Наконец, для произ- вольной платы (при которой модель Z р-суммируема) фор- мула (7) получается вычитанием соответствующих формул для q+ и q~. Применяя формулу (7) к плате q+, замечаем, что из р-суммируемости модели Z следует конечность pPjZ>+(p, n) = u?+(v, л), где Стало быть, соответствующая производная модель v-сум- мируема. § 4. Равномерно s-оптимальные стратегии Оценка начального распределения р, определенная формулой V (р) = sup W (р, л), X имеет смысл, если модель р-суммируема. При этом сохра- няются определения оптимальных и е оптимальных для процесса Z^ стратегий (см. §§ 1.3 и 1.12). Равномерно s-оптимальная стратегия (или страте- гия, s-оптимальная для модели Z) определялась в главе 1 как стратегия л, удовлетворяющая условию и?(р, л)^р(р)—s для всех начальных распреде- лений р. (1) Было доказано, что это условие равносильно требованию w (х, л) v (х) — s для всех х из Хт. (2) Теперь условия (1) и (2) уже не равносильны: если.н? (ж, л) имеет смысл при всех х из Хт, то это не значит, что w (р, л) определено для любого р. Поэтому мы примем за определе- 133
ние равномерной z-оптималъности условие (2), огра- ничиваясь классом тех моделей, которые х-суммируемы при всех х из Xт. Докажем, что а) Для любого = О существует равномерно &-оптималъ- ная стратегия п. б) Если модель ^-суммируема, то оценка v (х) также ^-суммируема 2 и л v (р.) = 2 р. (х)v (=И- (3) З'ш в) Если стратегия л равномерно ^-оптимальна, то щ (jx, к) v (р) — е для всех р, при которых модель исум- мируема. > , Принцип сочетания стратегий (см. § 1.4) позволяет свести доказательство результата а) к построению страте- гии л= л такой, что w (х, л) у (х) — е при фиксированном х из Хт. Если v (х) < +°°, существо- вание требуемой стратегии л вытекает из определения и (х). Если v (х) = 4-оо, то из определения v (х) следует, что для любого натурального числа к найдется стратегия л*., при которой и>(х, лД>2\ • (4) Поскольку мы можем смешивать стратегии (см. § 1.3), существует стратегия л такая, что ОТ = У т + 2, ...) (5) к=1 (мера Р отвечает стратегии л, .меры Р;. — стратегиям л^; все процессы начинаются в состоянии х). Из ^-суммируемости модели, свойства 2. 5 и формул (2.1), (4) и (5) следует, что от со w(^ = 2к = +оо = и(х). к=1 к—1 2 Мы говорим, что функция / ;х-суммируема сверху (снизу), если р./+ < co (jxjf- < оэ). Для такой функции р./=р./+—ц/_. Слова «сверху» («снизу») в формулировке б) опущены в соответствии с замечанием, сделанным в § 2. 134
Переходя к доказательству б), обозначим через Q и R подмножества Хт, на которых v > 0 и v <С 0. Поскольку гг(.г, л)^у(х), —ш"(а:, л)^0^ш+(;г, л), ^^Хт), --W~(x, Tt)^W(x, n)^w+(x, л), с помощью формулы (3. 1) получаем, что для любой стра- тегии л jw =—2 Н (х)v (z) — 5 Н (х)w (я, я я 2 I1 (х) w~ (х’ 71) 2 Iх (х) w~ (А П) = 1Л’*(!1> п) й хт и для стратегии а из результата а) |W+ = У р (х) V (х) 2 Р (х) [“> (Х1 °) + е] Q Q °) + е] < 2 Р (х) [и>+ (*, °) + е] = Q хт = гР+(р, а)-Н (все сумМы имеют смысл, так как слагаемые одного знака). Из этих неравенств видно, что если модель р-суммируема’ то и функция и (х) р-суммируема, и, стало быть, имеет смысл jw= jw+—ру“. Вторая половина утверждения б) и ут- верждение в) доказываются теперь так же, как в § 1.12. Из -доказанного вытекает равносильность следующих двух условий: 1°. Модель Z ^Суммируема сверху. 2°. v (р) • -(-оо. В самом деле, если v (р) <С +°°> то у (р) имеет смысл и, значит, модель р-суммируема либо сверху, либо снизу. При этом для любой стратегии л w (р, л) = ш+(р, л) — ш“(р, л) v (р) <( 4-со и, следовательно, и>+ (р, л) <( 4-оо. Значит, из 2° выте- кает 1°. Наоборот, если выполнено 1°, то v (р) имеет смысл; если бы v (р) = 4-оо, то по доказанному в этом параграфе нашлась бы'стратегия л, для которой w (р, л) = ш+ (р, л)— —ш" (р, л) = 4-оо, а значит, и ш+ (р, л)=4-оо, что проти- воречит 1°. Таким образом, из 1° следует 2°. Покажем, что условия 10,и 2° равносильны также следующему: 3°. 8прш+(р, л)<^4~ОЭ. 135
Рассмотрим для этого модель Z+, получающуюся из 1 заменой текущей платы q на q+. Очевидно, модель Z p-сум- мируема сверху тогда и только тогда, когда тем же свой- ством обладает и модель Z+. Применяя доказанную равно- сильность условий 1° и 2° к модели Z+, получаем, что модель Z суммируема сверху тогда и только тогда, когда оценка начального распределения р в модели Z+ конечна. Но эта оценка равна sup W+ (р, л) X и, значит, 1° равносильно 3°. Аналогично устанавливается эквивалентность условий: 1а°. Модель Z- ^.-суммируема снизу, 2а°. inf w (р, л) —со; X За°. sup и>~ (р, со. X § 5. Уравнения оптимальности Для конечного интервала управления (и ограниченной сверху платы) в §§ 1.6 и 1.12 были получены следующие результаты: а) оценка v модели Z выражается через оценку v' про- изводной модеЛи Z' формулами v = Vu, и = Uи', (1) где Vg(x)= sup g{a) (х£Х), (2) ^/(«) = ?(«)+ S Р(у\а)ЦФ) (а£А); (3) ^6^ б) при Любом х > О существует селектор ф отобра- жения х -> А {х) {х (; Хт) такой, что и (ф (х)) ~^v{x) — х при всех х из Хт; (4 в) пусть s' и х — любые неотрицательные числа. Если стратегия л' s'—оптимальна для модели Z' и селектор ф удовлетворяет условию (4), то стратегия фл' {&' -\-v^-оптималъна для модели Z. Чтобы обобщить эти результаты, необходимо прежде всего позаботиться, чтобы были определены функции v и v'. Существование v вытекает из условия я-суммируе 136
мости модели Z при любом х из Хт, введенного в предыду- щем параграфе. Начиная с этого места и до конца главы, мы будем предполагать, что указанным свойством обладает не только Z, но и все производные модели Z', Z", . . . (будем говорить при этом, что модель Z суммируема). Можно всегда добиться, чтобы это дополнительное требо- вание выполнялось, исключив из Xi (при t т) все со- стояния х, для которых нарушается условие z-суммируе- мости соответствующей производной модели. Такая чистка пространства состояний не влияет на управление моделью Z, ибо в силу 2а—26) исключенные состояния недостижимы ни при какой стратегии. При сделанных предположениях конечные или бесконечные оценки v определены для модели Z и всех производных моделей. Рассмотрим сначала случай, когда модель суммируема сверху и, следовательно, v <С -]-оо. В этом случае справед- ливость результатов а)—в) устанавливается так же, как в § 1.12. Возможность применять оператор U к функции v' и равенство Uи' (а) = q (а) 4- v' (ра) вытекают из 36) и 46). Неравенство и/ (ра, Н) ~^v' (рг) — е (где л' — стратегия, s'-оптимальная для Z') следует из 4в). Пусть теперь модель суммируема снизу. Пример, при- веденный в конце § 1.13, показывает, что утверждение 6) может быть цеверным для точек х, в которых v (х) = = -Ьсо. Однако справедлив следующий ослабленный ва- риант результата б): 6) При любых х > О и К > 0 существует селектор ф соответствия А (х) (х £ Хт) такой, что и (ф (а:)) V (х) — X при 17(х)<4-оо, U (ф (4) & ПРИ V (Х) = 4- ОО. самом деле, при v (х) <( -|-оо сохраняют силу преж- ние аргументы. Если же v (ж) = ^-оо, то в силу фундамен- тального уравнения формулы (4.3) и определения и (а), содержащегося в (1) и (3), 4-со = sup и; (х, л)^ sup (a) -j- w' (ра, л')] 5^ it л' < sup (а) 4- v' (ра)] = sup и (а). а^А(х) а£А(х) 137
Из б) следует а): при v (.г) < +со сохраняется прежнее доказательство, а при v (а:) = -|-оо в силу (2) Vu(x) = = -|- со = v (х). Результат в) и его доказательство не зависят от того, суммируема модель сверху или снизу. Для дальнейшего нам удобно переписать уравнения (1) и условие (4) с помощью операторов и Т, определенных формулами ' (5) Tf(x) = supT J(x) = VU f (х) / (6) Ф v (см. конец § 1.6). Кроме того, как ив§ 1.7, будем считать, что О и обозначим модель Z и ее последовательные про- изводные через Zo, Zb Z2, . . ., а их оценки — у0, vlt v2, . . . Из результата а) следует, что в суммируемой модели оценки vt связаны рекуррентными соотношениями vt = TuM (0С*<+оо). . (7) Из результата б) вытекает, что в суммируемой сверху мо- дели для любой последовательности положительных чисел хх, х2, . . • можно выбрать селекторы ф2, . . . соответствий x^A(x)(x^Xt_^ t=\, 2, ... так, что • —хг (8) Наконец, из результата в) следует, что при таких и при любой s'-оптимальной стратегии л в модели ZK произведение фхф2. • •'?«“' является е-оптимальной стратегией в модели Z при s = x1-px2+. . • + хи+е' (п— = 1, 2,. . .). Из (7) следует, что при любом п > О ^о = ^Ч- ' (9) В следующем параграфе мы выведем, что при некоторых дополнительных ограничениях к0 = Ит ГО. «->со Наглядно это означает, что управление на конечном, но достаточно длинном интервале [0, п\ может дать почти 133
столько же, сколько и управление на бесконечном интер- вале времени. Пусть, далее, ср = ф1ф2. . ,ф;. . где селекторы удовлетворяют условию (8) и пусть е=х1тх2-)-. . .+ + х/-|-. . . В § 7 будут выяснены условия, при которых простая стратегия (р равномерно s-оптимальна. § 6. Выражение для оценки модели Рассмотрим суммируемую модель 1. Очевидно, при любом п суммируема модель Z", которая получится из Z, если заменить нулем плату q на всех пространствах At с t п. Оценки v и w в модели Z” будем обозначать через Vя и wn. Ясно, что уя=0 на Хп, так что в силу (4.9) vn=T”Q на Хо. Согласно (1.1) w(x, л) = lim wn (х, л) (ж£Х0) (1) w->co и, стало быть, v (х) — sup lim wn (х, л)., тс ?г->со Переставив знаки sup и lim, мы получим у = lim у” = lim ГО. (2) я->со ?г->со Однако этот вывод несостоятелен, так как, вообще говоря, знаки предела и супремума переставлять нельзя. «Выведен- ное» нами равенство в действительности может не иметь места, как показывает следующий пример. Пример 4. Рассмотрим однородную модель, в ко- торой все Xt (и Л,) совпадают друг с другом. Простран- ство Xt состоит из точек х и yk, к=1, 2, . . . (см. рис. 4.2). 139
Из ук+1 происходит детерминированный переход в ук, состояние у± — поглощающее. Из х за счет выбора управ- ления мы можем перейти в любое из состояний ук с номе- ром к 2. Плата q равна 0 всюду, кроме стрелки, веду- щей из у2 в у±', здесь q=—1. Отправляясь из х, мы рано или поздно пройдем из у2 в у±, поэтому v{x) = — 1. Однако vn (я)=0 при любом натуральном п, так как можно пе-. рейти из х в ук со столь большим номером к, что п шагов не хватит для достижения х. Из равенства (1) вытекает только, что v lim vn. (3) м->со В самом деле, фиксируем х и выберем произвольное число с, меньшее v (z). Заметим, что w (х, л) > с для некоторой стратегии л, и, в силу (1), wn (х, л) > с, начиная с некоторого номера п. Начи- ная с этого номера v” (х) > с. Стало быть, lim р" (ж) > с. Чтобы v равнялось пределу vn, нужно исключить воз- можность существенных убытков в сколь угодно далеком будущем. Пример 1 показывает, что суммируемости снизу для этого недостаточно. Для того, чтобы выполнялось равенство (2), доста- точно, чтобы величина СО ")= 5 (4) /=«4"Т удовлетворяла соотношению lim inf wn (г, л)^>0 (x£X0). ' (5) n->co it Действительно, положим zn (х) = inf wn (x, л). При лю- бой стратегии л wn (х, л) zn (х) wn (х, л) wn (х, it) = w (х, л) v (х) и, следовательно, v” (*) 4- W) Сv (*)• В силу (5) имеем О lim zn lim (и — vn) = v — lim v”. n->co л->со n->co В соединении с неравенством (3) это дает нам формулу (2). 140
Неравенство (5), очевидно, выполняется, если плата q неотрицательна. Оно выполняется также, если существуют положительные функции bt (х) (х^Х0), такие, что СО 5Мж)<+°° (6) 1 и при достаточно больших t (ai) > — bt (х) (7) для любого х из Хо и любой стратегии к. Действительно, из (4) и (7) следует, что при любых х и л и достаточно большом п СО (z, — (х) (8) и, значит, (5) вытекает из (6). Суммируемые модели, удовлетворяющие подчеркну- тому требованию, условимся называть ограниченными снизу. Таким образом, для любой ограниченной снизу модели Т"0 V. Любая суммируемая модель на конечном промежутке, очевидно, ограничена снизу. С другой стороны, если не- равенства (7) выполнены при всех t, то модель я-сум- мируема при любом начальном состоянии х. Произведя чистку пространства X, описанную в § 5, можно считать, что модель суммируема. Очевидно, она ограничена снизу. § 7. Простые г-оптимальные стратегии В этом параграфе изучаются стратегии вида • • ... . ., где — селектор отображения х-> А (х) (х О Xtl) (простые стратегии). Наша цель — показать, что если — (!) и е = х1 + х2+>.., то w (х, <р) v (х) — е, (2) т. е. стратегия ср равномерно s-оптимальна. Мы увидим, что это утверждение справедливо только при некоторых дополнительных предположениях о модели Z. Пусть модель Z суммируема. Согласно формулам (3. 5) и (3.7) для любой стратегии л в производной модели Z” {z, <р) + (хп, к) = 7\7\ • • T.^wn (х, к). (3) 141
Из определения операторов видно, что они сохраняют неравенство между функциями, и что для любой постоян- ной с имеем (постоянное слагаемое можно выносить за знак оператора).. При любом е > 0 существует стратегия кЕ, для которой Vn (*) - S < «еКФ) Поэтому из справедливости (3) для всех стратегий л. вы- текает, что w'‘ (х, ср) 4- Рх (т„) = . Т^nvn (т). (4) Из неравенств (1) и отмеченных свойств операторов следует, что Гф1 . . . X • • • Х»С^ Гф, .. . xB-i хв v xi х2 • (5)( Поскольку w (х, ср) = lim wn (х, ср) (6) я->со (см. (6. 1)), то для получения из (4) и (5) неравенства (2) достаточно потребовать, чтобы Йтр^в(*в)<°- (7) я->со * * * Остановимся подробнее на случае, когда v (х) конечно. Из формулы (4) вытекает, что при этом существует предел 3(z) = limP^(zJ. (8) В В самом деле, из трех членов, входящих в формулу (4), первый имеет в силу (6) предел w (х, ср), а третий — монотонно не возрастает в силу неравенств T^Vnil<Tv^l = Vn и,- стало быть, также имеет некоторый предел X (х) v0 (x) = v (т). Поэтому предел (8) существует и равен 3(т) = Х(т) — w (г, ср), (9) если хотя бы один из членов в правой части конечен. 142
Конечность л следует из неравенств у— (10) (оценка снизу получается предельным переходом из (5)). В силу (9) и (10) v (z) — w (х, ср) — е 8 (z) у (z) — w (х, ср). Из этих неравенств можно сделать ряд интересных вы- водов: 1) Всегда 8 —е (ибо w (х, ср) у (z)). 2) Если 8 4^ 0, то стратегия ср t-оптимальна (это вытекает также из сопоставления (7) и (8)). 3) Если' стратегия ср s-оптималъна, то 8 е. Применяя 2) и 3) к случаю, когда е=0, приходим к сле- дующему результату: Пусть оценка v конечна и селекторы cpz удовлетворяют условиям Ttytvt ~ vt-i — 2,...) и пусть ср = ф1ф2- • • Тогда существует неотрицательный предел б 8 (х) = lim (хв); «->00 для оптимальности простой стратегии ср необходимо и достаточно, чтобы этот предел был равен нулю. * * * Аналогично классу моделей, ограниченных снизу (см. § 6), можно ввести класс моделей, ограниченных сверху. Суммируемую модель будем называть ограниченной сверху, если существуют положительные функции ct (х) (х £ Хо) такие, что СО (И) 1 и при всех достаточно больших t (12) для любого х из Хо и любой стратегии л. Докажем, что для таких моделей выполняется условие (7) и, следовательно, стратегия <р s-оптималъна. 143
Установим сперва, что в ограниченной сверху модели Z при достаточно больших п СО «)< S (*) «4-1 (13) для любого х из Хо, любой простой стратегии ср в модели Z и любой стратегии л в производной модели 1п. Рис. 4.3 Пусть ' р — произведение первых п сомножителей стратегии ср на стратегию л. Очевидно, величина, стоящая в левой части (13), не зависит от значений платы q на пространствах А1г. . ., Ап; полагая q=0 на этих мно- жествах, по формуле (3. 7) получаем п ' со со . РМ(*»> я) = S Р^о (а<) 4- 2 (at) = 2 («<)• <=1 <=я-|-1 »+1 Отсюда и из (12) следует (13). Применяя неравенство (13) к равномерно ^оптималь- ной стратегии в модели ZB, получаем, что • со РМ (О < РМ X О 4- ® С в + 2 (*); «4-1 ввиду произвольности числа е )> О отсюда следует, что СО p^J^XZ СЛ4 (14) «4-1 ) Из (14) и (И), очевидно, вытекает (7). Отметим, что ограниченными сверху (а также снизу) являются, в частности, все суммируемые модели на конеч- ном промежутке времени [т, п]. Для ограниченных сверху моделей при фиксированном начальном состоянии можно пренебречь положительным вкладом, который вносится в математическое ожидание выигрыша после достаточно далекого момента. Следующий пример показывает, что это условие лежит в существе дела. 144
Пример 1. Рассмотрим однородную модель с двумя состояниями, показанную на рис. 4.3. В состоянии х воз- можны два управления, переводящие нас, соответственно, в х и в у, состояние у — поглощающее. Очевидно, v (z) = l и v (у)=0. Стратегия ср, состоящая в бесконечном возвра- щении в х, удовлетворяет неравенствам (1) при 4^=0, но не является оптимальной, так как w (х, <р)=0. * * * Если в определении модели, ограниченной снизу (или сверху), ряд Sbt(x) (или Scz (z)) состоит из констант, то будем называть модель равномерно ограниченной снизу (или сверху). Если модель равномерно ограничена и сверху и снизу, то для получения стратегии, близкой к оптимальной, до- статочно конечного числа условий (1). Точнее, мы дока- жем, что если — (t = i, 2, . . ., п), то любая стратегия л, совпадающая на первых п шагах с произведением 'р = ф1ф2- • -фя» является г-оптималъной при п • e = S (bf + Cf) (15) 1 t>n (в предположении, что, начиная с п, выполнены неравен- ства (6. 7) и (12)). Выбирая достаточно большое п и доста- точно малые х1, х2,. . хй, можно сделать е сколь угодно малым. Для доказательства заметим, что wn (z, ii)=wn (х, ср) и, значит, согласно формуле (4) w(z, iz) = wn{x, u)4-wK(z, rt) = T^T^...T^vn(x)- — + ”)• Из неравенств (5), (14) и (6. 8) вытекает, что правая часть не меньше, чем и (z)—е. § 8. Достаточность марковских и простых стратегий В какой мере переносятся на рассматриваемый случай результаты § 1.13 о марковских и простых стратегиях? Результат 1.13.1 о существовании марковской страте- гии о, равносильной стратегии л при начальном распреде- 10 Е. Б. Дыпкин, А. А. Юшкевич 145
лении ft (т. е. такой, что w ’(?, a)=iv (р, л-)), остается спра- ведливым для любой р-суммируемой модели. Действи- тельно, определим з той же формулой (1.13.3), что в главе 1 (но теперь для всех t О 0). Как показано в § 1.13, при лю- бом t распределения вероятностей для at относительно мер Р* и Р’ совпадают. Значит, 03 со w(p., з). Иначе обстоит дело с результатом 1.13.2 о существова- нии простой стратегии <р, равномерно не худшей, чем мар- ковская стратегия о (т. е. такой, что и> (х, <р) щ (т, о) при всех х из Хо). Если ^=4-°°, то этот результат неверен (см. пример 1.13.2). Неизвестно, справедлив ли этот ре- зультат для произвольной суммируемой сверху модели. Его удается доказать лишь для суммируемых сверху моде- лей с неположительной платой q или несколько общее для моделей Z, суммируемых сверху и ограниченных сверху (см. §7). Для любой суммируемой сверху модели мы можем, как и в § 1.13, выбрать при каждом . селектор отображения х -> А (х) (х £ Атак, чтобы wt-i(x, при всех х из Xt(1) (а* — сужение о на Zf). Из этих неравенств мы хотим вы- вести, что w(z, <p)>w(z, а) (^Хо) (2) для простой стратегии фгфг- • • С помощью операторов неравенства (1) записываются в виде (£ = 1, 2, ...). Отсюда и из формул (3. 5) и (3. 7) w(x, с) ^T^liv1(x, а1) Т^Т^1е2 (х, с2)^... ...<ад,...т^х, ^)=iv(x, = шп (х, <р) + Р> (ж„, =”) (3) при любом п 2> 0, 146
Поскольку w” (z, (p) —> w (x, tp), to (2) вытекает из (3), если дополнительно потребовать, чтобы 0я) < О- я->со Это условие несколько слабее неравенства (7. 7) и, значит, выполняется, если модель ограничена сверху. Близкий, но более слабый результат можно получить для моделей, равномерно ограниченных снизу (см. § 7). Именно в таких моделях по любому начальному распре- делению р (при котором модель р-суммируема сверху) произвольной марковской стратегии о и любому числу е)>0 можно построить простую стратегию <р такую, что w (р, (p)^w(p., о) — s. (4) Прежде всего заметим, что, поскольку мы интересуемся только процессом и модель Z р-суммируема сверху, то в силу результатов § 3 можно, не ограничивая общности, считать модель Z просто суммируемой сверху (ср. аналогич- ное замечание из § 5). Так как wn (р, а) w (р, з) -j- со, то при достаточно большом п wn (р, з) > и> (р, з) — ~. (5) В силу равномерной ограниченности модели снизу при достаточно большом п СО X W(p, л)=--н?в(р, U) 2 Pf.q (^) > Wn (р, и)— у (6) ??+! для любой стратегии л. Задавшись числом п, при котором верны оба неравенства (5) и (6), заменим плату q нулем на множествах A t с t > п. Тогда оценка w” прежней мо- дели превратится в оценку w новой модели. Так как новая модель, будучи суммируемой сверху, также и ограничена сверху, то в ней найдется простая стратегия <р, равномерна- не худшая, чем а, и при такой стратегии Ш»(р, ?)>Ш”(Р, а). (7) Из (5), (6) и (7) следует (4). 10* 147
Итак, имеем следующие результаты: а) В рсуммируемой модели для, любой стратегии л существует марковская стратегия о такая, что w (у, о) = =w (р, л). б) В суммируемой сверху ограниченной сверху модели для любой марковской стратегии а существует простая стратегия ср такая, что w (х, (х, о) при всех х из Хо. в) В равномерно ограниченной снизу модели для лю- бого начального распределения р, при котором модель р-суммируема сверху, любой марковской стратегии о и любого числа г > 0 существует простая стратегия ср такая, что w (р, ср) гг (fi, о)—е. Учитывая замечание, с которого мы начали доказатель- ство результата в), а также формулу (3. 1), получаем сле- дующий вариант результата б), аналогичный результату в): б') В ограниченной сверху модели для любого началь- ного распределения р, при котором модель р-суммируема сверху, и любой марковской стратегии q найдется простая стратегия ср такая, что w (р, ш (р, а). Из а), б) и в) следует г) Пусть модель р-суммируема сверху и к — любая стратегия. Если модель ограничена сверху, то найдется простая стратегия <р такая, -что т (р, р) ю (р, л); если модель равномерно ограничена снизу, то для любого s )> 0 существует простая стратегия ср такая, что W (р, ср) W (р, я) — 6. Вопрос о возможности распространить результаты б) либо в) (а с ними и г)) на произвольные суммируемые сверху модели остается открытым.
Г л а в a 5 БОРЕЛЕВСКИЕ МОДЕЛИ § 1. Основные результаты Эта глава находится в таком же отношении к главе 3, в каком предыдущая — к главе 1. Как и в главе 3, мы будем изучать общие модели с бо- релевскими пространствами состояний и управлений и будем предполагать, что множество стратегий непусто (условие нетривиальности § 3.1). В отличие от главы 3 про- межуток управления считается бесконечным и снимается требование, что плата q ограничена сверху (в полунепре- рывных моделях предположение ограниченности сверху платы на каждом шаге сохраняется). Из нетривиальности модели следует, как и в 3.2, что непусто множество простых стратегий. Оценка w (р, л) стратегии л при начальном распределе- нии определяется, как и в главе 4, формулами (4. 2. 1) или (4. 2. 5) в предположении, что ряд (4. 2. 2) или (4. 2. 3) сходится (fi-суммируемость модели сверху или снизу1). Разумеется, при вычислении Pg + (at) и Pq~ (at) теперь надо пользоваться формулой (2. 2. 4). В главе 3 для общих моделей на конечном интервале управления мы получили следующие три основных резуль- тата: I. Оценка v модели удовлетворяет уравнениям опти- мальности. Па. Для каждого е >0 и каждого начального распре- деления fi существует простая е-оптималъная (п. н. р) стратегия. III. При фиксированном начальном распределении р для каждой стратегии л найдется простая стратегия ср такая, что w (р, ср) ю (р, л). 1 См. замечание о терминологии на стр. 129. 149
Справедливы ли эти результаты в случае суммируемой модели на бесконечном промежутке управления (и при не- ограниченной сверху плате)? Мы покажем, что результат 1 сохраняет силу и дока- жем следующие ослабленные варианты результатов Па и III: П'а. Если ^.-суммируемая сверху модель ограничена сверху, то для любого числа е )> 0 существует простая г оптимальная (п. н. у) стратегия. ПГ. Пусть модель р-суммируема сверху. Если она ограничена сверху, то для каждой стратегии к найдется простая стратегия <р такая, что w (у, <р) w (у, л); если модель равномерно ограничена снизу, то для любой стратегии к и любого числа е )> 0 найдется простая стра- тегия (р такая, что w (у, tp) w (у, л) — е. При v (у) = -|-со результат III, вообще говоря, неверен (см. пример *1.13.2). Вопрос о справедливости Па и III в произвольной ^-суммируемой сверху модели остается открытым. Чтобы доказать I, П'а и ПГ, необходимо сначала рас- пространить на общие модели результаты главы 4. Это бу- дет сделано в § 2. Мы вернемся к доказательству предложе- ний I, П'а и ПГ в § 3. § 2. Распространение на борелевские модели результатов главы 4 Сведем воедино результаты главы 4, записывая суммы по пространствам состояний и управлений в виде интег- ралов: а) Если модель р.-суммируема, то она z-суммируема (п. н. р.) и w (р., л) = w(x, л) р. (dx). б) Если модель ^-суммируема, то производная модель /^-суммируема при всех а из А(х) и io (х, п) = j u (da | х) [g (a) + w' (pa, kJ] Л(.г) (фундаментальное уравнение). 150
в) Если модель ^-суммируема, ф^—измеримые1 селек- торы отображений у -* А (у) {у £ Х^) (t = m-]-\, . . ri) и л — любая стратегия в производной модели порядка п — zra,, то Ф^+1^4-2 • Фл) = ТФ«г+1 ТФИ+г • • • Т*nW„ (*, 4’ (!) где операторы T$t определены равенством Т^tf (х) = q [фг (ж)] 4- Р (dy | ф, (х)) f (у) (х С Х^). xt Пусть ТА (г) — модедь, полученная, если ввести в момент п финальную плату г, и с = фм+1фт+2 ••• фк — стратегия на отрезке [иг, га]. Если 1п (г) х-суммируема, то Т*яг (х) = 2 (а,) + Р'4 (xj. (V) f=m+l г) Если модель р суммируема и р — какая-либо стра- тегия на отрезке [m, га], то производная модель порядка га—т v-суммируема, где v — распределение на Хп, задан- ное формулой v (Г) = Р£Дхя £ Г) (Гб^(х„)); при этом для любой стратегии л на промежутке [га, со) w(p, рл) = S Pp.q (аг) 4-Р> (х„, к). Далее предполагается, что модель х-суммируема при любом х из Хт, и, следовательно, определена оценка v (х) (хДХт). По определению оценка v (р) имеет смысл тогда и только тогда, когда • модель р-суммируема. д) Для любого s > 0 существует стратегия л такая, что гн (х, л) v (х) — s прц всех х из Хт (равномерно s-оптимальная стратегия). е) Если модель р-суммируема, то оценка v тоже р-сум- мируема и v (р) = j р (dx) v (х) (=рн). (2) 1 Для дискретных моделей слово «измеримый» можно опустить, так как все селекторы измеримы. Однако в общем случае без условия измеримости фг формула (1) просто не имеет смысла. 151
ж) Если стратегия я равномерно е-оптимальна, то zr(p, л) v (р) — е для всех начальных распределений р, при которых модель р-суммируема. з) Следующие три условия равносильны; 1°. Модель Z р-суммируема сверху. 2°. v (р) <Z со. 3°. supw+(p, к)<^-|-оо. 1С В формулировках и)—р) мы считаем, что т=0, и что модель Z и все ее производные х-суммируемы при любом начальном состоянии х (модель Z суммируема). и) Оценки v=v0, vu v2,. . модели Z=Z0 и ее последо- вательных производных Zx, Z2„ . . связаны рекуррентными соотношениями ut — Uvt или vt-l= Tvt (£=1,2,. . .), где операторы V, U и Т определены форму- лами Vg (г) = sup g (а) (х Е X), аеА(л) Uj(a) = q(a)-\- j p(dy\a)j(y) (a£A), x. T^VU. к) В суммируемой сверху модели для любой последо- вательности положительных чисел хх, х2,. . . можно вы- брать измеримые селекторы фх, ф2,. . . соответствий х —► А (х) (x^Xt_lr t='i, 2,. . .) так, что T^tvt vt_r *-t. _ (3) л) Если неравенства (3) выполнены при £=1, 2,. . ., п, для измеримых селекторов фх, ф2,. . ., фи^и неотрицатель- ных чисел хх, х2). . ., х„, то при любой стратегии л, е'- оптимальной в модели ZK, стратегия фхф2. • •фяи является е-оптимальной в модели Z при е = хх4-х2+. . .4-хя4-е'. м) Если модель ограничена снизу (см. § 4.6), то v = lim Тп0. Я ^-00 152
н) Если модель ограничена сверху (см. § 4.7) и измери- мые селекторы (i=l, 2,. . .) удовлетворяют условиям (3) с х, > О, то простая стратегия 'р = ф1ф2- • • равномерно е-оптимальна при е = х14-х2+. . если модель равно- мерно ограничена и снизу, и сверху, то при достаточно большом п любая стратегия л, совпадающая на первых п шагах с произведением ф1ф2. • является е-опти- мальной при е = 2 4" 2 (^ + ct) 1 t>n [числа bt и ct берутся из формул (4. 6. 7) и (4. 7. 12)]. о) Если модель р-суммируема, то для любой стра- тегии л найдется марковская стратегия о такая, что w (р, n)—w (р, а). п) Если модель суммируема сверху и ограничена сверху, то для любой марковской стратегии а существует простая стратегия <р такая, что w (х, <р) in (х, о) при всех х из X. р) Если модель р-суммируема сверху и равномерно ограничена снизу, то для любой марковской стратегии а и любого числа е )> 0 найдется простая стратегия <р та- кая, что w (р, <р) w (р, о)—е. Что же меняется, если пространства Xf и At несчетны? Утверждения д) и к), вообще говоря, неверны, как это мы видели в § 3.1 (в примере 3.1.2 при е <С 1 нет равно- мерно е-оптимальных стратегий). Мы докажем, что все остальные утверждения сохраняют силу в общем случае, и что справедлив следующий ослабленный вариант пред- ложения д): д') Функция v (х) универсально измерима. Для любого е )> 0 п любого начального распределения р существует стратегия п такая, что w (х, к) р (ж) — е (п. и. р) (стратегия, е-оптимальная (п. н. р)). В общей теории без к) от предложений л) и н) мало толку. Однако они окажутся нам полезны в § 6, при ис- следовании полунепрерывных моделей, а также в кон- кретных примерах гл. 6. Результаты а), б) устанавливаются с помощью тех же рассуждений, что и в дискретном случае, только надо опи- раться на § 2.3, а не § 1.12. В дискретном случае мы ноль- 153
Зовались тем, что бели сумма положительного ряда ко- нечна, то и все его члены конечны, а также свойством S (см. §§ 4.3—4.4)). В общем случае аналогичную роль играют следующие утверждения: 1) Если интеграл неотрицатель- ной функции конечен, то эта функция конечна почти всюду; 2) если функции /х и /2 неотрицательны и хотя бы один из интегралов или д/2 конечен, то интеграл д (Д—/2) имеет смысл и д (Д—/2)= р/i—д/а- Оба они выте- кают из приведенного в § 2.1 определения интеграла. Кроме того, при доказательстве б) нужно позаботиться об измеримости селектора фя. Достаточно положить ( а при у = х, (У) — j т при у х, где у — произвольный измеримый селектор соответствия А (у) (у£Хм). Вывод утверждений в) и г), не отличается от дискрет- ного случая (марковское свойство справедливо в силу § 2.3). Доказательство д') основано на совершенно иных идеях, нежели доказательство утверждения д) в главе 4. В нем приходится использовать общие теоремы главы 3. Мы про- пустим сейчас это доказательство и посвятим ему пара- графы 4 и 5. Первая половина утверждения е) (д суммируемость функции v) доказывается, как в § 4.4. Отличие состоит, лишь в том, что вместо самой функции v берется ее измеримый вариант v такой, что v=v (п. н. д), а вместо равномерно е-оптимальной стратегии — стратегия к, е-оптималь- йая (п. н. д) (ее существование следует из д')). Ясно, что д-суммируемость v равносильна д-суммируемости v. Фор- мула (2) выводится из д') так же, как в § 3.7. Результат ж) является очевидным следствием а) и е). Для доказательства з), как и в дискретном случае, нужно из равенства v (у)— +оо вывести существование такой стратегии л, что w (д, гс) = + оо, Это делается с по- мощью д'), а) и е). Результат и) выводится из б) и е), как в § 3.7 (при п(г) = + со задаемся сколь угодно большим числом К и, как в § 4.5, находим такое а из А (ж), что и (а) К). Утверждение л) следует из формулы (1), неравенства wn (ж> и) Чг (х)—монотонности операторов Гф и воз- 154
можности выносить постоянное слагаемое за знак этих опе- раторов. Результаты м) и н) доказываются, как в главе 4, только изменяется вывод формулы (4. 7. 4): вместо равномерно е-оптимальных (по отношению к модели стратегий приходися брать такие стратегии, что vn—е (п. н. v), где у — распределение соостояния хп приначальном состо- -янии х и стратегии ср. Утверждения о), п) и р) устанавливаются, как в § 4.8 (вместо § 1.13 нужно использовать § 3.8). § 3. Доказательство основных результатов Результат I из § I совпадает с предложением 2и). Ре- зультат ПГ вытекает из утверждений 2о), 2п) и 2р). В главе 3 результат Па был получен из утверждения III с помощью леммы 3.9.1, утверждающей, что для, любой последовательности ср1, ср2,. . . простых стратегий и лю- бого е )> 0 найдется простая стратегия ср, при которой w(x, <р) > sup (а ср1')— е (x£Xt). (1) к Распространению этой леммы на случай бесконечного промежутка управления посвящена вся остальная часть этого параграфа. При этом нам придется предположить, что модель суммируема сверху и ограничена сверху. Лемма применяется так же, как в § 3.9, только сперва нужно удалить из Хо множество р.-меры нуль, содер- жащее все состояния х, при которых нарушается ^-суммируемость сверху [такое множество можно выбрать в силу 2а)]. Ограниченные снизу модели приходится исклю- чить при переходе от ПГ к 1Га, так как на такие модели не удается распространить лемму 3.9.1. * * * Перейдем к доказательству сформулированной леммы. Будем обозначать оценки стратегий в производной модели порядка п через wti и сужения простых стратегий tp на производных моделях по-прежнему через <р. Каждая из данных простых стратегий ср1 разлагается в бесконечное произведение <рй = ... фГ .. . измеримых селекторов ф1 соответствий А (ж) {х О Х^±). 155
Положим для сокращения записи Tkt=T^ и . rf(x) = supwt(x, cpfc) (x£Xt, t = 0, 1, 2, ft Поскольку rt^.vt, 10 и, следовательно, (x) = sup Tkrt (x) <Z —]—co. ft Поэтому при некотором к Tfrt(x)>9,(x)-^. Обозначим через k(t, х) наименьший из этих номеров и положим ' = (*€Vi> z = 1- 2> Так как верхняя грань счетного множества измеримых фун- кций измерима, то г, и Ф( — измеримые функции. Поэтому к (t, х) измерима по х и — измеримый селектор отобра- жения х -> А (ж) (х^Х,^). Мы докажем, что стратегия <р = ф1ф2- • -Фг • • удовлетворяет неравенству (1). Мы получим (1) предельным переходом из (2. 1') при г=гв. Чтобы пользоваться формулой (2. 1'), надо согласно 2в) убедиться в ^-суммируемости сверху модели Z‘ (гк), т. е. в том, что S Р^+ (<*<) + < +=° /=1 для любой стратегии р на отрезке [0, п]. Конечность чле- нов, стоящих под знаком суммы, вытекает из суммируе- мости сверху данной модели Z. Поскольку rn vn, то и rn vt' Поэтому достаточно проверить, что Р^ (О<+От- Заметим, что Р^ GQ = где . >(Г) = Р’(^€Г). (г 6 ^(О- 156
Из предложения 2г) следует, что производная модель Zn v-суммируема сверху. Опираясь на предложение 2е) заключаем, что функция vn тоже v-суммируема сверху, т. е. что w* 4'с0- Итак, ^-суммируемость, сверху модели Z” (гв) доказана. По формуле (2. 1'), примененной к функции гп и стра- тегии (р, 2 Лч Ы + РХ Ы . .. Т^п (х). (2) 1 Эту величину мы оценим снизу с помощью неравенств rt-i • (3) Последние неравенства вытекают из цепочки соотношений следующих из определения определения rt и фундамен- тального уравнения. Из (2) и (3), как в § 4.7, получаем 2 РМа/) + Р’ гп Ю > г0 (х) — s. (4) 1 Ввиду ограниченности модели сверху iimpX(O<° п->со (см. § 4.7). Учитывая, что гв^г?в, и переходя к пределу в (4), замечаем, что Ш (х, <р) = £ P*q (аг) г0 (х) - s 1 при всех х из Хо, и лемма доказана. § 4. О мерах в бесконечных произведениях При доказательстве предложения д') из § 2 нам придется действовать в пространстве L бесконечных путей, чего мы до сих пор избегали. Нам понадобятся результаты о мерах в бесконечных произведениях пространств, аналогичные результатам для конечных произведений, описанным в § 3.4. 157
Пусть даны произвольные множества Ео, Еъ. . . . . Et,. . . Точками пространства Е=Е0 ХЕгХ. . .EtX. . . являются последовательности x=xoxv . ,xt. . . (xt^Et, 1=0, 1,. . .). Если £0, Ev. . Et>. . . — измеримые про- странства, то и Е можно считать измеримым простран- ством, определяя (Е) как минимальную <з-алгебру, содержащую при любом t=Q, 1, 2,. . . все множества1 С X Et+1 X Ei+2 X • • • X ЕпХ • • ...[<Wox01x...x£()]. (1) Доказывается, что если все-пространства Et борелевские, то и пространство Е тоже борелевское (добавление 1, § 4). Заметим, что любую вероятностную меру Р на Е можно рассматривать и как вероятностную меру на конечном про- изведении ЕохЕгХ. .ХЕ(, полагая Р (С) равным мере множества (1). Теоремы Д и Е из § 3.4, устанавливающие связь между переходными функциями и мерами в произведениях про- странств, сохраняют силу и для бесконечных произведе- ний. Однако теорема Д теперь становится вовсе нетриви- альной. Она впервые была доказана Ионеску Тульча и ее доказательство приведено, например, в учебнике Неве 2. Теорема Е доказывается так же, как и для конечного числа сомножителей (добавление 4). Теоремы 1 и 2 из § 3.4 переносятся на бесконечные про- изведения пространств для множеств В, удовлетворяющих следующему дополнительному требованию. Бесконечная последовательность х^ . . ,xt. . . при- надлежит В, если при каждом t хохх. . . xt принадлежит Вг (Проекция Bt множества В на произведение Е0ХЕхХ X. . .ХЕ( определяется так же, как в § 3.4.) Из сформулированного условия вытекает, что В = П (В^ X Е/+1 X Б/+2 X • • •) и, стало быть, Р (Б) = 1тогда и только тогда, когда Р(7?г) = 1 при всех t=0, 1, 2. . . Поэтому из справедливости тео- 1 Множество (1) состоит из всех последовательностей xozt. . . х№. . . таких, что . xt б С, xt+1 £ Et+1, xt+2 р Ем, . . . . . ., х„ £Еп,. . . 2 Ж. Неве [1], § 5.1. 158
рем. 3.4.1—3.4.2 для конечных произведений ^Х^Х X . . . X Ej вытекает их справедливость и для бесконечного произведения Ео X Е± X . . . § 5. Универсальная измеримость оценки модели и существование (п. н.) е-оптимальных стратегий Доказательство предложения д') из § 2 проводится по тому же плану, что в главе 3, §§ 2—6. Прежде всего мы вводим пространство путей беско- нечной длины L, состоящее из всевозможных последова- тельностей / 1 = • (хв € Хп, ап Q Ап) таких, что / («в+1) = (п = т, m-1-l, ...). (1) Поскольку все пространства Xt и А( считаются борелев- скими и каждое из счетного числа условий (1) выделяет измеримое подмножество бесконечного произведения Хт ХЛж+1 X Xm+1 X . . то L также является борелевским пространством. Согласно § 3.3 класс oAt всех вероятностных мер 'на пространстве L тоже образует борелевское пространство. Теорема 2 из §§ 4 и 3.4 сопоставляет каждым началь- ному распределению д и стратегии п стратегическую меру Р* в пространстве путей L. В силу формул (3. 4. 10)— (3. 4. 12) при любом п т распределение Р* для истории в момент п дается тою же формулой (2. 2. 4), что распреде- ление для путей в модели на отрезке [иг, н], т. е. согласу- ется с определениями §§ 4.2 и 5.1. Подкласс So класса S стратегических мер и отобрав жение£0 Д Хт определяются, как в § 3. 2 и 3. 5. Описание класса S по-прежнему дается теоремой 3.5.1, только те- перь соотношения (3.5.1) пишутся для всех .t т+1- Из теоремы 3.5.1, как в § 3.5, выводится измеримость и вы- пуклость класса S. Измеримость класса и отображения к устанавливаются, как в § 3.6. * * * Чтобы распространить на рассматриваемый случай до- казательство универсальной измеримости оценки v (х), проведенное в § 3.2, нам остается представить оценку 159
w (x, л) стратегии ~ как измеримую функцию / (P) от меры Pf’.So. В отличие от главы 3 теперь функция f (Р), вообще говоря, будет принимать не только конечные зна- чения, но и значение 4-со или —со (в зависимости от сум- мируемости модели снизу или сверху). Понятие измери- мости и универсальной измеримости очевидным образом распространяются на такие функции. Легко видеть, что теорема Б из § 3.2 и ее доказательство также сохраняются для таких функций. Для определенности предположим, что модель сумми- руема снизу. Пусть Р — мера из класса So, отвечающая начальному состоянию х и стратегии л. По определению, данному в §§ 4.2 и 5.1, 'w(x, л) — Р/+— PZ“, где /- = 2<ГЦ), = т т И PZ <^—|—со. Каждая из функций А(Р) = Р/+, /2(Р) = РГ (P6S0) измерима в силу § 3.2, из (2) следует, что их разность. (2) измерима и * * * Чтобы распространить на бесконечный промежуток управления доказательств® существования е-оптималь- ной (п. н. а) стратегии, проведенное в §§ 3.2 и 3.6, нужно внести в зто доказательство следующие два дополнения. Во-первых, в § 3.2 мы исходили из того, что при любом х из Хт и любом е > 0 найдется стратегия л=лж такая, что w (х, л) v (х)—е. Это утверждение, тривиальное при v (х) +со, мы должны распространить на случай, когда v (х) = 4-со. Из установленного выше свойства выпуклости стратегических мер следует,чтозтимеры можно смешивать так, как мы смешивали стратегии в § 1.3. Зна- чит на общий случай переносится изложенное в § 4.4 по- строение, дающее при v (а:) = 4-оо такую стратегическую меру Р из 5 (х), при которой математической ожидание дохода тоже равно +со. 160
Во-вторых, мы должны перенести на случай простран- ства L путей бесконечной длины формулу j Pxp(d^), (3) использованную в конце § 3.6 (см. (3.6.6)). Это делается с по- мощью теоремы Д из §§ 3.4 и 5.4, согласно которой из сов- падения распределений историй любой длины относительно двух мер Р и Q следует совпадение мер Р и Q на всем про- странстве L. § 6. Полунепрерывные модели Перейдем теперь к исследованию полунепрерывных моделей, которыми мы занимались (при конечном отрезке управления) в главе 2. Изучим, при каких условиях на бесконечный интервал управления переносится основной результат главы 2 — существование равномерно оптималь- ной стратегии и возможность ее нахождения из уравне- ний оптимальности. В определении полунепрерывной модели (см. § 2.4) все пространства Xt и At предполагались сепарабельными метрическими пространствами. Чтобы иметь возможность опираться на результаты о борелевских моделях, доказан- ные в предыдущих параграфах, мы предположим дополни- тельно, что все пространства Xt и At борелевские 1 . Основной результат этого параграфа следующий: если как сама полунепрерывная модель Z, так и все ее производ- ные Z', Z”, . . . равномерно ограничены и сверху, и снизу, то существует простая стратегия <р = Ф1фг- • • .такая, что vt-i = (t = 1, 2, ...) и эта стратегия равномерно оптимальна. Из теоремы 2.5.А, примененной к пространствам E=Xf_±, Е'=А и функции/=0, следует, что соответствие х->А(х) (х £ допускает измеримый выбор (1=1, 2,. . .). Значит, модель нетривиальна, так что применимы резуль- таты предыдущих параграфов. Из ограниченности сверху платы q на каждом шаге (см. условие 2.4.Г) и ограниченности сверху модели Z* 1 Для этого достаточно, например, чтобы они были полными или были борелевскими подмножествами в своих пополнениях. 11 Е. Б. Дынкин, А. А. Юшкевич 161
вытекает суммируемость этой модели сверху. Значит, все оценки vt ограничены сверху и для них выполняются уравнения оптимальности ut = Vv(. Чтобы получить из теоремы 2.5.А существование се- лекторов фр удовлетворяющих уравнениям (1), нужно знать, что функция vt полунепрерывна. В случае конеч- ного промежутка управления это свойство оценок vt устанавливалось по индукции от t к t—1. Теперь у нас нет начала индукции и придется обратиться к формуле Pz=lim Т”0, доказанной в предположении ограниченности модели снизу (см. § 2), предложение л)). Функция Т“0 полунепрерывна в силу результатов главы 2. Чтобы вы- вести из этого факта полунепрерывность v, приходится допустить, что модель равномерно ограничена и снизу, и сверху. Тогда Т”6 сходится к v равномерно на всем Хо, а при такой сходимости полунепрерывность функции со- храняется. В суммируемой модели, ограниченной и сверху, и снизу, для любого е > 0 найдется номер N такой, что при п > TV |tz? (ж, л)— —и>п (х, т.)| е для всех х из Хо и любой стратегии п. Значит, w (х, и) и>п (х, л) в у® (х) s = Ttt0 (х) + е, откуда У (х) < ПО (х) + г. И наоборот, wn (х, г.) si w (х, к) -|- г < v (х) + е, откуда ПО (х) = vn (х) < v (х) + е. Согласно условию 2.4.В из полунепрерывности и ограниченности сверху функции vt вытекает, что такими же свойствами обладает и функция и((а) = (Uvf) (а) = q (а) -ф- j Vi(y)p(dy\d) (a£At). х< Применяя теорему 2.5.А к пространствам E=Xt_lf E'=At и функции j=ut, заключаем, что существует изме- римый селектор ф, соответствия A(z) (z^X^j) такой, что и>, (Ф< («)) = SUP (а) — (*Ч) («) = (•*)> т. е. удовлетворяющий уравнению (1). Из предложения 2н) следует, что простая стратегия <р=ф1ф2. . . равномерно оптимальна.
Глава 6 ОДНОРОДНЫЕ МОДЕЛИ § 1. Введение Однородная модель задается отображением j простран- ства управлений А на пространство состояний X, пере- ходной функцией р из А в X и текущей платой q на А (ср. § 1.2). Чтобы применять к однородным моделям те- орию, построенную в предыдущих главах, достаточно рассмотреть бесконечное число экземпляров Хо, Хи . . ., Xf, . . . пространства X, бесконечное число экземпляров Alt . . . ,At, . . . пространства А, перенести на них у, р и q, считая что j отображает At на Xtl, ар — переход- ная функция из At в Xt. Эту конструкцию можно на- звать разверткой однородной модели во времени. Исполь- зуя развертки, мы можем применять к однородным моделям введенные ранее понятия (история, стратегия, суммируе- мость и т. д.). В теории однородных моделей особое место занимают простые стратегии ф1ф2. . .<|>г . . , для которых ф1=ф2= = . . , = (|> =. . . (стационарные стратегии). Центральный результат этой главы утверждает, что при определенных условиях можно без ущерба ограничиваться стационар- ными стратегиями. Роль стационарных стратегий сохраняется и для не- сколько более широкого класса моделей, в которых те- кущая плата в момент t равна р*-1 g(a^) (Р — произволь- ное положительное число). Оценка стратегии л при на- чальном распределении р определяется формулой »(р, n:) = S^”lpS?(a/)- 0) 1=1 Подобная ситуация получается, например, если выигрыш оценивается тем ниже, чем к более отдаленному будущему 11* 163
он относится. Если внести сегодня в сберегательную кассу х рублей, то через t лет можно получить Ух рублей (л= = 1,03 при срочном и 1,02 при обыкновенном вкладе). Естественно поэтому оценивать q рублей через t лет, как х ~ ~t Рублей сегодня. Число Р = у называется коэффи- циентом дисконтирования. Условимся и такие модели на- зывать однородными. Итак, каждая однородная модель определяется эле- ментами X, A, j, р, q, р (случай, описанный в начале параграфа, получается при р=1). Ее развертка строится так же, как и при Р=1, эа исключением текущей платы q, которая определяется формулой = при а£Аг (2) На первый взгляд может показаться, что при р 1 в нетривиальных случаях ряд (1) будет расходиться. На самом деле это не так: для сходимости ряда (1) при любом р )> 0 достаточно, например, чтобы при любой стратегии система за ограниченное число шагов попадала в состояния, после которых можно получать только нулевую плату. § 2. Применение результатов главы 4 Как и в предыдущих главах, мы начнем со случая дискретных (т. е. конечных или счетных) пространств X и А. Пусть Z — развертка однородной модели Z. Ее про- изводная Zn порядка п отличается от Z только тем, что текущая плата умножается на число р". Символически Zn= P®Z. Отсюда следует, что ^) = (р, ^), vn (х) = р”п (х) (1) (стратегии в модели ZB естественно отождествляются со стратегиями в модели Z; wn, vn — оценки в модели ZK, a w, v — оценки в модели Z). Мы не станем переписывать для однородных моделей все результаты главы 4. Отметим только изменения в фор- мулах, появляющиеся при переходе от Z к Z. 164
Фундаментальное уравнение (§ 4.3) переписывается в виде w(x, т:)= 2 гс (а | х) Гд (а) + pw (ра, гса)] (2) а^АО) (предполагается, что модель ^-суммируема, и утверж- дается, что она ра-суммируема при всех а из Л(г)). Формула (4.3. 5) остается беэ изменения, если поло- жить (г) = q (ф (*)) + Р 2 / (у) Р (У I Ф №) (3) Формулы (4. 3. 6) и (4. 3. 7) принимают тогда вид т^г(х)= imw+ww (4) /=?п+1 И * (н ргс) = 2 (^) + ГР> (хп, п). (5) /=т+1 При этом иэ u-суммируемости модели Z следует ее v суммируемость, где v (у) = Р^{л;л=у} (у£Х). Суммируемость однородной модели Z в смысле § 4.5 сводится к х суммируемости Z при каждом х из X. Оценка v суммируемой модели удовлетворяет уравнениям оптимальности u=Vu, u = Uv [или v = Tv\, (6) где V имеет прежний смысл, а оператор U определен формулой Uf(a) = q(a) + ^f(y)p(y |а) (а £ Л) (7) X (см. § 4.5). Связь между операторами V, U, Т и оста- ется прежней. Если в суммируемой модели селекторы ф1,ф2) . . . ,ф„ ото- бражения х А(х) (х£ X) удовлетворяют неравенствам TfyV V — V-! (8) (хп х2, . . . ,хя — неотрицательные числа) и если стра- «5
тегия п s'-оптимальна, то стратегия фхф3. . , е-оц- тимальна при e=ir4+₽v. (9) *=i В самом деле, согласно (1.2), (1) и (4) неравенства (8) равносильны неравенствам —(10) где Tfy — оператор в модели Z, отвечающий селектору фг отображения х -> А(х) пространства Xtl в At. Условие е'-оптимальности стратегии г в силу (1) можно запи- сать в виде (X, vn (х) - 8V (х G Х„ = X), (11) так что по отношению к производной Zn стратегия л рле'- оптимальна. Таким образом, сформулированное утверж- дение сводится к доказанному в § 4.5. В определениях моделей, ограниченных снизу и сверху, неравенства (4.6.7) заменяются на р-Ч^а^-ЬДх) (12) и неравенства (4.7.12) — на ^-Т^КсДя). (13) При р <С 1 для равномерной ограниченности модели снизу (сверху) достаточно, чтобы плата q была ограничена снизу (сверху). (В частности, если плата q ограничена, то модель равномерно ограничена и сверху, и снизу.) Для моделей, ограниченных сверху, из неравенств (8) при t=\, 2, . . . (xz — неотрицательные числа) следует, что простая стратегия = • • равномерно е-оп- тимальна, где е = 2^Ч- ' (14) /=1 Для моделей, равномерно ограниченных и сверху, и снизу, из неравенств (8) при £=1,2, . . . ,п (п достаточно велико) следует, что любая стратегия к, совпадающая с на первых п шагах, является е-оптималь- ной при п аз 2 (&г.+?Л (15) /=1 мн J66
Чтобы свести эти результаты к доказанному в § 4.7, нужно переписать неравенства (8) в виде (10). * * * В отличие от неоднородных моделей, где мы имели бесконечную систему уравнений оптимальности, связы- вающих между собой оценки производных моделей раз- ного порядка, теперь у нас имеется одно уравнение опти- мальности v=Tv для единственной неизвестной функции V. Естественно возникает вопрос о единственности решения этого уравнения. Нетрудно показать, что если плата q ограничена и коэффициент дисконтирования р меньше 1, то уравнение v=Tv имеет единственное ограниченное решение. Доказа- тельство этого факта опирается на оценку \\Tf-Tg\]^\\f-g\\, (16) где II/|j — sup | / (ж) [. Чтобы вывести (16), заметим, что для любых двух ограни- ченных функций / и g на X /<?+ll/-g|| и, следовательно, 7,/</£ + Р1|/-£||- (17) Неравенство (16) вытекает из (17) и соотношения, получае- мого заменой в (17) функций / и g друг на друга. Если v иг? — два решения уравнения оптимальности, то со- гласно (16) + — II = 11 Гр—7p||<P||p-p||, откуда || v — v || = 0 и V — V. § 3. Стационарные оптимальные стратегии Займемся теперь вопросом о существовании стацио- нарных оптимальных стратегий. Напомним, что простая стратегия = ф1ф2. • +• • • называется стационарной, если <Р1=Ф2=> • • + (условимся писать сокращенно 167
ф^ф”). Покажем, что если фот — стационарная опти- мальная стратегия в суммируемой однородной модели, то ф удовлетворяет уравнению T,v = v.- (1) Действительно, для стратегии ф = ф“ стратегия уа сов- падает с ф при любом а из А, и потому фундаментальное уравнение (2. 2) принимает вид w(x, ?)== 7 (Ф (•*)) +?)• Поскольку w(p^’ ?) = 2 Р (у I Ф (•*))w (у, ?)> то w(x, <?) — T^wtx, ср) ' (2) (см. (2. 3)). Если ср оптимальна, то» (х, ср)=р(ас) при всех х, и (2) обращается в (1). Таким образом, все стационарные стратегии порож- даются решениями уравнения (1). Поэтому вопрос о су- ществовании таких стратегий можно расчленить на два вопроса: 1. Существуют ли решения уравнения (1)? 2. Всякое ли решение уравнения (1) порождает стацио- нарную оптимальную стратегию! Чтобы ответить на первый вопрос, удобно переписать уравнение (1) для селектора ф в виде и(ф(ж))= sup и (а) (ж^Х), (3) аеЛ(я) где u (а) = q (а) -ф- р 2 v (j<) Р (У Iа) (а 6 А) х (равносильность (1) и (3) вытекает из равенства T=VU и формул (2? 3) и (2.7)). Из (3) видно, что это уравнение [а значит, и уравнение (1)] имеет решение тогда и только тогда, когда функция и(а) достигает максимума на каж- дом слое Л (г). Достаточно, например, чтобы все слои А (х) были конечны. Ответ на второй вопрос может быть и отрицательным, как это видно из следующего простого примера. Пример 1. Рассмотрим однородную модель, опи- санную в примере 4.7.1 (рис. 6.1). Очевидно, здесь есть 168
только два различных селектора отображения х —► Л(х): один из них фх, предписывает оставаться в В, а второй, ф2 — переходить из В в С (в состоянии С есть лишь один способ поведения — оставаться в С). Оценка v модели равна 1 в состоянии В и равна 0 в состоянии С, и оба селектора фг и ф2 удовлетворяют уравнению (1). Однако при этом стратегия ф^° оптимальна, а стратегия ф" — нет. Рис. 6.1 Пример 1 побуждает нас видоизменить постановку второго вопроса и спросить: 2а. Существуют ли решения уравнения (1), порождаю- щие стационарные оптимальные стратегии? Оказывается, и на этот вопрос приходится дать отри- цательный ответ. Рис. 6.2 Пример 2. Пусть состояния х занумерованы чис- лами 0,1,2, . . . (см. рис. 6.2). Состояние 0 — поглощаю- щее. В каждом из состояний к (&=!, 2, . . .) возможны два управления: первое — переводит нас из к в А-|-1 и при- носит нулевой доход, второе — переводит нас из к в О и приносит доход к к Очевидно, р=1 во всех состояниях, кроме &=0, и единственным решением уравнения (1) является селектор ф, предписывающий переходить из к в Л+1 (А=1, 2, . . .). Однако соответствующая стацио- нарная стратегия ф“ никогда не приведет нас из состоя- ния 4^1 з состояние 0, и, значит, w (к, ф“)=0 при всех к 1. Отметим, что в обоих примерах мы имеем дело с мо- 169
целями, неограниченными сверху (так как можем обеспе- чить себе конечный положительный доход в сколь угодно далекий будущий момент времени). Если модель ограничена сверху, то всякое решение уравнения (1) порождает стационарную оптимальную стратегию (так что ответ на второй вопрос получает положительный ответ). Это сразу следует из формул (2. 8) и (2. 14), если положить в них cpz = ф, xz=0 при всех t. * * * Откажемся теперь от требования ограниченности свер- ху и предположим лишь, что модель суммируема сверху (т. е. v <Z +со на всем X). Покажем, что если модель Z конечна, то найдется решение уравнения (1), порождаю- щее оптимальную стратегию (и, стало быть, имеют поло- жительные ответы вопросы 1 и 2а). Идея доказательства состоит в следующем. Для каж- дого 7 )> О рассматривается однородная модель Z(y), получающаяся из Z заменой коэффициента дисконтиро- вания р на у. Из суммируемости сверху модели Z=Z(p) выводится ограниченность сверху моделей Z(y) при у < р. По доказанному, в модели Z(y) существует стационарная оптимальная стратегия ф(7) = ф (т)". Но ввиду конеч- ности пространств X и А (х) имеется лишь конечное число различных селекторов соответствия 4(а:) (я^Х), и по- тому найдется селектор ф такой, что ф (т„) = ф для не- которой последовательности 7Kfp. Очевидно, при 7 = 7^ w., (х, ф“) w.( (х, тс) при всех л (4) (индекс у означает, что оценки берутся в модели Z(7)). Мы докажем, что при любой стратегии л Щ (х, тс) — lim w (х, тс). (5) 1 Поэтому из (4) следует, что Wg (х, ф“) Wp (х, тс) при всех тс, (6) т. е. что стационарная стратегия ф" оптимальна для мо- дели Z(3)=Z. Остается доказать ограниченность сверху моделей Z(y) при 7 <С р и вывести формулу (5). Заметим, что согласно доказанному в конце § 4.4 суммируемость сверху модели 1'0
ZQ) равносильна тому, Ито вейиЧинй w+ (х, л) — 2 (at) /=i ограничена сверху при каждом х. Ввиду конечности пространства X эта величина не превосходит некоторой конечной постоянной К при всех х из X и всех стратегиях л. Отсюда ФР^ («/) < (y)Z 1 ^-1Рх?+ (af) < К 1 и ряд из чисел, стоящих справа, сходится. Чтобы доказать (5), вспомним, что = w+ — w~, (7) где СО ф = 2 т<-1р^+ («/) 1 <=i и w., аналогично выражается через q~ (см. §§ 1 и 4.2). В обоих рядах можно почленно перейти к пределу при yfP, так как все члены этих рядов неотрицательны и являются неубывающими функциями от у. Поскольку < + со, из (7) и из формулы w^=w^—wj следует (5). * * * Слегка варьируя рассуждения, проведенные в на* чале параграфа, цетрудно показать, что существование решения у уравнения (1) необходимо для наличия в однород- ной суммируемой сверху модели не только стационарной, но и какой угодно оптимальной стратегии. В самом деле, для оптимальной стратегии л в силу фундаментального уравнения (2. 2) и уравнений оптималь- ности (2. 6) v(x) = w(x, 7t)= 2 " (а | х) [д (а) + (ра, кв)]< < sup [q (а) + ?>v (ря)] = Tv (х) = и (х) при каждом х из X. Значит, 2 ’Ф N [? (а) + (pa)J = v (х) < + со. 171
Применяя к распределению вероятностей п( • | х)п функ* ции f(a)=q(a)+ $и(ра) на пространстве А(х) лемму 1.13.1, заключаем, что найдется такое управление ф(.т) из слоя Л (а:), при котором /[ф(ас)] + v(x). Последнее неравенство показывает, что для селектора ф д(ф(а)) + ^(рф(з;))>у(т) (х£Х), т. е. T6v v. Поскольку T^v Tv=v, то ф удовлетво- ряет уравнению (1). Комбинируя этот результат с ответом на вопрос 2, приходим к такому следствию: если в ограниченной сверху однородной модели Z имеется какая-нибудь оптимальная стратегия к, то в модели Z есть и стационарная опти- мальная стратегия. § 4. Задача о выборе транспорта Вернемся теперь к задаче о выборе транспорта из § 1.10, считая число шагов неограниченным. Мы имеем конечную однородную модель с неположительной платой q и коэффициентом р=1 (см. рис. 1.10). Такая модель огра- ничена сверху, ее оценка v удовлетворяет уравнениям оптимальности (2. 6) и уравнение (3. 1) определяет в ней селектор ф, порождающий оптимальную стратегию фот. Обозначая, как и в § 1.10, через а — управление «идти пешком», через р — «ехать на автобусе», через у — «ехать на трамвае», через 8' — «ждать» в состоянии 0, через В" — «ждать» в состоянии D и через е — фиктивное управление в состоянии В, можем записать уравнения v—Vu, u=Uv в виде v (0) = шах {и (tz), и(В')}, н(С) = и(р), v (£>) = шах {и (у), и (8")}, у(В) = и(е), и(а) = — 20+у (В), u(₽) = -3 + p(B), - (1) и(7) = —10 + ^(S), и (В') =------I------1-5- V (С) -]--с-^ V (D), ' ' с + а ' с -f- а ' 7 1 с а 4 п а (8") = — ---d—v (0 + v (D), ' > с + d 1 с Ц- d ' ' 1 с + d ' и (е) = v (В). 172
Очевидно, u(s) = u(B) = 0, так что из системы (1) сразу находим п(а) = —20, »(?) = — 3, и(т) = —10, (2) р(С)=—3, u(8') = u(8"). Поскольку к(З') и к(8") совпадают, мы можем их общее значение обозначить просто через к(8), понимая под 8 ожидание в любом из состояний 0 и D. После этого для у(0), p(D) и к(8) остаются уравнения г (0) = max {—20, и (8)}, t?(Z)) = max{—10, и(8)}, (3) —cd — 3d + си (D) с + d Полученная система содержит два символа максимума. Мы исследуем ее, делая различные предположения о том, на каких управлениях достигаются эти максимумы. Очевидно, имеются три разных возможности: 1) к( 8) —20, 2) —20 <1 к(8) Д' —10, 3) —10 к(8). Рассмот- рим каждую из них в отдельности. В первом случае имеем max (и (а), и (8)} = max {—20, и (8)} = —20 = и (а), max {«((), u(8))=max{—10, u(8)} =—10 = !/(-;), так что условиям (3.3) удовлетворяет селектор ф(0)=а, ф (С) = р, ф (В) = е, ф (£)) — у, и оптимальна стационарная стратегия, предписывающая идти пешком, не ожидая транс- порта, и ехать трамваем или автобусом, если его не при- ходится ждать \ Система (3) в этом случае обращается в !’(0).= — 20, v(D) = —10, 1 В нашей модели вероятность состояний С и D в начальный мо- мент равна нулю, но в реальных условиях это не так, поскольку трамвай и автобус находятся на остановке в течение некоторого промежутка времени. 173
и, значит, определяющее первый случай неравенство и( &) —20 сводится к неравенству о,-. • cd —|— 3d —|— 10с .... 20 <-------—j-----. (о) - с + d v > Во втором случае max (u (а), и(8)) = тах{—20, и(8))=и(8), тах(и(р), и(8))=гтах{—10, и(8)}=—10 = и (р). Значит, условия (3.3) выполняютс для селектора ф(0) = 6, ф(С)=(3, ф(2)) = р, ф(5)=е и оптимальна стационарная стратегия, рекомендующая ждать до подхода первого трамвая или автобуса и на нем ехать. Система в этом случае принимает вид v (0) = и (8), г (£>) = —10, —cd — 3d — 10с с -|- d и определяющие данный случай неравенства сводятся к 10 ct^ 4~ 3d -|- Юс 20 с + d ’ В третьем случае max{u(a), и (8)} ±= max (—20, и (В)} = п(8), max [и (у), и (8)) = max (—10, и (8)) = и (8) и уравнениям (3.3) удовлетворяет селектор ф(Р)=8, ф(С) = р, ф(5) = е. Здесь оптимальная парная стратегия предписывает при всех обстоятельствах ждать автобуса. Система записывается теперь v (0) = и (8), v (D) — и (8), —cd — 3d — 10с с + d ’ откуда и (В) = —с — 3 (6) ф(О)=В, стацио- 174
и задающее третий случай неравенство обращается в с-]-3<10 или, что равносильно, cd + 3d + Юс <-• ю (7) Сопоставляя (5), (6) и (7), видим, что три возможных случая определяются значениями числа cd + 3d + 10с X = --!----- . с -|- d При х < 10 нужно ждать автобуса, при 10 х 20 — ехать на первом подошедшем транспорте, при 20 х — идти пешком. Эти условия имеют простой наглядный смысл. Согласно рис. 1.10, математическое ожидание времени, затраченного на дорогу, если ехать на первом подошедшем трамвае или троллейбусе, равно ^+^-3+4-г10=х- Если это время больше времени пешего пути, то нужно идти пешком, если нет — то ехать. Ждать автобуса сле- дует в том случае, когда это время меньше времени поездки на трамвае. § 5. Задача о замене оборудования Обратимся к задаче о замене оборудования (см. §§ 1.3 и 1.11). Переходя к бесконечному промежутку управления [0, оо), мы введем дисконтирование, чтобы обеспечить конечность суммарного дохода. Таким образом, мы рас- смотрим однородную счетную модель с состояниями О, 1, 2, . . . , х, . . . , двумя управлениями с и d в каждом состоянии, переходной функцией р (х + 11 хс) = рх, p(P\xc) = i—px = qx, p(O\xd) = i (x = Q, 1, 2, ...), (1) текущей платой q (хс) = p..hx, q(xd) = a. (x = 0, 1, 2, . . .) (2) и коэффициентом дисконтирования |3 <Z 1; здесь Ар . ., . hx а )> 0, (3) 175
^>Рь>Р1> -->РХ> • > о. (4) (В соответствии с замечанием из § 1.11 мы считаем пара- метр у равным 0; при р < 1 это не уменьшает общности, так как изменение всех плат на константу не нарушает сходимости суммарного дохода. В главе 1, чтобы не выходить за рамки конечных моделей, мы считали, что вероятность поломки qx равна 1 при достаточно больших х. Теперь в этом ограничении нет необходимости.) Модель ограничена сверху и все слои А (х) конечны. Поэтому оценка модели удовлетворяет уравнению опти- мальности v=Tv, существует селектор ф с T^v=v, и ста- ционарная стратегия <р = фсо оптимальна. Поскольку плата ограничена и р <3 1, то v — единственное ограниченное решение уравнения v=Tv. Поскольку пространство управлений состоит из двух элементов с и d, то функция ф определяется заданием множества С, на котором она принимает значение с (это те состояния, где эксплуатация оборудования продолжа- ется; на дополнительном множестве D=X\C произво- дится замена оборудования). Оператор Тс действует по формуле ( РЛ + ₽[РЯ/(Ж+ !) + 7(^)/(0)J при х£С, —| а-}-р/(О) при x£D. (5) Оператор Т определен формулой Tf (х) = max {pxhx + (ж + 1) + (0)J, а + р/ (0)). (6) Введем оценки управлений с и d в произвольном состоя- нии х: и(хс) = + + (7) и (xd) = а ру (0). Так как T^v=v — Tv, то из (5)—(7) следует, что С = (х : и (хс) и (xd)}, D = {х : и (хс) и (xd)} (8) (как и в § 1.11, мы относим состояние х к множеству С, если безразлично, каким управлением в нем пользоваться). Решать систему v=Tv «в лоб» затруднительно. Восполь- зуемся сперва тем, что u=lim Т"0 (см. § 4.6). Функция р"=7"0 — это оценка нашей модели на интервале управ- 17Q
ления [0, п\ при нулевой финальной плате. К конечному интервалу [0, п\ и плате г=0 применимо проведенное в § 1.11 рассуждение, устанавливающее, что и"(х) — не- возрастающая функция х (в соответствующих формулах нужно лишь заменить vt на конечность пространства X в доказательстве не использовалась). Поскольку vn -> v, то и v(x) — невозрастающая функция х. Зная, что оценка v монотонна, так же, как в § 1.11, устанавливаем, что если некоторое состояние х принадлежит множеству С, то и(х—1, с) и(х, с) и(х, d) = u(x—1, d) и, следовательно, (х—1) £ С. Значит, аналогично случаю конечного интер- вала управления множества С и D имеют вид С={0, 1, 1), D — (k, & + 1, } (9) (одно из множеств С, D может оказаться пустым и тогда к=0 или оо). Поэтому построение стационарной оптималь- ной стратегии сводится к нахождению числа к. Таким образом, чтобы найти оптимальную стратегию, остается выбрать наилучший среди селекторов фт, опре- деленных формулой f с при х т j С10) [ d при х^т v (ш=0, 1, 2, , оо). Фиксируем какое-либо т <( оо. Оценка iv=ivm стратегии = удовлетворяет фундамен- тальному уравнению w=T^mw. Согласно формулам (5), в развернутом виде это уравнение представляет систему - w (0) = poho ppou; (1) р (1 — р0) w (0), и; (1) = рД 4- ^p±w (2) 4- р (1 — р±) w (0), Ш (7П - 1) = + PPm-l™ И 4- ₽ 0 - Pm-J W (°)- w (m) = a 4- fiw (0), (11) w (m 4- 1) = a 4- (0), (аргумент tp у стратегии w(x, <p) опускаем). Полагая для сокращения записи Lx = ^P0Pi Р* (* = 0,1,2,...), (12) умножая уравнение для w (1) на |3L0, уравнение для w (2) 12 в. Б. Дынкин, А. А. Юшкевич 177
на pLx, ...» уравнение для w (х— 1) на и склады- вая их, получаем ( > ± тм) 1(1 - р) + р (1 - 9) (Lo + . + Lx_2) + ^ж_х] X ... /„л . X wm (0) — (Loho -|- L1h1 —j;-. Wm . (13) {x ~ 1, 2, ..., m) Приравнивая выражения для w{m'] из (11) и (13), находим , /п\ __ ^0 ^1Л1 ~1" • • ~Ь X (л д\ (1-Р) И+ Из (И) и (13) видно, что если ™к (0) = sup wm (0), " (15) то одновременно и wk (х) = sup wm (х) при всех х т и соответствующая стационарная стратегия = рав- номерно оптимальна. Итак, число к находится из (14) и (15) (в силу нашего соглашения пользоваться управлением с при u(xc)==u(xd) берется наибольшая из точек максимума). Рассуждением от противного легко проверяется, что если супремум в (15) не достигается, то к= со и множество D пусто (нужно продолжать эксплуа- тацию сколь угодно старого оборудования). * * * Покажем, что если w0 (0)< шх (0)< .. . < wm (0) (16) И ^w(0)>^w+i(0), (17) то стратегия <р = ф” оптимальна (так что при конечном к для нахождения оптимальной стратегии не придется сравнивать между собой бесконечно много чисел). В силу единственности решения уравнений оптималь- ности достаточно проверить, что wm= Twm. Поскольку wm=Ttymw,„, это уравнение можно переписать в виде 178
= Twm. Последнее соотношение, согласно формулам (5) и (6), эквивалентно системе неравенств РХ + ^PrWm (^ + 1) + Р^Л (0) > а + Р^т (0) (o? = 0, 1, ..., т-1), (18) Pxh* + $Pxw™ (х + '!) + №xwm (0)< <х + Bwm (0) (л: = т, т-|-1, ...). (19) Если подставить в (18) значение ш,„(х-}-1) из формулы (13), то после простых преобразований, использующих фор- мулу (14), неравенство (18) сведется к условию wm(0) i«a.(O), содержащемуся в (16). Неравенство (19) с учетом формул (И) приводится к виду рЛ* + Р^™ (°) < [« + Р^м (°)10 - Рр Это последнее соотношение легко получается из (17) и (14) и равенства Lr= $pxLx-x' § 6. Стационарные s-оптимальные стратегии Когда уравнение (3.1) (или (3. 3)) не имеет решений, оптимальные стратегии не существуют. Естественно искать в этом случае стационарные е-оптимальные стратегии (при е )> 0). Пусть 4> = фс0 является е-оптимальной стратегией. В силу фундаментального уравнения р(ж)—е< w(a:, <р) = 9 (Ф (•*)) + Р 2 ?) Р (р/Ф (ж)) = уех = ?)<ТфР(а:). . Таким образом, все стационарные е-оптимальные стра- тегии фот порождаются селекторами ф, удовлетворяющими неравенству Тфр>г-8. (1) Неравенство (1) равносильно неравенству и (ф (а:)) sup и (а) — е (2) (ср. формулы (3.1) и (3.3)). Если модель суммируема сверху, так что v (т) = sup и (я) <( СО , оеА(ж) то неравенство (2) (в отличие от уравнения (3. 3)) имеет решение при любом е )> 0. Поэтому из двух вопросов, 12* 179
йсСледойанных в § 3, остается только второй. Естественно поставить его в следующей форме: Для всякого ли е )> 0 найдется х О такое, что из неравенства Т^и^и—* (3) вытекает ^-оптимальность стационарной стратегии ф”? Пример 3.1 показывает, что для неограниченных сверху моделей ответ на поставленный вопрос может быть отри- цательным. В самом деле, селектор ф1; предписывающий оставаться в состоянии В, удовлетворяет этим неравен- ствам при всех х > О, а w(B, ф“) = р(В)—1, так что стационарная стратегия ф“ не является е-опТи- мальной ни при одном е < 1. Названный пример можно исключить, предположив, что модель ограничена сверху. В этом случае мы можем воспользоваться формулами (2.8) и (2.14), полагая в них ф, = ф и xz~х. При р 1 ряд (2.14) сходится к х(1—Р), и мы приходим к следующему результату: если модель огра- ничена сверху и р <Z 1, то всякий селектор ф, удовлетворяю- щий (1) при х=е(1—Р), порождает е-оптималъную стра- тегию. Таким образом, в этом случае ответ на поставлен- ный вопрос положителен. Ответ остается положительным и при рф>1, если модель равномерно ограничена сверху и снизу. В самом деле, согласно заключительному результату § 2, страте- гия ф“ будет е-оптимальной при п со е=х2Г+ S (bt-\-ct). t=l Выбирая сначала достаточно большое п, а потом доста- точно малое х, можно сделать е сколь угодно малым. * * * Предыдущие рассмотрения оставляют открытым вопрос о существовании стационарных е-оптимальных стратегий в моделях, ограниченных только сверху (при Р 1) или только снизу. Нижеследующие два примера показывают, что в обоих случаях стационарных е-опти- мальных стратегий может не существовать. 180
Пример 4 (модель, ограниченная снизу). Пред- ставьте себе игорный дом со следующими правилами. Игра идет до первого проигрыша игрока или до момента, когда он захочет уйти, причем в последнем случае с него взимается сбор в размере 1 рубля. Ставка в первой партии произвольная, в каждой последующей она удваивается. 1 Вероятность выигрыша в каждой партии равна у. Построим отвечающую этой игре модель (см. рис. 6.3). Состояние 0 «вне игры» является поглощающим. В со- стоянии Вт — «с капиталом т» — игрок решает, делать ли ему ставку т или уйти (соответствующие управления изображены на рисунке стрелками). В первом случае он переходит (с нулевой платой) в состояние Ст, во вто- ром — с платой т—1 — в состояние 0. В состоянии Ст игрок не управляет: идет игра, которая с равными вероят- ностями (и нулевой платой) переводит его в состояния 0 и В2т. Рассмотрим стратегию — «играть к раз подряд (если не проиграем раньше)». Начиная в состоянии Вт, мы получим т2к —1, если все к партий выиграем, в про- тивном же случае не получим ничего. Поэтому ™ (Вт, rcft) = ~ (т2к - 1) = т - ~ Л и ввиду произвольности к v(B^m. Стратегии л4. не стационарны. Пусть теперь (р — про- извольная стационарная стратегия. Либо найдется со- 181
ётояние Ёт, в котором tp предписывает уйти, и тогда ср) = zn. — 1, либо ср предписывает играть во всех состояниях Вт, и тогда w{Bm, ?) = 0. В обоих случаях стратегия ср не является равномерно е-оптимальной при е 1. Пример 2 (модель, ограниченная сверху, [3=1). Мы изложим его сначала в шуточной форме. Преступник, скрывающийся от правосудия, каждый день выбирает для ночлега одну из счетного числа квартир. Вероят- ность, что его задержат на иг-й квартире, равна Как ему действовать, чтобы минимизировать вероятность ареста? Введем три состояния: А — «свобода», В — «арест» и С — «тюрьма» (рис. 6.4). В состоянии А имеется счетное число управлений (выбрать квартиру 1,2,3, . . .). При управлении т происходит переход в В с вероятностью 1 1 2^-и в Невероятностью 1—. Соответствующие платы равны нулю. Из состояния В возможен переход только в состояние С, причем плата равна —1. Оценка w(A, к) стратегии л равна взятой с минусом вероятности ареста, так что задача состоит в максимизации w (А, к). Рассмотрим стратегию проводить t-ю ночь в кв ар* тире Ясно, что »(Л, .„)=- 1 + П(1 - и эта величина стремится к 0 при тп -> оо. Поэтому 182
р(Л)=О. В то же время любая стационарная стратегия » предписывает ночевать все время в одной и той же квар- тире т, и, очевидно, w (А, '₽)=—1. § 7. Распространение результатов на борелевские модели Откажемся теперь от предположения, что простран- ства состояний X и управлений А конечны или счетны; как и в главах 3 и 5, будем считать их произвольными борелевскими пространствами. Пользуясь тою же разверткой однородной модели, что и в § 2, но опираясь на § 5.2, а не главу 4, можем распро- странить результаты § 2 на общий случай. Фундамен- тальное уравнение принимает вид w(x, тг) = j к (da | х) [g (а) рщ (ра, кй)] (1) А(Ж) (модель Z предполагается ^-суммируемой). Операторы Гф (ф — измеримый селектор соответствия А(х) из X в Л), Т, U, V действуют по формулам ^ф/ (*) = Я (Ф (*)) + ₽ 5 / (у) Р (dy I а), (2) (3) Tf (х)= sup аб А(л) X ?(«) + ₽ j / (у) Р (dy | а) X Uf (а) = q (а) + [3 j f (у) р (dy | а), (4) X Fg(o:)= sup g(x) (5) и по-прежнему Т= VU, TJ (x) = Uf (ф (xf), Tf (х) — sup ТА(х)2. Ф * 2 Последняя формула утверждает, что sup и (а) = sup и (ф (х)), (1) абЛ(х) ф где u=Uf. Поскольку ф (ж) f А (ж), то левая часть (1) не меньше правой. Чтобы доказать обратное неравенство, нужно проверить, что и (a) s' sup и (ф (z)) (а£4 (ж)). (2) Так как модель нетривиальна, то существует некоторый изме- |83
Формулы (2. 4) и (2. 5) и уравнения оптимальности (2. 6) остаются без изменения. Формулировки § 2, касающиеся е-оптимальных стратегий, ограниченных сверху и снизу моделей и единственности решения уравнений оптималь- ности, также сохраняют силу. * * * С очевидной заменой сумм интегралами переносится на общие модели вывод уравнения Т^ = и, (6) как необходимого условия того, что стационарная стра- тегия ф“ является оптимальной (§ 3). Но в общем случае не приходится ожидать, чтобы уравнение (6) имело реше- ние, и поэтому естественно искать не оптимальные, а е-оптимальные стационарные стратегии. Впрочем, результаты § 3 об ограниченных сверху мо- делях, утверждающие, что всякое (измеримое) решение уравнения (6) порождает стационарную оптимальную стратегию, и что из существования какой-нибудь опти- мальной стратегии следует наличие стационарной опти- мальной стратегии, сохраняют силу. Доказательство пер- вого из них не меняется, доказательство второго — опи- рается на теорему 3.2.А вместо леммы 1.13.1. * * * Исключение составляют полунепрерывные модели (в ко- торых, как и в § 5.6, мы считаем пространства X и А борелевскими). Применяя результаты § 5.6 к развертке такой модели, заключаем, что в равномерно ограниченной сверху и снизу однородной полунепрерывной модели су- ществует измеримый селектор ф отображения х -> А (х), удовлетворяющий (6) и, стало быть, порождающий ста- ционарную оптимальную стратегию. В частности, доста- точно, чтобы плата q была ограничена и коэффициент [3 был меньше единицы. римый селектор фх отображения у -> А (у)(у (j X). Поскольку в борелевском пространстве одноточечные множества измеримы, селектор , , . ( Ф1 (У) при у фх, Ф (У) = I а при у ~ х тоже измерим. Для него и (а)=и (<р (я)), и неравенство (2) дока- зано. 181
Ut * * Все выводы § 6 о стационарных s-оптимальных стра- тегиях также сохраняют силу с одной оговоркой: по- скольку приходится рассматривать лишь измеримые се- лекторы ф, то перестает быть тривиальным ответ на вопрос о существовании ф, удовлетворяющего неравенству T^v^v— е (е>0). (7) Более того, вообще говоря, ответ на этот вопрос оказы- вается отрицательным. Рис. 6.5 Пример!. Пусть А — единичный квадрат, X — его основание, j — ортогональное проектирование А на X, мера р (• \а) при^ любом а сосредоточена в точке х=1 (см. рис. 6.5). Плата q равна 1 на Q и равна Она A\Q, где Q — борелевское подмножество квадрата А такое, что Q проектируется на все X и ни один измеримый селектор ф отображения х -> А (х) не удовлетворяет условию <4 ф (х) £ Q при всех х из Х^> (ср. пример 3.1.1). Пусть коэффициент дисконтирования р = —. Очевидно, при любом начальном состоянии х мы можем на первом шаге получить доход 1, 1 1 а затем, попав в состояние х = 1, собрать доход -у -|- * * м-л + . . . = 1 (а больше получить не можем). Значит, здесь v (х}=2 (х^Х). В то же время для любого селектора ф Ту (х) = q (ф (х)) 4- ру (1) = g (ф (х)) 4- 1 и если селектор ф измерим, то хотя бы при одном у из X 185
имеем (|) (у) Q Q и, стало быть, q (ф (г/))=0. Но тогда T^v (г/) = =v (у)—1 и, значит, при s <С 1 неравенство T^v^v— е не выполняется ни для одного измеримого селектора ф. Поскольку неравенство (7) является необходимым условием е-оптимальности стратегии ф”, из приведен- ного примера следует, что, вообще говоря, е-оптималь- ные стационарные стратегии могут не существовать. По аналогии с неоднородным случаем естественно воз- никает вопрос о существовании стационарных е-опти- мальных (п. н. (л) стратегий, т. е. стратегий ф“ таких, что w (х, ф”) О v (х) •— е (п. н. р.) (ср. § 3.1). Этому вопросу посвящается следующий пара- граф. § 8. Стационарные (и. н.) е-оптимальные стратегии В отличие от дискретного случая, где мы сразу стро- или желательную стационарную стратегию, здесь при- дется прибегнуть к окольному пути: сперва строить нестационарную простую е-оптимальную (п. н. ji) стра- тегию tp, а затем по <р строить такого же качества стацио- нарную стратегию ф”. Первый шаг был проделан в главе 5. Там было дока- зано существование е-оптимальных (п. н. fi) простых стратегий при любом е )> 0 в предположении, что мо- дель ji-суммируема сверху и ограничена сверху. В этом параграфе мы покажем, что если в однородной модели Z плата q является ограниченной функцией и коэффициент дисконтирования |3 меньше 1, то для любой простой стратегии и любого числа е )> О найдется стационарная стратегия ф" такая, что ш(х, фсо)^ш(х, ср) — s при всех х из X. (1) Поскольку из сделанных предположений вытекает огра- ниченность сверху модели и ее fi-суммируемость сверху при любом fi, то в итоге мы установим, что при тех же условиях для любого е )> 0 и любого начального распреде- ления [л существует стационарная г-оптималъная (п. н. ft) стратегия. 186
* ♦ * Итак, пусть в однородной общей модели И sup|g(a)| <+оо, ₽<1 а£А и пусть <р=ф1ф2- • • • и Iх—произвольные простая стратегия и начальное распределение. Сопоставим стра- тегии <р оператор S, определенный формулой Sf (х) = sup Т(х) (х е X). (2) Существование измеримого селектора ф, удовлетворяю- щего (1), очевидным образом вытекает из следующих трех предложений: 1°. Уравнение Sh = h имеет единственное ограниченное измеримое решение h. 2°. Для любого х )> О существует измеримый селек- тор ф отображения х -> А (х) такой, что T^h-x. (3) 3°. Если измеримый селектор ф удовлетворяет не- равенству (3), то (1) справедливо при 5=-^ в. Положим для сокращения (£=1,2,...). Доказательство 1° основано на оценке H/-5gKp||/-g||, (4) которая выводится также, как в конце § 2,— аналогичная оценке (2.16) для оператора Т. Из (4) следует, что Snf равномерно сходится к решению h уравнения Sh=h, и что это решение единственно в классе ограниченных измеримых функций (теорема о неподвиж- ной точке сжимающего оператора 3). Докажем 2°. Поскольку h — Sh = sup Tth, то для всякого х * Tth (х) h (х) — х (5) 3 См., например, А. Н. Колмогоров и С. В. Фомин (1]. 187
при некотором t. Обозначим через t(x) наименьший из этих номеров и положим Ф (*)=Фк») И; <6) тогда фМ3") ~ *• Чтобы убедиться в измеримости ф, обозначим через Y t множе- ство всех х, удовлетворяющих неравенству (5). Множества Y{ измеримы, и для любого Г(;сй?(.4) {х:ф(х)€Г}= U [{а:фН*)€Г}Л(Х\У1)Л(Х\Г2) Л ... /=1 . • .Л(х-\^-1)Л^]€^(Х-)- Остается доказать 3°. По формуле (2. 4), примененной к г = h, Т\Т, ... TJi (х) = 2 р'ГО (а,) + ГО «). t=i Поскольку функция h ограничена и [3<И, последний член стремится к 0 при тг-*со; сумма по определению, стре- мится к w(z, <р) и, значит, T\T2.. . T„h(x)^w(x, <р). ' (7) Но ТГТ2 .. . Tnh^Snh = h и, значит, w(x, y)^.h(x). (8) С другой стороны, поскольку Гф (/+ с) = Гф/+ рс для любой постоянной с (см. определение оператора фор- мулой (2. 3)), то из неравенства (3) вытекает > Гф-1 (h - z) = T^h - г1* > т"-* (h - /.) - r\= = Tn~2h — (p”-a + p”"1) x > ... . . .>/г_х(1+р+р2+ ...+Г1)- Значит, при любом п о 188
Но в применении к стратегии ф" формула (7) дает T^(x)^w(x, ф“) и потому W? (х, ф») > h (х) — . Сравнивая (8) и (9), получаем 3°. (9) § 9. Распределение ресурса между производством и потреблением Продолжим изучение примеров, рассмотренных для конечного интервала управления в §§ 2.7, 2.9—2.11. Чтобы применить результаты настоящей главы к за- даче из § 2.7, будем считать, что qt = где коэффициент дисконтирования |3 заключен между 0 и 1. Оценка стра- тегии к при начальном состоянии х дается формулой и? (ж, к) = S (^_i — а/)- (1) /=1 ' Здесь — ресурсы в начале периода t и at — средства, направляемые в этот период в производство. Переход от xtV к xt задается рекуррентным уравнением s,), (2) где st — независимые случайные величины с одинаковыми распределениями. Если функция q ограничена сверху, то наша модель суммируема сверху, и согласно § 2 оценка v удовлетво- ряет уравнению оптимальности v—Tv или v (х) = sup [g (ж — а) -|- рМу (F (a, sz))] (0<Сх<ссо). (3) При сделанном предположении модель также и ограни- чена сверху. Если супремум в (3) достигается в точках а=ф(х) (и функция ф измерима), то T^v=v и согласно § 3 стационарная стратегия <р=фга является оптимальной стратегией. Если функция q ограничена снизу, то модель ограничена снизу и v = lim РЮ (§ 4. 6). «->со Функцию q обычно предполагают вогнутой. Отсюда не следует ее ограниченность сверху, но вытекает, что 189
она мажорируется некоторой линейной функцией: д(с)<ЙГс + Л (4) (К, L — положительные постоянные). В этом случае для суммируемости и ограниченности сверху модели доста- точно, чтобы при некотором положительном числе у, удовлетворяющем условию 37<1. (5) для всех а выполнялось неравенство MF(a, уа/V (0^а<(со) (6) (N — произвольная положительная постоянная). В самом деле, поскольку О < то из (2) и (6) следует, что условное математическое ожидание xt при известной истории х^^ . . . а^гх(_г не превосходит у (^_j +7V). Отсюда по индукции легко получить, что при любой стратегии те 9хх1 < ч‘х + N И + 7 + 72 + • • • + 7*-1) < 7* (х + Nt) (7) * (не ограничивая общности, можно считать у > 1). Из (4), (7) и не- равенств 0 < xt—ai+1 < xt вытекает, что (xt - a,+i) (Kxt + £)] < <K(^)t(x+ Nt) + Ltf, (8) и, следовательно, ряд (1) мажорируется сходящимся положитель- ным рядом, не зависящим от стратегии те (но, вообще говоря, за- висящим от начального состояния г). . * * * Продолжим рассмотрение частного случая, в котором q (с) = С* (0 < а < 1) (см. § 2.7). При этом модель равномерно ограничена снизу. Условие (4) для функции q выполнено, а условия (5)—(6) для функции F принимают вид (9) Имеем Tf(x) = sup [(я — а)“ 4~j3M/(asJJ. (10) В § 2.7 мы исследовали этот оператор при |3 = 1 и уста- 190
повили, что Он оставляет инвариантным множество функ- ций вида f(x) = bxa (И) Этот результат сохраняется и в общем случае, только формулы (2. 7. 7) заменяются на 1 + (36X)1-“ z(b)=[i+(₽xAJ \ где по-прежнему X = Ms“. Чтобы функция (11) удовлетворяла уравнению оптималь- ности и = Ти, необходимо и достаточно, чтобы Ь — Последнее уравнение имеет единственный корень -----Чтп- <13) Li - (A1" J Заметим, что Е-(£>*) = ((ВХрЬ Следовательно, уравнение v—Tv имеет решение v(x) = b*tf (14) и при такой функции и селектор 1 ф (х) = (₽Х)1-» X . (15) удовлетворяет уравнению T^v=v. Полученные формулы имеют смысл (и дают решение соответствующих уравне- ний) при рХ < 1, или, согласно (12), при условии (16) более широком, чем условие (9) 4. 4 В силу известного неравенства между моментами (M^)“>M(s?) (i) при 0 < а < 1 (см., например, Б. В. Гнеденко [1], § 28). Это ча- стный случай неравенства Йенсена: М/ (sz) < / (Ms/) для вогну- 191
Поскольку мы не знаем, единственно ли решение уравнения v=Tv, то пока можем лишь предполагать, что функция (14) является оценкой модели и, следовательно, стратегия <р=фга — оптимальной стратегией. Мы до- кажем это, перейдя к пределу в формулах, полученных в § 2.7 для конечного интервала управления. В силу ограниченности модели снизу и = ГО. Согласно формулам (2. 7. 8) и (2.7.12)—(2. 7.14) (дисконтирование приводит к замене в этих формулах X на рХ). Переходя к пределу, получаем, что неравенство рХ < 1 (или условие (16)) необходимо и достаточно для конечности оценки v (т. е. суммируемости модели сверху), и что при выполнении этого условия оценка v действи- тельно дается формулой (14). Если выполнено условие (9), то оптимальность стра- тегии <р=фет следует из общего результата, сформули- рованного в начале параграфа. При более общем усло- вии (16) приходится непосредственно подсчитать ГфО(я:) = =wn(x, tp) и убедиться, что предел этой величины совпа- дает с функцией (14). Оператор действует по формуле Т(*) = [х — ф (ж)]а + рМ/ (ф (х) st) = — (1 — С)’ Х* 4- рм/ (СХ5(), где с = (₽Х)~«, (17) и последовательное вычисление показывает, что rO(z) = (l-C)'S(pXC7;r'. у /=о В пределе правая часть, с учетом (17) и условия рХ < 1, совпадает с правой частью формулы (14). тых функций /; здесь / (s)=s“ (Г. Харди, Д. Е. Литтлъвуд, Г. По- лиа [1], теорема 86). Из (9) и (i) следует, что (1 \» 1 192
§ 10. Распределение ставок в игре В задаче о распределении ставок (см. § 2.9) доход состоит только из финальной платы, и для бесконечного промежутка управления эта задача, вообще говоря, теряет смысл. Однако в частном случае, когда требуется, имея начальное состояние х, с возможно большей вероятностью достичь состояния, большего или равного 1, задача со- храняется и для неограниченного интервала времени. Мы рассмотрим тот же вариант этой задачи, что и в § 2.9: игрок с вероятностью q теряет ставку и с вероятностью р < q получает удвоенную ставку (p-\-q=i). Формализация этой задачи, использованная в § 2.9, не годится для бесконечного интервала управления, так как мы не можем пользоваться понятием финальной пла^ы. Мы построим другую модель, введя дополнительное со- стояние А и считая, что из состояний ж 1 и Д происхо- дит обязательный переход в А. Плата равна 1 при переходе из ж в А и равна 0 при всех остальных переходах (вклю- чая переход А -> А). Каждый путь содержит не более одного перехода х -> А и соответствующий этому пути суммарный доход I равен 1 тогда и только тогда, когда такой переход имеется (в остальных случаях доход равен 0). Первоначально нас интересовало событие C={xt^i при некотором t}. Очевидно, оно совпадает с событием (/=!}. Поэтому вероятность события С равна вероятности со- бытия {7=1}, которая, в свою очередь, равна математи- ческому ожиданию величины I. Поэтому наша задача сведена к стандартной задаче максимизации ожидаемого суммарного дохода. Пусть 1п — доход за время [0, п]. Очевидно, событие Ся= {7Я=1} совпадает с ^событием {xt 1} при некотором {£ п—1}. Поэтому оценка и” нашей модели натпроме- жутке [0, п] равна функции /к_х, вычисленной Jb’’ § 2.9 (см. замечание в.конце этого параграфа). Очевидно, наша модель неотрицательна и суммируема. Поэтому, согласно общему результату 5.2.м, оценка и модели на бесконеч- ном интервале управления равна р = 1ш11Л=Пт f„ = fm. w->co п->со В § 2.9 была описана дерзкая стратегия ср, состоящая в том, чтобы делать максимальную возможную ставку х 13 Е. В. Дынкин, А. А. Юшкевич 193
при х у , ставку 1 — х при х 1 и нулевую ставку при х 1. Ей соответствует стационарная стратегия ф в новой модели, предписывающая то же поведение при х < 1 (при х 1 и в состоянии А у нас теперь нет выбора). Оценка стратегии ф на отрезке [0, п+1] совпадает с оцен- кой /в стратегии ф на отрезке [0, п]. Поэтому оценка ф на бесконечном интервале управления равна lim /Я=Р и, следовательно, ф — оптимальная стратегия. * * * Отметим, что наша модель не ограничена сверху. В самом деле, при любом х из интервала (0,1) найдется стра- тегия г. такая, что vi (х, л) > 0, и, значит, PJ ? (а,) > 0 для неко- торого t. Пусть лп — стратегия, состоящая в том, что на первых п шагах делаются нулевые ставки, а затем применяется стратегия л. Ясно, что (“nit) = П<7 («/) > о. Между тем, если бы модель была ограничена сверху, то левая часть не превосходила бы cn+t (ж), где (ж)< оо. i Поэтому из общих результатов этой главы нельзя заклю- чить, что селектор ф порождает стационарную оптималь- ную стратегию, если v=v. (Легко видеть, что и на са- мом деле селектор ф, предписывающий при любом х < 1 делать нулевые ставки, удовлетворяет уравнению v=v, но приводит при а; <1 к нулевому доходу.) Далее, уравнению v=Tv удовлетворяет функция, равная 0 в точках 0 и А и равная 1 в остальных точках, которая не является оценкой модели (хотя и удовлетворяет условию равенства 0 в поглощающих состояниях). По- этому уравнение v=Tv не позволяет вычислить v (его ре- шение неединственно). § И. Распределение ресурса между потреблением и различными отраслями производства В этой задаче, с учетом дисконтирования, оператор Т действует по формуле Г/(.г)= sup {g(x —i) + ₽ supM/[ZT0/ + «(l—t)tJ) (1) (см. формулу (2. 10. 3)). В однородном случае распределе- ние пары с,, т, не зависит от t. Для суммируемости и ограниченности сверху доста- точно, чтобы функция q была ограничена сверху, а коэф- фициент р был меньше 1. Вместо ограниченности ^„сверху можно предположить, что q мажорируется линеинои функ- цией и выполняются условия Мг,<1. <2> В самом деле, модифицируя рассуждение, напечатанное пе- титом в § 9, легко получить из условий (2), что при любых i, х и любой стратегии тс где § _ максимальное из чисел Мо,, Мт,. Так как бр < 1, то от сюда, как в § 9, выводится ограниченность и суммируемость сверху модели. * * * Рассмотрим подробнее частный случаи (с) — с’ (О <++ 1) (см §2.10). При коэффициенте дисконтирования [3 опера- тор Т по-прежнему оставляет инвариантным множество функций вида fix) = bx* (Ь>0), только теперь коэффициенты I (Ь) и х(Ь) в Формулах /о 10 61—(2. 9. 10) определяются соотношениями (У. iz;, а не (2 10 7) Используя найденное в § 9 решение урав- нения Ь=Х lb), получаем, что уравнение оптимальности v=Tv имеет то же решение (9. 13)-(9. 14), что и в § 9, но Х= sup М[уо, + (1 — Т)ТИ • Это решение по-прежнему имеет смысл при рх<1. (4) Супремум (3) был исследован в § 2.9. Если он достигается при значении т=т*, то селектор Ф(Ж) = (1(т), т(т)) = {(Я^, Я (5) удовлетворяет уравнению и=7> (при найденной .функ- ции у)' 13* 195 Х(Ь) в формулах 194
Поскольку мы не знаем, единственно ли решение урав- нения v=Tv, и не знаем пока, суммируема ли (и ограни- чена ли) сверху модель при условии (4), то оптимальность найденной стационарной стратегии (5) еще требует обо- снования. Это делается дословно, как в § 9. При этом вы- ясняется, что условие (4) необходимо и достаточно для суммируемости модели сверху. § 12. Задача о стабилизации Наконец, рассмотрим на бесконечном интервале вре- мени задачу о стабилизации (см. §§ 1.2 и 2.11). По смыслу задачи оценка на промежутке управления [0, п] стре- мится к —со при п —>со, и поэтому мы введем коэффициент дисконтирования [3 < 1 (в § 7.12 будет исследована дру- гая, быть может, более естественная постановка задачи). Оператор Т здесь действует по формуле Tf(x) = sup [—b (х—а)2 — са? -ф- [ЗМ/(х — a -f-sz)]. —CO<<2<-J-CO (1) Текущая плата отрицательна, поэтому модель суммируема и ограничена сверху и оценка и удовлетворяет уравнению v=Tv. Выкладки §J2.11, с учетом коэффициента [3, по- казывают, что при неотрицательном I Т (—/я2 — т) — —1'х2 — т', (2) где ___ ^cZ Ъс ~ ]3Z + 6 + с ’ т! --- poaZ $т, (3) причем максимум в (1) достигается при • а = $(х) = рг + ь PZ + ь + с X. Приравнивая I к I' и т к т' (и оставляя только положи- тельный корень /), находим : , __ V62 + с2 (1 — р)2 + 2Ъс (3 — р) — Ъ - (1 — р) с 1 ~ 23 При этих значениях функция v (х) — —1о? — т 19Г (7)
инвариантна относительно оператора Т. Остальная часть параграфа посвящена проверке того, что v представляет собой оценку модели и стационарная стратегия !р = ф“ «оптимальна. (.Согласно § 4.6 оценка модели не превосходит функции = lim Тп0 51—>СО ^большего мы утверждать не можем, так как наша модель неограничена снизу). С другой стороны, эта оценка не меньше, чем w (х, <р) = lim Тп.О (х). я->со Поэтому достаточно проверить, что = —lx* — m = w (х, <р). (’8) Из формул (2) и (3), очевидным образом видоизменяя выкладки § 2.11, получаем РО (х) = —lnx* — тп, где 4 =, mn = оа + ₽2Z„_2 + . .. + ₽”Z0), (9) i — v 4 i a I <^l—корни квадратного уравнения |3Z2 + (&4-c — pc) I — be = 0, (10) ^совпадающего с уравнением, из которого получено число I "в формуле (5). Поскольку |X | < 1 и 0<р < 1, из (9) сле- дует, что ln -> I, тп ш, и левое из равенств (8) доказано, Далее, (4 = — Ъ [х — ф (я)]а — сф (я)2-)- рм/ [х — ф (х) зД, и из (4) легко выводим, что (—Lx* -М) = —L'x* - М’, (11) где 197
Поскольку ГфЫф, <?y—w(x, ср), отсюда следует, что w {х, ср) = —Lx2 — М, где L и М удовлетворяют уравнениям, -получающимся приравниванием L и L', М и М'. Из (12) получаем с^+ЬГ + Ьс^ — (рг + &-I-C)’ -рс2’ Для доказательства второго из равенств (8) нужно пока- зать, что L = l и М = т. Нетрудно убедиться в справед- ливости тождества с (?Z 4- 6)2 4 Ъс2 . [₽Z«4 (Ь + с — рс) I - Ьс](1 4 b 4- с) (3Z4-6 4-C)2 — ₽с2 ~ (₽Z 4 ь + с)2 — рсз В силу (10) и (13) отсюда вытекает, что L = l. Из (6) и (14) следует, что М ~т.
Глава 7 МАКСИМИЗАЦИЯ СРЕДНЕГО ДОХОДА ЗА ЕДИНИЦУ ВРЕМЕНИ § 1. Введение. Канонические стратегии В предыдущих главах мы оценивали стратегии по суммарному доходу за все время управления. Если до* ход за промежуток времени [0, п] неограниченно растет при га->со, то естественно предпочесть ту из двух стра- тегий, для которой этот рост быстрее. В §§ 1—7 строятся оптимальные с этой точки зрения стратегии для одно- родных конечных моделей (без дисконтирования). Именно, мы построим стационарную стратегию <р такую, что для любого начального распределения р и произвольной стратегии л rcXXG*, ?)4-с, (1) где С — постоянная (не зависящая от п, р и л) и п ^([Л, гс) = Р* 2 (2) /=1 — оценка стратегии л на отрезке [0, п]. Стратегия ср, ко- торую мы построим, обладает и другими замечательными свойствами. Введем в момент п финальную плату г. Тогда оценка и? (р, л) заменится на < (Р» к) = [ S Q Ы + г (х„) — = *) + р;г(яя). (3) Оказывается, при надлежащем выборе г стратегия <р оп- тимальна в задаче управления с финальной платой г на всех конечных отрезках [0, га]; другими словами, при любых га, р и л ЧХ ?)• (4) 199
Ясно, что (1) вытекает из (4). Далее, мы покажем, что w” (х, ср) = г (х) -|- пи (х) (х £ X), (5) где v — некоторая функция на X. Из (5), (3) и (1) видно, что при любой финальной плате / .. w" (Iх- ?) ™nf (Iх- гс) ру = lim —-------------------_> lim —------------------- п п п-><х> п^со (6) так что стратегия ср максимизирует (в пределе) средний доход за единицу времени. [Отметим, что в силу (4) при /=г стратегия <р максимизирует средний доход при каж- дом фиксированном п.] Тройку (v, ср, г), удовлетворяющую условиям (4) и (5), будем называть канонической тройкой модели Z. Здесь <р — стационарная стратегия (ср=ф“, где ф — се- лектор соответствия х -> А (х)), v и г — функции на X. Стационарную стратегию ср назовем канонической, если она входит в какую-нибудь каноническую тройку. Согласно (6) каноническая стратегия <р асимптоти- чески оптимальна в том смысле, что при произвольном на- чальном распределении р lira ——и hm —~ (я — любая стратегия). (7) Функция v, входящая в каноническую тройку, однозначно определяется по модели Z; в силу (6) имеем / . ГТ- и>” (х, те) и>п (х, те) v (х) = sup lim - - sup lim —, (а) Эти равенства оправдывают для функции v (х) (х £ X) название асимптотической оценки модели. Заменяя в (8) состояние х начальным распределением р, получим асимп- тотическую оценку v (р) начального распределения р. Ив (6) следует, что v (p) = pv. Согласно (7) и (8) стратегия л асимптотически оптимальна тогда и только тогда, когда для любого начального распределения р предел W (р, л) = 11Н1 ——- п-r оэ П существует и равен V (р)1. 1 Формула (8) и все последующие формулы сохраняют силу и в том случае, если в (7) заменить верхний предел нижним. Ясно, что 200
Наша цель — доказать существование канонических стратегий и получить метод их построения. § 2. Канонические уравнения В этом параграфе мы докажем, что тройка (у, г) является канонической тогда и только тогда, когда вы- полнены следующие уравнения: v(x)= 2 и(у)Р(У\№У) = sup 2 и(У)Р(У I а)," убХ г/gX г (z) + у (х) = q (ф (х)) + S г (у) Р (г/1 Ф (*)) = = sup fq (а) + %г(у)р (у. | а)] (х £ X) аЁЛ(г) L - УбХ J (канонмческие уравнения). В более компактном виде их можно записать так: у = РфУ=7Пу, (1) г + о=Т\г=Тщ (2) где соответствующие операторы определяются формулами п/(а)= 2 Ш?(г/1«) («ел), (ЗУ PJ(x) = 2/ШЫФИ^ЖФИ (х£Х), (4) T^f(x) = q(^x)) + P^(x) (х£Х), (5). Vg(x)= sup g(a) (a£A), (6) a^A{x} Tf{x)=V(q-\-Sif)(x) = s\ipT^f{x) (x£X) .(7) (ср. формулы (1.1.5), (1.6.10), (1.6.11)). Чтобы прийти к каноническим уравнениям, восполь- зуемся результатами §1.7. Согласно формуле (1.7. 5) и£(л:, ?) = ТфГ (ж). правая часть (8) в этом случае не превосходит v (г). С другой стороны, она не меньше v (х), ибо в силу (6) 801
Из (1.7,9)—(1.7.10) следует, что sup w” (х, к) = Тпг (х). Л Поэтому условия (1.4) и (1.5) равносильны требованию г + п^Т\г = Тпг (и=1, 2, ...). (8) Полагая здесь п = 1, получаем уравнение (2). Далее, заменяя в (8) п на п-|- 1, имеем г + (я +1) п = Тф+1г = ТпПт. Подставляя сюда значения Т^г и Т"г из (8), приходим к равенствам г 4- v -|т nv ?= Гф (г nv) = Т (г Д- пи). (9) Из (5) и (2) находим T^(r-}-nv) = T^-]-nP^v = r-\-v-[~nP^v. (10) Сравнивая (9) и (10), получаем уравнение Ptiy=v. Согласно (7) Т (г -]- nv) = V (д -]- Пг Д. пПр) И потому из (9) вытекает, что Чг+vV (д + Пг + пПр) - у + Пу). Пусть с — наибольшее значение функции |<?+Пг|. Вы- ражение в скобке отличается от Пр не более чем на . Поэтому при п -> со правая часть стремится к УПр, и мы получаем уравнение р=УПр. Остается показать, что (8) вытекает из (1) и (2). При п=1 уравнение (8) совпадает с (2). Допустим, что (8) верно при некотором п, и докажем, что тогда оно верно и при п+1. Применяя к обеим частям равенства r-\-nv=T^r оператор и используя уравнение (1), находим, что Г«+1г = Гф (г 4- nv) = ту + Рф (nv) = г 4- V + иРфР = = г + (ге4-1)у. (И) Если применим к обеим частям равенства г+пр=7’”г оператор Т, то получим Т*хг = Т (г 4- nv) = V (д + Пг + иПр) < V (д -j- Пг) + + иУПр = 7’г4-ир = г + (и4-1)р (12) го?
(см. (i) и (2); очевидно, V (f+g) Vf+Vg для любых функций / и g на Л). Поскольку Тг Т^г и, стало быть, Тп+1г Тл,+1 г, из (И) и (12) следует, что на самом деле Тп+гг = г + (п + 1) и. (13) Равенства (11) и (13) показывают, что уравнение (8) спра- ведливо и для п-|-1. Итак, чтобы построить каноническую тройку, доста- точно решить уравнения (1)—(2). Мы исследуем сперва более простую систему уравнений w — ,P^w, v> = TJ, считая ф произвольным селектором соответствия А(х). (Канонические уравнения сводятся к уравнениям (14), если в каждом состоянии х имеется единственное управ- ление а=ф (х).) Учитывая (5) и опуская индекс ф, можем переписать систему (14) в виде w = Pw, f-\-w ~qPf, где q — функция на X, д(х) = д(ф(я)). (15) равная (16) Уравнения (15) (а также (14)) мы будем называть уравне- ниями Ховарда. Удобно рассматривать уравнения (15) как матричные равенства: ш, f и g истолковываются как векторы-столбцы, а Р — как квадратная матрица с эле- ментами Р(ж, у) = р (у | ф (z)). (17) Элементы Р неотрицательны и сумма элементов любой строки равна 1. Матрицы с такими свойствами называются стохастическими. Наша ближайшая цель — доказать, что для любой стохастической матрицы Р и любого век- тора q система Ховарда (15) имеет решение. § 3. Решение уравнений Ховарда Итак, пусть Р — произвольная стохастическая мат- рица и q — какой-нибудь вектор. Мы хотим построить 203
Нару векторов (w, f), удовлетворяющую соотношениям w = Pw, (1) /4-гу==9 + Р/. (2) Заметим прежде всего, что если эти соотношения вы- полнены, то п-~ 1 = ptq- (3) ^=0 В самом деле, умножая (2) на Р* и учитывая (1), имеем Plf w — Plq Pt+1f. Суммируя эти равенства по t от 0 до п—1, находим »—1 f^-nW = '^iPiq+P”f. (4) <=о Легко проверить, что произведение стохастических матриц тоже является стохастической матрицей. Значит, все элементы векторов Pnf (п=0, 1, 2,.. .) ограничены, и (3) вытекает из (4). Формула (3) является отправным пунктом для построе- ния решения системы (1)—(2). Чтобы ей воспользоваться, надо сперва убедиться в существовании предела в правой части (3). Все элементы матриц Л—I pi п п. t=t> заключены между 0 и 4. Поэтому для некоторой подпосле- довательности <С п2 < . . . существует предел М ~ lim А„к. к->со Остается проверить, что последовательность Ап не может иметь других предельных точек. Пусть для другой под- последовательности тп1 <С m2<Z. . . \\члАт1е = М'. fe->co Имеем РАЯк = АпкР = А„к + ^-^- 204
{Е — единичная матрица) й в. пределе РМ~МР=^М. Отсюда следует, что Ат М=МАт =М и в пределе М'М= =ММ' =М. Аналогично получаются равенства ММ'= =М’М—М' и, стало быть, М=^М'. Итак, мы доказали, что существует предел liml(E + P4-P24- .. . -j-Р’!-1), я->сп п (5) причем МР = РМ = М', (6) м2 = м. (7) В силу (6) формула w = Mq (8) (равносильная (3)) действительно дает решение уравнения (1). Учитывая (8), можем переписать уравнение (2) в виде (E~P)f — (E -M)q. (9) Остается найти решение / этого уравнения. Заметим, что п—1 (Е -M)q= lira 4 V (А - Р1) q = Jim (£ - Р)(10) «~>СО IQ п-^со где Я—1 /„ =4 2(£+р+р2 + • •' + pt'1} q- (И) /=0 Допустим на минуту, что /я имеет предел /. Тогда lim (E—P)fn=(E—P)f, равенство (10) сводится к (9), и нужная нам функция / построена. В действительности дело обстоит сложнее. Из формулы (5) видно, что выраже- ние в скобках в формуле (11) при со ведет себя, как tM. Поэтому вместо векторов /я (которые, вообще говоря, не- ограничены) лучше рассмотреть п—1 В силу (6) разность fn—gn переводится оператором Е—Р 205
II-> со. и положим h — „ „ . Тогда из (13) 11 11 ' й нуль, так что (10) равносильно равенству (Е — М) q = lim(£-P)g„. (13) я->со Обозначим через ||g|| максимум абсолютных величин координат вектора g. Покажем, что последовательность IlgJ не может стремиться к бесконечности. Действительно, допустим, что || gn вытекает, что lira (Е — Р) hn = 0. (14) м->со Из ограниченной последовательности hn можно выбрать сходящуюся подпоследовательность, и согласно (14) ее предел h удовлетворяет уравнению h=Ph. Отсюда и из (5) вытекает, что h=Mh. С другой стороны, из (6) и (12) следует, что Mgn=0, а значит, и Mh=0. Получается, что А=0, а это невозможно, поскольку ||\||=1. Поскольку ||gj| не стремится к бесконечности, ив по- следовательности gn можно выбрать сходящуюся подпо- следовательность g„ . Ее предел f удовлетворяет уравне- нию (9). Мы доказали существование решения у уравнения (9), а значит, и у системы (1)—(2). Отметим, что построенный нами вектор f удовлетворяет дополнительному условию Mf = 0 (15) (ибо Mgn — 0 при любом п). Мы уже видели, что вектор w определяется уравнени- ями (1)—(2) однозначно (он дается формулой (3) или (8)). Покажем, что / также определяется однозначно при до- полнительном условии (15). В самом деле, если какая- нибудь пара (ш, /') удовлетворяет этим уравнениям, то /—f'=P (f—f)- Отсюда в силу (5) и (15) / - /' ^=M(f- f) --= Mf - Mf1 = 0. § 4. Модификация канонических уравнений Перед нами стоит задача перейти от уравнений Ховарда к каноническим уравнениям (2. 1)—(2. 2). Последние можно записать в виде и (х) = Пу (ф (ж)) = шах Пу (а), (1) а6А(х) 206
Г (ж) 4- V (ж) = q (ф (ж)) 4- Пг (ф (ж)) = = max [g (а) Пг (а)] (жрУ). (2) а6А(х) Удобнее решать модифицированную систему у (ж) = Пн (ф (ж)) — max По (а), (3) а6А(х) г (ж) -4 о (ж) = q (ф (ж)) -р Пг (ф (ж)) = ~ max [д'(а.) -f-Пг (а)] (жрУ), (4) где A„ (ж) = {а: а £ А (ж), По (а) = v (ж)}. (5) Для решения системы (3)—(4) в следующем параграфе бу- дет указана рекуррентная процедура, которая неприме- нима к системе (1)—(2). Покажем, что если (у, ф, г) — решение системы (3)—(4), то тройка (о, ф, г'), где г'=r-[-cv, удовлетворяет системе (1)—(2) при любой достаточно большой постоянной с. Уравнение (1) совпадает с (3). Поскольку Пг' = Пг -ф- сПу, то из (3) и (4) вытекает, что г' (ж) v (х) ~ г (ж) -р v (ж) ~р си (х) — = <1 (Ф (ХУ) + Пг (Ф (х)) + ^Пг (Ф (^)) — = ?(Ф И)+Пг'(ф(ж)) и мы имеем левое из уравнений (2). Остается показать, что при каждом ж q (а) -р Пг' (а) г' (ж) -р и (ж) (а £ А (ж)) или, что то же самое, q (а) 4~ Пг (а) Д- сПу (а)^г(ж) 4“ у(ж)4~су(ж) (а р А (ж)). (6) Если а принадлежит А, (ж), то в силу (4) и (5) имеем р (а) 4~ Пг (а)<^ г (ж)-р у (ж), Пу (а) — и (ж), и для такого а (6) выполняется при любом с. Если а из А (х) не принадлежит А Дж), то Пн (а)^=и (ж) и в силу (3) Пу (а) <у (ж). Ясно, что тогда (6) выполняется для дан- ных ж и а при достаточно большом с. Поскольку число 207
всех пар (х, а) конечно, то при большом с (6) будет выпол- нено одновременно для всех а из А (ж) и всех х из X. Из доказанного результата следует, что если (и, ф, г) — любое решение модифицированной канонической системы (3)—(4), то v является асимптотической оценкой, а <р = =ф“ — канонической стратегией. § 5. Усовершенствование стратегии по Ховарду Возьмем произвольный селектор ф и вычислим соот- ветствующие решения w и / уравнений Ховарда w (ж) = Лш (ф (ж)) (ж £ X), (1) /(ж) + ш(ж) = ?(ф(ж)) + П/(ф{ж)) (ж£Х), (2) удовлетворяющее условию (3. 15). Для того, чтобы тройка (ш, ф, /) была решением модифицированной канонической системы (4. 3)—(4. 4), необходимо и достаточно, чтобы w (ж) = шах Пш (а) (ж £ X), (3) /(ж)4-ш(ж)= max [Q (а) 4-П/(а)] (х£Х), (4) где Аю(х) — (а : а £ А (ж), w (ж) = Пш (а)}. (5) Поскольку ф (ж) О А (ж), то Пш (ф (ж)) не превосходит максимума Пш (а) на слое А (ж), и в силу (1) w (ж) шах Пш (а). (6) Согласно (1) ф (ж) £ Аа (ж). Поэтому из (2) вытекает не- равенство /(ж)-|~ш(ж)< шах (я) + П/(а)]. (7) Если нарушено уравнение (3), то найдутся ж0 и а0 из А (ж0) такие, что ш (ж0) < Пи; (а0). Если же уравнение (3) выполняется, но не выполнено уравнение (4), то рассмотрим ж0 и а0£А (ж0), для которых / (*о) + W (ж0) < q (afl) + П/ (а0). 208
Определим новый селектор х формулой f ф (х) при х =/= хй, у (х) = < ( ае при х = х0. Переход от ф к / называется усовершенствованием страте- гии по Ховарду. Повторяя эту процедуру, мы либо через конечное число шагов получим тройку (ш, ф, /), удовлетворяющую мо- дифицированной канонической системе, либо построим бесконечную последовательность селекторов фн, в которой каждый следующий селектор является усовершенствова- нием предыдущего. В первом случае мы получим кано- ническую стратегию ср = ф“. Чтобы доказать невозможность второго случая, со- поставим каждой стратегии и функцию ш3 (х, л) = 2 (at) (0 < ₽ < 1) (8) <=1 (оценку стратегии и при управлении на бесконечном ин- тервале времени с коэффициентом дисконтирования (3). В следующих двух параграфах мы покажем, что если х является усовершенствованием ф, то при |3, достаточно блиЗКОМ К 1, {х, %) ф? Ш3 (х, ф) U Wg (х0, х) > Wp (х0, ф) при некотором х0 (это одно из оправданий термина- «усовершенствование»). Поэтому никакие две функции Шр (х, ф„) не могут совпадать между собой. Поскольку мно- жество всех селекторов конечно, то процесс усовершенство- вания обязательно оборвется. § 6. Асимптотика дисконтированного дохода Мы получим следующее выражение для дисконтирован- ного дохода при стационарной стратегии ср = ф°°, когда |3 f 1: Здесь ш и / — решение системы Ховарда w = Рш, (2) /4-^ = ?4-^Л (3) Mf — Q . (4) (матрица Р и вектор q, отвечающие селектору ф, опреде- 14 Е. Б. Дынкии, А. А. Юшкевич ?09
лены формулами (2, 16) и (2. 17), а матрица М — фор- мулой (3. 5)). Преобразуем формулу (5. 8) для w? (х, <р). Вероятности Pit, х, y) = PT{xt=y), очевидно, удовлетворяют соотношению P(i4-1, х, х, z)P(l, z,y). z&L Стало быть, они образуют матрицу Р{ 2. Имеем рй Ы = 2 ? (Ф (г/)) РХ {^-i = у} = 2 р (t — 1. у) у (у) - «ех s^ex и для стационарной стратегии равенство (5. 8) в мат- ричной форме принимает вид СО (5) <=0 (^а (?) —вектор-столбец с координатами (х, <[>)). Выразим q ив уравнения (3) и подставим в (5). Учи- тывая, что Pw=w, имеем после простых преобразований где СО ?=(1-₽)2т . (6) /=1 Чтобы прийти к выражению (1), остается убедиться, что g -> 0 при р f 1. Уравнение (4) означает, что lim ^=0, (7) t-гоэ t где st = 2 Pkt (8) Zf=l (см. определение (3. 5) матрицы М). Ив (7) следует, что для любого е > О найдется номер Т такой, что || St ||<^ при t > Т, 1Ъ) 2 Случайная последовательность состояний х^х^х.^. . . является однородной цепью Маркова с переходной матрицей Р.
а из (8) — что II st 11^ II /Ь ПРИ всех * (Ю) (под нормой вектора, как и в § 3, понимается максимум ив абсолютных величин его координат). Чтобы использовать (9) и (10) для оценки g, выразим коэффициенты степенного ряда (5) черев их суммы st: g = (1 - ,3) [«1 + ? («2 - si) + (5з - «2) + • • • J = CO = (1_Р)22ГЧ- (ii) /=1 (В силу (10) ряд s1+ps2—p.s\+. . . абсолютно сходится, поэтому проведенное нами преобразование законно.) Из (9), (10) и (И) следует, что / Т со \ kK(W)a. < \ 1 - ' 74-1 / / Т со \ = (1_№[П^|/|+;т_£_] и это выражение не превосходит 2s при |3, достаточно близ- ком к 1. § 7. Возрастание дисконтированного дохода при усовершенствовании Ховарда Чтобы доказать существование канонических страте- гий, нам остается проверить, что усовершенствование Хо- варда не уменьшает оценки и?., (х, ф”) и увеличивает эту оценку хотя бы в одном состоянии (при {3, близком к 1). Для сравнения оценок (х, ф00) и (х, /“) удобно ввести последовательность нестационарных стратегий к0, uj, -2,. • • Стратегия кя состоит в том, что на первых п шагах мы управляем с помощью селектора /, а на всех последующих шагах — с помощью селектора ф. Оценки §»(*) = Св ”„) связаны простым рекуррентным соотношением ?я+1 = ^хШ (1) 14* 211
(см. фундаментальное уравнение (6. 2. 2)). Заметим, что D = g’o(;c) и ^8 (Х> Z") = Ит Sn И л-> со В самом деле, в силу (5. 8) & -Г) - w> (*, тс«) = S Р”-1 грА («/) - /=«4-1 и правая часть мажорируется суммой 2 к II S Г1, £=«4-1 стремящейся к 0 при п -> со. Нужный нам результат вы- текает из следующих двух предложений: а) Если селектор / является усовершенствованием се- лектора ф, то go W = Si И при ф(х) = х(^, (2) ?oU)<giW при ф(ж)=^/(ж) и р, близком к 1. (3) б) Если g0 <: glt то gn < g-„+1 при всех n > 1. Поскольку оператор T.f сохраняет неравенство между функциями, то утверждение б) сразу следует из формулы (1). Равенство (2) также очевидно, так как если начальное состояние ж удовлетворяет условию ф (ж)=х (z), то стра- тегии и приводят на всех шагах к одним и тем же управлениям. Если же х (х0)=а07^ф (ж0) при некотором х0 из X, то согласно § 5 либо H»W>w(4 (4) либо nw(a0) = u>(4 q(a0)-\-nf(a0)>f(x0)-\-w(x0'), (5) где (w, f) — решение системы Ховарда (6. 2)—(6; 4) для селектора ф. Согласно асимптотическому выражению (6- 1) ^о)=п^ + Ж) + о(1). (6) 212
l! силу (1) и того же асимптотического выражения ?iW = 7,x[r^ + ^4-o(l)]W- Поскольку / (а;0) =а0, то для любой функции h имеем Th (^о)~9 (&о)+П/г (ад) (см. определения соответствую- щих операторов в § 2). .Значит, Si (*о) = 9 (®о) + П [rzi+Р/ +’ о (1)] (aQ) = _^^|1 + [9(ао) + П/(ао)-Пп;(Яо)]4-0(1). (7) Если имеет место случай (4), то неравенство (3) для со- стояния х0 вытекает из сравнения первых членов раз- ложений (6) и (7). Если выполняется случай (5), то стар- шие члены в этих формулах совпадают, и нужное нам неравенство получается из сравнения вторых членов. § 8. Переход к бесконечным моделям Сопоставим две задачи: (А) максимизировать суммар- ный доход за п шагов, (Б) максимизировать средний до- ход за единицу времени. < > Конечно, задача (Б) не отличается от задачи (А), если среднее берется за п шагов, так что задача (Б) пред- ставляет самостоятельный интерес лишь для бесконечного интервала управления. В случае конечных моделей за- дача (Б) получила столь же полное решение, как задача (А) (хотя для этого и потребовались более тонкие рассмо- трения). Место простых стратегий заняли при этом ста- ционарные стратегии. Можно было бы надеяться, что ана- логия между двумя задачами . сохраняется и для неко- нечных моделей. Однако эти надежды разрушаются примерами. Начнем с полунепрерывных моделей, для которых за- дача (А) решается так же хорошо, как и для конечных моделей. Следующий пример показывает, что для задачи (Б) положение совершенно иное: не существует стратегии, максимизирующей средний доход (даже если допустить нестационарные стратегии). Пример 4. Пространство X состоит из трех состоя- ний х, у и z, причем состояния у и' z — поглощающие, т. е. в них имеется единственное управление, и оно остав- 213
f q ляет нас в том же состоянии /°г (см. Рис- 7-1)- Множество уп- jz / равлений в состоянии а: — это \ / некоторый отрезок А положи- \/ тельной полуоси, содержащий о —ч точку 0. Переходная функция /х А для каждого управления 8 из у у А задается формулами р(у|8) = 8, р (z 18) = 82, / р (ж 18) = 1 — 8 — 82 I —rJ. .......1 о 4 / (чтобы эти формулы имели Рис 71 смысл, нужно потребовать, чтобы 1 — 8— 82 0 для всех 8 из А). Текущая плата q равна 1 в состоянии у и во всех остальных случаях равна 0. Нетрудно убедиться, что эта однородная модель полу- непрерывна (на отрезке А используется обычная метрика прямой, управления в состояниях у и z — это две изоли- рованные точки пространства управлений Л). Мы будем считать х начальным состоянием. Фиксируем некоторую стратегию к и обозначим через Р соответствую- щую меру Р". Рассмотрим момент т первого выхода из состояния х\ если т < со, то х0=хг = . . . =х^=х и a:T=a:i+1=. . . равно у или z; если -1=00, то xt=x при всех t. Поскольку текущая плата равна 1 в состоянии у и равна 0 в остальных состояниях, то wn (х, к) = Ро -j- Р1 . + ри_г (1) где ft=P{^=i/}. Но {xt^.y} = я\ = у}. Поэтому pt при t -> со стремится к р = Р (т< со, хх = у}, т. е. к вероятности когда-нибудь попасть в у. В силу (1) существует предел , . w” (х, л) к; (х, к)= lim —5-------- — р. 214
В момент выхода из х мы с положительной вероят- ностью попадаем в z. Поэтому либо Р{т<(со}=0, либо 1’{т < со, zT=z} > 0. В обоих случаях Р = Р (т < со, Xz = у} < 1. С другой стороны, для стационарной стратегии 8“ Y{x = t, = = Поэтому Р = Р(т<со, хт^у} = 1 (1-8-87-4 = /=1 г 0 при В = 0, Н при 8>0. При достаточно малом положительном 3 средний доход w (х, ^с°)=р сколь угодно близок к 1, но ни при какой стра- тегии к он не равен 1. * * * Задача (А) для счетных моделей рассматривалась в §§ 1.12—1.13, где было доказано существование рав- номерно е-оптимальных простых стратегий при любом е > 0 (ослабленный вариант этого результата для общих моделей с борелевскими пространствами управлений и состояний был выведен в главе 3). Как видно из следую- щего примера, для задачи (Б) и стационарных стратегий аналогичный результат несправедлив. Рис. 7.2 Пример 2. X состоит из двух состояний, х и у, причем состояние у — поглощающее (см. рис. 7.2). В х име- ется счетный набор управлений Ь1, Ь2,. . . , Ь„„. . . , и переходная функция задана формулами / I г. \ m — 1 3|5
Текущая плата равна 1 в состоянии х и равна 0 в состоя- нии у. Рассуждение, подобное проведенному в примере 1, показывает, что для любой стратегии тс асимптотическая оценка w (х, тс) существует и равна вероятности р никогда не выйти из х. Каждая стационарная стратегия <р задается выбором какого-то управления Ът. При такой стратегии вероятность pt оставаться в х в течение первых t шагов равна и, следовательно, w (х, <р) = lim pt = 0. В то же время нестационарные стратегии позволяют сделать средний доход р сколь угодно близким к 1. Дей- ствительно, если стратегия тс состоит в выборе на шаге t управления Ьт(п, то ш (х, При т (t) = 2fc+< будем иметь 1 iv (х, тс) 1------ (к — произ- 4 2* вольное натуральное число). Итак, пользуясь стационарными стратегиями, мы в этой счетной модели не можем подойти к асимптотической оценке v (х) ближе чем на единицу. * * * В примерах 1 и 2 нарушалась аналогия между зада- чами (А) и (Б). Другое осложнение, возможное в беско- нечных моделях, связано с самим определением асимпто- тических оценок. В общем случае нам приходится иметь дело с нижними оценками w (р, тс) = lim w , у (р) = sup iv (р, тс) (2 — п л и верхними оценками w (р, тс) = lim w , v (р) = sup w (р, тс). (3) 3 Неравенство (1 —ах)(1—сс2) . . , (!'—осй) > 1— ах— сс2—. . . —аи при положительных легко доказывается по индукции»
(Для конечных моделей оценки у и v совпадали и можно было ограничиться такими стратегиями, для которых совпадали w и w.) Следующие два примера показывают, что оценки у и v действительно могут быть различными и что при этом теряются некоторые привычные нам свойства оценок и стратегий. Рис. 7.3 г, Zj Пример 3. Пусть X состоит из состояния х и двух последовательностей состояний {(/^ уг,. . . } и {zlt z2,. . .} (см. рис. 7.3). В х имеется два управления, а и Ъ, ведущие в и zr Из ут мы детерминированно переходим в ут+1, из zm—в zm+1 (wz=l,2,. . .); соответствующее управление обозначаем той же буквой, что и состояние. Текущая плата равна Q (а) = q (b) = О, 4'^=— q (*J = —1 при 'т < С mi 1 при т < < т2 —1 при т < ^т3 1 при т < С причем последовательность целых чисел 1 <т1 <'.т2 <Д.. растет столь быстро, что mi 4~ т2 4" • • • + тп — 0 (ТОв+1) ПРИ и -* 1X1 Ясно, что здесь У (Ут) = У (г„) = —1, v (ут) = v (zm) = 1 (4) и, значит, у =^=Р. При начальном распределении р с р (у.) — р (z-S — -^ 217
Платы q (ym) и q (zm) (эудут взаимно погашаться и получим wn (р, л) = 0 при всех п. Следовательно, р (р.) = г (р) = О, тогда как в силу (4) рр — —1, рг = 1. Итак, здесь рРт^у(р), pr^Ap(p). При начальном состоянии х обе простые стратегии, а и Ъ, имеют нижние оценки, равные —1, а марковская стратегия а, заключающаяся в выборе а и b с вероятно- стями 1/2, приводит к тому же результату ш(х, а)=0, что распределение р. Значит, марковская стратегия может быть существенно лучше простых стратегий (если руко- водствоваться нижними оценками) 4. Пример 4. Видоизменим пример 3, исключив состояние х и введя в каждом состоянии ут и zm еще одно управление, по-преж- нему переводящее в ут+^ и zm+1, но дающее при любых т плату — 1. Тогда стратегия, состоящая в получении всюду платы —1, бу- дет (с точки зрения нижних оценок) асимптотически оптимальна при каждом начальном состоянии, но не будет оптимальна при на- 1 чальном распределении u. (yt) = u. (zx) = • Если поменять здесь q на —q, то v станет равным 1 для всех начальных распределений. Пользуясь стратегией <р, предписывающей везде, где можно, брать—1, мы будем иметь w (х, <р)=1=г (х) при всех начальных состоя- ниях, но w (р., <р)=0 < 1=й (ц) для того же начального распреде- ления [г. Значит, и при пользовании верхними оценками асимпто- тическая оптимальность при всех начальных состояниях не обеспе- чивает асимптотической оптимальности при произвольном началь- ном распределении. * * * Какие положительные результаты для Задачи (Б) все же сохраняются в бесконечных моделях? При исследовании конечных моделей основным ин- струментом служили канонические уравнения v = P^v БПу, г-^и = Т^=Тг. (5) 4 К верхним оценкам эти соображения неприменимы. Верхние оценки играют ту же роль в задаче минимизации w, которую имеют нижние — в задаче максимизации. 218
Мы показали, что а) Тройка (v, ф, г) удовлетворяет этим уравнениям тогда и только тогда, когда для любой стратегии те и любого п ш” (х, -) «С г (х) пи (х) w” (х, ф“).' (6) Соответствующая стационарная стратегия ср = ф°° асимп- тотически оптимальна, а функция v является асимп- тотической оценкой модели: (|Л, те) |W = W (fl, <р) (7) (fi — произвольное начальное распределение, те — любая стратегия). б) Канонические уравнения имеют решение и его можно найти с помощью процедуры усовершенствования стра- тегии по Ховарду. В § 9 будет показано, что при определенных условиях ограниченности и измеримости результат а) справедлив и для общих моделей. Этот результат будет распространен и на случай асимптотической е-оптимальности. Чтобы спасти в той или иной форме результат б), нужно наложить на модель условия совсем иного характера. Одно из таких условий рассматривается в § 10. § 9. Канонические и 8-канонические тройки и системы для общих моделей При переходе к общим моделям нужно ввести опреде- ленные условия измеримости и ограниченности (которые выполняются автоматически в конечном случае). Мы пред- положим, что одноточечные множества в пространстве X измеримы5, что существует хотя бы один измеримый се- лектор соответствия А(х) из X в А, что текущая плата q ограничена, и будем рассматривать только тройки (у, ср, г), где v и г—ограниченные измеримые функции у — ф°°, и ф — измеримый селектор. С этими оговорками для об- щих моделей справедлив результат а) предыдущего па- раграфа. Чтобы избежать повторений, мы докажем этот результат сразу в несколько более общей форме. 6 Для этого, например, достаточно, чтобы пространство X было бо- релевским (см. Добавление 1). 219
Пусть е — любое положительное число. Стратегию а назовем асимптотически s-оптималъной, если для любого- начального распределения р и произвольной стратегии к; гр(р, ir) w (р, (1) Скажем, что тройка (у, <р, г) является е-канонической, если при любом i из X и всех п=1, 2, . . , 1Р®(х, л) г (у) пи {х) w” (х, ср)е (2) (л — любая стратегия). Назовем е-канонической системой соотношения и = VTLv = Р^и, (3) Гг^ + ^Ту + е. (4) (Операторы, входящие в эту систему, задаются теми же формулами, что в § 2, только суммы заменяются интегра- лами 6. При е=0 мы возвращаемся к понятиям, введен- ным в § 1 и § 2.) Будет доказан следующий результат: а') Если тройка (и, ср, г) удовлетворяет ^-канонической системе, то эта тройка является e-канонической', при е=0 справедливо и обратное. Если (и, (р, г) —е-кано- ническая тройка, то стратегия (р асимптотически е-оптимальна и функция v удовлетворяет при любом, начальном распределении р неравенствам sup гл (р, л) ру У sup л-(р, т:)г. (5)< ТС тс Интегрируя все члены неравенства (2) по начальному распределению р, деля на п и переходя к пределу, полу- чаем, что гл(р, т:) у рг-у гл (р, ср)-J—® (при переходе к пределу ограниченную функцию,г можно заменить нулем). Отсюда следует как (1), так и (2). Оста- ется доказать, что (2) вытекает из (3)—(4), и что при е=0, наоборот, (3)—(4) следует из (2). Пусть выполняется система (3)—(4). Докажем (2) индукцией по п. При п=0 условия (2) справедливы, так как иРг (х, л)=гл® (х, <p)=r (z). Предположим, что (2) вы- •® Равенство обоих выражений (2. 7) для оператора Т в предполо- жении измеримости одноточечных подмножеств пространства X доказано в | 6.7 (сноска на стр. 183), 220
полнено для некоторого п. Согласно фундаментальному уравнению и предположению индукции для произвольной стратегии л j n(da]x) g(a)+jp(dy\a)(r(y)-]-nv(y)) L X = j л(йа|х)[д(а) + Пг(а) + Пу (a)]^ V (q Hr + пПо) (x). (6) Учитывая, что супремум суммы не превосходит суммы супремумов, а также левые из формул (3)—(4), имеем V {q -j- Пг -j- пПу) V (q Hr) -j- nVv ~ . = Tr nv r (n -f- 1) v и, значит, левое из неравенств (2) выполняется также для значения п+1. Далее, по фундаментальному уравнению и предположению индукции для стационарной стратегии <р шД1 (х, <р) ~ q (ф (х)) + j р (dy | ф (х)) ц>” (у, ср) > X > <1 (Ф И + 5 Р (dy (ф(х))[г(у) + nv(y) — пе]= X = Т^г (х) + nP^v (х) — пе. Используя правые из формул (3)—(4), получаем ТфГ +пРфП— пг^г+п—-г + ш;—пе=г+ (« + !) (о — в), так что и левое из неравенств (2) справедливо для зна- чения п + 1. . Наконец, пусть (2) выполнено для е = 0: W” (х, л) + Г (х) + nv (х) + w” (х, <р) (л — любая стратегия, п=1, 2,...) или, что то же самое, sup wj! (х, 1г)=г (х)+ш> (х)=и>” (х, <р) (п=1,2, (7) 1С 221j
Как и в конечном случае, мы хотим переписать (7) в виде Tnr = r-]-nv = T^r (н = 1, 2,...), (8) из (8) каноническая система выводится так же, как в § 2, Равенство шпг (х, ср) = Т”г есть n-кратная итерация фундаментального уравнения для стационарной стратегии ср и справедливо в общих моделях. Остается убедиться, что при условии (7) верна также формула sup (т, тс) = Тпг (.г), (9) равносильная уравнению оптимальности (см. § 1.9; для произвольных общих моделей уравнение оптимальности нами не установлено). Формула (9) выводится из (7) индукцией по п. При п=0 она обращается в тождество г=г. Пусть (9) верно при не- котором п. Учитывая левое из равенств (7), мы можем по- вторить выкладку (6), которая показывает, что w”+1 (х, тс) V (q —Иг-J- «Пу) (ж) - Т (г-)- П1-') (х). По предположению индукции и по (7) r-\-nv=T'lr и, зна- чит, w”+\(x, тс) 7”г+1г (т). • (10) С другой стороны, в силу предположения индукции и фор- мулы (7) . . .. - _ . . Тп+1г (г) — Тwnr{x, ср) = supТ (ж, ср) у '• Но по фундаментальному уравнению (х, ср) = (т, □), где а — простая стратегия, состоящая в использовании на первом шаге селектора /, а затем — селектора ф. Знаяит, Т"+1г (г) supw"+1 (х, тс), 1С откуда вместе с (10) следует, что формула (9) верна и для значения п-М • - . - Результат а') полностью доказан. 222
§ 10. Модели с минорантой Рассмотрим наиболее простое из условий, восстанав- ливающих аналогию между задачами (А) и (Б) в бесконеч- ных моделях 7. Будем считать пространства X и А в модели Z борелевскими. Скажем, что переходная функция р модели Z имеет миноранту v, если v — мера на X такая, что О <С v (X) <( 1 и v (Г) р (Г | а) при любом управлении а и любом из- меримом множестве Г из X. Положим р=1—v (X) и определим новую переходную функцию р формулой р(г1а) = у[р(г1а)~ v(r)- Рассмотрим модель Z, получающуюся из Z заменой р на р и введением коэффициента дисконтирования р (см. § 6. 1). Поскольку плата q ограничена и |3 < 1, модель Z ограничена и ее оценка v является ограниченной функцией. Мы установим теперь, что если оценка v модели Z из- мерима и стационарная стратегия <р = фю е-оптимальна в модели Z, то число w, стратегия <р и функция v обра- зуют е-каноническую тройку в модели Z. Достаточно проверить, что тройка (yv, tp, v) удовлетво- ряет е-канонической системе (9. 3) —(9. 4). Соотношение (9. 3) выполняется для любой константы у и, в частности, для i>=vy. Для проверки (9. 4) заметим, что соответствую- щие операторы в моделях Z и Z связаны формулами fi/(a)= j р (dx \ a) f (х) — j [p(dx\a) — v (dx)]f(x) = X H X = |П/(а)-^, (1) ф/ («) — q (ф (®)) + (Ф (®)) ~ q (Ф (®)) + + (2) ?/(*)= П?(«) + РЙ/(«)] = = V[g(a) + n/(a)-v/] = 7’/(a;)^v/ (3) 7 Относительно других условий см., например, Л. Г. Губенко и Э. С. Штатланд [1]. 223
(выражения операторов для модели с дисконтированием ВЗЯТЫ ИЗ § 6.7). , , ьа. Согласно результатам §§ 6.6 и 6.7 оценка v модели Z и е-оптимальная стационарная стратегия (р удовлетворяют условиям Tv = Ъ Т-j- е- Учитывая (2) и (3), приводим их к виду Tv — v -j- V27 Т J -j- ®> т. е. получаем для тройки (vi?, <р, v) соотношения (9. 4). Отметим, что если в модели Z стационарная е-опти- мальная стратегия (р существует при любом е > 0, то число v=4v будет асимптотической оценкой модели Z (ибо из справедливости неравенства (9. 5) при всех е > 0 выте- кает равенство (1. 8)). * * * Из (1) видно, что если модель Z полунепрерывна, то этим же свойством обладает и модель Z. В однородной полунепрерывной модели Z с ограниченной платой и ко- эффициентом дисконтирования [3 1 оценка v измерима и существует стационарная оптимальная стратегия. По доказанному, эта стратегия будет канонической в мо- дели Z. Итак, если в полунепрерывной модели переходная функция имеет миноранту, то существует каноническая (а значит, стационарная асимптотически оптимальная) стратегия. ♦ * * Если модель Z счетна, то счетна и модель Z. В счетной модели Z с ограниченной платой q и коэффициентом дис- контирования [3 <Z 1 для любого е > 0 существует е-оптимальная стационарная стратегия. По доказанному, эта стратегия асимптотически е-оптимальна для модели Z. Следовательно, если в счетной модели у переходной функции имеется миноранта, то для любого е )> 0 существует ста- ционарная асимптотически е-оптимальная стратегия. Число v=w равно при этом асимптотической оценке мо- дели Z. Отметим, что в счетном случае существование мино- ранты равносильно следующему требованию; для некото- 224
рого состояния у и некоторого числа с )> 0 имеем р(у\а)^с при всех а из А, В частном .случае, когда все слои А (г) конечны, можно выбрать селектор ф так, чтобы v=v. Значит, при атом дополнительном предположении в счетной модели с ми- норантой существует каноническая стратегия. § 11. Задача о замене оборудования В качестве примера рассмотрим .задачу о замене обо- рудования (см. §§ 1.2, 1.11 и 6.5). В этой счетной модели легко удается найти каноническую тройку и, значит, ста- ционарную асимптотически оптимальную стратегию. От- метим два частных случая, в которых существование ка- нонической тройки следует из общих результатов этой главы. Первый из них — когда при некотором сроке службы К вероятность рк исправной работы оборудования обращается в 0, так что получается конечная модель с пространством состояний {0, 1, 2, . . ., К}. Второй слу- чай — когда уже при нулевом сроке службы вероятность поломки д0 положительна; поскольку р (01 xd) р (01 хс) ~qx^qo>O, переходная функция в этом случае имеет миноранту и можно воспользоваться заключительным замечанием § 10. Результаты §§ 1.11 ц 6.5 заставляют думать, что ка- ноническая стратегия задается при некотором т селекто- ром [ с при х <" т, = = npnI>m. W Подсчитаем асимптотический средний доход w при стра- тегии (р = фю. При этой стратегии мы попадаем не более чем за т шагов в состояние 0 и затем навсегда остаемся в конечном множестве состояний {0, 1, 2,. . ., т}. Отсюда следует, что, во-первых, w (x)=w (0), так что w (х) — кон- станта, и, во-вторых, что применимы результаты § 3 и число w может быть определено из системы уравнений Ховарда w — Р„ш, ф (2) f^w = T^f U 15 Е. Б. Дынкин, А. А. Юшкевич
(см. формулы (3.1)—(3. 3)). Заметим, что ( РЛ+Рх/(а: + 1) + ^/(0) пРи 0<.c<zn, Да + /(0) при т<т, ' (3) и поэтому второе из уравнений (2) равносильно системе / (0) —{— ш — pQh0 4- pQf (1) -J- qQf (0), f (1) + w ~ Pi^i 4“ Pit (2) + q2f (0), / (m - 1) + w = p^hm^ 4- PmJ (m) 4- qm_J (0), /(пг)4-ш = а4-/(0), | /(w4-i)4-w = a4-/(0), ? (4) (5) (первое из уравнений (2) выполняется для любой кон- станты w). Вместе с / системе (4)—(5) удовлетворяет лю- бая функция /4-const. Отражая зависимость ф, w и / от номера т (см. (1)), будем писать теперь ф1П, wm и /т. Можно считать, что /т(0) = 0. (6) Из (5) получаем /т("г) = /т(^ + 1);=/т(^4-2)= ... =а — wm. (7) Полагая ^^PoPi---Px (Ь_1==1), (8) умножая уравнения (4) поочередно на 1, £0, . . ., £,я_2 и суммируя их от 1-го до (z—1)-го, находим 8 /т (*) = (1 + Л> + • • + ^ж-г) wm — (^0^0 + + • 4- ^.t-l^.r-1) Ьх-1 (z = 0, 1,..т). (9) 8 Мы предполагаем, что все вероятности рх отличны от нуля, так что Ьх_^0. В противном случае модель по существу конечна и нужно рассматривать только числа х и к, не превосходящие но- мера К, при котором впервые рК=0. Окончательные результаты формулируются при этом так же, как в случае не равных 0 ве- роятностей рх. 226
Приравнивая два значения f,n(m), получаемые из (7) и (9), имеем 4- ... 4- 4~ ^m-la /4 ГЛ т~ 14-^о4-А + ..-'4-Ди-1 • V 7 Система уравнений (2) для селектора фт решена. Предположим сначала, что существует наибольшее из чисел w0, иц, . . ., wm, .... Пусть это будет wk. Покажем, что (к, (р, r)=(wk, ф“, fk) —каноническая тройка, и, стало быть, стационарная стратегия <р = ф“ асимптотически оптимальна. Из (7) видно, что функция Д. ограничена. Согласно ре- зультатам §§ 2 и 9, достаточно проверить, что выполняются канонические уравнения (2. 1)—(2. 2). Уравнение (2. 1) верно для любой константы и, в частности, для v=wk. Левое из уравнений (2. 2) совпадает со вторым из уравне- ний системы Ховарда (2) и, значит, тоже выполнено. Оста- ется убедиться в справедливости правого из уравнений (2. 2): = (11) Оператор Т на функции, удовлетворяющие (6), действует по формуле а]. Сравнивая зто выражение с (3) (где теперь считаем т=к), видим, что уравнение (И) сводится к системе неравенств рА + рАА+1)>я (0<z<Z€), (12) рА + р,Л(^ +1)<а (*<*). (13) Из (9) и (10) нетрудно вывести, что неравенства (12) рав- носильны неравенствам (Ь <*<*). (14) Из (7) вытекает, что (13) равносильны неравенствам (15) г х Поскольку «>0и функции hr и рх — невозрастающие, то система неравенств (15) сводится к одному неравенству ^7 1 — Рк wk>hk-a—-f±. Рк 15* 227
Элементарная выкладка, использующая формулы (8) и (10), показывает, что это неравенство эквивалентно ус- ловию (16) На неравенства (14) и (16) выполняются ввиду выбора номера к. Значит, справедливы и соотношения (12)—(13), и наше утверждение доказано. Более того, мы видим, что оптимальный номер к можно определить как первый номер т, для которого wm+1 wm. Остается случай, когда wm<wm+i при всех т. (17) Мы покажем, что в этом случае является канонической тройка (18) wm lim wk, (г) = с'при всех х, 0 при х — 0, (19) Для этого достаточно проверить, что /со + - Уфт/со = ^7 со (20) | и что функция ограничена. ] Первое из уравнений (20) получается предельным пе- ] реходом из соответствующего уравнения для wm, ф,я и /,„ ] (см. (2) или, в развернутом виде, (4)—(5)). Второе урав- нение (20) равносильно системе неравенств ( рЛ + рМ^ + ^)>я (я = 0, 1, 2, . . .) (ср. переход от (11) к (12)—(13)). В силу (10) и (19) эти ; 9 При предположениях (17) все Lf отличны от нуля, ибо если Lx-i>Lx=0, то согласно (10) - ^+1 = i+io+T\ +дл_1- > °- 228
неравенства эквивалентны неравенствам, wx (х — 0, 1,2,.,.). Последние верны ввиду (17) и (18). При доказательстве ограниченности функции при- дется рассмотреть два случая: 1) когда среди чисел рх хотя бы одно меньше 1 и 2) когда все рх равны 1. В первом случае, в силу монотонности рх, числа Lx стремятся к 0 не медленнее членов сходящейся геометри- ческой прогрессии, и из (10) следует, что ~ 1 > где 0 -1 (21) (22) Подставляя эти значения в (20), имеем после упрощений /х-2 \ / со \ /х-1 V. / со \ и = V--1-A*—tr-------------------------------• (23) Из формулы (8) и монотонности рх следует, что (у>0). Кроме того, по условию задачи hx+y^hx (у>0). Поэтому + Lx+1hx+1 + • • • L^, 4- ъх 4- • • • и цз (23) имеем I fa> (*) I < 2x. Во втором случае Lx— 1 при всех x .и формула (10) обращается в у) -^0 + + • • + ^т-1 + а (24) m т • - V ' 229
Поскольку hx — невозрастающая функция от х и, следо- вательно, существует предел hw = lim hx, £->CO то из (24) вытекает, что »со = При этом для /со (z) из (20) получается выражение /со (z) = (z — 1)Лет — (^4-^4-... 4-7^) = == —1(^0 ~ ^оо) 4- (^1 — /гсо) 4- • • • 4- (^х-1 — ^Со)|- . (25) Условие (18) при значениях wm, определенных форму- лой (24), обращается в (Ло — hm) 4- (Л1 — йда) 4- • • • 4- (Vi ~ hm) <hm — a. Переходя к пределу при т -> оо, получаем 10 2 — М <Ла> — а> так что написанный ряд сходится. Значит, его частные суммы, фигурирующие в (25), ограничены. § 12. Задача о стабилизации В этой задаче (см. §§ 2.11 и 6.12) плата q неограниченна снизу, и поэтому результаты § 9 неприменимы. Однако в § 2.11 мы видели, что оптимальная стратегия на про- межутке времени [0, п] при п -> оо переходит в стацио- нарную стратегию порожденную селектором Я = ф (z) = у j+ е х (—oo<z<oo), (1) 10 Законность этой операции следует из общей леммы о предельном переходе под знаком бесконечной суммы: если ах (т) 0 и ах (т) ф | ах (со) при т -» со, то V ах (т) ф V яг(оэ). (Эта лемма аналогична а?=0 г=0 известной теореме о монотонном переходе к пределу под знаком иптеграла.) Чтобы применить эту лемму к интересующему нас ряду, нужно положить (m)=hx—hm при х < т и ах (т) = 0 при х т. 230
где I — положительный корень квадратного уравйенйя I2 4- Ы - Ьс = 0. (2) Та же самая стратегия получится, если перейти к пределу при р f 1 в формулах (6. 12. 4)—(6. 12. 5). Естественно ожи- дать, что эта предельная стратегия асимптотически Опти- мальна. Покажем, что так и есть на самом деле. Фиксируем начальное распределение р и докажем, что = (3) П П 9 ' У «->оэ п->а> * где к” (р) — оценка начального распределения р на про- межутке управления [0, п] Из равенства (3) вытекает асимптотическая оптимальность стратегии <р: для любой стратегии я имеем wn (р, л) < vn (р) и поэтому выполня- ется неравенство (1.7). Согласно § 2.11 = — тп, (4) причем lim ln = I, (5) т„ = °2(!0 + Zi+... + zj. (6) В силу (4) vn(p) = —lna~mn, где +<Х> а = j z2p (dz), —CD и мы имеем р’(р) ( —°2/, если а <00, lim—= < (7) п ( —оз, если а = оз. Вычислим uf (х, Ч>) = Т’’Р (х). Из формул (6.12. И) — (6.12.12) при р=1 имеемФ ^(z, ср) — — Lnz2 — Мп, (8) где Lo=0, (9) т ___(Zi« + Ь) с2 + (Z + Ь)2 С ,.0. Л«+1— 231
^0 = 0, . . (11) Мм = Лп^Мп. (12) Вычитая почленно из равенства (10) аналогичное соотно- шение между Ln и Ьв_15 имеем с2 ^«+1 L„ (z -р 6 4- с)2 Коэффициент справа меньше 1, и, стало быть, разности Ln+1—Ln убывают достаточно быстро, чтобы существовал конечный предел L последовательности Ln. Переходя к пределу в уравнении (10), находим у- _ (I ъ)г с + &с2 b'_(Z + &-J-c)2—с2* В конце § 6.12 было показано, что последнее выражение равно I. Итак, limLK = Z. (13) и->со Из (11) и (12) имеем ^ = ^(^4-^+...+^). (14) Из формул (8) и (13)—(14) вытекает, что .. w”^, ?) при а <оо, lira—г 7 ={ (15) и^-со п I—оо при а= со. ' Из (7) и (15) следует (3). Отметим, что в силу (3) и (7) асимптотическая оценка модели равна — ‘—o2Z. (16)
Часть III НЕКОТОРЫЕ ПРИМЕНЕНИЯ Глава 8 МОДЕЛИ С НЕПОЛНОЙ ИНФОРМАЦИЕЙ § 1. Описание модели До сих пор считалось, что мы полностью наблюдаем траекторию управляемого процесса (1) ' “г Хт > Хт+1 * • • Xf-1 * Xt Предположим теперь, что состояние системы в момент t описывается парой xtyt, причем первая из этих компонент становится нам известной, а вторая — нет. Таким образом, действительное течение процесса задается траекторией am+-i ат+ч at ХтУт * Хт-1Ут+1 * • • • Х1-1У1-1 > Х{Уt • № а наблюдаем мы по-прежнему цепочку (1). Управления at и наблюдаемые состояния xt_r, как и раньше, связаны между собой проекцией j. Ненаблюдаемые состояния yt — это элементы каких-то множеств Yt. Они влияют как на механизм перехода к оче- редному состоянию, так и на получаемый доход. Переход- ная функция р задает теперь распределение вероятностей для состояния х.у, из произведения пространств Xt X Yt в зависимости от yt^ и at (поскольку х(_г=] (at), введение дополнительного аргумента х^ не дало бы ничего нового). От той же пары у^^ зависит и текущая плата q на £-м шаге (финальная плата в момент п зависит от пары хпуп) Ч 1 Более общий случай, когда плата на шаге t зависит от элементов х1-1У1-1а1х1У1’ сводится к рассматриваемому введением новой платы, равной математическому ожиданию от- носительно распределения р ( Ij/z-jaJ. 233
При этом подразумевается, что доход q (yt^a() на <-м шаге выплачивается по окончании процесса управления. Если бы мы получали этот доход немедленно, то его численное значение давало бы дополнительную информацию о не- наблюдаемых состояниях системы, и элементы модели нужно было бы перестроить так, чтобы включить число q в наблюдаемое состояние х(2. Чтобы определить меру в пространстве траекторий, необходимо задать начальное распределение р и стра- тегию л. Роль распределения р теперь несколько иная, чем в моделях с полной информацией. Считая известным р, мы тем самым предполагаем известным и распределение вероятностей для ненаблюдаемого начального состоя- ния ут (хотя значение ут нам и не дано). В математической статистике различают байесовский подход, при котором для неизвестного параметра у вводится некоторое «априор- ное» распределение вероятностей, и минимаксный под- ход, когда статистические решения оцениваются по «худ- шему» из возможных значений у. Предполагая, что р известно, мы избираем байесовский подход. Стратегия г. це может зависеть от ненаблюдаемых зна- чений ут, ут+1.......Однако она может учитывать, по- мимо наблюдаемых состояний хт, хт+1, ... и уже ис- пользованных управлений ат+г, . . . также начальное распределение. Поскольку значение хт становится нам известным, для выбора управлений существенно не сов- местное распределение р начальной пары хп.ут, а лишь условное распределение для ут при наблюденном хт. Мы включаем распределение в наблюдаемую историю, от которой зависит выбор очередного управления. Пара xmvm играет роль начального состояния. При этом хт — любая точка пространства Хт, a vm — любая вероятност- ная мера на Ym. Пары хт, р и хт, чт тесно связаны между собой, но не вы- ражаются друг через друга однозначно. Со второй парой иметь дело значительно удобнее. Оценки w (р, к) и и (р) определяются обычным образом через меру Р®. Не меняется и постановка задачи опти- мального управления. 2 И мы имели бы тогда частный случай ситуации, о которой гово- рится в предыдущей сноске: q (^^iyt-iatxfy()=q(x(). 234
Отметим, что если все Пространств* Yt состоят ив од- ной точки, то мы получаем изучавшуюся в предыдущих главах модель с полной информацией. § 2. Сведение к модели с полной информацией. Конечный случай По каждой модели с неполной информацией мы построим некоторую модель с полной информацией так, чтобы оценки соответствующих стратегий в них совпадали. Применяя затем результаты предыдущих глав, мы полу- чим теоремы о существовании оптимальных стратегий в моделях с неполной информацией. Наш замысел состоит в том, чтобы ввести новые про- странства состояний, рассматривая как состояние в мо- мент t всю существенную для дальнейшего управления информацию, которой мы располагаем в это время. В на- чальный момент т эта информация описывается наблю- даемым состоянием хт и априорным распределением vm для ненаблюдаемого состояния ут. В любой момент t > т ее естественно описывать парой xtvt, где v( — «апостери- орное» распределение вероятностей для состояния yt, вычисленное с учетом всей наблюденной к этому моменту истории. Начнем со случая, когда все пространства Х(, Yt и А, конечны. В этом случае вероятность цепочки I — =^У,Лп^„1+1Ут+1- ЛЛУП при начальном распределе- нии « и стратегии я определяется формулой3 (0 = к Км1 Хт^т) р (xm+lym+11 утат+1). .. • • а„-Л-1) Р ^пУп I Уп-1^ (1) где распределение vm вычисляется по формуле К) = vm (ym I xm) = (2) Z j P* \xm4 Wm (если знаменатель равен 0, то можно принять за vm (• | хт) любую вероятностную меру на Ym, например, некоторую раз навсегда выбранную меру v®n). 3 В определение стратегии л добавляется требование измеримости по аргументу vm. 235
Построение вспомогательной модели с полной инфор- мацией начинается с выбора пространств состояний Хг Положим Xf — XfxNt, где ^ — совокупность всех ве- роятностных мер на множестве У, (из принимают зна- чения распределения vj. Управления в новой модели остаются прежними. Одно и то же управление at возможно теперь при различных состояниях отличающихся распределени- ями vz l. Если мы хотим, чтобы слои А (х) не пересека- лись, то должны считать «управлением» пару lat~at (ср. аналогичное замечание в § 1.2) Чтобы задать новую переходную функцию р, мы дол- жны сопоставить каждой паре распределение веро- ятностей в пространстве XtxNt. Исходная переходная функция задает распределение в пространстве XtxYt, как функцию от yt^at. Фиксируем Естественно сопоставить этой паре распределение в пространстве Xfx X Yt, определяемое формулой Р (^А | Ч-А) = i Р t'J11 УЧ-i (3) Это распределение расщепляется на распределение в Xt и условное распределение в Yt: р (ztyt 1ч-а) = р I ч-Л) ч <yt I Ч-А^)>’ (4) здесь р(ч1ч-л)= S p(mJva) (5) и v (и Iv ах)= /61 1 (Vf I г-1 t t! р (Ж/1 - V ) (если знаменатель обращается в 0, то принимаем за v, некоторую фиксированную меру v® на Yt). Формула (6) определяет отображение xt —► vp и мы можем задать рас- пределение в пространстве XtxNt, принимая для первой компоненты распределение (5) и считая вторую компо- ненту функцией первой по формуле (6). Мы определили распределение вероятностей в пространстве XtxNt — Xt, зависящее^ от — т. е. переходную функцию р из At в Xt. По нашему замкслу распределения должны быть «апостериорными» распределениями для yt с учетом всех 236
наблюдений, сделанных к моменту t. Другими словами, должна выполняться формула («/) = Р; {Vt I аЛ) = Pjx, (Xinam+l3'm+l • • a^tVt) । Рр. (a'm°m+la'm+l • • • atxA) tert При t=m это верно в силу формулы (2), при t > m, про- веряется по индукции с помощью (1) и (3)—(6). Новая текущая плата задается формулой ?(va) = 2 (7) новая финальная плата формулой ~(*Л)= 2 Г(*ЛЬЖ)- (8) &П^П * * * Мы построили его конечной модели Z с неполной инфор- мацией новую модель Z с полной информацией, в которой пространства состояний и управлений несчетны. Пока- жем, что модель Z полунепрерывна (см. § 2.4). Вероятностная мера v на множестве из s точек описыва- ется набором из s неотрицательных чисел, в сумме рав- ных 1. Это ограниченное замкнутое множество в s-мерном арифметическом пространстве и, следовательно, ком- пакт. Поэтому все пространства Xt= Xt xNt H.At=Nt_lxAt компактны и, значит, удовлетворяют условию 2.4.А. Проверим квазипепрерывность соответствия z-> A(z) (условие 2.4.Б). Пусть последовательность состояний хп = тп\ сходится к состоянию zs=zv и управления а,; принадлежат слоям А (zj. В таком случае хп^х, и ак = vBaM, где а„(?А (zj. Ввиду конечности слоя A (zj некоторая подпоследовательность а„к имеет предельную точку а в A (z;;). Ясно, что апк G А (£). Условие 2.4.В требует, чтобы переходная функция р переводила непрерывные ограниченные функции / на Xt в непрерывные функции g на At (см. также 2.4.В'). По Построению переходной функции р имеем ?(У1в/)= 2 I VA)> (9) где меры v, вычисляются по формуле (6). Поскольку мно- 237
Жества At и Xt конечны, нужно лить Проверить, что каждый член суммы (9) непрерывно зависит от меры v,г Мы‘имеем произведение двух функций, из которых вто- рая — р (rcz | v#1aj— непрерывна всюду (см. (5) и (3)), а первая—/(z^vj— ограничена и непрерывна всюду, где вторая отлична от нуля (см. (6)). Ясно, что такое произ- ведение является непрерывной функцией. Непрерывность и ограниченность плат (условие 2. 4. Г) видны из формул (7) и (8). Если модель Z однородна во времени, то модель Z тоже однородна. * * * Начальное распределение р в модели Z расщепляется на распределение в Хт и условное распределение в Ym: = р (zj | zj, (10) где = 2 P-(^J> (I1) a находится по формуле (2). Зададим распределение р в пространстве Xm = XmX.Nm, принимая для первой ком- поненты распределение (11) и считая вторую компоненту функцией первой, вычисляемой по формуле (2). Меру р можно_рассматривать как начальное распределение в мо- дели Z, отвечающее начальному распределению р в мо- дели Z. Имея произвольную историю h = хт»тат+1хт+1ат+2х^2. . . . . -atxt в модели Z, мы можем по формуле (6) рекуррентно- вычислить vm+1, vmt2, . . ., и получить соответствующую- историю h = xmvmam+lxmJ^m+1 . .. atx^t для модели Z1. Это позволяет сопоставить каждой стратегии л в модели Z стратегию ft в модели Z: вычисляя h по h и подставляя h в л (.|Л), мы получаем распределение вероятностей ft (• | h) для очередного управления. Ясно, что таким образом получается любая стратегия ft в модели Z: достаточно положить к (xmvmam+1xm+1vm+1 . .. atx^t) = (хт'тат-1хт+1 atxt) (опуская в правой части аргу- менты vm+1 .. . v,). 4 Формально следовало бы каждое vg(s < t) писать здесь два раза' как компоненту состояния xs и как компоненту управления я,^. 238
Чтобы свести задачу управления в модели Z с непол- ной информацией к аналогичной задаче для модели Z, нужно показать, что оценка w (р, Я) стратегии ft в мо- дели Z совпадает с оценкой w (р, те) стратегии и в мо- дели Z. Для этого достаточно убедиться, что Р£?(^аж) = Ри?(^аж)« Р^(*Л) = Р£Г(*Х)- (12) Обе эти формулы вытекают из следующего общего факта: для любой функции f, любого начального распределения р в модели Z и любой стратегии те в модели Z Р£/ = Pp/OV^+i), (13) где ht = х^тат+1 . . . atxt (наблюдаемая история в мо- мент i) и = 2 (14) Согласно формуле (1.3.2) PI (ZmVmam+rrmMVml 1%2 • • Х^1а1+1) ~ = Р- (*„?□ К («т+1 I Р (*»+lV»ol I Чйт+1) X . X " («т+2 | ’ Р I ’/-1“/) X X " [ам I Zmvmam+1xm+1vm+1 . . . atzp>t)5. Из определений р и р следует, что эта вероятность может быть отлична от нуля только в случае, когда мера vra есть функция от р и хт, вычисляемая по формуле (2), и vg при s>zn является функциями от v#1, as и хв, задан- ными формулой (6). Учитывая определение стратегии те, для таких «допустимых» цепочек можем переписать фор- мулу (15) в виде Р£ ~ = Р (О К+1 I Р (Хт I Vm+1) Я К+21 ХтУтат+1Хт+1) • • • • • • Р I v(«/+1 I VA+l^+l • • О-Л)- (I6) Сопоставим ее с вытекающей из (1) формулой Р£ (ХтУтат+1Хт+1У-т+1ат-И! • ‘ Х(У1а!+1} = 8'Формально следовало бы писать л (vsai+]\хт . . . z5vs); мы опускаем первую компоненту vs управления ^sas+i, равную второй комцо- ренте предшествующего состояния xsvg. 2.3!)
'— Н (ХтУт) (am+l I XmVm) Р (ХтцУтИ I Утат+1) X X Й (ат+2 I ХпРтат+1Хт+1) • • • Р (Х1У(\ УX X (flt+l I ХпРтат+1 Хт+1 - • atXt) ’ (17) — та же функция от ц и .гш). Опираясь на (16) и (17), мы докажем формулу (13) индукцией по t. При t—m нужно показать, что Рр./ (VJA+i) = П . S / (ут)' (18) Ут G ^т В силу (2) для любой . допустимой цепочки гюуАц имеем Р- (^J K+l I V»,) = Р- (Хт) (am+l I V™) (Ут); умножая обе части этого равенства на f (xmvmymam+1), суммируя по хт, ут и ат+1 и учитывая формулы (16) и (17), получаем (18). Далее, согласно (17), левая часть формулы (13) равна Рр.Л (^z-i^-Л)’ где Л = 5 Р {xtyt | yt^at) ft (az+11 ht) f (h(ytai+1), XM+, а правая ее часть, в силу (16), сводится к Pp/i (/^V-P2/), где /1 (^-iv/-A)= 7* (я^ I v/~ia/) (a/+i I ^/) 7 (fyvA+i) = 'сР7н xiVi+< Чтобы получить (13) из предположения индукции, оста- ется проверить, что /1 (^/-1';/-1я/) = S A (^/~i?//-ia/) v/-i (J//-1) (19) (т. е. что выполнено (14) с заменой t на t—1). Поскольку мы имеем дело только с допустимыми цепочками, в кото- рых связано с х формулами (3)—(4), то S Р (ХА । Уг-А) Vi (Vt-i) = Р (xi I VA) (У/)-
Умножая обе части на ft (az+1 \ht) fi(htytat+1) и суммируя по xt, yt и а(+1, приходим к (19). * * * . Подведем итоги. Мы имеем отображение л -> ft мно- жества стратегий модели Z на множество стратегий Z та- кое, что й) = й>(р., л) (20) при любом начальном распределении у и соответствую- щем начальном распределении fi. Отсюда следует, что у (y)=v (ft), и что стратегия ft оптимальна для процесса Z|t тогда и только тогда, когда стратегия m оптимальна для процесса Zri. Следовательно, для равномерной оптималь- ности стратегии ft в модели Z достаточна равномерная оптимальность m по отношению к модели Z 6. Мы проверили, что модель. Z полунепрерывна. Если промежуток управления [т,_п] конечен, то согласно ре- зультатам главы 2 в модели Z существует простая равно- мерно оптимальная стратегия <Р = фт+1фт+2 • • • Ф«> гДе Ф/ ~~ (измеримое) отображение пары г в Иными словами, существуют (измеримые) функции (21) сопоставляющие каждому наблюдаемому состоянию xt и любому распределению вероятностей для ненаблюда- емого состояния yt очередное управление а/+1 независимо от всей прочей информации о предшествовавшей истории и такие, что стратегия 'р = ф,иН1фш+2 • • • Ф„ равномерно опти- мальна в модели Z. Для модели с неполной информацией получается следующий способ построения стратегии, являющейся оптимальной при всех начальных распре- делениях у: надо на каждом шаге выбирать управление (21), где xt — наблюдаемое состояние, а. vt — распределение вероятностей для ненаблюдаемого состояния yt, которое определяется по _х с помощью формулы (6) (начальное или «априорное» распределение vm определяется по у с по- мощью формулы (2)). В случае промежутка управления [0, со) для сущест- вования в модели Z простой оптимальной стратегии tp = 6 Обратное утверждение v (Д) = Дв (не каждое распределение вероятностей на Х,„ X Nm получается из некоторого распределе- ния |л на Хт X Ут). i |g Е. Б. Дынкин, А. А. Юшкевич
= ф1<|>2. . . . . . достаточно дополнительно потребовать, например, чтобы сходился ряд СО 2 max |д(^_л)| . (22) 1=1 (см. § 5. 6). Этот- ряд сходится, в частности, если модель Z однородна и коэффициент дисконтирования р <С 1. Согласно § 6. 6 в этом случае в модели Z существует стационарная опти~ малъная стратегия (в которой селектор один и тот же для всех моментов времени t). * * * В конкретных задачах часто приходится иметь дело со случаем, когда слои Л (л:) при разных х пересекаются, а переходная функция и текущая плата на шаге t зависят, кроме yt_± и at, и от xt^. Это случай сводится к разобран- ному введением новых управлений a't=xt^at (ср. § 1.2). Предположим теперь, что слой А (х) не зависит от х, переходная функция р (xtyt | х^у^а^ и текущая плата ? не зависят от xt_lt т. е. что наблюдаемое состоя- ние не влияет ни на возможности управления, ни на даль- нейшую эволюцию системы дальнейший дохюд. В этом случае оператор Т в модели Z переводит любую функцию от х, v в_ функцию от одного v. Поэтому оценка v (х, v) модели Z не зависят от х. Легко видеть, что и селекторы в формуле (21), задающие оптимальное управление, можно выбрать не зависящими от xt. § 3. Задача о двуруком бандите Одна из наиболее простых задач управления по непол- ным данным известна в литературе как задача о двуруком бандите. Это — название игрального автомата, имею- щего «две руки», куда можно опускать монеты одного и того же достоинства. Монета либо теряется, либо возвра- щается с определенным выигрышем, не зависящим от руки. Для одной руки вероятность выигрыша равна рг, для другой — р2. Мы будем считать, что р± Д> р2. Если бы мы знали, является ли выгодной правая или левая рука, то могли бы играть все время с выгодной рукой. Суть задачи состоит в том, что положение выгодной руки неизвестно,
(Так как оно не меняется, то скрытая информация мини- мальна и составляет один бит.) Выигрыш или проигрыш становится немедленно известным, и этим исчерпывается вся информация, приобретаемая за один шаг. В начальный момент задается распределение вероят- ностей для положения выгодной руки (оно суммирует всю информацию, которая имеется до начала игры). Учитывая результаты игры, можно вычислить в каждый момент «апостериорное» распределение. Замечательный по простоте и наглядности окончательный результат состоит в следующем: независимо от продолжительности игры нужно каждый раз иметь дело с той рукой, шансы которой оказаться выгодной представляются в мот момент выше. Чтобы получить этот результат, построим соответ- ствующую нашей задаче однородную модель с неполной информацией. Ненаблюдаемое состояние yt не зависит от t. Припишем ему значение 1, если выгодная рука левая, и значение 2, если она правая. Будем считать на- блюдаемое состояние Ж) равным 1 в случае выигрыша равным 2 в случае проигрыша на шаге t. Управление в каждый момент состоит в выборе левой или правой руки. Мы положим at=l, если выбирается левая рука, a at=2, если правая. Таким образом, пространства наблюдаемых и ненаблюдаемых состояний и пространство управлений состоят каждое из двух элементов X=Y=A — {1, 2). Переходная функция р определяет распределение веро.- ятностей для xtyt в зависимости от значений у(_га( 7. Чтобы короче записать переходную функцию, удобно обозначить через (ж) вероятность исхода х для выгодной руки и через p2(z) — для невыгодной, так что = Р,-(2) = 1-р< {£ = 1,2}. (1) Переходная функция выражается через р4 (х) формулой р {ху’ | уа) == при у' = у — а, р2(х) при у' =у^ а, L 0 при у' у. (2) 7 Поскольку пространства управлений (слои) Л(Ч в разных со- стояниях х пересекаются (они даже совпадают), то распределение вероятностей для xtyt могло бы зависеть не только от yi-\ at, по и от х‘_, (ср. соответствующее замечание в § 2). В нашем случае значение х^, очевидно, не влияет па это распределение. 16* 243
Доход от каждой игры может принимать два значения, зависящие от устройства автомата. Обозначим их через d2 и d2, причем будем считать, что d± )> d2. В соответствии со сноской на стр. 233 можно заменить доход на шаге t его математическим ожиданием относительно распределения р (• | у^а^) и ввести текущую плату 2(1 при у = а, >где < = |2 п|1п (3) Значения d2 и d2 для анализа задачи несущественны. Наиболее компактные формулы получаются, если выбрать их так, чтобы . . Pi - Р2 при У = «, ,.ч q ~ I р.2 — р2 при у a Q (для этого достаточно положить d2=2—pr—р2, d2 = —pr— —р2). Финальная плата равна нулю. Согласно общим результатам § 2, нужно перейти к мо- дели Z с полной информацией. Мы имеем дело со случаем, когда слой Л(ж), переходная функция р (• | хуа) и плата q (хуа) не зависят от х. Поэтому применимо замечание в конце §_2, и при построении оптимальных управлений в модели Z мы можем рассматривать действие оператора Т на функции в пространстве N. Согласно формулам §§ 2 и 1.6 имеем Г/(>) = max [^/(v), £/,/(>)], ' (5) где UJ(v) = q№ + ^P(x\va)f(v') (а = 1, 2) (6) и v' — распределение для ненаблюдаемого параметра yt=y0, в которое переходит распределение v при управ- лении а и наблюденном значении х. По формулам (2.3) — (2.6) и (2)—(4) имеем Р (* 1 vl) = Pj (х) v (I)-)- р2 (х) v (2), р (х | v2) = р2 (х) v (1) 4- Р1 (х) v (1), 244
(у I v2z) = Pg(^) (y) P (x I v2) ’ q (pci) = (Л — p2) [v (a) — v (a)]. (Мы полагаем a = 1 при a = 2 и a = 2 при a = 1.) Распределение v однозначно задается числом 8 = v(2)-v(l); (8) в самом деле, >(2) = Ш. . (9) Поэтому пространство N распределений на Y можно отож- дествить с отрезком [—1 ^8^(1]. Учитывая формулы (7)—(9), можем в новых обозначе- ниях переписать формулу (6), определяющую операторы Ua, в виде UJ (8) = -2Л8 + - Ж) / ) + + «22 + Ж)/(А±^), (Ю) Д+ <2iB <21 + Д5 £72/(8) = 27?8 + (<21 + Л8)/( где Г) _ Pi W + Рг (*) + 2 • ji___Pl (И Ра (И ________ Ра (2) Pi (2) л — 2 — 2 (И) (в правых частях выражений для UJ аргумент v' заме- няется на 8' = v' (2) — v' (1), вычисляемое с помощью (7)). Мы хотим доказать оптимальность стационарной стра- тегии, определяемой селектором ( 1 при о <+ 0 t(S) = (2 при 8>0 (12) (для определенности мы считаем, что при 8=0 выбирается 245
правая рука). Для этого нужно проверить, что При h Т'р = тпо. (13) Заметим, что в силу (12) т ПрИ 8 }~kw) при <0, >0. Положим /в = го. (15) Для доказательства (12) любом п достаточно убедиться, что при T^fn=Tfn. (16) Положим gn = UJn - Ulfn- (17) Согласно (14) и (5) формула (16) будет доказана, если мы установим, что (В) > О (—1 1). (18) Это совсем легко доказывается в частном случае, когда р2=1—Рх (т. е. вероятность выигрыша при выгодной руке равна вероятности проигрыша при невыгодной руке). В самом деле, из (I) и (П) видно, что в этом случае Q1=Q2, и из (10) следует, что bgn (8)—47? В2. В общем случае удобнее доказывать индукцией по п несколько более силь- ное утверждение, а именно: (A) gn— неубывающая функция и £„(0) = 0. (19) Для проведения индукции нам понадобятся следую- щие свойства операторов U : a) t71t72=C/2t71; б) оператор U2 переводит неубывающие функции в не- убывающие. Утверждение а) проверяется элементарной выкладкой с использованием формул (10). Оно имеет следующий на- глядный смысл: если мы играем дважды, опуская монету сначала в одну, а затем в другую руку, то результат не зависит от порядка этих рук. 246
Поскольку функция 2R 8 — неубывающая, то доста- точно проверить утверждение б) для оператора Sf (§) = (8) - 2Я8 = X (8) / [а (8)] + р (8)/ [₽ (8)], где Х(8) = (?х + Я8, р(8) = £2-Я8, Непосредственно убеждаемся, что на отрезке [—1, 1] функции X, а и р — возрастающие, что о. > Ви Х+р=1 (графики функций а и 8 показаны на рис. 8.1). При —1 < 82 1 имеем X (82)—-X (80= Р (80— р (82) и, следовательно, Sf (82) - Sf (8Х) = [X (82) - X (80] {/ (а (82)] - f [₽ (83) ]} Д- + М§0 (/[а (8а)1 — / [а (801)+ + р(§0 {/[₽(82)1-/[₽(81)]- Если f — неубывающая функция, то все квадратные скобки неотрицательны, так что функция Sf — тоже неубывающая. Вернемся к доказательству предложения (А). При п—0 имеем f0=Q и go=U2O—1710=4Л8; эта функция удовлетворяет (А). Допустим, что (А) справедливо при некотором п О, и докажем, что тогда оно верно и при н+1. Из (10) видно, что Щ ~ Л) = (-1Г 2*8 -j- UaF. - Ufy 2'<7
поэтому, используя а), можем переписать функцию g„+1 = = UJn+1 - UJn+1 = U2Tf„ - UJtn в. виде gB+i = t^ + W • (20) где W = U2fn-Tfn. (21) Из предположения индукции и формул (5) и (17) сле- дует, что (О при S <0, Ф(8) = —Ф(—8) = ... к,Л6) при 6>о и что функция Ф — неубывающая. Из (22) и (10) выте- кает, что = (-8), я, следовательно, формула (20) принимает вид ё^)=игФ^-и2Ф(^. (23) В силу б) функция С/2Ф — неубывающая, и из (23) следует, что этим свойством обладает и функция g)z+1. При 8=0 получаем из (23), что g„+1 (о)=0. Итак, предложение (А) верно и для номера и-j-l. Оптимальность стационарной стратегии, порожденной селектором (12), доказана. § 4. Сведение к модели с полной информацией. Общий случай До сих пор мы предполагали, что пространства состоя- л ний и управлений конечны. Это предположение слишком стеснительно, так как наиболее естественные приложения ; приводят к более общим пространствам (в частности, та- ) ново большинство примеров, рассмотренных в предыду- ; щих главах). Основная идея § 2 состояла в том, чтобы ) рассматривать как состояние пару zv, где х — наблюда- ) ембе состояние, a v — распределение вероятностей в про- ’ странстве ненаблюдаемых состояний. Эта идея применима и в общем случае, но ее реализация технически сложнее, 1 так как вместо элементарных выкладок с условными , вероятностями в конечных пространствах приходится иметь дело с более громоздкой теорией условных распре- делений, изложенной в добавлении 4- 248
Итак, предположим, что Xt, Y_t и At — произвольные борелевские пространства, что переходная функция pt(dxtdyt | у^ар) и текущая плата q измеримы по совокупности yt_!at, а финальная плата г (xtlyt) измерима по совокупности хпуп. Будем также считать, что эти про- странства и функции обладают всеми остальными свой- ствами, содержащимися в требованиях 2.2а) —2.2е). Стра- тегия л теперь, помимо наблюдаемой истории, зависит от начального распределения на множестве Ym и должна быть измерима по совокупности всех этих аргу- ментов. Распределение в пространстве путей, отвечающее на- чальному распределению р и стратегии л, задается фор- мулой р£ (^mdymdam+1dxm+1dym+1 . .. dandxndy,^ = = И (dxmdym) л (damvl | хпрт) p (dxm+1dym+11 ymam+1) ... • • • " (dalt | xmvmam+1xm+1. .. a^x^) p (dxndyn | yn^a„). (1) Здесь vm — условное распределение ут при заданном хт. Это — измеримая функция от хт, удовлетворяющая ра- венству (dxmdyj = р (dxm) (dym | xm) (2) (см. добавление 4; формула (2) не определяет функцию однозначно, но мы фиксируем какой-нибудь вариант этой функции). Пространство Nt вероятностных мер на Yt тоже явля- ется борелевским пространством (см. добавление 5). Как и в дискретном случае, новая переходная функция сопоставляет каждому значению az = v, распределение в пространстве XtxNt, сосредоточенное на парах х{\, где является однозначной функцией от xt (вид этой функции зависит от а(). Как и в § 2, мы отправляемся от распределения в пространстве Xt X Yt Р (dxjdyt | dj,) = j p (dxtdyt | у (^) (ср. формулу (2. 3)).' Формулы (2. 4)—(2. 5) заменяются на Р (.dxtdyt I «/) = Р idxt I 4t (dyt J afxt) (4) И P (dxt \di) = p (dxt x Yt I at). (5) 249
Вместо элементарной формулы (2. 6) для определения мер v, (• | dfxt) мы должны теперь воспользоваться резуль- татами добавления 4. Согласно лемме ,2 из § 1 добавления 5 мера (3), а значит и мера (5) зависит измеримым об- разом от af. Поэтому v, (• | atxt) можно считать измери- мым по совокупности atxt (см. сноску на стр. 309). Отсюда легко выводится, что мера в пространстве XtXNt, зада- ваемая парой р (dxt | at), v<(. | atx^), также измерима относительно at. Пусть (dx) — мера на X, измеримо зависящая от а, и <ра (х) — измеримое отображение произведения А X X в пространство Е. Тогда образ меры (л при отображении <ра зависит измеримо от а. Действительно, если / — любая измеримая функция в пространстве Е, то f [<ро (х)] измерима по совокупности х и а и согласно лемме 2 из § 1 добавления 5 функция F (a, [?я (ж)] ря, (dx) (6) х измерима по совокупности а и а'. Следовательно, F (а, а') измерима по а. Но при /=хг имеем F (а, а)=р.в (Г). Текущая и финальная платы в новой модели задаются формулами Нетрудно проверить, что функции р, q и г-обладают свойствами 2.2а)—2.2.е). Обозначим определяемую ими борелевскую модель с полной информацией через Z. Если Z однородна, то однородна и модель Z. Предостав- ляем читателю убедиться, что из нетривиальное™ мо- дели Z вытекает нетривиальное™ Z. * * * Каждому начальному распределению р в модели Z мы ставим в соответствие начальное распределение в мо- дели Z следующим образом. Пусть (• | х„) — мера в про- странстве Ym, введенная формулой (2). Измеримое ото- бражение v(- Iх™) 250
пространства Хт- в пространство Nm индуцирует измери- мое отображение хтУт ( • I (8) произведения XmxYm в произведение XmxNm. Образ р меры р при отображении • (8) служит начальным распре- делением в модели Z. Отображение тс -> тс стратегий в модели Z в стратегии модели Z делается, как в § 2, только vf теперь находятся рекуррентно из разложения (4). Для получения основ- ного равенства ш(р, тс) = 2а(р, тс) (9) нужно показать, что для любой ограниченной измеримой функции / и любых fl, тс = <10) где ht = xmvmam^xm+1 . .. atxt II 7 (й?л+1) = / (Ma+i)'4 С11) У/ Это доказывается так же, как и аналогичное утверждение в § 2, нужно только всюду заменить суммы интегралами. * * * Из равенства (9), как в § 2, следует, что если страте- гия тс оптимальна во вспомогательной модели Z с полной информацией, то соответствующая стратегия тс опти- мальна в модели Z. То же верно и для е-оптимальных стра- тегий. Для оптимальности (е-оптимальности) страте- гии it при начальном распределении р необходимо и достаточно оптимальности (е-оптимальности) тс при соответ- ствующем начальном распределении jl. Если тс стацио- нарна, то и тс стационарна. Мы доказали соотношение (9), считая промежуток управления конечным и платы д' и г ограниченными сверху. Легко видеть, что (9) сохраняет силу при неограниченных сверху неотрицательных платах и бесконечном проме- жутке управления. Если плата принимает значения раз- ных знаков, то полезно рассмотреть ее положительную 251
и отрицательную части. Заметим, что для любой функции q q+i^q+, (12) где волна обозначает операцию, определенную форму- лой (7). Поэтому из р-суммируемости сверху (снизу) мо- дели Z следует [Х-суммируемость сверху (снизу) мо- дели Z. Начальные состояния модели Z — это пары xv, где х — наблюдаемое начальное состояние в модели Z, v — априорное распределение для ненаблюдаемого началь- ного состояния. _ Поэтому для суммируемости сверху (снизу) модели Z достаточно, чтобы при любых х и v модель Z была хv-суммируема сверху (снизу). Учиты- вая неравенства (12) и формулу (2. 12), замечаем, что из ограниченности сверху^ (снизу) модели Z следует ана- логичное свойство модели/; при этом под ограниченностью сверху модели с неполной информацией понимается су- ществование положительных функций ct (zv) таких, что при достаточно больших t для любой стратегии ft р*У ct (*>) (*ЕХ и ряд 2cz сходится в каждой точке zv (ограниченность i снизу модели Z определяется аналогично). Комбинируя эти результаты с результатами глав 3—6, можно получить те или иные условия существования опти- мальных стратегий в Z. Например, из результата П'а § 5.1 следует, что если модель Z у.-суммируема сверху и огра- | ничена сверху, то для любого е )> 0 найдется простая | стратегия (в модели Z) такая, что w (у, v (у)— е. 1 Или из § 6.8 вытекает, что если в однородной модели Z ) плата q ограничена и коэффициент дисконтирования В меньше 1, то для'любого е>0и любого начального рас- | пределения р найдётся стационарная стратегия tp такая, I что и> (у, £у) и (у.)—е. | § 5. Задача о стабилизации Вернемся к задаче о стабилизации (см. §§ 1.2, 2.11, 3 6.12 и 7.12) и будем считать, что в каждый момент t состоя- '> ние системы наблюдается с некоторой ошибкой Как всюду в этой главе, обозначим наблюдаемое состояние через хг Оно связано с истинным состоянием yt формулой (* = 0,1,2,,..) ’ / ’ fl) j 252
Управления и случайные возмущения системы обозна- чаются, как и ранее, через а, и sr Таким .образом, рекур- рентное уравнение, описывающее фактическую (ненаблю- даемую) эволюцию системы, теперь имеет вид yt = yt^i —(2) а текущая плата равна . У {yt-iat) = —b (У1-1 — atY — Са1 (* = 1,2,...) (3) (в случае полной информации Необходимо ввести еще дополнительные предположения относительно начала процесса. Мы будем считать, что управление начинается в момент, когда система выведена из состояния равнове- сия случайным возмущением s0, так что Уь = «о- (4) Законченные результаты получаются только в пред- положении, что все случайные -величины s0, с0, зг, ... распределены нормально. Предположим, кроме того, что они взаимно независимы, и пусть Ms, = ML = 0, Ds—з2, DL = t2. ' (5) Не ограничивая общности, можно считать, что х=1. (этого всегда можно достичь с помощью выбора единицы измерения). Линейные операции (1) и (2) не выводят за класс нор- мальных распределений. Если (т]1, т;2)— нормальный случайный вектор с параметрами М7]. = с<, М (т]. - с,.) (т)у - су) == (г, 7 = 1, 2), то условное распределение т]2 при известном значении -rjj тоже нормально с параметрами 8 М (т]2 | 7]i) = с2 -j- (т11 - q), П (6) В(Ш)=^22(1- ЛЧ- Поэтому мы будем иметь дело только с нормальными рас- пределениями v, для ненаблюдаемых состояний yt. Нор- мальное распределение определяется двумя парамет- рами—математическим ожиданием т и дисперсий D — в См^, например, Г. Крамер [1], глава 21, пункт 12. 253
и поэтому пространства Nt можно отождествить с полу- плоскостью 2V={(m, D) : D 0}. Опишем остальные элементы вспомогательной модели Z, с которой мы имели дело в §§ 2 и 4. Начальное распреде- ление р. в пространстве X X N строится по совместному распределению р пары (ж0, у0) = (s0 + £0, so)- Последнее нормально и в силу (5) имеет параметры Ma:o = Myo = O, D.r0 = <32-|-1, Dy0 = з2, Мжог/о = <з2. (7) Отсюда согласно формулам (6), условное распределение >0 ( | .г0) имеет параметры °2 П °2 /О\ то а2 ц-1 З'о» Во — а2 • (8) Переходная функция р сопоставляет каждой паре Dt l)at распределение вероятностей для xt и условное распределение (-| xt) = (mt (xt), Dt (xt)). Согласно формулам (1)—(2) и (5) нормальное распределение р (-| пары xtyt имеет параметры D^ = JDz_1 + 32 + l, M (xt - Mzz) (yt - Myt) = + a2. Параметры нормального распределения p (dxt | содер- жатся в формулах (9), а параметры нормального распре- деления (dyt | Vt-jd/Xi) согласно формулам (6) и (9) равны ~ + ®Д, (W) /) д/-д + °2 /11-. Формулы (10)—(И) верны и при t — О, если положить m_Y = а0 = Dr = 0. (12) Для текущей платы q по формулам (4. 7) и (3) имеем выражение Gz-A) = Mg - atf —ca*. (13) По общей теории для управления в момент t сущест- венно только знание ae, xs, т* и Ds (s < t). Дисперсии Dt 254
вычисляются по формулам (8) и (11) независимо от на- блюдений. С другой стороны, по формулам (8) и (10) можно выразить х0, xlf . . xt через т0, ти . . mt и аг, . . ., at. Поэтому достаточно следить только за эво- люцией mt. Из формул (1), (2), (8), (10) и (11) вытекает, что = + (« = 0,1,2,...), (14) где st ~ ~ mt-i + st 4~ = 2; ...) (15) (мы считаем, что у_1=О). Поскольку постоянные слагаемые в текущей плате не влияют на разность оценок w (х, п)— —w (ж, р) двух любых стратегий, то при отыскании опти- мальной стратегии эти слагаемые можно отбросить и за- менить текущую плату (13) на = — — (16) Формулы (14)—(16) определяют модель с полной ин- формацией, в которой состояниями служат числа это — изученная ранее задача о стабилизации с полной информацией, только с другими случайными возмуще- ниями §г В предыдущих главах предполагалось, что случайные возмущения независимы, одинаково распре- делены и имеют нулевые математические ожидания. Мы покажем, что для st выполняются все эти свойства, кроме равнораспределенности. Разность zt = Vt — ™t имеет нормальное распределение с параметрами, (0, Dt). В самом деле, поскольку vz —это условное распределение для yt при наблюденной истории h, то т^ЩуДК), = М [(^ — ти.#)21 Л]. Стало быть, Мнг.^ = ММ (уг | Л) = Му^ (17) И Dt = ММ [(у, - 1 h] = М (yt - = Mz*. (18) Формулы (17)—(18) нетрудно вывести и по индукции из 255
рекуррентного соотношения для 2,, вытекающего из (1)-(2) и (10)—(И): = + S (* = о, 1, 2, ...), (19) где 2^ = 0 (20) - и = (21) Опираясь на формулы (17)—(21), покажем, что случай- ные величины sf некоррелированы и, следовательно, не- зависимы. Положим t П (1 — Dk) прд S < t, к=8 1 при S > t. (22) Из (19) легко выводится, что при Т 3> t + Q^M + • • • + Q^T-.. (23) Из (15), (17) и (0) следует, что Ms) = 0. (24) Из (15), (21) и (23), используя ортогональность z,_р st, s/+j, . . sT1, r,T_Y и формулы (5), получаем при 0 <Z Т DtDT = М (zt_1 -|- st -|- ^) (zy_j sT -]- Су) = = + (?йм (st + у = = Qr-\ [(1 - Df) Dt^ + (1 - Dt) - D J. В силу (И) квадратная скобка равна 0. Из (15), (18) и (5) имеем П2 ^ = ^(^_1 + о2 + 1) = Т^; • (25) (см. (И)). Первоначальная задача свелась к задаче управления си- стемой, заданной рекуррентным уравнением (14) с неза- висимыми случайными возмущениями St. При постоянной дисперсии возмущений последняя задача была решена в §§ 2.11 (для конечного интервала управления), 6.12 (для бесконечного интервала управления и дисконти- рованного дохода) и 7.12 (для среднего дохода за один шаг). 256
Легко видеть, Что и в общем случае, Когда случайные воз- мущения имеют различные распределения, оптимальные стратегии остаются теми же, а оценка модели изменяется на константу. Например, в задаче максимизации среднего дохода за единицу времени асимптотическая оценка v дается формулой v = ‘—bD—оЧ, (26) где I — положительный корень уравнения Z2 + &Z-&c = 0, (27)- а — положительный корень уравнения Z -> СО да = о - (28) (ср. формулу (7.12.16); проверку предоставляем читателю). * * * Условное математическое ожидание mt случайной ве- личины yt является естественной оценкой yt по наблюден- ной истории h (оно представляет собой функцию от h, для которой величина М [yt—/ (Zi)]2 минимальна). В этом параграфе мы на простом примере получили теорему разделения, утверждающую, что при весьма общих усло- виях оптимальное управление линейной гауссовой систе- мой с квадратичным функционалом потерь расщепляется на 1) вычисление наилучших оценок ненаблюдаемых пара- метров по наблюдаемым, 2) оптимальное управление си- - стемой, полученной из данной заменой ненаблюдаемых па- раметров их оценками. 17 Е. Б. Дынкин, А. А. Юшкевич
Глава 9 ВОГНУТЫЕ МОДЕЛИ. МОДЕЛИ ЭКОНОМИЧЕСКОГО РАЗВИТИЯ § 1. Модель Гейла Вернемся к модели Гейла, описанной во введении к книге. В этой модели мы имеем дело с неотрицательными векторами m-мерного арифметического пространства: i-я координата описывает количество г-го продукта. Производственный процесс С характеризуется парой (£, rt) (£ — вектор затрат, т] — вектор выпуска). Указывается начальный запас продуктов г10 и для каждого i=l, 2, . . . . . ., п задается множество производственных процессов, технологически осуществимых в период t (технологическое множество'). Планом называется последовательность про- изводственных процессов Cz = (^, tqz), удовлетворяющих условиям (i = l, 2, ..., и). (1) Целью управления является выбор плана с максимальным значением полезности ?i(4) + 9Ш+ •••+?„ (U- (2) Предполагается, что при каждом t а) Технологическое множество оГ t выпукло \ замк- нуто и содержит элемент (0, 0). б) Множество <3"t компактно или является конусом, не содержащим элементов (0, т]) с 7)^0. 1 Множество еТ" в линейном пространстве называется выпуклым, если вместе с любыми векторами С и t" оно содержит все их вы- пуклые комбинации а(/ + рС" (а > 0, р > 0, а-|~р=1). Оно на- зывается конусом, если, кроме того, вместе с С & содержит все век- торы at (a > 0). Функция q (t), заданная на aZ, называется вогнутой, если (при тех же условиях на а и р) g(at' + pC") >aq(C) +pg(C"). 258
в) Функция полезности qt вогнута и полунепрерывна сверху на tf t 2. Свойства вогнутости и полунепрерывности сохраня- ются, если распространить функцию qt на множество R^”1 всех неотрицательных 2пг-мерны.х векторов, полагая q( = =— оо вне tf t. Условие (1), определяющее план, можно переписать в виде (3) где tf t (с) обозначает множество производственных про- цессов (с, т^) С tf t с затратами £, не превосходящими с. Предположим теперь, что технологические возможности и оценки полезности подвержены влиянию случайных факторов. Действие их в период t описывается парамет- ром sz принимающим значения из некоторого борелевского пространства St. Множество Г>Дt и функция qt зависят от «истории» $*=$0^. . ,s(. Мы предполагаем, что эта за- висимость измерима 3 *, что при каждом значении sl выпол- няются условия а)—в) и что функции qt {s*, Cz) ограничены сверху. Совместное распределение s1( s2, • • •» s„ считается известным. Набор измеримых функций (sz) называется пла- ном, если при всех значениях параметров s1, s2, -,sri выполняются условия (1). План оптимален, если на нем достигает максимума математическое ожидание суммы (2). Существование оптимального плана будет выведено в сле- дующем параграфе из одного более общего результата. Из того же результата вытекает существование оптималь- ного плана в незамкнутой модели Гейла. В такой модели помимо множеств tft и функций qf заданы измеримые функции Az (sz) (£ = 1, 2, . . ., п), значениями которых являются неотрицательные «г-мерные векторы. Эти век- торы истолковываются как ресурсы, поступающие извне. 2 Если вогнутая функция q определена на выпуклом замкнутом мно- жестве aZ, то она непрерывна во всех внутренних точках aZ, но может быть разрывна на границе aZ. Если — отрезок, то q обя- зательно полунепрерывна снизу, по уже в двумерном случае это не так (см., например, Р. Рокафеллар [1], § 10). 3 В .соответствии с § 2.6 мы говорим, что множество Z(s) измеримо зависит от s, если расстояние aZ(s) от любой фиксированной точки является измеримой функцией от s. 17* 259
В определении плана условия заменяются на ШкХНМ*') («=1, 2, ..., п) (4) (при t=l под т)о (s°) понимается неслучайный начальный запас продуктов 7j0). В частности, при Аг=0 получается исходная (замкнутая) модель Гейла. § 2. Вогнутые модели Рассмотрим модель управления, описываемую сле- дующей схемой. Заданы множества Со, Clf . . ., Сп и каж- дому С из Ct_i сопоставлено непустое подмножество. 711 (С) множества Ct. Фиксировано начальное состояние Со из Со и задана функция qt на множестве Ct (2=1, 2, . . ., ri). Среди наборрв Сх, С2, . . ., Ся, удовлетворяющих условиям (t=i, 2—п), требуется выбрать такой, для которого сумма 41 (У + • + 4п (У достигает наибольшего значения. Мы будем говорить, что эта модель вогнута, если а) Со, С1Г . . ., Ск — выпуклые замкнутые множества в конечномерных векторных пространствах. б) Функции qt вогнуты и полунепрерывны сверху. в) Множества пар (Cz_x, С;), удовлетворяющих усло- виям УХ.) выпуклы. г) Соответствия Zt (£)! (С £ Ct) квазинепрерывны (см. § 2.4). Модель Гейла является частным случаем вогнутой мо- дели: роль Со играет вектор начальных ресурсов vjo, а роль С; при t > 0 — производственный процесс (^, t]t). При этом Ct=R^m и Zt (С) = (т1) при С = (?, т]) £ Ct_r. Условия а), б) и в) выполняются очевидным образом. Уело вие г) требует, чтобы цри (?«. (5,'.- (=». У -*(£> ’ll (1) 260
существовала подпоследовательность^ , ц ), сходящаяся к точке (5, tie&'t, Неравенство 5 < ц' получается предельным переходом из < >]', принадлежность (?, ц) множеству е%t — из замкнутости t. Суще- ствование сходящейся подпоследовательности (?n!c, т]в!с) триви- ально, если f компакт (см. условие б) из § 1). Предположим те- перь, что t — конус, не содержащий элементов (0, ц) при Достаточно проверить, что последовательность (?я, г;.,) ограничена, Ограниченность вытекает из (1). Рассмотрим векторы (??. ’Й) = Ш"1 (5„, гДе hl —Длина вектора ц. Если последовательность не ограничена, то найдется ее под’ последовательность т]и , для которой | г]п | оо и т(° имеете пре- дел т]*. Очевидно, ^->0. Так как конус t содержит все элементы ’In); то он содержит и предельный вектор (0, ?)*). Поскольку |к]*| = 1, это противоречит условию б) из § 1. Предположим теперь, что задано распределение веро- ятностей в произведении борелевских пространств 8хХ Х82Х. . . XSU и что функции qt и соответствия Zt зависят (измеримым образом) от истории s<=s1s1 . . .sf. Пусть при каждом значении s* выполнены условия а)—г) и функции qt (s1,^) ограничены сверху. План — это после- довательность измеримых функций (з(), удовлетворяю- щая при всех значениях случайных параметров условию ^(?)CZz (?, (?-!)) (^=1, 2, ..., п). (2) Стохастические варианты модели Гейла (замкнутой ( и незамкнутой) являются частными случаями вогнутых моделей: формулы (1. 4) получаются из (2), если положить = ^“Ь^Д^))- (3) Мы будем называть марковским случай, когда зх, з2, . . зи — цепь Маркова и когда qt и Zf зависят лишь - от st (и не зависят от з1, . . зг_х). Общий случай легко сводится к марковскому: достаточно принять историю з* = =зх з2 . . . зг в качестве характеристики ситуации в мо- мент t, заменяя таким образом пространства St на 8г — =8хх82х. . • Х8г. В силу добавления 4 существуют рас- пределение р. (dsj) и условные распределения pt (ds?+r |s*). Это — начальное распределение и переходная функция марковской цепи sl, s2, . . sn. В этом и следующем пара- графах мы будем иметь дело только с марковским случаем. 261
Чтобы включить описанный управляемый процесс в об- щую схему, рассмотренную в предыдущих главах, будем считать в цепочке C0s1C1s2. . . пары Czsz+1 состоя- ниями xt, а пары szC,( — управлениями at. Точнее, класс управлений A (•'ly.J, возможных в состоянии > состоит из пар at=s£t, где £ Zz(Cz_iS(), причем управление at ~ переводит систему в состояние х( = Czs/+1, где sz+1 имеет распределение pt (dsM | sz). Опе- раторы Ut и V{ (см. § 2.5) задаются в нашем случае формулами uti (s£t) = Qt (SA) + J f ^tsi+i) Pt №м I SJ> <4) St ^(W/)==si1p £(sA) <5) (финальная плата равна 0). Каждому плану соответствует некоторая стратегия в смысле предыдущих глав. Это — стратегия специального вида, сопоставляющая каждой истории fe=C0s1C1s2. . . 1S, не распределение вероятностей в пространстве управлений, а однозначно определенное управление at=s^t. С другой стороны, каждой стратегии указанного специального вида отвечает план, получаю- щийся, если последовательно исключить Сх, . . ., из выражения через историю h. Мы построим для нашей модели простую равномерно оптимальную стратегию <р = =Ф1ф2 • • Здесь ф,, —измеримый селектор соответствия xt_r -> A (xt_t). Всякий такой селектор имеет вид — si^t (в) где Ft — измеримый селектор отображения -> Zt Формулы . (7) определяют оптимальный план. Мы будем называть марковскими планы, которые определяются формулами (7) с помощью некоторых измеримых функций Ft. Таким об- разом, из существования простой оптимальной стратегии вытекает существование марковского оптимального плана. Доказательство существования простой оптимальной стратегии основано на той же главной идее, которая была использована в главе 2. Именно, на каждом из пространств 262
Af~StxCl и Xt=CtxSi+1 будет выделен класс функций L (XJ, L (Xt) со следующими свойствами: А)С7(ОД)££(4), V^A^LtX^ (i = l, 2, п). Б) Если gtQL (AJ, то существует измеримый селек- тор-^ отображения х —> А (х) (ж£-Х\_1) такой, что Vtgt Опираясь на эти свойства^ можно построить простую оптимальную стратегию следующим образом (ср; § 2.5): вычисляем функции и{ и vt по рекуррентным формулам ^ = 0, ut = Utvt, (i=l, 2, п), (8) а затем находим селекторы из уравнений СМ = vt (существование измеримого решения обеспечивается свой- ством 2)). Интегрируя оценку v0 (С^Д по начальному распределению р. для slt получаем выражение (Ч>) = J 'ъ (W Р- WM (9) Si для максимального дохода, возможного при начальном состоянии Со (ср. формулу v (р) = р.н из § 2.5). Пространства L вводятся в следующем параграфе. § 3. Пространства L Доказательство утверждений А)—Б) предыдущего па- раграфа опирается на ряд лемм, которые удобнее форму- лировать в нейтральных обозначениях. Пусть М — выпуклое замкнутое множество в /с-мерном евклидовом пространстве, Е — произвольное измеримое пространство. Обозначим через L=L (Ex М) совокупность ограниченных сверху числовых функций f (у, z) (у £ Е, zQM), измеримых по у, вогнутых и полунепрерывных сверху по z. Лемма 1. Если / (z) — во гну тая'.функция на М, то верхняя грань f на М совпадает с верхней гранью / на любом всюду плотном в М множестве М'. В самом деле, пусть / — верхняя грань f на М'. Достаточно доказать, что / / всюду на М. Во внутрен- 263
них точках множества М это неравенство выполняется, поскольку внутри М функция / непрерывна (см. сноску на стр. 259). Если z0 лежит на границе М, то отрезок [z0, zx], соединяющий z0 с внутренней точкой zx, лежит внутри М (если не считать точку z0). Поэтому / ^ / во всех точках этого отрезка, кроме, быть может, z0. Но во- гнутая функция на отрезке полунепрерывна снизу (см. ту же сноску). Поэтому и / .(z0) /• Лемма 2. Каждая функция / из класса L является пределом невозрастающей последовательности функций, непрерывных по z и измеримых по у. Выберем в М всюду плотную последовательность (zm) и положим /™(У> г) = /(У. zm)~-n\z-zm\, fn = SUP fm,C ni где | z| обозначает длину вектора z. Ясно, что /к+х<^/„ и что /я измеримы по у. Поскольку | z — zm \ — | z' — zm | I Z — z' |, то /и.У> ИСО- z)-|-n|z-z'| и, следовательно, fn<y, z'XfAU’ z)-\-n\z-z'\. Это неравенство вместе с неравенством, полученным из него перестановкой z и z', показывает, что функция /я непрерывна по z. Легко видеть, что —|z—z'| — вогнутая функция z' 4. Поэтому функция / (у, z')—n\z—z'| вогнута по z' и в силу леммы 1 /„(у, z) = supl/(y, z') — п\ Z — z' |]>/(у, z). Фиксируем z и у и для каждого п выберем zm (я, так, чтобы + Ш zm(„,)-«h -Z„,(K)|>/B(y, z)>/(y, z). (1) Так как / ограничена сверху, то | z — гж(я) | -> 0 при п -> со. 4 В самом деле, полагая z*= az^-j-^, где а > 0, ₽ > О, а + Р = 1, имеем | z — z* | = | a (z — z() + В (z — Z2) | sS а | z — zj | + Р | з — 264
Используя полунепрерывность сверху / и неравенства (1), имеем f(y, z)>lhn/(y, zm(B))>lim/„(y, z)>/(y, z). ?2->CO П->СО Значит, fn сходится к /. Лемма 3. Все функции из класса L измеримы по со- вокупности у и z. Это следует из леммы 2 и того факта, что функция двух переменных, измеримая по одному из них и непре- рывная по другому, измерима по их совокупности 5. Лемма 4. Пусть Q (у) (у f £) — непустое компакт- ное выпуклое множество в М, измеримо зависящее от у. Если j^.L, то а) функция f(y)= sup /(у, z) измерима', б) множество Q(p) = {z-.z^Q(y), f(y, z) = f(y)} компактно, непусто и измеримо по у, в) соответствие у -> Q (у) допускает измеримый выбор. Для доказательства выберем в М всюду плотную по- следовательность {zin} и рассмотрим открытые множества Q” (у) I Q (j/)> построенные в критерии измеримости (см. §2.6). Положим , | / (У. «PH zm^Qn(y), Щ)и ZmgC«(y); Г (у) = sup fm (у), т Из 2. 6 а) следует, что функции /" измеримы, и поэтому для доказательства пункта а) достаточно убедиться, что / (у) = lim(у). (2) 6 В самом деле, / (у, z) является пределом измеримых функций in (У, z)> определенных формулой («(!/> z)=f(y, при ^п^у<к-^г- (* = 0, +1, +2, ...). 2>>5
Очевидно, Г(У)= sup f(y, zm), ZmeQ'W Л тогда как в силу леммы 1 ?(У) = sup f(y, zm). ZmeQt.1/) Из сравнения этих выражений, используя 2. 6. б) и полу- непрерывность /, легко получаем: (2). Непустота множества Q (у) и его компактность выте- кают из компактности Q (у) и полунепрерывности / по z (см. начало § 2.4). Для доказательства измеримости со- ответствия у —► Q (у) рассмотрим построенные в лемме 2 непрерывные по z функции Д | / и положим Q“ (У) — р : | z - Q (у) | < А , Д (у, z) > / (у)—} . Нетрудно проверить, что эти множества удовлетворяют всем условиям критерия измеримости из § 2.6 (условие 2. 6. а) вытекает из измеримости функций Ди / и соответ- ствия Q-, условие 2. 6. б) выводится из компактности Q (у), непрерывности Д по z и соотношения Д | /. Пункт б) доказан. Пункт в) следует из б) и теоремы 2. 6. Б. * * * Перейдем теперь к выполнению программы, намечен- ной в предыдущем параграфе. Примем за L ДД) класс ЦЕхМ) с E=St, M=Ct и за Л (Хг) — класс Л (ЕхМ) с E=St+1, M = Ct (в соответствии с обозначениями пре- дыдущих параграфов у функций / £ L (ХД на первом месте будем писать аргумент Д О С;, на втором — s/+i б Докажем утверждения 2. А—2’. Б. Пусть /£A(XZ). Тогда f (Д, sz+1) ограничена сверху и измерима по sm, так что интеграл в формуле (2. 4) имеет смысл. Поскольку qt и pt измеримы по st, то этим свойством обладает и функ- ция Utf. Вогнутость Ufj по аргументу Д и ее ограничен- ность немеделенно следуют из аналогичных свойств qt и /. Далее, пусть Д! ->Д. По лемме Фату 8 для любой огра- ниченной сверху последовательности измеримых функ- 6 6 См., например, Ж. Неве [1], глава II, пункДЗ. 266
ций Fn и вероятностной меры v на измеримом про- странстве S lira t Fn (s) v (ds) ( lira Fn (s) v (ds). n->co i?->co о о Применяя эту лемму к функциям Fn (s/+1) = / (s"sz+1) и мере pt ( • |sz) и опираясь па полунепрерывность функций / и qt по имеем limf/z/(sp С?Х^/(«р С;). W->CO Стало быть, функция Utf полунепрерывна сверху по и принадлежит L Далее, пусть gQ Ь(А^. Можно рассматривать g как функцию трех переменных не зависящую от Очевидно, g^L(ExM) при E=Ct ixSt, M=Ct. Мно- жества Q (y)=Zf (i^ sz), где j/=Zp.1Sp выпуклы и ком- пактны в силу условий 2а) и 2в). Рассмотрим функцию f(y) = f (4-Л) = —Р (Zt в-А)> S) = —Р (<2 (У)- где С; — любая фиксированная точка множества Сг Ввиду измеримости Zt по st и / измерима по sf. Из 2г) легко выводится, что / полунепрерывна Сверху по С(_1? а из 2в) — что / вогнута по CZ1. В силу леммы 3/изме- рима по совокупности = т. е. соответствие у —► Q (у) измеримо по у. Применяя к этому соответствию и функции g лемму 4, получаем, что = Ft^_v S')), (3) где F — некоторое измеримое отображение CtA/St в С;, удовлетворяющее условию */)• (4) Определяя 'А формулой (2. 6), получаем результат 2. Б). Остается показать, что Vtg£ L (X;_j). Ограниченность сверху этой функции очевидна, ее измеримость по st видна из леммы 4а) либо из формулы (3) и леммы 3. Из (3) — (4), условия 2г) и полунепрерывности g по легко выводится, что Vtg полунепрерывна сверху по а из (3) —(4), условия 2в) и вогнутости g по — что Vtg вогнута по Утверждение 2. А) полностью до- казано. 267
§ 4. Стимулирующие цель! От общих вогнутых моделей мы возвращаемся теперь к стохастической модели экономического развития, вве- денной в § 1 (модели Гейла). Эта модель позволяет понять значение целенаправленно выбранной системы цен, как мощного инструмента управления экономикой. С помощью цен удается заменить глобальный критерий максимиза- ции математического ожидания суммарной полезности . (I) t более простым и наглядным локальным критерием: «дей- ствовать в каждый период t в каждой случайной ситуации s', руководствуясь непосредственной пользой». При этом «непосредственная польза» измеряется так называемой приведенной полезностью производственного процесса, равной сумме его полезности и ожидаемой прибыльности. Введем необходимые определения. Пусть л=(л1, ... . ..,л’и) — неотрицательный тп-мерный вектор. Под сто- имостью набора продуктов £=(?, . . ., £'") в ценах л понимается скалярное произведение л£= лЦ1-!- . . . Прибыльность производственного процесса ’^ —(|, равна разности л т] — л£ между стоимостями выпуска и затрат. В эту формулу, однако, нужно внести две поправки. Во-первых, цены меняются со временем. Если производ- ственный процесс (£, 7j) ведется в период t, то, относя затраты к началу, а выпуск к концу этого периода, есте- ственно записать прибыль в виде л/+1т;— пД. Далее, цены л/ должны зависеть от случайной ситуации s{. Поскольку в начале периода t еще неизвестно значение s<+1, то не- известна и прибыль л<+1 (s'+1) г; — л/ (s') t Заменяя цену л/+1 ее прогнозом sw(«;)=Mh+i!s() = J ir«+i(s<+1)/’A^+1|^)- (2) зависящим только от s', вводим ожидаемую прибыль -Hl (s')7! — (sf) L Чтобы формула (2) имела смысл, надо предположить, что функции n/(s') — измеримые. Через р( (• |s') обозна- чена переходная функция из 5' в 5'+1; ее существование доказано в добавлении 4.) Назовем приведенной полез- 268
костью производственного процесса С=(Е, в перйод i сумму ~ IIZ (С) = П; (?, С) = qt (Л Q + к/+1 (^) 7) - (?) Е (3) полезности и ожидаемой прибыли (для сокращения записи мы часто будем опускать аргумент ?). Условимся, говорить, что цены (?) стимулируют план (,* (s‘), если с вероятностью 1 А. Для всех t и всех С £ t (?) пд?, :*(?))> пд?, с). Б. Для всех t кД?)[т]*_Д?^1) — £*(?)] = 0. Условие А означает, что нельзя увеличить «непосред- ственную пользу», отступая от плана (даже если мы не связаны ограничением а можем приобретать по ценам любое количество нужных нам продуктов). Условие Б требует, чтобы были равны нулю цены на из- быточные продукты (т. е. на продукты, которые исполь- зуются при плане не полностью). Наша цель — построить цены, стимулирующие оп- тимальный план. При этих ценах достигается упомяну- тая выше согласованность между глобальным критерием (1) и непосредственной пользой в каждый момент t при почти всех случайных ситуациях ?. Если все функции qt строго вогнуты, то можно утверждать большее: макси- мизируя приведенную полезность в каждой случайной ситуации, мы неизбежно придем к плану, оптимальному с точки зрения глобального критерия. Таким образом, стимулирующие цены не только локализуют во времени задачу оптимального планирования, но и позволяют при планировании очередного шага в ситуации ? учитывать лишь сложившиеся цены и прогноз й/+1 цен на один шаг вперед. Нет надобности ни в более подробном ана- лизе ситуации sf, ни даже в знании вероятностного ме- ханизма явлений. В этом смысле и й/+1 — достаточные статистики задачи. Существование цен, стимулирующих оптимальный план,, будет доказано в следующем параграфе. Предва- рительно докажем простую лемму, из которой, в част- ности, вытекает, что не оптимальный план не может стимулироваться никакой системой цен. 269
Под системой цен мы понимаем набор измеримых функ- ций (s1), . . тсл (s") со значениями’в (В формулу (3) при t=n войдет еще йя+1. Мы будем считать по определе- нию, что ля+1, а, следовательно, и я„+1 равны нулю 7 8.) Заметим прежде всего, что если (sz) = (s*), (s1)) £ E oTt (s1) (t — 1, 2, . . ., ri) — любой набор производственных процессов (измеримо зависящих от случайной ситуации) и П^пду, то п п м 2 nz = м 2 [?, (S)+(V1 - ^)] - МлЛ- (4) / -| t- I В самом деле, из (3) вытекает, что 2 П/ = 2 [?/ G/) + ~ “А I — мМо- ('’) /=1 /| Поскольку М"шУ = ММ(-/|Л м IмАх I «/+1Н И1 = ММ/% то математическое ожидание суммы (5) совпадает с правой частью (4). Теперь покажем, что если система цен nt стимули- рует какой-нибудь план то она стимулирует все опти- мальные планы и только оптимальные планы (и, следо- вательно, можно рассматривать стимулирующие цены, не связывая их с определенным планом). Действительно, пусть цены стимулируют план С*. Положим п: = пд<?). (6) Применяя формулу (4) к плану 7) и используя Б, имеем м^м^-мм,. <=i /=1 7 Это условие надо опустить, если считать, что в конце планового периода должен остаться определенный задел т;п, или, говоря фор- мально, что’ рассматриваются только планы с фиксированным значением т;,, (в этом случае приходится допустить свободный вы- бор функций ли+1 (sK+1), включаемых в систему цен). 8 Использованные здесь и в § 5 свойства условных математических ожиданий изложены в § 2 добавления 4. 270
Из (4) и (6) следует, что для любого набора производ- ственных процессов С, (s‘) g qTt (s4) п п М s 197 (ф - qt о = м 2 (П; - и,) + + М2Х (vi-A)- /=1 (7) Если набор С, является планом, то последняя сумма не- отрицательна и из (7) и А мы получаем, что м2[?(?;)-г(;ро. (8) Это означает, что план С* оптимален. Если С, — другой оптимальный план, то (8) выполняется со знаком-равен- ства. Из этого равенства и из (7), учитывая А и неотрица- тельность тс, (т;,^—Л,), получаем, что с вероятностью! П* = П, и тс, (т)^—£,)=0; но это значит, что план оптимален. § 5. Существование стимулирующих цен Чтобы построить стимулирующие цены, нам понадо- бятся два условия. Их экономическое содержание сле- дующее: а) Можно ввести штраф за срыв поставок, пропорцио- нальный стоимости непоставленной продукции и ком- пенсирующий во всех случаях необходимую вследствие срыва ломку производства. б) Оценка убытка от ломки производства учитывает возможное при этом уменьшение полезности. Чтобы перевести эти условия на язык математики, предположим, что вместо набора продуктов т; поставлен набор продуктов Рассмотрим вектор (т;—т]')+ непо- ставленных продуктов (индекс + означает, что надо заменить нулями все отрицательные координаты) и из- мерим его стоимость 8(7), 7)') = С(7) — 7)')+ (1) в некоторых неизменных ценах с. Предположим, что за- траты на переход от производственного процесса С к про- изводственному процессу равны d (Ct С). В эту оценку 271
наряду с расходами на переоборудование и т. и. входят убытки S (т), т)') от изменения выпуска. Поэтому естест- венно считать, что C)Z>8(t), т/) при С —(£, т]), С —(!', т]'). (2) Естественно также принять, что d(C, Q = 0. (3) Дадим теперь точную математическую формулировку условий а) и б). Можно ввести цены с и неотрицательную функцию d (С, С) (С, С Е Х") так, что выполняются условия (1)—(3) и А. Каковы бы ни были t, s‘ и 1^0, для каждого С = = (£, ^ОЕсТДв*) найдется С' = (^, т^ЕеГДв*, £) такое, что d (С, С') A'S (£, ^), где К — некоторая постоянная, не зависящая от t, s‘ и %. Б. Для любых С, С ЕаДДв*) и любого sf ' С). Очевидно, из А вытекает, что sup inf d(£, C)<W> ?')• (4) cents',0 c'e^(s^') Помимо условий А и Б нам понадобится еще одно техническое требование: В. Найдутся функции L (s*) такие, что Mjf (sf) со и КХ/Х) пРи всех -EX(sz). Цель этого параграфа — доказать, что если выполнены условия А, Б, В, /по существуют ограниченные стимули- рующие цены. Доказательство основано на изучении изменения мак- симальной полезности при вариации ресурсов. Пусть изменение ресурсов в период t в ситуации s< описывается вектором Д/ (s*). Набор Д={Д1, . . ., Дя} отнесем к множеству <2, если функции Д/ (з!) измеримы и Н=м-2|д,| < (5) 7=1 Условимся называть ^-планами наборы измеримых функций (s*) = (^ (/), 7jz (?)), удовлетворяющие при всех значениях ? условиям (6) 37?
Положим Д £ Q, если множество Д иланов непусто. Обозначим через X (Д) (Д £ Q) супремум полезностей п (Q /=1 по всем Д-планам {д}. Используя предположения а) и в) из § 1, легко проверить, что Q — выпуклое множество и ' X — вогнутая функция ®. Доказательство теоремы расчленяется на три шага: 1. Доказывается оценка Х(Д)-Х(О)<&||Д|| (Д6 2), (7) где Ъ — некоторая постоянная. 2. Из (5) выводится существование в пространстве <2 линейного функционала 110 такого, что Х(Д)-Х(О)</(Д) (Д£0, (8) /(Д)<&||Д|| (Д60. (9) Устанавливается, что I можно представить в виде п (10) где кДз*) — ограниченные измеримые функции со зна- чениями из . 3. Наконец, доказывается, что -t — стимулирующие цены. 1 ш а г. Заметим, что всякий Д-план является Д+- планом и, следовательно, X (Д) X (Д+) (Д О Q). С дру- гой стороны, ||Д+|| If ДII, и поэтому достаточно доказать оценку (7) для неотрицательных наборов Д. При А 0 мы получаем незамкнутую модель Гейла, рассмотренную в §§ 1 и 2, и для вычисления X (Д) можно воспользоваться формулой (2. 9), где р — начальное распределение пара- метра sx й где начальное состояние Со описывается век- тором начальных ресурсов т)о. Входящая в (2. 9) функ- ция и0 может быть выражена по формулам (2. 8) через 9 Множество Q является линейным пространством относительно естественных операций сложения и умножения на числа. 10 Числовая функция I в линейном пространстве Q называется ли- нейным функционалом, если I (c1f1-\-c^f2)==c1l (/i)+c2Z (/2) для лю- бых чисел сх, с2 и любых Д, Д из Q. 18 Е. Б. Цыпкин, А. А. Юшкевич 273
операторы Ut и Vt, задаваемые формулами (2. 4)—(2. 5). Учитывая, что эти формулы написаны для марковского случая, а мы сейчас имеем дело с общим случаем, нужно перейти во всех формулах от параметров st к параметрам sC Используя (2. 3), мы приходим к рекуррентным со- отношениям ^-0, (И) uj(?, С,) = 9, (?, j ^t^t,st+r)pt(dst+x\si), (12) S«+1 ^-1(^-1, sf) sup Uf(sf, Q. (13) (Отражая зависимость uf и vf от Д, мы пишем Д в качестве индекса. Поскольку множество Zt зависит только от (и не зависит от то тем же свойством обладают и функции у|.) В силу (2. 9) для доказательства неравен- ства (7) достаточно проверить, что s1) —М7)’ const SM(| ||s'). t=l Мы докажем индукцией от t к t — 1 более общее нера- венство г-'4 (С, sw) —пДС, s/+1)< const (d (С, С)X) где m = iM(|Af(?)||?). (15) При t = n (14) справедливо, поскольку vn = = 0. Далее, в силу (13) = ' sup inf |w.4(s*, С;)—и, (s\ L)J, (16) где C = (?, г;), C — (?', t;'). Согласно (12) ?+1)И + у. а?) Из (17), предположения индукции (14) и Б, учитывая ра- венство М ({^+11 s1) = Д’11 (s*), имеем и*(з1, ~,'t) — ut (s‘, const [d (C, Q + |M+) (s/)|. (18) ?74
Из (16), (18) и (4) следует, что rf-i (С', ?) — yz_j (С, sf) < const 18 (т;' + Д, (?), т;) -ф- + rV)]- (19) Используя (1), (2) и неотрицательность Д,, получаем W+MA в) <const ИА/ («') + Is W> т])]< < const [|ДД?) + |Й(^, Q]. (20) Из (19) и (20) следует, что СЛ st) — vt-i G> s') < const [d (V, + ^+1 (s') + |Д, (s')ll и для получения оценки (14) для значения t — 1 остается заметить, что 3(+l -|- |AJ = 2 шаг. Теперь мы воспользуемся следующей общей теоремой из функционального анализа: если В и С — непересекающиеся выпуклые множества в банаховом11 пространстве L и В открыто, то существуют ненулевой линейный функционал I в пространстве L и число а такие, что I (/) а на В и I (/) а на С. Множество Q с нормой (5) можно рассматривать как банахово про- странство, если отождествить наборы Д, Д', такие, что ||Д—Д'||=0. Обозначим через прямую сумму Q и чис- ловой прямой В и рассмотрим в выпуклые множества 5 = {(Д, г):&||Д||<г), С = {(Д, г): Д е Q, X (Д) - л (0) > г} (напоминаем, что Q выпукло, функция X — вогнута па Q)., В силу (7) множества В и Сне пересекаются. Множество В открыто. Поэтому найдутся число а и ненулевой линей- ный функционал в пространстве ()1 такие, что Zx а на В и Zx О. а на С. Функционал имеет вид ^1(д, г) = Zo (А) + аг, 11 Линейное пространство L называется банаховым, если каждому / из L отнесено неотрицательное число ||/||, причем: а) для любого числа с ||с/||=|с| ||/||, б) формула р (/, g)=\\f—gll определяет в L метрику, относительно которой L — полное метрическое про- странство. Подробнее о банаховых пространствах можно прочесть в любом учебнике функционального анализа (см., например, А. Н. Кол- могоров и С. В. Фомин [1 ] или Н. Данфорд и Дж. Т. Шварц [1 ]). Доказательство сформулированной теоремы есть, например, в Н., Бурбаки [1], глава 2, § 3, предложение 1. 18* 275
где Zo — линейный функционал в Q и d — число. Так как (О, 1)Е-В, то (0, 1)=а а. При любом Д £ Q имеем (А, Х(Д)~ Х(О))£С и поэтому /0(Д) + а[Х(Д) - Х(О)]<а (Д6<2)- (21) Аналогично, из того, что (Д, &||Д|Ц-е) при любом е 0, вытекает, что цд) + а&||Д|!>« (д6<2)- (22) Множество Q содержит все неотрицательные элементы^. Полагая в (21) и (22) Д=0, убеждаемся, что а=0, и, следовательно, cQ 0. Если а=0, то из (21) и (22) следует, что l0=Q. Но это противоречит тому, что Zlz4b. Значит, а > 0, и мы можем положить 1= — 1й/а. Из (21) — (22) вытекает (8)—(9). Всякий линейный функционал в пространстве Q, удовлетворяющий неравенству (9), записывается в виде (10), где nt=nf (s*) — измеримые векторнозначные функ- ции, причем || tz11| Ъ 12. 3 ш а г. Пусть } — оптимальный план и } — произвольный Д-план. Из определения функции Х(Д) и формул (8) и (10) следует, что п V м 2 qt (С,) < х (Д) < х (0) + I (Д) = М 2 + х(0). (23) /=1 lf=l Нулевые векторы образуют Д-план при любом Д 0 из Q. Поэтому из ограниченности функций qt и (23) сле- дует, что М2 ограничено снизу на множестве не- отрицательных элементов пространства Q. Отсюда вы- текает, что tz{ (s*) 0 с вероятностью 1. Поскольку на множестве меры нуль значения функции можно произвольно изменить, можно считать, что эти функции неотрицательны. Пусть теперь {(С<}={(Е<, t]z)}— произвольный набор производственных процессов. Положим = т Vi (i = t - «)• В силу условия 4.В набор Д={Дг} принадлежит Q. Оче- 12 См. Н. Данфорд и Дж. Т. Шварц [1], глава 4, § 8, теорема 5. 276
видно, набор } является Л-планом, и значит длй него выполняется неравенство (23). Перепишем его в виде М 2 qt (СД + М _х - ЕД < М 2 q< О- (24) /=1 /=] Полагая ^=ч*, мы приходим к неравенству м^((Сг-^)<о. /=1 Поскольку и п( 0, отсюда следует условие 4.Б. Докажем теперь 4. А. Из (4. 4) и (24) следует, что М£1ПДф-П,О>0. (25) В подробной записи Д (^) = Д (s<’ Q = Qt s‘) + я«+1 (s') ъ (s') Эта функция принадлежит классу L(E у<, М) при Е = 8{, М — (см. § 3), а отображение Q (у) = & t (Д) удовле- творяет условиям леммы 3.4. По этой лемме можно вы- брать измеримые функции = Д (sz) 0 S't (з*) так, чтобы П« Us;))= sup П.(?, С). (26) Неравенство (25) выполняется и для этого набора (СД. Из (25) и (26) вытекает, что с вероятностью 1 П(в*, С*) — sup Пг (sl, С) (i—1, . . ., н), а это есть условие 4.А.
Добавление 1 БОРЕЛЕВСКИЕ ПРОСТРАНСТВА § 1. Введение Измеримое пространство В называется борелевским,. если оно изоморфно измеримому подмножеству поль- ского (т. е. полного сепарабельного метрического) про- странства Е. (Напомним, что с-алгебра (А) измеримых множеств в Е — это минимальная с-алгебра, содержащая все открытые множества.) Примерами борелевских про- странств являются? 1. Конечное или счетное пространство S с с-алгеброй всех подмножеств. 2. Единичный отрезок I с с-алгеброй всех борелев- ских множеств. Эти пространства являются польскими относительно метрики р (.г, у)1 при хЛу в случае S и метрики р (х, у)=\х—у\ в случае I. Наша цель — доказать, что всякое борелевское про- странство изоморфно либо S, либо I. Для конечных и счетных пространств В это утвержде- ние тривиально: в метрическом пространстве Е одно- точечные множества замкнуты и поэтому измеримы, сле- довательно, измеримы все подмножества В. Таким обра- зом, достаточно доказать, что все несчетные борелевские пространства изоморфны между собой. При доказатель- стве этого утверждения особую роль играют два про- странства: произведение II счетного числа отрезков I (гильбертов кирпич) и произведение М счетного числа двухточечных множеств {0, 1}. Мы докажем, что а) Любое борелевское пространство допускает изомор- физм в II (т. е. изоморфно измеримому подмножеству пространства Н). 278
б) Пространство М можно изоморфно отобразить в любое несчетное борелевское пространство. в) Существует изоморфизм Н в М. Утверждения а)—в) будут доказаны в §§ 2—4. Из них следует, что любые два несчетные борелевские простран- ства можно изоморфно вложить друг в друга. Этого до- статочно, чтобы утверждать их изоморфизм. Именно, имеет место следующее общее предложение: Пусть Е и Е' — произвольные измеримые простран- ства. Если существуют изоморфизм / пространства Е в Е' и изоморфизм g пространства Е' в Е, то Е и Е' изоморфны. Для доказательства рассмотрим множества X—g (Ег) и Y—gf (Е). Очевидно, У С X С Е и отображение <р=£г/ есть изоморфизм Е на У. Поскольку Е' изоморфно X, достаточно проверить, что X изоморфно Е. Рассмотрим две последовательности измеримых мно- жеств Ей = Е, Ем = 'f (£„) (n = 0, 1, 2, . ..) Х0 = Х, XIi+1 = -f(X„) и положим Ясо=ГЖ, Хт = 'ПХв. » Ясно, что Е^Х^Е^Х^ ... и потому Em~Xw. Нужный изоморфизм ф пространства Е на пространство X определяется формулой <р (х) при X G и (Еп \ Х„), ~ я при X б и (Х„ \ Еи+1) и Ет. п § 2. Вложение борелевского пространства в гильбертов кйрпич Борелевское пространство Б, по определению, изо- морфно измеримому подмножеству польского простран- ства Е, и, значит, достаточно изоморфно вложить Е в Н. Пусть } — последовательность, всюду плотная в Е. 279
Функции fn(x)— ?{х; "вЦ- (те®) 1 + р (х, zn) \ V / (1) непрерывны и, следовательно, измеримы. Поэтому фор- мула f (я) = {fi (*). /2 С4 • • • ’ fn W, • • } задает измеримое отображение Е в Н. Если f {x)=f (у), то р (т, zK)=p {у, z~) при всех п, откуда легко выводится, что х=у. Таким образом, / отображает Е взаимно одно- значно в Н. Остается проверить, что f перевидит измеримые мно- жества пространства Е в измеримые множества простран- ства Н. Покажем, что дело сводится к проверке измери- мости множества f (Е). Положим А е^, если АСЕ vtf(A) измеримо. Если Е £ ой, то ей является а-алгеброй. При любом е из интервала (0, 1) образ множества W = {*: Р (*, z„) < е) = : /„ (х) < -} равен пересечению / (Е) с совокупностью точек /1= = /1^2 • • — пространства II таких, что hn <( 2_~ • Поэтому при f (Е)£ей все множества Ue (zn) тоже принадлежат^. Но эти множества порождают (Е) и, стало быть, (Е)Се^. Переходим к доказательству измеримости / (Е). Введем в Н метрику по формуле СО ?{h, h') = ^ (2) : ?г=1 Эта метрика согласуется с измеримой структурой Н, как произведения отрезков Ч 1 Действительно, пространство Н сепарабельно в метрике р и функ- ция р измерима по каждому аргументу. Значит, все открытые мно- жества, как счетные объединения сфер, измеримы. С другой сто- роны, все прямоугольники вида (ах, 6Х) X (а2, Ь2) X . . . (ан, Ь„) X I X I X . . . открыты в метрике р и порождают IS (Я). Отметим, что пространство Н полно в метрике (2) и, стало быть, является, польским пространством. 280
Отображение /-1 непрерывно на / (Е) в метрике (2). Действительно, если f (хт) -> / (х), то р (хт, zt) -> р(х, zlr) при каждом п. Выбирая точку zn в малой окрестности точки х, из неравенства р (хт, х) р (xUi, zj+p(z,;, х) легко выводим, что р (хт, х) -» 0. Для каждой точки f (х) из f (Е) и любого целого т найдется открытая сфера S в пространстве Н с центром в точке f(x) такая, что диаметры S и /-1(5) меньше —. Построим для каждой точки f (х) из / (Е) такую сферу и обозначим через Gm их объединение. Множество Gm открыто и содержит f (Ё). Докажем, что пересечение мно- жеств Gm по всем т совпадает с / (Е). В самом деле, если точка h принадлежит такому пере- сечению, то для каждого т найдется накрывающая h сфера Um с центром hm=f (хп) такая, что' диаметры Um j и Vm = меньше—. Ясно, что h.->h, и, значит, //* • \ т! -ул ' ifi' * h принадлежит замыканию множества f (Е). Поэтому для любых к и т в окрестности СД П Um точки h найдется точка h', принадлежащая / (Е). Тогда точка (/&') принадлежит VknVm и р(*л- х') Д-р (х1, ят)<А + 1 п- iiL Отсюда следует, что последовательность {хт} является фундаментальной и, значит, сходится к некоторому пре- делу х в полном пространстве Е. Из (1) и (2) вытекает, что отображение f непрерывно, и поэтому / (z) = =Иш / (х )=lim hm=h. Следовательно, h принадлежит f Сп- итак, множество / (Е) совпадает с пересечением от- крытых множеств Gm и, стало быть, измеримо. § 3. Вложение пространства двоичных последовательностей в несчетное борелевское пространство Как и в случае пространства Н, удобно трактовать измеримые множества пространства М как борелевские множества относительно метрики (2.2). В этой метрике пространство М компактно. 281
Мы покажем, что а) Пространство М можно взаимно однозначно и не- прерывно отобразить в любое несчетное польское про- странство Е. б) Произвольное борелевское пространство В является взаимно однозначным и непрерывным образом некоторого польского пространства Е 2. Из а) и б) вытекает, что М можно взаимно однозначно и непрерывно отобразить в любое несчетное борелевское пространство В. При таком отображении / образы и про- образы компактных множеств компактны. Поскольку М — компакт, системы замкнутых множеств в М и в f (М) совпадают с системами компактов. Значит, отображения f и переводят замкнутые множества в из- меримые, и, следовательно, f есть изоморфизм М в В. Переходим к доказательству пункта а). Выберем в Е всюду плотную последовательность {zk} и положим Ukn= = {z : р (z, zj Рассмотрим те из сфер Ukn, которые содержат не более счетного числа точек, и обозначим через Y их объединение. Множество Y счетно, следова- тельно, множество X=E\Y измеримо и несчетно. Любая окрестность U произвольной точки х из X содержит несчетное число точек, принадлежащих X. Действительно, в противном случае U было бы счетным множеством, и тогда точка х накрывалась бы одной из сфер Ukn, входящих в дополнение Y множества X. Возьмем в X две произвольные точки ихг и окружим их непересекающимися сферами По и СД радиуса меньше 1. Выберем в несчетном множестве Uo р X две точки х00 п х01 и окружим их непересекающимися и содержащимися в По j сферами J700 и Z701 радиуса меньше Аналогично возьмем в СДрХ точки z10 и х1г и в — сферы U10 и Url. Про- должая это построение, мы для всевозможных наборов 4я = тп1тп2. . .тп нулей и единиц длины п получим 2” отвечающих им точек хдп в множестве X, окруженных по- 2 По определению, В изоморфно вкладывается в какое-то польское пространство Е', и в В рассматривается метрика, индуцированная метрикой Е'. Легко видеть, что а-алгебра измеримых множеств в В порождается замкнутыми (или открытыми) подмножествами пространства В. 282
парно непересекающимися сферами UAn радиуса меньше - (п=1, 2, . . .), причем если набор Ак совпадает с началом набора Ан, то U А„ CZ U А1е. Пусть тп=7пгтп2. . .тг ... — произвольная точка про- странства М, и пусть Ап—тгт,,. . .тп. Тогда последова- тельность центров хАп вложенных друг в друга сфер UАп является фундаментальной и имеет в полном простран- стве Е предел ж, который мы и примем за образ f (т) точки т. 2 Очевидно, f (т1) =^= f (т.) при т1 S=m и p(/(m), — при р(т, Следовательно, отображение / про- странства М в пространство Е взаимно однозначно и не- прерывно. Утверждение а) доказано. Рассмотрим теперь произвольное польское простран- ство Е' и обозначим через & класс всех его подмножеств, являющихся взаимно однозначными непрерывными об- разами польских пространств. Очевидно, предложение б) будет доказано, если мы убедимся, что а-алгебра S3 (Е') содержится в системе Прежде всего, S' содержит все открытые множества В(^Е'. Действительно, за пространство Е в этом случае можно принять само множество В с новой метрикой р(х, У) = р(х, у)+ , где ё = | ? Е'\В) р (у, А”\») | (неравенство треугольника неравенства треугольника функции z при g > 0). для р вытекает из очевидного для g и выпуклости вверх Легко видеть, что если х и хп принадлежат В и р (хп, х) _> 0, то также и р (хъ, х) -* 0; поэтому пересечение В с всюду плотной в Е' последова- тельностью {zm} представляет собой последовательность, всюду плотную в Е, и пространство Е сепарабельно. Наконец, если {хп} — фундаментальная последователь- ность в Е, то в силу неравенства р Д' р эта последователь- ность фундаментальна и в Е' и, следовательно, имеет в Е' предел х; полнота пространства Е будет доказана, если мы убедимся, что х принадлежит В. Если бы х при- надлежало Е'\В, то мы имели бы р (z., £'\/))->0, 283
откуда g (хк, хп) -> оо при и _> со и любом фиксированном к и, значит, р (хк, _> 1+ р (хк, х), что противоречит предположению о фундаментальности последовательности {хп} в метрике р. Итак, пространство Е — польское. Тождественное отображение / (х) — х пространства Е на множество В непрерывно, так как р (ж, у) р (ж, у). Далее, рассмотрим последовательность множеств Вп из класса & и пусть /я — взаимно однозначное непрерыв- ное отображение польского пространства Еп на Вп. По- кажем, что пересечение Вп, а также сумма Вп (если Вп попарно не пересекаются) тоже принадлежат & . Легко видеть, что прямое произведение £'СО=£'1Х Х^Х. . . тоже является польским пространством в мет- рике ' со р(^жа...^.. ..j/jj/,.. .уп.. 1+’рв(Ск) • ' п=1 Ввиду непрерывности всех отображений fn подмножество пространства Ет, на котором fY (x1)=f2 (х2) = . . . ,. ,=fn (z,) = • • . замкнуто й, значит, также является поль- ским пространством. Формула / (х^, ... хп . . .)=А Сп) задает взаимно однозначное непрерывное отображение пространства Е^ на пересечение ВГ1. Пусть теперь множества Вп не пересекаются. Не огра- ничивая общности, можно считать, что диаметры всех пространств Ел не превосходят 1 (этого можно достичь, введя новое расстояние по формуле р' = Обозна- чим через Е объединение пространств Ея, считая, что р (х, у)=2, когда х и у принадлежат разным Ев. Формула f(z}—fAxn> пРи х£Е„ (п = 1, 2, ...) определяет взаимно однозначное непрерывное отображе- ние Е на сумму Вн. Включение (Е')^.^ вытекает теперь из следующей леммы. Лемма. Если класс & множеств метрического про- странства X содержит все открытые множества и ин- вариантен относительно счетных пересечений и счетных объединений непересекающихся множеств, то содержит все измеримые множества в X. 284
Докажем эту лемму. Любое замкнутое множество яв- ляется пересечением счетного числа своих открытых е-окрестностей и, значит, принадлежите?'. Следовательно, класс e?”i множеств Г таких, что как само Г, так и его дополнение Г=Х\Г принадлежат содержит все от- крытые множества. Если мы покажем, что класс ин- вариантен относительно счетных объединений и пересе- чений, то получим, что 2$ (Х)Сс?'1Сс?', и лемма будет доказана. Если Гр Г2, ..., £ с^р то Г = П Гя £ & и п г = и(г1пг2п...пгя_1пг„)е^', п так что Г £ <Fp Аналогично д = и г„ = и (i\n.. • пг„-1П г„) е п п И Д=Г]Г;(£сХ, так ЧТО И Д^с^р п § 4. Вложение гильбертова кирпича в пространство двоичных последовательностей Легко видеть, что если ср есть изоморфизм X в У, то формула . . .) = р(^)?(а:2) . . . определяет изоморфизм произведения Х^—ХхХх... в произведение У”=У&<Ух. . .. Поскольку /Г=1°°, до- статочно а) построить изоморфизм <р отрезка I в пространство М, б) доказать, что пространства М и Мт изоморфны. Формула СО fc=l определяет измеримое отображение пространства М на I (каждое слагаемое написанного ряда, очевидно, измеримо). Это отображение не взаимно однозначно: каждому дво- ично рациональному числу из интервала (0, 1) отвечают две последовательности т-гп^т^. • . —одна, оканчиваю- щаяся нулями, а друг’ай — единицами. Положим т£М', 285
если последовательность т=тп1т2. . . содержит нули и притом лишь в конечном числе. Множество М1 счетно, поэтому множество N—M\M' измеримо. Легко видеть, что ф взаимно однозначно и измеримо отображает N на I. Докажем, что обратное отображение <р=ф-1 отрезка I на N тоже измеримо. Для этого достаточно проверить, что измеримы прообразы (ГД —ф (ГД множеств Гл= — {m;mk=0, m£N}. Но этот прообраз равен сумме интервалов j , где п пробегает четные значения от 0 до 2к—1. Итак, есть изоморфизм I в пространство М. Построим теперь изоморфное отображение F про- странства М~ на пространство М. Каждая точка про- странства М™ является последовательностью т'т2. . ., где тп, в свою очередь, есть последовательность т"т". . . нулей и единиц. Записывая последовательность тп” в форме прямоугольной таблицы т1 — т\т\т\ . . . т2 = .. . т3 = т^т3т3 . . . составим диагональным процессом элемент т — т\т1т2рп\т2рп^ . . . пространства М. Очевидно, мы получим таким образом взаимно однозначное отображение F пространства на М. Обозначим подмножество пространства М”, определенное условием mf=0. Очевидно, множества В'£ порождают а-алгебру & (№°), а множества F (В£) а-ал- гебру (М). Поэтому отображения F и F~l измеримы, так что F является изоморфизмом. * * * Из полученных результатов легко выводится, что прямое произведение Е=ЕйХ.Е1Х. . . счетного числа бо- релевских пространств тоже является борелевским про- странством (этим обстоятельством мы пользовались в главе 5, § 4). В самом деле, каждое из пространств Еп можно интерпретировать как борелевское множество в пространстве М. Тогда Е будет измеримым множеством в произведении Д/”, изоморфном М и, стало быть, будет, борелевским пространством. .
Добавление 2 АНАЛИТИЧЕСКИЕ МНОЖЕСТВА § 1. Введение Пусть- В и В' — борелевские пространства и / — из- меримое отображение В в В'. Главная цель этого добав- ления— доказать использовавшийся в главе 3 результат: образ измеримого множества универсально измерим. Чтобы доказать это утверждение, достаточно, ввести в каждом борелевском пространстве В класс множеств (В) со следующими свойствами: 1) Если (5), то /(Г)^е^ (В1). 2) (В) содержит все измеримые множества про- странства В. 3) Все множества класса (В) универсально изме- римы. За ej/ нельзя принять класс всех измеримых мно- жеств: для него не выполнено свойство 1) (см. § 5). Нельзя принять за и класс всех универсально измеримых мно- жеств: П. С. Новиков построил универсально измеримое множество на плоскости, для которого невозможно до- казать универсальную измеримость его проекции на пря- мую, применяя общепринятые в настоящее время аксиомы теории множеств и средства вывода Ч Нужный нам класс (В) составляют так называемые аналитические мно- жества. Их можно определить как измеримые образы 1 См. И. С. Новиков [1 ]. С другой стороны, в свете недавних резуль- татов Р. Соловья [1], по-видимому, невозможно (в том же смысле) опровергнуть, что класс всех универсально измеримых множеств обладает свойством 1). Таким образом, для гипотезы о том, что класс всех универсально измеримых множеств удовлетворяет условию 1), положение представляется аналогичным ситуации со знаменитой континуум-гипотезой Гильберта о равномощности всех несчетных множеств действительных чисел. Гедель пока- зал, что гипотеза Гильберта не может быть опровергнута, а Коэн— что нельзя опровергнуть ее отрицание. 287
борелевских Пространств в других борелевских простран- ствах. Ясно, что при этом выполнены свойства 1) и 2), и дело сводится к проверке свойства 3). Покажем, что аналитические множества борелевского пространства В можно определить так же, как образы польских пространств при их непрерывных отображениях в В. Пусть А — аналитическое множество пространства В и, стало быть, А есть образ борелевского пространства В' при измеримом отображении /. Вложим В в В' в со- ответствующие польские пространства Е и Е' с метри- ками р и р'. Прямое произведение измеримых пространств ЕхЕ' становится польским пространством в метрике d (ж1У1, х2у2) = р (Жр жа) 4- р' (j/p у2) X Х(^-р ^2С Е, у^, у2£Е'). Рассмотрим в ЕхЕ' график Г отображения /: Г = {ху:х£Е’ y = f(x)}. Легко видеть, что СО со Г= П и k-i м=1 где {Uu, U2k, . . .} — разбиение множества В на изме- j римые множества диаметра меньше -=-. Следовательно, К Г измеримо и, будучи борелевским пространством, яв- ляется непрерывным образом некоторого польского про- странства X (см. добавление 1, § 3, пункт б). Но А есть образ графика Г при проектировании ЕхЕ' на Е. Про- ектирование является непрерывным отображением. По- этому А есть непрерывный образ X 2. Универсальная измеримость аналитического множе- ства будет доказана в § 3, после того как мы предвари- тельно установим, что всякое аналитическое множество можно получить с помощью так называемой -операции. Цель § 4 — доказать, что взаимно однозначное измеримое 2 В § 3 добавления 1 было установлено, что пересечение непрерыв- ных образов польских пространств тоже есть непрерывный образ польского пространства (вывод сохраняет силу и без предпола- гавшейся там взаимной однозначности отображений). Стало быть, пересечение аналитических множеств снова является аналити- ческим множеством. Это замечание будет использовано в § 5. 288
отображение борелевского пространства на борелевское пространство является изоморфизмом. Этот результат выводится из возможности отделить два непересекающихся аналитических множества борелевскими множествами. В § 5 приводится пример неизмеримого аналитического множества. § 2. ^-Операция Пусть в множестве F выбрано счетное число подмно- жеств Fr, Га, . .., F„lt ..., в каждом множестве Fn, — счет- ное число его подмножеств Fnil, Fn#, .. ., Рп,Пг, .. . и т. д. до бесконечности, так что множества F^n,...^ определены для любых конечных наборов натуральных чисел прг^ . .. пк и Fmim2...пк при т^ = п^, т2 — па,...,тк — пк. Тогда говорят, что множества Fn,n„..nk образуют таблицу & . Любой последовательности натуральных чисел п — •=прп2... отвечает последовательность вложенных друг в друга множеств F„.^)F„t„2 О таблицы &. Их пере- сечение обозначим Fn. Объединение множеств Fn по всем последовательностям натуральных чисел п называется результатом ^-операции, примененной к таблице &: мы будем обозначать это множество . Покажем, что любое аналитическое множество А бо- релевского пространства В есть результат ^-опера- ции, примененной к некоторой таблице &, составленной из измеримых множеств пространства В3. Пусть /—непрерывное отображение польского про- странства Е на А. Зададим в Е таблицу <§, разбивая Е на счетное число множеств E„t диаметра меньше 1, каждое Е„, — на счетное число множеств Еп,„г диаметра меньше , каждое Е„Л — на счетное число множеств Еп,пЛ диаметра меньше у и т. д. до бесконечности (такое разбиение воз- можно ввиду сепарабельности пространства Е). При этом каждой точке х пространства Е будет соответствовать единственная последовательность п — п (ж) такая, что х = Еп (и, наоборот, каждое Е„ будет одноточечным или 8 Обратное утверждение тоже справедливо, но оно нам не понадо- бится (см. К. Куратовский [1], § 38, раздел IX). /4 19 Е В. Дынкин, А. А. Юшкевич 289
пустым множеством — в таблице могут быть и пустые множества). Далее, определим в В таблицу FF, полагая FИ,В2...И* равным замыканию образа BJ.). Множества таб- лицы FF измеримы, и мы покажем, что — А. Любая точка у из А имеет хотя бы один прообраз х в пространстве Е, а точке х отвечает последовательность п такая, что х = Еп. Тогда y = f(x} = f (Еп) С. Fn(Z.o^^' и, значит, Наоборот, если у принадлежит , то существует последовательность п = п1п2... такая, что y£F,hnt.,.nk при всех /с = 1,2,.... Так как Fnint,..nk есть замыкание множества / (.Епл.„пк), то можно выбрать в /(/?„,„ nfc) 1 точку ук, отстоящую от у на расстояние, меньшее у. Пусть хк — один из прообразов точки ук. Точки хк при- надлежат вложенным друг в друга множествам ЕЯ1„2___Вк со стремящимися к 0 диаметрами и образуют поэтому фундаментальную последовательность. Эта nocjieflOBaTeHb- ность имеет _в полном пространстве Е предел х и по не- прерывности отображения / имеем / (ж) = lim / (zj = = Ит!/я. = г/. Значит, у £ ЦЕ)~ А и FIFF СА. § 3. Универсальная измеримость аналитического множества Для доказательства универсальной измеримости ана- литического множества достаточно Проверить, что если FF — таблица, составленная из измеримых множеств изме- римого пространства В, то множество р-измеримо для любой вероятностной меры р в пространстве В. Введем для любого множества А пространства В внеш- нюю и внутреннюю меры v (yl) = inf р(Г), X (4) = sup р (Г) (1) гэл гсл (Г пробегает измеримые множества). Заметим, что нижняя грань в (1) обязательно достигается: если Гя Z) А, р (Ги) < <v(jl)-|--i-, то для пересечения Г множеств Гя имеем Г 2 А, р(Г)^у(Л) и, следовательно, р(Г) = у(А). Ана- логично достигается и верхняя грань в определении X. 290
Поэтому для ^-измеримости множества А достаточно, чтобы \(A) = v(A). (2) [Очевидно, условие (2) также и необходимо.] Отметим следующие свойства внешней меры: а) Если Аг с Аа, то v (АД у (А2). б) Если Л1сЛаС.. .СЛИС. • • и А = \jAn, то у (А) = Вт у (АД. (3) Первое из этих свойств очевидно, Для доказательства второго рассмотрим измеримые множества Гя такие, что А С Г„ и р (ГД = у (АД, и положим со со r = u п г». п=1 т~п Поскольку Ап С Гт при т~^п, то Ап С Г и, значит, АС Г. Поэтому v (4) < Р- (г) = Ит р. ( П Г У < lim р- (ГД = lim v (АД. п->со / »->со »->со Но в силу а) Вт у (АД < у (А) «->со и (3) доказано. Переходим к доказательству соотношения (2) для мно- жества А = е^<^". Очевидно, достаточно для любого еД>0 построить измеримое подмножество Г множества А такое, что р. (Г) > у(А) — е. (4) Обозначим через объединение множеств по всем значениям и2^тп2, ..., пк^тк, и пусть АЛ...ЗД =АПА1Я2...ЯЮ Am‘m^-^=An^m‘m‘-mk- Ясно, что А= U П1=1 19 Е. Б. Дынкии, А. А. Юшкевич 291
и по свойству б) для любого е "> 0 найдется номер п1 такой, что v(A) —у. Далее, со Г ж 1 "] Ат' = U U А„л «2==1 J и по свойству б) найдется номер т2 такой, что Продолжая это построение, получим бесконечную После- довательность . натуральных чисел такую, что V ч —A. ' (4) Обозначим А (к) = Ат‘т^--т/с, F (к) - рт^г...”Чс. Из (4) следует, что v (Л (к)) > v (А) — ? при любом к. Мно- жества Р (к) измеримы, А (к) Q F (к) и поэтому Р (F (к)) = v (F (к)) > v (Д (к)) > v (А) — е. Очевидно, F(1)D^(2)2 и> значит, их пересечение Г удовлетворяет неравенству (4). Остается показать, что Г содержится в А. Если то x£F (к) и, следовательно, х ... пк для некоторого набора прг2. . ,пк, ^>fl4uiieiiiu>T(> условию Пт тп1, п2 т2, . . ., п}: < т:. (k=i, 2, . . .). Назовем такие наборы н1н2. . .пк ^-наборами. По определению таблицы любое начало п1п2. . п1 z-набора п1п2- • • . . .nr . ,пк (1 I < к) тоже является z-набором. Со- гласно сказанному, существуют z-наборы произвольной длины к. Назовем набор хорошим, если он служит на- чалом z-наборов сколь угодно большой длины. Сущест- вует хотя бы один хороший набор п1 длины 1, так как иначе длины всех z-наборов были бы ограничены. Ана- логично, у хорошего набора п± имеется хотя бы одно хорошее продолжение npi2 длины 2 и т. д. до бесконеч- ности. Получающаяся таким образом бесконечная по- следовательность прг2п3. . . = п обладает тем свойством, 292
что все ее начала являются ^-наборами. Но тогда я £FB = = ClF,,,^ ..Kjfc и, значит, х£А. Следовательно, Г С Л. h Итак, все множества, которые получаются ^-опера- цией из измеримых множеств, являются р-измеримыми. По существу мы доказали общую теорему о продолжении ем- костей. Пусть С — некоторый класс множеств, замкнутый отно- сительно объединения конечного числа множеств и пересечения счетного числа множеств, и пусть функция v определена для всех множеств, удовлетворяет условиям а) и б) и условию в) v (F (к)) -> v (Г), если F (1) 2 F (2) э ... принадлежат системе Z и Г=П^(Л). h Если cF — таблица множеств, принадлежащих Z, и A =a^cF, то v (Л) равно супремуму v (С) по всем содержащимся в А мно- жествам С 6 Z. В нашем случае Z — это система всех измеримых Множеств, а свойство в) следует из того, что v на Z совпадает с мерой р. § 4. Отделимость аналитических множеств Докажем, что два непересекающихся аналитических множества А2 и Л2 отделимы некоторыми измеримыми множествами В± и В2 (это значит, что А± CZ Bv А2 CZ В2 и В± не пересекается с В2). Прежде всего заметим, что если каждое множество последовательности Ат отделимо от любого множества последовательности Сп, то сумма А = (J Ат отделима от суммы C={jCn. В самом деле, если Гетв и Д-тв— пара И измеримых множеств, отделяющих Ат от Сп, то множества г=и П Г„1И и д=и ПД™ т п пт отделяют А от С. Допустим теперь, что непересекающиеся аналитиче- ские множества Аг и А2 неотделимы, и придем к противо- речию. Согласно § 1 A1 = f (E2), A2 = g(E2), где Е2 и Е2 — польские пространства, / и g — непрерывные ото- бражения. В пространствах Е2 и Е2 возьмем таблицы & 19* 293
и $, составленные из замкнутых множеств, и такие, что при любом к U ^1' U ^В1и2...и& Е2 9Пгт2...П1к пк 1 и диаметры множеств Fmima...ms. и Gni„2...B)i. меньше у. Поскольку 4=иШ А2= U g (GB1), nil «I то из неотделимости А± и - Л2 следует неотделимость какой-то пары /(Fmi) и g (GK1). Так как / (^,) = U / (44 g (G»,) = U g (GB1„2), 7П3 п2 то из неотделимости / (Fm>) и g(GB1) следует существо- вание неотделимой пары и g (G,vll). По индукции получаем две последовательности туп2 • • ~т и пхп2. • • ... =п такие, что множества /(FOT1m2... mJ и g(GB1Bj...BJ неотделимы при любом к. Замкнутые вложенные друг в друга множества Fmim^^mle и GB1Bs...BJ1. со стремящимися к 0 диаметрами стягиваются в полных пространствах Ех и Е2 к некоторым предель- ным точкам х и у. Поскольку /(z)^^, g(j/)(j-4a, то / (х) =^= g (у) и точки f(x) и g (у) можно окружить непере- секающимися открытыми сферами С7Х и U2. Из непрерыв- ности отображений /ng следует, что при достаточно большом к образы и g(GB1Bs...„J будут со- держаться, соответственно, в UY и С72, т. е. будут отде- лимы, что противоречит определению этих множеств. Из доказанной отделимости следует, что если анали- тическое множество А имеет аналитическое дополнение В\А, то А измеримо. Действительно, А и Я\Л должны быть отделимы, а отделяющими их измеримыми множе- ствами могут быть только сами А и Теперь легко установить, что если f — измеримое взаимно однозначное отображение борелевского простран- ства В1г на борелевское пространство В2, то обратное отображение f~r тоже измеримо (так что / является изо- морфизмом). В самом деле, если Г — измеримое мно- жество в В12 то / (Г) и / (5Х\Г) — аналитические мно- жества в В2, являющиеся дополнениями друг друга, и, следовательно, f (Г) измеримо. 294
§ 5. Пример неизмеримого аналитического множества В примере используется аналитическое множество А плоскости Оху такое, что среди его х-сечений содержатся все борелевские подмножества прямой. (В конце пара- графа будет объяснено, как построить это множество, опираясь на сведения из теории функций действитель- ного переменного, излагаемые в учебниках.) Пересече- ние D множества А с диагональю х=у является анали- тическим множеством, следовательно, аналитична и его проекция Н на ось Оу (см. рис. Д2. 1). Докажем, что множество Н неизмеримо. Достаточно проверить, что неизмеримо дополнение Н' множества Н (до оси Оу). Ввиду свойства универсаль- ности множества А, для этого достаточно убедиться, что ни одно из z-сечений A (z) множества А не проектируется на Н'. Для любого z рассмотрим точку М на диагонали с координатами (z, z) и ее проекцию N на ось Оу. Воз- можны два случая: 1) М принадлежит A (z), 2) М не при- надлежит A (z). В первом случае М принадлежит мно- жеству D и, следовательно, проектируется в множество Н. Стало быть, проекция множества A (z) на ось Оу отлична от Н'. Во втором случае М лежит на диагонали х=у вне множества D и поэтому проектируется в Н'. Значит, снова проекция А(х) на ось Оу не совпадает с Н'. 295
Построение множества А опирается на бэровскую классифика- цию функций и теорему Лебега об универсальной функции. Позна- комиться с классификацией Бэра можно, например, по учебнику И. П. Натансона 4. Там же доказана и теорема Лебега, по которой, в частности, существует измеримая функция y=F (х, z) (0 < х, z < 1) такая, что всякая функция y=f (z) класса < 2 получается из F фиксированием некоторого хъ. Проекция графика функции/* на плоскость Оху представляет собой нужное множество А. Чтобы это доказать, надо убедиться, что любое борелевское множество В на прямой может быть представлено как множество значений некоторой функции y=f (2) (0 < z < 1) класса sj 2. Сна- чала доказывается, что В есть непрерывный образ множества dV’ всех иррациональных чисел отрезка [0,1]. В силу § 3 б) добавления 1 для этого достаточно показать, что всякое польское пространство Е является непрерывным образом а//'. Каждое число z f одно- значно представляется в виде бесконечной цепной дроби 1 z =--------------- , «1 +-------— п* + ^+~.' где пхпг. . . — последовательность натуральных чисел в. Совокуп- ность таких последовательностей отображается на пространство Е с помощью e^-операции, применеввой к последовательности покрытий Е замкнутыми множествами с диаметрами, стремящи- мися к 0. Нужная нам функция / в иррациональных точках построена. Остается доопределить ее в рациональных точках отрезка [0, 1], не увеличивая области ее значений и не выходя за пределы вто- рого бэровского класса. Обозначим через J (z) (0 sj z sj 1) верхний предел / (и), когда и стремится к z по иррациональным точкам. Функция f совпадает с / на множестве Она может иметь раз- рывы только в рациональных точках и поэтому принадлежит бэ- ровскому классу 17. Не выйдет она за пределы класса 1 и при изменении ее значений в конечном числе точек (так как разры- вов будет снова не более чем счетное число). Поочередно исправ- ляя значения / во всех рациональных точках, мы получим по- следовательность функций класса sj 1, которая сходится к функ- * И. Л. Натансон [1], гл. 15. 6 Там же, гл. 15, § 3, теорема 4. 6 А. Я. Хинчин [1], гл. И, § 5, теорема 14. 7- И. П. Натансон [1], гл. 15, § 3, пример И. 296
ции /, отображающей отрезок [0, 1] на В. По определению класс этой функции не превосходит 2. * * * В главе 3 мы использовали существование плоского борелевского множества В с неборелевской проекцией на прямую. Существование такого множества вытекает из существования неизмеримого аналитического множе- ства Н и того факта, что любое аналитическое множество на прямой есть проекция некоторого плоского борелев- ского множества В. Последний факт устанавливается следующим образом. Из опре- деления аналитического множества и изоморфизма борелевских пространств следует, что любое аналитическое множество является измеримым образом отрезка [0, 1]. Если В — аналитическое мно- жество на прямой Оу и y=f (г) — измеримое отображение отрезка (О sj х sj 1 ] на А, то В есть проекция на ось Оу графика функции /, а этот график является борелевским множеством на плоскости Оху (в более общей форме это было доказано в § 1).
Добавление 3 ТЕОРЕМЫ ОБ ИЗМЕРИМОМ ВЫБОРЕ § 1. Лемма Янкова Пусть У Д X — измеримое отображение измеримого пространства Y на измеримое пространство X. Сопостав- ляя каждому х из X его прообраз или слой У(х)=/~\х), получаем соответствие /-1 из пространства X в простран- ство У. Отображение X Д У называется селектором соот- ветствия/-1, если/(<р(а:))=;г [т. е. <p(z) ^Y(x} при каждом ж]. Измеримый селектор <р определяет униформизацию соот- ветствия f~r или измеримый выбор. В случае произвольного измеримого отображения f бо- релевского пространства Y на борелевское пространство X соответствие /-1 может не допускать измеримого выбора (см. § 3). Однако имеет место следующий результат (лемма Янкова): для любой вероятностной меры и на X сущест- вует измеримое отображение X Д У такое, что /(ср (х)) = х (п. н. [i). Докажем это утверждение. Покажем, что всегда можно метризовать X и Y так, чтобы: а) измеримые множества в X и Y совпадали с боре- левскими множествами; б) Y стало польским пространством; в) отображение / являлось непрерывным. По определению борелевских пространств X и Y их можно метризовать так, чтобы выполнялось условие а). Произведение X х Y также является метрическим пространством, а график Г отображения УДХ — изме- римым множеством в XxY (см. добавление 1, §1) и, значит, борелевским пространством. В силу пункта б) § 3 добавления 1, пространство Г является взаимно одно- значным образом некоторого польского пространства Е 298
при непрерывном отображении g. Рассмотрим диаграмму £ Д У 479 где h± и h2 — проектирование графика Г на простран- ства X и У. Очевидно, ^2/=^. Отображения g, 1г± и h2 непрерывны и, следовательно, измеримы. Измеримые ото- бражения g и h2 взаимно однозначны и являются поэтому изоморфизмами (см. добавление 2, §4). Отождествим пространства Е и У с помощью произведения этих изо- морфизмов. Тогда отображение У-4-Х перейдет в непре- рывное отображение Е-iX польского пространства Е на X. Отождествление Е и У равносильно введению в У новой метрики, которая (вместе со старой метрикой в X} удовлетворяет условиям а), б) и в). Из условий б) и в) следует, что все слои У (ж) замк- I нуты. Пусть -п = — Мы построим измеримые множества УХСУ и Хх С X такие, что Хх=/(Ух), |г(Х1) = 1и все слои Ух (ж) = У1|ТУ (х) (ас^Хх) замкнуты и имеют диаметр меньше ех. Повторяя эту конструкцию, получим после- довательности У D Ух D У2 D. . . иХ D Хх D Х2 D. . . такие, что Xn=f (Уп), р. (Хя) = 1 и все слои У,г (а:) = УгеГ|У (z) замкнуты и имеют диаметр меньше ея. Обозначим через Усо пересечение множеств Уп и через Хт — пересече- ние Хп. Ясно, что Ую и Хю измеримы, р(Хю) = 1 и / (Ую) G Хю. Для любого х из Хю слой Ую (z) = = УЮ П У (х) равен пересечению вложенных друг в друга замкнутых подмножеств Уп (х) полного пространства У с диаметрами, стремящимися к 0, и, значит, состоит иа одной точки. Стало быть, f (УС0) = ХС0 и измеримое ото- бражение Ут Д. Хю взаимно однозначно. Согласно § 4 до- бавления 2, обратное отображение Хт Л- Ут тоже изме- римо. Доопределяя отображение ср на множестве Х\ХЮ. формулой ср (х) = у0 (г/0 — фиксированная точка простран- ства У), получим измеримое отображение X Л- У, удовле- творяющее требуемым условиям / (ср (х)) = х при х £ Хго, Н(ХОО) = 1. Остается описать построение Ух и Хх. Покроем про- странство У счетным числом замкнутых сфер Fn диаметра 299
меньше е1. Образы An=f (Fr) этих сфер — аналитические, а значит, ^-измеримые множества в пространстве X {см. добавление 2). Поэтому в каждом Ап можно выбрать измеримое подмножество Сп с р (C^ = р (Ак) Положим Oi=C1 и обозначим через Dri совокупность точек из Сп, не входящих в • -UCi-r Множества измеримы, не пересекаются и с точностью до множества меры О покрывают все пространство X. Полагая п Л = и [HWJ и {так что при x^D^ слой Y± (х) равен FnF\Y (ж)], получим множества и Уп обладающие всеми нужными свой- ствами. § 2. Теорема Блекуэла—Рылль-Нарджевского Если Y^-X — измеримое отображение борелевского пространства Y на -борелевское пространство X, и для каждого х из X определена конечная мера v (• | х) на Y, причем 1) функция v(r|x) измерима по х при любом измери- мом Г из Y; 2) для любого х мера v (• | х) сосредоточена на слое Y(x)=f~i (х); 3) v (У | ж) > О при всех х, тогда соответствие f'1 допускает измеримый выбор. Этот результат доказывается по тому же плану, что и лемма Янкова в § 1, но с тем отличием, что теперь Х= =х1=х2=.. .=хго. Множество Y± строится следующим образом. Рассмат- риваем счетное покрытие {Ук} пространства У замкнутыми •сферами диаметра меньше ех и полагаем CK={^:v(F„]^)>0}. (1) В силу 1) множества Сп измеримы, в силу 3) они покры- вают все пространство X. Множества DK и строятся 1 Меру |л можно считать продолженной на все ^-измеримые мно- жества. 300
по Сп так же, как в § I, причем теперь (J =.-X. В силу (1) и (2) > (У, | х) = v (У,П У (ж) |х) = v (ГЯП У (х) |х) = = v(/?'J;r)>0 при x^Dn ' (2) и, значит, все слои У, (я) = У, |"| У (х) не пусты. Очевидно, мера v (• |д?) сохраняет свойства 1) и 2) при замене пространства У его измеримым подмножеством У,; согласно (2) она сохраняет и свойство 3). Поэтому к У, можно применить ту же конструкцию, но с числом e2i и т. д., как в § 1. § 3. Пример соответствия, не допускающего измеримого выбора Строится борелевское множество D в пространстве Oxyz, проектирующееся на всю плоскость Оху и не содер- жащее графика ни одной измеримой функции z=tp (х, у) (—со < х, у < 4-оо). Это построение опирается на тон- кие результаты дескриптивной теории функций, и мы лишь коротко изложим основную его идею. Известно, что любая измеримая ( = борелевская) функ- ция tp (х, у) принадлежит одному из классов Бэра. Среди этих классов нет наивысшего. Все я-сечения функции tp класса а имеют класс не выше а. Поэтому в множество D нельзя вписать графика измеримой функции двух пере- менных, если среди я-сечений множества D содержатся графики измеримых функций одной переменной z=f (у) сколь угодно высокого класса. Последним свойством обладает борелевское множе- ство Г = {(х, у, z): 0 х 1, —оо < у < —со, O^z^l, y = F(x, z)}, где F — универсальная функция, рассмотренная в § 5 добавления 2. В самом деле, можно построить функцию z—f (у) сколь угодно высокого класса, взаимно одно- значно отображающую прямую на отрезок [0, 1] и такую, 301
что обратная функция y=g (z) будет иметь класс 2 2. Стало быть, найдется х такое, что F (я, z)=g (z). Тогда х — сечение множества Г равно {(у, z)-.y = F(x, z)} = {(y, z): у = g (z)} = = {(у, z):z = /(y)}. Однако множество Г плохо тем, что оно проектируется в неборелевское множество плоскости Оху (см. § 5 добав- ления 2). Используя так называемую теорему о природе множества точек единственности, можно заменить Г бо- релевским множеством D, проектирующимся на всю плоскость и имеющим одинаковые с Г сечения при всех х, при которых уравнение y=F (х, z) определяет взаимно однозначное соответствие между у и z 3. Изоморфное отображение плоскости Оху на отрезок /=[0 и 1] переводит D в борелевское множество Н квадрата IX [0 z 1 ], проектирующееся на I и не содержащее графика ни одной измеримой функции z=z (и). При этом слои Н (u) = HF\{u'A [0, 1]) не униформизуемы [ибо, если ф — измеримый селектор этих слоев, а к — про- ектирование на z, то график измеримой функции z=kty (и) принадлежит Н]. 2 Именно, берется разбиение прямой на два несчетных борелевских множества В и В' наперед выбранного класса а и рассматривается непрерывное взаимно однозначное отображение / множества ир- рациональных чисел отрезка ^0, на и множества иррацио- нальных чисел отрезка jjy , 1J на £'\5', где S и S' — счетные под- множества В и В’ (доказывается, что любое несчетное борелевское множество есть сумма счетного множества и непрерывного взаимно однозначного образа пространства иррациональных чисел — см. К. Куратовский [1], § 36, IV, теорема 2). Затем / доопределяется в рациональных точках так, чтобы взаимно однозначно отобразить их на В и S’; те же соображения, что в § 5 добавления 2, показывают, что получится функция f (z) (0 < z < 1) класса s; 2. 3 См. Н. Н. Лузин [1], стр. 216—221.
Добавление 4 УСЛОВНЫЕ РАСПРЕДЕЛЕНИЯ § 1. Введение В этом добавлении будет доказано, что если Р — вероят- ностная мера на произведении борёлевских пространств ХхУ и и — индуцированная ею мера на X, то найдется переходная функция v (dy |а:) из X в Y такая, что Р (dxdy) = р. (dx) v (dy | x). (1) Точнее, будет построена функция v (Г|х) (Г£^(У), х£Х) со следующими свойствами: a) v есть вероятностная мера на Y при каждом х\ б) v есть измеримая функция х при каждом Г; в) для любой измеримой ограниченной функции f на пространстве X X У j f (х, У) Р (dxdy) = j fi (dx) J / (x, y) v (dy | x) (2) Xxr X Y Гсвойства а) и б) составляют определение переходной функции, свойство в) является развернутой записью фор- мулы (1)]. Фукция v с указанными свойствами называется условным распределением вероятностей на У относи- тельно X. В случае конечного или счетного пространства X условиям а)—в) удовлетворяет ( Р (г X Г) / п при fi (х) > О, = < Н'(’) ( ₽(Г) ПРИ р(ж) = 0, .где р — произвольная фиксированная вероятностная мера ша У (проверку предоставляем читателю). Построение условных распределений для несчетного пространства X -будет проведено в § 4. Это построение опирается на поня- 303
тие. условного математического ожидания и некоторые его свойства, а также на существование в борелевском пространстве так называемой опорной системы функций; этим вопросам посвящены §§ 2 и 3. * * * Из теоремы об условных распределениях легко полу- чаются разложения вероятностных мер на произведениях пространств, использованные в главах 3 и 5 (теоремы Е из §§ 3.4 и 5.4). Пусть Р — вероятностная мера на ко- нечном или бесконечном произведении борелевских про- странств Е = Е0ХЕ^ХЕ2Х • (3> Обозначая индуцированные ею меры на произведениях меньшего числа множителей тоже через Р и применяя наш результат к Х = Е0Х Е±Х YE^ и Y=Et, получим фор- мулу Р (dxodx1. .. dxt) = Р (dxodx±... dx^) v (dxt | хохг.. . xt_±), (4> где v (dxt . . xt^ — переходная функция из E0X ХЕг X . . ,xEt_± в Et. Из (4) очевидной индукцией по t выводится, что Р (dxQdxx.. . dxt) = [j. (d.r0) v (dxx | x0)... v (dxt | хихг.. . x,^), где p (d.r0) = P (dr0) U — любое натуральное число, мень- шее чем число сомножителей в (3)1. § 2. Условные математические ожидания В добавлении 4 мы будем рассматривать, не оговаривая этого каждый раз особо, только измеримые ограниченные функции f. Пусть Р — вероятностная мера в измеримом простран- стве Е. Произвольному разбиению £ = £1i|£2ll...ll£B (1) пространства Е на попарно не пересекающиеся измеримые множества соответствует зависящая от точки х простран- .304- •
ства Е вероятностная мера Vх, определенная формулой Р(^Г)5) Р Т(Я) при Р (Efc) Д> О, при Р (ЯД = О, (2) где номер к=к (х) выбирается из условия, чтобы х при- надлежало множеству Ек, и у — произвольная фикси- рованная вероятностная мера на Е. Интеграл Vх/ функции / по этой мере является условным математическим ожида- нием / относительно разбиения (1). Функция /(ж) = ух/ постоянна на каждом множестве Ек, и еслиЛ=£'д, то j / (х) Р (dx) — J / (х) Р (dx). (3) л л Эта формула сохраняет силу и для множеств А, равных сумме нескольких элементов разбиения. Такие суммы образуют о-алгебру е?/, все элементы которой — изме- римые множества пространства Е. Пусть теперь еЯ? — произвольная оалгебра, состав- ленная из измеримых множеств. У слоеным математическим ожиданием функции f относительно называется любая функция / измеримая относительно и удовлетворяю- щая соотношению (3) при каждом множестве А из <$. Этому определению удовлетворяет вместе с функцией / любая функция, измеримая относительно и отличаю- щаяся от / на множестве меры нуль. Мы будем обозначать любую из таких функций через М(/|2^). Из определения легко выводятся следующие свойства условных математических ожиданий: 1) Для любой постоянной с М(с|е^) = с (п. н.). 2) М (/ g | гя?) = М (/ | с^) + М (g | с^) (п. и.). 3) Если / измерима относительно , то M(/g | с^) = fM(g | е^) (п. н.). 4) Если С — две о-алгебры, то = = (п. н.). Пусть g — произвольная функция и пусть — мини- мальная о-алгебра, содержащая все. множества вида 305
[х : g (х) ус], где с — любая постоянная. Функция F измерима относительно <з-алгебры аУ д тогда и только тогда, когда она представима в виде F (х) = (g (х)), где — функция, измеримая относительно борелевской измеримой структуры на числовой прямой (это легко вывести из леммы 1 добавления 5). Если g измерима, то состоит из измеримых множеств и под М (/ |g) по- нимается условное математическое ожиданием (/|qS^ ). * * * Далее, пусть G^1 CZ CZ . . . — последовательность с-алгебр, состоящих из измеримых множеств, и — ми- нимальная о-алгебра, содержащая все <$п. Пусть функ- ция /я является условным математическим ожиданием функции / относительно (п=1, 2, . . .). Обозначим через С множество тех точек х, для которых существует предел Вт/„(*), (4) К->00 и через — функцию, равную этому пределу на С и равную нулю вне С. В теории мартингалов доказывается, что Р (С) = 1, и что функция /га является одним из вариан- тов условного математического ожидания / относи- тельно Ат Ч § 3. Опорные системы функций В каждом борелевском пространстве Е существует не более чем счетная система W ограниченных измеримых функций, обладающая следующими свойствами: 1) если для последовательности вероятностных мер на Е существует предел интеграла при всех функциях f из W, то найдется вероятностная мера v на Е такая, что vf (f£Wy 2) любая система Ж функций, содержащая W и замк- нутая относительно сложения, умножения на константы и ограниченного предельного перехода1 2, содержит все 1 См. Дж. Л. Дуб [1J, глава 7, § 4, теорема 4.3. 2 Мы говорим, что последовательность функций fn ограниченно сходится к функции /, если fn(x) -> / (х) при каждом х и все функ- ции /„ ограничены общей константой. 306
ограниченные измеримые функции (такие системы мы на- зываем опорными). Если пространство Е конечно, то опорной является система функций, состоящая из индикаторов всех точек. В случае счетного пространства Е опорную систему об- разуют индикаторы всех точек, кроме некоторой выде- ленной точки, и функция, всюду равная 1 (проверку пре- доставляем читателю). Если пространство Е несчетное, то в силу изоморфизма борелевских пространств можно считать Е единичным отрезком. Покажем, что в этом случае за опорную систему можно принять последова- тельность функций 1, х, хг, . . . хт, .... Пусть — вероятностные меры на [0, 1]. Если схо- дятся интегралы по этим мерам для всех степеней of, то сходятся и интегралы от любого многочлена. Используя теорему Вейерштрасса о равномерном приближении не- прерывной функции многочленами и оценку I V - VI < SUP 11 (*) - g (*) |. X легко убедиться, что предел Z (/) = lim vj я->со существует для всех непрерывных функций /. Очевидно, I (/1+/г) = £ (АЖ (/г)> 1 (Ф=с1 (/) (с — постоянная) и Z (/) 0 при / 0. По теореме Рисса (об общем виде поло- жительного линейного функционала от непрерывных функций на компакте8) найдется мера v такая, что I (f) = vf для всех непрерывных функций f и, в частности, для всех степеней хт. Поскольку vl = Z (1)=1, то мера v — вероят- ностная. Значит, свойство 1) выполнено. Свойство 2) вытекает из леммы о мультипликативных системах (см. Добавление 5, § 1), если положить 4o=W и учесть, что о-алгебра на отрезке [0, 1], относительно которой измерима функция / (а:)=а:, содержит все боре- левские множества. § 4. Существование условных распределений В силу теоремы об изоморфизме достаточно рассмот- реть случай, когда X равно полуинтервалу (0, 1]. Обо- 8 См. П. Халмош [1], § 56, теорема 4. 307
jjc . /к — 1 Л"1 значим через полуинтервал ( , — и рассмотрим по- следовательность разбиений ХХУ=Ь(^ХУ) (1) Л=1 пространства X X У. По формуле (2. 2) каждому разбиению отвечает мера на X X У, зависящая от точки пространства. Обозначим через меру, отвечающую разбиению (1). Легко видеть, что она в действительности не зависит от у, и мы будем писать поэтому у*. Пусть — а-алгебра в пространстве X X У, порож- денная разбиением (1). Согласно § 2, за условное матема- тическое ожидание функции / (х, у) относительно а-ал- гебры можно принять функцию fn(x, y}=fn(x)—v*f. Легко видеть, что С сй'а С . . .С С ... и что а-алгебра порождённая объединением всех е#я, сов- падает с совокупностью множеств 2?хУ (X)). Положим (х, у) £ Сесли существует предел lim/Дж) (2) я->оо и обозначим через функцию, равную пределу (2) на С f и равную нулю вне Cf. Согласно § 2 Р (СД = 1 и явля- ется условным математическим ожиданием / относитель- но orfco. Фиксируем в пространстве X X У опорную систему W (Йм. § 3) и рассмотрим пересечение С множеств по всем f£W. Ясно, что С принадлежит а-алгебре и что Р (С) = 1. Следовательно, С=Х'хУ, где X'(X) и Р(Х') = 1. (3) По свойству 1) опорной системы при х £ X' найдутся вероятностные меры X на пространстве X х У такие, что /ео(^) = vV (/6W, ж£Х'). ’ (4) Искомое условное распределение можно задать, полагая (у®(ХХГ) при ж^Х\ ₽(Г) пр» <Г6«(Г» <5> (Р — некоторая фиксированная вероятностная мера на У). 308
Действительно, свойство а) из § 1, очевидно, выпол- нено. Согласно (5) для любого измеримого множества Г про- странства Y ( Vя/ при х £ X' у(Г1а:) = {р(Г) при хеХ\Х', (6) где / — индикатор множества X X Г. Свойство б) будет доказано, если мы покажем, что для любой измеримой ограниченной функции / функция Vх/ измерима по а: на X'. По свойству 2) опорной системы достаточно проверить это для функций / £ W. Но при / £ W Vхf = lim f„ (х) = lim (X 6 X') я->оо я->оо (см. (4) и определения функций и/я). Мера отвечает по формуле (2. 2) разбиению (1) пространства Е=ХхУ, и из формулы (2. 2) видно, что функция v£f измерима по х 4. Чтобы вывести свойство в), заметим, что соотношение (2. 3), определяющее условное математическое ожида- ние, в случае о-агебры принимает вид 6 4 Пусть каждому z из измеримого пространства Z отвечает вероят- ностная мера Р (• |z) на X X У, причем для любого измеримого множества А в X X У величина Р (A |z) является измеримой функ- цией z. В разложении (1. 1) мера р. определена формулой р {В |^)= —Р (В X У |z) и, стало быть, зависит измеримым образом от z. По- строенное нами условное распределение v(-|a:) также зависит от z. Покажем, что для любого измеримого множества Г в У ус- ловная вероятность v(r]z, z) измерима по совокупности х, z. Вместо множеств Сj и С в пространстве X X У рассмотрим ана- логичные множества Dj и D в произведении X X У X Z. Мно- жество D имеет вид Q X У, где Q — измеримое подмножество в X X 2. Пусть Q„ — z-сечение множества Q. Тогда Р (<2Jz)=l при ,всех z. Формулы (4), (5) и (6) сохраняются с заменой х на пару х, z и X' на Q, и рассуждения, проведенные в тексте, показывают, что v (Г]х, z) измеримо по совокупности х, z при Г g (У). 6 Ибо j (dxdy) = j fm(z)p(dx). bxy в (Для индикаторов измеримых множеств это сротношение сводится к определению р, как меры, индуцированной на X мерой Р. Лю- ^бая ограниченная измеримая функция получается из индикаторов измеримых множеств с помощью линейных операций и равномер- ’ного предельного перехода. 20 Е. Б. Дынкин, А. А. Юшкевич 309
j / (x, у) P (dxdy) = j /ra (x) p (dx) (7) BXY В Положим если J f(x,y)P(dxdy) = j (vx/)p (dx) (£6^(X)). (8) BxY В В силу (3), (4) и (7) опорная система TV принадлежит Ж. Из второго свойства опорной системы вытекает, что Ж содержит все ограниченные измеримые функции. Далее, покажем, что при почти всех х мера Vх в про- странстве ХхУ сосредоточена на слое xxY. Для этого применим (8) к индикатору множества (Х\7*)хУ и мно- жеству В=1к. Мы получим, что o=s v-axv^xy)^^). Так как подынтегральная функция неотрицательна, то множество X* = (х: х 6 Ik, v*((Х\7*)X У) > 0} имеет меру 0. Поскольку множество тех х, для которых /((Х\х)хУ)>0, покрывается суммой X* по всем п и к, то его мера также равна 0. Теперь для любых измеримых множеств В С X и Г С У имеем Р(£ХГ)= J ^(ВХГ)[л(йх) = J vx (X X Г) р (йя) = В в = j v (Г | г) р (dx). (9) в Первое равенство вытекает из (8), второе — из того, что мера Vх почти наверное сосредоточена на слое яхУ, третье — из (5) и (3). Если / — индикатор прямоуголь- ника 7?хГ, то (1. 2) совпадает с (8). Чтобы перейти в ра- венстве (1. 2) к любым ограниченным измеримым функ- циям /, достаточно применить лемму из § 3 к системе состоящей из индикаторов всех измеримых прямоуголь- ников fix Г.
Добавление 5 НЕКОТОРЫЕ ЛЕММЫ ОБ ИЗМЕРИМОСТИ § 1. Лемма о мультипликативных системах Часто бывает нужно установить, что из имеющегося запаса функций можно получить все измеримые функции с помощью линейных операций и предельного перехода. Различные предложения, позволяющие это сделаДь, содержатся в книгах Дж. Л. Дуба [1], Е. Б. Дынкина [1], П. Мейера [1]. Мы приведем формулировку Мейера Лемма 1. Пусть % — какая-нибудь система огра- ниченных функций на пространстве Е, замкнутая отно- сительно сложения, умножения на константы и ограни- ченного предельного перехода. Пусть — система функ- ций на Е, замкнутая относительно умножения, и а (^) — минимальная а-алгебра в Е, относительно которой измеримы все функции из Яа- Если система содержит Яо и константы, то содержит все ограниченные функции, измеримые относительно а (^). Отметим одно из. следствий этой леммы. Лемма 2. Пусть Е1г Е2, Es — измеримые простран- ства, F (хи х3) — измеримая ограниченная функция на £\Х р (dx2, х2) — мера на Е3, зависящая измеримым образом от х2. Тогда формула Ф (^ii ^г)= j (^т» ^з) I1 (dxs, х2) (1) в3 определяет измеримую функцию на Е1Х.Е2. Для доказательства достаточно применить лемму 1 к системе всех функций вида F (хг, х2} = (Хл) (хф (А б (Е±), (Еф) 1 См. П. Мейер [1], глава 1, теорема 20. 20* 311
и системе X ограниченных измеримых функций F (х±, х3), для которых интеграл (1) измерим по совокупности хг и х2. Легко видеть, что о (SJ (£'3)=,^' (E^xE^. § 2. Измеримая структура в пространстве вероятностных мер Пусть М — совокупность всех вероятностных мер на измеримом пространстве Е. Мы будем рассматривать как измеримое пространство, вводя измеримую структуру & с помощью функций 2 = (pGO . (1) (/ — произвольные ограниченные измеримые функции на пространстве Е). Покажем, что если пространство Е — бо- релевское, то оМ также является борелевским простран- ством. Рассмотрим в пространстве Е опорную систему функ- ций W == {Д, /2 , . . . ,/в, . . .}, где все /я ограничены чис- лом 1 (см. § 3 добавления 4). Функции (« (2) порождают о-алгебру В самом деле, пусть — о-ал- гебра, порожденная функциями (2). Очевидно, С &. Обозначим через Ж систему всех функций /, для которых (1) измерима относительно . Из свойства 2) опорной системы следует, что Ж содержит все ограниченные изме- римые функции на пространстве Е. Значит, G^'' = G^'. Сопоставляя каждой вероятностной мере р. последо- вательность h±— р/1, h2= pf2, . . ., определим отображение ф пространства рЖ в произведение Н счетного числа единичных отрезков. Согласно § 2 добавления 1 Н можно считать польским пространством. Из свойства 1) опорной системы (§ 3 добавления 4) вытекает, что образ Я' = ф(е^) пространства замкнут в Д. Из свойства 2) легко выводится, что отображение ф взаимно однозначно. 2 Пусть X — произвольная система функций на каком-нибудь мно- жестве X и пусть — минимальная а-алгебра в X, относи- тельно которой измеримы все функции системы X. Мы будем го- ворить тогда, что X порождает а-алгебру <&. Ввести в X из- меримую структуру с помощью системы функций X — значит при- нять за измеримые множества элементы а-алгебры с?". 312
При отображении ф множества {?-’P-fn<c} переходят в множества {h:h£H', hn<c}. Первые порождают оалгебру а последние—о-ал- гебру $ (Н'). Следовательно,. ф— изоморфизм на Н'. Следовательно, о41 — борелевское пространство.
ИСТОРИКО-БИБЛИОГРАФИЧЕСКАЯ СПРАВКА Эта справка не ставит своей целью дать полную библио- графию или исчерпывающую оценку роли отдельных ав- торов. Как правило, мы указываем только работы, сыг- равшие основную роль в развитии теории, а также статьи, которые явились для нас источниками. Максимизация суммарного дохода (общая теория гл. 1 и 3—6) В предисловии уже говорилось об основополагающей роли идей Вальда [1, 2] в создании методов последователь- ного принятия решений в стохастической ситуации, а также о значении работ Веллмана [1, 3], в которых сформули- рованы принципы динамического программирования и про- демонстрирована их полезность при решении многочис- ленных прикладных задач (исследования Беллмана стали распространяться и оказывать свое влияние за несколько лет до опубликования первой монографии [1]). Управляемые марковские процессы с конечным числом состояний и управлений появились в печати впервые (под названием «марковские процессы решения») в работах Беллмана [1, 2]. Еще ранее Беллман’и’БлекуэлДЦ и Шепли [1] изучали так называемые стохастические игры, которые представляют собой^марковские ^процессы, уп- равляемые двумя лицами ^противоположными интере- сами. С другой стороны, Эрроу, Харрис, Маршак [1] и Дворецкий, Кифер, Вольфовиц [1] развивали теорию управления запасами, где возникают управляемые мар- ковские процессы с недискретными пространствами со- стояний и управлений. Первая попытка дать описание 314
общей модели с произвольными основными пространствами была предпринята Карлином [1]. Интерес к управляемым марковским процессам, как самостоятельному объекту исследования, стимулировала книга Ховарда [1], посвященная конечным однородным моделям. В ней, в частности, доказано существование (и указаны алгоритмы для нахождения) наилучших среди стационарных стратегий как для дисконтированного сум- марного дохода, так и для среднего дохода за единицу времени. Современный вид теория приобретает в работах Бле- кузла и Штрауха. Конечные однородные модели с дискон- тированием изучены Блекуэлом в [2]. Здесь впервые доказано существование стационарной оптимальной стра- тегии (ср. § 6.3). Трудности, связанные с переходом к об- щим моделям, исследованы Блекуэлом в [3, 4]. Показано, что их можно преодолеть, пользуясь теоремами измери- мого выбора и переходя от оптимальных ^стратегий к стра- тегиям, е-оптимальным (п. н.). На текущую плату накладываются при этом условия, обеспечивающие абсо- лютную и равномерную сходимость суммарного дохода. Модели с произвольной положительной платой изучены Блекуэлом в [5], а с произвольной отрицательной пла- той — Штраухом [1]. Наше изложение общей теории в § 1.13, главе 3, § 4.8, главе 5 следует в основном Штрауху [1], в §§ 6.3 и 6.8 — Блекуэлу [2, 4]. Независимо от Блекузла и пользуясь другими мето- дами, Крылов [1] доказывает существование стационар- ной е-оптимальной стратегии для моделей со счетными пространствами состояний (при более слабых, чем у Бле- куэла, условиях на текущую плату). Тем же методом в [2] он выводит существование стационарной оптимальной стратегии для конечных моделей. Счетным моделям посвящены также работы Дермана [2] и Мантры [1]. Остановимся подробнее на вопросе о существовании стационарных п. н. е-оптимальных стратегий. Положи- тельный ответ на него дан в § 6.8 в предположении, что плата q ограничена и коэффициент дисконтирования р 1. Этот результат был впервые доказан Блекуэлом в [4]. При (3=1 положение сложнее. Как показал Бле- куэл в [5], даже в случае, когда и оценка v всюду 315
конечна, стационарной и. н. е-оптимальной стратегии i может не существовать. В [5] было высказано предпо,- ; ложение, что для существования такой стратегии доста- точно ограниченности и(х) (и неотрицательности q). Спра- ведливость этой гипотезы вытекает из следующего ре- = зудьтата фри а [1]: если q 0 и v всюду конечно, то для любого X < 1 существует стационарная стратегия <р • такая, что w (х, ср) (х) (п. н.). i Отметим еще работу Блекуэла [6], где устанавливается, ) что если пространство состояний счетно; q 0 и v < со, ' то из существования какой-нибудь оптимальной стратегии; следует существование стационарной оптимальной стра-' тегии. Аналогичный результат доказан у нас в §§ 6.3 и 6.7 < для борелевских моделей, ограниченных сверху, и охва-i тывает случаи, разобранные Блекуэлом в [4] и Штрау- i хом [1]. ’ Во всех упомянутых работах исследуются только» однородные модели. Неоднородный случай рассматри-; вался Фурукава [1] и Хиндерером [1]. Последний ввёл, также обобщения классов положительных и отрицатель- ; ных моделей, аналогичные нашим ограниченным снизу.' (сверху) моделям. Суммируемые модели, по-видимому, ' рассматриваются впервые. Полунепрерывные модели (общая теория гл. 2, §§ 5.6 и частично 6.7) Класс полунепрерывных моделей с конечным интер- валом управления (в несколько иной форме) изучен Ду- бинсом и Сэвиджем [1, глава 2, раздел 16]. В рамках теории) Блекуэла этот класс рассмотрен Мантрой [2, 3]. Теорема измеримого выбора из § 2.6 принадлежит Куратовскому и Рыль-Нарджевскому [1]. Доказательство этой теоремы и ее следствий заимствовано нами из работы Дынкина [5]. Максимизация среднего дохода за единицу времени (общая теория главы 7) Процедура усовершенствования стратегий в конечных моделях, описанная в § 7.5, предложена Ховардом в мо- нографии [1]. Там было доказано, что эта процедура после конечного числа шагов приводит к асимптотически наи- 316
лучшей среди стационарных стратегий. При этом оста- вался открытым вопрос, не существует ли лучшая не- стационарная стратегия. Отрицательный ответ был по- лучен независимо Вагнером [1], Дерманом [1], Висковым и Ширяевым [1] (этому вопросу посвящена также работа Романовского [1]). Асимптотическая формула из § 7.6 принадлежит Блекуэлу [2J. -Счетные модели с постоянной асимптотической оцен- кой v рассматривали Дерман [3] и Росс [1], общие модели с постоянным и'— Тейлор [1], Росс [2], Губенко и Штат- ланд [1] и с произвольным v — Губенко [1] (у последнего впервые для общего случая выписана каноническая си- стема уравнений (ср. §§ 7.2). Понятие канонической стра- тегии предложено Юшкевичем [1] (в случае конечных моделей к этому понятию близко подходили Денардо и Фокс [1]). Модели с минорантой и некоторые их обобще- ния рассмотрены Губенко и Штатландом [1], их частные случаи исследованы в цитированных работах Тейлора, Дермана и Росса. Там же выведены и некоторые другие условия, обеспечивающие существование асимптотически оптимальных стратегий. Пример из § 7.8, в котором состояний конечное число, множества управлений компактны и нет асимптотически оптимальной стратегии, содержится в обзоре Бейзера [1]. Мартин—Лёф [1] доказал для таких моделей существо- вание стационарной асимптотически оптимальной стра- тегии в предположении, что при любом выборе управлений все состояния образуют один эргодический класс (и вы- полнены определенные условия общего характера). Файн- берг [1] другим методом распространил этот результат на случай, когда допускаются невозвратные состо- яния. Большое число работ посвящено более детальному исследованию конечных моделей: изучению более тонкого поведения дохода за время [0, п] при тг->оо (с этим свя- зано исследование асимптотики суммарного дохода за бесконечно^ время при р-> 1), созданию алгоритмов для вычисления асимптотической оценки модели и стационар- ной оптимальной стратегии (в частности, методами линей- ного программирования) и другим вопросам. За дальней- шей информацией по этому поводу мы отсылаем читателя к книге Дермана [4], специально посвященной конечным моделям. , 317
Модели с неполной информацией (общая теория гл. 8) Общая схема управления по неполным данным пред- ложена Ширяевым [1, 2] и Дынкиным [2]. Сведение к мо- делям с полной информацией проведено для моделей со счетными пространствами состояний и борелевскими мно- жествами управлений Савариги и Йошикава [1], для общих борелевских моделей — Юшкевичем [21. Вогнутые модели и модели экономического развития (введение, гл. 9) Модель Гейла [1] является естественным обобщением модели развивающейся экономики, предложенной Ней- маном [11. В модели Неймана имеется конечное число базисных производственных процессов, которые можно вести с произвольными интенсивностями (ее частный случай — модель Леонтьева, где каждый производствен- ный процесс приводит к выпуску только одного продукта и каждый продукт получается в единственном производ- ственном процессе). Оптимальные планы в детерминиро- ванном случае исследовались Гейлом [3]. Доказатель- ства Гейла усовершенствованы Броком [1]. Стохастический вариант модели Гейла и вогнутая модель на конечном интервале изучены Дынкиным [4, 5, 6]. Изложение этих работ и составляет содержание главы 9. Случай бесконечного интервала времени исследован в ра- ботах Евстигнеева [1, 2], Кузнецова [1] и Таксара [1]. Другой вариант моделей экономического развития в ус- ловиях неопределенности разрабатывается Раднером и его сотрудниками (Раднер [2]). Значение цен для задач оптимизации было замечено еще в 1940 г. Канторовичем [2]. Дальнейшее развитие этих идей представляет собой известная теорема Куна— Таккера [1]. Подробнее о (детерминированных) многосекторных ма- тематических моделях экономического развития см. об- зорную статью Гейла [4], а также книги Гейла [2] и Ни- кайдо [1]. 318
Задача о распределении ресурса между производством и потреблением (введение, §§ 2.7 и 6.9) Односекторная модель производства и потребления с учетом случайного риска впервые изучена Фелпсом [1], отправлявшимся от идей Рамсея [1] и разобравшим случаи степенной и логарифмической полезности. Более тонкие вопросы исследованы в работах недавнего времени (Брок и Мирман [1, 2], Мирман [1, 2], Бекман [2]), там же см. более подробную библиографию. Задача о регулировании водоснабжения (введение, § 2.8) В более развернутой постановке эта задача имеет большое практическое значение (см., например, Моран [1]). Задача о распределении ставок в игре (введение, §§ 2.9 и 6.10) Оптимальность дерзкой стратегии для игрока, кото- рому требуется набрать определенный капитал в неблаго- приятной игре, установлена Дубинсом и Сэвиджем [1]. Их монография [1] сыграла важную роль в развитии тео- рии управляемых случайных процессов. Выше упомина- лось о содержащихся в ней результатах относительно полунепрерывных моделей. Наше доказательство из § 2.9 заимствовано из главы 5 названной книги. Случай благоприятной игры исследовался Брейма- ном [1]. Задача о распределении ресурса между потреблением и двумя отраслями производства (введение, §§ 2.10 и 6.11) Эта модель изучена Самюэльсоном [1], считавшим прирост в одной из отраслей неслучайным. Задача о замене оборудования (введение, §§ 1.11, 6.5 и 7.11) Различным вариантам этой задачи посвящена обшир- ная журнальная литература. Численные примеры обсуж- 319
даются в книге Беллмана и Дрейфуса [1]. Отметим также монографию Йоргенсена, Маккола и Раднера [1], содер- жащую, в частности, подробную библиографию. Наше изложение не опирается на эти источники. Задача о стабилизации (введение, §§ 2.11, 6.12, 7.12 и 8.5) Задача об управлении одномерной линейной стохасти- ческой системой при квадратичном критерии (и полной информации) первоначально рассмотрена Саймоном [1], показавшим, что для оптимального управления доста- точно знать только средние значения и дисперсии случай- ных колебаний. Тейл [1] распространил этот результат на многомерный случай, а Кальман и Кёпке [1] разра- ботали соответствующий алгоритм. Случай управления гауссовой системой по неполным данным был рассмотрен Джозефом и Ту [1], установив- шими один из вариантов теоремы разделения (алгоритм для наилучшей оценки ненаблюдаемого состояния был предложен ранее Кальманом [1]). Приведенный нами ва-' риант теоремы разделения изложен также у Де Гроота [Г, § 14.11]. Описанная задача и ее обобщения имеют многочислен- ные важные приложения, и им посвящена огромная лите- ратура. Упомянем лишь книги Фельдбаума [1], Аоки [1], Савариги, Сунахара, Никамидзо [1], Острема [1]. Задача о выборе транспорта (§§ 1.10 и 6.4) Обобщения этой игрушечной задачи можно найти в жур- нальной литературе (см., например, Амбарян [1]). Задача о двуруком бандите (§8.3) Наше изложение представляет собой упрощенный ва- риант статьи Фельдмана [1]. Та же работа использована - Де Гроотом [1, §§ 14.5—14.7], у которого читатель найдет историческую справку и ссылки на другую литературу. Отметим работу Кавера и Хеллмана [1], в которой находится наилучшая из стратегий, реализуемых q по- мощью автомата с фиксированным объемом памяти (там 320
же можно найти ссылки на работы, в которых проводится аналогичный подход к другим задачам оптимального управления). Борелевские пространства (добавление 1) Изоморфизм борелевских пространств (их иногда на- зывают стандартными борелевскими пространствами) до- казан в монографии Куратовского [1]. Наше изложение опирается на Куратовского и на книгу Партасарати [1], глава 1. Аналитические множества (добавление 2) e^-операция была введена П. С. Александровым в 1916 г. Затем Н. Н. Лузин сформулировал задачу: всякое ли множество, получающееся из интервалов при помощи. e^-операции, является борелевским? М. Я. Суслин дал отрицательный ответ на этот вопрос и тем самым открыл новый класс множеств, которые теперь называют анали- тическими (этот термин введен Лузиным). Теоремы об отделимости аналитических множеств и об их измеримости относительно меры Лебега доказаны Лузиным. Теория аналитических множеств изложена Лузиным в моногра- фии [1], оттуда, в частности, заимствованы примеры, приведенные в § 5 добавления 2 и § 3 добавления 3. Дока- зательство универсальной измеримости аналитических множеств, приведенное в добавлении 2, основано на рас- суждении, с помощью которого Шоке доказал, что всякое аналитическое множество обладает емкостью. Об (^-опе- рации. и аналитических множествах см. также Сакс 11]. Более современное изложение см. у Мейера [1, глава 3]. Теоремы об измеримом выборе (добавление 3) Теорема об измеримом выборе из § 1 добавления 3 впервые доказана Янковым [1] (для проектирования плоского аналитического множества на прямую и меры Лебега). Через 9 лет она была передоказана Нейманом [2, лемма 5], который, по-видимому, не знал работы Ян- кова. Нейман рассматривает более общий случай непре- рывного отображения произвольного аналитического мно- жества в прямую. Однако, в силу изоморфизма борелевских 321
пространств, этот случай, как и еще более общий случай, разобранный в § 1 добавления 3, сводится к ситуации, рассмотренной Янковым. Многие авторы также, видимо, незнакомы с работой Янкова и ссылаются на его резуль- тат, как на лемму Неймана. Доказательство, которое мы приводим, отличается от предыдущих. Более общая теорема измеримого выбора, когда про- извольное пространство с мерой измеримо отображается в борелевское пространство, доказана Ауманном [1, тео- рема 2]. Другой вариант доказательства приведен в моно- графии Хильденбранда [1]. Там же можно найти ссылки на дальнейшую литературу. Теорема из § 2 добавления 3 принадлежит Блекуэлу и Рыль-Нарджевскому [1], ее доказательство упрощено благодаря использованию универсальной измеримости аналитических множеств и проводится по тому же плану, что и доказательство теоремы из § 1. Условные распределения (добавление 4) Теорема о существовании условных распределений по существу есть уже в книге Дуба [1, глава 1, § 9]. В нуж- ной нам форме она доказана у Партасарати [1, глава 5, § 8], наше доказательство несколько иное. Понятие опор- ной системы введено Дынкиным [3]. Существование условных распределений, как и ряд других хороших свойств борелевских пространств, со- храняется для более широкого класса пространств Лу- зина, введенного Блекуэлом [1].
ЛИТЕРАТУРА * Амбарян С. Л. [1, 1967] Выбор оптимальных трасс движения пассажиров при за- данной транспортной сети города. — «Экон, и мат. ме- тоды», 3, 862—871. Аоки (Aoki М.) [1, 1967] Оптимизация стохастических систем. М., 1971. Арис (Aris R.) [1, 1964] Discrete dynamic programming (An introduction to the optimization of staged processes). N. Y. Ауманн (Aumann R. J.) [1, 1969] Measurable utility and the measurable choice theorems. La Decision, 2 (Actes Coll, du CNRS 1967), 15—26. Бейзер (Rather J. A.) [1, 1973] Optimal decision procedures for finite Marcov chains. I : Examples «Adv. Appl. Prob.» 5, 328—339, II : Commu- nicating systems, ibid. 521—540, III: General convex systems, 541—553. Бекман (Beckmann M. J.) [1, 1968] Dynamic programming of economic decisions. Heidelberg N. Y. [2, 1974] Resource allocation о ver time. Some dynamic program- ming models. «Mathematical models in Economics», 171—178. Amsterdam—London—N. Y.—Warszawa. Беллман (Bellman R.) fl, 1957] Динамическое программирование. M., 1960. [2, 1957] A Markovian decision process. — «J. Math. Meeh.», 6, 679— 684. [3, 1961] Процессы регулирования с адаптацией. М., 1964. Беллман и Блекузл (Bellman R.t Blackwell D.) [1, 1949] On a particular non-zero sum game, Rand McNally. Chi- cago. Беллман и Дрейфус (Bellman R., Dreyfus S.) [1, 1962] Прикладные задачи динамического программирования. М„ 1965. Блекузл (Blackwell D.) [1, 1956] On a class of probability spaces. — «Proc. 3-rd Berkeley Sympos. on Math. Stat, and Prob. 1954—1955», v. 2, 1—6. * В квадратных скобках первая цифра — номер отсылки в тек- сте, вторая — год выхода оригинала в свет. 323
[2,1962] Discrete dynamic programming, «Ann. Math. Stat.», 33,' 719-726. [3, 1964] Memory less strategies in finite-stage programming. — «Ann. Math. Stat.», 35, 863—865. [4, 1965] Discounted dynamic programming. — «Ann. Math. Stat.», 36, 226-235. [5, 1967] Положительное динамическое программирование. — Сб. «Математика», 13, 5, 103—106 (1969). [6, 1969] О стационарных стратегиях. — Сб. «Математика», 14, 2, 155-159 (1970). Блекуэл и Рыль-Нарджевский (Blackwell D., Ryll-N ardzeivski С.) [1, 1963] Non-existence of everywhere proper conditional distri- butions. — «Ann. Math. Stat.», 34, 223—225. Болтянский В. Г. [1,1973] Оптимальное управление дискретными системами. М. Брейман (Breiman L.) [1, 1961] Optimal gafhbling systems for favourable games. — «Proc. 4-th Berkeley Sympos. on Math. Stat, and Prob.», v. 1, 67— 78. Брок (Brock W. A.) [1, 1970] On existence of weakly maximal programs in a multisector economy. — «Rev. Econ. Studies», 37, 2, 275—280. Брок и Мирман (Brock W. A., Mirman L. J.) [1, 1972] Optimal economic growth and uncertainty: the discounted case. — «J. Econ. Theory», 4, 3, 479—513. [2, 1973] Optimal economic growth and uncertainty: the no discoun- tingcase. — «International Economic Review», 14, 3, 560— 573. Бурбаки (Bourbaki N.) [1,1951] Топологические векторные пространства. M., 1959. Вагнер (Wagner Н. М.) [1, 1960] On the optimality of pure strategies. — «Management Sci.», 6, 268-269. [2, 1969] Основы исследования операций, т. 1—3. М., 1973. Валъд (Wald А.) [1, 1947] Последовательный анализ. М., 1960. [2, 1950] Статистические решающие функции. — Сб. «Позиционные игры», 300—522. М., 1967. Висков О. В. и Ширяев А. Н. [1, 1964] Об управлениях, приводящих к оптимальным стационар- ным режимам. — «Труды МИАН им. Стеклова», 71, 35— 45. Гейл (Gale D.) [1, 1956] Замкнутая линейная модель производства. — Сб. «Ли- нейные неравенства и смежные вопросы». М., 1959, 382— 400. [2, 1960] Теория линейных экономических моделей. М., 1963. [3, 1967] On optimal development in a multisector economy. — «Rev. Econ. Studies», 34, 1—18. [4, 1968] Математическая теория оптимального экономического развития. — Сб. «Математика», 14, 6, 160—175 (1970). Гнеденко Б. В. [1,1950] Курс теории вероятностей. М.—Л. 324
Губенко Л. Г. [1, 1972] Управляемые марковские и полумарковские модели и некоторые конкретные задачи оптимизации стохастических систем. Канд. дисс. Киев. Губенко Л. Г. и Штатланд Э. С. [1, 1972] Об управляемых марковских процессах с дискретным временем. — Сб. «Теор. вер. и мат. стат.», 7. Киев, 51 — [2, 1972] Об управляемых полумарковских процессах. —«Кибер- нетика», 1972, 2, 26—29. Данфорд и Шварц (Dunford N., Schwartz J. Т.) [1, 1962] Линейные операторы. Общая теория. М. Дворецкий, Кифер и Вольфовиц (Dvoretzky А., Kiefer J., Wolfowitz J.) [1,1952] The inventory problem, p. 1, 2. —«Econo metric a», 20, 187—222, 450—466. Де Гроот (DeGroot M. H.) ' [1, 1970] Оптимальные статистические решения. M., 1974. Де Леве (De Leve G.) [1,1964—1970] Generalized Markovian decision processes. I: Mo- del and method. Amsterdam, 1964, II: Probabilistic back- ground. Amsterdam,. 1964, III; Applications (together with H. G. Tijms and P. J. Weeda). Amsterdam, 1970. Денардо и Фокс (Denardo E. V., Fox B. L.) [1, 1968] Multichain Markov renewal programs. — «SIAM J. Appl. Matin», 16, 468—487. Дерман (Derman C.) [1, 1962 ] On sequential decisions and Markov chains. — «Management Sci.», 9, 16—24. [2, 1965] Markovian sequential control processes — denumerable state space. — «I. Math. Appl.», 10, 295—302. [3, 1966] Denumerable state Markovian decision processes — ave- rage cost criterion. — «Ann. Math. Stat.», 37, 1545—1553. [4, 1970] Finite state Markovian decision processes, N. Y. — London. Джозеф и-Ту (Joseph P. D., Той Г. T.) [1, 1961] On linear control theory. — «А1ЕЕ-Trans. 80, 2 : Applica- tions and Industry, 193—196. Дуб (Doob J. L.) [1,1953] Вероятностные процессы. M., 1956. Дубине и Сэвидж (Dubins L. Е., Savage L. J.) [1, 1965] How to gamble if jou must. N. Y. Дынкин E. Б. [1, 1959] Основания теории марковских процессов. М. [2, 1965] Управляемые случайные последовательности. — «Теор. вер. и ее примет», 10, 1, 3—18. [3, 1969] Пространство выходов марковского процесса. — «Успехи мат. наук», 24, 4 (148), 89—152. [4,1971] Некоторые вероятностные модели развивающейся эко- номики. — «ДАН СССР», 200, 3, 523—525. [5, 1972] Вероятностное вогнутое динамическое программирова- ние. — Мат. сб. 87 (129), 4, 490—503. [6, 1974] Optimal programs and stimulating prices in probabili- stic models of economic development. — «Mathematical 21 E. Б. Дынкин, А. А. Юшкевич 325
Models in Economics», 207—218. Amsterdam—London— N. Y. — Warszawa. Дынкин E. Б. и Овсеевич А. И. [1, 1975] Об отношениях предпочтения в условиях неопределен- ности. — «Экон, и мат. методы», 11, 2, 393—395. Евстигнеев И. В. [1, 1974] Оптимальное экономическое планирование с учетом ста- ционарных случайных факторов. — «ДАН СССР», 206, 5, 1040—1042. [2, 1974] Optimal stochastic programs and their stimulating pri- ces. — «Mathematical Models in Economics», 219—252. Amsterdam—London—N. Y. — Warszawa. Йоргенсен, Маккол и Раднер (JorgensonD. W., McCall J. J., Rad- ner R.) [1, 1967] Optimal replacement policy. Amsterdam. Кавер и Хелман (Cover T. M., Hellman М. Е.) [1, 1970] The two-armed bandit problem with time-invariant fi- nite memory. — «IEEE Trans, on Inform. Theory», IT- 16, 2, 185-195. Кальман (Kalman R. E.) ]1, 1960] A new approach to linear filtering and prediction prob- lems. — «I. of Basic Engeneering», 82D, 35—44. Кальман и Кепке (Kalman R. E., Kopcke R. W.) [1, 1958] Optimal synthesis of linear sampling control systems using generalized performance indexes. — «ASME Trans.», 80, 1820-1826. Канторович Л. В. < [1, 1939] Математические методы организации и планирования производства. Л. [2, 1940] Об одном эффективном методе решения некоторых клас- сов экстремальных проблем. — «ДАН СССР», 28, 212— 215. Карлин (Karlin S.) [1, 1955] The structure of dynamic programming models. — «Na- val Res. Logistic Quart.», 2, 4, 285—294. Колмогоров A. H. и Фомин С. В. [1, 1968] Элементы теории функций и функционального анализа. М. Крамер (Cramer Н.) [1, 1946] Математические методы статистики. М., 1948. Крылов Н. В. [1, 1964] О существовании е-оптимальных однородных марковских стратегий для управляемой цепи. — «ДАН СССР», 155, 4, 747—750. [2, 1965] Построение оптимальной стратегии для конечной управ- ляемой цепи. — «Теор. вер. и ее примен.», 10, 1, 54—60. Кузнецов С. Е. [1, 1974] Weakly optimal programs in models with changing tech- nology. — «Mathematical Models in Economics», 259— 270. Amsterdam—London—N. Y.—Warszawa. Кун и Такер (Kuhn H. W., Tucker A. W.) [1, 1951] Nonlinear programming. —«Proc. 2-nd Berkeley Sympos. on Math. Stat, and Prob.», 1950, 481—492. 326
Куратовский (Kuratouiski С). [1, 1966] Топология, т. 1. М. (первое издание 1933). Куратовский и Рилъ-Нарджевский (Kuratowski С., Ryll-Nard- zewski С.) [1, 1965] A general theorem on selectors. — «Bull. Acad. Polon. Sci. Math. Astr. Phys.», 13, 397—403. Кушнер (Kushner HA [1,1971] Introduction to stochastic control. N. Y. Лузин H. H. [1, 1930] Лекции об аналитических множествах и их приложе- ниях. — «Собр. соч.», т. 2, 9—269. М., 1958. Маитра (Maitra А.) [1, 1965] Dynamic programming for countable state systems. — «Sankhya», Ser. A, 27, 241—248. [2, 1968] Discounted dynamic programming on compact metric spaces. — «Sankhya», Ser. A, 30, 211—216. [3, 1969] A note on positive dynamic programming. — «Ann. Math. Stat.», 40, 316—319. Мартин (Martin J. J.) [1, 1967] Bayesian decision problems and Markov chans. N. Y. Мартин-Лёф (Martin-Lof A.) [1, 1967] Existence of a stationary control for a Markov chain ma- ximizing the average reward. — «Operations Res.», 15, 866-871. Мейер (Meyer P. A.) [1, 1966] Вероятность и потенциалы. M., 1973. Мине и Осака (Mine Н., Osaki S.) [1, 1970] Markovian decision processes. N. Y. Мирман (Mirman L. J.) [1,1971] Uncertainty and optimal consumption decisions .—«Eco- nometrica», 39, 179—186. [2, 1973] The steady state behavior of a class of one-sector growth models with uncertain technology. —«I. Econ. Theory», 6. Моран (Moran P. A. P.) [1, 1959] The theory of storage. London. Натансон И. И. [1, 1950] Теория функций вещественной переменной. М.—Л*. Неве (Neveu J.) [1, 1964] Математические основы теории верояпюстей. М., 1969. Нейман (von Neumann J.) [1, 1937] Ueber ein okonomisches Gleichungssystem und eine Ver- allgemeinerung des Browerschen Fixpunktsatzes. — «Er- gebnisse eines mathematischen Kolloquiums», 1935— 1936, 8, Leipzig—Wien. Английский перевод: A model of general economic equi- librium. — «Rev. Econ. Studies», 13, (1945—1946). [2, 1949] On rings of operators. Reduction theory. — «Ann. Math.», 50, 2, 401-485. Никайдо (Nikaido H.) [1, 1968] Выпуклые структуры и математическая экономика. М., 1972. 21* 327
Новиков П. С. [1, 1951] О непротиворечивости некоторых положений дескриптив-. ной теории множеств. — «Труды МИАН им. Стеклова», 38, 279—316. Острем ( Astro т К. J.) [1, 1970] Введение в стохастическую теорию управления. М., 1973. Партасарати (Parthasarathy К. R.) [1, 1967 ] Probability measures on metric spaces. N. Y.—London. Раднер (Rainer R.) [1, 1967] Dynamic programming of economic growth. London. [2, 1973] Optimal stationary consumption with stochastic produ- ction and resources. — «J. Econom. Theory», 6,1, 68—90. Рамсей (Ramsey F.) [1, 1928] A mathematical theory of savings. —«Econ. J.», 38, 543 — 559. Рокафеллар (Rockafellar R. T.) [1, 1970] Выпуклый анализ, 8c M., 1973. Романовский И. R. [1, 1965] Существование оптимального стационарного управления в марковском процессе решения. — «Теор. вер. и ее прим.», 10, 1, 130-133. [2, 1967] Оптимизация стационарного управления дискретным де- терминированным процессом. — «Кибернетика», 1967, 2, 66-78. [3,1971] Детерминированные . процессы динамического програм- мирования с дополнительными ограничениями..— «Ки- бернетика», 1971, 5, 69—71. Росс (Ross S. М.) [1, 1968] Non-discounted denumerable Markovian decision models. — «Ann. Math. Stat.», 39, 412—424. [2, 1968] Arbitrary state Markovian decision process. — «Ann. Math. Stat.», 39, 2118—2122. [3, 1970] Applied probability models with optimization applica- tions. San Francisco. Савариги и Йошикава (Savarigi У., Yoshikatva T.) [1, 1970] Discrete time Markovian decision process with incomplete state observation. — «Ann. Math. Stat.», 41, 78—86. , Савариги, Сунахара и Никамидзо (Savarigi У., Sunahara У., Na- kamizo T.) [1, 1967] Statistical decision theory in adaptive control systems. N. Y.—London. Саймон (Simon H. A.) [1, 1956] Dynamic programming under uncertainty with a quadratic criterion function. —«Econometrica», 24, 1, 74—81. Сакс (Saks S.) [1, 1937] Теория интеграла. M., 1949. Самюэлъсон (Samuelson Р. А.) [1, 1969] Lifetime portfolio selection by dynamic stochastic program- ming». — «Rev. Econ. 8c Stat.», 51, 3, 239—246. Соловей (Solovay R.) [1, 1970] A model of set theory in, which every set of reals is Lebesgue measurable. «Ann. of Math.», 92, 1—56. 328
Таксар М. И. [1, 1974] Optimal planning over infinite time interval under ran- ' dom factors. — «Mathematical Models in Economics», 289—298. Amsterdam—London—N. Y.—Warszawa. Tейл (Theil H.) [1, 1957] A note on certainty equivalence in dynamic planning. — «Econometrica», 25, 2, 346—349. Тейлор (Taylor H. M., Ill) [1, 1965] Markovian sequential replacement processes.—«Ann. Math. Stat». 36, 1677—1694. Файнберг E. A. [1, 1975] Об управляемых марковских процессах с конечным мно- жеством состояний и компактными множествами управле- ний. — «Теор. вер. и ее примен.» 100, 20. Феллер (Feller W.) [1, 1950] Введение в теорию вероятностей и ее приложения, т. 1. М.; 1952, 1964. Фелпс (Phelps Е. S.) [1, 1962] The accumulation of risky capital: a sequential utility analysis». — «Econometrica», 30, 4, 729—743. Фелъдбаум A. A. [1, 1966] Основы теории оптимальных автоматических систем. М. Фельдман (Feldman D.) [1, 1962] Contributions to the «two-armed bandit» problem. —«Ann. Math. Stat.», 33, 847—856. Фрад E. Б. [1, 1970] Об одной задаче Д. Блекуэлла из теории динамического программирования. — «Теор. вер. и ее примен.», 15, 4, 740-745. Фурукава (Furukawa N.) [1, 1968] A .Markov decision process with non-stationary laws. — «Bull. Math. Stat.», 13, 41—52. Халмош (Halmos P. R.) [1, 1950] Теория меры. M., 1953. Харди, Литтлъвуди Полиа (Hardy G.H., Littlewood J. Е., Polya G.). [1, 1934] Неравенства. "M., 1948. Хилъденбранд (Hildenbrand W.) [1, 1974] Core and equilibria of a large economy. Princeton. Хиндерер (Hinderer K.) [1, 1970] Foundations of non-stationary dynamic programming with discrete time parameter. Berlin—Heidelberg.—N. Y. Хинчин А. Я. [1, 1935] Цепные дроби. M.—Л. Ховард (Howard R. А.) [1, i960] Динамическое программирование и марковские процессы. М., 1964. [2,1971] Dynamic probabilistic systems, v. 2: Semi-Markov and decision processes. N. Y. Шепли (Shapley L. S.) [1, 1953] Stochastic games. — «Proc. Nat. Acad. Sci. USA», 39,1095— 1100. 329
Ширяев А. Н. [1, 1964] К теории решающих функций и управлению процессом наблюдения по неполным данным. — «Trans. 3-rd Prague Confer, on Inform. Theory etc.», 1962, 657—681 (Prague). [2, 1967] Некоторые новые результаты в теории управляемых слу- чайных процессов.— «Trans. 4-th Prague Confer, on In- form. Theory etc.», 1965, 131—203 (Prague). [3, 1969] Статистический последовательный анализ. M. Штраух (Strauch В. Е.) [1, 1966] Отрицательное динамическое программирование. — Сб. «Математика», 13, 5, 107—127 (1969). Эрроу (Arrow К. J.) [1,1971] Essays in the theory of risk-bearing. Chicago. Эрроу, Карлин и Скарф (Arrow К. J., Karlin S., Scarf H.) [1, 1958] Studies in the mathematical theory of inventory and pro- duction. Stanford. [2, 1962] Studies in applied probability and management science. Stanford. - Эрроу, Харрис и Маршак (Arrow К. J., Harris T., Marschak J.) [1, 1951] Optimal inventory policy. —«Econometrica», 19, 250— 272. Юшкевич A. A. [1, 1972] Об одном классе стратегий в общих управляемых мар- ковских моделях. — «Теор. вер. и ее примен.», 18, 4, 815-817. [2, 1975] Сведение управляемой марковской модели с неполными данными к задаче с полной информацией в случае боре- левских пространств состояний и управлений. — «Теор. вер. и ее примен.», 20. Янков В. [1,1941] Об унификации А-множеств. —«ДАН СССР», 30, 7, 591-592.
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ Аналитическое множество 287— 288, 321 — операция -289, 321 Асимптотическая оценка мо- дели 200, 216, 219 — — начального распределе- ния 200 Асимптотически оптимальная стратегия 200, 213—215 — е-оптимальная стратегия 220 Банахово пространство 275 Бесконечное произведение про- странств 158 Борелевская модель 103, 149 Борелевское множество 62 — — в ft-мерном простран- стве 63 — — — метрическом простран- стве 71 — пространство 102, 278 Вектор выпуска 258 — затрат 258 Вероятностная мера 63 Верхняя оценка 216 Внешняя мера 290 Вогнутая модель 260 — функция 10, 258 Всюду плотное множество 71 Выпуклое множество 258 Гильбертов кирпич 278 Дерзкая стратегия 92, 194 Достаточность марковских стра- тегий 56, 111, 122—123, 126— 127, 148, 153 — простых стратегий 56, 60, 103, 106, 111, 123—124, 126— •127, 148, 150, 153, 218 ' — стационарных стратегий 172, 181—182, 184, 216 Задача о двуруком бандите 242— 248, 320 — — выборе транспорта 43— 49, 172-175, 320 -т- — замене оборудования .12, 25-26, 49—51, 175-179, 225—230, 319 — — распределении ресурсов 7—10, 26—27, 83—87, 97— 99, 189—193, 194—196, 319 — — — ставок 9—11, 26, 88— 97, 193—194, 319 — — регулировании водоснаб- жения 9—11, 26, 87, 319 — — стабилизации 12, 27, 99— 101, 196—198, 230—232, 252- 257, 320 Измеримая функция 63, 106, 160 Измеримо зависящее от пара- метра множество 259 Измеримое метрическое про- странство 71 — множество, 62, 106 — — в ft-мер пом простран- стве 63 — — — метрическом про- странстве 71 — отображение 62 — пространство 62 — соответствие 79 331
Измеримый выбор 74, 298, 301 — почти наверное селектор НО Изоморфизм борелевских про- странств 278 Изоморфные измеримые про- странства 102 Интеграл 64 История 28 Каноническая тройка 200, 219 — стратегия 200, 219, 224, 225 Канонические уравнения 201, 218 Квазинепрерывное соответ- ствие 72z Класс S? (Е) 71 Классификация Бэра 296 Конечная модель 23, 51 Континуум-гипотеза 287 Конус 258 Коэффициент дисконтирования 164 Критерий измеримости соответ- ствия 79 Лемма Неймана 321 — Фату 262 — Янкова 298, 320—321 Линейный функционал 273 Мажорирующая простая стра- тегия 56, 111 Марковская вогнутая модель 261 — стратегия 28, 66 Марковский оптимальный план 262 — план 262 Марковское свойство 41, 133 Математическое ожидание 29 Мера 63 Мера Р* 29, 65, 235 - Р* 29, 65, 235 Метрическое измеримое про- странство 71 — пространство 70 Миноранта 223 Множества А 15, 22, 64, 71 - At 67 — А(х) 17, 22, 28, 71—72 — Xt 15, 22, 64, 71 . — Vt 233 Множество А 22, 64, 71 — L 29, 64 — X 16, 64, 71 Модели экономического плани- рования 7—10 Модель 23, 51—52, 66—67, 128, 130 — Гейла 9—10, 258 — Леонтьева 318 — Неймана 9, 318 — с неполной информацией 233, 248-249 ^.-измеримая функция 106 p-измеримое множество 106 Наблюдаемая история 234 Начальное распределение р 22— 23, 234 Незамкнутая модель Гейла 259 Неизмеримое аналитическое мно- жество 295 Ненаблюдаемое состояние 233 Не худшая стратегия 56 Нижняя оценка 216 Общая борелевская модель 103 — — — с неполной информа- цией 249 — модель 64—66, 73, 219 Ограниченная сверху (снизу) мо- дель 141, 143, 166 — — — — с неполной инфор- мацией 252 Ограниченный предельный пере- ход 306 Однородная модель 24, 163—164 Оператор P.t, 201, 220 — И 201, 220 — Т 37, 77, 78, 165, 183, 201 — Т~ (ТЛ 37, 77, 78, 165, 183, 201 — U 19, 69, 165, 183 — V 18, 183, 201 Опорная система функций 307 Оптимальная стратегия 30, 32, 38-40, 133, 171, 241, 251 Оптимальный план 259 — путь 14, 16 Отделимые множества 293 Оценка модели v 33, 234 — начального распределенир и (р) 29 — процесса 29, 234 — пути 14, 16, 23 — состояния v (х) 130 332
— стратегии w (•, к) 29, 129— 130, 149, 234 ’ — стрелки 19 — точки 16 — управления и (а) 35 Переходная функция р 22, 27, 66, 67, 72, 112—116, 158, 233, 249, 303 — — из Е в Е' 66 План 258—261 Поглощающее состояние 44 Полезность 258 Полное метрическое простран- ство 102 Полунепрерывная модель 71, 74, 149, 161, 184 — функция 70 Польское пространство 102, 278 Порожденная о-алгебра 312 Почти наверное сочетание стра- тегий 110—111, 120 — — е-оптимальная стратегия 111, 119-120, 153, 160-161 Приведенная полезность 268 Принцип динамического про- граммирования 42 Проекция j 22, 65 Произведение пространств 63 — стратегий 36, 40 Производная модель 33 Производственная функция 8 Производственный процесс 258 Простая оптимальная (равно- мерно оптимальная) стратегия 38-40, 75, 143, 161, 241, 262 — почти наверное е-оптималь- ная стратегия 107, 126, 150, 155 — стратегия 28, 66 — е-оптимальная стратегия 55—56, 107, 112, 141—145, 166, 184, 252 Пространства Лузина 322 — состояний 22, 64, 71, 219 — управлений 22, 64, 71 Пространство мер 112 Пространство путей 64, 159 Путь 15, 23 Равномерно мажорирующая стратегия 56 — ограниченная (сверху, снизу) . модель 14, 166 — оптимальная стратегия 30, 32 — е-оптимальная стратегия 53, 134, 153 Равномерные стратегии 56, 111 Развертка однородной модели 163, 164 Распределение вероятностей 22, 63 Расстояние 70, 79 Рекуррентное уравнение 26, 67, 74, 78 Свойство S 130 Селектор 28, 298 Сепарабельное метрическое про- странство 71 Система цен 270 Слой 22, 298 Случайная плата 24, 31, 233 Смешение стратегий 30—31 Соответствие 28 Сочетание стратегий 33, 111, 119, 120 Стационарная асимптотически оптимальная стратегия 200, 224, 225 — — е-оптимальная стратегия 224 — почти наверное е-оптималь- ная стратегия 186 — оптимальная стратегия 168— 172, 184, 242 — стратегия 163, 167 — е-оптимальная стратегия 179—182, 185—186, 252 Стимулирующие цены 269, 272 Стохастическая-матрица 203 Стратегическая мера 116 Стратегия 28, 66, 128, 234, 235, 249 Суммируемая модель 129, 131, 137, 165 — — с неполной информацией 252 — сверху (снизу) модель 129 — функция 134 Сходимость в метрическом про- странстве 70 Счетная модель 51—52 о-алгебра 62 ' 333
Таблица множеств 289 Текущая плата q 18, 22—23, 52, 66, 72, 130, 149, 219, 233, 249 . Теорема Блекуэла—Рыль— Нарджевского 300, 322 — Ионеску Тульча 158 — Лебега об универсальной функции 296 — о природе множества точек единственности 302 — — продолжении емкостей 293 — разделения 257, 320 — Рисса 307 Теоремы об измеримом выборе 75, 79, 108, НО, 265, 298, 300, 321-322 Технологическое множество 258 Тривиальная модель 104 Универсальная измеримость оценки борелевской модели 106, 109, 118—119, 159—160, 167, 184 — функция 296 Универсально измеримая функ- ция 106, 160 — измеримое множество 106, 109 Униформизация 74, 298 Управление а 22, 24 Управляемый марковский про- цесс 22, 128 Уравнения оптимальности 38— 39, 42, 55, 77, 79, 103, 106, 120—122, 136—138, 149-150, 152-153, 161, 165 — — Ховарда 203 Условное математическое ожи- дание 305—306 — распределение вероятностей 303 Усовершенствование стратегий по Ховарду 209, 211—213 Финальная плата ч 18, 22—23, 52, 66, 72, 233, 249 Финальное множество 15 Фундаментальная последова- тельность 102 Фундаментальное уравнение 34, 38, 39, 54, 68, 130, 150—153, 165, 168, 183 Функция полезности 259 Характеристическая функция 64 Целевая функция 1.0 Цены 268 г-капопическая система 220 — тройка 220 е-оптимальная стратегия 53, 55—56, 133, 251
ОГЛАВЛЕНИЕ ПРЕДИСЛОВИЕ ......................................................................... 3 ВВЕДЕНИЕ ............................................................................ 7 Часть I. УПРАВЛЕНИЕ НА КОНЕЧНОМ ИНТЕР- ВАЛЕ ВРЕМЕНИ Глава 1. Конечные и счетные модели § 1. Управляемый детерминированный процесс 14 § 2. Управляемые марковские процессы и модели 19 § 3. Стратегии ......... 28 § 4. Существование равномерно оптимальной стра- тегии. Сочетание стратегий............. 31 § 5. Производная модель. Фундаментальное урав- нение ...................................................................... 33 § 6. Сведение задачи оптимального управления к аналогичной задаче для производной модели 35 § 7. Уравнения оптимальности. Построение про- стых оптимальных стратегий 38 § 8. Марковское свойство............... 40 § 9. Принцип динамического программирования 42 § 10. Задача о выборе транспорта . ......................................... 43 § 11. Задача о замене оборудования...... 49 § 12. Счетные модели: уравнения оптимальности и е-оптимальные стратегии ..................... 51 § 13. Счетные модели: достаточность простых стра- тегий ....................................................................... 56 Глава 2. Полунепрерывные модели § 1. О понятии измеримости............................................. 62 § 2. Общее определение модели.......................................... 64 § 3. Переносятся ли на общие модели методы, применявшиеся для изучения конечных и счет- ных моделей?....................................................... 68 § 4. Определение полунепрерывной модели ... 70 § 5. Уравнения оптимальности и простые.опти- мальные стратегии- 74 § 6. Теоремы об измеримом выборе ....... 79 § 7. Модель распределения ресурса между произ- водством и потреблением.................................................. 83 335
§ 8; Задача о регулировании водоснабжения . . 87 § 9. Задача о распределении ставок в игре ... 88 § 10. Задача о распределении ресурса между по- треблением и различными отраслями произ- водства ......................................... 97 § 11. Задача о стабилизации....................... 99 Глава 3. Общие (борелевские) модели § 1. Введение. Основные результаты.............. 102 § 2. План вывода основных результатов .... 108 § 3. Пространство мер .......................... 112 § 4. Меры в произведениях пространств и переход- ные функции................................. 112 § 5. Стратегические меры................... 116 § 6. Универсальная измеримость оценки модели и почти наверное (п. н.) е-оптимальные стра- тегии ...................................... 118 § 7. Уравнения оптимальности ................... 120 § 8. Достаточность простых стратегий....... 122 § 9. Простая (п. н.) е-оптимальная стратегия . . 124 Часть II. УПРАВЛЕНИЕ НА БЕСКОНЕЧНОМ ИНТЕРВАЛЕ ВРЕМЕНИ Глава 4. Дискретные модели § 1. Переход к бесконечному промежутку.управ- ления 128 § 2. Суммируемые модели................................................................ 128 § 3. Фундаментальное уравнение. 130, § 4. Равномерно е-оптимальные стратегии.... 133 § 5. Уравнения оптимальности ................................... 136 § 6. Выражение для оценки модели....................... 139 § 7. Простые е-оптимальные стратегии. 141 § 8. Достаточность марковских и простых стра- тегий ........................................ 145 Глава 5. Борелевские модели § 1. Основные результаты...... 149 § 2. Распространение на борелевские модели ре- зультатов главы 4.......................... 150 § 3. Доказательство основных результатов . . . 155 § 4. О мерах в бесконечных произведениях . . . 157 § 5. Универсальная измеримость оценки модели и существование (п. н.) е-оптимальных страте- гий .......................................... 159 § 6. Полунепрерывные модели.................................. 161 Глава 6. Однородные модели § 1. Введение.......... 163 § 2. Применение результатов главы 4 ..... . 164 § 3. Стационарные оптимальные стратегии ... 167 § 4. Задача о выборе транспорта.......... 172 § 5. Задача о замене оборудования...... 175 § 6. Стационарные е-оптимальные стратегии . . . 179 336
§ 7. Распространение результатов на борелевские z модели..................( ................. 183 § 8. Стационарные (п. н.) е-оптимальные стратегии 186 § 9. Распределение ресурса между производством и потреблением................................. 189 § 10. Распределение ставок в игре.............. 193 § 11. Распределение ресурса между потреблением и различными отраслями производства . . . 194 § 12. Задача о стабилизации.................... 196 Глава 7. Максимизация среднего дохода за единицу времени § 1. Введение. Канонические стратегии......... 199 § 2. Канонические уравнения................... 201 § 3. Решение уравнений Ховарда 203 § 4. Модификация канонических уравнений . . . 206 5. У совершенствование стратегии по Ховарду 208 § 6. Асимптотика дисконтированного дохода . . . 209 § 7. Возрастание дисконтированного дохода при усовершенствовании Ховарда .................... 211 § 8. Переход к бесконечным моделям........... 213 § 9. Канонические и e-канонические тройки и системы для общих моделей..................: . 219 § 10. Модели с минорантой...................... 223 § 11. Задача о замене оборудования............. 225 § 12. Задача б стабилизации.................... 230 Часть III. НЕКОТОРЫЕ ПРИМЕНЕНИЯ Глава 8. Модели с неполной информацией § 1. Описание модели.......................... 233 § 2. Сведение к модели с полной информацией. Ко- нечный случай................................. 235 § .3. Задача о двуруком бандите................ 242 § 4. Сведение к модели с полной информацией. Об- щий случай .................................. 248 § 5. Задача о стабилизации.................... 252 Глава 9. Вогнутые модели. Модели экономического раз- вития § 1. Модель Гейла ............................ 258 § 2. Вогнутые модели......................... 260 § 3. Пространства L .......................... 263 § 4. Стимулирующие цены....................... 268 § 5. Существование стимулирующих цен .... 271 Добавление 1. Борелевские пространства § 1. Введение.......................................... 278 § 2. Вложение борелевского пространства в гиль- бертов кирпич.................................. 279 § 3. Вложение пространства двоичных последова- тельностей в несчетное борелевское простран- ство .......................................... 281 § 4. Вложение гильбертова кирпича в простран- ство двоичных последовательностей.............. 285 337
Добавление 2. Аналитические множества § 1. Введение........................................... 287 § 2. еч?-one рация ........................... 289 § 3. Универсальная измеримость аналитического множества...................................... 290 § 4. Отделимость аналитических множеств . . . 293 § 5. Пример неизмеримого аналитического мно- жества ........................................ 295 Добавление 3. Теоремы об измеримом выборе § 1. Лемма Янкова....................................... 298 § 2. Теорема Блекуэла и Рылль-Нарджевского . 300 § 3. Пример соответствия, не допускающего изме- римого выбора................................... 301 Добавление 4. Условные распределения § 1. Введение .......................................... 303 § 2. Условные математические ожидания .... 304 § 3. Опорные системы функций.................. 306 § 4. Существование условных распределений . . 307 Добавление 5. Некоторые леммы об измеримости § 1. Лемма о мультипликативных системах . . 311 § 2. Измеримая структура в пространстве вероят- ностных мер .................................... 312 Историко-библиографическая справка ..................... 314 Литература.............................................. 323 Предметный указатель.................................... '331

Евгений Борисович Дынкин Александр Адольфович Юшкевич УПРАВЛЯЕМЫЕ МАРКОВСКИЕ ПРОЦЕССЫ И ИХ ПРИЛОЖЕНИЯ Утверждено к печати Центральным экономико-матеметическим институтом Редактор издательства Т. Е. Филиппова Художник А. Г. Кобрин Художественный редактор А. Н. Жданов Технический редактор В. Д. Прилепская Сдано в набор 26/11 1975 г. Подписано к печати 22/V 1975 г. Формат 84Х108'/32. Бумага Ks 2. Усл. печ. л. 17,85. Уч.-иЗд. л. 15.7. Тираж 4000. Т-07079. Тип. вак. № 154. Цена 95 коп. Ивдательство «Наука» 103717 ГСП. Москва, К-62, Подсосенский пер., д. 21 1-я типография Издательства «Наука» 199034, Ленинград, В-34, 9 линия, д. 12
ОПЕЧАТКИ Стра- ница Строка Напечатано Должно быть 49 18 сверху qK.^qK ЧК-1 < 49 19 » hK-! hK-l 80 13 снизу Ут £ //с — 1 Г А — 1 97 2 сверху V 2я ’ L 2я ’ 104 3 » А-Аг А = А1 146 2 снизу ( X ' ( X п ' 191 7 сверху 195 12 снизу (2.10.6)—(2.9.10) (2.10.8)—(2.10.9) 195 И » (2.10.7) (2.7.7) 241 3 » утверждение утверждение верно, если 246 1 сверху при п при любом п 275 5 и 6 + 1 + сверху 293 6 сверху с Z 305 3 снизу = М(М(/|а/)|о^1 = М[М (/)>#)<#) 332 7 » А At 332 6 » At ^t Е. В. Дынкин, А. А. Юшкевич