Динамическое программирование и марковские процессы. Dynamic Programming and Markov Processes. Ховард Р.А. М.: Советское радио, 1964. 190 с.
Предисловие
Введение
Глава 1. Марковские процессы
z-преобразование
Анализ марковских процессов при помощи z-преобразований
Невозвратные состояния. Эргодические классы. Периодичность
Глава 2. Марковские процессы с доходами
Пример с игрушечных дел мастером
Анализ марковских процессов с доходами при помощи z-преобразований
Характер поведения полного ожидаемого дохода при больших n
Глава 3. Процессы последовательных решений. Рекуррентный метод
Решение задачи игрушечных дел мастера рекуррентным методом
Оценка рекуррентного метода
Глава 4. Итерационный метод для процессов последовательных решений
Улучшение решения
Итерационный цикл
Задача игрушечных дел мастера
Обоснование итерационного метода
Глава 5. Применение итерационного метода к задачам водителя такси и о замене автомобиля
Задача о замене автомобиля
Глава 6. Итерационный метод для процессов с несколькими эргодическими классами
Улучшение решения
Пример процесса с несколькими зргодическими классами
Обоснование итерационного метода
Глава 7. Процесс последовательных решений с переоценкой
Определение предельных доходов
Улучшение решения
Пример
Обоснование итерационного метода
Зависимость оптимального решения от коэффициента переоценки
Задача о замене автомобиля с учетом переоценки
Выводы
Глава 8. Процессы последовательных решений с непрерывным временем
Изучение марковских процессов с непрерывным временем при помощи преобразования Лапласа
Марковский процесс с непрерывным временем и доходами
Задача последовательных решений в случае непрерывного времени
Определение весов
Улучшение решения
Эргодические процессы
Задача техника
Рассмотрение методов вычислений
Процесс последовательных решений с непрерывным временем и переоценкой
Улучшение решения
Пример
Сравнение процессов последовательных решений с дискретным и непрерывным временем
Глава 9. Заключение
Приложение. Связь между возвратными и невозвратными состояниями
Дополнение
Литература
Предметный указатель
Содержание
Текст
                    Dynamic Programming
and Markov Processes
RONALD A. HOWARD
Assistant Professor of Electrical Engineering
Massachusetts Institute of Technology
Published jointly by
The Technology Press of
The Massachusetts Institute of Technology
and
John Willey and Sons, Inc., New York — London.


Р. А. ХОВАРД  ДИНАМИЧЕСКОЕ ПРОГРАММИРОВАНИЕ И МАРКОВСКИЕ ПРОЦЕССЫ  ПЕРЕВОД С АНГЛИЙСКОГО В. В. РЫКОВА  ПОД РЕДАКЦИЕЙ Н. П. БУСЛЕНКО  ИЗДАТЕЛЬСТВО „СОВЕТСКОЕ РАДИО"* МОСКВА -—- 1964 
В книге рассматривается связь между динамичс- ским программированием и марковскими процессами. Используя идеи и методы этих разделов математики, автор предлагает метод выбора оптимального поведе- ния в системах, описываемых управляемыми марков- скими процессами с непрерывным и дискретным времс- нем. Рассматриваемый вопрос обсуждается Также с точки зрения выполнения вычислений, и предлагается хорошо разработанная схема вычислений. Материал излагается с использованием простого математического аппарата и иллюстрируется большим числом примеров. Это делает книгу доступной широ- кому кругу читателей. Книга может быть полезна инженерам, математи- кам, специалистам, работающим в областях эконометри-  ки, исследования операций и военных приложений,  а также студентам и аспирантам различных вузов, ич- тересующимся указанными вопросами. 
ОТ РЕДАКТОРА ПЕРЕВОДА  В настоящее время как среди математиков, так и среди инженеров большую популярность приобрело ди- намическое программирование. С помощью процесса последовательного принятия решений этот способ позво- ляет построить эффективные алгоритмы решения широ- кого класса задач. Советский читатель знаком с динамическим програм- мированием, в основном, по двум работам, посвящен- ным, главным образом, изложению теоретической сторо- ны вопроса: Р. Беллман «Динамическое программиро- вание» и Р. Беллман, И. Гликсберг и О. Гросс «Некоторые вопросы математической теории процессов управления». Очевидно, по этой причине многие читате- ли не видят в динамическом программировании мощно- го вычислительного аппарата и -рассматривают его скорее как описательный прием. этом смысле книга Ховарда, посвященная изложе- нию алгоритма решения задачи динамического програм- мирования, сформулированной для физических процессов марковского типа, представляет большой интерес. В первой главе, в основном без доказательств, приво- дятся некоторые сведения из теории конечных простых однородных цепей Маркова. Для их изучения автор применяет аппарат производящих функций (2-преобра- зований). Во второй главе рассматриваются цепи Мар- кова < доходами, когда для всех Ё и ] задается величина г.) называемая «доходом», связанным с переходом из {-го состояния в ]-е. Автор выводит рекуррентное соотно- шение для полного дохода и с помощью =-преобразова- ния получает асимптотическую формулу, играющую решающую роль во всем последующем изложении. Сле- дует заметить, что первые две главы носят вводный,  5 
подготовительный характер и лишь в третьей опреде- ляется понятие стратегии и формулируется задача дина- мического программирования. Здесь же приводится известный из упомянутой выше книги Беллмана рекур- рентный метод решения, практически реализуемый лишь в случае небольшого числа шагов. Основной в ‘монографии является четвертая глава, где автор излагает метод последовательных приближе- нии для нахождения асимптотических решений задач динамического программирования. В последующих гла- Bax этот метод обобщается для цепей с несколькими эргодическими классами (гл. 6), для цепей с обрывами (гл. 7) и, наконец, для процессов Маркова (гл. 8). Весь- ма замечательно, что задачи, сформулированные для процессов и для цепей, решаются с помощью одного и того же алгоритма. Рассмотрение всех вопросов, изложенных в моногра- фии, осуществляется на многочисленных примерах, но- сящих, как правило, чисто иллюстративный характер. В целом книга написана живо, предельно ясно и в из- вестной степени популярно. От читателя не требуется никакого предварительного знакомства с динамическим программированием, одна- ко знание втузовского курса высшей математики, а так- же элементов линейной алгебры и теории цепей Марко- ва необходимо. При переводе ряда определений возникли некоторые трудности, вызванные, в основном, неустановившейся терминологией в динамическом программировании, а также несколько ‘вольным использованием автором слова «ро!су». Параграф с изложением в качестве при- мера мало известной у нас игры в бейсбол опущен, так как он труден для понимания без обстоятельного изло- жения правил игры. Вместо этого в разделе «Дополне- ние» приведен полезный пример, составленный перевод- чиком, в котором рассматривается применение развито- го Ховардом метода к одной из задач теории массового обслуживання. Можно надеяться, что данная книга будет с интере- сом встречена советскими читателями и поможет даль- нейшему развитию динамического программирования как в теоретическом, так и вычислительном аспектах. 
ПРЕДИСЛОВИЕ  В основу данной монографии была положена диссер- тация, представленная отделению электротехникн Масса- чусетсского технологического института (МТИ) в нюне 1958 г. В книге используется большинство результатов этого исследования, дается его дальнейшее развитие, а также приводится достаточный вводный материал, что позволит интересующемуся читателю с техническим об- разованием полностью понять существо дела. Появление предлагаемой работы стимулировалось широко распространенным интересом к динамическо- му программированию как методу решения последова- тельных задач. Этот материал был использован в про- грамме аспирантского курса по исследованию операций и проектированию систем, предлагавшейся на отделе- нии электротехники МТИ, и, следовательно, рассчитан, прежде всего, на аспирантов. Мы надеемся, однако, что он может быть использован и в качестве факультатив- ного курса для учащихся высших учебных заведений, и как справочное пособие для специалистов, интересую- щихся моделированием систем с помощью марковских процессов. Диссертация, положенная в основу этой работы, не могла быть написана без советов и поддержки профес- соров Филиппа М. Морзе и Джорджа Е. Кимбэлла. Профессор Морзе пробудил мой интерес к этой обла- сти, а профессор Кимбэлл направлял мои размышления над основными задачами, давая бесчисленное количест- во полезных советов. Были чрезвычайно полезны также беседы с профессорами Самуэлем Д. Масоном и Бер- нардом Видроу и доктором Джеромом Д. Хернитером. Окончательный текст был внимательно просмотрен доктором Робертом Л. Баррингером, которому я выра-  7 
жаю глубокую признательность. Он и его коллеги по Группе исследования операций фирмы Ацвиг О. И\Ше, [1с. проявляли постоянное внимание к этой работе и  оказывали ей поддержку. Эта работа выполнена при участии Вычислитель-  ного центра МТИ в Кэмбридже, шт. Массачусетс, и при поддержке Научно-исследовательской лаборатории по электронике.  Кэмбридж, шт. Массачусетс Рональд А. Ховард Февраль, 1960 
ВВЕДЕНИЕ  Инженеру, проектирующему системы, или специали- сту по исследованию операций часто приходится стро- ить модели работающих систем, особенностью которых, как правило, являются вероятностный характер поведе- ния и возможность принятия решений. Поэтому следует ожидать, что окончательная модель будет слишком сложна для аналитического рассмотрения. Именно так обстояло дело с большинством предложенных ранее мо- делей. Развитие теории динамического программирова- ния Р. Беллманом {1] ободрило занимающихся исследо- ванием сложных систем, но скоро обнаружилось, что она позволяет скорее фоомулировать задачи, чем HX решать. Казалось бы вполне разумные модели часто приводили к большому объему вычислений, который не выполним даже при современном уровне развития вы- числительной техники. В данной работе предлагается аналитическая мо- дель процесса принятия решений, которая будет как до- статочно общей, так и осуществимой с точки зрения вы- числений. Для описания работы систем используются марковские процессы, а для оптимизации, подобно дн- намическому программированию, —метод итераций. В гл. 1 рассматриваются марковские процессы с дис- кретным временем, а в последующих главах эга модель обобщается. В гл. 2 вводится понятие экономических доходов, а в гл. 3—возможность принятия решения. В гл. 4 рассматривается итерационный метод принятия решения для процессов с единственным эргодическим классом, после чего в гл. 5 приводятся примеры. В гл. 6 рассматривается случай нескольких эргодических клас- сов, а в гл. 7 модель распространяется на случай, ког- да имеет место переоценка будущих доходов. В гл. 8 9 
все полученные результаты обобщаются на случай мар- ковских процессов с непрерывным временем. Наконец, в гл. 9 содержится несколько заключительных замеча- НИЙ. К сожалению, характер данной работы не позволяет рассмотреть задачи определения оптимального решения в терминах линейного программирования. Специалисты по линейному программированию во многих случаях смогут увидеть знакомые конструкции в линейных фор- мах, с которыми мы будем иметь дело. 
ГЛАВА 1  МАРКОВСКИЕ ПРОЦЕССЫ  При изучении сложных систем полезной математиче- ской моделью является марковский процесс. Основными для марковских процессов являются понятия состояния системы и перехода из одного состояния в другое. Си- стема находится в некотором состоянии, если она пол- ностью описывается значениями переменных, которые задают это состояние. Система совершает переход из одного состояния в другое, если описывающие ее пере- менные изменяются от значений, задающих одно состоя- ние, на значения, которые определяют другое. Наглядным примером марковского процесса может служить поведение лягушки в пруду с кувшинками. Вре- мя от времени лягушка перепрыгивает < одного листа кувшинки на другой согласно «желанию» в данный мо- мент. Состоянием системы является номер листа, зани- маемого лягушкой в данное время, переходом — ее пры- жок. Если число листьев конечно, тогда мы имеем про- цесс с конечным числом состояний. Ограничимся рас- смотрением только таких процессов. Если сосредоточить внимание лишь на переходах системы ‘из одного состояния в другое и точно их пере- нумеровать во времени, то будет удобно представить себе изменения системы как процесс с дискретным вре- менем. Если рассматривать случайное время между перехо- дами, то можно считать, что система описывается про- цессом с непрерывным временем. Этот случай будет ра- зобран в гл. 8. Для изучения процессов с дискретным временем нужно описать вероятностную природу переходов. Удоб-  И 
но принять, что время между переходами постоянно. Предположнм, что существует М№ состояний, перенуме- рованных числами от 1 до №. Если работа системы опи- сывается простым марковским процессом, то вероятность ее перехода из состояния { в состояние } в течение сле- дующего интервала времени является функцией только гии не зависит от поведения системы до момента ее попадания в состояние i. Другими словами, можно ввес- ти набор условных вероятностей (р;;] того, что система, находящаяся сейчас в состоянии #, после очередного пе- рехода окажется в состоянии ]. Так как она обязательно должна попасть в некоторое состояние после этого пере- хода, то м У р:; = 1. j=l Здесь учитывается и вероятность р:; того, что система останется в состоянии #. Так как р;; являются вероятно- CTAMH, TO  О=р,;, < 1.  ПРИМЕР С ИГРУШЕЧНЫХ ДЕЛ МАСТЕРОМ, ВЕРОЯТНОСТИ СОСТОЯНИЙ  Очень простой пример марковского процесса с дис- кретным временем определенного выше типа можно представить себе в виде процесса изготовления игру- шек. Игрушечных дел мастер открывает новое производ- ство игрушек. Он может находиться при этом в одном из двух состояний. Первое состояние — если игрушка, которую мастер сейчас делает, получит большой спрос у публики. Второе состояние — если игрушка не найдет спроса. Предположим, что если мастер находится в со- стоянии 1, то в 50% случаев к концу следующей недели! онв нем и останется и, соответственно, в 50% неудачных случаев он переходит в состояние 2. Будучи в состоянии 2, мастер экспериментирует с но- выми игрушками и с вероятностью */, может вернуться через неделю в состояние 1 или с вероятностью ‘],  ' Автор предполагает, что мастер выпускает каждую неделю одну новую игрушку (Прим. перев.)  12 
Так как рекуррентно имеем: x (1) 2 (0) P, x (2)—= 2 (1) P= (0) P*, x (3)= 7 (2) P= 2 (0) PS, то общес выражение примет вид л (п) = л (0)Р”, п —=0, 1,2,... (1.4)  Итак, лутем умножения справа вектора начальных ве- роятностей (0) Ha л-ю степень матрицы переходов Р можно найти вектор вероятностей того, что система зани- мает каждое из своих состояний после п переходов. Для иллюстрации этих соотношений применим их к про- цессу изготовления игрушек. Если маслер начинает с удач- ной игрушки, то т, (0) =1 и х, (0) =0, так что х (0) = —[10]. Прльзуясь уравнением (1.3), получим  | л(И=лФР= [10] i =[5 =]. -5 5  После одной недели равновероятно, что мастер добьется успеха иля потерпит неудачу. После двух недель 11  on ГЕ 112 21 fou пря Р- [53| |: з|=[05|  так что более вероятно, что мастер потерпит неудачу.  После трех недель л (3) = л(2)Р = [ых МИ, т. е. ве.  200 200 роятности пребывания системы в каждом состоянии не- много отличаются от соответствующих значений, получен- ных после двух недель работы. Так как 89 111 200 200 1 wB9IP 250 250  то вектор л (3) можно было бы получить непосредственно из выражения л(3)—< (0) Р°. Интересная закономерность выявляется, когда мы вы- числим =, (72) в зависимости от д, как показано в табл. 1.1.  14  ps — 
Таблица 1.1  Вероятности последовательных состояний мастера, начавшего с удачной игрушки  п 0 1 2 3 4 5 т. (п) 1 0,5 | 0,45 | 0,445] 0,4445 |0,44445 |... п (п) 0 0,5 |0,55 |0,555| 0,5555 | 0,55555 |...  Из этой таблицы видно, что к, (й) приближается к “/., а т. (п) —к ‘°/., когда п неограниченно возрастает. Если мастер начинает с неудачной игрушки, так что т, (0) =0, а т, (0) =1, то таблица для к; (п) принимает вид табл. 1.2.  Таблица 1.2  Вероятности последовательных состояний мастера, начавшего с неудачной игрушки  nt | 0 } 2 3 4 5 .. п; (п) 0 0,4 | 0.44 10,444] 0,4444 | 0,44444 |... па (п) | 0,6 | 0,56 |0.556] 0,5556 | 0,55556 |...  В этом случае т,(п) также приближается к ‘4/9, a т, (п) —к 5/5 с ростом п. Следовательно, после большого числа переходов вероятности занимаемых состояний ста- новятся независимыми от начального состояния системы. Многие марковские процессы обнаруживают это свой- CTBO.  Будем называть эргодическим всякий марковский процесс, для которого предельное распределение веро- ятностей состояний не зависит от начальных условий. Будем исследовать в дальнейшем также такие марков- ские процессы, для которых вероятности состояний, за- нимаемых после болышого числа переходов, зависят OT начального состояния системы. Для эргодического марковского процесса мы можем определить величину *; как вероятность того, что система находится в {-м состоянии после большого числа переходов  15 
(или шагов). Вектор-строка' л с компонентами к; будет, следовательно, пределом последовательности векторов л (п), когда п стремится к бесконечности; он называется вектором предельных, или финальных, вероятностей со- стояний. Из соотношения (1.3) следует, что вектор п должен удовлетворять уравнению  = xP, (1.5) причем сумма компонент вектора л должна быть равна 1 N у, ti 1 . (1 .6) =  Можно использовать уравнения (1.5) и (1.6) для на- хождения предельных вероятностей состояний любого процесса. В примере с игрушечных дел мастером урав- нения (1.5) принимают вид  i 2 1 3 Mabe W=SAtse™  а уравнение (1.6) переходит в ®- т, =1. Эти три уравнения для двух неизвестных м, и т, имеют единственное решение т, =—“/, к,==‘/,. Эти значения являются, конечно, теми же предельными вероятностями состояний, которые были получены при рассмотрении табл. 1.1 и 1.2. Во многих приложениях предельные вероятности являются единственными интересующими нас величинами. Мастеру, по-видимому, достаточно знать, что */э всех выпускаемых им игрушек будут удачными, а оставшие- ся 5/э» — неудачными. Трудности, возникающие при на- хождении предельных вероятностей, состоят в том, что необходимо решать систему № линейных алгебраиче- ских уравнений. Нужно помнить, однако, что величины т; хорошо опн- сывают поведение процесса только после достаточно большого числа переходов, когда исчезает влияние его начального состояния. В следующем разделе более де- тально рассмотрим поведение процесса в течение пере- ходного периода, когда вероятности состояний прибли- жаются к своим предельным значениям.  'л(п) и л — единственные векторы-строки, которые. мы рас- сматриваем в этой работе; другие векторы будут векторами-столб- цамн.  16 
Найдем г-преобразования типичных функций времени, которые нам скоро понадобятся. Рассмотрим сначала функ- цию единичного скачка  1 п=0, 1,2, 3,... = 0 л<0.  Ее г-преобразованием является  (ад= У) Ки) г" 1-22... или 1(2) = —  1—#=° п=о  В случае геометрической прогрессни, когда |(п)==а”, mia n=O  со со , 1 ка ед" = У г)" wm Пе. п=0 a=0 Заметим, что если со 7 (2) = у а"2", a=0 TO OO d п-1 а=1(г) =). па"? a=0 И non > 4. Шер! Ц yy ra г = f(zZj=2z5 => (1 — az)* * a=0  Таким образом, путем дифференцирования мы нашли, что 2-преобразованием функции | (п) = па” является выра-  42 жение (2) = пел. Этот и другие легко выводимые  результаты сведены в табл. 1.3 г-преобразований. В част- ности, заметим, что если функция времени } (п) с преоб- pa30BaHHem f(z) сдвигается вправо на единицу, т. е. пере- ходит в [(п--1), то преобразованием последней будет  Уи ог" У та" Ца) РО  п=0 т=|  18 
Таблица 1.3 Функции времени и их 2-преобразования  Фуикция времени для п > 0 2 преобразование f (n) j (z) hy (rn) + fe (2) Ь (2) + fs (z) kf (n) (& — постоянно) Rf (2) f(a—}) 21 (2) f (n+ 1) z-' f(z) -—F ©] 1 an l—az  1  1 (функция единичного скачка)  1—2 az л (ступенчатая функция) Goar anf (n) f (az)  Читателю следует внимательнее познакомиться с дан- ными табл. 1.3, так как ниже они будут широко исполь- зоваться в примерах и доказательствах.  АНАЛИЗ МАРКОВСКИХ ПРОЦЕССОВ ПРИ ПОМОЩИ =-ПРЕОБРАЗОВАНИЙ  Воспользуемся методом 2-преобразований для анализа марковских процессов. Можно ` рассматривать 2-преобразо- вания векторов и матриц, применяя его к каждой компо- ненте соответственно. Если согласно этому правилу взять =-преобразование уравнения (1.3), а 2-преобразование век- тора л (п) обозначить символом П(=), то получим  2-'|П(2) — м (0) =П(2)Р. (1.8) 2* 19 
После приведения подобных членов П (2) — 2П (>) Р=х 0), П (2) (1— 2P)== x (0) найдем П (2) —=л (0) (1—2Р)-"'. (1.9)  В этом выражении Г есть единичная матрица. Преобра- зование вектора вероятностей состояний!, таким образом, равно начальному вектору вероятностей состояний, умно- женному справа на обратную к {—2Р матрицу, которая всегда существует*. Заметим, что решение всех задач, связанных с пере- ходным периодом, содержится в матрице (1 — гР)-'. Для того чтобы получить полное решение любой такой задачи, нужно просуммировать строки матрицы (1 — 2Р)-* с весами, равными начальному распределению вероятностей, и взять затем обратное преобразование от каждой компоненты получившегося в результате вектора. Исследуем задачу игрушечных дел мастера при помощи 2-преобразования. В этом случае  1 1-  р 22 23| 55 1—2 —5 2 так что (I— =Р) = о 4 5 1—2 и — 3 ' — 1—2 > 2 1 1 py -1 (1 —4(1—q52) (1 —2z) (1-0) OR = 2 | = 2 l— zz 1 (т: въ) |  ' Под вектором вероятностей состояний понимается векторная функция времени Х (п). (Прим. перев.) ? При условин, что |2|<1. (Прим. перев.)  20 
Каждый элемент этой матрицы является функцией от 2 и может быть представлен в виде суммы двух слагаемых  со знаменателями (1—2) и (1 — г)  10 [4 5 _5. _5 | 9 9. 9 9 [=e Tt ' => Г. — "TO — 10 ] — zP)-!=— ’ ( ) 4 _ 4 5 4 9 9 9. 9 [= Г. 1. =! JI | 10 7 ~ 107 | 4 5 $ _5 __ а 1 9 9 ] 9 9 |4 4 4 9 #49 1—0 2 9 9  Пусть Н (п) будет обратным преобразованием этой мат- рицы, полученным при помощи ее поэлементного обраще- ния. Тогда, пользуясь табл. 1.3, можно записать  4  ote  5 $ _5 9 9 ral 9 9 ни =| 4 5 |+(%5) | 4 | 9 9 9  9  Поэтому, взяв обратное преобразование уравнения (1.9), найдем  л (п) =л(0)Н (п). (1.10)  Из сравнения полученного результата с уравнением (1.4) видно, что Н (п) =Р”". Это равенство позволяет выписать выражение для п-х степеней матрицы вероятностей пере- ходов в конечной форме. Следовательно, вектор вероят- востей состояний в момент п можно найти путем умно- жения справа начального вектора вероятностей состояний на соответствующую матрицу Н (п). Элемент {-й строки и [-го столбца матрицы Н (п) представляет собой вероятность того, что система, находящаяся в состоянии i B момент п —0, займет состояние | в момент п. Если в начале ра- боты мастер находился в состоянии 1, т. е. л (0) =[1 0], то  21 
x(n)= [> = |+(0) [= —+| Или к, (п) = + + 3 ()". к, (п) = — > (4)  Заметим, что м, (и) и м, (п) представляют собой точные аналитические выражения вероятностей состояний, содер- жащихся в табл. 1.1 и вычисленных при помощи умноже- ния матриц. Заметим далее, что если п неограниченно возрастает, то т, (п) стремится к “/, и п,(п)—к “/,, T. €. они приближаются к предельным вероятностям состояний процесса.  Если мастер начинает из состояния 2, т. е. л (0) =  — [01], то л (п) = [= э|+(%)"[- 3 5, так что  44 (Ея от 4 ИЕ \" . п, (п) — 5. + (ae) и к, (и) = 9“ Н-(ч6) ‚ Эти вы  ражения являются аналитическими представлениями для величин из Табл. 1.2. Снова можно видеть, что с ростом п вероятности состояний приближаются к предельным веро- ятностям процесса. Относительно вида матрицы Н(п) можно сделать не- которые общие заключения. Во-первых, из составляющих ее слагаемых по крайней мере одно всегда будет стоха- стической матрицей, которая соответствует члену матрицы  (1 — #Р)-* с множителем вида > Это утверждение эк-  вивалентно тому, что определитель матрицы 1 —2Р рав- няется нулю при 2==1 или что стохастическая матрица всегда имеет по крайней мере одно собственное значение, равное единице. Если процесс эргодичен, то среди матриц, составляющих Н(п), точно одна будет стохастической. Более того, строки последней будут равны между собой и каждая из них будет вектором предельных вероятностей состояний процесса. Назовем это слагаемое матрицы Н (п) стационарной составляющей и, так как оно не зависит от п, обозначим символом $.  Оставшиеся слагаемые матрицы! Н(п) образуют пе- реходную составляющую, так как они описывают пове- дение процесса в переходный период. Эти слагаемые являются матрицами, умноженными на коэффициенты  ' Их в общем случае может быть несколько. (Прим. перев.)  22 
вида а”, пап, п?а” и т. д. Естественно, что величина |“| не должна превышать 1, в противном случае ком- поненты вектора вероятностей неограниченно возрастали бы, что, очевидно, невозможно. Переходной составляющей матрицы Н(п) соответ- ствуют (что является обычным для марковских процес- сов) убывающие по геометрической прогрессии слагае- мые компонент вектора вероятностей состояний. УЧчи- тывая ее зависимость от п, эту переходную составляю- щую можно обозначить символом Т(п). Ввиду того, что для эргодического процесса |а| всегда меньше 1, пере- ходная составляющая становится бесконечно малой с ростом п. Матрицы, которые образуют Т(п), интерес- ны еще тем, что сумма их элементов по каждой строке равна нулю. Переходные составляющие должны в сум- ме давать ноль, так как их можно рассматривать как возмущения, накладывающиеся на предельные вероят- ности состояний. Матрица, сумма элементов вдоль каж- дой строки которой равна нулю, называется дифферен- циальной. Из всего сказанного для эргодического про- цесса имеем  H (n) =S-+T(n), (1.11)  где $ — стохастическая матрица, каждая строка которой равна вектору предельных вероятностей, а Т(7) — сум- ма некоторого числа дифференциальных матриц с ко- эффициентами, убывающими со скоростью геометриче- ской прогрессии, когда п неограниченно растет.  НЕВОЗВРАТНЫЕ СОСТОЯНИЯ. ЭРГОДИЧЕСКИЕ КЛАССЫ. ПЕРИОДИЧНОСТЬ  Воспользуемся методом г-преобразований для анали- за типичных случаев поведения марковских процессов. В примере с игрушечных дел мастером система после большого числа переходов может с ненулевой вероятно- стью попасть в одно из двух рассматриваемых состоя- ний. Однако даже для эргодических процессов может случиться так, что предельные вероятности некоторых состояний будут равны нулю. Такие состояния называют- ся невозвратными— попадание в них невозможно после достаточно большого числа переходов.  23 
состояния 1 равна нулю, т. е. наше утверждение о том, что оно является невозвратным, справедливо. Предель- ные вероятности могут быть определены из уравнений (1.5) и (1.6) ранее описанным способом. Из невозвратного состояния система необязательно должна перейти в поглощающее. Она может покинуть невозвратное состояние и попасть в некоторое множест- во сообщающихся состояний, внутри которого она будет бесконечно совершать переходы и никогда из него не выйдет. Такое множество состояний называется эргоди- ческим классом марковского процесса. Каждый марков- ский процесс должен иметь по крайней мере один эрго- дический класс. При наличии точно одного эргодиче- ского класса марковский процесс должен быть эргоди- ческим. Действительно, независимо от начального со- стояния системы, описываемой таким процессом, она в конце концов попадает в этот класс и будет совер- шать переходы между его состояниями. Однако если процесс имеет два или несколько эргодических классов, то свойство эргодичности не выполняется, ибо если си- стема выходит из какого-либо состояния одного клас- са, то она будет продолжать совершать переходы внутри него и никогда не попадет в другой класс состояний. В этом смысле каждый эргодический класс является обобщенным поглощающим состоянием: попав в него однажды, система не может его покинуть. Невозвратные состояния теперь можно рассматривать как такие, кото- рые система занимает до тех пор, пока не попадет в один из эргодических классов. Возможность существования нескольких эргодических классов заставляет уточнить определение стационарной составляющей $ матрицы Н\(п). Так как предельное рас- пределение вероятностей зависит теперь от того, какое состояние системы было исходным, строки стохастической матрицы $ не будут больше равны между собой. Точнее, -я строка матрицы $ представляет собой предельное рас- пределение вероятностей, которое установится в том слу- чае, если система отправляется из {-го состояния. Элементы -й строки матрицы Т (7), как и прежде, порождают пе- реходные слагаемые компонент вектора вероятностей со- стояний, если { — начальное состояние. Рассмотрим очень простой процесс с тремя состояниями и двумя эргодическими классами, описываемый матрицей 25 
Таким образом,  10 0 | о 00 а ото |+4— 5 о 0.0 || 0 ео = > 2—5 И 10 0 0 00 mofo 1 oe Lecgyf 9 ob saan zy 0 5—2 !  Если исходным для системы является состояние 1, то т, (п) =1, *, (п) = т, (п) =0. Если система отправляется из состояния 2, то т,(п) =т,(п) =0, *, (п) =1., В случае  выхода из состояния 3 ®(й) = т.(п) = [1 — (=) ,  3 1 \7 Ts ")= (= . Подводя итог, можно сказать, что если начальным для системы является состояние | или состояние 2, то она останется в нем бесконечно долго. Если же этим исходным состоянием будет 3, то после достаточно боль- шого числа переходов с вероятностью '/ система ока- жется в состоянии |1 и с такой же вероятностью в со- стоянии 2. Эти результаты можно непосредственно полу- чить‘из рассмотрения строк матрицы $, которые являют-  ся предельными распределениями вероятностей при со- ответствующем начальном условии.  Таким образом, марковские процессы с несколькими эргодическими классами также легко исследуются с по- мощью метода г-преобразований. Существует, однако, еще один случай, требующий обсуждения, прежде чем мы сможем почувствовать полную уверенность в наших знаниях. Это случай периодических классов. Эргодиче- ский класс является периодическим при выполнении следующего условия: если система в данный момент на- ходится в некотором состоянии, то она непременно зай- мет то же самое состояние после I, 21, З[, ... переходов, где {— целое число, описывающее периодичность клас-  27 
Эти выражения представляют собой те же самые ре- зультаты, которые мы получили раньше интуитивно.  Как интерпретировать матрицы $ и Т(п) в этой за- даче? Матрица Т(п) содержит слагаемые, которые не за- тухают с ростом п, а наоборот, продолжают неопреде- ленно колебаться. С другой стороны, эта матрица все же может рассматриваться как возмущение предельных ве- роятностей определяемых матрицей $. Эти предельные вероятности лучше всего интерпретировать как вероят- ности того, что система будет обнаружена в каждом из своих состояний в случайный момент в будущем.  Для периодических процессов первоначальное толко- вание предельных вероятностей не пригодно, так как мы знаем состояния системы во все будущие моменты'. Од- нако во многих практических случаях интерпретация со случайным временем, данная выше, является логич- ной и полезной. В дальнейшем предельные вероятности периодического марковского процесса употребляются только в этом смысле. Между прочим, если для нахож- дения предельных вероятностей воспользоваться уравне- ниями (1.5) и (1.6), то т, =т,= 1. соответственно наше- му толкованию.  Мы рассмотрели, таким образом, поведение марков- ских процессов, используя метод =-преобразований. Этот подход интересен тем, что позволяет обойти трудности, которые возникают вследствие кратности собственных значений стохастических матриц. Многие другие изящ- ные исследования марковских процессов, основанные на теории матриц, заметно усложняются этими трудностя- ми. Структура метода преобразований может быть бо- лее глубоко понята, если обратиться к работам, в кото- рых модели марковских процессов были представлены в виде сигнальных граф. Однако такой подход лежит вне данного исследования; с ним можно ознакомиться по работам {3 и 4]. В следующей главе описываются марковские процессы с доходами, которые система при- носит при переходе из одного состояния в другое.  ' Состояния системы во все будущие моменты временн извест- ны лишь в том понимании периодических классов, которые им дает автор, однако метод 2-преобразований и интерпретация со слу- чайным временем допустимы н в более общем случае (см. прим. на стр. 28). (Прим. перев).  29 
ГЛАВА 2 МАРКОВСКИЕ ПРОЦЕССЫ С ДОХОДАМИ  Предположим, что система, описываемая марковским процессом с № состояниями, приносит доход в Г;; ДОЛ- ларов, когда совершается переход из состояния Ё в с0- стояние }- Назовем г;; «доходом» от этого перехода. Множество доходов системы образует матрицу доходов В с элементами /7;;. Доходы необязательно должны вы- ражаться в долларах; они могут выражаться уровнями напряжения, единицами продукции и любой другой фи- зической величиной. Однако интерпретация доходов с помощью денежных единиц, таких, например, как дол- лары, очень ‘удобна в настоящей работе. Марковский процесс теперь порождает последова- тельность доходов, соответствующих переходам из одно- го состояния в другое. Доход является, таким образом, случайной величиной с распределением вероятностей, управляемым вероятностными связями марковского про- цесса. Вспоминая пример с лягушкой, представим себе игру, в которой некто получает сумму денег в г;; еди- ниц, если лягушка прыгает с листа & на лист ]. Отрица- тельные значения г;; показывают, что игроку приходится жертвовать некоторой суммой денег.  РЕКУРРЕНТНОЕ СООТНОШЕНИЕ ДЛЯ ДОХОДОВ  Одним из вопросов, который можно посгавить отнс- сительно упомянутой игры, является следующий: каков будет ожидаемый! выигрыш нгрока за п последующих переходов. если лягушка находится в данный момент в  ' Термин «ожидаемый» означает математическое ожидание, или среднее. (Прим. перев.)  30 
состоянии # (сидит на листе лилии х номером #)? Чтобы ответить на этот вопрос, определим 9;(п) как полный ожидаемый выигрыш (доход) за й последующих пере- ходов, если в данный момент система находится в со- стоянии 1. Некоторые размышления над этим определением по- зволяют написать рекуррентное соотношение  м и; (п) =¥ Pasltastoj(n— 1)), j=! i=1,2,..., Nj 2z=1,2,3,... (2.1) Еслн система совершает переход из состояния # в состояние },.то игрок получит сумму г;; денежных еди- ниц плюс полный ожидаемый доход, который система «принесет», отправляясь из состояния jf, за оставшееся на единицу меньшее число шагов. Как видно из уравнения (2.1), для того чтобы по- лучить полный ожидаемый доход, выигрыши от перехо- да в состояние | должны быть просуммированы с веро- ятностями р;; этого перехода. Уравнение (2.1) может быть записано в виде  м м vi (n= Pil ij +2 рим: (п — 1), Г—1,2,..., М, И =1, 8, 3, ... (2.2)  Так что если величину 9; определить соотношением  N gi = Yo pisris, i=l, 2, «ce „М, (2.3)  J=!1 то уравнение (2.1) примет вид  м (п) —=4:-- у р: (п — 1), | i=l, 2,..., N, п =1, 28, 3,... (2.4) Величину 9; можно рассматривать как ожидаемый доход в момент выхода системы из состояния i. Будем пазывать ее непосредственно ожидаемым доходом для состояния й. В примере с прыгающей лягушкой 4: пред-  ' В терминах динамического программирования 4: является средним одношаговым доходом. (Прим. ред.)  31 
ставляет собой величину, которую игрок ожидает полу- чить при следующем прыжке лягушки, если в настоя- щий ‘момент она находится на ‘листе лилии с номером #. Запись уравнения (2.1) в виде (2.4) показывает, что нет необходимости вводить в рассмотрение обе матри- цы Ри К, чтобы определить ожидаемый доход в системе. Необходимы только матрица Ри вектор-столбец 9 с № компонентами g; Уменынение объема запоминаемых Данных является существенным, когда сложные задачи должны решаться на цифровых вычислительных маши- нах. В векторной форме уравнение (2.4) может быть за- лисано в виде  у (п) =9--Ру(п —1), п=1,2, 3,..., (2.5)  где у(п) — вектор-столбец с № компонентами о; (п), назы- ваемый вектором полных доходов.  ПРИМЕР С ИГРУШЕЧНЫХ ДЕЛ МАСТЕРОМ  Чтобы рассмотреть вопрос об ожидаемом доходе бо- лее детально, дополним задачу игрушечных дел мастера структурой дохода. Предположим, что если мастер име- ет удачную игрушку (система находится в состоянии 1) н на следующей неделе сделал не менее удачную иг- рушку (система переходит из состояния 1 в состояние 1), то за эту неделю он получает доход в 9 единиц (воз- можно 900 долл.). Таким образом, ги, равно 9. Если неделя закончилась переходом от неудачной игрушки к неудачной же (из состояния 2 в состояние 2), то мас- тер теряет 7 единиц, или /722= —7. Наконец, если не- удачная игрушка сменилась удачной или наоборот, то заработок измеряется тремя единицами, так Что Ги == =/›2=8. Матрица доходов приобретает вид  9 3 в [3—2 Учитывая, что __ [0,5 0,5 ~ 10,4 0,6  32 
низ равенства (2.3) можно найти, что  [3]  Рассмотрение вектора 4 показывает, что если мастер имеет удачную игрушку, он ожидает получить 6 единиц в следующую неделю!, если же он имеет неудачную игрушку, его ожидаемые потери в следующую неделю равны 3 единицам. Допустим, что мастер предполагает закрыть свое «дело» через п недель. Он интересуется средним количе- ством денег, которое можно получить за это время в зависимости от имеющейся в данный момент игрушки. К этой задаче могут быть непосредственно приме- нены рекуррентные соотношения (2.4) или (2.5), но при этом должен быть задан набор начальных доходов 9: (0). Эти величины представляют собой ожидаемую прибыль, которую мастер получит в тот день, когда ос- тановит производство. Если дело продается другому лицу, то 9:(0) будет его покупной ценой в том случае, если производство за- крывается на удачной игрушке, в противном случае его покупная цена равна 92(0), В нашем примере для удобства вычислений поло- жим граничные значения 9;(0) равными нулю. Воспользовавшись равенством (2.4), составим табл. 2.1 значений 9;(п) для каждого состояния при различных п. Таблица 2.1  Полный ожидаемый доход мастера как функция состояния и числа оставшихся недель  п 0 1 2 3 4 5 .. 0: (п) 0 6 7,5 | 8,55) 9,555 | 10,5555 |... 9а (п) 0 —3 |—2,4 |-1,44 —0,444 | 0,5556 |...  Таким образом, если до момента закрытия производ- ства осталось четыре недели, то мастер ожидает полу- чить за это время 9,555 единиц, если сейчас он имеет  ' См. сноску на стр. 30. 3—1029 33 
наклона каждой из них равен 1. Особый интерес пред-  ставляет асимптотическое поведение полных доходов при больших п.  АНАЛИЗ МАРКОВСКИХ ПРОЦЕССОВ С ДОХОДАМИ ПРИ ПОМОЩИ 2-ПРЕОБРАЗОВАНИЙ  Изучим марковский процесс с доходами, используя метод 2-преобразований. Обозначим вектором O(z) результат применения 2-преобразования к вектору полных доходов  У (п), так что 9(2) —)Y' v(n) 2". Равенство (2.5) может  n=0 быть переписано в виде у (п -|-- 1) =9- Ру(), п=0,1,2,... (2.6)  Если от этого равенства взять 2-преобразование, то получим  2-"[0(z)— v(0)] =; 4+ Pole), o(z) —v (0)= 2 q} 2Pa(2),  ((— 2Р) о (2) = а у()  1—2  о (г) = (1—гР)-1а-Н 1 — 2Р)-*у (0). — (2.1)  Нахождение преобразования ©(2) требует обращения матрицы (Т — 2Р), которая появляется также при опреде- лении вероятностей состояний. Это неудивительно, так как наличие дохолов не влияет на вероятностную структуру процесса. В задаче игрушечных дел мастера вектор У (0) равен нулю, так что уравнение (2.7) сводится к о (г) == (1 =Р)-14. (2.8) Для процесса изготовления игрушек матрица (1 — zP)-*, найденная раньше, имеет вид  4 5 5 _5 9 о 9 9 _ 1 (I—2P)"= 73] 4 5 44 “9 9 1 — 10 > 9 9  3* 35 
Таким образом,  Пусть матрица Р(л) будет обратным преобразованием от [2/(1 —2)] (1 — =Р)-*. Тогда  4 5. 5 5 9 9 9 9 10 1 \n Е (1) = 4 5 +5 |1 — (<) ) 4 4 9 9 9 >  Согласно обратному преобразованию уравнения (2.8) вектор  полных Доходов У(п) равен Я(п)9, а так как q = ’  —3 voy! F-FE-C) [5] Другими словами,  (п) = п + 3! — Go)" | о, (п) = п —э |1 — (®)" | (2.9)  TO  Мы нашли, таким образом, аналитические выраже- ния для полных ожидаемых доходов, которые система «приносит», отправляясь из каждого состояния.  36 
Уравнения (2.9) можно - использовать для составления табл. 2.1 или построения рис. 2.1. Мы видим, что, когда й становится очень большим, 9,(п) и 9.(п) мало отличаются 50 40 от 5. и п— 5 соответственно.  Асимптотические соотношения  о, (п) =п-+ №, о, (п) =п— 5  являются уравнениями для асимптот, показанных на рис. 2.1. Заметим, что в соответствии с полученным ранее результатом при больших п V,(n)—ve(n) =10, а тангенс угла наклона функций 9:(п) и 92(п) равен | Эта величина численно равна среднему доходу за один переход и в данном случае составляет 1. Если бы у мас- тера оставалось много недель до закрытия производства, то средняя выручка за неделю составила бы | единицу за неделю. Назовем средний доход за переход при- былью; в данном случае она равна 1 единице!.  ХАРАКТЕР ПОВЕДЕНИЯ ПОЛНОГО ОЖИДАЕМОГО ДОХОДА ПРИ БОЛЬШИХ п  Для того чтобы определить величину полных ожи- даемых доходов от процесса большой продолжительно- сти, рассмотрим снова равенство (2.7):  о (2) = — (1— 2Р)-'4-- (1 2Р)-1у(0). (2.7)  | — В гл. | было показано, что обратное преобразование мат- рицы (Т-—=Р)-' можно представить в виде $--Т(п). В этом выражении $ является стохастической матрицей, {-я строка которой есть вектор предельных вероятностей, если система отправляется из {-Го состояния, а Т(п) пред- ставляет собой сумму дифференциальных матриц с убы-  'B отличне от компонент вектора 4, непосредственно ожн- даемого за один шаг дохода, прибыль определяется как средний (по числу оставшихся шагов п) ожидаемый доход за один шаг, когда число оставшихся шагов достаточно велико. (Прим. перев.).  37 
вающими по геометрической прогрессии коэффициентами. Запишем это соотношение в виде  (] — 2P)-! = — +-$(2), (2.10)  где %(2) — г-преобразование от Т (п). Подставив равен- ство (2.10) в (2.7), получим  2  9 = ьа- т, $ (да- т, $0) $(2) у). (2.11)  Из этого равенства можно определить компоненты вектора \(п). Члену [2/(1 — 2)*]$4 соответствует ступен- чатая функция с высотой ступеньки $9. Разложение на простые множители и раскрытие скобок показывают, что член [2/(1 — 2)]% (2) 4 представляет собой скачок величи- ной %(1)4 плюс геометрические члены, которые стремятся к нулю, когда м неограниченно возрастает’. Слагаемое (11 — 2)] $%(0) соответствует скачку величиной Sv (0), а обратное преобразование %(2)у (0) представляет собой геометрические компоненты, также стремящиеся к нулю с ростом п.  ' Если все корни уравнения Че! (1 — 2Р) =0 просты, то вели-  чину % (2) можно представить как сумму у, i , rae D; —  i матрицы, не зависящие OT 2, аа; — некоторые константы, меньшие  единицы. Тогда  z } D; D,/(1 — 4;) ругать .  i i Обратное 2-преобразование дает  р; _ О; ап у. | — а; 1— a, Г ° i  i  — az  О: Совершенно ясно, что = = $ (1). Аналогичное paccyx- 6 i дение можно провести в случае кратных корней. (Прим. ред.)  38 
Таким образом, асимптотическая форма У(п), справед- ливая при больших п, имеет вид  у (п) =1п$а-- $(1) 1-Е $% (0). (2.12)  Если определить вектор-столбец & с компонентами 2; равенством & —=$4, то  v(n) = ng + 2(1)q + Sv (0). (2.13)  Компонента 5; вектора & равна сумме непосредственно ожидаемых доходов 4;, взвешенных с предельными веро- ятностями. Если система отправляется из состояния f, то эти доходы определяются выражением  м gi зн =  Эта величина является также средним доходом за один переход системы, если последняя отправляется из состоя- ния фи ей предстоит проделать много переходов. Вели- чину 2; можно назвать прибылью в {-м состоянии. Так как все состояния одного и того же эргодического класса имеют одинаковые строки в матрице $%, то все такие со- стояния обеспечивают одинаковую прибыль. Если в системе существует только один эргодический класс, так что она эргодична, то все строки матрицы $ равны между собой и равны вектору предельных вероятностей процесса м. Отсюда следует, что в этом случае все состояния обеспе- чивают одинаковую прибыль (назовем ее р) и что  м 8 — у, "9 (2.14) 1=1  Компоненты вектор-столбца % (1) 9--5$%(0) представляют собой отрезки, отсекаемые асимптотами вектора v (7) Ha координатной оси и (рис. 2.1) при н=0. Эти отрезки определяются совместно переходным поведением процесса $ (1) 3 и влиянием граничного условия $%(0). Назовем ве- сом' величину и;, обозначающую отрезок, отсекаемый на координатной оси асимптотой 9;(й). При больших п  0; (2) —=ng i+, i=], 2, wey М. (2.15)  ' В дальнейшем этому названию будет дано объяснение. См. также сноску на стр. 58. (Прим. ред.). 39 
Если вектор-столбец с компонентами 9; обозначить через у, так что У —= % (1)9-[ $%(0), то уравнения (2.15) при боль-  ших й переходят в У(п) = ng У. (2.16)  Если система эргодична, то все д;=8, так что в можно назвать прибылью процесса, а не прибылью со-  стояния. Теперь уравнения (2.15) при больших п примут ВИД  о; (п) = па Но, #=1,2,..., М. (2.17)  Обращаясь для иллюстрации к задаче игрушечных дел мастера, найдем  п [13 ! 5} (1 — 2P)"* =|, 9 9 +- 9 9 94| 1102 _ 4 4 9 9 9 9 45 50 __ 50 9 9 81 81 Согласно (2.10) -- | 5 |, (1) = 40 401 99 81 81 Так как a=| 3 | TO e—Sa—| | 50 - Так как v(0)=0, тт ч=%(1)9= to ~~ 9  Из уравнений (2.15) следует, что при больших п  5. (п) = п +2, v,(/2) — я — >,  как было установлено раньше.  Данная глава была посвящена анализу марковских процессов с доходами. Особое внимание обращалось на асимптотическое поведение функции полного ожидае- мого дохода. Причины этого рассматриваются в ни- жеследующих главах.  40 
ГЛАВА 3  ПРОЦЕССЫ ПОСЛЕДОВАТЕЛЬНЫХ РЕШЕНИЙ. РЕКУРРЕНТНЫЙ МЕТОД  Рассмотрение марковских процессов с доходами бы- ло лишь шагом на пути к нашей цели. Этой целью является изучение способов принятия решений в после- довательных процессах, которые по своей природе яв- ляются марковскими. В данной главе будет описан тип рассматриваемых процессов и приведен метод опреде- ления решения, основанный на рекуррентных соотноше- HHAX.  ОПРЕДЕЛЕНИЕ СТРАТЕГИЙ  Задача об игрушечных дел мастере, которую мы рас- сматривали, можег быть обобщена следующим образом. Если мастер находится в состоянин |, он может пе- рейти в состояние 1! или в состояние 2 в соответствии с распределением вероятностей [р,;]=(0,5 0,5]. Полученное при этом вознаграждение будет соответ- ствовать распределению доходов {1 ;]={9 3]. Если мастер находится в состоянии 2, то соответствующими распре- делениями вероятностей и доходов являются [рол = [0,4 0,6] и [72] ={@—7]. Выше этот процесс был подробно изучен и получен способ вычисления ожидаемого дохода для любого числа шагов, предшествующих закрытию масте- ром производства. Предположим теперь, что в зависимости от обста- новки мастер может действовать различными способа- ми, которые изменят вероятности и Доходы, управ- ляющие процессом. Например, если изготовленная иг- рушка удачна, то для повышения спроса на нее он мо- жет воспользоваться рекламой. Однако, так как за  41 
рекламу приходится платить, то ожидаемые за неделю доходы будут естественно ниже. Предположим, что в случае рекламирования игрушки распределение веро- ятностей для переходов из состояния | будет [р1]= —=[0,8 0,2], а соответствующее распределение доходов составит (г, ;]=[4 4]. Телерь, находясь в состоянии 1, ма- стер может обойтись без рекламы или использовать ее. Назовем эти возможности стратегиями и обозначим | и 2 соответственно. Каждая стратегия имеет связанные с ней распределения вероятностей и доходов для вы- ходов из состояния |.  Будем отмечать стратегии в каждом состоянии индек- сом Е сверху. Таким образом, для стратегии 1 в состоя- нии 1 [р] =10,5 0,5], [| =19 3], для стратегии 2 в со- стоянии 1 [2:;] == [0,8 0,2], [= 4]. В состоянии 2 также возможны несколько вариан- тов. Увеличение затрат на ‘исследование повышаег вероятность получения удачной игрушки, но при этом возрастает и стоимость поебывания в данном состоянии. При первоначальной стратегии в состоянии 2, которую мы будем обозначать | и называть стратегией ограни- ченных исследований, распределение вероятностей пе- реходов было {р2;|=[0,4 0,6], а распределение доходов— [2]={3 —7]. Цри усиленных исследованиях (стратегия 2), распределения вероятностей’ и доходов могли бы быть, например, следующими: [р2;]=[0,7 0,3], [= =[1 —19]. Понятие стратегии в системе с М состояниями иллю- стрировано графически на рис. 3.1. На этой диаграмме в первом состоянии допускаются две стратегии. Если вы- бирается стратегия 1( =—=1), то переход из состояния 1  в состояние | будет иметь вероятность р!,, переход из состояния 1 в состояние 2— вероятность ри„, из состояния 1 в состояние З— вероятность ру, и. т. Доходы, связанные с этим переходами, будут соответственно ги, Г» Ги т. Д.  Если в состоянии 1 выбирается вторая стратегия (Ё==2), то вероятности и доходы будут  2 2 о 2 2 2 Pir Pyav eves Pin И Пр По.) Sine  42 
Таблица 3.1 Исходные данные для задачи игрушечных дел мастера  Вероятности Доходы переходов Непосредственио Состояние Стратегия ожидаемый i k k k k А о Ри | Рю | "а "12 9 1. (удачная | 1. (без ре- игрушка) кламы) |0,5 | 0,5 9 3 6 2. (прибе- гая к ре- кламе) 0,8 |0,2 4 4 4 2. (неудач- | 1. (без ис- ная иг- следова- рушка) ний) 0,4 |0,6 3 —7 —3 2. (проводя исследо- вания) | 0,7 | 0,3 1 —19 | —5  Onpenenum d;(m) как номер стратегии, выбираемой в состоянии & которая будет использоваться на п-м шаге!» Назовем 4;(п) решением в состоянии { на л-м шаге. Скажем, что поведение мастера определено, если для всех [и п задано 4;(п). Оптимальным является та- кое поведение, которое максимизирует полный ожидае- мый доход для всех Ёи п. Чтобы проанализировать задачу нахождения опти- мального поведения, определим снова величину 9;(п) как полный ожидаемый за л шагов доход при оптимальном поведении, если система отправляется из состояния 2. Таким образом, для любого п имеем  N 0; (и 1) = паху, рег, Чоп), п =0, 1,2,... (3.1) j=!  Предположим, что на warax n, n—1,..., 1 стратегии вы- браны и, следовательно, максимизированы 9;(п) для всех /=1,2,....М№. Найдем стратегию, которой следует придерживаться в Г-м состоянии, чтобы добиться мак- симального дохода 9;(п-- 1), если число оставшихся ша-  ' Здесь и в дальнейшем выражение «на л-м шаге» следует пони- мать «при п оставшихся шагах». (Прим. перев.)  44 
гов равно п-+1. Она и будет решением 4;(п-+ 1). Если воспользоваться стратегией А в {-м состоянии, TO B CO- ответствии с выводами гл. 2 ожидаемый доход за п-+1 шагов будет составлять  N инь, a2  Нужно найти в i-M состоянии стратегию, которая мак- симизирует выражение (3.2). Величина 9;(п-+1) для нее определяется этим выражением. Отсюда следует справедливость равенства (3.1)', которое можно на- звать рекуррентным соотношением для полных дохо- дов. С учетом непосредственно ожидаемых доходов для каждой стратегии уравнение (3.1) может быть записа- но в виде  М v(a+ ymax |g У, риохи) |. 8.3) j=!  Использование этого рекуррентного соотношения подскажет мастеру, какую стратегию выбирать в каж- дом состоянии на каждом шаге, а также ознакомит его с ожидаемым будущим заработком на каждом шаге процесса. Чтобы применить эти соотношения, нужно за- дать граничные доходы процесса 9,;(0). Как и в гл. 2, зададимся нулевыми значениями для обеих величин 01 (0) и 92(0) и воспользуемся уравнением (3.3) для ре- шения задачи игрушечных дел мастера, представлен- ной в табл. 3.1. Результаты сведем в табл. 3.2.  Проиллюстрируем вычисления, найдя стратегии и доходы на первом шаге. Учитывая, что \(0) =0, получим э, (1)==  — тахд!. Стратегия, которую нужно использовать в со- R  стоянии 1 на первом шаге, должна иметь наибольший не- посредственно ожидаемый доход. Так как 4, =6 и 4! =4,  то в состоянии 1 лучше использовать первую стратегию на первом шаге, при этом доход будет равен о, (1) =6.  1 Уравнение (3.1) является приложением «принципа оптималь- ностн» динамического программирования к процессам последователь- ных решений марковского типа. Это и другие приложения рассмат- ривались Беллманом (1}.  45 
Таблица 3.2  Решение задачи игрушечных дел мастера рекуррентным методом  п 0 ! 2 3 4 eee и: (п) 0 6 | 8,2 110,22 12,222 .. и2(л) 0 —3 |—1,7 | 0,23 2,223] .. а: (п) — | 2 2 2 са. 4: (п) — 1 2 2 2 . о Аналогично и,(1) = тах4”, а так как 9, —=—3Зи q; ——5, р 92  то и в состоянии 2 лучшей является первая стратегия, а ожидаемый доход составит и,(1) = — 3. Вычислив теперь и; (1) для всех состояний, можно снова использовать урав- нение (3.3) для определения 0;(2) и стратегий для второго  шага. Процесс может быть продолжен для сколь угодно больших значений п.  Предположим, что мастер находится в состоянии 1 и ему осталось работать три недели. Тогда из табл. 3.2 видно, что ожидаемый доход 91(3) равен 10,22 единицы за этот период времени и что мастеру следует использо- вать рекламу в течение следующей недели 4, (3) =2. По- Добным же образом можно рассмотреть любую другую ситуацию, в которой может находиться мастер.  Заметим, что для л=2,3 и 4 в каждом состоянии сле- дует предпочесть вторую стратегию. Это означает, что мастеру предлагается пользоваться рекламой и прово- дить исследования, несмотря на увеличение расходов. Изменения, произведенные в переходных вероятностях, с лихвой компенсируют дополнительные затраты. В ра- боте [1] было показано, что процесс последовательных приближений, основанный на соотношении (3.3), будет сходиться к наилучшей стратегии для каждого состоя- ния, когда п неограниченно возрастает. По-видимому, для данной задачи сходимость имеет место уже при п=2 и в каждом состоянии наилучшей является вторая стратегия. Однако для многих задач трудно сказать, когда наступает сходимость. 46 
ОЦЕНКА РЕКУРРЕНТНОГО МЕТОДА  Метод, который только что был предложен для изу- чения последовательных процессов, может быть назван рекуррентным методом, так как здесь последовательно (или рекурренгно) определяются %;(п), или полные до- ходы. Этот метод имеет некоторые существенные огра- ничения. Ясно, что немногие предприятия или процессы функционируют столь непродолжительное время. Боль- шей частью системы работают довольно долго или с не- точно определенным временем окончания. По-видимо- му, неэффективно определять рекуррентно значения полных доходов 9;(й), если число оставшихся до окон- чания процесса шагов пл достаточно велико. Гораздо важнее было бы иметь метод, который предназначался бы непосредственно для решения задачи анализа про- цессов бесконечной длительности, т. е. процессов, ко- торые совершают большое число переходов, прежде чем закончатся. Такой метод будет рассмотрен в следующей главе. Из предыдущего ясно, что даже при наличии доста- точного терпения для определения последовательных решений в процессах большой продолжительности ре- куррентным методом, сходимость к лучшей стратегии в каждом состоянии аналитически установить трудно в силу ее асимптотического характера. С другой стороны, в системе не обязательно долж- но быть проделано много переходов, чтобы для ее рас- смотрения можно было применять метод анализа про- цессов большой длительности. Несмотря на то, что рекуррентный метод не особен- но пригоден для процессов большой длительности, он применим к таким системам, функционирование кото- рых заканчивается в относительно короткое время. 
ГЛАВА 4  ИТЕРАЦИОННЫЙ МЕТОД ДЛЯ ПРОЦЕССОВ ПОСЛЕДОВАТЕЛЬНЫХ РЕШЕНИЙ  Рассмотрим эргодический марковский процесс с до- ходами и с М состояниями, описываемый матрицей ве- роятностей переходов Р и матрицей доходов В. Пред- положим, что процесс совершает переходы в течение очень долгого времени н нас интересует доход от этого процесса. Полный ожидаемый доход зависит от общего числа п переходов, совершаемых системой, и растет не- ограниченно с ростом п. Более полезной величиной яв- ляется средний доход от процесса за единицу времени. В гл. 2 было показано, что эта величина, названная прибылью процесса, может быть строго определена для процессов большой продолжительности. Так как процесс эргодичен, предельные вероятно- сти т; не зависят от начальных состояний ни прибыль Е системы дается выражением  м #=У, =, (2.14) i=l  где 9; — непосредственно ожидаемый доход в состоянии &, определенный равенством (2.3).  Каждый эргодический марковский процесс с дохода- ми будет иметь прибыль, определяемую равенством (2.14). Если имеется несколько таких процессов и тре- буется узнать, какой из них обеспечит ббльший доход при длительном функционировании системы, то можно найти прибыль каждого и затем выбрать процесс с наи- большей прибылью.  48 
на диаграмме, означает, что матрицы вероятностей и до- ходов для системы составляются из строк, соответствую- щих первой стратегии в состоянии 4, второй стратегии в состояниях 2 и Зи третьей стратегии в состояниях 1 и 5. Вектор-решение можно описать вектором 4, компо- ненты которого представляют собой номера стратегий, выбранных в соответствующих состояниях. В данном слу- чае  Оптимальным называется решение, которое макси- мизирует прибыль, или средний доход за переход. Для задачи, иллюстрированной на рис. 4.1, возможны 4хзж2ж1Жж5=120 различных решений. Можно найти прибыль для каждого из этих решений и выбрать реше- ние с наибольшей прибылью. Однако, если эта работа и выполнима для 120 решений, она становится невыполни- мой для более сложных задач. Например, задача, опи- сывающая систему с 50 состояниями и 50 стратегиямн в каждом состоянии, содержала бы 50% (-1085) допу- стимых решений. Рассматриваемый ниже итерационный метод позво- лит найти оптимальное решение за небольшое число итераций, каждая из которых состоит из двух частей — определения весов и улучшения решения. Обсудим сначала первую часть-—определение весов.  ОПРЕДЕЛЕНИЕ ВЕСОВ  Предположим, что рассматривается система при некотором фиксированном решении, т. е. задаи опре- деленный марковский процесс с доходами. Если в этом процессе произойдет п переходов, то 9;(п) можно опре- делить как полный ожидаемый доход, который будет получен после их выполнения, при условии, что началь- ным является состояние {и принято данное решение.  50 
Величины 9;(п) должны удовлетворять рекуррент- ным соотношениям [уравнение (2.4)], полученным в гл. 2  м о: (п)=9:- У, роз (п — 1), 1=1 i=1,2,...,N, n=1, 2, 3,... (2.4)  Нет необходимости использовать индекс А в этом равенстве, так как выбор решения определил матрицы вероятностей и доходов, которые описывают систему. В гл. 2 было также показано, что для эргодических марковских процессов 9;:(п) имеет асимптотический вид  и: (п) =па-Ки., #=1,2,..., М для больших п. (2.17)  В данной главе рассмотрим поведение систем, когда число переходов велико. При этом значения 9; (п), опре- деляемые из уравнения (2.17), можно подставить в уравнение (2.4).  N ngtou=at+Y py ((a—l)g+oi], i=1,2,...,N,  j=! N N ng += gi t(n— Ned, pst), pis. j=1 j=l N Так как у Pij=1, эти уравнения принимают вид  N ви > PijgPjs i=l, 2, ees) N. (4.1) =!  Мы получили систему из № линейных уравнений, свя- зывающих величины о; и с с матрицами переходных ве- роятностей и доходов процесса. Нам нужно опреде- лить М величин 9; и величину &, т. е. №М+1 неизвест- ное. Чтобы выйти из затруднения, прибавим некоторую константу ко всем 9; в уравнении (4.1):  N аа) = 4+ Х рыба)  4* 51 
ИЛИ N  Е = Ур. j=l  В результате снова получим исходные уравнения, так что абсолютные значения 9; из них определить нельзя. Однако, если мы положим одно из и;, например их, равным нулю, то останется только № неизвестных и уравнения (4.1) могут быть решены относительно # и оставшихся 9;. Заметим, что полученные таким обра- зом веса о; будут отличаться от соответствующих вели- чин, определяемых равенством (2.17), на постоянную величину. Тем не менее, так как истинные веса и; (см. уравнение (2.13)] содержат постоянный член вида  м У. Riv; (0), i=!  то их абсолютный характер не имеет особого значения в процессах, в которых совершается очень большое чис- ло переходов. Для наших целей можно ограничиться величинами и;, полученными из уравнений (4.1); они бу- дут называться относительными весами (гёаНуе уа|цез) решения. Относительным весам можно дать физическую ин- терпретацию. Рассмотрим первые два состояния 1 и 2. Для любого большого п уравнение (2.17) приводит к  о: (1) = па-но,, 9, (п) =па-Но..  Разность v(m) —ve(n)=0,— ve показывает, на- сколько выгоднее начинать работу системы из состояния |, а не из состояния 2, когда чнсло оставшихся шагов п велико'. Так как разность и: — 02 не зависит от абсолютных весов Uz, TO для ее нахождения могут быть использова- ны относительные веса. Другими словами, разность в от- носительных весах двух состояний и: — иг равна сумме, которую практичный человек будет готов уплатить, что- бы начать работу из состояния 1, а не 2, если он соби-  ' Именно это свойство величин и; дает основания называть их весами (уаше). (Нрим. перев.)  52 
рается эксплуатировать систему долгое время. Физиче- ское содержание относительных весов будет раскрыто в примерах гл. 5. Если Г-е уравнение системы (4.1) умножить на х; предельную вероятность соответствующего состояния и затем просуммировать no всем t, TO ‚получим  BS +S a= Sat у Ури,  1=1 ==  Осповные уравнения (1.5) и (1.6) показывают, что это выражение эквивалентно уравнению (2.14) м  & — у. =. (2.14)  i=l  Здесь будет уместно поставить вопрос: если мы ищем только прибыль процесса при данном решении, то по- чему уравнение (2.14) не предпочесть системе (4.1)? И вообще, зачем нам нужны относительные веса? Ответ состоит в следующем. Во-первых, хотя уравнение (2.14) обеспечивает нахождение прибыли процесса, оно не да- ет нам никакой информации о том, как находить луч- шее решение. Мы увидим, что относительные веса явля- ются ключом к отысканию наилучшего решения. Во-вторых, объем вычислений, производящихся при решении системы (4.1) относительно прибыли и отно- сительных весов, приблизительно тот же самый, что и при нахождении предельных вероятностей из уравнений (1.5) и 1.6) —в обоих случаях требуется решить сис- тему № линейных уравнений. С точки зрения нахожде- ния прибыли уравнения (2.14) и (4.1) равнозначны. Од- нако следует предпочесть уравнения (4.1), так как с их помощью можно найти относительные веса, ‘которые, как будет показано, необходимы для улучшения решения. С точки зрения выполнения вычислений интересно за- метить, что мы имеем известную свободу в изменении масштаба наших доходов в силу линейности уравнений (4.1). Если доходы r;; процесса с прибылью g H OTHOCH- тельными весами 0; подвергнуть линейному преобразова- нию Г’; =аг;,-Н 6, то в силу соотношения  9: — у, Pij ij i=! 
новые непосредственно ожидаемые доходы 4; преобразу- ются в 9’, =@а9;:-- 6. Таким образом, величины а; подвер- гаются тому же самому преобразованию. Уравнения (4.1) принимают теперь вид  № "— 6 . вит, ры, i=l, 2, оо М Г—1 ИЛИ  № (ag -+ 6) +-(a0,)=9;+ № Р:; (@5;) j=)  gi = Fit У ры’,  Следовательно, прибыль процесса с преобразован- ными доходами выражается в виде р’==ае-+ф, а веса у’, — в виле а9:. Вляяние изменения единицы измеренил и абсолютного уровня дохода системы на прибыль и относительные веса легко вычисляется. Следовательно, можно нормировать величины всех доходов так, чтобы они находились между 0 и 1, решить задачу для полу- ченных доходов и затем использовать обращение на- шего исходного преобразования для получения прн- были & и относительных весов и; исходной задачи. Итак, было показано, что для данного решения при- быль и относительные веса соответствующего процесса можно найти путем решения системы линейных уравне- ний, положив одно из значений 9;, например Ом, рав- ным 0. Теперь посмотрим, как могут быть использованы относительные веса для нахождения решения, которое приводит к процессу с ббльшей прибылью, чем исходное.  УЛУЧШЕНИЕ РЕШЕНИЯ  В гл. 3 показано, что если придерживаться опти- мального поведения вплоть до п-го шага, то лучшую стратегию в {-м состоянии на п-+1-м шаге можно найти, максимизируя относительно всех стратегий в {-м состоя- нии выражение  м «НУ ру (п). (4.2) j=1 54 
Для больших п! можно использовать равенствс  (2.17), чтобы получить критерий максимизации в виде выражения  м GAY pi (ng +3), (4.3) j=l  которое должно быть максимизировано в 7-м состоянии. Так как  то слагаемые пб и произвольная аддитивная постоянная  относительного веса U; образуют составляющую, которая не зависит oT &,  Таким образом, для того чтобы принять решение в состоянии &, достаточно максимизировать выражение  N a+ у Ри о; j=!  относительно всех стратегий в {-м состоянии. Более того, в этом выражении можно использовать относи- тельные веса, полученные из уравнения (4.1) для ре- шения, которое будет оптимальным, если число остав- шихся шагов равно п. Итак, вся рассматриваемая процедура улучшения решения может быть описана следующим образом. Для каждого состояния # используя относительные веса, определенные для старого решения, найти страте- гию Л, максимизирующую критерий  м «НУ, Ру? j=!  Эта стратегия становится тогда решением @; в #-м со- стоянии. Новое вектор-решение будет определено, когда  подобная процедура будет проделана для всех состоя- НИЙ.  ' Это предположение позволяет искать вместо оптимального по- ведения оптимальное решение, так как в случае большого числа оставшихся шагов п поведение стационарно, т. е. состоит в исполь- зовании на каждом шаге процесса одного н того же оптимального решения [1]. (Прим. перев.)  55 
Таким образом, при помощи некоторого эвристиче- ского рассуждения здесь был описан метод нахождения решения, которое является улучшением исходного. В дальнейшем будет доказано, что новое решение обеспе- чивает болыпую прибыль, чем старое. Однако сначала рассмотрим, как процедуры определения весов и улучшения решения объединяются в итерационный цикл, с помощью которого среди всех возможных реше- ний отыскивается одно, дающее наибольшую прибыль.  ИТЕРАЦИОННЫЙ ЦИКЛ  Основной итерационный цикл может быть представ- лен в виде блок-схемы, как показано на рис. 4.2.  Определение весов  Используя ру; ид; для данного решения, найти при- быль & и относительные веса о; из системы уравнений  М я . Ен: = 9: +) Pijdj, $=1,2,...,N, j=l положив у), равным нулю.  Улучшение решения  Для каждого состояния #, используя относитель- ные веса предыдущего решения, найти стратегию #’, N  м, которая максимизирует критерий 4 +); Pi, Yj. i=l Затем принять эту стратегию за новое решение # в {-м состоянии, 47 заменить на 4; ,а рр, — на рр’  Рис. 4.23. Итерационный ЦИКЛ.  В верхнем блоке определяются величины & и оу, соот: ветствующие выбору р;; и gi, в нижнем — вычисляются значения р;; и д: которые увеличивают прибыль для данного набора и;. Другими словами, первый блок (оп- ределения весов) позволяет определить веса как функ- ции решения, тогда как второй блок (улучшения реше- ния) дает возможность найти решение как функцию ве- COB.  56 
Итерационный цикл можно начать с любого блока. Если в качестве исходного выбирается верхний, то нужно подобрать начальное решение, если же им яв- ляется нижний, то необходимо задать набор начальных весов. Если предварительные соображения относительно выбора специального начального решения или опреде- ленного набора исходных весов отсутствуют, то удобно начать процесс с блока улучшения решения, положив все 9;=0. Тогда для каждого # будет найдена стратегия #', ко- торая максимизирует 9 ‚И затем 4; полагается равным #', т. е. в качестве исходного будет выбрано решение, кото-  рое максимизирует непосредственно ожидаемый доход в каждом состоянии.  Затем в работу вступает блок определения весов с этим решением, и итерационный цикл начнется. Вы- бор в качестве исходного, решения которое максими- зирует непосредственно ожидаемый доход, является вполне удовлетворительным в большинстве случаев.  Здесь будет уместно сказать несколько слов о прек- ращении итераций, . когда задача решена. Правило очень простое: оптимальное решение будет найдено (2 максимизировано), когда совпадут решения двух последовательных итераций. Чтобы избежать возмож- ного повторения процедуры улучшения решения при одинаково хороших стратегиях в некотором состоянии, достаточно потребовать, чтобы старое решение 4; ос- тавалось неизменным, если величина критерия для него такая же, как и для всякой другой стратегии вновь определенного решения. Итак, исследованный итерационный метод обладает следующими свойствами. 1. Определение оптимального решения в процессе последовательных решений сводится к решению систе- мы линейных уравнений с последующим сравнением. 2. Каждое следующее решение, находящееся с по- мощью итерационного цикла, имеет ббльшую прибыль, чем предыдущее. 3. Итерационный цикл будет окончен при получении решения, которое обеспечивает наибольшую допустимую в данной задаче прибыль; это решение находится обыч- но на небольшое число итераций.  57 
Прежде чем доказывать свойства 2 и 3, рассмотрим применение итерационного метода к задаче игрушечных дел мастера.  ЗАДАЧА ИГРУШЕЧНЫХ ДЕЛ МАСТЕРА  Данные для этой задачи были представлены в табл. 3.1. Существуют два состояния и две стратегии в каждом состоянии, так что для мастера возможны всего четыре решения, причем с каждым связаны свон вероятности и доходы. Мастер хотел бы знать, какого из этих четырех решений ему следует придерживаться за- долго до остановки производства, чтобы сделать сред- ний заработок за неделю возможно большим. Предположим, что мы не знаем заранее, какое ре- шение наилучшее. Тогда, если положить и1=02=0 и выполнить процедуру улучшения решения, то в качест- ве начального будет отобрано решение, которое макси- мизирует непосредственно ожидаемый доход в каждом состоянии. Для мастера это решение состоит в выборе 1-й стратегии в обоих состояниях 1 и 2. В этом случае  Е. [7  Теперь все готово для выполнения процедуры опре- деления весов, которая оценит наше начальное реше- ние. Из уравнения (4.1)  g +o, =6-+-0,50, +-0,5v,, g-+-v, = — 30,40, + 0,би..  Полагая 9›2=0 и решая эти уравнения, получим g=l, v,;=10, vo=0. (Напомним, что раньше npHObinb g=1 была получена для этого решения другим методом.) Теперь можно перейти к выполнению процедуры улучшения решения, как показано в табл. 4.1. В результате улучшения решения видно, что вто- рая стратегия в каждом состоянии приводит к ббль- шему значению величины критерия  М k k 1 У, Py V5 j=) чем первая. Таким образом, решение, составленное из вторых стратегий в каждом состоянии, дает большую  58 
Таблица 4.1  Улучшение решения в задаче игрушечных дел мастера  Критерий  N Состоя-| Страте- ние [ гия gk >> РАО} i ij f=  1 6--0,5(10)-+0,5(0)=11 2 4--0,8(10)-+0,2(0)=12--  2 i —3+0,4(10)+-0,6(0)=1 2 |—5+0,7(10)+0,3(0)=2—  прибыль, чем наше исходное решение. Однако необхо- димо продолжить процедуру, так как у нас нет еще полной уверенности в том, что новое решение—наилуч- шее из всех, которое можно найти. Для этого решения  а— [2] р—[ 08 0,2] _[ 4]. 2 0,7 0,3 —5  Уравнения (4.1) в этом случае принимают вид в и, =4--0,8о, --0,2%,, g+v,=—5-+-0,7v, +0,32,. Решением этих уравнений при и, = 0 является в —=2, и, =10, и, ==0. Таким образом, прибыль процесса при решении Я = = >| удваивается по сравнению с прибылью, получае-  мой при исходном решении. Мы должны теперь снова использовать процедуру улучшения решения, но так как относительные веса случайно оказались теми же самыми, что и в предыдущей итерации, вычисления, приведенные в табл. 4.1, просто повторяются. Снова получается реше-  ние d= | |: а так как оно совпадает с предыдущим, то,  стало быть, и является оптимальным. Мастеру следует 59 
придерживаться второй стратегии в каждом состоянии. Следуя этому правилу, он заработает 2 единицы за неде- лю в среднем; это будет больше, чем заработок, обеспе- чиваемый любым другим решением. Читатель может про-  верить, например, что оба решения 9—= | , u d= |  обеспечивают менышие прибыли.  Для оптимального решения 9, =10, 9›2=0, так что и—92=10. Это означает, что даже если мастер придер- живается оптимального поведения, используя рекламу н проводя исследования, он готов заплатить до 10 еди- ниц постороннему изобретателю за удачную игрушку в любой момент времени, когда у него нет таковой. Относительные веса процесса при оптимальном реше- нии могут, таким образом, помочь мастеру принять определенное решение о том, стоит ли покупать право на удачную игрушку, если его дела плохи. гл. 3 оптимальное решение для мастера было найдено рекуррентным методом. Сходство и различия этих двух методов теперь должны быть ясны. Заметим, что итерационный метод указывает, как прекратить итерации, если сходимость к оптимальному решению достигнута. Ничего подобного нет в рекуррентном ме- тоде. Итерационный метод обладает простотой формы и интерпретации, что делает его очень привлекатель- ным с точки зрения проведения вычислений. Однако мы должны всегда помнить, что он применим только к про- цессам бесконечной продолжительности или к процес- сам, окончание которых очень отдалено.  ОБОСНОВАНИЕ ИТЕРАЦИОННОГО МЕТОДА  Предположим, что мы нашли некоторое решение А и в результате его улучшения было получено реше- нне В, отличное от А. Тогда нужно доказать, что 58> А, если индексами сверху отмечаются величины, относящиеся к решениям А и В соответственно. Так как решение В было получено как улучшение решения А, то  м N ину миа У рии, #=1,2,...,М. (4.5) j=! /=!1 60 
Пусть В м В.А A “ A A = 4; +> Py 87 — Us у Ри о, ’ (4.6) j=! j=!  так что 1; =0. Значение Y; paBHO приращению величины критерия в #-м состоянии, которое получается в результате выполнения процедуры улучшения решения. Используя уравнение (4.1), для каждого из решений Аи В имеем  & Вор =; {Уи о, ix=1,2,...,N, (4.7) я  =! ии -е+у pave, i=1,2,...,N. (4.8) j=l  Вычитание нижнего уравнения из верхнего дает  = —9:-- м 8.8 ~ A A у. Py 9, — № Pi 7, . (4.9) - f= j=1 Если определить 4; —4/ из равенства (4.6) и подста- вить найденное выражение в уравнение (4.9), то получим  ааа фи =: — у ру и  +y Pi; ofS a of ; “Sa vr  ИЛИ  м еле я-и-иНУр 9) (4.10)  Пусть g =" — аи у =v) —v? . Тогда уравнения (4.10) принимают вид  N ина: НУ wy of. i=l, 2,...,N. (4.11) j=l  Уравнения (4.11) по форме совпадают с уравнения- ми (4.1) с той лишь разницей, что первые написаны  6! 
относительно разностей, а не абсолютных величин прни-  былей и весов. Точно так же, как прибыль #, полученная из уравнений (4.1), была равна  8 — у 1:5,  величину 2“, являющуюся решением уравнений (4.11), можно представить в виде  N “=у Yi, (4.12) ix|  где п? — предельная вероятность состояния # при реше- нии В. Так как все т, > В-Ои все > >0, то &">0. В частно-  сти, д° будет больше, чем g’, если для какого-нибудь возвратного при решении В состояния может быть полу- чено увеличение критерия.  Из уравнения (4.12) видно, что приращение прибы- ли при переходе к новому решению равно сумме ее при- ращений, обусловленных улучшениями в каждом воз- вратном при этом решении состоянии. Даже если улуч- шить решение только в одном состоянии и оставить другие решения неизменными, прибыль системы воз- растает, если это состояние является возвратным при новом решении. Теперь покажем, что если лучшее решение сущест- вует, то при помощи итерационного цикла оно обяза- тельно будет найдено. Предположим, что для двух решений Аи В 28 > д, но последовательное использование процедуры улучшения решения приводит к решению А. Тогда во всех состояни- ях 1;=<0, где 1; определяется равенством (4.6). Так как <; >0 для всех {, то уравнение (4.12) показывает, что  2 — в < 0. Но по предположению g°> а“, так что по- лучается противоречие. Таким образом, невозможно, чтобы лучшее решение осталось нераскрытым. В главе 5 будут представлены дальнейшие примеры применения итерационного метода, которые покажут, как он может быть использован в различных задачах.  62 
ГЛАВА 5  ПРИМЕНЕНИЕ ИТЕРАЦИОННОГО МЕТОДА К ЗАДАЧАМ ВОДИТЕЛЯ ТАКСИ И О ЗАМЕНЕ АВТОМОБИЛЯ  ЗАДАЧИ ВОДИТЕЛЯ ТАКСИ  Рассмотрим задачу водителя такси, район деятель- ности которого охватывает три города А, В и С. Если водитель находится в городе А, то у него имеются трн возможности: 1) курсировать в надежде поймать случайного пас- сажира; 2) поехать на ближайшую стоянку такси и ждать в очереди; 3) одеть наушники и ждать вызова по радно. Если водитель находится в городе С, то он имеет те же три возможности. Однако в городе В последняя возможность отпадает, так как здесь нет радиообслу- живания автомобилей. Для данного города и данной стратегии (возмож- ности) задаются вероятности того, что следующий рейс будет совершен в каждый из городов А, В и Си назна- чается соответствующий доход в денежных единицах, связанный с каждым таким рейсом. Этот доход пред- ставляет собой заработок от рейса за вычетом всех необходимых затрат. Например, в случае стратегий Ги 2 при определении доходов должны быть учтены стоимости курсирования или проезда до ближайшей стоянки. Вероятности переходов и доходы зависят от стратегии, потому что при каждой стратегии водитель будет сталкиваться с различной плотностью распре- деления клиентов.  63 
Пусть пребыванию в городах А, В и С соответст- вуют состояния 1, 2 и 3 системы. Тогда данные задачи водителя такси можно свести в табл. 5.1.  Таблица 5.1  Данные задачи водителя такси  ~ oe Непосредственно : : вероятность ph Доход г # ожидаемый доход 2 a =] 2 3 i=! 23 oF a |/ У РИ! ti о о 1 1 1/2 1/4 1/4 7 10 48 8 2 1/16 3/4 3/16 824 2,75 3 1/4 1/8 56 | 4 6 4 4,25 2 1 1/2 0 1/2 | 14 0 18 16 2 1/16 7/8 1/16 | 8 168 15 3 ! 1/4 1/4 1/2 | 1028 7 2 1/8 3/4 1/8 6 4 2 4 3 3/4 1/16 3/16 | 40 8 4,5  Доход измеряется в`некоторых произвольных денеж- ных единицах; числа, внесенные в таблицу, подбира- ются только лишь с целью облегчения вычислений, а не из каких-либо иных соображений. Чтобы начать процесс построения решений, положим И: =02=13=0, так что процедура улучшения решения приводит к выбору в качестве начального решение, которое максимизирует непосредственно ожидаемый  k доход. Сравнение величин 4$, при различных А пока-  зывает, что это решение должно определяться выбором первой стратегии в каждом состоянии. Другими сло- вами, вектор-решение, {-й компонентой которого явля- ется решение в {-м состоянии, равно  1 d=j 1], 1  т. е. в каждом городе водитель должен «ловить» слу- чайного пассажира.  64 
Вероятности переходов и непосредственно ожидае- мые доходы, соответствующие этому решению, имеют вид  т] т Р=| 90|, 9—| 16 tia 7 442 |  Переходя к процедуре определения весов, решаем си- стему уравнений  goes tS pies i=1,2,...,N, которая в нашем лучае записывается в виде: вии Ни, + о, Е о, =16- о, 00,5 в, g+u,=744 ut pats Us. Положив, например, о, =0 получаем  и, —=1,33, и, =7,47, 9, =0, в =9,2.  Придерживаясь первой возможности в каждом городе, водитель будет получать в среднем 9,2 единицы дохода за рейс. _ Возвращаясь к процедуре улучшения решения, вы- числим величины  М «НУ ро; |=  для всех Ёи А (табл. 5.2). Заметим, что при #=1| величина в правом столбце принимает максимальное значение, если №=1. Для i=2 или 3 она становится максимальной, когда А=2. Други- ми словами, нашим новым решением является  1 9—1 2 2 5—1029 65 
Таблица 5.2  Первое улучшение решения в задаче водителя такси  Критернй  м Состояние & | Стратегия Ё of +У pho, j=  10,53 8,43 5,52 16,67 21 62  9,20 9,77 5,97  Whom Mm Whe  Это означает, что если водитель находится в горо- де А, ему следует ловить случайного пассажира в го- родах же В или С, он должен отправиться на ближаяй- шую стоянку.  Теперь имеем  | 2 4 4 8 1 7 1 Р=| в з ig |: — 15 1. 134 ¢ 8 4 8  -_ —  Возвращаясь к процедуре определения весов, решаем уравнения:  g+o,=8+49,+4%4+ 7 U5, gtu.=15+ Gate 16 g+o=44+74+4+4 „+= Ug.  При 9, =0 снова получим о, = — 3,88, v, = 12,85, и, =0, в —= 13,15, 
Заметим, что 2 возросло с 9,2 до 13,15 в соответ- ствии с нашим стремлением, так что теперь водитель зарабатывает в среднем 13,15 единицы за рейс. Повто- рение процедуры улучшения решения показано в табл. 5.3. Таблица 5.3  Второе улучшение решения в задаче водителя таксн  Крнтерий  м k Е 4: + Ру)  Состояние Стратегия  9,27 12, 14— 4.89  14.06 26 , 06  9.24 [3,10 2,39  WONm™ N= Ф-ь-  Новым решением, таким образом, является 2 d=] 2 2  Водителю следует отправиться на ближайшую стоянку независимо от того, в каком городе он находится.  При этом решении  , | 3 37Y 16 4 16 2,75 17 1 __ Р=| 16 зв |, 9=| 18 | 1 3 1 4 leas  Обращаясь к процедуре определения весов, найдем: ! 3 3 gu, = 2,79 те Е т: Us,  7 1 оо, =15 Нат 9, 5° 67 
1 3 1 во. =4 Но, аи 8 Us. При о, =0 решением этих уравнений является и, = — 1,18, 9, =12,66, и, =0, в = 13,34,  Заметим, что здесь величина # получила небольшое, но конечное приращение с 13,15 до 13,34. Однако ни- откуда еще не следует, что найдено оптимальное ре- шение. Следующее улучшение решения показано в табл. 5.4.  Таблица 5.4  Третье улучшение решения в задаче водителя такси  Критерий  N А А + р Ру?  Состояние Стратегия i  10,58 12,17 5,54  15,41 24 A2e—  9,87 13 ,34+- 4,41  Onw= юз  Новым решением является  2 d=] 2 |- 2  Так как полученное решение совпадает с преды- дущим, то процесс сошелся и & достигло своего макси- мума, а именно, 13,34. Водителю такси следует отправ- ляться на ближайшую стоянку в любом городе. Исполь- зсвание этого решения даст в среднем 13,34 единицы дохода за рейс. Это почти на половину больше того дохода, который обеспечивает решение, найденное мак- симизацией непосредственно ожидаемого дохода и 68 
состоящее в том, чтобы ловить случайного пассажира в любом городе. Все вычисления сведены в табл. 5.5.  Таблица 5.5 Сводное решение задачи водителя такси UV, 0 1,33 —3 ,88 —1,18 Us 0 7.47 12,85 12,66 0; 0 0 0 0 g — 9,20 13,15 13,34 | Ут |У От \¥O + |У а. I 2 2 2 d, 1 2 2 2  Обозначения У и О таблицы указывают на то, что процедуры выполняются блоками улучшения решений и определения весов. Заметим, что оптимальное решение — всегда отправ- ляться на стоянку — является наихудшим с точки зре- ния непосредственно ожидаемого дохода. Грубо го- воря, это эквивалентно тому, что, если водитель такси намерен вести свои дела лучшим образом, он должен учитывать не только плату за рейс, но также и место назначения рейса, оценивая возможность получения новых заказов. Всякий опытный водитель подтвердит справедливость такого рассуждения. В процессах по- следовательных решений часто случается, что «лучше иметь журавля в небе, чем синицу в руках». Улучшение решения (табл. 5.3) обеспечивает воз- можность проверки уравнения (4.12). В результате это- го улучшения вместо решения А, для которого  1 а=1 21, 2 выбирается решение В, описываемое вектором 2 d=| 2 1. 2  Величины y;, Openengemble уравнением (4.6), мо- гут быть получены из табл. 5.3. Исходя из того, что они  69 
являются разностями величин критериев для каждого из этих решений, находим у, =12,14—9,27=2,87 и у2=уз=0, так как решения в состояниях 9 и 3 совпа- лают для обоих векторов-решений А и В. Решение уравнений `(1.5) и (1.6) с матрицей вероят- ностей переходов для вектор-решения В приводит к следующим предельным вероятностям:  ®, = 0,0672, =, =0,8571, =,—0,0757, Из уравнения (4.12) находим 5“ — (0,0672) (2,871) =0,19.  Итак, изменение решения с А на В должно привести к увеличению прибыли на 0,19 единицы. Так как =^ = 13,15 и =° = 13,34, To наше утверждение справедливо.  ЗАДАЧА О ЗАМЕНЕ АВТОМОБИЛЯ  Рассмотренные до сих пор примеры применения итерационного метода были несколько далеки от реаль- ных практических проблем. Особенно интересно было бы применить этот метод к задаче, имеющей важное значение для промышленности. В качестве таковой была выбрана задача о замене оборудования, т. е. о том, когда заменять часть основного оборудования, которое изнашивается в процессе эксплуатации. При этом нужно ответить на следующие вопросы. Если в на- стоящее время мы обладаем машиной, уже эксплуати- ровавшейся несколько лет, то держать ли нам ее даль- ше или заменить? Если замена производится, то как покупать новую машину? Для простоты рассмотрим задачу о замене автомо- биля в течение 10-летнего периода его эксплуатации. Условимся осматривать машину каждые три месяца и принимать решения о том, использовать ли ее дальше или произвести замену. Состояние системы { описыва- ется «возрастом» машины в трехмесячных периодах, при этом { пробегает значения от 1 до 40. Чтобы сохра- нить число состояний конечным, машине, проработав- шей больше 40 периодов, приписывается «возраст» 40 (считается, что она основательно изношена). В каждом состоянии допускаются следующие стратегии. Первая (&=1) состоит в том, чтобы эксплуатировать машину  70 
до следующего осмотра. Другие (>1} предполагают приобретение машины в возрасте kR—2, rae А—2 может быть не больше 39. Таким образом, задача описыва- ется 40 состояниями и 41 стратегией в каждом состоя- нии, что приводит к существованию 4140 возможных ре- шений.  Задаются следующие величины: С; — покупная цена машины возраста # Г; — выручка от продажи машины возраста 1; Е; — расходы, связанные с эксллуатацией машины воз- раста Е в течение одного периода; р; — вероятность того, что машина возраста $ „выживет® до возраста #1, не проходя капитального ремонта.  Набор указанных вероятностей ограничен числом состояний. В случае безнадежной поломки машине лю- бого возраста немедленно приписывается состояние 40. Естественно, р4,=0. Система, находящаяся в состоянии i, описывается следующими уравнениями. Для А-=1 (продолжать эксплуатировать машину)  аи = — ВР рю t+ (1 — pi) Ce. Если К`>1 (заменить машинной возраста Е — 2), то 20 T; — Cr_, — Eng t+ Рь-а9к-,-Н (1 — Pr-s) О.  Перепишем эти уравнения в наших прежних обозначе- ниях. Положим  q;=— E; для Е=1, Ч =Т, — Сь_, — Бь., для k >  | pi i=it+l Py = l1—p; j=40 для Е =1, | 0 для других ] Ph-s j=k—-1 Pi 1— Pr. j=40 для #`> 1.  0 для других jf  Числовые значения, использованные в задаче, сведены в табл. 5.6 и изображены графически на рис. 5.1. Разрывы в функциях покупной цены и выручки в про- дажи иллюстрируют характерные годовые изменения.  71 
Таблица 5.6  Данные задачи о замене автомобиля  oe о = ~ о | о Е | Е Ба | Eo | £ | 524 | 28 be | go | BX | Soa] ea во > > & ca в 5 Lo зо > > я Е ы a о a os =“ ac |osq | ax aa x со coq | ak az | es | де |558 |825 || 28 | 29 | af [S52 | dae 0 2000; 1600; 50 |1,0001 21 345 | 240 115 | 0,925 1 1 840{ 1 460 53 | 0,999 22 330 225 118 | 0,919 2 1680; 1340} 56 [0,998]; 23 315 | 210 121 | 0,910 3 1560) 1230) 59 10,9971 24 300 | 200 125 | 0,900 4 1300] 1050; 62 10,996] 25 290 190 | 129 | 0,890 5 1220 980| 65 |0,994|] 26 280 180 | 133 | 0,880 6 1150 910 68 |0,991 27 265 170 137 | 0,865 7 1080| 840| 71 |0,988| 28 250 160 | 141 | 0,850 8 900 710 75 10,985 29 240 150 145 | 0,820 9 840 650 78 | 0,983 30 230 145 150 | 0,790 10 780; 600| 81 10,9801 31 220 140 155 | 0,760 11 730 550| 84 |0,975 32 210 135 160 | 0,730 12 600; 480; 87 | 0,970 33 200 130 167 | 0,660 13 560! 430/ 90 |0,965 34 190 120 175 | 0,590 14 520 390 93 | 0,960 35 180 115 182 | 0,510 15 480 360 96 |0,955 36 170 110 190 | 0,430 16 440; 330; 100 | 0,950 37 160 105 | 205 | 0,300 17 420| 310| 103 10,945 38 150 95 | 220 | 0,200 18 400 290| 106 |0,940 39 140 87 235 | 0,100 19 380 270) 109 | 0,935 40 130 80 250 10 20 360| 255| 112 [0,930  Задача о замене автомобиля была решена итера- ционным методом за семь итераций. Решения, прибыли и веса, полученные для каждой итерации, приведены в табл. 5.7. Оптимальное решение, полученное на седьмой итерации, показывает, что если возраст маши- ны больше 0,5 года, но меньше 6,5 лет, то следует про- должать ее эксплуатировать. Машину же любого дру- гого возраста нужно заменить автомобилем 3-летнего возраста. Кажется, это полностью соответствует наблюдениям над поведением владельцев машин. Заметим, что обла- дателю машины, возраст которой составляет 3 или 6 ме- сяцев, следует заменить ее автомобилем 3-летнего воз- раста. Машину же возраста между 6 месяцами и 6,5 годами следует продолжать — эксплуатировать дальше.  72 
Результаты решения задачи о замене автомобиля  Таблица 5.7  Итерация 1 Итерация 2? | Итерация 3 | Итерация 4 | Итерация 5 Итерация 6 ры 180.95 Прибыль: Прибыль: Прибыль: Прибыль: Прибыль: Прибыль: Состояние | 950,00 —193,89 —162, 44 —157,07 —151 ,05 —150,39 Решенне. Вес | Решение. Вес | Решение. Вес | Решение. Вес | Решение. Вес | Решение. Вес реше Вес. Абсолютный 1 36 1374 | 20 1380 | 19 1380] 12 1380 | 12 1380 | 12 1380 | 12 1 380 1 460 2 36 1254]20 1260 | 19 1260 | 12 1260] 12 1260 | 12 1260 | 12 1 260 1 340 3 36 1144 | 20 1150 | 19 1150 | 12 1150 | 12 1150 | 12 1150 | К 1 161 1241 4 36 964 | 20 970 | К 1037 | 12 970 | К 1003 | К 1072 | К 1072 1152 5 36 894 | 20 900 | К 940 | 12 900 | К 917 | К 987 | К 987 1067 6 36 824 | 20 830 | К 848 | 12 830 | К 836 | К 907 | К 906 986 7 36 754 | 20 760 | 19 760 | 12 760 | 12 760 | К 831 | К 831 911 8 36 624 | 20 630 | К 696 | 12 630 | К 761 | К 760 | К 760 840 9 36 564 | 20 570 | К 617 | 12 570 | К 695 | К 695 | К 695 775 10 36 514 | 20 520 | К 542 | 12 520 | К 633 | К 633 | К 632 712 Il 36 464 | 20 470 | 19 470 | 12 470 | K 574 | К 574 | К 574 654 12 36 394 | 20 400 | 19 400 | К 520 | K 520 | K 520 | K 520 600 13 36 344 | 20 300 | K 575 | K 464 | К 470 | К 470 | К 470 550 14 36 304 | 20 310 | К 521 | К 411 | К 4241 К 424 | К 424 504 15 36 274 | 20 280 | К 470 | К 362 | К 381 | К 381 | К 381 461 16 36 244 | 20 250 | К 423 | К 315 | К 341 | К 342 | К 342 422 17 36 224 | 20 230 | К 380 | K 271 | К 306 | К 306 | К 306 386 18 36 204 | 20 210 | К 338 | К 230 | К 273 | К 273 | К 273 353 19 36 184 | 20 190 | K 300 | 12 190 | К 242 | К 243 | K 243 323 20 36 169 | К 280 | К 264 | 12 175 | К 214 | К 214 | К 215 295 
Продолжение табл. 5.7  “ee 1 ee 2 ера 3 staal 4 | Игерация 5 ee 6 рб 180.05 ибыль: ибы ль: : . : . Состояние | $5, 193,89 162,44 О | ое о Решение. Вес | Решение. Вес | Решение. Вес | Решение. Вес | Решение. Вес | Решение. Вес реше- Вес. Абсолю тный 21 К 876 | К 213 | К 229 | 12 160 | K 188 | K 189 | K 189 269 22 K 801 | 20 145 | К 197 | 12 145 | К 164 | К 165 | К 166 246 23 К 728 | 20 130 | К 166 | 12 130 | K 143 | К 1441 К 144 224 24 К 658 | 20 120 | К 136 | 12 120 | К 1241 К 125 | К 126 206 25 К 592 | 20 110 | 19 110 | 12 110 | K 109 | 12 1101 К 111 191 26 K 530 | 20 100 | 19 100 | 12 100 | K 97 | 12 100 | 12 100 180 27 K 469 | 20 90 | 19 90 | 12 90 | 12 99 | 12 90 | 12 90 170 28 K 412 | 20 80 | 19 80 | 12 80 | 12 80 | 12 80 | 12 80 160 29 K 356 | 20 70 | 19 70 | 12 70 | 12 70 | 12 ТО | 12 70 150 30 К 306 | 20 65 | 19 65 | 12 65 | 12 65 | [2 65 | 12 65 145 31 К 261 | 20 60 | 19 60 | 12 60 | 12 60 | 12 60 | 12 60 140 32 К 218 | 20 55 | 19 55 | 12 55 | 12 55 | 12 55 | 12 55 135 33 К 176 | 20 50 | 19 50 | 12 50 | 12 50 | 12 50 | 12 50 130 34 К 140 | 20 40 | 19 40 | 12 40 | 12 40 | 12 40 | 12 40 120 35 К 111 | 20 35 | 19 35 | 12 35 | 12 35 | 12 35 | 12 35 115 36 К 84 | 20 30 | 19 30 | 12 30 | 12 30 | 12 30 | 12 30 110 37 K 55 | 20 25 | 19 25 | 12 25 | 12 25 | 12 25 | 12 25 105 38 К 33 | 20 15 | 19 15 | 12 15 | 12 15 | 12 15 | 12 15 95 39 К 15 | 20 7119 7 | 12 71| 12 7 | 12 7 | 12 7 87 40 K 0 | 20 0119 0 | 12 0] 12 0 | 12 0112 0 80  Примечание. Число в столбце решений обозначает возраст (в пернодах} машины, на которую следует производить обмен; К —означает, что надо оставить настоящую машину. Веса н прибылн выражены в долларах. Абсолютные веса вычислены  путем добавления 80 долл. —цены машины, годной лишь на металлолом, к каждому из весов на 7-Й итерации. 
в год. График стоимости эксплуатации в зависимости от числа итераций показан на рис. 5.2. Прибыль почти экспоненциально приближается к своему оптималь- ному значению. Заметим, что изменение прибыли за последние три итерации является столь незначитель- ным, что практически соответствующие решения могут рассматриваться как равные. Тот факт, что машина с 3- летним пробегом является наилучшей покупкой, рас- крывается уже на 4-й итерации. Годовые разрывы фун- кций покупной цены и выручки от продажи в течение первых трех лет, без сомнения, влияют на вычисления, приводя к этому выводу. Описанная в этом разделе задача является типич- ным примером большого класса проблем, возникающих в промышленности. Применение итерационного метода в подобных ситуациях требует только глубокого пони- мания их особенностей и некоторой предусмотритель- ности в выборе допустимых формулировок. 
ГЛАВА 6  ИТЕРАЦИОННЫЙ МЕТОД ДЛЯ ПРОЦЕССОВ С НЕСКОЛЬКИМИ ЭРГОДИЧЕСКИМИ КЛАССАМИ  В гл. 4 предполагалось, что для всех возможных ре- шений система была эргодичной. Эргодичность означа- ет, что каждое решение определяет марковский про- цесс с единственным эргодическим классом и, следова- тельно, с общей для всех состояний прибылью. Наша задача просто состояла в отыскании решения, которое имеет наибольшую прибыль. Эта цель была достигнута с помощью итерационного метода, рассмотренного в гл. 4, который оказывается удовлетворительным для большинства задач, так как обычно задачу можно сфор- мулировать таким образом, чтобы все ее решения при- водили к эргодическим процессам. Именно так обстояло дело в примерах гл. 5. Нетрудно, однако, представить себе процесс, кото- рый имеет несколько эргодических классов. В гл. 1 рассматривался процесс с тремя состояниями, описы- ваемый матрицей вероятностей переходов  100 Р—=| 0!  wa 3 3  o— ©  который имел два эргодических класса. Предположим, что вектор непосредственно ожидаемых доходов, выраженных ]  в долларах, для этого процесса имеет вид 94=—| 2 |. Не-  3 78 
трудно видеть, что матрица, составленная из векторов предельных вероятностей для этого процесса, равна  100 $— у ' 0 zz? 1 Вектор прибылей # —=$49 =] 2 | интерпретируется сле- | 1,5  дующим образом. Если бы процесс начинался из со- стояния 1, он приносил бы доход в | долл. за пере- ход. Если бы начальным было состояние 2, то доход со- ставил бы 2 долл. за переход. Наконец, так как отправляясь из состояния 3 система с равными веро- ятностями попадет после большого числа переходов в состояние 1 или 2, то при выходе из этого состояния ожидаемый заработок составит в среднем 1,5 долл. за переход. Указанное усреднение производится по не- скольким независимым испытаниям, начинающимся из состояния 3, так как в любом данном испытании в кон- це концов будет заработано или 1, или 2 долл. за переход. Прибыль системы зависит, таким образом, от ее начального состояния. Поэтому можно считать, что прибыль #; будет функцией не только процесса, но и ИСХОДНОГО COCTOAHHA {. Наша новая цель — найти решение, которое макси- мизирует прибыль для всех состояний системы. На наше счастье, рассмотренный в гл. 4 итерационный метод может быть распространен на случай процессов с не- сколькими эргодическими классами. Приступим теперь к этому обобщению.  ОПРЕДЕЛЕНИЕ ВЕСОВ  Уравнения (2.15) характеризуют асимптотическое по- ведение полного ожидаемого дохода системы, если она отправляется из состояния # и совершает большое число переходов  о: (п) = па: и: i=1,2,... „М. (2.15) 79 
Каждому исходному состоянию соответствует своя собственная прибыль &;, но, как было показано в гл. 2, всем состояниям, принадлежащим одному и тому же эргодическому классу, соответствует одна и та же при- быль. Если мы условимся изучать процессы бесконеч- ной длительности, то уравнения (2.15) наряду с основ- ными рекуррентными соотношениями для полных ожидае- мых доходов  N оп 1 =9:-Н У, рыо,; (п) 1=1,2,...,М (6.1) j=l  могут быть использованы для получения уравнений N  (2-+1) gi tu=aty Bis (22; -+05) =1  j=  N N neiteietou=gatry pigsty Pij;%j- (6.2) j=!  j=l  Так как уравнения (6.2) должны удовлетворяться для любых сколь угодно больших п, то  м 8: =, Рё» #=1,2,...,М (6.3) j=!  N Gi tu=GatY Pi), i=1,2,...,N. (6.4) j=  Имеем, стало быть, две системы линейных уравне- ний, каждая порядка №, которые могут быть использо- вапы для определения № величин &; и № величин +. Однако уравнения (6.3) не могут быть решены одно- значно относительно &;. Определитель матрицы [1— Р] равен нулю, так что величины #;, полученные из урав- нений (6.3), будут содержать произвольные постоянные. Число произвольных постоянных равно числу эргодиче- ских классов в процессе! Уравнения (6.3), в част-  ' Этот факт вытекает из следующей теоремы: для того чтобы матрицу Р можно было разложить и привести к нормальному виду с 2 изолированными днагональными полями, необходимо и достаточ- но, чтобы она имела корень №=1 кратности L [15]. (Прим. ред.).  80 
ности, связывают прибыль в каждом состоянии с прн- былью соответствующего эргодического класса. Напри- мер, в процессе с Г. эргодическими классами найдется Ё независимых прибылей. Прибыли всех невозвратных состояний могут быть сведены при помощи уравне- ний (6.3) к Г независимым прибылям и, следо- вательно, определяются, как только последние будут найдены. Система из М№ уравнений (6.4) должна быть теперь использована для определения Г, независимых прибы- лей, а также всех М№ весов 9;. Таким образом, имеем на Ё неизвестных больше, чем уравнений. Предполо- жим, однако, что наша предыдущая процедура распро- странена на случай нескольких эргодических классов. Приравняем тогда нулю по одному из весов в каж- дом эргодическом классе, так что всего равными нулю окажутся Ё весов. Вообще говоря, будем приравнивать нулю веса 9; для состояния с наибольшим номером в каждом классе. Итак, мы нашли, что уравнения (6.4) могут решаться относительно Ё независимых прибылей и оставшихся №М—Ё весов у:. Веса и;, определяемые из уравнений (6.4), также могут быть названы относительными, если помнить, что они являются относительными внутри каждого класса. Трудности решения уравнений (6.3) и (6.4) приблизи- тельно те же самые, что и нахождения матрицы предельных вероятностей $ для процесса с несколькими эргодическими классами. Мы увидим, однако, что для отыскания оптимального решения относительные веса и; так же пригодны, как и точные предельные веса Uz, определяемые уравнениями (2.15). Чтобы проиллюстрировать эти замечания, найдем прибыли и относительные веса для процесса с двумя эргодическими классами, рассмотренного в начале это- го раздела. Уравнения (6.3) примут вид  I 1 I 81 — 81, 8:— 8», =ча за: Ёз 8з-  Таким образом, существуют две независимые прибыли 8, и 2,. Прибыль в состоянии 3 выражается через при-  были &, и в, в виде = Bats g,. Ecan бы мы наш-  JH g, H g,, Мы знали бы прибыль каждого состояния. 6—1029 81 
OQG6o3HauHM uepe3 'g, *g,... прибыли первого, второ- го и т. д. эргодических классов и выразим затем прибыли каждого состояния через эти символы. Эта запись бес- смысленна до тех пор, пока не указано, какому классу принадлежит каждое состояние. Для нашей задачи &, —=  I ] 8, Ва" и = ЕН о В. Уравнения (6.4) дают  а. 9, =1 +9, а.о. =2-но,, 9, =3- ото, за.  Если выразить теперь д, через &, ид, и затем прирав- нять нулю по одному относительному значению из каж- дого эргодического класса, так что 9, ==0,==0, то полу-  1 1 1 чим &,=1, g,=2, а а =3З4з 9..  Решением этой системы уравнений является &, —=1, 6: =2 ии, =2,25, так что значения  g,=1, g,=2, g,—1,9, 0, —=0, и, —=0, и, =2,25  являются прибылями и относительными весами соот- ветствующих состояний этого процесса. Прибыли, ко- нечно, те же самые, которые были получены раньше.  УЛУЧШЕНИЕ РЕШЕНИЯ  Покажем теперь, как прибыли и относительные веса могут быть использованы для нахождения оптималь- ного решения системы. Применим рассуждения, исполь- зованные в гл. 4. Если известно поведение вплоть до п-го шага, то лучшее решение в состоянии # на п-+1-м шаге можно найти, максимизируя выражение  м 9; + у, Г (п) (4.2) j=  по всем стратегиям в состоянии {. 82 
Для болыших 72’, подставив соотношение (2.15) в вы- ражение (4.2) в качестве критерия максимизации, получим  N «НУ рипа; о) |  N N ny Di, 8i +9; +¥ Ри. (6,5)  Очевидно, если п велико, то выражение (6.5) дости- гает наибольшего значения на стратегии, максимизи- рующей первое слагаемое  ok у, Pi; 83» j=l  которое назовем основным критерием. Основной крите- рий выражается через прибыли предыдущего решения. Если, однако, все стратегии дают одно и то же значение этому выражению или если его значения максимальны для нескольких стратегий одновременно, то выбор ка- кой-либо из этих. стратегий осуществляется путем мак- симизации дополнительного критерия  м - у, Руб», j=l  использующего относительные веса предшествующего решения. Относительные веса могут быть использованы в выражении для критерия, так как на него, как мы скоро увидим, не влияет прибавление к весам некоторой константы, общей для всех состояний одного и того же эргодического класса. Общий итерационный цикл показан на рис. 6.1. За- метим, что он сводится к знакомому нам итерационному циклу (рис. 4.2) для эргодических процессов. Рассмот- рим теперь пример © более чем одним эргодическим классом, сопровождая его необходимыми доказатель- ствами оптимальности.  ' См. сноску на стр. 55. (Прим. перев.) 6* 83 
——>  84  Оценка решения  Используя р:; и 9: для конкретного решения, найти прибыли в; и относительные веса о; из системы уравнений  N a=) Pij8 js $ =1, 2,...,М {>}  N ~ о; +в: =+ У, Pij03, i=1,2,...,N, j=) положив по одному из значений и; в каждом эргоди- ческом классе равным нулю.  Улучшение решения  Для каждого состояния $, используя прибыли процесса для предыдущего решения, определить стратегию Ё максимизируюшую основной критерий  N у. Pi 8s. j=l  и принять ее за решение в {-м состоянии. Если значе- ния основного критерия одни н те же для всех стра- тегий, или, ссли несколько стратегий одновременно максимизнруют его, то, используя относительные веса и; состояний для предыдущего решения, найти стра- тегию #, максимизирующую дополнительный критерий N  j=! и принять ее за новое решение в {-м состоянии. Независимо от того, будет ли при улучшении ре- шения использован основной или дополнительный кри- терии, если старое решение в {-м состоянии приносит величине критерия столь же большое значение, как и любая другая стратегия, необходимо оставить ста- рое решение неизменным. Это правило обеспечивает сходимость в случае эквивалентных решений. Когда эта процедура будет повторена для всех состояний, будет определено новое вектор-решение и получены новые матрица [р;;] и вектор [9;]. Если новое решение совпадает со старым, итерационный процесс сошелся и наилучшее решение найдено, в противном случае нужно перейтн к оценке решения.  Рис. 6.1. Общий итерационный цикл для процессов по- следовательных решений с дискретным временем. 
ПРИМЕР ПРОЦЕССА С НЕСКОЛЬКИМИ ЭРГОДИЧЕСКИМИ КЛАССАМИ  Найдем оптимальное решение для системы с тремя состояниями, вероятности переходов и доходы которой показаны в табл. 6.1. Ради упрощения вычислений и для того, чтобы показать, что такая структура не вызывает никаких затруднений, все вероятности переходов по- ложены равными либо 0, либо |1. В этой системе воз- можны решения, приводящие к процессам с несколь- кими эргодическими классами.  Таблица 6.1 Пример процесса с несколькими эргодическими классами Ве POATHOCTH Henoc ред- Состоянне Стратегия ственно ожн- d k k k ь | даемый доход Pit 212 | Pi3 ar 1 1 1 0 0 1 2 0 1 0 2 3 0 0 l 3 2 1 ] 0 0 6 2 0 1 0 4 3 о] о 1 5 3 l 1 0 0 8 2 0 1 0 9 3 0 0 1 7  Начнем с решения, которое максимизирует непос- редственно ожидаемый доход. Это решение составляет- ся из третьей стратегии в первом состоянии, а также первой и второй стратегией во втором и третьем состоя- ниях соответственно  3 001 3 а=|11|, Р=|100|, 9=| 6 2 010 9  Перейдем теперь к оценке решения. Уравнения (6.3) принимают вид  8: —&,, 8.--—&,, 8: — 8.. 85 
Они показывают, что существует голько один эргоди- ческий класс, включающий все три состояния!. Если обозначить прибыль этого класса через &, то &1=82= ==. Если использовать эти результаты при напи- сании уравнений (6.4), положив, например, относитель- ный вес уз равным нулю, то получаются следующие соотношения:  а-Н о, =3, ао, =6-Но,, g=9-+y,.  Их решением является &—==6, 0, —=0, —= —3, так что 8. =6, 8, —6, в, —6 9. = — 3, 9, = — 3, 9, =0.  Теперь можно искать улучшение решения, как показано в табл. 6.2.  Таблица 6.2  Первое улучшение решения для процесса с несколькими эргодическими классами  Основной Дополнительный критернй крнтернй Состояние Ст ратегия N N У 28] of + vie; j=1 j=l 1 1 6 1 + (—3) = —2 9 6 2 + (—3) =—1 3 6 3+ 0 =3e 2 6 6+ (—3)=3 2 6 44+ (—3)=1 3 6 5+0 == 54 3 | 6 8- (—3) =5 2 6 9+ (—3) =6 3 6 7+0 =7<-  ' Последнее следует также из анализа самой матрицы Р или ее характернстических чисел. Действительно, из уравнения [М—Р|=0 имеем А2— 1-0, т. е. данная цепь Маркова яв- ляется ациклической (или возвратной в терминологии автора) порядка 3 [15]. (Г/рим. ред.)  86 
Так как проверка основного критерия вызывает сом- нения, во всех случаях необходима проверка допол- нительного критерия. Новым решением является  3 001 3 d=! 3 », P= 001 , q=! 95 |. 3 001 7  Найденное решение должно быть оценено. Уравнения (6.3) дают  5—8, 6: —&, Ba 8».  Можно положить р, = 4, =. ==а. Тогда, приравнивая у, нулю, из уравнения (6.4) получим  а-я =3, g+o,=9, gi,  Решением этой CHCTeMBE ABIAeTCA g==/, v,=—4, 0,= ==— 2, TaK что  g,=7, в: =7, з=7  о, —=—4, ,=— 2, 9, =0. Процедура улучшения решения представлена в табл. 6.3.  Таблица 6.3  Второе улучшение решения для процесса с несколькими эргодическими классами  Основной Дополнительный KpHTe pu критерий Состояние Стратегия N N > 78: of + > Pf oy j=l j=l | | 7 —3 2 7 0 3 7 3+- 2 1 7 2 2 7 2 3 7 5H 3 1 7 4 2 7 7 3 7 Te  87 
Так как опять проверка основного критерия не дала определенных результатов, необходимо обратиться к дополнительному критерию. В состоянии 3 стратегии 2 и 3 неразличимы и по дополнительному критерию. Однако, так как стратегия 3 была нашим прежним ре- шением, она должна оставаться и нашим новым реше- нием. Таким образом, получаем то же самое решение, что и на предыдущей итерации. Следовательно, оно должно быть оптимальным. Оптимальное решение обес- печивает прибыль в 7 единиц во всех состояниях. Ре-  3 шение d=] 3 |, KoTropoe было возможно вследствие ра-  2  венства величин дополнительного критерия для страте- гий 2 и 3 в состоянии 3, также является оптимальным. Хотя для этой системы было возможно поведение, свойственное процессам с несколькими эргодическими классами, оно не наблюдалось, если в качестве началь- ного выбиралось решение, максимизирующее непосред- ственно ожидаемый доход. Тем не менее при другом выборе начального решения такое поведение может возникнуть.  Примем в качестве начального следующее решение:  3 001° 3 d=] 2 , P= 0107, q= 4 1 100 8  Чтобы оценить это решение, воспользовавшись уравне- ниями (6.3), получим  &, —&:, &:— 8, 8: = 8,.  Существуют два эргодических класса. Первый класс состоит из состояний 1 и 3, второй класс из одного со-  стояния 2. Следовательно, &, = 6, ='а, 8. =%9 и можно положить 9, =9,==0. Уравнения (6.4) примут тогда вид  ‘g++, =3, *g—4, 'g—8+9,. 
1 Решением этих уравнений является в=5. 8х —4,  0, = —2. Итак,  1 11 8—0, &, =4, E>  ,=—5, и, =0, и, = 0.  В табл. 6.4 показано улучшение решения. Таблица 6.4  Улучшение решения путем изменения структуры процесса с несколькими эргодическиии классами  Основной Дополннтельный критерий критерий Состояние Стратегия N N > ii op + SP j=! = | | п _3 2 2 2 4 2 fl 11 7 2 2 2 2 4 4 11 3 9 5 11 I! 3 1 > > 2 4 9 И 3 о 7  Улучшение решения в этом случае достигается с по- мощью проверки как основного, так и дополнительного критерия. Проверка основного критерия приводит к двум стратегиям в каждом состоянии, а проверка до-  89 
полнительного решает, какую из Этих стратегий при- нять за новое решение. ‚Полученное решение является оптимальным, что мы обнаружили раньше. Таким об- разом, нет необходимости продолжать процедуру, так  как в противном случае мы повторили бы наши преды- дущие вычисления.  В предыдущем примере мы начали с решения, котсрое приводит к процессу с двумя эргодическими классамя и закончили оптимальным решением, обеспечивающим эрго- дичность процесса. Для того чтобы увидеть, как изме- няется структура процессов при получении оптимальюого решения с прибылью в 7 единиц для каждого состоявия, читателю следовало бы провести вычисления, начиная  1 1 с таких решений, как 9—1 2 | и 9=| 1 |. Заметим, 3 1  что ни в одном из случаев нет необходимости использо- вать истинные предельные веса 0;. Относительные веса столь же пригодны для целей улучшения решения.  ОБОСНОВАНИЕ ИТЕРАЦИОННОГО МЕТОДА  Покажем теперь, что итерационный цикл (рис. 6.1) будет приводить к решению, которое обеспечивает большую прибыль в каждом состоянии; чем любое дру- гое решение. Предположим, что решение А оценено, так что его прибыли и веса известны. Используя их, при помощи процедуры улучшения решения полуким новое решение В. Нужно найти соотношение между ре- шениями А и В. Если в состоянии # решение принимается по основ- ному критерию, то мы знаем, что  о РЕ, >) Dey  j=!  где индексы 4 и В сверху используются для c6o- значення величин, относящихся к каждому решению. В частности, можно определить  =y рев, — у Pushy» (5.6)  jal =1 
причем величина ф; больше нуля или равна ему в за- висимости от того, принимается ли решение в состоя- нии т по основному или дополнительному критерию соответственно. Если она равна нулю, т. е. решение принимается по пополнительному критерию, то  q; ya 0,29, +E rh j°  Если положить  — 8, +y УР, 9—4, "у pi? ” (6.7) i=l то у; =0. Если как be так и у; равны 0, то решения А и В эквивалентны, постольку величины их критериев в состоянии # совпадают. В таком случае мы обычно принимаем в качестве решения в состоянии # стратегию, связанную с решением А. Теперь можно написать уравнения оценки обоих решений 4 и В в соответствии с уравнениями „(6.3) 1 (6.4). Для решения А имеем  У ри, 11, 2,... М, (6.8) 1=1  Е, 1, =9, “LY pho’ 0, 1—1, 2,... М. (6.9)  j=!  Для решения В соответствующими соотношениями яв- ляются:  Уи, i =l, 2,..., М, (6.10) «0, =. ори 08, 1—1, 2,...„ М. (6.11) =]  Вычитание уравнений eo) из уравнений (6.10) приводит к  — gi -у РЕ — у Pf, -  i=! i=) 9! 
Если для исключения члена  y pg;  Ав А использовать уравнения (6.6) и положить &,—=&, —&,, то  ee и 1—1, 2,..., М. (6.12)  Аналогично, вычитая уравнения (6.9) из уравнений (6.11), получим  Но 99-9, ну р урл! i =!]  j=!  Уравнения (6.7) могут быть использованы для исключения  разностей 4. —q, затем, если мы положим о. =, 0 то  а =: Хх vo, i=1, 2,...,N. (6.13)  Мы нашли, таким образом, что изменение в при- былях и весах должны удовлетворять паре систем уравнений [(6.12) и (6.13)]. Уравнения (6.13) совпада- ют © (6.4), если не считать того, что они написаны от- носительно разностей прибылей и весов, а не их абсо- лютных величин, и что д; заменено на у:. Однако урав- нения (6.12) отличаются от уравнений (6.3) членом 1:. Если бы 4; равнялось нулю, то первые находились бы в том же самом соотношении со вторыми, в каком урав- нения (6.13) находятся с уравнениями (6.4). Рас- смотрим подробнее природу уравнений (6.12). Решение В может, конечно, задавать процесс с не- сколькими эргодическими классами. Если этот процесс,  описываемый величинами р, и у ‚ имеет Ё эргодических  классов, то можно образовать Ё групп состояний, обла- дающих следующим свойством: если система отправляется 92 
из состояния одной из этих групп, то она всегда будет оставаться внутри этой группы. Кроме того, возможна еще (2--1)-я группа невозвратных состояний, характерн- зующаяся таким свойством: если система отправляется из любого состояния этой группы, то она, в конце кон- цов, перейдет в один из Ё эргодических классов. Перену-  мировав состояния, можно записать матрицу Р® в виде  "р | oO | | о [о oe Го Го о ИИ ЗОО И ИИ оо п | | “P |; oO “ciip | evap | peeve fev chip  Квадратные „подматрицы“ "Р, @P, ““P apasiotca MatT- рицами переходов для 1, 2,..., Ё-го эргодических клас- сов соответственно; каждая из них является стохастиче- ской. Подматрицы вида "*Р составляются из нулевых L+i, +1 элементов, если г5Ё5$ и г5Ё--1. Подматрица Р представляет собой матрицу вероятностей перехода среди невозвратных состояний. Некоторые элементы подматриц ‘+h sD для $=1, 9,... Ё должны быть положитель- HbIMH. Если мы примем тот же порядок нумерации для ком- понент векторов g’, у”, ф, Ти л, то получим множество векторов, составленных из [--1 „подвекторов“. Этими векторами являются:  4 'g ly ag” 2y4 4 ° 4 g — . ‚ \ — , 4 to Ly Lely L+1,4  93 
tap у | $ a $ — , у — Cp "Y | + | | + q л=—['л, 2л,... см, “л].  Здесь л — вектор вероятностей состояний для процесса с Ё эргодическими классами. Каждый подвектор ’л пред- ставляет собой вектор предельных вероятностей при усло- вии, что система отправляется из некоторого состояния г-го эргодического класса, причем ’л —='л""”Р, а сумма компонент каждого подвектора "x для г=1, 2,..., Г, равна 1. Подвектор “*'л имеет все нулевые компоненты, так как все состояния (Ё--1)-Йй группы являются невоз- вратными. Уравнения (6.12) и (6.13) в векторной форме имеют  ВИД g°'=p+P’¢", (6.14)  g +tv'=7-+ P®v’. (6.15)  Если уравнение (6.14) записать в раздельной форме, то получим  rg rp trePrg® p= 1, 2,..., L (6.16) : L+1_4 L+l ff 1 А Me SY РЯ. (6.17) 5=1  Учитывая структуру процесса, уравнение (6.15) можно переписать в виде  rg bry! a "Е rrpry® | r=I1, 2, 0s; L (6.18)  еее bth speys (6.19) s=l  94 
Предположим, что уравнения (6.16) умножены слева на ’л, так что  гдтр“ = "x" + тд rrpr 5 , Из равенства ’л =="л”"Р следует еду  "дл —= 0. (6.20)  Так как все состояния г-го эргодического класса яв- ляются возвратными, то все элементы подвектора '’х по- ложительны. Выше указывалось, что все ф; болыше или равны нулю. Из уравнения (6.20) можно видеть, что в любой из г групп (г =1,2,..., 2) $; должны быть равны нулю. Из этого следует, что в каждом эргодическом при решении В классе решение в каждом состоянии должно приниматься по дополнительному, а не по основному критерию. Уравнения (6.16) переходят, таким образом, в  п“ —""Р'я". (6.21) Так как решением этих уравнений является равенство "а = 2“ для всех. состояний # г-го эргодического класса, то увеличение прибыли при изменении решения с А на В для всех состояний г-го класса одно и то же. Учитывая этот результат, из уравнений (6.18) найдем  rg gry 1. (6.22)  Таким образом, увеличение прибыли для каждого со- стояния г-й группы равно промзведению вектора предель- ных вероятностей этой группы на вектор приращений ве- личины дополнительного критерия 77 той же группы. Так как для каждой группы с г<Ё 7$, =0, то 7у: 0. Урав- нение (6.22) показывает, что для каждого возвратного при решении В состояния произойдет увеличение прибыли, если только решения А и В не эквивалентны.  * Более подробно, это соотношение следует из уравнения (6.18), если умножить последнее слева на *л и воспользоваться двумя равенствами  rx = rxrrP и  gpg". (Прим. ред). 95 
Мы должны еще установить, будут ли возрастать при- были невозвратных относительно решения В состояний. Уравнения (6.17) показывают, что  (+ _ f+, г+1р)/+1 g=y ty раз, (6.23)  $=1  где “+'[ есть единичная матрица того же порядка, что и число невозвратных состояний 6 1-й группы. Изменение прибыли невозвратных состояний дается таким образом формулой |  L в (Ц Ш, LH py (+++ У "+" "Ра". (6.24)  $=1  В приложении показано, что матрица ( существует и имеет неотрицательные элементы. Мы знаем следующее: все ф; больше или равны нулю, некоторые  элементы матриц +15 для $5=19,..., Ё положитель- ны и среди них нет отрицательных, приращение прибыли для Ё эргодических классов не может быть отрица- тельным. Из этого следует, что приращение прибыли для каждого из невозвратных состояний (Ё-+1)-Й груп- пы не может быть отрицательным и будет положитель- ным, если выполняется одно из двух или сразу оба следующих условия: во-первых, если вероятностное по- ведение некоторого невозвратного состояния изменяет- ся так, что переход в класс с большей прибылью стано- вится более правдоподобным и, во-вторых, если при- были эргодических классов, в которые возможны пере- ходы Из этого состояния, увеличиваются.  Таким образом, установлено, что от итерации к ите- рации прибыль ни одного из состояний не может убывать, а для некоторых — она должна увеличиваться, если ре- шения на этих итерациях не совпадают. Теперь покажем, что итерационный цикл приводит к решению, которое обеспечивает наибольшую прибыль во всех состояниях. Предположим, что в некотором состоянии решение В имеет прибыль большую, чем решение А, но итерацион- ный цикл сходится к последнему. Отсюда следует, что  96  Lely +1 р)-1 
все $; <0О и что, если ф;,—=0, то 1.0. Из уравнения  (6.22) видно, что все величины 75“ неположительны, так что среди невозвратных состояний процесса при решении В нет таких, прибыль которых больше прибыли соответст-  вующих состояний при решении А. Так как из уравнения  4 (6.24) следует, что все величины На неположительны,  то среди невозвратных при решении В состояний нет та- ких, прибыль которых больше прибыли соответствующих состояний при решении А. Следовательно, вообще не мо- жет быть, чтобы прибыль какого-либо состояния при ре- шении В была больше, чем при решении А, а итерацион- ный цикл сходился к решению А.  Мы показали таким образом, что с помощью итера- ционного цикла находятся решения со всё большей и большей прибылью, пока не будет найдено оптималь- ное решение, характеризующееся тем, что во всех со- стояниях оно имеет наивысшую прибыль. Предыдущее рассуждение можно иллюстрировать на примере системы с несколькими эргодическими классами, представленном в табл. 6.1. Напомним слу- чай (табл. 6.4), когда в результате процедуры улучше- ния решения одно решение, характеризующееся вели- чинами  3 001 3 d— 2 > Р — 0 1 0 ‚ {= 4. , 1 100 8 заменяется другим с 3 001 3 d=|/ 3], P=|]001]7, q=] 5 [. 3 001 7  Первое решение обозначим через А, второе — через В. Из табл. 6.4 видно, что  0 0 —| 3 —| ! |. ф > | % з 0 2  7—1029 97 
Если состояния 3 и 1 поменять местами, то получим  "1100 0 | 116 |, | [ ’ 2 |’ 1'00 0 3 [feta 1 , a4 | 0 8  Таким образом, существует единственный эргодический класс (Г. —=1) и ''Р —=[1]. Заметим, что в новом состоя- нии 1 (старое 3) решение принимается по дополнитель- ному, а не по основному критерию. Для $ —=1 вектор предельных вероятностей 'л равен [1]. Следовательно, из уравнения (6.22) A  3 1g =>.  =  то с помощью уравнения (6.24) найдем, что 3  —  = Mp Pig — + | [=]  Отсюда  Так как  7 ©  Если теперь снова состояния 1 и 3 поменять местами,  то вектор &° не изменится. Следовательно, мы нашли, что при переходе от решения А к решению В прибыль  98 
3 в состояниях 1 и 3 увеличивается на 5 единицы, а в со-  стоянии 2 на 3 единицы. Обращаясь к найденным ранее  для решений А и В векторам р” и 89, мы видим, что на самом деле имело место именно такое увеличение.  Итак, процесс последовательных решений в случае системы с несколькими эргодическими классами может быть изучен методом, полностью аналогичным методу, применявшемуся для эргодических процессов. Однако в большинстве практических задач знание процесса дает нам возможность использовать более простой метод для эргодических процессов. 
ГЛАВА 7  ПРОЦЕСС ПОСЛЕДОВАТЕЛЬНЫХ РЕШЕНИЙ С ПЕРЕОЦЕНКОЙ  Во многих экономических системах важным фактором является покупательная способность денег. Можно кри- тиковать, например, постановку вопроса в задаче о за- мене ‘автомобиля, рассмотренной ‘в гл. 5, так как там предполагалось, что доллар затрат в будущем имеет ту же ценность, что и доллар, затраченный в настоящее время. В данной главе это ограничение обходится рас- пространением нашего анализа процессов последова- тельных решений на случай, когда учитывается пере- оценка будущего дохода.  Рассмотрим марковский процесс с доходами, описывае- мый матрицей вероятностей переходов Р и матрицей до- ходов К. Пусть В численно равно величине капитала, при- носящего единичный доход за один шаг. Из этого сле- дует, что коэффициент переоценки В должен быть вели- чиной, обратной единице плюс норма прибыли (1\еге$ rate), отнесенная к интервалу времени, требуемому для перехода. Для ненулевой нормы прибыли, о которой идет peu, O<B< 1. Предположим, что доход г;; в таких процессах вы- плачивается в начале перехода из состояния # в состоя- кие 7. Таким образом, если 9;(п) определить как теку- щее значение полного ожидаемого дохода для системы в состоянии # с п переходами, оставшимися до оконча- ния, то по аналогии с уравнениями (2.1) получим  N о: (п) = У, ра; [паз Во; (п— 1], 1, 2,..., М, =} n=l, 2, 3,... (7,1) 100 
При выводе основного рекуррентного соотношения  N о: (п) =9:-В У Ро, (п— 1), i=l, 2,..., М,  j=l n=l, 2, 3,... (7.2)  можно снова воспользоваться вектором непосредственно ожидаемых доходов с компонентамн  м =. Pijl ij-  j=l  Уравнения (7.2) могут быть использованы также для нзучения процессов, в которых доходы выплачиваются в конце, а не в начале перехода. Для этого требуется только, чтобы под 4; понималось ожидаемое настоящее значение доходов, получаемых при следующем выходе из состояния #7. Таким образом, можно использовать уравнения (7.2) для изучения ситуаций, в которых до- ходы распределяются некоторым произвольным образом по переходному интервалу.  Более того, уравнения (7.2) могут быть использова- ны для исследования процессов, в которых нет пере- оценки покупательной способности денег, но где имеет место некоторая неопределенность относительно дли- тельности процесса. Чтобы убедиться в этом, опреде- лим В как вероятность того, что процесс будет продол- жен для получения доходов после следующего перехода. Тогда 1—В есть вероятность того, что процесс будет пре- кращен на данном шаге. Если процесс не приносит дохо- да в результате остановки, то он по-прежнему описы- вается уравнениями (7.1) и (7.2). Таким образом, в дальнейшем нет необходимости различать процессы с переоценкой и процессы с ‘неопределенной длительно- стью.  Пусть у (7) и 4 будут векторами полных и непосред- ственно ожидаемых доходов соответственно. Уравнения (7.2) могут быть записаны в виде  у(п +) =9-НВРу (п). (7.3)  101 
Если через @(z) o603HauHTb 2-MpeoOpasoBaHHe BeKTOpa v (72) и, воспользовавшись методами гл. 1, взять =-преобразова- ние от уравнения (7.3), то получим матричное уравнение  2-1 [9 (г) — (0) = -а-ЕВРо(2). Тогда  о (2) —у(0)=— а--Р2Ро (2),  (I — ВгР)® (2) == ч-Ну(0),  о(г)=-^_ (1 — ВгР)-* 9-Е (— ВгР)-1 у (0). (7.4)  Таким образом, найдено 2-преобразование вектора У (п). Уравнение (7.4) дает возможность в каждом конкретном случае выписать аналитическое выражение для у(п), так что нет необходимости полагаться на рекуррентное соот- ношение (7.3). Проиллюстрируем эти результаты, применив их к за- даче игрушечных дел мастера (табл. 3.1). Предположим, l  что мастер выбирает решение ] 2 6 d= > Р — . = . Ра 93] 5  Он не пользуется рекламой и не проводит исследований. Предположим также, что каждую неделю существует ве-  1 роятность -- того, что мастер полностью прекращает  [а =  свое производство к началу следующей недели. В момент прекращения производства он не получает ничего, кроме непосредственно ожидаемого дохода за последнюю не- делю. Задача, поставленная таким образом, соответствует  задаче с переоценкой при p=. Будем считать у (0)=0,  т. е. если мастер сохранит свое производство в течение всех п недель, последнее к этому времени потеряет цену.  102 
Для этой задачи уравнение (7.4) примет вид  02) == (1— 82Р)- ИЛИ  9 (2) = в (2) 4,  rie 9% (2) — г-преобразование функции Н (п). Окончатель- но, У (п) =Н (п)9. Прежде всего найдем  I (2);  —- (1 — В2Р)-*.  Так как ==, то  Не И —1,,_3, 5 10 и Г _ , | _ 1—0 2 4 2 (1—tap) [0-2 Ia) (2) 20%) 5: 2 (-2(-=*) (-2)(-=:)  |  103 
Разлагая на простые дроби, получаем  98 10 8 10 1 19 19 1 эээ H (2)=7 +— 8 30 1-х 8 10 19 19 2 9 9 __ 100 10 | 1 +— ] x Zz 80 80 2) то 17 И 28 10 8 0 19 19 | \" ‘о ные 8 30 _ 8 _ 10 9 19 9 9 —_ 100 10 +(35)" Я 1 7 | в 80  Так как у(п) =Н (70)49, то задача нахождения вектора  у (п) решена для произвольного 9. Для ч- | 3 |  138 100 ев (9) Lo] +l] aw f 19 19  Если мастер находится в состоянии | и имеет воз-  можность совершить п переходов, то доход, который он  138 ожидает получить через п шагов, составит э, (п) ==5—  _9 (L\"_ 100/_1_\" 2 19\ 200) ° Если мастер находится в состоянии 9, то соответст-  вующая величина будет э, (п)=—4—2 (z) +i8(z0) - 104 
Заметим, что и, (0) =о, (0) =0, как и должно быть. При у (0) =0 из уравнений (7.2) следует, что о, (1) =6 и о, (1) =3. Эти результаты также подтверждаются нашим решением. Таким образом, метод г-преобразований дает возможность непосредственно найти величины будущих доходов процесса на любом шаге. Заметим, что когда п становится очень большим, и, (п)  [38 приближается к = a u,(n)—K a Для процесса с пе-  1 реоценкой будущий ожидаемый доход не растет с ростом п, как это было в случае без переоценки. Действительно, ожидаемая в настоящее время величина будущего дохода приближается к постоянному значению, когда п неогра- ниченно возрастает. Рассмотрим подробнее характер по- ведения процессов с переоценкой.  ПРОЦЕСС ПОСЛЕДОВАТЕЛЬНЫХ РЕШЕНИЙ С ПЕРЕОЦЕНКОЙ. РЕКУРРЕНТНЫЙ МЕТОД  Аналогично тому, как рекуррентный метод был нспользован для определения вектор-решения в процес- се последовательных решений, когда переоценка в рас- чет не принималась, можно использовать его и в том случае, если она учитывается. На каждом шаге л нам нужно найти стратегию, которой следует придерживать- ся в каждом состоянии, чтобы сделать 9;(п) (значение будущего дохода) возможно ббльшим. По аналогии с рекуррентным соотношением (3.3) для случая без пе- реоценки в случае с переоценкой получим  к о: п-- = мах |9, НВ У, 6:2; (| (7.5) j=!  В этом уравнении 9:(7) определяется как ожидаемая величина дохода за п оставшихся шагов, если в настоя- щее время система находится в состоянии ё и если бу- дет производиться оптимальный выбор стратегий на каждом шаге. Для каждого состояния Е в качестве решения 4;(п-+1) на (п-+1)-м шаге используется стра- гегия А, которая максимизирует выражение  м ]=1 105 
Tak Kak 0,;(п) известно, то налицо все величины, необхо- димые для сравнения различных стратегий на (п-1)-м шаге. Задав однажды У (0), процедуру определения опти- мальных решений можно продолжать до любого желае- мого шага. Рассмотрим пример с игрушечных дел мастером, опи- санный в табл. 3.1. Будем предполагать, что В==0,9. Та- кнм образом, либо норма прибыли мастера составляет 11,1% в неделю, либо каждую неделю с вероятностью 0,1 производство может быть остановлено. Хотя норма прибыли абсурдно велика, она помогает иллюстрировать подход к подобной задаче. Если бы переходы соверша- лись один раз в год, то такая норма прибыли была бы более правдоподобной. Решение этой задачи, использующее рекуррентное соотношение (7.5), представлено в табл. 7.1, где пола- гается и:(0) =02(0) =0. Таблица 7.1  Решение задачи игрушечных дел мастера с переоценкой рекуррентным методом  п= 0 1 2 3 4 1 (п) 0 6 7,78 9,1362 | 10,461658 оз (п) o |—3 | —2,03 | —0,6467 | 0,581197 4, (п) | — | о 2 2  Как будет скоро доказано, полные ожидаемые дохо- ды 9;(л) увеличиваются и приближаются к значениям 91 (п) =22,2 и 92(п) =12,3, когда п неограниченно возра- стает. Поведение мастера должно состоять в использо- вании второй стратегии в каждом состоянии, если п>1. После того, как мы увидели, что величины я; (п) прибли- жаются к предельным значениям с ростом п, возникает вопрос, не существует ли другого пути, позволяющего обойти рекуррентные соотношения и развить метод, ко- торый непосредственно приведет к оптимальному реше- нию для системы, работающей в течение длительного времени. Такой метод уже существует, он полностью аналогичен итерационному методу, применявшемуся к процессам без переоценки. Так как прибыли не имеют  106 
смысла, когда доходы переоцениваются, оптимальным будет решение, которое обеспечивает наибольшие теку- щие значения доходов во всех состояниях. Опишем те- перь новые формы, которые принимают процедуры спределения весов и улучшения решения. Мы увидим, что процесс последовательных решений с переоценкой так же прост для исследования, как и эргодический про- цесс без переоценки, так что в дальнейшем структуру! марковского процесса можно не припимать во внимание.  ОПРЕДЕЛЕНИЕ ПРЕДЕЛЬНЫХ ДОХОДОВ  Предположим, что в системе фиксировано конкретное решение, так что полностью определен некоторый мар- ковский процесс с доходами. Тогда 2-преобразование век- тора настоящих значений ожидаемого на П-м шаге дохода у(п) удовлетворяет следующему уравнению (7.4):  v (z)=,— (1 — ВгР)-*а-- (1— ВгР)-1ч (0). — (7-4)  В гл. 1 было показано, что матрица (1 — 2Р)-' можст быть записана в виде [1/(1 —2)] $ -$(2), где $ — мат- рица предельных вероятностей и %(2) — 2-преобразова- ние матрицы, компоненты которой стремятся к нулю с ро-  стом п. Отсюда следует, что матрицу (1 — В2Р)-' можно представить в виде  (1— В2Р)- =. 5-3 (2), (7.6)  причем слагаемое %(8=) соответствует матрице, компо- ненты которой стремятся к нулю еще быстрее, когда п возрастает. Тогда уравнение (7.4) примет вид  z  =: $ @2) Jat +| = S+2 (2) | vO. (7.7)  ' Под структурой здесь понимается наличне нескольких эргоди- ческих классов. Это замечание распрсстраняется, однако, только на данную главу н соответствующий раздел гл. 8, в остальных разделах  которой структура соответствующих марковских процессов сущест- венна. (Прим. перев.)  107 
Исследуем обратное преобразование уравнения (7.7) при больших п. Коэффициенту при У (0) соответствуют члены, которые стремятся к нулю. Коэффициенту при 9 соответ- ствует скачкообразная компонента, которая останется, плюс переходные компоненты, которые исчезнут. Разлагая на простые дроби, обнаружим, что скачкообразная компонента представляет собой сумму [1/(1 — В) $ -- $8) '. Таким образом, для больших п У(”) принимает вид  {[1/(1 — B)) S++ $(8)} 9.  Однако согласно уравнению (7.6)  {Пт — 81$ $ 8)} =(1— BP)’.  Более точно, если раскрыть скобки в равенстве (7.7), то первое слагаемое можно представить в виде  г NB) NB) (—2) (1— fe) S= (12) 8 fy © Прообразом выражения, записанного в левой части этого равен- ства, является сумма 185+ 1—8 5.  Если все корни уравнения Фе (Г — 2Р) = 0 просты, то £ (Вг)=  $ — Ув —a,pz * "Ae 0; — матрицы, не зависящие OT 2, аа; — i  характеристические числа.  1 О О; /(1— тогда У бути уса Пр  i i  образом выражения =f (62) является, следовательно, раз- НОСТЬ О: О: у Tap Vasa (cif)”. i i Ясно, что  ут =$.  1  Аналогичное рассуждение можно провести в случае кратных корней. (//рим. ред.)  108 
Следовательно, при больших пл У(п) приближается к пре- делу, обозначаемому у, который определяется равенством у —= (1--ВР)-'4. (7.8)  Вектор у может быть назван вектором предельных доходов, так как каждая из его компонент 9; является текущим значением ожидаемого в далеком будущем до- хода, переоцениваемого с коэффициентом В. Уравнение (7.8) можно получить также непосредственно из уравнения (7.3)  у(п -- 1) =9-- ВРу (п). (7.3)  Если запишем у (1), у(2), у(3),... в явной форме, то най-  дем v(1)=q + BPv (0), v(2)=q + BPq ++ B*P*v (0), v (3) = -+ BPq + B*P*q + B*P*v (0),  Общий вид этих уравнений представляется формулой  п-1  (п) = | У, (ВР); | а-Е В"Р"у (0) j=0 Tax kak O<8< 1, To lim v (2)= у (ВР)14. N-»OO 1=0  В силу того, что Р является стохастической матрицей, все ее собственные значения по модулю меньше или равны 1. Следовательно, все собственные значения мат- рицы ВР по абсолютной величине строго меньше единицы, так как 0<В< 1. Можно, таким образом, написать со  у, (ВР); == (1—ВР)-! и получить 1ипу (п) = у = (1— ВР)-*9 1—0 п>оо или уравнение (7.8). Предельные доходы в каждом состоянии конечны н равны произведению матрицы (1—ВР)-' на вектор 9 справа. Заметим на будущее, что так как Р — матрица с неотрицательными элементами, то матрица (1 — ВР)-* =  109 
со =y (ВР)7 также должна иметь неотрицательные элемен- j=0 ты и, более того, элементы на главной диагонали должны быть не меньше 1'. Этот результат можно объяснить тем, что вектор 9 с неотрицательными компонентами должен приводить к предельному доходу У также с неотрицатель- ными компонентами. Поскольку нет отрицательных дохо- дов, ни одна из компонент вектора предельных доходов не может быть отрицательной. Теперь мы в состоянии описать сам метод определения предельных доходов. Так как нас интересуют процессы последовательных решений для больших м, то вместо ве- личин 9; (п) в уравнение (7.2) можно подставить предель-  ные доходы и; = Што; (п). Получим таким образом урав- п>с нения?  М и: =49:-НВУ, рые» i=l, 2, ee ey М. (7.9)  j=!  При данном наборе вероятностей переходов р;; и не- посредственно ожидаемых доходов 4; для нахождения предельных доходов процесса можно воспользоваться уравнениями (7.9). Нас интересуют предельные доходы не только потому, что они являются величинами, кото- рые нужно максимизировать в системе, но также и пото- му, что они являются ключом к нахождению оптималь- ного решения. Мы это увидим, когда будем рассматри- вать процедуру улучшения решения.  Найдем предельные доходы в задаче игрушеч- 1 ных дел мастера при В==-> для решения, описываемого  следующими величинами:  1 1 9 2 6 P=lo al? a=|_5 |. 5 5  ' Tak Kak диагональные элементы представляют собой сумму не- отрицательных слагаемых, первым из которых является единица. (Прим. ред.) 2 По Беллману [1] осуществлен переход к бесконечно-этапной аппроксимации. (Йрим. ред.)  110 
Уравнение (7.9) приводит к 1 1 1 3 о, =бН и 9, и: = — Зв 9! 16 93.  a = совпадает с предельными  значениями для о, (п) и 9,(п), найденными раньше, Телерь покажем, как использовать предельные доходы для улуч- шения решения.  Решение о, ==  УЛУЧШЕНИЕ РЕШЕНИЯ  Оптимальным является решение, которое обеспечивает наивысшие предельные доходы во всех состояниях. Если поведение системы вплоть до П-го шага было оптималь- ным, то согласно уравнению (7.5) для того, чтобы полу- чить оптимальное решение на п-+1-м шаге, нужно ма- ксимизировать выражение  N GTBY, 77,25 (2) =I  относительно всех стратегий Ё в состоянии i, Так как сейчас мы имеем дело только с процессами, которые имеют большое число шагов, то вместо 9; (п) в это выра- жение можно подставить предельные доходы о;. Тогда опти- мальным решением в состоянии # на п--1-м шаге будет М  стратегия 2, для которой выражение «ВУ р. ма- 1= ксимально. Предположим, что для произвольного решения были определены предельные доходы. Тогда лучшее решение, у которого предельные доходы в каждом состоянии больше, может быть найдено при помощи процедуры, которую мы назовем улучшением решения. Она заклю- чается в том, чтобы для каждого #, используя значения U;, определенные для исходного решения, найти страте- тию #, которая максимизирует выражение  N j=!  111 
Найденное А становится теперь новым решением в [-M состоянии. Новое вектор-решение будет определено, ко! - да эта процедура будет проделана для всех состояний. роцедуры улучшения решения и определения пре- дельных доходов могут быть объединены затем в итера- ционный цикл, показанный в виде блок-схемы на рис. 7.1.  Определение предельных доходов Используя ру; и 9: для данного решения, найти  все предельные доходы у; из системы уравнений  м я . и =9: ВУ, Pili, é=1, 2,...,N. j=!  Улучшенне решения  Для каждого состояния fi, используя предельные доходы предыдущего решения, найти стратегию &’, которая максимизирует критерий  м +b № Pi, 93. f=l  Затем принять стратегию А’за новое решение в I-M ’ состоянии, 9; заменить на qh’ и р:; заменить на Dit.  Рис. 7.1. Итерационный цикл для процессов последова- тельных решений с дискретным временем и переоценкой.  В итерационный цикл можно войти с любого блока. Можно выбрать конкретное решение и начать итерации с определения предельных доходов или задать множе- ство предельных доходов и начать итерации с улучше- ния решения. Если заранее нет никаких оснований для выбора решения, близкого к оптимальному, то часто бывает удобным начать итерационный процесс с улучше- ния решения, положив все о; равными нулю. Отобранное таким образом исходное решение, максимизирующее не- посредственно ожилаемый доход, является вполне удов- летворительным в большинстве случаев. Получаемые при помощи итерационного цикла реше- ния будут улучшаться до тех пор, пока они не совпадут на двух последовательных итерациях. В случае совпа-  112 
дения оптимальное решение найдено и задача решена. После рассмотрения нижеследующего примера будет показано, что процедура улучшения решения будет уве- личивать или оставлять неизменными предельные дохо- ды в каждом состоянии и что итерационный цикл не мо- жет закончиться на неоптимальном решении.  ПРИМЕР  Воспользуемся итерационным методом для решения задачи игрушечных дел мастера, которая была решена в этой главе раньше при помощи рекуррентного метода. Данные для этой задачи представлены в табл. 3.1; как и прежде, коэффициент переоценки В положим равным 0,9. Найдем „решение, которого нужно придерживаться мастеру, если его доходы переоцениваются и если он собирается развивать свое производство бесконечно дол- го. Оптимальным будет решение, которое максимизн- рует текущие значения всех его будущих доходов. Выберем в качестве начального решение, которое ма- ксимизирует непосредственно ожидаемые доходы масге- ра. Это решение состоит в выборе первой стратегии в каждом состоянии, так что  а_[1] р [05 0,5] «_[ 6]. 1 0,4 0,6 —3  Уравнения (7.7) определения предельных доходов при- нимают вид  о, =6-- 0,9 (0, ov, + 0,52,), v,—=—3-+ 0,9 (0,40, + 0,бо,).  Решением является и, = 15,5, и, =5,6. Далее восполь- зуемся процедурой улучшения решения, как показано в табл. 7.2. Выбор второй стратегии в каждом состоянии является лучшим решением, так что теперь  2 08 02 4 — с р—=|° “tl ga , a 2 lo7 оз Ч |5  Уравнения определения предельных доходов для этого решения имеют вид  ‚ =4-{0,9 (0,80, 0,2,), v,—=—5+0,9 (0,70, + 0,32,) Отсюда находим о, = 22,2, и, = 12,3. 8—1029 113 
Таблица 7.2  Первое улучшение решения в задаче игрушечных дел мастера с переоценкой  Критерий Состояние Стратегия a +в у ok oy =! 1 6- 0.9 [(0,5 (15,5) + 0,5 (5,6)] = 15,5 2 4+ 0,9 ((0,8 (15,5) + 0,2 (5,6)] = 16,2— 2 1 —3+ 0,9 [(0,4 (15,5) + 0,6 (5,6)] = 5,6 9 —5 +0,9 (0,7 (15,5) +0,3 (5,6)] =6,3—  Заметим, что в результате первой итерации было по- лучено значительное увеличение предельных. доходов в обоих состояниях. В табл. 7.3 даны результаты повтор- ного проведения процедуры улучшения решения. Таблица 7.3  Второе улучшение решения в задаче игру- щечных дел мастера с переоценкой  Критерий м с | с Ё А k OC TOHHHE тратегня 9 +8 > РГ, {= ] ] 21,5 2 22,2 +- 2 1 11,6 9 12,3 —  Новое решение совпадает с тем, которое было полу- чено в предыдущей итерации, и поэтому является опти- мальным. Если нужно максимизировать предельные до- ходы в обоих состояниях, то следует выбирать вторую стратегию в каждом состоянии. Мастеру следует исполь- зовать рекламу и проводить исследования даже при 111% нормы прибыли в неделю.  Предельными доходами обоих состояний при оптималь- ном решении являются 22,2 и 12,3 соответственно; они должны быть выше, чем доходы для любого другого решения. Для того чтобы убедиться в этом, читатель 1 2 может проверить решения a—| 9 H d= ‚ | 114 
Мы нашли, таким образом, что если коэффициент переоценки равен 0,9, то оптимальное решение для слу- чая без переоценки, найденное в гл. 4, остается опти- мальным для мастера и в случае, когда эта переоценка учитывается. После обоснования итерационного метода более подробно рассмотрим вопрос о влиянии коэффи- циента переоценки на оптимальное решение.  ОБОСНОВАНИЕ ИТЕРАЦИОННОГО МЕТОДА  Рассмотрим решение А и следующее за ним решение В, полученное при помощи процедуры улучшения реше- ния. Так как решение В является улучшением реше- ния АД, то для любого состояния #  Ч, +8 ро, 24, ‘+83 alot .. (7.10)  Мы знаем также, что для самих шений справедливы равенства  0—4, +8 DP; (7.11)  =4q; 3 ры". (7.12) Пусть  waa toy Pe?) —%— PY oie ‚. (7.13)  Таким образом, 1: является риращением величины крите- рия в {-м состоянии, которое является результатом улуч- шения решения; согласно предыдущему определению 1; =0. Вычитая уравнение (7.11) из ‚Уравнения “ 12), получаем  v9 — yt agi — 4g’ ву ate BY ait  А А —ву Bee, + v р, +  i  и А „А + р "— в ° =1 8* 115 
А Если через и’ обозначить разность и? — и^ — прираще-  нне предельного дохода в состоянии t, TO А ы в 8 м j=1  Эти уравнения имеют ту же форму, что и наши исход- ные уравнения (7.9) для предельных доходов, с той лишь разницей, что они написаны относительно приращений, предельных доходов. Мы знаем, что в векторной форме их решение имеет вид  v'= (1 — BP*)-'y, (7.14)  где 1 — вектор с компонентами \;. Раныпе было показано, что матрица (1 — ВР)-' имеет неотрицательные элементы, а элементы, расположенные по главной диагонали, не меньшие 1. Следовательно, если какое-нибудь \{;>0,  ® > A 7 то по крайней мере одно из значений и, должно’ быть  больше нуля и ни одно из них не может быть меньше нуля. Поэтому процедура улучшения решения должна увеличить предельные доходы по крайней мере для одного состояния и не может уменьшить их ни для одного из состояний. Возможно ли, чтобы итерационный цикл сходился к ре- шению А, когда решение В обеспечивает большие пре- дельные доходы в некоторых состояниях? Нет, так как если итерационный цикл сходится к решению А, то все  4 1: <0 и, следовательно, все и, 0. Из этого следует, что  если итерационный цикл сошелся к некоторому решению, то не существует никакого другого решения, которое могло бы иметь болыпие предельные доходы.  ЗАВИСИМОСТЬ ОПТИМАЛЬНОГО РЕШЕНИЯ ОТ КОЭФФИЦИЕНТА ПЕРЕОЦЕНКИ  Задача водителя такси, рассмотренная в гл. 5, была решена для значений коэффициента переоценки, изме- няющихся от 0 до 0,95 с интервалом 0,05. В этом приме- ре 1—В может рассматриваться как вероятность того, что перед очередной поездкой у водителя сломается ма- шина. Оптимальные решения и предельные доходы для каждой ситуации сведены в табл. 7.4. Из этой таблицы видно, что хотя предельные доходы нзменяются, когда В  116 
Таблица 7.4 Оптимальные решения и предельные доходы как функции  коэффициента переоценки для задачи водителя такси  Коэффициент переоценкн В  Оптимальное решение  Предельные доходы  COCTOR- ние 2  состоя- ние 1  состоя- ние 1  состоя- нне 3  COCTOR- ние 2  состоя. ние 3  а  0 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50 0,55 0,60 0,65 0.70 0,75 0,80 0,85 0,90 0,95  WS BS AS RS me me ce ры ра р оо нда ыы ee ek р оф рф ра NONDONNMNNNHONNNNNWNWH = =  8,00 8,51 . 9,08 9,71 10,44 11,27 12,24 13,38 14,72 16,33 18,30 20,79 24,03 28,28 34,06 42,32 55,08 77,25 121,65  255,02  16,00 16,40 16,86 17,46 18,48 19,63 20,93 22,43 24,17 26,21 28 ,64 31,61 35,33 40,10 46,44 55,29 68,56 90,81 135,31  268 ,76  7 ,00 7,50 8,05 8,67 9, 38 10,21 11,16 12,28 13,61 15,21 17,16 19,83 23,46 28,13 34,37 43,11 56,27 78,43 122,84 256,20  Область 1  решение  Оптимальное  Область 1 Оптимальное решение  Область 111 Оптнмальное решение  Область 1\ Оптимальное решение  1 —{ | 1  1  а=| 2  1 d=| 2 2  2 d-—}| 2 2  во  0,13  0,53  0,77  1,00  Рис. 7.2. Оптимальное решение как функция коэффи- циента переоценки в задаче водителя такси.  растет, оптимальное решение меняется только в том слу- чае, если величина В пересекает некоторые критические значения. Более подробные вычисления показывают, что такими значениями В являются приблизительно 0,13; 2.53 и 0,77. Оптимальные решения для различных зна- чений В показаны на рис. 7.2. Для В между 0 и 0,13 оптимальным является решение, состоящее в выборе  117 
первой стратегии в каждом состоянии, т. е. в этом слу- чае водителю следует ловить случайного пассажира в каждом городе. Для В>0,77 оптимальным решением является выбор второй стратегии в каждом состоянин, т. е. в любом го- роде водителю следует отправляться Na ближайшую стоянку. Когда значения В находятся между 0 и 0,13, опти- мальным является решение, которое максимизирует не- посредственно ожидаемый доход. Для значений В, за- ключенных между 0,77 и |, лучшим оказывается реше- ние, которое выбиралось, когда переоценка не учитыва- лась. Если В принимает ‚значение, находящееся между 0,13 и 0,77 (область П или ПТ), то следует придержи- ваться промежуточных решений. Описанная зависимость решения от коэффициента переоценки дает нам возможность сделать некоторые заключения относительно места процессов с переоценкой среди процессов последовательных решений. Во-первых, даже если процесс без переоценки, описанный раньше, является более предпочтительной моделью системы, использование переоценки покажет, как велик должен быть ее коэффициент, для того чтобы решение задачи с переоценкой отличалось от решения соответствующей задачи без переоценки. Во-вторых, недостатком моделей с переоценкой является обычная трудность определения соответст- вующего значения коэффициента переоценки. Однако из рис. 7.2 видно, что если неточность определения коэф- фициента переоценки не выводит его за пределы соот- ветствующей области, то оптимальное решение остается неизменным, а точное значение коэффициента пере- оценки влияет лишь на предельные доходы. В-третьих, так как значительно труднее решать за- Дачу с переоценкой при В, близком к 1, то в подобной ситуации лучше решать задачу определения оптимально- го решения без переоценки.  ЗАДАЧА О ЗАМЕНЕ АВТОМОБИЛЯ С УЧЕТОМ ПЕРЕОЦЕНКИ  Задача о замене автомобиля, рассмотренная в гл. 5, была решена для значения коэффициента переоценки В=0,97. Это значение соответствует годовой норме при- 118 
были приблизительно в 12%, которая является довольно правдоподобным доходом для среднего покупателя ма- шины. Напомним, что оптимальное решение без учета переоценки было найдено за семь итераций и состояло в том, чтобы покупать машину трехлетнего возраста и держать ее пока. ее возраст не достигнет 6,5 лет. Оптимальное решение с учетом переоценки было найде- но за девять итераций и заключается в том, чтобы поку- пать машину трехлетнего возраста заменять ее в возря- сте 63/. года. Из сказанного видно, что эти оптимальные решения очень похожи друг на друга. Если найти пре- дельные доходы первого для значения коэффициента пе- реоценки В =0,97, то они лишь незначительно будут от- личаться от предельных доходов второго, рассчитанных при том же значении В. Этот результат подчеркивает сделанный выше вывод о том, что для сравнительно невысоких норм прибыли решения с учетом и без учета переоценки часто совпа- дают.  В табл. 7.5 наряду с оптимальными решениями вне- сены соответствующие предельные доходы для каждого состояния, которые представляют большой интерес. Они являются переоцененной последовательностью будущих эксплуатационных издержек и поэтому отрицательны. Например, предельные доходы от машин возраста | и 4 года равны .= —4332 долл. и ов = — 4946 долл. соот- ветственно. Заметим, что машину возраста | год следует заме- нять трехлетней машиной. Однако из сказанного следует также, что если четырехлетнюю машину можно поме- нять на машину возраста | год, заплатив при этом не больше чем —4332— (—4946) =614 долл., то это нужно сделать, не взирая на оптимальное решение. В случае без учета переоценки соответствующая ве- личина равнялась 730 долл., так что такая замена была Сы еще более желательной, если бы покупательная спо- собность денег не изменялась.  Интересная возможность раскрывается при рассмот- рении табл. 7.5. Из нее видно, что за сумму приблизи- тельно в 5000 долл. некий посредник мог бы всегда удовлетворить нашу потребность в машинах возраста oT 3 до 63/4 лет, а чтобы сделка была для него привлека- тельнее, можно было бы предложить ему 6000 долл..,  119 
Таблица 7.5  Оптимальные решения и предельные доходы в задаче о замене автомобиля для коэффициента переоценки В == 0,97  Возраст автомо- Предельные Не ы Решение доходы в системы ) долларах 1 Заменить на 12-квартальную машниу —3 925 2 То же —4 045 3 . —4 155 4 Оставить настоящую машину —4 332 5 То же —4 398 6 » —4 462 7 .. —4 523 8 .ь —4 581 9 » —4 635 10 .. —4 688 И . >. —4 738 12 „ь —4 785 13 .„ —4 829 14 » —4 870 15 ~ —4 909 16 - —4 946 17 > —4 979 18 .„. —5011 19 » —5 041 20 2 2 —5 069 21 .. —5 096 22 . > —5 121 23 „> —5 145 24 „о —5 167 25 „о —5 186 26 „о —5 202 27 Заменить на 12-квартальную машнну | —5 215 28 То же —5 225 29 „о —5 235 30 „ь —5 240 31 » —5 245 32 „о —5 250 33 „о —5 255 34 ~ - —5 265 35 . о —§ 270 36 » —5 275 37 „о —5 280 38 „о —5 290 39 „о — 6 298 40 - » —5 305  120 
обеспечив тем самым некоторую прибыль. Как замеча- тельно было бы владельцу машины расплатиться вперед на всю жизнь, а не нести бесконечные расходы по содер- жанию машины и покупке бензина.  ВЫВОДЫ  Определение решений в процессах последовательных решений имеет трудности одного и того же порядка не- зависимо от того, вводится переоценка или нет. В любом случае необходимо несколько раз решать систему линей- ных алгебраических уравнений. За каждым решением следует последовательность сравнений для определения улучшающего решения, причем сходимость к оптималь- ному решению гарантирована. Переоценка полезна, когда нужно учитывать покупательную способность де- нег или когда процесс на каждом шаге может прекра- титься с заданной вероятностью. 
ГЛАВА 8  ПРОЦЕССЫ ПОСЛЕДОВАТЕЛЬНЫХ РЕШЕНИЙ С НЕПРЕРЫВНЫМ ВРЕМЕНЕМ  В предыдущих главах рассматривались марковские процессы, переходы в которых совершаются через диск- ретные, равные друг другу промежутки времени. В на- стоящей главе рассмотрим процессы, переходы в кото- рых совершаются через случайные интервалы времени.  МАРКОВСКИЕ ПРОЦЕССЫ С НЕПРЕРЫВНЫМ ВРЕМЕНЕМ  Первая задача, с которой мы сталкиваемся, состоит в том, как описать марковский процесс с № состояниями, время между переходами которого случайно. Размышле- ния приводят к выводу, что более важными параметра- ми такого процесса должны быть интенсивности, а не вероятности переходов. Обозначим через @;; интенсив- ность перехода процесса из состояния Е в состояние f, когда #5]. Величины 4; определяются следующим образом. За бесконечно малый интервал времени 4 про- цесс, который находится в состоянии &, будет совершать переход в состояние } с вероятностью а; (15-7). Ве- роятность двух или более переходов за время 4 имеет порядок (4)? или выше Г, и предполагается, что она бес- конечно мала, если 4 выбирается достаточно малым. Очевидна связь этого определения с обычными допуще- ииями для пуассоновского процесса. Мы будем рассмат- ривать только такие процессы, для которых интенсивно- сти переходов а; постоянны. Это предположение эквива- лентно допущению для процессов с дискретным време-  ' Данное свойство называется ординарностью. (Прим. ред.) 122 
нем, состоящему в том, что вероятности переходов не изменяются со временем '. Теперь можно описать марков- ский процесс с непрерывным временем матрицей интен- сивностей переходов А с компонентами а;;, диагональ- ные элементы которой должны быть определены. Вероятность того, что система находится в состоя- нии # К моменту { после начала процесса называется вероятностью состояния л;(Ё) по аналогии с л;:(п). Ве- роятности состояний в момент #- 4 можно связать с ве- роятностями состояний в момент # посредством уравне-  НИЙ (4) =*; (01 — У влай - Ут: (ба, 15] 1] j=1, 2,..., N. (8.1)  Система может lomacTb B CocTOAHHe jf B MOMeHT Bpe- мени #-- 4Ё двумя взаимно исключающими друг друга путями. Во-первых, она уже может находиться в состоя- нии ] в момент времени # и не сделать ни одного пере- хода в течение интервала 4. Эти события имеют вероят- ности *; (1) и 1— У ар@Ё соответственно, так как мы ive] предположили, что вероятности нескольких переходов имеют порядок высший, чем 4, и в расчет не принима- ются, а вероятность не сделать ни одного перехода за время 4 равна 1 минус вероятность того, что за время 4 система перейдет в некоторое состояние i = j. Во-вторых, в момент времени { система может на- ходиться в одном из состояний 15] и за время 4 co- вершить переход из состояния # в состояние 1. Эти собы- тия имеют вероятности л;(#) и а;; 4 соответственно. Эти вероятности должны быть перемножены и просуммиро- ваны по всем р, не равным ], так как система могла по- пасть в состояние } из любого состояния #2. Таким обра- зом, мы выяснили, как получаются уравнения (8.1).  ' Такие процессы называются однородными. (Прим. ред.) з Более точно, вероятности | _\ аз: ЧЁ и аз) ЕЁ суть условные  5] вероятности не покинуть состояние | за время 4Ё и перейти из состояния i B состояние ] при условии, что система находилась в состоянни jf или состоянии $ соответственно. Поэтому вероят- ности перемножаются. (Прим. перев.)  123 
Определим диагональные элементы матрицы А по фор-  муле а; =— У ан. (8.2)  Если переписать уравнение (8.1) с учетом равенства (8.2), то получим  mj (t+ dt) =m; (t) 1 -Назай + Уж (даа ivf  ИЛИ М  Rj (Е +- dt) — 9; (6) = У. т; (Е) @:; 4.  1=1  Деля обе части последнего уравнения на. 4 и переходя к пределу при 4Ё-> 0, получаем  N  a (=) =: (фа, 1=12,..., М. (8.3)  1=1  Уравнения (8.3) являются системой линейных диффе- ренциальных уравнений с постоянными коэффициентами, которые связывают вероятности состояний с матрицей ин- тенсивностей переходов А‘. Для того чтобы найти ее ре- щения, нужно задать начальные условия т; (0). Мы видим, что в процессах с непрерывным временем матрица интенсивностей переходов А играет такую же центральную роль, какую матрица вероятностей перехо- дов Р играла в процессах с дискретным временем. Теперь, однако, мы имеем систему дифференциальных (8.3), а не разностных (1.2) уравнений. В матричном виде уравне- ния (8.3) можно записать следующим образом:  4 x ()=mn(t) A, (8.4) где л({) — вектор вероятностей состояний в момент #@,  ' Матрица А, элементы которой удовлетворяют условиЯм N  \ а;; =0, а;, < 0, а, >0 для {#] больше известна в литера-  = туре под названием квазистохастической [16] или ннфинитезималь- ной [6]. (Грим. ред.)  124 
Матрица А интересна сама по себе. Ее внедиагональные элементы определяются интенсивностями переходов про- цесса. Диагональные элементы задаются равенством (8.2). Сумма элементов вдоль каждой строки матрицы А равна нулю или  N У а; ==0.  j=l  Как указывалось раньше, матрица, сумма элементов строк которой равна Нулю, называется дифференциальной. Как мы увидим, дифференциальная матрица А имеет очень тесную связь со стохастической матрицей Р.  В следующем разделе рассмотрим применение пре- образований Лапласа для вычисления вероятностей со- стояний марковских процессов с непрерывным временем, описываемых уравнением (8.4). Мы увидим, что знание марковских процессов с дискретным временем будет в высшей степени полезным при изучении процессов с непрерывным временем.  ИЗУЧЕНИЕ МАРКОВСКИХ ПРОЦЕССОВ С НЕПРЕРЫВНЫМ ВРЕМЕНЕМ ПРИ ПОМОЩИ ПРЕОБРАЗОВАНИЯ ЛАПЛАСА  Преобразование Лапласа функции времени } (Ё), которая равна нулю для < 0, определяется равенством  со  ($) = | f (t)e7*tdé. (8.5)  0  Преобразование Лапласа существует для всякой функ- ции времени, которая растет не быстрее, чем экспонента. Рассмотрим, например, функцию }(@)=е-“! для #20 и (6 =0 для #<0. Используя равенство (8.5), находим  со оо — -atyp-st — -{stu)ft —_- (в) = [e е-з dt—(e о, 0 0  В табл. 8.1 показаны некоторые типичные функции вре- мени и их преобразования Лапласа, полученные с по- мощью равенства (8.5).  125 
Таблица 8.1 Некоторые функции времени и их преобразования Лапласа  Функцня времени для { 20 Преобразование Лапласа Fé f (s) AO+h fr (s) + fis (s) Rf (f) (& — koncranta) Rf (s) d ai) $f (s)—F -as 1 é 5 +а 1 (Функция единичного скачка) = fe-at _ |! e ($ + a)? 1 $ (линейная функция) a e— otf (f) f(s +4)  Свойства преобразований Лапласа широко известны и подробно изучены в литературе (см., например, [2]!). Преобразование Лапласа функции времени единствен- но. Существует взаимно однозначное соответствие меж- ду функциями времени и их преобразованиями Лапласа. В частности, эти преобразования особенно удобны для анализа систем, которые могут быть описаны линейными дифференциальными уравнениями с постоянными коэф- фициентами.  Ввиду того, что марковские процессы с непрерывным временем описываются уравнениями (8.4), следует ожи- дать, что преобразования Лапласа будут полезны при их изучении. Обозначим через П(5) преобразование Лапласа вектора вероятностей состояний x(t). Преобразованием  ' Мз отечественной литературы можно рекомендовать, напри- мер: Лаврентьев М. А. и Шабат 5. В., Методы теории фучк- ций комплексного переменного, Физматгиз, 1958, гл. УТ. (Прим. перев.  126 
Лапласа любой матрицы, составленной из функций вре- мени, является матрица, составленная из преобразований Лапласа ее компонент. Если применить преобразования Лапласа к уравнению (8.4), то получим  $1 (5$) — л(0)=1П (5) А ИЛИ П ($) ($1 — А) =х (0),  где { — единичная матрица. Окончательно имеем П (5$) =л (0) ($1 — А)-'. (8.6)  Преобразование Лапласа вектора вероятностей состоя- ний равно, таким образом, начальному вектору вероятно- стей состояний, умноженному справа на матрицу ($1— А)-*, которая для процессов с непрерывным временем является аналогом матрицы (1 — 2Р)-*. Мы увидим в дальнейшем, что она обладает свойствами, аналогичными свойствам матрицы (1— 2Р)-', и полностью описывает поведение марковских процессов с непрерывным временем. Известно, что решением уравнения (8.4) является  x(t)—=n(O)e™, (8.7)  где под матричной функцией е^' нужно понимать экспо- ненциальный степенной ряд  ГНА А+ А+...  который сходится к е^'. Для дискретных процессов полу- чались уравнения (1.4)  л (п) =л (0)Р", п=0, 1,2,... (1.4)  Предположим, что нам нужно найти матрицу А для про- цесса с непрерывным временем, вероятности состояний которого в моменты #=0, 1,2,.., такие же, как и у про- цесса с дискретным временем, описываемого матри- цей Р, причем за единнцу времени принимается время одного перехода дискретного процесса. Тогда, сравнивая уравнения (8.7) и (1.4), при #ё=п видим, что  е^ —=Р  A=InP. (8.8) 127  ИЛИ 
Вернемся к задаче игрушечных дел мастера, для ко- торой матрица вероятностей переходов была  9 2 P=), 3 5 5  Предположим. что мы хотим найти процесс с непрерыв- пым временем, у которого будут те же самые вероят- ности состояний в конце каждой недели для произволь- ного начального состояния. Тогда, чтобы найти матри- цу А, нужно воспользоваться равенством (8.8). Методы выполнения этой операции известны {4]. Если их приме- нить к данной матрице Р, то найдем  лев [-8 5] 4 —4 in 10  Так как постоянный множитель —5- Усложняет вы-  числения, мы будем решать задачу, аналогичную задаче игрушечных дел мастера, но без этого множителя, необ- ходимого для полного соответствия в только что описан- ном смысле. Итак, положим  __[—5 5 ^=| + ah (8.9)  Так как мы отказались от полного соответствия, нуж- но изменить также интерпретацию задачи. Будем назы- вать эту новую задачу «дилеммой техника». Техник ме- ханического цеха имеет «капризный» станок, который может находиться либо в рабочем, либо в нерабочем со- стояниях, которые обозначим 1 и 2 соответственно. Если станок работает, то с вероятностью 5 4Ё он сломается в течение короткого интервала времени 4 Если же он не работает, то с вероятностью 44 он будет отремонти- рован за время 4. Эти предположения легко позволяют выписать матрицу интенсивностей переходов [равенство  (8.9)].  Они эквивалентны тому, что время работы между по- ломками экспоненциально распределено со средним  128  “5? 
в то время как время, требующееся для ремонта, имеет 1 экспоненциальное распределение со средним —-. Если при-  нять за единицу времени | час, то можно ожидать", что поломка случится через 12 мин работы, а ремонт закон- чится за 15 мин. Стандартные отклонения времени ра-  боты и времени ремонта также равны 12 и 15 мин соот- ветственно?,  Пусть в задаче техника нужно найти вероятность то- го, что станок будет работать в момент &, если он рабо- тал при #=0. Для ответа на этот вопрос воспользуемся уравнением (8.6). С учетом исходной матрицы А (равен- ство (8.9)] находим  ит —5 |  —4 s+4 ~ gs+44 5 - $ ($ - 9) $ ($45) ($1 — А) `` = 4 545  s (s + 9) $s (s + 9)  Разлагая на простые дроби, получаем  5 в Ш 9 9 9 9 5 Ту $ Туре -1__ Аа аб 4 9 9 9 9 $ 5+9 $ т ИЛИ 4 5 8 —5 А [4a ae 45 [1549] 4 4 9 9 9 9  г См. сноску на стр. 30. (Прим. перев.) 3 О связи между однородным простым процессом Маркова и простейшим потоком см., например, работу [5]. (Прим. ред,)  9—1029 129 
Пусть матрица Н(Ё) будет обратным преобразованием матрицы (51 — А)-'. Тогда обратное преобразование пере- водит уравнение (8.6) в  x(t) =m (0) H(2). (8.10)  Сравнивая равенства (8.7) и (8.10), замечаем, что матрица Н (г) является выражением в конечном виде для матри-  цы ем. В случае задачи техника имеем 4 5 5 5 9 9 9 9 __ —B1 п ве в а а 9 9 9  =>  Вектор вероятностей состояний л({) может быть полу- чен путем умножения вектора вероятностей начальных со- стояний х (0) на матрицу Н(ё) справа. Если станок рабо- тает в момент #—0, так что 0) —=[1 0], то  «= [5%] +=" [5-3]  ИЛИ  4 5 _ 5 5 - x, ()=t+ et, x, Q=t—S eo,  Обе вероятности т, (1) и т,(Ё состоят из постоянного и экспоненциально убывающего слагаемых. Постоянное слагаемое представляет собой предельную вероятность состояния, когда { становится очень болыпцим. Таким об- разом, вероятность т, ({) того, что станок работает, экс-  4 поненциально убывает от 1 до 9, Когда { возрастает,  ] причем декремент убывания равен-—- Подобным образом, если станок не работает в момент  4 5 Tr 44 {=--0, х (0) =[0 1}, TO x(t) =| э |+ |-= Oo) 4 4g: __ 5 38 в так что *, (= — 5-6", т, (м = Ре”. Заме- тим, что вероятность того, что станок работает, экспо- ненциально возрастает от О до своего стационарного зна-  130 
чения, равного ‚ когла Ё становится большим. Пре-  4 9 . 4 5 дельныс вероятности состоянии процесса раены > H и  для состояний Ти 2 соответственно. Они не зависят OT состояния системы в момент #==0.  Сходство между марковскими процессами с дискрет- ным и непрерывным временем теперь несомненно. Как тот, так и другой имеют предельные и переходные сс- ставляющие вероятностей состояний. Переходные со- ставляющие в случае дискретного процесса геометричес- ки убывали; в случае непрерывного процесса они убы- вают экспоненциально.  Матрица (51 — А)-* есогда будет содержать стохасти- | ческую матрицу $ с сомпожитслем вида -—. Эго спра-  ведливо, так как $ является множителем определителя матрицы ($1 — А). Действительно, одно характернстическое значение дифференциальной матрицы всегда равно нулю. Стоха- стическая матрица является матрицей, составленной из векторов предельных вероятностей состояний, как это было и в дискретном случае. Элементы 1{-й строки матрицы $ являются предельными вероятностями со- стояний процесса, если он отправляется из {-го состоя- una. Замечания относительно эргодических классов остаются справедливыми для процессов с непрерывным временем. Остальным слагаемым матрицы (51—А)-' соответствуют переходные составляющие с коэффициентами вида е`°й, 12-й ит. д., которые стремятся к нулю с ростом #. Матрицы, содержащие эти компоненты в качестве сомножителей, сами являются дифференциальными матрицами. Можно обозна- чить переходные составляющие матрицы (51 — А)`' одним символом %(5) и написать  ($1— А)-*=-_$- $ (5) (8.11)  ИЛИ  H(i) =S+T(), (8.12) 9° 131 
где 5 — стохастическая матрица, составленная из предель- ных вероятностей, а Т(1) состоит из переходных состав- ляющих векторов вероятностей. Для задачи техника  4 5 9 —_5 9 9 1 9 S=l4 5 , Tie 4 а |: 9° 9 9 9  Строки матрицы $ совпадают, так как процесс эргодичен.  Если требуется найти только предельные вероятности состояний, то искать ($1— А) ' нет необходимости. Предположим, что процесс эргодичен. Мы знаем, что dx (t x) — 0 для больших #, так как предельные вероятности состояний постоянны. Если обозначить вектор предельных вероятностей состояний через л, то уравнения (8.4) при- мут вид  O= 3A. (8.13) Эта система уравнений с дополнительным условием N у, zi (8.14)  достаточна для определения предельных вероятностей со- стояний. Для матрицы А (8.9) из уравнения (8.13) имеем  — ож, | 4т,—=0, 9я, — 4*, —=0. Затем из уравнения (8.14) находим тт, —=1. Решением этих уравнений является т, = >, т ==-—  что соответствует нашим предыдущим результатам.  МАРКОВСКИЙ ПРОЦЕСС С НЕПРЕРЫВНЫМ ВРЕМЕНЕМ И ДОХОДАМИ  Введение непрерывного времени заставляет нас не только прибегнуть к использованию интенсивностей пе- реходов вместо вероятностей переходов, но и пересмот- реть понятие дохода. Предположим, что система прино-  132 
сит доход в размере г. долларов за единицу времени в течение всего периода ее пребывания в состоя- нии #. Предположим далее, что, когда система совершает переход из состояния { в состояние ] (1:57), она прино- сит доход в Г:; долларов. (Заметим, что ги и г;; имеют различные размерности.) Совсем не обязательно, чтобы система приносила доходы как того, так и другого типов (доходы за единицу времени пребывания в состоянии и доходы за переход), но эти определения обеспечивают нам общность. Нас интересуют ожидаемые прибыли от работы си- стемы за время Ё при данных начальных условиях. Че- pe3 0;(¢) обозначим полный ожидаемый доход, который система принесет за время #, если она отправляется из состояния г. Тогда полный ожидаемый доход и:(#+4#) в момент (1-4) можно выразить через и; (+) с помощью уравнения (8.15). Здесь 4, как и раньше, представляет собой очень короткий интервал времени  о; на =(1 — ¥ a; jdt) [r:sdt +0; (4)] + 4  + Хава и о; ®. (8.15)  ны  Уравнение (8.15) может быть получено следующим образом. В течение интервала времени 4 система может либо остаться в состоянии & либо совершить переход в некоторое другое состояние }. Если она остается в со- стоянии Ё в течение времени 4, то доход составит гу: плюс ожидаемый доход 9;(1), который она принесет за оставшиеся { единиц времени. Вероятность того, что си- стема останется в состоянии & в течение времени 4 равна 1 минус вероятность того, что за это время она  совершит переход: 1 a;;dt. С другой стороны, за j=l время 4 система может совершить переход в некоторое состояние 15? с вероятностью а;;4. В этом случае до- ход составит г;; плюс ожидаемый доход и,;(Г), который будет получен за оставшееся время, если бы начальным было состояние j. Произведение вероятностей и доходов нужно просуммировать по всем состояниям ]52{, чтобы получить полное значение ожидаемого дохода.  133 
Используя равенство (8.2), можно переписать уравне- ние (8.15) следующим образом:  vu, (t-+ dt) — (1 4-a,,dt) [r,,dt +0; (£)] + +У а; [7 Но, (0]  joi  или Uv; (: + dt) == Pf; : +0; (t) + Яо: (f) dt + et “ + Уаз! У, ао, (0 4, д iti где мы пренебрегаем членами более высокого порядка по сравнению с 4. Наконец, если вычесть 9;(#} из обеих  частей этого равенства и результат разделить Ha dé, TO получим  м t+ df) —v; (f eo а чб, Ура Увы (1). [74 {=! Переходя к пределу при 4-» 0, находим  iv де O=ratV\aurst Yas, i=], 2,...,N.  2“ j=!  Таким’ образом, полные ожидаемые доходы V;(t) удовлетворяюг системе линейных дифференциальных уравнений с постоянными коэффициентами и определя- ются из нее, если известны 9;(0). Назовем нормой вы- ручки величину  9; — Г +- Vaijriy- (8.16)  ГР  Например, в задаче техника нормы выручки могли быть равны 9, =6, 92=—3. Эти величины можно получить многими комбинациями интенсивностей доходов и дохо- дов от перехода. Так, если интенсивности доходов в сэ- стояниях Ги 2 равны соответственно би — 3 долл. на единицу времени и нет никаких доходов, связанных с пе- реходами, то г =6, го2= — 3, Г!2=Го: =0, откуда получают- ся только что упомянутые нормы выручки: В следующем разделе рассмотрим случай, когда величины 9; получа-  134 
ются частично из доходов от переходов, но в данный мо- мент безразлично, каким образом получены данные нор- мы выручки. Используя определение нормы выручки, приведем наши уравнения к виду  N d 2 a O=a + Yas), i=1,2,...,N. (8.17)  j=l  Таким образом, полные окидаемые доходы в момент времени { являются решепием системы линейных диф- ференциальных уравнений (8.17) с постоянными коэф- фициентами 4; и а;;. Если У(Г) обозначает вектор-стол- бец полных ожидаемых доходов с компонентами 9: (#), а Ч — вектор нормы выручки с компонентами Gi, TO B MAT- ричном виде уравнения (8.17} могут быть записаны сле- дующим образом:  у (0 =9-[ Ау (1. (8.18)  Чтобы получить решение этого матричного уравне- ния, нужно, конечно, задать начальное условие у (0). Так как уравнение (8.18) является линейным дифферен- циальным уравнением с постоянными коэффициентами, TO для его решения полезно воспользоваться ‘преобразо- ванием Лапласа. Используя табл. 8.1, получаем  so(s)— v(0)=-- q+ Av(s), (sI — A) o(s) =—_ а-\ (0).  0 (5) =-—(51— А)-1а - ($1 — A)-*v(0). (8.19)  Мы нашли, таким образом, что уравнение (8.19) связы- вает преобразование „Лапласа 9(5) вектора \(1) с матри- цей (51 —А)-', вектором нормы выручки 4 и вектором доходов в момент окончания процесса у (0). Вэктор до- хода \({) может быть найден при помощи обратного преобразования равенства (8.19).  135 
Применим полученный результат (уравнение (8.19)] к задаче техника. Матрица интенсивностей переходов и вектор нормы выручки равны соответственно  —5 5 6 A= > = . | 4 4] Ч [3] Предположим, что станок будет выброшен в момент  окончания процесса {=0', так что и; (0) =92(0) =0. Мы нашли раньше, что для этой задачи  s+4 5 s(s + 9) s (s + 9) (I—A)"=] , 45  s(s+9) s(s+9)  Чтобы воспользоваться уравнением (8.19), нужно найти  матрицу + (sl — A)-*  s+4 5 ! 6-9 2 4+9) — (sl— A) = 4 s+5  $1 ($+9) s? (s+ 9)  Разлагая на простые дроби, получаем  И 4/9 , 5/81 , —5/81. 5/9 , —5/81 , 5/81 —_ s? + 5 9 $2 + $ +39 __ | 4/9 , —4/81 , 4/81 5/9 , 4/81 , —4/81 1 5 + 5 T3475 s? + 5 +345 45 5 —5 —5 8 —_ 1199 1} at 81 81 81 #145 ry а 4 | 1:15 4 —4 99 81 81 81 81  1 Так как в задачах динамического программирования течение времени обратное, то {==0 совпадает с моментом окончания процес- са. (Прим. перев.)  136 
Тогда, так как 0(5) = (51 — А)- 14, то, применяя об-  ратное преобразование, находим, что  4 5 5 5 эээ 8 Я У (2) —‹1 4 5 + _ 4 4 + g 9 8 8 —_5 5 81 81 6 е-° т 4—4 3 81 ] ИЛИ 5. _ 5 ] 9 вн 9 vio=t| |+ 4 +e 4 9 9  Если система отправляется из состояния 1, то полный ожидаемый доход в момент времени Ё равен, таким об- разом, 5  5 - о, (И ЕН —-5-е $f,  Если же система отправляется из состояния 2, то до- ход составит  v, (t)=t— 4-44 eo,  Заметим, что независимо OT начального состояния, станок будет приносить в среднем 1 долл. в единицу времени, когда # велико, так как коэффициенты при Ё как у и, (2), так и у о.(1) равны 1. Средний доход от работы системы в единицу времени, так же как и в случае  137 
дискретных процессов, называстся прибылью. Как и раньше, прибыль будет зависеть от начального состояния, если система не эргодическая. Из полученных равенств видно также, что для больших Ё в, (1} и 9,(1) могут быть записаны в виде у; (2) =ви-.. В рассмотренном выше  случае 9, — -5-, 9, ==— 5. Докажем, что это соотноше-  ние справедливо для произвольного марковского процесса с непрерывным временем.  Напомним уравнение (8.19) 0 (5) = (51 — А)-‘а-[ (51 — А)-* (0). — (8.19) Из уравнения (8.11) мы знаем, что ($1 — А) = $-$ (5), (8.11)  где $ — матрица предельных вероятностей состояний, а < ($) состоит из преобразований чисто переходных со- ставляющих. Если равенство (8.11) подставить в уравне- ние (8,19), то получим  9(5) = [$55 |9 [-- $ $6) | *(0).  о) = = 59-Е; $()9--- $%(0)+$(9%0 ). (8.20)  Исследуем поведение величины У( при больших &, определяя вид прообраза каждого слагаемого равенства  (8.20). Первое слагаемое =x Sq представляет прямую с  наклоном $9: Прообразом второго слагаемого являются постоянная и переходная, экспоненциально убывающая, составляющие величины у (1). Переходная составляющая исчезает при больших #, а постоянная имеет величину  % (0)9. Член Sv (0) имеет своим прообразом скачок  величины ЗУ (0), а член $% ($) у (0) соответствует переход- ным составляющим, которые исчезают при больших f.  138 
Таким образом, когда Ё велико, У ({) имеет вид  у (#) ={59 --$ (0) а-- 5% (0)'. (8.21) Если определим вектор &# прибылей р; равенством g—Sq, (8.22) а вектор У с компонентами о; — соотношением v= $ (0) а-- у (0), (8.23) то уравнение (8.21) примет вид у (1) = #-Еу при больших # (8.24) ИЛИ о: (В =ш:-; при больших &, (8.25)  Полный ожидаемый доход в момент Ё для системы с непрерывным временем, отправляющейся из состояния &, имеет такой же вид, как и соответствующая величина в случае дискретного времени [уравнение (2.16)], с той лишь разницей, что П заменяется на ЕЁ, Для задачи техника  + 5 в 5 1 9 9 1 9 9 |4 в || 44| 9 9 9 9 1 =—S$+ $ (5), О; ' Более подробно: =; где О; — некоторые  i матрицы, не зависящие от $, а А; < 0 — простые характеристиче- ские числа [15]. Следовательно,  2. , БА = @=)) (—“St +h) 4  1 Прообразом Tv $ (5) служит сумма  Второе слагаемое исчезает с ростом [, а первое есть не что иное, как % (0). Аналогичное рассуждение справедливо в случае крат- ных характеристических чисел. (Грим. ред.)  139 
так что  4 5 5 5 | 9 9 8 & $=| 4 5 |= 4 4] 9 9 8 8 6 0] Так как, кроме того, 9 = 3 и У(0) = of? TO из соотношений (8.22) и (8.23) имеем соответственно 5 1 9 # —59 -| | H V=2(0)q= 4 9  Поэтому из уравнения (8.25) следует, что для больших # величины о, (#) и 9,(Ё) можно записать в виде  1, Q=t+2, (Q=t——.  Эти выражения совпадают с полученными ранее.  На этом мы заканчиваем изучение марковских процес- сов с непрерывным временем с данными в каждом со- стоянии нормами выручки. Читателю следует сравнить результаты задачи техника, изученной в этом разделе, с результатами, полученными для аналогичной задачи нгрушечных дел мастера, чтобы уяснить сходство и раз- личия марковских процессов с дискретным и непрерыв- ным временем. Перейдем теперь к задаче принятия ре- шения в случае непрерывного времени.  ЗАДАЧА ПОСЛЕДОВАТЕЛЬНЫХ РЕШЕНИЙ В СЛУЧАЕ НЕПРЕРЫВНОГО ВРЕМЕНИ  Предположим, что наш техник механического цеха должен решить вопрос об организации профилактиче- ского осмотра и ремонта машинного оборудования. Ког- да система находится в состоянии 1, т. е. станок рабо- тает, техник должен решить, какого вида профилактиче- ские мероприятия он будет проводить. Предположим, что если он пользуется нормальными профилактическн- ми процедурами, то аппаратура будет приносить 6 долл. 140 
дохода в единицу времени, а вероятность сломаться за малое время 4 будет равна 54. Заметим, что это эквивалентно тому, что период рабочего времени стан- ка экспоненциально распределен со средним '. Техник имеет также право выбрать более дорогостоя- щую профилактическую процедуру, которая сведет при- быль к 4 долл. в единицу времени, но и уменьшит также вероятность поломки за малое время 4 до 241. Ни при одной из этих схем профилактического ухода штраф за поломку не взимается. Если стратегии в состоянии | 3a- нумеруем числами | и 2 соответственно, то получим для первой стратегии  а =5, и, =6, п,=0  1 и для второй стратегии  2 2 2 Qig= 2, 1, = 4, r=9. Используя равенство (8.16), находим окончательно | 2 gi —би 9 — 4,  Теперь рассмотрим, что может случиться, когда ста- нок не работает, т. е. система находится в состоянии 2. Предположим, что в этом состоянии техник также рас- полагает двумя стратегиями. Во-первых, он может про- изводить ремонт своими силами (используются подчи- ненные ему рабочие). Для этой стратегии ремонт будет стоить | долл. за единицу времени, в течение которого производятся работы, плюс 0,5 долл. фиксированных из- держек, приходящихся на одну поломку. При этом ве- роятность того, что станок будет отремонтирован за ма- лое время 4 равна 44 (время ремонта экспоненциаль- но распределено со средним !/.). Параметрами этой стратегии являются, таким образом,  аи =4, г, —1, = — 0,5.  Согласно равенству (8.16) gs =—1+4(—0,5)—— 3.  Вторая стратегия техника в том случае, когда станок не работает, состоит в приглашении ремонтной бригады извне. Для этой стратегии фиксированные издержки,  141 
приходящиеся на поломку остаются теми же самыми — 0.5 долл. Однако работа этой бригады будет стоить те- перь 1,5 долл. в единицу времени, вероятность же того, что станок будет отремонтирован за время 4, увеличи- вается до 74. Таким образом, для этой стратегии  а =7, №. = — 1,5, го =— 0,5  9 ==: — 1,5-+ 7--(0,5) = -— 9.  Техник должен решить, какой стратегии придержи- ваться в каждом состоянии, чтобы максимизировать при- были при длительной эксплуатации станка. Данные за- дачи сведены в табл. 8.2.  Таблица 8.2 Задача техника Иктенсивность персхода xs Состояние i Crparerua k ах k k |E2 ‘и | “2 |5 x 1 (работающий | | (нормальный профилакти- | —5 5 станок) ческий осмотр) 2 (дорогостоящий профилак- | —2 2 4 тический осмотр) 2 (станок неис- | 1 (ремонт собственными си- 4 1—4 |3 правен) лами) 2 (приглашение — ремонтной 7 |—7 | 5 бригады извне).  Понятия стратегии, решения и вектор-решения пере- носятся с процессов с дискретным временем без измене- ний. В силу того, что каждое из четырех возможных ре- шений, содержащихся в табл. 8.2, порождает эргодиче- ский процесс, прибыли, соответствующие этим реше- ниям, будут.одинаковыми для всех состояний и не будут зависеть от начального состояния системы. Технику хо- телось бы найти решение, которое обеспечит максималь- ную прибыль, т. е. оптимальное решение. Один из способов отыскания такого решения состоит в том, чтобы найти прибыль для каждого из четырех ре- шений ин выбрать то, где она наибольшая. Выполнимый для небольших задач этот способ становится невозмож-  142 
ным для задач с большим числом состояний и большим числом стратегий в каждом состоянии. Заметим также, что рекуррентный метод, допустимый для процессов с дискретным временем, практически не применим в процессах с непрерывным временем. Невоз- можно использовать простые рекуррентные соотноше- ния, которые приведут, в конце концов, к оптимальному решению, так как теперь мы имеем дело с дифферен- циальными, а не с разностными уравнениями '. Для отыскания оптимального решения в процессах большой длительности с непрерывным временем был разработан итерационный метод. Во всех основных по- ложениях он полностью аналогичен процедуре, приме- нявшейся в процессах с дискретным временем. Как н прежде, основой процедуры является итерационный цикл, составленный из блоков определения весов и улучшения решения. Рассмотрим теперь более подроб- но каждую часть цикла. ОПРЕДЕЛЕНИЕ ВЕСОВ  Для данного решения полный ожидаемый доход си- стемы в момент времени # определяется уравнениями (8.17)  м ии ф=е- У а». (8.17)  j=! Так как мы рассматриваем только процессы большой гродолжительности, то для и;(Ё) можно использовать асимптотические выражения (8.25)  v;(4)=tg;-+v; при больших ¢ (8.25) и преобразовать уравяения (8.18) в  N =, 43; (fgi+0;)  j=l  XY 8 | gi=gtty agit >: @а:9,, ‘= 1, 2, ve .,N. (8,26)  j=l j=!  ИЛИ  ' Конечно, можно было бы заменить дифференциальное урав- нение разностным, выбирая достаточно малый шаг разбиения оси времени. Однако это привело бы к резкому увеличению объема вы- числений к дополнительным трудностям, связанным с доказатель- ством сходимости решения разностного уравиения к решению диф- ференциального уравнения н с оценкой погрешности. (Прим. перев.)  143 
Так как уравнения (8.26) должны быть справедливы при всех достаточно больших & то выделяя слагаемое с сомножителем Ё, получаем две системы линейных алге- браических уравнений  М У, аз; =0, i=], 2,...,М, (8.27)  j=l  N gi= G+ ¥ aiv;, i= 1, 2,...,N. (8.28)  j=)  Эти уравнения аналогичны уравнениям (6.3) и (6.4) для процессов с дискретным временем. При помощи уравне- ний (8.27) прибыль в каждом состоянии выражается через прибыли эргодических классов процесса. Если от- носительные веса одного из состояний каждого эргодн- ческого класса положить равными нулю, то уравнения (8.28) можно использовать для нахождения оставшихся относительных весов и прибылей эргодических классов.  УЛУЧШЕНИЕ РЕШЕНИЯ  Предположим, что известно поведение, которое будет оптимальным, если до окончания процесса осталось # единиц времени, и что U;(f) (f=1, 2, ..., №) являются полными ожидаемыми доходами при этом поведении. Рассматривая вопрос о том, какого поведения нужно придерживаться, если в нашем распоряжении имеется более чем { единиц времени, из уравнений (8.17) мы ви- дим, что скорость роста величины и;(Ё) будет наиболь- шей, если максимизировать выражение  N «= У аи, (0. (8.29) j=!  относительно стратегий # в состоянии #. Если Ё велико \, то, используя равенство 9;(1) =#;-+9;, можно получить критерий максимизации в #{-м состоянии в виде  м «Е У а, (в, о) =  ' См. сноску ша стр, 55. (Мрим. перев.) 144 
ИЛИ  М м а: + У ао, У ав; (8.30)  j=l 1=1  При больших Е выражение (8.30) достигает максимума на стратегии, которая максимизирует основной критерий  x А У, Q; 84 (8.31) j=l  использующий прибыли старого решения. Однако, если все стратегии приводят к одному и тому же значению выражения (8.31) или если часть стратегий приводит к одному и тому же его максимальному значению, то среди этих стратегий нужно выбрать ту, которая макси- мизирует дополнительный критерий  N 93 + у; а.о}, (8.32)  j=l  использующий относительные веса старого решения. От- носительные весы могут быть использованы в этом кри- терии, так как постоянная величина не влияет на реше- ние внутри класса. Общий итерационный цикл показан на рис. 8.1. Он полностью соответствует итерационному циклу для слу- чая дискретного времени (рис. 6.1} и имеет такие же свойства с аналогичным доказательством. Правила на- чала и конца итераций остаются без изменения.  ЭРГОДИЧЕСКИЕ ПРОЦЕССЫ  Как обычно, если все возможные в задаче решения приводят к эргодическому процессу, то вычислитель- ная процедура может быть значительно упрощена. В этом случае все состояния каждого марковского про- цесса! имеют одну и ту же (одинаковую) прибыль 2,  1 Марковского процесса, получаемого при любом фиксированном решении. (Прим. перев.)  10—1029 145 
Оценка решения  Используя а;; и 4: для данного решеиня, найти веса и; и прибыли 2; из двух систем уравнений  м N У аа, =, Е=1,2,...,М j=) N И в: =: + У ню, = 2,...,М  j=l  положив по одному из весов и; для каждого эргоди- ческого класса равным нулю.  Улучшение решения  Для каждого состояния # используя прибыли &; предыдущего решения, определить стратегию &, кото- рая максимизирует основной критерий N  у, ai, 8,  1—=1 и принять ее за новое решение в {-м состоянин. Если это выражение имеет одно и то же значс- ние для всех стратегий или, если несколько страте- гий одинаково хорошо удовлетворяют этому критерию, то, используя относительные вэса о; предыдущего ре- шения, нужно определить стратегию А, которая максн- мизирует дополнительный критерий  N t+) ai, 03,  j=l и принять ее за новое решение в #-м состоянии. Независимо от того, основывается ли улучшение решения на основном или дополнительном критернях, если старое решение в #{-м состоянии приводит к столь же большому значению величины критерия, как и любая другая стратегия, необходимо оставить старое решение неизменным. Это правило обеспе- чивает сходимость в случае эквивалентных решений. Когда эта процедура будет повторена для всех состояний, то будет определено новое вектор-реше- ние и получены новые матрицы [@;3] и [41]. Если новое решение совпадает с предыдущим, итерационный про- цесс сошелся и оптимальное решение найдено, в про- тивном случае нужно перейти к верхнему блоку.  owe Ome  146  Рис. 8.1. Общий итерационный цикл для процесса по- следовательных решений с непрерывным временем. 
а определение весов состоит в решении уравнений  м g=G+¥ ai; i=1, 2,...,N (8.33) j=!  при э,=0.  Найденные & и оставшиеся и; используются затем для улучшения решения. Умножение уравнений (8.33) на предельные вероятности состояний 1 и суммирование по всем ft, показывают, что  N & =у, Ti.  i=l  Этот результат был получен и раньше. Процедура улучшения решения становится проще, а именно: для каждого состояния & используя относи- тельные веса предыдущего решения, нужно найти стра- тегию А, которая максимизирует выражение  М k Ё 9; + у a, Us j=1  Эта стратегия становится новым pellleHHeM B i-M COCTOSI- нии. Новое вектор-решение будет найдено, когда эта процедура будет повторена для всех состояний.  Итерационный цикл для эргодической системы с не- прерывным временем показан на рис. 8.2. Он полностью аналогичен циклу, приведенному на рис. 4.2 для процес- сов с дискретным временем. Заметим, что если итера- ционный цикл начинается с улучшения решения при всех и:=0, то в качестве начального отбирается решение, ко- торое максимизирует норму выручки в каждом состоя- нии. Это решение аналогично решению, максимизирую- щему непосредственно ожидаемый доход для процессов с дискретным временем.  Доказательство свойств итерационного цикла в слу- чае непрерывного времени точно соответствует доказа- тельству для случая дискретного времени. Проиллюстри- руем это замечапие, проведя рассуждение, показываю-  10* 147 
щее, что процедура улучшения решения для итерацион- ного цикла (рис. 8.2), действительно улучшает решение.  Определение весов  Используя а;; и 9: для данного решения, найти все относительные веса и; и прибыль g из системы —›> уравнений  м g=a+)) 1:9, i=], 2,...,¥N, j=!  положив UN равным нулю.  Улучшение решения  Для каждого состояния #, используя относитель- ные веса у; предыдущего решения, найти стратегию К’, которая максимизирует выражение  N — Е _\ Uk 9; =У a; 05 =I Затем Е принять за новое решение в {-м состоянии, , 4: заменить на 4’, аа; — на af, .  Рис. 8.2. Итерационный цикл для эргодического процес- са последовательных решений с непрерывным временем.  Рассмотрим два решения А и В. Допустим, что при- менение процедуры улучшения решения к решению А привело к решению В. Тогда справедливо неравенство  4. ву ав. Aaght Vato’,  j=! j=! Если |; определить равенством =P + Vay али, (8.34) |= j=)  то 1:0. Выпишем уравнения определения весов для ре- шений Аи В  =, "у ао), (8.35) =1  148 
g*=9q) + {али (. (8.36) j=!  Если уравнение (8.36) вычесть из уравнения (8.35) и использовать равенство (8.34) для исключения 9—4, то получим  м в“ = Уа,, (©, —о,). (8.37) j=1 Положим в“ = — 5“ ux о = о, — vt . Тогда уравне- ние (8.37) примет вид  1, 2,...,N. (8.38)  |  g aS al y i  Уравнения (8.38) совпадают с уравнениями опреде- ления весов, с той лишь разницей, что первые написаны относительно разностей, а вторые — относительно абсо- лютных значений весов. Мы знаем, что из этих уравне- ний следует равенство  N А В g =) Tis (8.39) i=l где =’ — предельная вероятность состояния { при реше- нии В. Так как все =  HOCTH, g° будет больше 2”, если в каком-нибудь состоя- ний i, которое является эргодическим при решении В, приращение величины критерия  N k А а. + У, а.о; j=l положительно.  Доказательство того, что итерационный цикл должен сойтись к оптимальному решению, совпадает с доказа- тельством, данным в гл. 4 для случая процессов с дис- кретным ‘временем.  HY; неотрицательны, то &^>>0. В част-  149 
ЗАДАЧА ТЕХНИКА  Решим задачу техника, приведенную в табл. 8.2. Какое профилактическое и какое ремонтное обслужива- ние обеспечат наибольший выигрыш на еднницу време- ни? Так как все допустимые решения в этой системе приводят к эргодическим процессам, то может быть использована упрощенная процедура, приведенная на рис. 8.2. Выберем в качестве исходного решение, которое максимизирует норму выручки для каждого состояния. Это решение состоит в применении нормальных профи- лактических процедур и в проведении ремонга своими силами. Для этого решения  li} Pa a} Ls] 1 4 —4 —3 Уравнения (8.33) для определения весов имеют вид в —=6— 5%, 50,, в=— 3+4, —4.. Их решением при о, —=0 является  g=I, v,=—1, 9,=0.  Чтобы найти решение, которое обеспечивает большую прибыль, выполним процедуру улучшения решения, как показано в табл. 8.3.  Таблица 8.3 Улучшение решения в задаче техника | Критерий N Coctoanue i | Crpaterun Rk gr + Y ай о) j=! 1 I 6—5(l)=1 2 4—2(1l)p=2< 2 —5-+7(1 =2-  В качестве лучшего отбирается решение, состоящее в выборе второй стратегии в каждом состоянии. Оказа- лось, что использование дорогостоящего профилактиче- ского обслуживания и привлечение к ремонту рабочих  150 
извне являются более выгодными, чем проведение кор- мальных профилактических работ и ремонта своими си- лами. Используя уравнения (8.33), оценим это решение. Для него  2 —2 2 4 «Е -- откуда получим уравнения в —4—20 2%, в=— 5-70, — 72,. Их решением при 9, =0 является g=2, v=—1, v,=—0.  Заметим, что теперь прибыль больше, чем была раньше.  Мы должны снова обратиться к процедуре улучшения решения, чтобы выяснить, нельзя лин найти еще более лучшее решение. Однако, так как по счастливой случай- ности веса не изменились, процедура улучшения решения  вновь приведет к решению d -= о | Так как это реше-  ние было получено два раза подряд, оно должно быть оптимальным, т. е. технику следует использовать более дорогие профилактические мероприятия и привлекать рабо- чих для ремонта извне. В этом случае он увеличит свои прибыли с1 до 2 долл. в час в среднем. Заметим, что так как о, —0, =1, то технику следовало бы согла- ситься заплатить до 1 долл. за мгновенный ремонт. Чита-  I 2 тель может исследовать решения d= о H d= ] ,  чтобы убедиться, что они приносят менышие заработки в Час, чем оптимальное решение.  РАССМОТРЕНИЕ МЕТОДОВ ВЫЧИСЛЕНИЙ  Из сказанного видно, что определение оптимального решения в процессах с непрерывным временем требует приблизительно такого же количества вычислений, как н решение соответствующей задачи в случае процессов с дискретным временем. Дело в том, что с точки зрения выполнения вычислений оба тнпа процессов эквивалент- ны, так что в обоих случаях может быть использована  151 
одна и та же вычислительная программа. Чтобы прове- рить это, выпишем уравнения (6.3) и (6.4) определения весов для процессов с дискретным временем.  м = У РЫБ» 1—1, 2,...,М, (6.3) ]1=1  м ао: =9:-У раю, t=—1, 2, wo, N. (6.4) 151  Эти уравнения могут быть переписаны следующим обра- 30M:  N Y) (Pi5 — 8:5) 85 =O, j=l  N i= G+ Ni (pis — 2:5) 05, j=l где 8;,;, — символ Кронекера; 8;,,=1 при #=7, 8; =0  при #527. Если теперь положим а; =р.; —8;; то будем иметь  z  + 215385 = 0, j=  5:— 4; +у @:0,. =1  Но эти уравнения совпадают с уравнениями (8.27) ни (8.28) определения весов для процессов с непрерыв- ным временем. Таким образом, если мы имеем програм- му решения уравнений (6.3) и (6.4) для дискретного процесса, мы можем воспользоваться ею при изучении непрерывного процесса, описываемого матрицей А, пре- образуя интенсивности переходов в «псевдовероятности» переходов при помощи соотношения р;у=а;- 8: '. Что касается процедуры улучшения решения, то в слу- чае дискретного процесса с ее помощью среди всех стра-  1 Если для вычислительной программы требуется обеспечить неравенство 0 р;; «1, то необходимо предварительно масшта- бировать а;; так, чтобы —1 ан < 0.  152 
тегий А в состоянии { выбирается такая, для которой вы-  ражение м Ё у, P, 83 j=1  максимально.  Если же таких стратегий несколько, то среди них вы- бирается такая, которая дает наибольшее значение вели-  чине А ~ ke + у; P, ;P3- j=!  Так как на решение влияют лишь члены, зависящие от #, то наши решения останутся неизменными, если критерии максимизации в состоянии # заменить на  N N У (р, а и 9 -+У@,— до j=! =  Если обозначить а, ==р',—8;;, то величины, которые должны быть максимизированы, можно записать в виде  ye В; и b+ Yate,  в котором они совпадают с критериями максимизации для процедуры улучшения решения в случае непрерыв- ных процессов. В результате видно, что вычислительная программа улучшения решения для дискретного процес- са может быть использована для непрерывного процес- са, если произвести преобразование  Р,=@, + Bie  Таким образом, дискретный и непрерывный процес- сы последовательных решений эквиваленты с точки зре- ния выполнения вычислений. При помощи простого пре- образования данных одну и ту же вычислительную про- грамму можно использовать для решения задач, связан- ных с процессами того и другого типа.  153 
ПРОЦЕСС ПОСЛЕДОВАТЕЛЬНЫХ РЕШЕНИЙ С НЕПРЕРЫВНЫМ ВРЕМЕНЕМ И ПЕРЕОЦЕНКОЙ  В гл. 7 мы изучили дискретный процесс последова- тельных решений с переоценкой, или с неопределенной длительностью. Можно также рассматривать непрерыв- ные процессы последовательных решений с переоценкой или с неопределенной длительностью, внеся соответст- вующие изменения в определения. А именно, определим норму переоценки О<а«с как скорость изменения стоимости денег — скажем, что мы имеем дело с нормой переоценки а, если сумма в |—а 4Ё денежных единиц через короткий интервал времени 4 будет оцениваться в | единицу. Это определение соответствует случаю, ког- да переоценка производится непрерывно. Другая интер- претация величины а, которая удобна для процессов неопределенной длительности, состоит в том, что сущест- вует вероятность @а4{ того, что процесс закончится за короткий интервал времени 4. Если 9:(Р) представляет собой полный ожидаемый к моменту времени { доход от такого процесса, то по аналогии с уравнением (8.15) можно написать  v; (t+ dt) =(1 — ad?) {(1 — У, 4:4! [r «dt +0; (6) + isi  + Yi aijdt [rig 93 (1 } (8.40) |=  В этом уравнении предполагается, что доходы вы- плачиваются в коние интервала 4 и что процесс не при- носит дохода в результате окончания. Используя опре- деление, даваемое равенством (8.2), уравнение (8.40) можно переписать следующим образом:  9: (f+ df) = (1 — adt) {(1 аа [ridt-+o,; (t)] -+ У аа и, о, (ay  р НЛИ  04 (t+ dt) =(1—adt) [(ris + ¥) ausrig) Чо + 54  м + У аш 0 at] [=  154 
Uv; (¢+ dt)= (res Yairi] dt +o; (é)+  ри  +У a,;dtv; (f) — аа; (f), j=1  где пренебрегаем членами порядка выше 4.  Учитывая равенство (8.16) и переставляя члены, полу- чаем  м 0; (t-+ dt) — 0, (ft) adto; (t) = gidt + Yai jdt; ().  j=!  Если это уравнение разделить на 4Ё и перейти к пределу при %&, стремящемся к нулю, то будем иметь  dv, п ву (2), i=l, 2,...,N. (8.41)  Уравнения (8.41) аналогичны уравнениям (8.17) и сво- дятся к ним при а =0. В векторной форме уравнения (8.41) принимают вид  A ©  Lay (t)=q-+ Avi). (8.42)  Так как уравнение (8.42) является линейным дифферен- циальным уравнением с постоянными коэффициентами, то для его решения можно воспользоваться преобразованием Лапласа, что дает  50 (5) —ч(0)-а9 (5) = 9- Ао (5), [(s +a) 1— A] o(s)=—q+v(0), o(s)=— [(s +4)1— A}-'q-+[(s Fa) I— A} vO). (8.43)  Можно было бы использовать равенство (8.43) и обрат- ное преобразование вектора 9($), чтобы найти \у() для данного процесса. Однако так как мы рассматриваем лишь процессы большой продолжительности, то нас интересует лишь асимптотическое поведение v(t) при больших f.  155 
Напомним, что согласно равенству (8.11) (s] — A)-' =+S$+42(s), (8.11) где $% — матрица предельных вероятностей состояний,  а $ ($) — матрица, состоящая только из переходных со- ставляющих. Отсюда следует, что  (в -адт— А] =. (а), — (8.44)  так что все компоненты матрицы [(5 а) 1 — А]-' являются переходными. Если равенство (8.44) подставить в уравне- ние (8.43), то получим  9 ($) = — > [spaSt2(st+e)] a+ + [ра 6-9) v (0). (8.45)  Выясним теперь, какие компоненты вектора у (#) будут 1 1 оставаться конечными при больших Е. Матрица | та $ --  +2 (s+ а) | ‚ умножаемая на 9, содержит скачкообраз-  I ную компоненту величины —S-+ 2a); все остальные  члены уравнения (8.45) представляют собой составляющие вектора У (1), которые стремятся к нулю с ростом Ё. Сле- довательно, если определить вектор у предельных дохо- дов с’компонентами и; как  у = lim у (0), то будем иметь — |; S +- $ (о) Я или, используя равенство (8.11), У— («1 —А)-*4. (8.46)  Компоненты вектора У представляют собой переоце- ненные будущие доходы за очень болышое время, если система отправляется из соответствующих состояний.  156 
Уравнение (8.46) показывает, как эти предельные до- ходы связаны с коэффициентом переоценки а, матрицей ин- тенсивностей переходов А и вектором нормы выручки 4. Уравнение (8.46) может быть записано также в виде  N a0;=g;+ у. Q;;?j, i= l, 2, say М. (8.47) j=!  Из уравнений (8.47) можно найти предельные доходы лю-  бого непрерывного процесса последовательных решений с переоценкой.  УЛУЧШЕНИЕ РЕШЕНИЯ  Нам нужно не только оценить данное решение, но также и найти решение, которое имеет наивысшие пре- дельные доходы во всех состояниях. Хорошо было бы иметь метод решения задач подобных той, которая пред- ставлена в табл. 8.2, в случае, когда переоценка должна быть учтена. Уравнения (8.47) позволяют определять предельные доходы. Рассмотрим процедуру улучшения решения. Для того чтобы скорость роста величины 9; (1) в мо- мент времени Е была максимальной, нужно максимизи- ровать относительно всех стратегий Ё в 1-м состоянии выражение  N qq + у а.о (#) — 05; (1) 1=1  [(см. уравнение (8.41)]. Если нас интересуют только большие значения време- ни р то вместо и;(ЁГ) можно использовать предельные доходы и; и получить критерий максимизации в виде  м А А 4. У, а, 0; — ао. j=l  Однако так как значения о; не зависят от №, то в каче-  стве критерия (величины, которая должна быть макси- мизирована относительно всех стратегий Ё в состоя- нии 1) достаточно взять выражение  А А g.+ У a, i. i=! 157 
Процедура улучшения решения состоит, таким обра- зом, в том, чтобы для каждого состояния i, используя предельные доходы предыдущего решения, найти стра- тегию А, которая максимизирует сумму  N R ‘ee: q,+ Ya) Yi  j=l  Найдленная стратегия становится новым решением в {-м состоянии. Новое вектор-решение будет опреде- лено, когда процедура улучшения решения будет про- делана для всех состояний. Предельные доходы этого  Определение предельных доходов  Используя а;; и gy AAA данного решения, опре- делить все предельные доходы и; из системы урав- —+| нений —  м аи: = 4: + У, 44,0), i=l, 2,...,WN. j=!  vv  Улучшение решения  Используя предельные доходы и; предыдущего решения, найти для каждого состояния $ стратегвю к’, которая максимизирует выраженве  N — k k - 9 + у Qi, U5. isl Затем Ё’ принять за новое решение в состоянви Z,  ke Re 9: заменить на $] ‚а &:; — на а, .  Рис. 8.3. Итерационный цикл для процесса с непрерыв- ным временем и переоценкой.  нового решения должны быть больше предельных до- ходов предыдущего, если только эти решения не тожде- ственны. В последнем случае найдено оптимальное ре- ’ шение. Процедуры определения предельных доходов и улуч- шения решения объединены в итерационный цикл, по- казанный на рис. 8.3. Правила начала и прекращения итераций те же самые ‚ что и в ранее рассмотренных слу-  158 
чаях. Докажем теперь некоторые свойства 'итерацион- ного Цикла, придерживаясь метода, предложенного в гл. 7 для случая дискретных процессов.  Предположим, что в результате выполнения одной итерации решение А заменяется решением В. В этом слу- чае в каждом состоянии  9. PLY ate “>49 У а, о,  j=! или, что то же,  N N __ в ВА А м АА =; +3) alo — 9. У. а, >20 для всех Г, =!) j=! где 1; — приращение, которое получает величина критерия в {-м состоянии в результате улучшения решения. Для  самих решений А и В уравнения определения предельных доходов имеют вид  au —=4, "4S ate? 5°  j=1  Если первое равенство вычесть из второго и выраже-  ние для 1; использовать для исключения разности  4: — 4%, то получим  N а (9 —0^) =1; У а, (и, — о)  j=!  +y a, "  где 0. =0,—0^. Эти уравнения совпадают с уравнениями  определения предельных доходов, если не считать того, что они написаны относительно приращений доходов, а не  159 
их абсолютных величин. В векторной форме их решение удовлетворяет соотношению  У" = (а1 — А)-1,  где ‘7 — вектор с компонентами 1:.  Из физических соображений или на основании матема- тических свойств матрицы (а1 — А)-*, можно утверждать, что все ее элементы неотрицательны, так же как и у ма- трицы (Г — ВР)-* в случае дискретных процессов. Если какое-нибудь 1; >0, то по крайней мере одно значе- ние у’ должно быть болыше нуля, и ни одно из них не  может быть меньше нуля. Процедура улучшения решения должна увеличить предельный доход по крайней мере одного из состояний и не может уменьшить эти доходы ни для одного из состояний.  При этом процесс последовательного улучшения реше- ния не может сходится к решению А, если решение В имеет болышие предельные доходы. Действительно, в про- тивном случае окажется, что все 1:0, в то время как  А по крайней мере одно 0, >0, что противоречит выведен-  ному выше соотношению. Если итерационный цикл схо- дится к некоторому решению, то соответствующие ему предельные доходы больше, чем доходы любого другого неэквивалентного решения.  ПРИМЕР  Воспользуемся полученными результатами для опреде- ления оптимального решения в задаче последовательных  решений, представленной в табл. 8.2, при a=, Эго  может означать, например, что продолжительность ра- боты техника экспоненциально распределена со средним в 9 час или что в некоторое предприятие вложены деньги и важное значение имеет норма прибыли. Как обычно, в качестве исходного выбираем решение, максимизирую- щее норму выручки:  «Г:  160 
Для него уравнения (8.47) определения предельных дохо- дов имеют вид  1 1 © , == 6 — 50, -- 5%,, > %, = — 3+ 40, — 40,.  Их решением является 788 702  Mpg Oa 82°  Для того чтобы найти лучшее решение, выполним про- цедуру улучшения решения, как показано в табл. 8.4.  Таблица 8.4  Первое улучшение решеиня в задаче техника с учетом переоценки  М Состоя- Y 4 Hue i Стратегия # Критерий + у а i о, j=)  783 _702_ 87  6—5-55-+5-55= во 2 4 oe 2 1 Е 2 ее  Оказывается, что выбор второй стратегии в каждом со- стоянии образует лучшее решение  а— 2 ‚ А— —2 2 ‚ а= 4 , 2 7—7 —5 В этом случае уравнения (8.47) определения предельных  доходов имеют вид  40, =4-— 20, + 20, 5 0, —=— 5-79, — 70,.  11—1029 161 
Их решением является  __ 1494 __ 1413 91—82 = 82 -  Заметим, что предельные доходы возросли. Снова обращаясь к процедуре улучшения решения, получим результаты, представленные в табл. 8.5.  Таблыьца 8.5  Второе улучшение решения в задаче техника с учетом переоценки  Критерий  N Состояние { | Стратегия # ь k 9; + у в ;} j=  87 82 166 82 78 82 157 82 —  Так как разность и, —0, осталась неизменной, то и значения критерия будут теми же самыми, что и в табл. 8.4,  2 т. е. новым будет решение “|. и, так как оно по-  лучено два раза подряд, оно является оптимальным. Пре- дельные доходы во всех состояниях для него больше, чем для любого другого решения.  Даже если ожидаемая! длительность процесса рав- на только 9 час, технику следует пользоваться уси- ленными профилактическими мероприятиями н услугами посторонних ремонтных организаций.  ' См. сноску на стр. 30 (Прим. перев.) 162 
СРАВНЕНИЕ ПРОЦЕССОВ ПОСЛЕДОВАТЕЛЬНЫХ РЕШЕНИЙ С ДИСКРЕТНЫМ И НЕПРЕРЫВНЫМ ВРЕМЕНЕМ  В случае, когда учитывается переоценка, уравнения определения предельных доходов в процессе последова- тельных решений с дискретным временем имеют вид  N о: =4:-Н ВУ, Рио» i=1, 2,...,N. (7.9) i=)  Если для решения этой системы уравнений состав- лена программа вычислений на ЦВМ, то можно поста- вить вопрос: нельзя ли использовать ее в случае про- цессов с непрерывным временем? Для этого случая ана- логичными уравнениями являются  м a= Fit У а, i=1, 2,...,N, (8.48) 1=1  где штрих у 4’; указывает, что соответствующая величина относится к процессу с непрерывным временем. Можно положить 4;;=р;:/—8;; и написать уравнения (8.48) в виде  м аи; =9.- у (Pi; — 845) 0; j=! или  М (1) :=9:-Н У, р; 1=1  м ] 1 vi] palit; ча ры. j=!  1  — ‚— Fi Бели положить В — а и 91 = тра’ то  м о: =4: ВУ, Рю: 1—1  Полученная система уравнений совпадает с аналогичной системой (7.9) для процессов с дискретным временем.  11* 163 
Таким образом, если рассматривается процесс с непре- рывным временем, описываемый данными а, Фи А, то для определения предельных доходов можно воспользо- ваться программой, составленной для процесса с дискрет- ным временем, положив В, ди Р равными  1 ' Втр, 9=4, РА  В процедуре улучшения решения в случае процессов с дискретным временем критерий максимизации опреде- ляется выражением  м Е « ok 9. + B У, Р;.5;. j=l В случае процесса с непрерывным временем он имеет вид  м *he Rk q, +¥ @ , 03.  Эта величина может быть переписана следующим обра- 30M:  N q+ У, (i, — 855) 05, j=!  h ke где @,,=p,,— ij. Tak Kak 0; He 3aBHCHT от №, то по- следнее выражение эквивалентно сумме  N q+ у р... =]  Если положить 9“ == (1/3) Ч ‚ где В—=1/(1 а), то эта сумма примет вид  м 1 ++) рн. 1—1  Это выражение пропорционально критерию максимизации для процессов с дискретным временем  N А 4 + B У. P, i. j=! 164 
Таким образом, то же самое преобразование, которое позволило нам для решения уравнений определения пре- дельных доходов использовать программу, составленную для процессов с дискретным временем, дает возмож- ность применить ее при улучшении решения. Мы видим, что при соответствующем преобразова- ани одна и та же программа пригодна как для случая дискретных, так и непрерывных процессов с переоцен- кой. Так как раньше мы установили ту же самую связь для случая процессов без переоценки, то ясно, что оба типа процессов как с переоценкой, так и без переоценки полностью эквивалентны с точки зрения выполнения вы- числений. 
ГЛАВА 9 ЗАКЛЮЧЕНИЕ  Рассмотреннем нроцессов с непрерывцым временем мы завершили ипастоящее исследование динамического программирования и марковских процессов. Было пока- зано, что гпализ марковских процессов с дискретным временем аналогичен анализу процессов с непрерывным временем. В первом случае мощным аналитическим аппаратом является 7-преобразование, а во втором эту роль выполняет преобразование Лапласа. При этом со- ответствующее преобразование позволяло анализировать особые случаи периодичности и наличия нескольких эргодических классов, очень трудные при других анали- тических подходах. Даже когда рассматривается процесс с доходами, ме- тоды преобразования полезны при вычислении полных сжидаемых доходов как фуикции времени и для опреде- ления их асимптотического поведепия. Система, рабо- тающая при фиксированном решении, полностью опреде- лена, если известны ее полные ожидаемые доходы. Наиболее интересным является случай, когда имеет- ся возможность путем выбора стратегий управлять си- стемой. В этом случае нужно найти набор стратегий, или решение, обеспечивающее максимум полного ожидаемо- го дохода. Если рассматривается система с дискретным временем и необходимо максимизировать полный ожн- даемый доход только на несколько шагов процесса, то можно воспользоваться рекуррентным методом. Однако, если предположить, что процесс имеет бесконечную про- должительность, то следует предпочесть итерационный метод. Этот метод позволяет найти решение, которое обес- печивает большую среднюю прибыль за один переход.  166 
Серьезных затруднений не возникает, если в процес- сах возможно наличие нескольких эргодических классов. Рассматриваемая схема вычислений проста, практична и легко осуществима на ЦВМ. Однако, еслн нужно максимизировать полный ожи- даемый доход для системы с непрерывным временем, то наш выбор более ограничен. Непрерывный аналог рекуррентного метода настолько труден, что на практи- ке необходимо прибегать к упрощениям. Если нас осо- беино интересуют процессы небольшой продолжитель- ности, то наиболее удобным способом является аппрок- симация процесса с непрерывным времепем процессом с дискретным временем с последующим использованием рекуррентного метода.  Если, с другой стороны, мы рассматриваем процесс большой продолжительности, то, также как и в случае дискретного времени, применим итерационный метод. Более того, вычислительные процедуры для процессов обоих типов настолько схожи, что одна и та же стан- дартная программа для вычислительной машины будет пригодна для решения задач обоих классов. Для про- цессов с непрерывным временем итерационный метод особенно ценен ввиду отсутствия подходящей замены.  Мы нашли, что наличие переоценки не меняет основ- ного характера проблемы принятия решения. Предыду- щие замечания относительно рекуррентного и итера- иионного методов для процессов с дискретным и непре- рывным временем справедливы в равной степени ив этом случае. Однако при наличии переоценки появля- ются интересные особенности. Во-первых, для процессов большой продолжительности понятие прибыли заменяет- ся понятием предельного дохода и нашей целью при улучшении решения является максимизация предельных доходов во всех состояниях. Во-вторых, при вычислениях можно не принимать во внимание наличие у процесса нескольких эргодических классов. В-третьих, будут су- ществовать области значений коэффициента переоценки, в которых оптимальное решение одно и то же. Эти осо- бенности, однако, очень мало меняют методику вычисле- пий. Хорошо составленная программа для вычислитель- ной машины может быть использована при решении за- дачи как в случае дискретного, так и непрерывного вре- мени, с переоценкой или без нее.  167 
Когда бы итерационный метод ни применялся, побоч- ным результатом вычисления оптимального решения бу- дет набор весов для состояний, которые позволяют оце- нить допустимые отклонения от этого решения при осо- бых обстоятельствах. Для большинства систем эти веса более интересны и полезны, чем это может показаться, судя по их проис- хождению. При использовании этих величин важно, однако, помнить, что они имеют силу в предположении, что оптимальное решение применяется почти всегда. Приведенные примеры (о водителе такси, замене автомобиля и т. д.) сильно упрощены и служат лишь для пробуждения интереса к возможным приложениям. При выборе таких приложений нужно ответить на сле- дующие вопросы. Можно ли систему адекватно описать достаточно малым числом состояний, чтобы решение соответствующей системы уравнений было выполнимо с точки зрения проведения вычислений? Имеются ли данные, необходимые для описания возможных страте- гий? Если ответы на эти вопросы положительны, то воз- можное приложение найдено!. Имеются все основания верить, что в соединении с аккуратной работой это при- ложение будет удачным.  ПРИЛОЖЕНИЕ  Связь между возвратными и невозвратными состояниями  При определении весов для эргодического процесса необходимо решить относительно 9; и & систему  N getu=at+y раю» #=1,2,...М. (4.1) j=)  Перенося члены с неизвестными влево, имеем N q 0: — Ури РЕ =9:. j=)  ГВ первую очередь все же нужно ответить на вопрос, возможно aH описание исследуемой системы марковским процессом. (Прим. перев.  168 
Если положить, например, v,, =O, To  N-I у, (6;; — р); На=дь (17.1) i=! О если #52] 1 ecu i=j Если ввести матрицу М с элементами /n;;  М = [т],  mij 84; — р: для |< М my =I,  где bul  TO  1 — р, — Drs ose Pi N-1 1]  —Р., 1—p,,: .. Po, м —1 М — . . . .  ph  ный @ 6 s  —Рм, -—Ры2--- Вы, м  Заметим, что матрица М получена из матрицы Р путем изменения знаков всех элементов, добавления единиц к элементам главной диагонали и замены последнего столбца единицами.  <  Если ввести также вектор У с компонентами  м  и: =; при ё< М,  9, —&, TO _ о, — 9. У — . . | ` & J  169 
Уравнение (П.Т) относительно и; и & можно записать тогда в матричной форме как  Mv — 9 ИЛИ  v=M-'q, (11.2)  где q— вектор непосредственно ожидаемых доходов. Мат- рица М-' существует, если как мы предполагали система эргодична. Таким образом, обращая М и затем умножая М-' справа на 4, получаем величины би 9; для всех 157% М —1. Предположим, что состояние М является возвратным и поглощающим, так что р,,==0 для 75М и ру, =1. Пусть, кроме того, среди остальных № — 1 состояний нет возвратных. Мы знаем, что  v=M-'q, где предполагается, что М имеет вид П—Рь —Рь +e) ма 1 —Pun ПР -.. Руна |1 М = . . — Ри, г Pyar, 2+ 1 Рим 1  0 0 ... 0 11  — I _  Пусть М разделена на подматрицы следующим образом:  ЧЕН 0... т |’  причем свойства \ и Ё очевидны из сравнения с опреде- ленной выше матрицей М. Из соотношений для подмат-  риц имеем М-! —= _ |” f . 00... 0} 1  170 
Ясно, что ММ-! = М-!1М —1, как и требовалось. Зная вид #, легко видеть, что каждый элемент первых М— 1 строк последнего столбца матрицы М-' равен сумме пер- вых ММ—1 элементов соответствующей строки, взятой с обратным знаком. Следовательно, из уравнения (П.2) BHQHO, ITO g=—q,, Как и следовало ожидать.  Каков смысл матриц \/-' и \`Ч?  Выведем соотношения, определяющие, сколько раз система окажется в любом невозвратном состоянии прежде чем она попадает в возвратное состояние. Пусть и;; будет числом, показывающим, сколько раз в среднем система, выходящая из состояния Е, окажется в состоя- нии 7 прежде чем она перейдет в состояние М.  Для и;; имеют место соотношения равновесия м—1  и; = У икры - 81, i, fj=l,....N—1, (11.3) k=1  Уравнение (1.3) может быть выведено следующим образом. Для заданного исходного состояния # число пе- реходов через состояние | зависит главным образом от его вероятностных связей с другими состояниями. На- пример, если система в среднем и; раз попадает в не- которое состояние Ё, причем в доле ри; случаев она пе- реходит в состояние [, то ожидаемое число переходов из состояния А в состояние } равно изжрь;. Чтобы получить величину и, нужно просуммировать эти произведения по всем состояниям А, кроме погло- шающего, в результате чего получим первый член ра- венства (П.3). Кроме того, величину и;; следует увели- чить на |, если исходным состоянием системы является состояние |. Это объясняет появление члена 4;; в равен- стве (11.3).  Введем квадратную матрицу Ч порядка (М— 1) с эле- ментами и:;. Тогда, если записать равенство (П.З) в виде  у, ик (бк; — Рь;) =68.,, k=!  очевидно, что оно эквивалентно матричной записи ОМ —=1 
ИЛИ W-'=U.  Итак, матрица \-* равна матрице Ч, каждый эле- мент на пересечении 1-Й строки и ]-го столбца которой является средним числом попаданий в состояние jf, если начальным было состояние #. Так как эти величины должны быть неотрицательными, то и элементы матрицы \/-! также неотрицательны.  Матрица \М или Ц! имеет вид [“t'1—"*'**'P), petpe- чавшийся в равенстве (6.23).  Под и:;; здесь понимается ожидаемое число попаданий системы, выходящей из состояния & (принадлежащего 2-1 группе невозвратных состояний), в состояние | той же группы, которое произойдет до того, как эта система перейдет в один из эргодических классов. При таком  определении элементы матрицы ["*+'1— “+! 2+1Р]-1 должны быть неотрицательными. Используя равенство \/-* =, уравнение (П.2) и рас- члененный вид матрицы М-' можно записать м—1 М—1 q . 0; = У, #::9; — 9» У, и, i=1,...,N—1 =1 j=! WH N—-1 N—I 0; = Yi 4 — 8 У ил i=1,...,N—1. (11.4) j=1 j=l Величина 9; представляет собой сумму произведений ожидаемого числа попаданий системы (выходящей из состояния {Г} в состояние | на непосредственно ожида:. емый доход в состоянии ] без полного числа ее перехо- дов из состояния & в возвратные состояния, умноженного на прибыль в состоянии №.  В частности, если доход д, в возвратном состоянии равен нулю, а все 4:0 при 1 <#«М—1, то  N о: =) 415950, 1<i<N—1. j=!  Предположим, что мы исследуем различные решения для системы, которая имеет только одно возвратное со-  172 
стояние — состояние №. Предположим далее, что на не- котором шаге мы нашли решение В, улучшающее реше- ние А. Изменения в прибыли и весах должны удовле- творять уравнениям (4.11)  N ии: рей, 1=1,2,...,М. (4,11) j=!  Так как для этой частной системы написанные уравнения эквивалентны равенствам (11.4), то  м N Уи: Уи, i=), 2,..4N—1. j=1 =  А Если прибыли для решений Аи В равны, то & =0 и в правой части равенства останется только сумма неот-  А рицательных членов, так что величина 9 i должна быть  неотрицательной. Мы видим, таким образом, что если уве- личение прибыли невозможно, то с помощью процедуры улучшения решения можно пытаться максимизировать веса невозвратных состояний.  Если вместо «единственное возвратное состояние» го- ворить «эргодический класс с прибылью 2», то предыду- щее рассуждение фактически не изменится. Процедура улучшения решения будет максимизировать как при- быль эргодического класса, так и веса невозвратных со- стояний, которые приводят к этому классу.  ДОПОЛНЕНИЕ  Рассмотрим вопрос о том, как в системе массового обслуживания выбрать дисциплину обслуживания, ма- ксимизирующую производительность некоторой системы. Сформулируем некоторую задачу, назвав ее, следуя стилю автора, задачей токаря. Однако специалист, рабо- тающий в области исследования операций, сразу увидит возможность постановки и решения более серьезных задач. Предположим, что токарь обслуживает п одинаковых станков и обрабатывает на них детали 2 типов — первого и второго. Детали первого типа поступают из потока в случайные моменты времени, а детали второго типа  173 
находятся на складе и могут быть направлены на обра- ботку в любой момент времени. Обработанные детали неразличимы. Если к моменту поступления детали пер- вого типа все станки оказались занятыми, то эта деталь «теряется» (например сразу превращается в деталь вто- рого типа и направляется на склад). Предположим, что за время 4Ё с вероятностью Adt гоступит одна деталь первого типа, а обработка любой из деталей первого или второго типов, находящейся ua станке, будет закончена за это время с вероятиостя- ми ди ^ 4Ё соответственно.  Эти предположения соответствуют тому, что интервал времени < между поступлениями деталей первого типа  1 имсст экспоненциальное распределение со средним —,  а времена обработки деталей первого и второго типов  экспоненциально распределены со средними — и -,  соответственно.  Можно сформулировать различные правила обработ- ки деталей. Например, можно обрабатывать либо только летали первого типа, либо только детали второго типа.  В дальнейшем задача будет сформулирована более подробно, здесь отметим лишь, что токарь заинтересо- ван в увеличении производительности цеха, т. е. должен выбрать такое правило, которое позволило бы при дан- чых параметрах А, ц и » максимизировать эту произво- дительность. Посмотрим, как эту задачу можно свести к модели, рассмотренной Ховардом, и воспользуемся предложен- пым им методом для ее решения при некоторых кон- кретных данных.  1 1 Заметнм прежде всего, что если y=,» TO правило  для определения поведения токаря очевидно, а именно: нужно обрабатывать только детали второго типа (так как среднее время их обработки в этом случае меньше или равно среднему времени обработки деталей первого типа).  » | | Рассмотрим поэтому случай -- >».  Заметим далее, что токарь может принимать какое- либо решение лишь на основании наблюдения за состоя-  174 
нием системы, а так как состояния системы изменяются лишь в случайные моменты времени поступления детали первого типа или окончания обслуживания какой-либо детали обонх типов, то и решение должно приниматься только в эти моменты времени. При этом так как „<, то терять деталь первого типа невыгодно, ибо она обрабатывается в среднем быстрее детали второго типа, поэтому в момент ее по- ступления оптимальное решение очевидно: если свободен хотя бы один из станков, то токарь должен сразу же направить деталь на любой из них для обработки. Итак, имея в виду сделанные замечания, нетрудно понять, что токарь должен принимать решения лишь в моменты Ё, окончания обработки Деталей. Будем говорить, что в некоторый момент времени сн- стема находится в состоянии (#7), если в данный момент обрабатывается & деталей первого и ] деталей второго типов. Если поведение токаря определяется некоторым правилом, То в моменты {, система может находиться  n(n+l = .; . в одном из М тео. состояний (#]), причем O<i-+- --7=п — 1, Множество состояний системы изображено  на рис. Д.1., Для удобства записи в’ дальнейшем будем обозначать состояния одним индексом ] по формуле  y= CEM ES Tl (ij), (д.1)  В каждом состоянии 1 у токаря имеется две страте- гии: не направлять деталь второго типа на обработку (Е=1) и направить эту деталь на обработку (Ё=2). Если фиксировать в каждом состоянии некоторую стра- тегию, то получим вектор-решение, которое определяет дисциплину обработки деталей второго типа. Поэтому в дальнейшем вектор-решение будем пазывать дисции- линой. В силу сделанных предположений при любой фикси- рованной дисциплине обработки деталей второго типа работа системы описывается марковским процессом с непрерывным временем. Интенсивности переходов  ' Будем считать, что в момент #{; обработанная деталь уже по- кинула систему.  175 
Так как процесс, описывающий работу системы, марков- ский, то вероятность перехода (:;) — (1т) за один шаг по цепи можно найти, перемножив соответствующие вероятности в последовательности переходов процесса. Эти вероятности легко вычисляются по интенсивностям переходов (Д.2).  Учитывая эти замечания, при А=| найдем  Г А - 1+1  i А( 1+1) т для т ==}, По+зь+л)  1 58  Ща Рь=Р,, mw А -1 , tI Вы для m=j—l.  TT 4+ sp +p) | s=t  (1.3)  Если провести аналогичные рассуждения для k==2, то получим  f Ri-t+i ; 1 - А+) AAA m=j+l, Mots 4+ G44 2 _ „9 __ sat Pay Pistm hint ix В (ть!) ANA N=]. | [A+ sp + +1) J 1 8=& (Д.4) В этих формулах Аз» и Ви обозначают: # { . Thien MM bm <n, Aim = ts ——-—— npu /-+m—n, hy. -- my ) (Д.5) [ Llp pay при {-- т < п, Вы— my . —_ —n, ia tom при {т  12—1029 177 
Переходя к определению доходов, заметим, что при любой дисциплине обработки деталей второго типа произво- дительность системы } обратно пропорциональна математн- ческому ожиданию времени между двумя последовательно обработанными деталями М (#,., —&.). Замечая еще, что для решения задачи достаточно знать непосредственно ожидаемые доходы, определим величину непосредственно ожидаемого дохода =9,. в состоянии 1 (#7) как сред- нее время ожидания конца обработки очередной детали, если к моменту окончания обработки предыдущей детали система находилась в состоянии 1с>(1]) и была принята стратегия &,  Для вычисления величин 4: заметим, что =, jis  ‘) и 9, =4,,=9iuen где 0;; — среднее время ожидания окончания обработки очередной детали при условии, что в данный момент система находится в состоянии (#)). Для вычисления величин 8;; воспользуемся рекуррент- ным соотношением  1 . Ma-95= ум 09791,  __ А 1 А 1 | . . Норы) Эаырр Евы, 0424871 (Д.6)  Для объяснения этих формул заметим, что в силу сделанных предположений об экспоненциальности распре- деления времени между поступлениями деталел лерво- го типа и времени обслуживания деталей как лерво- го, Так и второго типов, среднее время пребывания си- стемы в состоянии ({) равно Tet Если система находится в состоянии (#7), причем [-|-]< п, то либо  с вероятностью ait будет закончена обработка  вл  одной детали, либо с вероятностью поступит  А A+ ip + jv еще одна деталь первого типа. Если система находится в состоянии (#), причем #--]==и, то всякая поступаю- щая деталь первого типа теряется и среднее время до  окончания обработки очередной детали равно  ips jv * [78 
Теперь все готово для того, чтобы воспользоваться методом Ховарда, однако для удобства вычислений за- дачу можно значительно упростить. Именно, при фикси- рованном № решение зависит лишь от двух параметров:  У pt и <—-.. Покажем это.  Действительно, нетрудно видеть, поделив числитель н знаменатель выражений (Д.3)—(Д.5) на А, что вероят-  ности переходов зависят лишь от отношений p= i и ==  У  Х: Обозначим далее 6:;=8,.. Тогда рекуррентные фор- мулы (Д.6) примут вид  ~ 1 . ии ура, 0<7<”,  3  = | 05s= THe (+4415), O<i<n—j—1, AY  Если обозначить 4, ==44, , то величины Ч будут за- висеть уже только от р и в.  Мы знаем, что при линейном преобразовании непо- средственно ожидаемых доходов вектор-решение не меняется, а прибыль изменяется согласно тому же ли- нейному закону. Поэтому при вычислениях можно огра- ничиться случаем  `^ у № — — —в  A=! :  ?  ae &— 7D  —  и получить решепие задачи для этих значений пара- метров.  Решение исходной задачи примет вид  -_  Е  о | —  Воспользуемся сделанным замечанием при дальней- шнх расчетах.  12* 179 
Для того чтобы проследить, как производятся вычис- ления, рассмотрим конкретный пример: 1  n=3, A=l, p=2, v= 5.  Рассчитанные по формулам (Д.3) — (Д.7) данные для  задачн токаря при этих значениях параметров сведены в табл. Д.1.  Таблица Д.1 Данные для задачи токаря при п =3, ^= 1 в ==2, у == 0,5 Состояние Вероятностн Непосредст- Страте " k k Ь в в k wera Доход ГИЯ т И Ро | Ру 212 | Руз | Pra 2.5 9; 0] 00 1 2/3 | 0 [4/15] 0 О | 1/15 1,411 2 1/3 | 8/21 | 2/21] 9 32/189) 4/189 | 0,899 +- Г 01 ] 1/3 | 8/21 |2;21 | 0 |32/189) 4/189 | 0,899 2 0 | 1/2] 0 | 1/3 | U/6 0 0,666 21 10 ] 23| 0 14/15] 0 О | 1/15 0,411 2 О 14/7 | 1/7 |] O | 16/63] 2/63 0,349 — 3] 02 I 0 1121 0 |131 1/6 0 0.666 2 0 0 0 ] 0 0 0,666 — 4| п ] O | 4/7 | 17| 0 116/63| 2/63 | 0.349 2 0 0 0 | 2/3 | 13 0 0,333 5| 20 ] 0 О |451 0 0 1/5 0,233 2 0 0 0 0 8/9 1/9 0,222 +  Из табл. Д.1 видно, что дисциплина, минимизирую- щая время до окончания обработки ближайшей детали, имеет вид  | NS NS BO WD bo  Эта дисциплина является аналогом вектор-решения, максимизирующего непосредственно ожидаемый доход, Как обычно, используя дисциплину @, обращаемся к процедуре определения весов. Матрица переходов Р и вектор доходов для дисциплины 4 представлены в ле- вой части Табл. Д.2.  180 
Таблица Д.2  Первая нтерация в задаче токаря  т |260] Ри | 22 |213 | 244 Рт5 | 9 vy Чт О | 1/3 | 8/21 | 2/21 0 32/189 |4/189 | 0,899 0 2 i/o] ve} ons] 1/6 о |0.666| —0,167 | 2 2 0 4/7 1/7 0 16/63 2'63 |0,349|] —0,667 2 3 0 0 0 1 0 О 10,666 0 1 4 0 0 0 2/3 1/3 О [0,3331 —0,5 1 51010101 0| 89 1/9 |0,.222| —1 1 g = 0,667  В результате решения системы уравнений определения весов (4.1) при о, ==0 получим среднее время до окончания обработки ближайшей детали р —0,667 и веса U,, KOTO-  рые записаны в предпоследнем столбце табл. Д.2. По- следний ее столбец содержит новую дисциплину 4, полу- ченную в результате применения процедуры улучшения решения.  Так как дисциплина, полученная после первой итера- ции, отличается от начальной, то нужно проводить даль- нейшие итерации. Результаты второй итерации пред- ставлены в табл. Д.3, которая составлена подобно пре- дыдущей.  Таблаца Д.3  Вторая итерация в задаче токаря  | 210 | Ри Py2 | P73 Pyi Рт5 91 5 ay О | 1/3 | 8/21 | 2/21 0 32/189 |4/189 | 0,899 0 2 ] 0 1/2 0 | 1/3 1/6 0 0,666} —0,255 2 2 0 4/7 | 1/7 0 16/63 | 2/63 |0.349| —0,704 2 3 0 1/2 0 1/3 1/6 0 0.666 | —0,255 1 4} 0 4/7 | 17] 0 16/63 | 2/63 |0,3491 —0,704 1 5 0 0 4/5 | 0 0 115 0,2331 —1,152 | 5 = 0,592  181 
оптимальными являются различные дисциплины. Характер этих областей показан на графике (рис. Д.2), где поосям абсцисс и ординат отложены соответственно величины р и 3 в логарифмическом масштабе. На этом графике 4, (0 =$<3) обозначает дисциплину, при которой детали второго типа нужно обрабатывать, если в момент #,; число занятых станков оказалось мень- ше $, или  т 2 ; 2 2 1 1 2 2 = Тр, 9, — т , d= : ‚ 9, —= 5 I ! о [11 [1 [1  Дисциплина d,_, не имеет такого наглядного описа- ния, она описывается вектором  о - d,.=|? |. I bid  Значения производительности системы при оптималь- ной дисциплине для некоторых расчетных точек при- ведены к табл. Д.4. Для оценки выигрыша, получаемого  Таблица Д.4  р с 0,25 ; | 25 Дисципляиа 0,1 |. 0,54930 0,93750 0,99284 4, 0, 54930 0,93750 1,04736 done 0,30000 0,30000 0,30000 d, 0,16] 0,54930 0,93750 0,99284 а, 0,55922 0.97361 1,10711 dont 0,48000 0, 48000 0,48000 а, 0,25 0,54930 0,93750 0,99284 d, 0, 75000 1 ,06108 1 ,24083 dour 0,75000 0, 75000 0,75000 d,  183 
ЛИТЕРАТУРА  Основная  1. Беллман Р. Динамическое программирование. Изд-во ино- странной литературы, 1960, гл. Х]. 2,Gardner M. F.,, Barnes J. L. Transients in linear sys- tems. John Wiley and Sons, New York, ‘1942. 3. Sittler R. W. Systems analysis of discrete Markov processes. IRE Trans,, 1956, СТ-3, № 1, р. 257. 4. Notes on Operation Research 1959, Chapters 3, 5, 7. Operation Research Center, M. I. T., Technology Pess, Cambridge, 1959. 5. Вентцель Е. С. Теория вероятностей. Физматгиз, 1962. 6. Ито К. Вероятностные процессы. Изд-во иностранной лите-  ратуры, 1960.  Дополнительная  7. Беккенбах 35. Ф. Современная математика для инжене- ров. Изд-во иностранной литературы, 1959. 8. Bellman R. A. Markovian Decision Process. J. Math. and Mech., 11957, 6, p. 679. 9. Дуб Дж. Л. Вероятностные процессы. Изд-во иностранной литературы, 1956. 10. Elving G. Zur Theorie der Markoffschen Ketten. Acta Soc. Sci. Fennicae, 1937, vol. 2, Ne 8. 11. Феллер В. Введение в теорию вероятностей и ее приме- нения, том ТГ. Изд-во иностранной литературы, 1948. 12. Friedman. Principles and techniques of applied mathema- tics. John Wiley and Sons, New York, 1956. 13. Huggins W. H. Signal-flow graphs and random signals. Proc. IRE, 1957, vol. 45, p. 74. 14. Kemeny J. G, Snell J. L. Finite markov chains D. Van Nostrand Company, Prienceton, 1960. 15. Романовский В. И. Дискретные цепи Маркова. `Гостех- издат, 1949. 16. Сары мсаков Т. А. Основы теории процессов Маркова. Гостехиздат, 1954. 
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ  Беллман Р., 5, 9, 45 Вектор вероятностей состоя- ний, 13, 130 — полных ожидаемых дохо- дов, 32 — -решение, 49  Вероятность в случае перио- дических цепей, 29 — перехода, 12 —- предельная, 16, 132 — состояний, 13, 123 Вес абсолютный, 39 — относительный, 52, 81  Дилемма техника, 128, 150, 151, 160, 161 Дисциплина обслуживания, 173 Доход, 30 — за единицу времени пре- бывання в состоянии, 133 — за переход, 133  Задача водителя такси, 63 — о замене автомобиля. 70, 118 — токаря, 174 Интенсивность переходов, 122  Итерационный цикл для про- цесса с дискретным време- нем, 56, 84 — — для процесса с дискрет- ным временем и пере- оценкой, 112  186  — — для процесса с непре- рывным временем, 145, [48 — — для процесса с непре- рывным временем и пере- оценкой, 158 Коэффициент переоценки, 100 Марковский процесс, 11 — — эргодический, 15, 23, 40, 48, 78. 137, 146  — — с дискретным временем,  11 — — с чепрерывным време- нем, 122  Матрицы вероятностей пере- ходов, 13 — интенсивностей переходов, 4  — стохастические, 13, 131 Норма выручки, 134 — переоценки, 154 Переход, 11 — вероятность, 12 Поведение, 44 — оптнмальное, 44 2-преобразование, 17 — (примеры), 18 — векторов и матрнц, 19 — (таблица), 19 Преобразование Лапласа, 125 — — векторов и матриц, 127 — — (таблица), 126 Прибыль, 37 
— процесса, 37, 137 — состояния, 39 Пример с игрушечных дел ма- стером, 12, 32, 113 — с прыгающей лягушкой, 11 Принцип оптимальности, 45 Рекуррентный метод для про- цессов с дискретным време- нем, 41 — — ANA процессов с ди- скретным временем и перс-  оценкой, 105 — — (ограничения), 47 Решение, 44, 49 — оптимальное, 50 Состояние, 11 — вероятность, 13, 123 — возвратное, 170 — невозвратное, 23 — поглощающее, 170 Стратегня, 42 Эргодический класс, 25 
СОДЕРЖАНИЕ  От редактора перевода. . уе . Предисловие... .. ое коза Введение. .... oe ee ee sae ee ht we th te het Глава 1. Марковские tpouecchl . . 1... ew et ee ..  Пример с игрушечных дел мастером. Вероятности состоя- ВИ Cr п в ©Ф № з @ ю es s e e ea e e s a a 6 @ ® e e e a e e Z-FIpeOOpazopanwe . 2 2 ew ee ew we eh wee te te ew Анализ марковских процессов при помощи 2-преобразований Невозвратные состояния. Эргодические классы. Периодич- ВОСТЬ $ e® e« e e® @ 9 ¢* оо ях @ 2 8 8 в @©& о @ @ eee e# eo @ e  Глава 2. Марковские процессы с доходами........ Рекуррентное соотношение для доходов „ее. ььеье о  Пример с игрушечных дел мастером . 2... eee ee . Анализ марковских процессов с доходами пря помощи -преобразований . ss 2= @ © © © © @ ®@ &©& © @ © © © @ © @ @ e* » Характер поведения полного ожидаемого дохода при боль- ших fi e e ® © s ® € e es @ ® ® e $ ® e o e s ee) e e es Глава 3. Процессы последовательных решений. Рекур- рентный метод ............ ооо а  Определение стратегий. ... уу ъьееьа во Решение задачи игрушечных дел мастера рекуррентным ме- TOJOM eee @ @ © © @ © © © &®& @ #@& @ © ®@ © @ @#& © #8 © @ @ @ @ Ouenka pekyppeHTHoro MeToaa . . 2. «2 2 se we ee we  Глава 4. Итерационный метод для процессов последова- тельных решений. . ... оное  Определение весов... ... коза хо ов о» + * Улучшение решения .. еее Итерационный ЦИКЛ .. оу еее oe ee Задача игрушечных дел мастера. ....... оо  Обоснование итерационного метода... .......ь  Глава 5. Применение итерационного метода к задачам водителя такси и о замене автомобиля........  Задача водителя TaKCH. «2. 2 es we ew te tte ww eas Задача о замене автомобиля... еее  188  4] 41  43 47  48  54 56 58 60  63  70 
Глава 6. Итерационный метод для процессов с несколь-  кмми эргодическими классами. ........... . Опрелеление pecop. ...-- - ee ee ee ee, ta Улучшение решеныя . еее Пример процесса с несколькими эргодыческими классамны Обоснование нитерационного метода ........... Глава 7. Процеес последовательных решений с пере- оценкой ‚..- еее ев сень а Процесс последовательных решений с переоценкой. Ре- куррентный метод . . „еее ee eee Определение предельных AOXOMOB. . . - ew we we ee ee Улучшение решения . - „еее, . Пример. .. еее ева Обоснованые итерацнонного метода ..--........ Зависимость оптимального решеныя от коэффициента пе- реоценки 2 2. ee ee et et ce ee wt ee  Задача о замене автомобиля с учетом переоценки .,.. Выводы... ..... тео ett  Глава 8. Процессы последовательных решений с неоре- рывным временем ® Cy оз @ e ¢ @e a ses e 8 с в ва @  Марковский процесс с непрерывным временем ..... Изучение марковских процессов с непрерывным временем при помощи преобразования Jlamnaca. . ..- ce veces Марковский процесс с непрерывным временем в доходами Задача последовательных решений в случае непрерывного времени . $ e e ® ® e e a as e e e e e Определение весов... Улучшение решения .. Эргодыческие процессы Задача техника . Рассмотренве методов вычислений (и... . Процесс последовательных решений с непрерывным време- нем и переоценкой . „еее Улучшение решения ........- оне Пример ....... ково ео вне Сравненне процессов последовательных решений с nu- скретным н непрерывным временем . 2 2 2 2 ww wwe tee  Глава 9. Заключение ...... ew he se we tw we а Приложение. Связь между возвратными нм невозвратнымн со- CTORHBAME e а 9 e `. a © eo a $ eo и о & ФФ ин э e e s ®* e a © Дополнемае. „еее ня козе Литература с @ a e s ss @ a « ео пов от so ое в обв с @ .  Предметный указатель „ее... cet eee eee  78  79 82 85  100  105 107 11] 113 115  116 118 121  122 [22  125 132  140 143 144 145 150 151  154 157  163 166  168 173 185 
Р. А. ХОВАРД Динамическое программирование и м&рковскне процессы Редактор Ю. Г. Кремнев Техн. редактор В. В. Беляева Обложка художника В. Т. Сидоренко  Сдано в набор 17.1.1964 г. Подписапо к печати П.У. 196} г. Форчат 841х108 У Объем 9,84 п. л. Уч-изд. л. 8,769 Зак. 1029 Тираж 8 100 экз. Темплан 1964 г. № 4.  Цена в обложке 61 коп.  Московская типография № 10 Главполиграфпрома Государственного комнтета Совета Министров CCCP по печати Шлюзовая наб., 10 
ЗАМЕЧЕННЫЕ ОПЕЧАТКИ  Стр. Стро ка Напечатано Должно быть 177 my my A ee ити раиииинаньния SA последняя т ту la omy 178 9 снизу времен т, т, времени между поступ- и ф: лениямн деталея лерво- го типа и времени об- служивания деталей как первого, так и второго типов, i I 180 | 3 cBepxy v= 5 = >  (исправлено}