Текст
                    ^.Тиллман
Динамическое
ПРОГРАММИРОВАНИЕ

и * л Издательство иностранной литературы *
DYNAMIC PROGRAMMING by RICHARD BELLMAN 19 5 7 Princeton University Press Princeton, New Jersey
Р. БЕЛЛМАН ДИНАМИЧЕСНОЕ ПРОГРАММИРОВАНИЕ Перевод с английского И. М. Андреевой, А, А. Корбута, И. В. Романовского, И. Н. Соколовой Под редакцией Н. Н. Воробьева ИЗДАТЕЛЬСТВО ИНОСТРАННОЙ ЛИТЕРАТУРЫ Москва, 19 60
АННОТАЦИЯ Советский читатель уже знает автора по его монографии „Теория устойчивости решений дифференциальных уравнений", вышедшей в Издательстве иностранной литературы в 1954 г. Теория динамического программирования родилась из ряда технико-экономических задач, таких, как задача о наиболее эффективном использовании оборудования или задача о наиболее выгодной политике закупок. По этой новой области математики литература на русском языке отсутствует, если не считать небольшой обзорной статьи автора, опубликованной в сборнике „Современная математика для инженеров" под редакцией Э. Ф. Беккенбаха, Издательство иностранной литературы, 1958 г. Автор является одним из создателей теории динамического программирования, подробному изложению которой и посвящена его монография. Книга интересна для широкого круга математиков, занимающихся приложениями, специалистов по регулированию, инженеров, экономистов и др. Книга доступна студентам старших курсов и аспирантам указанных специальностей.
ПРЕДИСЛОВИЕ РЕДАКТОРА ПЕРЕВОДА В самых разнообразных областях теоретической и практической деятельности часто оказывается целесообразным принимать решения не сразу, а постепенно, шаг за шагом. Принятие решения, таким образом, рассматривается не как единичный акт, а как процесс, состоящий из -нескольких этапов. Такой подход использовался уже довольно давно при исследовании некоторых частных вопросов. Наиболее полно эта идея была воплощена А. Вальдом в его теории секвенциального статистического анализа. Систематизация примеров подобного рода исследований показывает, что многие из них с успехом могут быть обслужены некоторым единообразным математическим аппаратом. Таким аппаратом оказывается созданная в значительной мере трудами Р. Веллмана и его учеников теория динамического программирования. Предметом динамического программирования является изучение многошаговых решений, в том или ином смысле оптимальных. Классические методы нахождения экстремумов функций многих переменных здесь часто оказываются неприменимыми ввиду большого числа параметров, от которых зависит решение. Лежащий же в основе динамического программирования принцип оптимальности часто может быть реализован в виде такого функционального уравнения, решение которого более доступно методам современной математики (в том числе вычислительной математики), чем решение соответствующих уравнений в условиях классической постановки задачи. На таком пути обнаруживается и новый подход к решению обычных задач вариационного исчисления. . Оптимизационные задачи встречаются почти во всех отраслях науки, техники и хозяйства. С ними приходится иметь дело в промышленной технологии, в организации производства, в экономическом планировании, в различных вопросах физики, биологии и военного дела. Поэтому круг приложений динамического программирования исключительно широк. Возможности применения методов динамического программирования для решения задач, возникающих в физике, экономике, биологии и т. д., отнюдь не означают, что динамическое программирование является частью одной из этих дисциплин. Теория динамического программирования, подобно, например, математической физике, есть часть математики, и в этом отношении она принципиально не отличается от других математических теорий. При этом, разумеется, не следует
забывать, что вопрос о правомерности использования идей и апла-рата динамического программирования при решении той или иной конкретной прикладной задачи должен каждый раз решаться с учетом специфики соответствующей науки. Предлагаемая вниманию советского читателя монография представляет собой первый том задуманного автором труда и содержит изложение основных вопросов динамического программирования. В этой книге автор сознательно ограничивается сравнительно элементарными задачами, предполагая затронуть более глубокие проблемы во втором томе. С методической точки зрения такое разделение вполне оправдано, так как большое количество новых идей и*понятий, осложненное рассмотрением математических тонкостей, нанесло бы большой ущерб доступности книги и сузило бы круг ее возможных читателей. Заметим тут же, что в разных главах книги преследуются различные цели. Так, если главы III и IV (наиболее интересная для математика часть книги) посвящены весьма общим вопросам, то глава VII — это подробный анализ решения некоторой конкретной задачи. Остальные главы занимают промежуточное положение. Почти к каждой главе прилагается большое число упражнений и проблемных задач различного интереса и различной трудности (всего книга содержит 370 задач). Формулировка некоторых из них (например, задачи 29 гл. I) в нарочито легкомысленном виде лишний раз подчеркивает разнообразие приложений динамического программирования. Перевод книги выполнили: И. М. Андреева (главы I и II), А. А. Корбут (Введение, главы IV, V и §§ 13—25 главы IX), И. В. Романовский (главы VIII, X, XI) и И. Н. Соколова (главы III, VI, VII и §§ 1—12 главы IX). В отношении экономической терминологии текст просмотрел В. А. Маш. Н. Н. Воробьев
ПРЕДИСЛОВИЕ АВТОРА Цель настоящей книги состоит в том, чтобы дать введение в математическую теорию многошаговых процессов решения. Так как с этими процессами связан довольно громоздкий набор понятий, то для наименования нашего предмета мы ввели специальный термин „динамическое программирование". В действительности, как мы увидим далее, специфика этих процессов заключается не только в особой терминологии. Скорее, она заключается в определенной идейной общности, которая дает гибкий и современный математический аппарат для рассмотрения многих новых и интересных задач как внутри самой этой молодой дисциплины, так и в различных разделах классического анализа. Прежде чем углубиться в эту тему, опишем вкратце, что понимается под многошаговым процессом решения. Рассмотрим некоторую физическую систему S, состояние которой в любой момент времени t описывается вектором р. Если мы настроены оптимистически, то мы можем представлять себе, что компоненты этого вектора — вполне определенные величины, такие, как декартовы координаты, или координаты вместе с проекциями моментов, или, скажем, объем и температура, или, наконец, применительно к экономической системе, предложение и спрос, либо запасы и производственные мощности. Находясь же в пессимистическом расположении духа, мы можем предполагать, что компоненты вектора р являются распределениями вероятностей для таких величин, как координаты и моменты или. быть может, моментами распределения. С течением времени эта система подвергается изменениям либо детерминированного, либо стохастического характера. Математически это означает, что описывающие систему переменные подвергаются некоторым преобразованиям. Пусть теперь, в отличие от сказанного выше, мы имеем процесс, в котором в каждый момент времени мы должны выбирать преобразования, которым можно подвергнуть систему. Процесс такого типа мы называем процессом решения, причем в этой терминологии понятия решения и преобразования считаются эквивалентными. Если нам нужно принять одно решение, то мы называем процесс одношаговым; если следует принять некоторую последовательность решений, то мы пользуемся термином многошаговый процесс решения.
Это различие, разумеется, не является вполне четким. Так, выбор точки в трехмерном пространстве можно рассматривать либо как одношаговый процесс, в котором мы выбираем тройку (х, у, z), либо же как многошаговый процесс, где последовательно выбирается сначала х, затем у и наконец z. Имеется целый ряд многошаговых процессов, которые нам хорошо знакомы. Пожалуй, наиболее известными являются процессы, встречающиеся в карточных играх, например, система торгов в договорном бридже или система „повышение против повышения" в покере с его тонкими оттенками блефа*1). В более серьезных вопросах мы постоянно сталкиваемся с многошаговыми процессами решения в нашей экономической жизни в связи с программами капиталовложений и политикой страхования. Другими примерами, взятыми из области науки, могут служить управляемые процессы и планирование экспериментов. Мы хотим подчеркнуть то обстоятельство, что в современной жизни—в экономических, промышленных, научных и даже политических ее областях — мы со всех сторон окружены многошаговыми процессами решения. Некоторые из них мы изучаем, основываясь на нашем опыте, некоторые пытаемся решить „на пальцах"; некоторые же процессы настолько сложны, что нам остается лишь попытаться угадать решение и смиренно уповать на удачу. К огорчению экономистов, промышленников и инженеров, за последние годы в экономике, промышленности и технике возникли столь обширные по своей значимости и объему задачи, что их уже нельзя решать изолированно, как в прежние спокойные времена. Громадное расширение круга задач было достигнуто лишь в результате крайней систематизации усилий. Несмотря на то, что эти задачи возникают в самых разнообразных областях, они обладают одной, общей чертой — все они исключительно трудны. Возникают ли они при изучении оптимального управления запасами или при анализе балансов затрат и выпуска целого комплекса взаимозависимых отраслей, в составлении графика обслуживания пациентов в медицинской клинике или при обслуживании самолетов на аэродроме, при изучении задач организации тыла или задач о капиталовложениях, в управлении сервомеханизмами или в последовательном (секвенциальном) статистическом анализе—всюду они обладают определенными общими неприятными чертами, выводящими нас за рамки стандартных математических теорий. Следовательно, для того чтобы принять вызов со стороны этих новых задач, необходимо создать новые методы, а для математика ничто не может быть более привлекательным. Для этой породы 1) Читатель, незнакомый с этими играми, может представить себе, например, систему * торгов в преферансе или карточную игру „веришь — не веришь*. — Прим, перев.
людей вообще характерно, что ее представители никогда не бывают так счастливы, как при встрече с задачами, которые не могут быть решены — по крайней мере немедленно. Давно минули те дни, когда иные всерьез беспокоились, не иссякнет ли родник математической изобретательности, и тем не менее, испытываешь великое наслаждение, когда перед тобой внезапно открываются обширные непокорные джунгли трудных и важных задач, подобных тем, которые возникают в теории многошаговых процессов решения. Бегло очертив этот круг вопросов, посмотрим, каким компасом мы будем пользоваться, прокладывая путь в эту новую область. Традиционный подход можно назвать «методом перечисления». Каждое решение можно мыслить себе как выбор определенного числа переменных, определяющих преобразование, которое следует применить; каждая последовательность таких выборов, или, как мы будем говорить, поведение, представляет собой выбор большего числа переменных. Беря огулом все эти варианты выбора, мы „сводим" нашу задачу к классической задаче определения максимума некоторой заданной функции. Эта функция, возникающая в ходе измерения некоторого количественного свойства системы, и является основой для вычисления поведений. В этот момент математик очень легко может потерять интерес к задаче и предоставить остальное вычислительной машине. Максимизация достаточно хорошо ведущей себя функции представляется сравнительно простой задачей: стоит только взять частные производные и решить получающуюся систему уравнений для максимизирующей точки. Однако здесь приходится считаться с некоторыми осложняющими дело обстоятельствами. Прежде всего, эффективное аналитическое решение систем, состоящих из большого числа даже простых уравнений (например, линейных уравнений), является весьма нелегким делом. Омрачая наши перспективы еще более, напомним, что численное решение даже таких систем обычно наталкивается на целый ряд трудностей — как технических, так и принципиальных. Следовательно, когда число переменных велико, определение этого максимума отнюдь не является шаблонным. Все это дает нам право говорить о „проклятии многомерности". И хотя это проклятие много лет тяготело над головами физиков и астрономов, все же не следует терять надежду на получение вопреки ему важных результатов. К сожалению, указанная трудность далеко не единственна. Другая характерная черта этих задач, как мы увидим на последующих страницах, заключается в том, что классический анализ не всегда достаточен для наших целей вследствие того упрямого факта, что весьма часто решение является граничной точкой области изменения переменных. Это обстоятельство отражает тот факт, что многие процессы решения включают определенные характеристики типа »вс$
или ничего". Тогда очень часто мы приходим к определению максимума функции посредством комбинирования аналитических методов и методов „поиска и охоты". Каковы бы ни были трудности, возникающие в условиях детерминированного варианта (выше мы молчаливо предполагали, что имеем дело именно с ним), эти трудности умножаются в стохастическом варианте, когда исход решения (т.е. преобразования) является случайной величиной. Здесь любые поисковые или перечислительные методы неизбежно обречены на неудачу ввиду чудовищного увеличения числа комбинаций случаев с ростом числа самих случаев. Предположим, однако, что мы благополучно обошли все эти трудности и достигли некоей вычислительной нирваны. Но математик при этом еще не имеет права снимать с себя ответственность, ибо нельзя считать, что наша задача решена в математическом смысле, пока не выяснена структура оптимального поведения. Довольно интересно, что это понятие математического решения совпадает с обычным понятием решения в физическом, экономическом или техническом смысле. Для внесения полной ясности в этот пункт — а он чрезвычайно важен, поскольку по многим причинам это raison d’etre1) математической физики, математической экономики и многих аналогичных областей, расположенных на стыке двух наук, — сделаем краткий экскурс в философию математических моделей. Цель ученого состоит в познании явлений окружающего мира, которые он наблюдает. Для того чтобы доказать, что он действительно познает эти явления, он должен уметь предсказывать их ход, а для этого, в свою очередь, требуются количественные измерения. Качественное предсказание, например, предсказание наступления затмения, землетрясения или экономической депрессии где-то в недалеком будущем не. столь удовлетворительно, как аналогичное предсказание, связанное с датой и временем, и возможно поддержанное предложением пари2). Чтобы делать удовлетворительные количественные предсказания, необходимо иметь аппарат для получения числа, а это в свою очередь требует наличия математической модели. Представляется разумным предположить, что чем точнее эта математическая модель отражает реальный мир, тем точнее оказывается предсказание. Однако здесь имеется оборотная сторона медали. Действительный мир чрезвычайно сложен, и поистине, чем больше его изучаешь, тем больше преисполняешься удивлением по поводу того, что при объяснении происходящих сложных явлений в основном приходится иметь дело с „оценками порядка величины", и гораздо реже—с со Ч Разумное основание, смысл (фр.). — Прим, перев. 2) При заключении пари о наступлении некоторого события соотношение ставок является количественной оценкой уверенности в правильности прогноза об этом событии. — Прим, ред.
вершенно незыблемыми „законами природы". Если мы попытаемся включить в нашу математическую модель слишком много черт действительности, то мы захлебнемся в сложных уравнениях, содержащих неизвестные параметры и неизвестные функции. Определение этих функций приведет к еще более сложным уравнениям с еще большим числом неизвестных параметров и функций и т. д. Вот уж поистине сказка про белого бычка. Если, наоборот, оробев от столь мрачных перспектив, мы построим слишком упрощенную модель, то мы вскоре обнаружим, что она не предсказывает дальнейший ход явлений настолько, чтобы удовлетворить нашим требованиям. Следовательно, Ученый, подобно Паломнику, должен идти прямой и узкой тропой между Западнями Переупрощения и Болотом Пере-усложнениях). Отдавая себе отчет в том, что никакая математическая модель не может дать исчерпывающего описания действительности, мы должны в наших попытках познания реального мира примириться с необходимостью использования последовательности моделей все большей и большей сложности. Если в решениях некоторой последовательности моделей наблюдается известное сходство их строения, то мы можем считать, что в нашем распоряжении имеется некоторое приближение к тому, что обычно называют „законом природы". Следовательно, с телеологической* 2) точки зрения конкретное численное решение любой конкретной системы уравнений имеет гораздо меньшую важность, чем понимание природы этого решения, иначе говоря, влияния физических свойств системы на вид решения. Посмотрим теперь, каким образом эта идея приводит нас к новой трактовке процессов решения, а также ряда других процессов анализа, которые обычно не рассматриваются как процессы решения. В традиционной трактовке мы рассматриваем весь многошаговый процесс решения — ценой громадного увеличения размерности задачи — по существу как некоторый единый шаг. Так, если мы имеем /V-шаговый процесс, в котором на каждом шаге следует принять М решений, то классический подход имеет дело с Л4Л/-мер-ным одношаговым процессом. Основной вопрос, стоящий перед нами, заключается в следующем: как избежать этого нарастания размерности, которое подавляет исследование и сильно препятствует вычислениям? 9 Пародия на символические высказывания в романе „Странствования паломника" английского писателя XVII века Дж. Беньяна. — Прим. ред. 2) Телеология — идеалистическое учение, согласно которому всякое развитие является реализацией некоторой заранее предопределенной цели. Направленная против причинного объяснения мира, телеология является попыткой перенесения закономерностей, присущих лишь некоторым формам деятельности человека, на весь реальный мир. Тем не менее замечание автора справедливо и не нуждается для своего обоснования в привлечении каких бы то ни было идеалистических теорий (в том числе и „телеологической точки зрения"). — Прим, перев.
Для ответа на этот вопрос обратимся к высказанному ранее положению о том, что существенна именно структура поведения. Каков точный смысл этого утверждения? Оно означает, что мы желаем знать характеристики системы, определяющие решения, которые надлежит принимать на каждом конкретном шаге процесса. Иначе говоря, вместо определения оптимальной последовательности решений в условиях некоторого фиксированного состояния системы мы желаем определить оптимальные• решения, которые следует принимать в каждом состоянии системы. Только в этом случае мы можем считать, что действительно понимаем внутреннюю структуру решения. Математическое преимущество такой постановки вопроса заключается, во-первых, в том; что она уменьшает размерность процесса до присущего ему уровня, именно, до размерности решения, с которым мы сталкиваемся на любом конкретном шаге. Это делает задачу более легко поддающейся аналитической обработке и значительно упрощает ее в вычислительном отношении. Во-вторых, как мы увидим, принимаемый подход приводит нас к некоторому типу приближения, именно, к „приближению в пространстве поведений", обладающему одним существенным математическим свойством — монотонности сходимости, —и хорошо приспособленному к приложениям. Принципиальное преимущество рассуждений в терминах поведений также весьма велико. Этот подход дает нам возможность ставить и рассматривать такие задачи, которые не поддаются плодотворному изучению любыми другими методами. Если бы мы должны были высказать предположение о том, какое направление исследований сулит наибольшие успехи теории многомерных процессов в будущем, мы без колебаний избрали бы указанное направление. Темой настоящей книги являются приложения этого понятия решения к целому ряду процессов разных типов, которые мы будем обсуждать ниже. Название книги принято на основании следующих соображений. Пользуясь популярной ныне терминологией, можно сказать, что рассматриваемые нами задачи являются задачами программирования1). При этом прилагательное „динамический" указывает на то, что мы интересуемся процессами, в которых существенную роль играет время и в которых порядок выполнения операций может оказаться решающим. Кроме того, существенной чертой нашего подхода будет интерпретация многих статических процессов как динамических процессов с искусственно введенным временем. Обратимся теперь к обзору содержания книги. В первой главе мы рассматриваем многошаговый детерминированный процесс распределения ресурсов, который является прототипом ---------- s \ 1) То есть задачами принятия решений. — Прим, ред.
общего класса задач, встречающихся в различных вопросах организации тыла, в многошаговых процессах инвестирования, в изучении оптимальной политики закупок и при рассмотрении многих других экономических процессов. С математической точки зрения эта задача сводится к многомерным задачам максимизации и, в конечном счете, к вариационному исчислению. Сначала мы рассмотрим процесс общепринятым способом и отметим возникающие при рассмотрении даже самых простых процессов этого типа затруднения, связанные с размерностью. Затем мы изложим основной метод всей теории, заключающейся в превращении исходной задачи максимизации в задачу решения некоторого функционального уравнения. Функциональные уравнения, которые встречаются нам на этом пути, являются уравнениями совершенно нового типа и существенно отличаются от всех функциональных уравнений, рассматриваемых в классическом анализе. То уравнение, относительно которого будут проведены рассуждения в этой главе, имеет вид (1) max (g(y) + h(x — y)+f(ay + b(x-—y))]. где g и h — заданные функции, а и b—известные постоянные, удовлетворяющие условию О^а, #<1. Доказав теорему существования и единственности, мы установим несколько простых свойств оптимального поведения, которые можно вывести из простых функциональных свойств функций g и h. В частности, мы приведем явные решения этого уравнения для некоторых частных видов функций g и h. Преимущество этих решений заключается в том, что их можно использовать для получения аппроксимаций к решениям более сложных уравнений и, что еще более важно, для получения аппроксимаций к соответствующим оптимальным поведениям. Идея аппроксимации приводит нас к весьма важному понятию приближения в пространстве поведений, используемому в теоретических и в практических рассмотрениях, а также при изучении вопроса об устойчивости функции f при изменениях g и /г. Во второй главе мы рассматриваем многошаговый процесс решения стохастического типа в терминах золотодобывающего предприятия, оснащенного не очень надежной машиной -для добычи золота. Здесь нам приходится иметь дело с уравнением (2) /(х, у) = тах "Д: А[Г1Х-]-/((1 — rt)x, у)],' В: p2[r2J/-b/(x, (1 — r2)j/)] ‘ Кроме проведения исследования, аналогичного тому, которое было сделано в гл. I, мы находим фактическое решение этого уравнения и некоторых его обобщений. Решение имеет весьма простую
и интуитивно ясную форму и приводит к важной идее „областей решения". Мы покажем, однако, что ряд других обобщений уже не имеет такой простой структуры и ставит еще не решенные задачи. Попытка получить приближенные решения этих задач для частной области пространства параметров приведет нас к непрерывным вариантам, которые рассматриваются в гл. VIII. Глава III посвящена синтезу* этих процессов, кажущихся на первый взгляд столь различными. В этой главе мы исследуем общие черты двух процессов, рассмотренных в предыдущих главах, и переходим после этого к формулировке общих вариантов этих процессов. На этом пути мы приходим к функциональному уравнению (3) /(/?)== max [g-(p, q) + h(p, q)f(T(p, ?))], Q частными случаями которого являются как оба предыдущих уравнения, так и целый ряд других уравнений более общего типа. В этой же главе мы сформулируем в явном виде „принцип оптимальности", математическая перефразировка которого дает в случае любого конкретного процесса функциональное уравнение, управляющее этим процессом. Более подробно обсуждается также понятие о приближении в пространстве поведений. В следующей, четвертой главе устанавливается ряд теорем существования и единственности для некоторых часто встречающихся классов уравнений, имеющих указанный выше вид. Наши доказательства основываются на простой лемме, позволяющей сравнивать два решения уравнения (3). Хотя все эти уравнения имеют резко выраженный нелинейный характер, они в некоторых отношениях представляют собой естественное обобщение линейных уравнений. Уже по одной этой причине, не говоря уже об их приложениях, эти уравнения заслуживают изучения. В главе V мы рассматриваем функциональное уравнение, выведенное на основе задачи, представляющей в настоящее время большой экономический интерес, — задачи об „оптимальном управлении запасами". Здесь мы показываем, что различные методы, рассмотренные в предыдущих главах, дают решения в некоторых интересных частных случаях. В частности, мы убедимся, что метод последовательных приближений является эффективным аналитическим аппаратом для обнаружения свойств решения и поведений, а не просто набившим оскомину методом доказательства теорем существования и единственности. Существует много различных вариантов задачи об оптимальном управлении запасами; мы ограничиваемся рассмотрением математической модели, впервые предложенной Эрроу, Харрисом и Маршаком и изучавшейся также Дворецким, Кифером и Вольфовитцем.
Конкретное уравнение того типа, который мы будем рассматривать, имеет вид (- со g(y — х)-[-а f р (s — у) dG (s) 4- \.v оо У -| \ 4-/(0) f d G(s)4- ff(y-s)dG(s) . у О J 1 Затем мы переходим к изучению процессов, которые мы называем „процессами с узким местом". Последние мы определяем как процессы, в которых нужно объединить ряд взаимозависимых факторов для единой общей цели. Уровень интенсивности основного процесса зависит от минимального уровня мощности компонент процесса. Этим задачам посвящены две главы: первая из них, гл. VI, носит теоретический характер, вторая (гл. VII) посвящена техническим деталям подробного решения одного частного процесса. Задачи, которые мы встречаем, являются частными случаями общей задачи, по-видимому, не рассматривавшейся ранее в математике сколько-нибудь подробно. Это задача определения максимума по z скалярного произведения (х(Т), а), где х и z связаны посредством векторно-матричного уравнения /7 Y (5) ^ = Ax + Bz> х(0) = с и подчинены, кроме того, ограничению вида Cz -|- Dx /. Здесь х, z, с и /—векторы, Д, В, С и £) —матрицы. Основная трудность здесь заключается в линейности операторов и функционалов. Мы могли бы попутно указать на распространенное мнение, что линеаризация задачи облегчает ее решение. Однако в некоторых случаях, особенно в вариационных задачах, линеаризация задачи чрезвычайно усложняет дело, поскольку она делает классические вариационные методы в значительной мере неприменимыми. Вместе с тем численное решение в ряде частных случаев может быть получено стандартными методами. В гл. VIII мы возвращаемся к процессу золотодобычи и рассматриваем его непрерывный вариант. Существует много задач довольно неясной природы, связанных с описанием непрерывных стохастических процессов решения. В рассматриваемых процессах нам удастся эти трудности обойти. В непрерывном варианте, сочетая классический вариационный подход с методами, использованными в предыдущих главах, мы в состоянии полностью решить непрерывные варианты целого ряда задач, которые в дискретном случае б$>щй совершенно непробиваемы.
Далее, в гл. IX мй обращаемся к вариационному исчислению и показываем, что различные его характерные задачи можно рассматривать как процессы динамического программирования непрерывного и притом детерминированного типа. В геометрических терминах классическая формулировка эквивалентна рассмотрению экстремали как геометрического места точек, в то время как в формулировке динамического программирования экстремаль представляется как огибающая семейства своих касательных. Становясь на эту последнюю точку зрения, мы можем получить новую формулировку некоторых разделов классической теории. В частности, мы показываем, как получать дифференциальные уравнения в частных производных для главного собственного значения дифференциального уравнения (6) и" + Х2ср(Ои = 0, к(0) = к(1) = 0, в терминах надлежащим образом введенных параметров состояния. Кроме того, мы даем новый вычислительный подход к вариационным задачам с ограничениями. В главе X рассматриваются процессы динамического программирования, включающие двух принимающих решения лиц, обладающих противоположными интересами. Это приводит к изучению многошаговых игр'и, в частности, к очень интересному классу игр, называемых „играми на выживание". С помощью некоторых эвристических рассуждений мы можем получить в качестве побочного результата новое истолкование для игр с ненулевой суммой. Функциональные уравнения, встречающиеся в этой области, имеют общий вид (7) /(р. /)=тах min {J J \g(p, р', q, /) + + й(р. р', q, q')f(Ti(p, р', q, q'). Т2(р, р', q, /))J dG (q) dG' (/)}. Их можно изучать посредством тех же общих методов, которые применялись в гл. IV при рассмотрении приведенного выше уравнения (3). В заключительной главе мы рассматриваем класс непрерывных процессов решения, которые приводят к системам нелинейных дифференциальных уравнений вида (8) =' maxf (/; q) х} + (<?) , х4(О)=с4, /=1, 2.......N, а также к соответствующим системам уравнений, выведенным на основе дискретного процесса.
Будет показано, что эти уравнения обладают любопытными связями с некоторыми классическими нелинейными уравнениями. В дополнение к ряду упражнений, приведенных с педагогическими целями, мы включили некоторую прослойку задач, предназначенных для иллюстрации объема приложений методов динамического программирования. Возможно, что иной читатель нахмурится по поводу некоторых не слишком глубоких вопросов, которые изредка рассматриваются в упражнениях и используются для иллюстрирования различных типов процессов. Мы готовы защититься от обвинений в lese majesty1) различными способами, но предпочитаем два следующих. Во-первых, интересная математика встречается всюду, где мы ее сумеем найти: в головоломке с кенигсбергскими мостами и в проблеме раскраски карт, в задаче о рассаживании школьниц и при определении выигрывающей тактики в азартных играх, или, наконец, в неожиданной регулярности распределения простых чисел. Во-вторых, всякая мысль абстрактна, а математическая в особенности. Следовательно, вводим ли мы наши математические величины под респектабельными наименованиями АнВ или же под более обаятельными— Алиса и Бетти, говорим ли мы о случайных процессах или об искусстве ведения игры — всюду мы имеем дело с математическим анализом, т. е. с количественным изучением явлений. Любое математическое исследование, подобное предлагаемому, следует судить в конечном счете по его внутреннему содержанию, а не по удельному весу высокопарных псевдоабстракций, которыми так легко пересолить любой текст. На этом мы заканчиваем наш краткий обзор содержания этого тома. Поскольку процессы, которые мы рассматриваем, возникающие из них функциональные уравнения и применяемые нами методы в основном новы и поэтому непривычны, мы сознательно ограничиваем себя умеренным математическим уровнем для того, чтобы подчеркнуть некоторые лежащие в основе теории положения, не загромождая их чисто аналитическими деталями. В соответствии с этой целью мы не углубляемся слишком далеко ни в одну из областей приложений теории как с математической, так и с физической или экономической стороны. Во всех главах мы пытались избежать какого бы то ни было обсуждения более глубоких результатов, требующих либо более серьезной подготовки со стороны читателя, либо более мощной аналитической аргументации. Изредка, как в гл. VI и гл. IX, мы без колебаний вообще отказались от строгого рассмотрения и предпочли действовать откровенно эвристическим методом. Во втором томе, задуманном нами, мы намереваемся на более высоком математическом уровне исправить некоторые из этих *) Оскорбление величества (фр.). —Прим, nepeq, 2 Р. Веллман
упущений и изложить ряд тем более тонкого характера, которые мы либо совсем здесь не упоминали, либо упоминали мимоходом, либо намечали лишь в общих чертах. Из текста будет видно, сколько еще предстоит сделать. В этой связи стоит отметить обширную, важную и относительно неразработанную область, в которую- весь настоящий том делает лишь небольшой экскурс. Это — общее изучение численного решения многомерных вариационных задач. Конкретно общую задачу можно поставить следующим образом: пусть имеется процесс и связанная с ним вариационная задача; как использовать специфические черты процесса для построения вычислительного алгоритма решения этой вариационной задачи? Динамическое программирование предназначено для изучения многошаговых процессов, обладающих определенными свойствами инвариантности. Теория линейного программирования предназначена для рассмотрения процессов, обладающих определенными чертами линейности; изящный симплекс-метод Дж. Данцига в значительной степени решает задачи, связанные с этими процессами. Для определенных классов задач теории расписаний1) разработан целый ряд итеративных и релаксационных методов. В частности, отметим методы Хичкока, Купманса и Флада для транспортной задачи Хичкока— Купманса и метод потоков А. Болдырева для железнодорожных сетей. Кроме того, недавно создана теория нелинейного программирования Г. Куна, А. У. Таккера и Э. Била. Однако изучение вычислительных методов находится еще в своем младенчестве. Обсудим теперь вкратце некоторые педагогические аспекты книги. Своей аудиторией Мы считали всех интересующихся вариационными задачами, включая математиков, статистиков, экономистов, инженеров, специалистов по исследованию операций и т. д. Поскольку интересы различных представителей этой аудитории перекрываются лишь в нёбольшой степени, некоторые части книги будут представлять больший интерес для одной группы читателей, чем для другой. По уровню математической трудности настоящая книга подходит для изучения после общего курса анализа и может изучаться либо на математических факультетах, либо на технических или экономических факультетах — в сочетании с курсами прикладной математики или исследования операций. i) Обзорная статья автора по теории расписаний цитируется на стр. 180. В этой статье автор относит к теории расписаний не только чисто комбинаторные задачи составления графиков и расписаний (типичными примерами которых являются, например, задачи 8—11 к гл. III), но и теорию транспортных задач, всевозможные проблемы сглаживания и другие задачи линейного программирования. — Прим, перев.
Для первых курсов или первых чтений мы предлагаем следующие программы. Для математика: главы I, II, III, IV, IX, X. „ экономиста: главы I, II, III, V, IX. „ статистика: главы I, II, III, IX, X, XI. „ инженера: главы I, II, III, IX. „ специалиста по исследованию операций: главы I, II, III, V, IX, X. Наконец, прежде чем закончить этот пролог, я считаю своим приятным долгом указать на целый ряд источников. Во-первых, это теория игр фон Неймана, развитая Дж. фон Нейманом, О. Моргенштерном и другими авторами — теория, показывающая, как при помощи методов математического анализа можно изучать обширные классы задач, которые прежде были вне сферы досягаемости математиков и поэтому были сданы в архив как неподдающиеся исследованию. Во-вторых, это теория секвенциального анализа Вальда, развитая А. Вальдом, Д. Блекуэллом, А. Гирщиком, Дж. Воль-фовитцем и другими, — теория, показывающая большую экономию усилий, которая может быть достигнута при помощи надлежащего рассмотрения многошаговых процессов испытаний. Я признателен также ряду коллег и друзей, обсуждавших со мной различные вопросы излагаемой теории и содействовавших ее прояснению и развитию. Многие результаты этой книги были получены в сотрудничестве с коллегами математиками. Формулировка игр на выживание была получена вместе с Дж. П. Ла-Саллем; результаты об уравнении оптимального управления запасами получены вместе с И. Гликсбергом и О. Гроссом; результаты о непрерывном процессе золотодобычи в гл. VIII и результаты в гл. VII, относящиеся к конкретным процессам „с узким местом", получены вместе с С. Леманом. Ряд результатов, полученных вместе с X. Осборном (о связи между характеристиками и уравнениями Эйлера и о сходимости дискретных процессов золотодобычи к их непрерывным вариантам) не вошел в книгу. Мы не включили также исследование о фактическом численном решении многих обсуждаемых ниже процессов, которым мы занимались с С. Дрейфусом х). Я хотел бы особенно поблагодарить И. Гликсберга, О. Гросса О См. например, Bellman R., Dreyfus S., a) On a tactical airwarfare model of Mengel, Operat. Res., 6, № 1 (1958), 65—78, 6) A bottleneck situation involving interdependent industries, Naval Res. Loglst. Quart., 5, № 4 (1958), 307—314, в) Functional approximations and dynamic programming, Math. Tables and other Aids to Comp., 13, № 68 (1959), 247—251, r) An application of dynamic programming to the determination of optimal satellite trajectories, J. Brit. Interplanet. Soc., 17, № 3—4 (1959), 78—83; Dreyfus S., Computational aspects of dynamic programming, Operat. Res., 5, Na 3(1957), 409—415.— Прим, nepee.
и А. Болдырева, которые с большой тщательностью прочли окончательную рукопись и сделали ряд полезных предложений и исправлений. и С. Карлина и X. Н. Шапиро, проделавших много ценной работы в этой области; я извлек немало полезного из плодотворных бесед с ними. Наконец, я хотел бы засвидетельствовать особую признательность О. Хельмеру и Э. В. Паксону, которые давно поняли важность многошаговых процессов и постоянно вдохновляли меня в моих исследованиях, и, кроме того, предложили ряд пленительных задач, естественно возникающих в различных важных приложениях. Здесь следует особо отметить, что большинство названных выше математиков являются либо сотрудниками корпорации RAND, либо ее консультантами. Наша работа проводилась по широкой программе исследований для Военно-воздушных сил Соединенных Штатов. Санта Моника, Калифорния Ричард Беллман
Глава I МНОГОШАГОВЫЙ ПРОЦЕСС РАСПРЕДЕЛЕНИЯ § 1. ВВЕДЕНИЕ В этой главе мы намерены познакомить читателя с задачами, характерными для круга вопросов, являющихся предметом динамического программирования, а также с основным методом, которым мы будем пользоваться в дальнейшем. Сначала будет рассмотрен некоторый, довольно простой, многошаговый процесс последовательного распределения, обладающий рядом черт, общих для многих процессов, рассматриваемых и в самой математике, — в таких ее областях, как дифференциальное, интегральное и вариационное исчисления, и в таких ее приложениях, как математическая экономика и управление техническими системами. Сначала мы сформулируем задачу в ее классической постановке. Это мы сделаем главным образом для того, чтобы проиллюстрировать некоторые трудности такого непосредственного подхода к вопросу. Чтобы обойти эти трудности, мы введем тот новый основной математический метод, который будет использоваться на протяжении всего дальнейшего изложения. В основе этого метода лежит идея рассмотрения любой конкретной задачи как представителя семейства сходных с ней задач1)- Такая точка зрения позволит нам заменить исходную многомерную задачу о максимизации задачей решения системы рекур-рентных соотношений, включающих функции значительно меньшего числа переменных. В качестве первого этапа решения этой системы функциональных уравнений мы рассмотрим единственное функциональное уравнение (1) f(x) = max [g(j)-4-A(x —+ —j))]. Для этого уравнения будут более детально изучены вопросы, свя 1) Один из простейших вариантов этой идеи реализуется в следующем хорошо известном случае. Пусть нам нужно доказать справедливость утверждения, содержащего некоторое конкретное натуральное число л0. Обозначая это утверждение через А (л0), рассмотрим переменное утверждение А (л), зависящее от натурального аргумента. Доказав по индукции справедливость А (п) при любом п, мы тем самым докажем и А (nQ). — Прим, ред.
занные с существованием и единственностью его решения, свойствами этого решения, а также частными решениями этого уравнения. Обращаясь к процессам более сложного типа, область применения которых значительно шире, мы прежде всего рассмотрим процессы, зависящие от времени. Кроме того, будут получены некоторые многомерные аналоги уравнения (1), возникающие при рассмотрении многошаговых процессов, которые требуют принятия нескольких решений на каждом шаге. Эти многомерные уравнения являются источником ряда трудных и до сих пор не решенных задач численного анализа. В заключительной части главы рассматриваются некоторые стохастические варианты описанных процессов распределения. Как мы увидим, при рассмотрении как стохастического, так и детерминированного процессов могут быть применены одни и те же аналитические методы. § 2. МНОГОШАГОВЫЙ ПРОЦЕСС РАСПРЕДЕЛЕНИЯ РЕСУРСОВ Перейдем теперь к рассмотрению простого, но важного примера многошагового процесса распределения. Допустим, что мы имеем некоторое физическое количество х, которое разделим на две неотрицательные части у и х — у, получая от первой доли у доход g(y), а от второй — доход h{x — х)1). Желание выполнить это разделение так, чтобы максимизировать общий доход, приводит нас к аналитической задаче определения максимума функции (1) по всем у£ [0, х]. Мы будем предполагать, что функции g и h непрерывны при всех конечных х 0, так что интересующий нас максимум всегда будет существовать. Рассмотрим теперь двухшаговый процесс. Предположим, что за счет издержек, требующихся для получения дохода gfy), первоначальное количество у уменьшается до ау, где а — некоторая постоянная, заключенная между 0 и 1(0<^а< 1). Пусть аналогично х — у уменьшается до Ь(х— у) за счет издер- 9 Единицы измерения дохода в этом случае отличны от единиц измерения количества х. Так, например, х может представлять собой денежную сумму, a g(y) — количество человеко-часов, сэкономленное в результате применения машин, приобретенных на сумму у. В других случаях, встречающихся в многошаговых задачах о капиталовложениях или в многошаговых производственных задачах, дело может обстоять иначе: как исходные ресурсы, так и доход могут выражаться в одних и тех же единицах. Встречается и сочетание этих двух вариантов задачи. Пока мы рассматриваем самый простой случай.
жек для получения h(x— у). Затем мы повторяем процесс с суммарным остатком ау^-Ь(х— у), полагая (2) ay-\-b(x — y) = xl = yi-\-(x1 — yd. где В результате этого нового распределения мы на втором шаге получим доход g (Л) 4~ (xi— Л)- Полный доход от описанного двухшагового процесса будет (3) R2 (х, у, уд = g(у) 4- h (х — у) + g (л) + A (Xj — Л). Максимальный суммарный доход получается при максимизации этой функции относительно у и ух в двумерной области, определенной неравенствами (4) а) 6) 0<j1<x1. Обратимся теперь к /V-шаговому процессу, где вышеописанная операция распределения повторяется последовательно /V раз. Тогда' полный доход от N-шагового процесса будет равен (5) Ядг (х, y,yi.yN _,) = g (у)4- h (х — у) -J- g (уд 4- + Л(Х1 —Л)4- ••• -Ь£(.Улг-1)-|-а(*лг_1 — где величины, подлежащие дальнейшему разделению после первого, второго....(Л/—1)-го шагов, определяются соотношениями (6) хг = ау -|- b (х — у), 0 у х, ^2 = «J14-^(X1 —Ji). 0<J1<X1, XN-1--йУп -2 Уц-2^' ®^Уц-2 XN-2' О "CJ’n-i Максимальный окончательный доход будет получаться в результате максимизации функции RN по TV-мерной области в пространстве переменных у, yt.....Лу-г в КОТОРОЙ значения этих переменных удовлетворяют соотношениям (6). § 3. ОБСУЖДЕНИЕ При решении этой задачи естественно возникает искушение воспользоваться аппаратом классического анализа. Если абсолютный максимум достигается внутри области, т. е. для всех-максимизирующих у^ выполняются строгие неравенства 0 < < х$, и если
функции g(y) и h(x— у) дифференцируемы, то, взяв частные производные по yit мы получаем для максимизирующих у^ систему уравнений (1) h'(xN_1— yN_1) = 0, S' {У}, _2) - h’ (_XN -2 — УХ -2) + (« - ^) h' \XN -1 — yN -1) = °- g-'(j) — h'(x — y)-\-(a — b)h'(xt — ... =0. Однако если мы не знаем, выполняются ли указанные условия, и, кроме того, нас интересует не относительный, а абсолютный максимум, то необходимо испытать на экстремальность и граничные значения у^ = 0 и yi = xi, а также все комбинации граничных значений и внутренних максимумов. Кроме того, в случае неединственности решения системы (1) мы должны дополнительно рассмотреть большое количество условий, достаточных для наличия именно абсолютного максимума, а не минимума и не относительного максимума. Очевидно, что для задач большой размерности, т. е. для процессов с большим числом шагов, совершенно необходимы некоторая систематическая процедура и постоянный контроль для доведения до конца полной программы решения. @, что как аналитики мы отступаем перед лицом этой чи и занимаем позицию пораженцев. Поэтому откажемся ских методов, чтобы обратиться за помощью к совре,-[слительным машинам. В качестве поучительного при-трим задачу о 10-шаговом процессе. Если мы хотим максимум тривиальным образом, т. е. путем подсчета значении функции /?10 — Ri(i(yt yv ...» у$) в соответственно выбранных точках решетки, то мы можем разделить все интересую-^ щие нас интервалы скажем, на десять частей и подсчитать значения /?10 в каждой из 1010 полученных таким образом точек. Однако 1010 —число, внушающее’ уважение. Даже самая быстродействующая современная машина или машина недалекого будущего потребует еще довольно много времени, чтобы определить решение таким путем. Для того чтобы дать некоторое представление о величине 1010, заметим, что если машине потребуется одна секунда на вычисление /?10 в точке решетки, запоминание и сравнение его с другими значениями, то для 1010 значений потребуется 2,77 миллиона часов; если время для одной точки составит одну миллисекунду (10”3С£я:), то для выполнения всей работы понадобится 2,77 тысячи часов, а если одну микросекунду (10“6сея:), то 2,77 часа. Только последняя величина может считаться достаточно приемлемой. Заметим, однако, что если рассматривается 20-шаговый процесс, то каждую из этих величин необходимо умножить еще на Ю10, потому что IQ20— 1Q10. 1Q10,
Излишне говорить, что существуют различные искусственные приемы, которые могут быть использованы для сокращения необходимого для вычислений времени. Тем не менее описанный метод по-прежнему является слишком громоздким и грубым для решения данной задачи. Кроме того, нужно отдавать себе отчет в следующем. Если мы настолько заинтересованы в решении задачи, что готовы предпринять описанные вычисления, то мы, вообще говоря, захотим узнать ответ не только для одного частного значения х, но для целого ряда его значений, не только для одного набора значений а и Ь, но для некоторого множества таких наборов, и не только для одной пары функций g и h, но для целого класса функций. Иначе говоря, мы хотим провести анализ чувствительности, устойчивости решения. Любой такой анализ устойчивости, если только он будет проводиться вышеописанными методами, потребует огромного количества вычислительного времени. Отметим, что рассмотренная нами задача есть прежде всего лишь реализация очень простого, до смешного, варианта одной из прикладных задач. Поэтому в создавшемся положении одна из действительно приводящих в уныние перспектив состоит в том, что любое приближение условий задачи к реальным (например, разделение х более чем на две части, т. е. увеличение числа отраслей, в которые можно помещать капитал, или возрастание числа видов ресурсов) повлечет за собой возрастание вычислительного времени по экспоненциальному закону. . Кроме того, как уже было отмечено в предисловии, необходимо ясное понимание того, что основная цель при создании подобных математических моделей космогонических, экономических, физических, биологических и т. д. процессов состоит не столько в получении чисел, которые во многих случаях являются сомнительными из-за недостаточности наших знаний относительно некоторых основных постоянных и входящих в задачи функций, сколько в определении самой структуры решения. Во многих процессах более важны общие представления, чем конкретные значения констант. Однако, вообще говоря, эти две задачи тесно связаны друг с другом. Если есть полное представление о процессе, то благодаря различным видам идеализации мы можем определить и требуемые постоянные. К тому же в приложениях встречаются процессы такой огромной сложности, что бесполезны вычисления, основанные на пробах и ошибках, и только предварительное выяснение общей структуры решения может подать надежду на эффективное использование вычислительных машин. Возвращаясь к идее о внутренней структуре решения, спросим себя, что именно мы желаем узнать при изучении процесса подобного типа. Естественно, нам хотелось бы получить точку (у, yv .. ., у^, в которой достигается Максимум, причем любое решение, вычисленное
в этой точке, должно давать максимальное значение. Однако с точки зрения лица, проводящего процесс, в действительности на любом шаге требуется только знание у как функции имеющихся в наличии ресурсов х и числа предстоящих шагов 7V, т. е. распределение определено, если известны имеющееся в наличии количество х и число оставшихся шагов N. Хотя рассматривается многошаговый процесс, но выбор на каждом шаге делается одномерный, т. е. выбирается число у из интервала [0, х]. Отсюда следует 1), что нужно так сформулировать задачу, чтобы сохранить одномерность; это спасет нас от возможности увязнуть в сложностях многомерного анализа задолго до завершения вычислений. § 4. МЕТОД ФУНКЦИОНАЛЬНЫХ УРАВНЕНИЙ Поставив своей целью сохранение одномерности задачи, будем действовать следующим образом. Прежде всего заметим, что макси-' мум полного дохода от TV-шагового процесса зависит только от N и от начальной величины х. В связи с этим определим функцию (1) Дг(х) как максимум дохода, полученного от N-шагового процесса, который начинается с величины х, для 1, 2, ... и х>0. Мы имеем (2) fN(x) = max RN(x. у. у.....у \ W = 2, 3, .... И (3) /,(х) = max [g(y)-\-h{x~~ у)\. О < Наша ближайшая цель состоит в получении уравнения, выражающего /2(х) через /t(x). При рассмотрении двухшагового процесса мы видим, что полный доход будет состоять из дохода от первого шага плюс доход от второго шага, на котором для распределения оставалась сумма ау-\-Ь(х— у). Отсюда ясно, что какой бы ни была первоначально выбранная величина у, оставшаяся к следующему шагу Сумма ау-\-Ь{х — у) должна быть использована наивыгоднейшим образом, если только мы намерены получить максимум при двухшаговом распределении ресурсов. * Это замечание, само по себе простое, является ключом ко всему дальнейшему математическому аппарату. Для читателя имеет смысл заострить на нем свое внимание и удостовериться в том, что он действительно согласен с этим замечанием, обладающим обманчивой простотой полуистины. 1) Как приложение полезного принципа видеть все таким, как хочется.
Если только yt выбрано оптимальным, то в результате начального распределения у мы получим от второго шага нашего двухшагового процесса полный доход Д (ay + b (х— у)). Следовательно, для окончательного дохода от двухшагового процесса при начальном распределяемом количестве у получается выражение (4) (х, у, JO == g (j) + h (x — у) +/i (ay + b (x — y)). Так как у выбиралось таким образом, чтобы максимизировать это выражение, то можно легко установить рекуррентное соотношение (5) fz(x)= max \g(y)-\-h(x — y)+fl(ay-^-b(x — j))J, О < у < X связывающее функции /х(х) и /2(х)- Используя точно такую же аргументацию для TV-шагового процесса, мы получим основное функциональное уравнение ) (6) fN(x)= max \g(y)-Y-h(x — y)-\-fN_1(ay + b(x — j))] для TV ^>2, где /Дх) определяется соотношением (3). Отправляясь от функции определенной уравнением (3), мы используем (6) для вычисления /2(х), которое, если процесс повторить снова, даст нам /3(х) и т. д. При этом на каждом шаге вычисления мы получаем не только Д(х), но также и yk(x), так как распределение исходной величины х в начале ^-шагового процесса было оптимальным. Отсюда видно, что процесс решения нашей задачи состоит в табулировании последовательностей функций {^(х)} и {Д(х)} для х>0, k= 1, 2........ Если дана последовательность функций {л(х)}, то решение конкретной задачи с заданными числом шагов TV и величиной х имеет вид (7) y==yN(x). Л = J\v-i (ау +Ь(х—у)), Л = ^-2(аЛ + ^(х1-Л)), Лу-1 ~ У1 (аУм-й (Xff-2 Уы-2) )’ где (у/, yv ..., — система распределений, максимизирующих полный доход от TV-шагового процесса,
Заметим, что для цифровой вычислительной машины может быть составлена такая программа, при которой машина не только табу* лировала бы последовательности {Д(х)} и {л(х)}> но и печатал* бы последовательность значений у, yv ... , Уя-v § 5. ОБСУЖДЕНИЕ Необходимо отметить тот важный факт, что мы пытались решить задачу о максимизации для случая конкретных значений х и N путем решения общей задачи, включающей произвольную величину х и произвольное значение N. Иначе говоря, как это и было обещано в § 1, мы рассматривали первоначальную задачу как частный случай семейства сходных задач. Этот основной математический метод будет развиваться на протяжении всего дальнейшего изложения. Какая же польза от такого подхода к решению задач? Прежде всего это позволит свести одну N-мерную задачу к последовательности из N одномерных задач. Вычислительная выгода такой постановки задачи очевидна; кроме того, в следующих параграфах мы покажем, что она дает значительные аналитические выгоды, которые и следовало ожидать. Как мы увидим, для широкого класса функций g и h нам удастся получить даже явные решения, которые могут быть использованы для целей аппроксимации. В дальнейшем эта точка зрения будет обсуждаться снова. Даже в тех случаях, когда решение довести до конца не удается, окажется возможным установить ряд его важных структурных свойств. Использование структурных свойств решения и уменьшение числа измерений позволяет применить вычислительную технику, которая сильно сокращает время, необходимое для решения первоначальной задачи. К этой точке зрения мы еще вернемся в связи с некоторыми многомерными вариантами рассмотренной задачи. § 6. МНОГОМЕРНАЯ ЗАДАЧА О МАКСИМИЗАЦИИ Прежде чем перейти к более детальному изложению теории описанных выше процессов, отвлечемся на мгновение и кратко остановимся на двух следующих примерах применения общего метода. В качестве первого примера рассмотрим задачу об определении максимума функции я (1) Г(ХР Х2...... в области, определенной соотношениями (2) a) xx + x2+ ... +x7V = c, б) х{>0, причем каждая из функций gj(x) непрерывна для веек
Так как максимум функции F зависит только от с и N, то можно определить последовательность функций (3) fN(G) = maxF(xv х2.....xJ {М для 0 и W = 1, 2, ... . Тогда, рассуждая как и выше, мы получаем рекуррентное соотношение (4) /^(0= max [^(х)-}-/^^ —х)| для N = 2, 3, ... , где (5) fi(c) = gdc). § 7. ЗАДАЧА О „СГЛАЖИВАНИИ» В качестве второго примера приложения общего метода рассмотрим задачу об определении последовательности {хл}, максимизирующей функцию N Я (1) F (х , х.......хЛ = 2 gk (хк — гк) 4- 2 hk (хк — хк_ t). 4 4 7 А=1 Здесь {гй} — некоторая заданная последовательность чисел, xQ=c— фиксированная постоянная, функции gk(x) и hk(x) предполагаются непрерывными для всех конечных х, причем g&(x), Лй(х)—>оо при | х | —> оо. С происхождением этой задачи, объясняющим ее название, мы познакомимся в упражнениях. Определим последовательность (с)}, R = 1, 2, ... , N, где fR(c) есть минимум функции (2) N N Fr= 2 £к(хк — rk) + ^к(хк — хк-1) k~R k=*R по всем хй, хв+1.........XN, а xR_t = c. Мы имеем • (3) /JV(c) = min [^(х — rN) + hN{x — с)] и (4) fR (с) = тш (х — гд) + hR (х — cj (х)] ДЛЯ /? = 1, 2, , N— I,
§ 8. БЕСКОНЕЧНОШАГОВАЯ АППРОКСИМАЦИЯ Обратимся вновь к процессу распределения. Приводимое здесь изложение вопроса послужит прототипом при рассмотрении целого ряда многошаговых процессов различного происхождения, но одинаковой аналитической структуры. Если число шагов N велико, то естественно рассмотреть в качестве аппроксимации TV-шагового процесса бесконечношаговый процесс, отличающийся от конечношагового процесса только тем, что он продолжается сколь угодно долго. Несмотря на то, что неограниченно продолжающийся процесс физически всегда является некоторой фикцией1)» с математической точки зрения он имеет много привлекательных черт. Одно несомненное и немедленно сказывающееся преимущество такой аппроксимации заключается в том, что вместо последовательности уравнений (4.6) можно рассматривать единственное уравнение (О f(x) = max ——j/))], 0< 2/ которому должна удовлетворять функция /(х) и которое определяет полный доход от процесса вместе с единственной распределяющей функцией у = у (х). С другой стороны, мы сразу же сталкиваемся с обычными трудностями, связанными с бесконечными процессами. Прежде всего далеко не ясно: будет ли существовать в соотношении (1) максимум или же следует ограничиться супремумом? Это означает, что в данном случае может и не оказаться такой политики распределений, в результате которой получается полный доход /(х). Кроме того, если мы хотим неограниченно пользоваться уравнением' (1) для установления свойств бесконечного процесса, то необходимо доказать, что оно не имеет посторонних решений. Другими словами, мы должны доказать для него теоремы существования и единственности, если, конечно, мы имеем в виду использовать это уравнение обычным образом. § 9. ТЕОРЕМЫ СУЩЕСТВОВАНИЯ И ЕДИНСТВЕННОСТИ В этом параграфе будет получен результат, являющийся по существу частным случаем более общего результата, о котором пойдет речь в следующей главе. Однако повторение, которое обычно шокирует нас в художественной литературе, не является большим математическим грехом. Для нас во всяком случае более 1) Мы иногда будем употреблять слово „физический" для обозначения „действительного" мира. Его можно интерпретировать как „экономический", „биологический„технический" и т. д. в зависимости от содержания задачи и интересов читателя.
важно детально рассмотреть сначала простейший вариант, что даст возможность выявить основные идеи, свободные от менее существенных технических деталей. Докажем следующую теорему. Теорема 1. Предположим, что (1) а) ё (х) и h{x) — непрерывные функции от х для х^>0, g (0) = й (0) = 0. б) Если т(х) = max, max(|g(y)|,J/z(y)|), c = max(a, b), 0<2/<a? то ^m(cnx) < oo для всех x>-0. fl=O * в) 0<a < 1, < 1. При этих предположениях существует единственное решение уравнения (8.1), непрерывное при х = 0 и обращающееся в этой точке в нуль: это решение является непрерывной функцией от х. Прежде чем перейти к доказательству, отвлечемся на мгновение и рассмотрим важный частный случай, когда обе функции g и h принимают только неотрицательные значения. Тогда при любом х последовательность чисел {С-*7)} • П0ЛУча^мая из соотношения (4.6), является монотонно возрастающей и, как будет показано ниже, ограничена в силу условия (16). 'Следовательно, для всех х^>0 последовательность фуНКЦИЙ fN(x) СХОДИТСЯ К фуНКЦИИ /(х) При N-+OO. Покажем, что эта функция удовлетворяет уравнению (2) /(*) = sup [g(y)+h(x — У)+/(«?+£(*--J))]. Для упрощения записи положим (3) Г(/, y) = g(y) + h(x — У)f (ayb (х — у)). Тогда основное рекуррентное соотношение запишется так: (4) . Лг+1 (*)== тах ПЛт-У)- Из (4), как следствие монотонности по N, получаем (5) /(*)> шах Т(/у, у). О 2/ я? Но это означает, что для любого у £ [0, х] справедливо неравенство (6) /М>Г(/Л-. J). Устремляя М к бесконечности, получаем (7) /(х)>Г(/. у)
для всех у £ [0, х], откуда в свою очередь следует, что (8) /(х)> sup T(f, у). Мы не можем написать здесь max, так как ничто не гарантирует нам непрерывности предельной функции /(х). С другой стороны, из (4) мы получаем также соотношение (9) /y+1(x)< sup T(f, у) 0<2/<а? для всех N, а отсюда и (Ю) /(*)< sup T(f, у). Сравнение (8) и (10) дает нам (2). Один из недостатков проведенного, доказательства, основанного исключительно на монотонности, заключается в том, что непрерывность предельной функции не доказывается, и тем самым не устанавливается существование оптимального поведения. Но это оптимальное поведение есть функция у(х), при которой достигается максимум в соотношении (И) /(*) = max T(f, у), если этот максимум существует. Как с точки зрения приложений, так и с точки зрения вычислен ний вопрос о существовании оптимального поведения для бесконечного процесса не играет большой роли. Однако он очень важен в связи с определением структуры оптимальных поведений бесконечно продолжающегося процесса. Таким образом, вопрос о существовании непрерывных решений косвенно является существенным именно в той мере, в какой это связано с получением численных результатов, так как решение задачи для бесконечного процесса может быть использовано в качестве аппроксимации решения аналогичной задачи для конечного процесса. Для того чтобы установить существование и единственность непрерывного решения уравнения (11), используем метод, который применим к широкому классу уравнений подобного типа,—метод последовательных приближений. С монотонностью же мы встретимся снова в следующих главах. Обратимся вновь к рекуррентным соотношениям (4). Прежде всего заметим, что благодаря сделанным предположениям относительно g(x) и А(х) функция Д(х) является непрерывной при всех х^>0. Отсюда, рассуждая по индукции, можно получить, что каждая функция из последовательности {/#(х)} непрерывна. Следует заметить,»
однако, что максимизирующие распределения у но обязаны непрерывно зависеть от х; Иными словами, оптимальное поведение не обязательно должно быть непрерывной функцией от х. Соответствующий пример будет приведен в ;§ 15. Пусть yN(x) является тем значением у, которое осуществляет максимум в (4), причем если имеется более одного значения, доставляющего максимум выражений) (4), то безразлично, какое именно значение у берется. Тогда мы имеем (12) /3V+J W -7’(^. Л\г+з = Г (Лг+г Zv+i)* Как следствие максимизирующих свойств yN мы получаем неравенства (13) fN+iM=T^ yN)>T(fN, yN^t Лг+2(х) = ^(/у+1’ Лдг+1) (Лг+г У^- С другой стороны, эти неравенства дают нам (14) Л\Г+1) ^(/jV+Г ^+1)^/дг+1(Х)—/jv+2(x)^ ? (fa* Уи} ? (fa+V У^' с Комбинируя эти два неравенства, мы получаем важную оценку (15) |4+1<х)—Мг(х)|<тах[[Г(/^ -Vy+1) — Лу+1)|- !’•(/„. ?,) -’(/»« П-Возвращаясь к даваемому формулой (3) определению Т (J, у), мы видим, что (16) |^(Лу’ Уы) ? (Лг+г Л\г)| = - \Tn (аУн + Ь Iх К + ь (* ~ Ун) ) I- Положим теперь (17) иЛГ(х)= max \fN(z)—fN+l(z)\, N=l, 2....... Так как ау-{-Ь(х — у)^сх для всех у £ [0, х], то соотношение (16) дает нам < „ / - (18) (^) (tlx). " Остается оценить z/t(x). Обращаясь к уравнениям для /г(х) й /2(х), мы имеем соотношение (19)' |/i(x)—72(4lkmak[|/1(a>1-|-^(x — j1))|,' IА (ау2 4- b (х — у2)) | ]< п(сх), где использовано определение /п(х), данное в (16). 3 Р. Веллман
Таким образом, мы видим, что их (х) т (сх), а используя далее (17), получаем, что uN(x)^ m(cNx). Из предположения отно- оо сительно /п(х) следует, что ряд^2^(х) сходится при всех х, и притом (что является весьма существенным) равномерно в любом конечном интервале. Следовательно, предельная функция/(х) = НтДДх) N ->оо существует и непрерывна при всех значениях х. Кроме того, в силу этой равномерной сходимости функция /(х) является решением уравнения (6.1). Остается установить единственность этого решения. Пусть F (х) будет любое другое решение, которое существует при всех х и непрерывно при х —0, причем /^(0) —0. Пусть в уравнении (20) /(х)= max T(f, у) у = у(ус) является тем значением у, при котором достигается максимум, а функция w = w(x) играет аналогичную роль в соотношении (21) F(x)— max Т (Ft &). Тогда, как и выше, можно получить два неравенства (22) /(х)=Г(/, y)>T(J. w), F(x)—T(F, w)^T(F, у), и это, как прежде, приводит к опенке (23) | f (х) — F (х) | < max [| Т(f, у) — Т(F, _у)|. | Т(/, w)-T (F, w) Ц< < max [\f(ay-\-b (х—у) )—F (ay + b (x—y)) |, |/(aw b (x — •w)) — F (aw -|- b (x — w)) | ]. Теперь положим (24) «(x)= sup \f(z)— F(z)\. 0 S X Так как функция /(x) непрерывна при всех х>0и функция Р(х) по предположению непрерывна при х = 0, то отсюда видно, что функция и (х) также непрерывна при х = 0 и обращается в этой точке в нуль. Из (23) мы получаем (25) * и (х) < и (сх),
откуда, итерируя, находим, что (26) и(х)< и(cNx) для всех N^>1. Так как функция и(х) при х = 0 непрерывна и я(0) = 0, то при N->oo мы получаем и(х)^,0 и, следовательно, f(x) = F(x). Это завершает доказательство существования и единственности решения . для функционального уравнения, связанного с бесконечным процессом. § 10. ПОСЛЕДОВАТЕЛЬНЫЕ ПРИБЛИЖЕНИЯ Рассмотрим уравнение (1) /(*) = max T(f, у). Ранее нами было показано, что некоторая конкретная последовательность последовательных приближений сходится к единственному решению, которое непрерывно при х = 0 и равно нулю в этой точке. Как с аналитической, так и с вычислительной точки зрения важно знать, действительно ли любая последовательность, начальная функция которой удовлетворяет некоторым простым условиям, сходится к решению. Использованный выше метод может быть с успехом применен при доказательстве следующей теоремы. Теорема 2. Пусть функция f0 (х) удовлетворяет следующим условиям*. (2) а) /0(х) непрерывна "при б)/о(О)=О. Если выполнены все условия теоремы 1, то последовательность функций, определенная рекуррентным соотношением (3) fN+1(x)= max T(fN,y), N = 0. 1.......... сходится равномерно в любом_ конечном интервале к решению f(x), которое было определено ранее. § 11. ПРИБЛИЖЕНИЕ В ПРОСТРАНСТВЕ ПОВЕДЕНИЙ Для получения решения нелинейного функционального уравнения (1) /(*) = max T(J, у) 0<г/<ж выше был применен классический метод последовательных приближений. Теперь мы намерены более детально исследовать некоторую двойственность, которая возникает при рассмотрении этих процессов
решения. Это будет сделано главным образом для доказательства того, что можно выбрать начальное приближение таким образом, чтобы обеспечить монотонную сходимость последовательных приближений. Последнее означает, что с каждой итерацией приближение равномерно улучшается. Как и прежде, будем называть последовательность распределений, т. е. последовательность допустимых выборов у, поведением, а поведение, дающее /(х),— оптимальным поведением. Двойственность, которая имеет место в теории динамического программирования, является результатом взаимной связи между функциями /(х), измеряющими максимальный доход, и поведениями, которые эти максимальные доходы дают. В действительности поведение также есть функция, так как каждому значению аргумента х сопоставляется некоторое значение >(х). Тем не менее полезно сохранить термин „поведение", ибо он дает некоторые преимущества интуитивного порядка. Если поведение не единственно, то у не будет однозначной функцией от х. Из функционального уравнения (1) следует, что _у(х) может быть определено, если известна /(X), и обратно: любое у(х) определяет /(х) итеративно с помощью функционального уравнения (2) /(х)=Т(/, у/(х)). Так, например, если оптимальное поведение состоит в неизменном выборе у — 0, то /(х) будет удовлетворять функциональному уравнению (3) /(*) = А(*)+/(М. которое дает в результате оо (4) = п=0 Как было упомянуто выше, цель нашего исследования состоит не столько в определении функции /(х), которое по существу является побочным результатом, сколько в определении структуры оптимального поведения, т. е. j/(x), что в конечном счете является более важным. Это приводит к важной и полезной идее. Приближения можно осуществлять как в пространстве функций /(х), так и в пространстве поведений д/(х). Последнее во многих случаях является наиболее естественной и простой формой приближения. Аналитическое преимущество такого подхода к вопросу состоит в том, что он всегда приводит к монотонным приближениям. С практической же точки зрения приближение в пространстве поведений и более естественно, тем более, что обычно это является той частью задачи, О которой мы* получаем некоторую информацию из опыта»
Пусть j>0(x) —некоторое поведение, которое мы возьмем в качестве начального, а /0(х) —функция дохода, полученная на основе этой функции поведения. Иными словами, предположим, что /0(х) удовлетворяет функциональному уравнению (5) /oW-ПД. Л«). которое будем решать посредством итераций. Чтобы улучшить поведение Уо(х), определим ^(х) как функцию от х, которая максимизирует Т(/о> У) для Допустим на мгновение, что функция ^(х) сама непрерывна по х (что не обязательно имеет место) и что функция дохода /Х(х), вычисленная при использовании этого поведения, также непрерывна. Как будет показано ниже, при сделанных ранее предположениях это всегда имеет место. Продолжая точно так же действовать и дальше, мы получаем последовательность поведений {.У^(х)} и последовательность функций до-хода {/«4-0}- Используя описанные в предыдущих параграфах методы, легко показать, что при сделанных предположениях последовательность {/у(х)} является монотонно возрастающей. Оказывается, что строгое доказательство существования решения, т. е. сходимости последовательностей и {Лг(х)}’ получить трудно. Следовательно, приходится удовольствоваться следующим. Теорема 3. Пусть /0(х) является результатом начального приближения в пространстве поведений, т. е. (6) /о(-*:) = 7'(/о- Уо(х))> где у0(х)— произвольная непрерывная функция от х, удовлетворяющая условиям (7) 0<_у0(х)<х. Тогда в предположениях теоремы 1 определяемая рекуррентным соотношением (8) /jv+i(x)= max N = 0, 1. 2..... последовательность функций сходится равномерно к полученному решению f(x)t и сходимость эта монотонна. Доказательство. Прежде всего докажем монотонность, которая является весьма существенной. Мы имеем (9) Л(х)= max Т (f0, у). о у X Сравнивая определение /0(х) из формулы (5) с этим определением мы аидим, что /;(х)>/0(х) для всех значений х.
Отсюда по индукции следует, что /^+1(х)^>/^(х) для всех значений х 0. Остается доказать непрерывность функции f0(x) для х^>0. Условия, которые мы далее наложим на функции g(x) и h(x), показывают, что формальный ряд для f0(x) (Ю) /oW = gr(Jo) + ^(^~Jo)+ ••• < полученный итерациями, сходится равномерно в любом конечном интервале и представляет непрерывную функцию от х для всех х^О, если только yQ(x) есть непрерывная функция от х. § 12. СВОЙСТВА РЕШЕНИЯ. I. ВЫПУКЛОСТЬ Покажем, что на основании ряда простых структурных свойств функций g и h можно получить некоторые структурные характеристики оптимального поведения. Структура оптимального поведения у(х) и структура функции дохода /(х) оказываются, таким образом, тесно связанными. Наш первый результат в этом направлении состоит в следующем. Теорема 4. Если в дополнение к предположениям теоремы 1 мы наложим на g и h еще условие, чтобы они были выпуклыми функциями от х, то f(x) тоже будет выпуклой функцией} в этом случае для каждого значения х соответствующее значение у будет равно либо нулю, либо х. Доказательство. Доказательство будем вести по индукции. Так как (О AW= max (g'(j')H-A(x — у)) и g(y)~[-h(x — У) есть выпуклая функция у для 0<С.у-<х, то (2) Л (х) = max (g (х), h(x)), так как максимум выпуклой функции должен достигаться на одном из концов интервала. Будучи максимумом двух выпуклых функций, функция /Дх) тоже выпукла. Из того, что g (у/) 4~ h (х — у) fi (ay 4“ b (x — у)) есть выпуклая функция у для у£ [0, х], следует в результате аналогичных рас-суждений, что и (3) A (*) = max [g (х) +/, (ах), h (х) +А (Ьх)} является выпуклой функцией от х. Тогда, рассуждая по индукции, мы устанавливаем выпуклость функции f^(x). Следовательно, предельная функция f(x) также выпукла, л..
Обратимся снова к уравнению /(х) = max T(j,y). В силу 0<2/<а? выпуклости функции /(х) оно приводится к следующей пре с гой форме: (4) /(x) = max[g(A!)-|-/(ax), h(x) +/(0Х)], так как для каждого значения х либо j/=0, либо у = х. Неожиданно оказывается, что это уравнение по-прежнему трудно решить в общем виде. Ниже будет рассмотрен один частный случай этого уравнения. § 13. СВОЙСТВА РЕШЕНИЯ. И. ВОГНУТОСТЬ Покажем, что аналогичные результаты имеют место и тогда, когда обе функции g и h — строго вогнутые функции от х для Теорема 5. Если в дополнение к условиям теоремы 1 функции g(x) и h(x) строго вогнуты, то и f(x) будет строго вогнутой функцией от х. В этом случае оптимальное поведение единственно. Доказательство. Мы рассмотрим сначала случай одношагового процесса и выполним некоторые простые вычисления, из которых будет видно, почему сформулированная теорема справедлива, а затем перейдем к строгому доказательству, в котором будет использован другой, более общий метод. Мы имеем (1) AC*) — max [g-(j) + A(x — j/)]. Так как g и /г —строго вогнутые функции, то функция у) также является строго вогнутой функцией от у. Следовательно, эта функция для обладает единственным максимумом, кото- рый, впрочем, может достигаться в одной из точек j/=0 или у~х. Предположим сначала, что этот максимум достигается во внутренней точке и что функции g и h имеют вторые производные. Тогда (2) /iW = g'0')+*(*~ У)> где у определяется как функция от х с помощью соотношения (3) g' = К (х— у). Дифференцирование равенства (2) дает нам (4) (х) = [g' (у) h'(х -g- -f- й' (х — у) = 1г'(х — у), а отсюда (5) f[{x) = h\x—у)(\ — -g).
Дифференцируя соотношение (3), мы получаем (6) откуда (7) dy h" (х — у) ~dx — £"(У)4-Л"(х —у)’ Поэтому 1 > dyldx > 0, так что, возвращаясь к (5), мы имеем А'(х)<0. Если максимум достигается на одном из концов интервала, то с помощью некоторого незначительного изменения функций g и h можно сделать так, что в точках j = 0 или у = х максимума уже не будет; например, это можно сделать путем прибавления члена elogj/(x— у) при достаточно малом положительном е. Далее можно перейти к индуктивным рассуждениям и установить, что все члены последовательности {/^(х)} — вогнутые функции. Однако такой подход к вопросу является довольно грубым и без больших трудностей не может быть распространен на многомерные задачи. Поэтому для доказательства теоремы будет использован элементарный, но более тонкий метод. Лемма 1. Если G(x, у)— вогнутая1) функция от х и у для х, у^О, то функция (8) /(х)=±± max G(x, у) также вогнута для х 0. Доказательство. Для произвольного 0 4С X 1 мы имеем (9) /(Хх4-(1—X)z) = max G (Хх 4~(1 — Х)г, y). 0< У < X£D4-(l-X)z Заменим у величиной ^ = Xj/1-]-(l — X)y2, где yx и y2 изменяются независимо друг от друга в интервалах ОСу^^и Тогда (10) /(Хх-ф-(1—Х)^)== max G(Xx-|-(l—X)Xj/x-j—(1—X)j/2). 0 < Ул < X о < Уч < Z Так как функция G(x, у) вогнута относительно х и у, то (Н) о(Хх + (1—X)z, ХЛ+(1—Х)л)>ХО(х,л) + (1“Х)О(дл)- 1) Вогнутость относительно обеих переменных х и у означает, что для <Х< 1 G (Xxi + (1 — X) х?> Xyi -|" (1 — X) у2) ХС7 (х^, yi) 4” (1 X) О (х2,
Отсюда (12) /(Хх+(1—к)г)> max [кО(х, л)+(1 — *)O(z, j2)] > О 2/1 О 2/s >.Х max G(x, >i)-|~(l—X) max G(z,y2)^ Od/j< х 0<^9<г >Х/(х) + (1-Х)/(^). Применим теперь эту лемму к доказательству теоремы 5. Легко удостовериться в том, что g(.y)“b^(*— У) есть вогнутая функция от х и у, если только обе функции g и h вогнутые. Отсюда непосредственно вытекает, что функция /г(х) также вогнутая. Точно так же из вогнутости функции j\(ay -\-Ь(х— у)) относительно х и у следует вогнутость функции /2(х)» которая определяется основным рекуррентным соотношением. Таким образом, по индукции доказывается строгая вогнутость каждой функции последовательности {Дг(х)}. Отсюда мы получаем, что предельная функция должна быть вогнутой. Строгая же вогнутость предельной функции следует из строгой вогнутости функций g и А, если применить лемму 1 к функциональному уравнению для /(х). Коль скоро установлена строгая вогнутость функции/(х), единственность максимизирующего значения у, а следовательно, и единственность оптимального поведения получается непосредственно. Это завершает доказательство теоремы 5. § 14. СВОЙСТВА РЕШЕНИЯ. III. ВОГНУТОСТЬ Убедимся теперь в том, что предположение относительно вогнутости дает нам возможность выяснить природу решения несколько подробнее. Теорема 6. Предположим, что (1) а) и А(х)— строго вогнутые для х^>0, монотонно возрастающие и непрерывно дифференцируемые функции, причем g(Q) — h (0) — 0. б) Л'(0)>^(~). ь>а. Тогда оптимальное поведение имеет следующий вид: (2) а) у = х для 0 х х, где х есть корень уравнения h'i.ty — g' (х) 4- (b — a) g7 (ах) 4- (Ь — а)а£ (а2х) 4- .... б) у = у(х) для х^х, где у(х) есть функция, удовлетворяющая неравенству 0<^(х)<х и являющаяся решением уравнения
(3) g' (J)—h'(x — y)-\-(a~ b) f (ay b (x — _y)) = 0. Замечание. Мы определили здесь решение только для одной из возможных комбинаций неравенств, связывающих g' (0), h' (0), b и а. Из следующих далее рассуждений легко усмотреть, что для других случаев получаются аналогичные неравенства. При этом число рассматриваемых случаев может быть уменьшено вдвое в силу того, что перемена ролями у и х — у ведет к перемене ролями а и Ь, Доказательство. Применим метод последовательных приближений. Положим (4) А(х)= max [g(y)-\-h(x — j)]. По предположению, g' (0)>Л'(0) для малых значений х, так что g'Cy)—h'(х— _у)>0 для у, лежащих в интервале [0, х]. Поэтому ^(y) + ^(x— у) является монотонно возрастающей функцией для 0 у х и максимум достигается при у = х. Так как х возрастает, уравнение g'(у)— h' (х — _у) = 0 в конечном счете будет иметь корень у = х, а так как х продолжает возрастать и дальше, то этот корень окажется внутри интервала [0, х]. Критическое значение х дается решением уравнения g'(х)— h' (0)=0. Это уравнение имеет в точности одно решение, которое мы обозначим через хР Пусть для х xt единственным решением уравнения g' (у) — h' (х — у) является yt — yt (х). Единственность решения следует из предположения о вогнутости g и Л, а его существование — из непрерывности g' и h'. Таким образом, мы имеем (5) А(х) = g (х), 0 х хр g (Л) + h (х—>0. х > Хр И g-'(x), 0<х<Хр (6) /;(х)= [£' (Л) — h'(x — j/J] + h' (х — Vj) = h' (x — yx), x xt. Так как y/1(x1) = x1, т0 легко видеть, что функция /'(х) непрерывна при х = хр а следовательно, и для всех значений х^О. Кроме того, Д(х) является вогнутой функцией от х (ср. с рассуждениями § 11). Перейдем теперь ко второму приближению (7) /2(*) = max lg(y) + ^(x — y)+f1(ay->rb(x~y)')]. Функцию В (у) = g' (j) — h' (х — у) + /' (ay b(х—у)) (а—b)
будем называть критической. Так как g' (0) — h' (0) + /' (0) (а — Ь) — то значения функции D(j/) будут положительными для всех у £ [0, х] при достаточно малых х. Из этого следует, что в (7) максимум достигается при у = х для малых х. Так как х возрастает, то найдется первое значение х, для которого D(x) = 0. Это значение х2 определяется из уравнения g' (х) = И! (0) + (Ь — a)f'±(ax). Из сравнения двух уравнений (8) £'(х) = Л'(0), g' (X) = h' (0) 4- (b — a) (ax) получаем* 0 < x2 < xv Поэтому уравнение для x2 имеет следующий простой вид: (9) g'(x)==ft'(0)-]-(b — a)g'(ax). Таким образом, в (7) у = х для и У = У2(Х) для х^>х2, где у2(х) является единственным решением уравнения (10) g'(y)^h'(x-y)-lr(b—a)f'1(ay-Jrb(x — y)). Кроме того, , (ё' (*)> 0 < х < х2, (И) /г(х)— \h>(<x_y^jrbf'^ay2^b(x — y2)), х>х2, и f'2(x) непрерывна в точке х = х2. Сравнивая (10) с уравнением gz(j/) = h'(x — _у), определяющим ух, получаем у2(х} < у^х). Для того чтобы провести индукцию до конца и получить соответствующие результаты для всех членов последовательности {/п}, рекуррентно определяемых соотношением fn+i(x) = ma'x [g(y) + h(x — y)+fn(ay-\-b(x — j))], потребуется весьма важное неравенство Нам пред- стоит исследовать поведение этих функций в трех интервалах [0, х2], [х2, xt], оо]. Прй рассмотрении каждого из них будут применяться различные методы доказательства. Для х^х2 мы, используя (10) и (11), имеем (12) ' /;W= Сопоставляя (6) с уравнением для yv получаем (13) /;«= »г(у,)-^ц-л>.
Выражение \bg' {у) — ah' (х — j/)] (b — a)~1 является монотонно убывающей функцией у для 0 у х. Из того, что у2 < Л» сле“ дует, что f'2(x)> /{(х), и доказательство для интервала [xlt оо] завершено. В интервале [0, х2] имеет место равенство. Осталось рассмотреть интервал [х2, xj. В этом интервале мы имеем (И) /J(x) = g'(x), f'^\— bs' (У2) — ah'(x— у,) '2W— b — a При 0<j/^x и 0< x<; xt из g'(y)^>h'(x — у) следует g' (x)^>^z(0). Поэтому, так как 0<С_У2<^х, в рассматриваемом интервале (15) /2' (х) > 6g' (^-E ^'(0) > g' (х). Это завершает доказательство того, что /2(х)^>/'(х). Мы имеем теперь все составные части доказательства по индукции, из которого следует, что (16) a) xt > х2 > . . . > хп > . . . > О, б) Л(х)</'(х)< ... <4(х)< , В) Л(х)>Л(х) Так как /п(х) сходится к /(х), fn(x) к /'(х), уп(х) к у(х) и хп к х, то мы видим, что решение имеет указанную форму. § 15. ПРИЧУДЛИВЫЙ ПРИМЕР Успешно воспользовавшись предположением об одновременной выпуклости или вогнутости функций g и h, мы сейчас убедимся на примере, что решение может стать чрезвычайно сложным, если брать более дбщие функции, обладающие точками перегиба.
Рассмотрим уравнение (1) /(х) = max ^-1°/^ + ^~15/^-^+/(0,8ey+0,9(x —3/))]. Функция е~с/х используется здесь потому, что она является одной из простейших функций, имеющих точку перегиба. Определяя /(х) при помощи метода последовательных приближений, мы получим гладкую кривую, изображенную на рис. 1. Отметим, однако, что у(х) ведет себя очень странно (см. рис. 2). Как только допускается изменение знака со стороны g" (х) или Л"(х), сразу получается функциональное уравнение, не поддающееся точному анализу. § 16. ОБЫЧНЫЙ ПРИМЕР. I Рис. 1 и 2 указывают на трудности, которые могут встретиться при отыскании общих решений. Рассмотрим поэтому некоторые простые уравнения, которые могут быть использованы в целях аппроксимации. Теорема 7. Непрерывное решение уравнения (1) /(х) = тах[схй4-/(ах), ехя -\-f(bx)\, /(0) = 0 при выполнении условий (2) а) 0 < a, b < 1; с, d, е, g > О, б) 0<d<g имеет вид (3) f /(*) = exS-]~f(bx), х^-х,
где (4) I с (1 — ad) 1 La-^r1 Если 0 < b < 1, то f(x) может быть получена в явном виде в интервалах , где я = 0, 1,2........ bn+i Доказательство. Обозначим через А операцию выбора cxd+/(ях), а через В — операцию выбора ехв f (Ьх). Тогда решение S, соответствующее оптимальной последовательности выборов, можно символически представить как (5) S = Aa'BbiAa*Bb* . .. , где и Ьг — целые неотрицательные числа, причем Aai означает, что выбор А повторяется раз; Вь* имеет аналогичное значение. Предположим, что решение имеет указанную форму, и покажем, как можно получить х. В точке х либо Л, либо В является опти-мальньш решением, в то время как для значений, меньших х, оптимальным решением является только А. Следовательно, х есть точка, для которой имеет место символическое равенство (6) ВАСО = АСО. Для выражения Л°° напишем (7) f(x)=cxa-\-f(ax) = cxa+c(ax)d + c^x)d+ ... = т^г. 1 — аа Аналогично ВЛ°° (8) Приравнивая эти в (4) значение. Остается доказать, что решение имеет вид (3). Прежде всего докажем, что для малых значений х всегда используется А. Для этого достаточно показать, что /(х) = cxd/(l —ай)для этих х является решением, а затем призвать на помощь теорему единственности1). дает chd f(x) = exff-}- . J v 7 ' 1 — ad два выражения, находим, что х имеет указанное !) Строго говоря, эта теорема единственности нами еще не доказывалась. Однако легко видеть, что примененный для доказательства теоремы 1 метод действует» хорошо и в этом случае.
Кроме того, необходимо, чтобы для малых х хлч cxd Г cxd п 1 cbdxd ] (9) т-----з = max т;----з, ex9 Ч- з----з . ' 7 1 — ad L1 — ad 1 1 — ad\ Это очевидно при g > J > 0 и 0 < £ < 1. Теперь будем рассуждать по индукции. Пусть z означает самое малое значение х, для которого выбор В является оптимальным. 3 этой точке ВЛ°°= Д°°. Это значит, что z = x. Рассмотрим теперь интервал х > х и определим точку р, в которой АВ и В А действительно равны как совокупность первых двух выборов. Мы имеем в очевидных обозначениях (10) /ав М = cxd 4- easxs 4» f (abx), /ва (*) — exg + cbdxd 4- f(abx). Отсюда для искомой точки р можно получить уравнение Так как g > d, то р < х. Из того, что fAB(x) </Ва (*) для х > Р* следует, что для х > х выбор АВ плюс оптимальное продолжение хуже, чем выбор ВА плюс оптимальное продолжение. Отсюда мы видим, что выбор А не может быть использован для х > х, если за ним не следует Л°°, что, как нам известно, также невозможно. Следовательно, теорема доказана полностью. § 17. ОБЫЧНЫЙ ПРИМЕР. П Другим интересным случаем является тот, когда функции g(x) и h(x) являются квадратичными. Следующая теорема дается в качестве упражнения. Теорема 8. Пусть с, d> 0, 0 < # я < 1 и (1) /(х)= max Icy—y2-f-d(x—у)—(х—y)2~hf(ay-]-t>(x — у))], 0< 2/ /(0)=0. Тогда в интервале1) 0<ix<;niin (с/2, d/2) функция f(x) имеет указанную ниже форму, которая зависит от знака разности cl{\—a) — dl(\—b). *) Это наибольший интервал, в котором обе функции g и h возрастают.
Случай 1. с/(1 — a)—4/(1—b). (2) где (3) _ (c-d)a + d _ а2 + (1 —а)2 1 —[(л —ZF)a + &]2X * а2 — b- 1 — ab а '.а2 — Случай II. c/(l—a)<d/(l—b). <4) f(X)— ( l—ft) X ( 1 — £2 )X2 для 0<^x<imin(k, c/2, d/2), где x_ (1 + W0 -*)-c(l -b)] k~ 2(1 — ab) Если k<min(c/2, d/2), то в качестве рекуррентной формулы используется (1), которая дает возможность получить f(x) во всем интересующем нас интервале. Случай III. с/(1—а)> d/(l—Z>). (б> ' /« = (т^>-(т=М*! для 0 х min (pi, с/2, d/2), где (1 + а)[с(а^)_-£(1-а)] Н —---------------------- 2(1 — ab) § 18. ПРИБЛИЖЕНИЕ И УСТОЙЧИВОСТЬ Разумеется, было бы весьма интересно иметь явные решения для возможно большего числа уравнений. Однако подлинное значение явных решений простых уравнений заключается в использовании их в качестве приближенных решений для более сложных уравнений, а также в том, что они являются ключом к природе оптимальных поведений в более сложных процессах. В предыдущих параграфах были получены явные решения в двух случаях: когда g и h имеют форму одночленов вида cxd и когда они являются квадратичными функциями. Обратим внимание на то, что аппроксимация функции g(x) функцией вида cxd эквивалентна аппроксимации logg(ex) функцией вида log сdiogx, т. е. прямой линией, построить которую нетрудно. Отметим^ что при изменении х мы можем изменить наши аппроксимирующие кривые таким образом, чтобы получить более подходящие, если” мы добиваемся лучшей аппроксимации. Кроме того,
заметим, что, вообще говоря, аппроксимация в пространстве поведений более полезна, чем аппроксимация в пространстве функций. Для использования аппарата аппроксимации оценим разность между решениями1) двух уравнений (Г) /(х)= max [w(x, у)f {ayb{x — j))], /(0) = 0, F(x) = max \v(x, y) -\-F(ay -f- b(x— j>))1, F(0)—0, по разности между zz(x, у) и v (x, у), т. е. докажем теорему устойчивости в классическом смысле. Теорема 9. Пусть f^uF^x)—непрерывные решения уравнений (1), причем и (х, у) иv(x, у) являются непрерывными функциями х и у для всех х, у^0> 0 < а, #<1, и пусть со 2 m(cnz) < оо, где m(z) — max { max max[|«(x, _y)|. |®(х, 0<a? <z 0< Если (2) max { max \u(x, y) — v(x, y)\}==D(z) 0<2/<£D u co 2 D (cnz) < oo, c = max (a, b), n=-0 mo co (3) |/(x) — F(X) | < ^D(cnx). n^Q Доказательство. Положим (4) /1(х)= max u(x, у), Q^y<X fN+i(x)= max [zz(x, y)fx (ay + b (x— j>))], 0< y<x Fl(x') = max v(xt y), Q^y^x Fn+iM= max [v(x, y) + FN(ay + b(x—j))]. G<y <x Используя изложенные ранее методы, получаем, что fN (х) сходится к /(х), a Fn(x) сходится к F (х) при N~>oo. 1) Существование и единственность этих решений обеспечивается естественным изменением доказательства теоремы 1. Под словом „решение" будет пониматься непрерывное решение или решение, конструируемое при доказательстве теоремы существования» 4 Р. редлман
Оценим разность между /х и Fv Ясно, что (5) 1Л(х) —Fx(x)|< шах |«(х, у) — v(x, y)I^D(x). Поступая, как в § 7, мы получаем (6) l/tf+1 (х)—Fjv+i(x)K max \fN(ay-\-b.(x — у))— 0<2/<Я! — FN(ay-Jrb(x — J))|4- max | и (х, у) — v (х у) |. 0 у < X Отсюда по индукции следует, что N (7) I fN+l (X) — /=\+1(х)К 2 О Полагая 2V->oo, получаем (3). § 19. ПРОЦЕССЫ, ЗАВИСЯЩИЕ ОТ ВРЕМЕНИ До сих пор мы молчаливо предполагали, что рассматриваемые процессы не зависят от времени, а полный доход зависел только от начального количества х и продолжительности процесса N, но не от времени начала процесса. Посмотрим, что можно сделать, если это не так. Допустим, что в результате разделения х на у и х — у на А-м шаге мы получаем доход gfc(x, у) и для распределения остается величина ак(х, у). Необходимо определить поведение, которое максимизирует полный доход от N-шагового процесса. Предположим, что функции gk(x, у) и ак(х, у) непрерывны как функции от х и у для х^ОиО^д/^х, причем ак (х, у) в этой области удовлетворяет неравенству ак(х, у) ах, а<1, для 1, 2........ Определим (1) fktx(x) как полный доход, который получится от N-шаго-вого процесса, начинающегося с величины х на k-M шаге, если придерживаться оптимального поведения. Мы имеем (2) Л,1(х)= тах ёк(х, у), 0<у<х а для рассуждая, как прежде, получаем (3) А,Л’(Х)= max [gfc(x, y)4rfk+i, лг-1(ал(х. j))]. 0<y <00 Так как двойные индексы неудобны с аналитической, эстетической и прежде всего вычислительной точек зрения, посмотрим, нельзя
ли восстановить запись с одним индексом. Памятуя о том, что нас в конечном счете интересует N-шаговый процесс, начиная с первого шага, определим (4) Д(х) для всех k— 1, 2, ... , N как полный доход, который получится от процесса, начинающегося с величины х на k-м шаге и кончающийся на Л/-м шаге, если придерживаться оптимального поведения. Тогда (5) /n(x) = max gN(x, у), 0<2/ <ГС fk(x)= max [g/c(x,y)^fk+1(aJt(x, у))], Л=1, 2, ..Л’—1. Это упрощение существенно, поскольку нас интересует получение численного решения, ибо если разница между трудностью, которая возникает при табулировании функций одной переменной, и трудностью при табулировании функций двух переменных огромна, то разница между табулированием функций двух переменных и функций трех переменных "может стать разницей между осуществимым и неосуществимым подходом к решению задачи. Случай неограниченно продолжающегося процесса, т. е. тот случай, когда N = оо, приводит к системе функциональных уравнений (6) А(х)= max [gk(x, y)+fk+i(ak(x, _y))b Для этих систем уравнений нетрудно получить теоремы, аналогичные теореме 1. § 20. ПРОЦЕССЫ С НЕСКОЛЬКИМИ ВИДАМИ РЕСУРСОВ Процесс, который был использован с целью выяснения сущности задач, является простейшим среди всех процессов такого типа, так как в нем учитывался только один тип ресурсов и на каждом шаге требовалось только одно распределение. Теперь посмотрим, как ставится задача для более общих и более близких к реальным процессов. Пусть М означает различные виды ресурсов соответственно в количествах х2, ..., хм. На каждом шаге количество Хц Z-го ресурса используется таким образом, чтобы произвести добавочно некоторое количество у-го ресурса. Отсюда можно получить уравнения, связывающие ресурсы на (А'4-1)-м шаге с ресур-
сами на А-м шаге: (1) м Xi (й+1) = Xi (k) - 2 xi} (k) + + gi(xu(k), x2i(k) xMi(k)) для 1 — 1, 2, . . ., Л4, где (2) a) х^(&)>0, M 6) 2 м*) <*«(*)• При этом предполагается, что известны как производственные функции git так и начальные величины х^(0) = ^. Количества х^-(&) выбираются так, чтобы максимизировать значение некоторой заранее определенной функции конечных ресурсов (3) Rn^F(X1(N\ x2(N).......... Как будет показано в гл. VI, во многих случаях, кроме ограничений (2), могут быть и другие ограничения. Если положить (4) fulfil, с2.......ся) = max RN, то, как и прежде, для N^>2 мы получим рекуррентные соотношения М (5) fN (Ср С2 См) = max /tf-iCq—2 Уг) + gi (Лр У21.-Улл). •• •). {Уц} где уц ограничены следующими соотношениями: (6) а) и б) 2 Уц < Cj, 1—1, 2........М, и (7) /1(^1» ^2...Cjif) == Т7 (fj, С2.Cjf). Теоремы существования и единственности, охватывающие все неограниченные варианты этих общих процессов, будут даны в гл. IV вместе с более удобными обозначениями. В дальнейшем мы встретимся с -частным случаем этого уравнения в связи с задачами „об узком месте" в гл. VI. В настоящей же главе будут кратко рассмотрены некоторые из задач, в которых вычислительные трудности возникают в связи с максимизацией по многомерным областям.
§ 21. ТЕОРЕМЫ О СТРУКТУРЕ РЕШЕНИЯ ДЛЯ МНОГОМЕРНЫХ ЗАДАЧ Не представляет никакого труда распространить полученные для одномерного случая результаты относительно выпуклости и вогнутости решений функционального уравнения (8.1) на уравнения § 20 для многомерных задач. Пусть О(х)— скалярная функция векторного переменного х. Говорят, что эта функция выпукла, если для всех Х£[0, 1] (1) G (Хх4- (1 — X) у) < ХО(х)+(1 —X) О (у). Функция называется вогнутой, если имеет место противоположное неравенство. Многомерный аналог леммы 1, доказанной в § 13, справедлив, и доказательство его совершенно такое же, как и доказательство этой леммы. С ’помощью- этого предложения можно установить результат, который будет приведен ниже. Прежде чем сформулировать этот результат, введем более подходящие обозначения. Обозначим через х вектор с компонентами х$, а через у®— вектор с компонентами у^, где l^Z,Тогда в терминах описанного выше процесса мы имеем (2) а) х = 2 y(i). i б) где запись у^О означает, что все компоненты вектора у неотрицательны. Пусть D(x, у) означает область, определенную соотношениями (2). Теорема 10. Если г(х, у) и а(х, у) — непрерывные вогнутые функции относительно х и у для всех х, у 0, монотонно возрастающие относительно компонент х, то все функции fx(x), определенные уравнениями /1(х) = шах г(х, у), D (а?, у) (3) fN+1 (X) = max [г (х, у) -\-fN (а (х, у))], •О (а?, у) также являются вогнутыми функциями относительно х для х>0. Если г(х, у) является строго вогнутой функцией, то оптимальное поведение будет единственным для каждого N. Ценность этого результата состоит в следующем. Если мы имеем 7V-шаговый процесс, где на каждом шаге должно быть выбрано k решений, то метод функциональных уравнений сводит
/V^-мерную задачу максимизации к системе из N ^-мерных задач. Хотя это и является существенным уменьшением числа измерений, но k-мерные задачи максимизации сами по себе являются чрезвычайно трудными. Однако если функция k переменных, которую необходимо максимизировать, является строго вогнутой, то, как мы знаем, уже одно это влечет существование единственного относительного максимума, который в то же время является и абсолютным максимумом. Эта дополнительная информация относительно того, что исследуемая функция имеет единственный относительный максимум, дает нам возможность наметить поисковую процедуру для отыскания местоположения этого максимума, которая, несомненно, является более эффективной, чем процедура, которая использовалась для произвольной функции. § 22. РАЗЫСКАНИЕ ЕДИНСТВЕННОГО МАКСИМУМА ВОГНУТОЙ ФУНКЦИИ Определение оптимальных процедурх) для обнаружения максимума вогнутой функции или соответственно для определения минимума выпуклой функции является чрезвычайно важной и трудной задачей, которая не была разрешена до настоящего времени. Тем не менее в одномерном случае решение может быть получено даже для более общих задач, в которых функция лишь унимодальна, т. е. обладает единственным относительным максимумом. Сформулируем задачу следующим образом. Пусть y = f(x) — строго унимодальная, определенная в интервале [0, Ln\ функция. Мы хотим определить максимальное из чисел обладающих тем свойством, чтобы всегда можно было указать подынтервал единичной длины интервала [0, Ln\, содержащий точку максимума _у = /(х), путем вычисления не более чем п значений функции /(х). Так как максимум может не существовать, то безопаснее будет написать (I) Fn=SUpLn. Имеет место следующая теорема. Теорема 11. Fn есть п-е число Фибоначчи, т. е. Fo = Ft = 1 и для п2 (2) ^п~ Fn-i Ч“^п-2- Доказательство. Задание Fo является в какой-то мере условием, но значение уже определяется процессом. 1) В действительности нелегко точно установить, что следует понимать прд оптимальной процедурой. Ясно, что это зависит от имеющегося в нашем распоряжении оборудования, от характера допустимых операций, от „стоимости" проведения этих операций и т. д. Следовательно, может быть поставлено множество задач об отыскании такого рода процедур. Но этот вопрос в сколько-нибудь общей постановке не изучался.
Дальше будем вести доказательство по индукции. Зафиксируем п и вычислим значения уг = /(х^, у2 — f(x2), где 0 < хг < х2 < Ln. Если ух > у2. то максимум достигается в (0, х2), так как функция /(х) строго унимодальна. Если у2> Уи то максимум будет в (хр Лп). Если = то выбирается один из этих интервалов, если даже известно, что максимум достигается в (хр х2). Таким образом, после описанного первого шага мы имеем подинтервал интервала (0, Ln) и значение /(х) в некоторой его внутренней точке х. Так как значения функции на концах интервала сами по себе не доставляют никакой информации, то мы сосредоточим свое внимание на внутренних точках. Для п=2 можно взять Ln=2—s, xt = 1—s, x2=l, где e > 0 — некоторая произвольно малая величина. Из предыдущих рассуждений следует, что г2 = 2 = Л4-г0. Рассмотрим случай п > 2. Предположим, что Fk = -|-Ffc_2 для /е = 2, ...» п—1. Начнем с доказательства того, что (3) Ln “F ^П-2* Если мы вычислим значения /(х) в точках xt и х2 из (О, Лп), то получим У2 О Xi хг Ln Рис. 3. Если yt > у2, то получим другую картину: У, О Xg* Рис. 4,
В этом случае х2 < ^n-i’ так как в нашем распоряжении остается только п — 2 дополнительных вычислений с первым выбором для случая, когда k = n—1. Кроме того, xt < Fn_p так как максимум может встретиться в [0, xj, где уже было взято два значения х. Аналогично, если у2 > то Ln — X\<Fn_v Таким образом, в любом случае Ln < Fn_x -j-Fn_2, что дает (3). Выбирая Lnt хг и х2 произвольно близкими к своим верхним границам, т. е. соответственно к числам Fn_i-\-Fn_2, Fn_x и Fn_2, мы в пределе получаем Fn = Fn_x 4- ^п-2» и теорема 11 доказана. Кроме того, из проведенных рассуждений мы получаем и оптимальное поведение, так как каждое х, либо отбрасывается, либо оказывается оптимальным первым выбором для оставшегося подинтервала. Первыми членами последовательности. {Fw} являются числа (4) 1, 1, 2, 3, 5, 8, 13, 21, 34, 55............... причем F20> 10 000. Отсюда видно, что максимум строго унимодальной функции всегда может быть локализован в 10~4 первоначального интервала в результате вычисления не более 20 значений функции. Легко получить и явное выражение для Fn, а именно: где (6) 0,61. Отсюда видно, что Fw+1/Fn-> rt 1,61 при п->оо. Таким образом, для больших значений п процедура равномерного приближения состоит в выборе двух первых значений аргумента на расстоянии L!rt от каждого из концов отрезка длины L. Такая постановка задачи является полезной с точки зрения применения вычислительных машин. Рассмотрим теперь сходную задачу, в которой унимодальная функция определена только для дискретного множества значений х. Пусть Кп обозначает максимальное число точек, для которого максимум функции может быть всегда точно установлен после п вычислений. Рассуждения, проведенные по той же схеме, позволяют доказать следующую теорему. Теорема 12. Ко= 1, Кх=1, К2 = 2, К3 = 4 и Kn=l+Fn, п>3,
§ 23. НЕПРЕРЫВНОСТЬ И ПАМЯТЬ Предположим, что имеется функция двух переменных /(х, у), непрерывно зависящая от х и у при х^>0 и 0<^.у^х. Определим функцию (1) g(x) = max f(x, у). Ясно, что g(x) будет непрерывной функцией, в то время как функция у = у(х), дающая максимум функции /(х, у), быть непрерывной не обязана. Пример этого мы уже видели в связи с функциональным уравнением § 15. Однако если /(х, у) будет строго вогнутой функцией у для всех у £ [0, х] при х^>0, то при изменении х максимизирующее^ будет непрерывной функцией от х. Посмотрим, как можно воспользоваться этим обстоятельством, чтобы упростить решение проблемы памяти для вычислительных машин. Рассмотрим уравнения (2) /л+1(*)=о ihax^[^(j) + ft(x —J))], У"Х. N = 1, 2, ... . Если нам ничего неизвестно относительно расположения максимизирующих у, то для определения (х) необходимо располагать всеми значениями fN (£), 0 z ах. Теперь предположим, что функции g (х) иЛ(х) являются строго вогнутыми и непрерывными. В этом случае строго вогнутыми будут и функции fN(x) для каждого /V, а также функция g(y) + h(x— y) + fN(ay-}-b(x — j>)) для Кроме того — и это самое важное — функция yN(x), дающая максимум в соотношении (2), является непрерывной функцией и определяется однозначно. Отсюда следует, что если для вычисления /(х) используется сетка значений х: О, Д, 2Д......—то нет необходимости знать
полное множество значений fN(z), 0 ^.z ^ах, для того чтобы вычислить fN+1 (х), а достаточно знать только значения fN(z) в сравнительно малой окрестности точки z — yN(x— Д). Эта идея, распространенная на многомерные уравнения, может привести к значительному упрощению запоминающего устройства в вычислительных машинах. Наоборот, представляется возможность решать некоторые задачи, используя существующие Машины, которые, в противном случае, на этих машинах не могли быть решены. В любом случае результатом будет большая экономия во времени и значительное увеличение возможностей решения задач этими средствами. § 24. СТОХАСТИЧЕСКИЕ ПРОЦЕССЫ РАСПРЕДЕЛЕНИЯ РЕСУРСОВ На предыдущих страницах главы были более или менее подробно рассмотрены разнообразные многошаговые процессы распределения, характеризуемые тем свойством, что результат любого решения однозначно определялся выбором этого решения. Процессы такого типа мы будем называть детерминированными. Однако не все многошаговые процессы обладают этим свойством. Многие из наиболее интересных процессов вовсе не являются процессами такого типа. Здесь мы рассмотрим один важный класс недетерминированных процессов, в которых результатом решения является определение некоторого распределения исходов в смысле теории вероятностей. Процессы такого типа мы будем называть стохастическими, В этой главе мы ограничимся процессами этих двух типов. Обсуждение происхождения процессов более сложной природы и их подробное рассмотрение мы проведем в другом месте. С математической точки зрения стохастические процессы приводят к ряду пленительных аналитических задач и проливают неожиданный свет на многие на первый взгляд детерминированные процессы. Приложения этой теории представлены множеством примеров из области биологии, экономики, техники и физики. Обратимся вновь к процессам решения. Основной задачей, которая непосредственно стоит перед нами, является определение того, что мы понимаем под оптимальным поведением в условиях неопределенности его результатов. Кристально ясным является тот факт, на который так часто не обращают внимания, что в действительности недостаточность контроля над процессом не позволяет гарантировать получение максимального дохода. С другой стороны, несмотря на этот дамоклов меч неопределенности, должна существовать некоторые средства для сравнения поведений с учетом возможных флуктуаций результатов.
Основной трудностью в приложениях является не то, что трудно найти такую меру, а скорее то, что трудно найти единую меру. Короче говоря, необходимо подчеркнуть, что имеется далеко не единственный метод, который имеет какие-то претензии на звание „лучшего*. Любой применяемый метод в большой степени зависит от различных аналитических и арифметических сторон процесса, а также от философских и психологических установок принимающего решение лица. Остановившись столь подробно на печальной стороне дела, мы, чтобы успокоить свою совесть, перейдем к конструктивным вопросам. Общая идея — и это совершенно единодушно принимается всеми — состоит в использовании некоторой средней характеристики возможных результатов в роли меры качества поведения. Именно при выборе этой характеристики и возникают трудности. Заметим вскользь, что не существует определенного единодушия относительно использования средних характеристик при определении поведений для стохастических процессов, которые могут быть выполнены до конца за один шаг или по крайней мере за небольшое число шагов. В некоторых случаях могут быть получены поведения, „не зависящие от распределений*. Однако, по-видимому, нет иного подхода к этим вопросам, чем обычный подход, который будет изложен ниже. Первой такой характеристикой (критерием), которая будет применяться в дальнейшем, является обычное среднее, т. е. математическое ожидание. В силу своей линейности математическое ожидание обладает важным свойством инвариантности, которое сильно упрощает функциональные уравнения, описывающие процесс. Из этого свойства инвариантности следует, что будущие решения основываются только на состоянии системы в данный момент и не зависят от ее предыстории. В качестве второго, реже используемого критерия применяется вероятность достижения некоторого фиксированного уровня дохода. Этот второй критерий также обладает подходящим свойством инвариантности в той мере, в какой это необходимо при рассмотрении многошаговых процессов. В следующей главе мы обсудим эти критерии более подробно. § 25. ФУНКЦИОНАЛЬНЫЕ УРАВНЕНИЯ Рассмотрим простой стохастический вариант детерминированного процесса, который обсуждался в § 2, и покажем, что к нему применим тот же метод функциональных уравнений. Ранее нами предполагалось, что в результате разделения количества х на у и х — у получается доход g(y)-\-h(xx—У), после чего для распределения остается количество ресурса = ау-\~
4“^(х —>). Допустим теперь, что в результате разделения с вероятностью рх будет получен доход gt (у) + hx (х — у) и для распределения останется количество «i> + ^i(x— у), а с вероятностью /?8=1—А будет получен доход g2 (у)4~ Л2 (х— у) и останется количество а2у-^-Ь2(х— у). Определим (1) как математическое ожидание полного дохода, кото- рый получится от Л/-шагового процесса, начинающегося с исходного количества х, если придерживаться оптимального поведения. В этом случае, как и раньше, мы получим уравнения (2) Л(*) = max JO14-P2[£2(J)H-M* —J)]}. ' /лг+1(л:)= max Cy) + Mx — J)+/JV(a1J-b^1(x — j))l + о < У < X 4-Р2 [g2 (J) + Л2 (X — j) + fN (а2у -Ь Ь2 (х — J))]} для 1. Эти уравнения имеют ту же аналитическую природу, что и уравнения, полученные для детерминированного процесса. Употребляя математическое ожидание как меру качества поведения, мы тем самым устраняем стохастические стороны процесса, по крайней мере настолько, чтобы провести анализ решения. § 26. ИНТЕГРАЛЫ СТИЛЬТЬЕСА Те, кто хорошо знаком с интегралом Римана — Стильтьеса, могут воспбльзоваться весьма компактным способом записи всех приведенных выше уравнений. Пусть (1) G(u, v\ х, у) есть функция распределения дохода и и оставшегося количества V, если начальное количество ресурса равнялось х и разделялось на у их — у. Определяя /^(х), как это делалось выше, мы получаем уравнения (2) /i(x)== max f udG(ut v, х, у), 0<у J /^+1(^)=о max У[и4-^(г/)]йО(и, v; х, у), W>1. Использование такого .стенографического’ обозначения позволяет проще всего описать процессы для соответствующих функ
циональных уравнений, доказать для них теоремы существования и единственности, а также вывести аналитические свойства их решений. Основные математические идеи при этом остаются теми же. Уравнения такого типа будут рассмотрены снова в гл. III среди уравнений более общего вида. УПРАЖНЕНИЯ И ПРОБЛЕМНЫЕ ЗАДАЧИ К ГЛАВЕ I 1. Определим функцию /#(«) = max[xtx2 ... хдт], где R есть область, определяемая условиями a) •x'i“F-x'2_h ••• ~{-xN=at ^^>0, б) Доказать, что fN (а) удовлетворяет рекуррентному соотношению fN(.a)= max xfNSa—*)• , 0 д? а И А(«) = а-/ 2. Доказать по индукции, что fN(a) = aN/NNа потом показать, что справедливо следующее неравенство между арифметическим и геометрическим средними: для причем равенство имеет место только в случае, когда Xj = х2 — • • • — XN. 3. Определим функцию JN fN(a)= min ^х?, р>0, R I=1 где R есть область, определенная неравенствами N a) S xi > а > 0» Й=1 б) xi 0.
Показать, что fN(d) удовлетворяет рекуррентному соотношению fN(a) = min (в —х)1, Л/>2, fx (а) = ар. 4. Показать, что fN(a) — apcN, где сЛ, зависит только от/7 и р. причем cN= min + U — x)pcN_ J. Определить cN отдельно для областей 0 1 и 1 < p. 5. Рассмотреть задачу о максимизации функции Г(ХГ Х2...... г=1 где параметры и подчинены следующим условиям: pi > О, 2а= i- Si > 0, a Xi изменяются в области, определенной соотно-i N шениями Xi^Q, '£xi=a. Вывести соответствующие рекуррентные соотношения и показать, что решение имеет вид ху = 0, х;>0, при соответствующем упорядочении переменных х$. 6. Рассмотреть задачу о максимизации функции N !• Х2....XJV) = 2'P(Xi) i'w=l N при условиях х{^0, ^х^с. Показать, что если функция ср(х) г=1 является выпуклой, то максимум равен ср (г). 7. Рассмотреть случай, когда ср(х) — монотонно возрастающая и строго вогнутая функция. Показать, что решение соответствующего функционального уравнения fN(.c)= max [т О')-h/лг-1 — Л)Ь ^>2, 0<2/<с
имеет вид О, О С С ZN' CN> где zN — единственное решение уравнения к ?'СУ) = Лу_1(£—.У) для /V3>2. Выяснить, как определить последовательность |су}. 8. Получить явные рекуррентные соотношения и аналитическую форму последовательности для случая, когда ср(у) = у— &у2, #>0, 0 9. Какие результаты, аналогичные предыдущим, можно получить Л для случая, когда функция F имеет вид где каждая i функция c?j(x) удовлетворяет тем же условиям, что и выше? 10. Довести до конца соответствующий анализ для случая задачи о минимизации функции Ffxvx2, ...» х^\ = ПРИ условиях 4 7 г==1 N x^O, ^Xi = a в случае, когда ?(x) есть неотрицательная мбно-i=l тонно возрастающая и строго выпуклая функция. В частности, рассмотреть случай, когда ср (х) == х + bx2t > 0. 11. Рассмотреть задачу о максимизации функции N х2......xn> У1> л.......у а при условиях N N Xi, yi>0, = 2=1 2«=1 где ср(х, у) — строго вогнутая, монотонно возрастающая относительно х и у функция. Показать, что соответствующее функциональное уравнение сг)= та* [<?(*’ ^)+4-1(С1 —х- са—X)] О OD Ci
Рис. 6. Выяснить, как определяются граничные кривые. Рассмотреть, в частности, случай ? (*» У) — W + Чу 4- и2х2 4- 2«3ху 4- v2y2.' N 12. Определить максимум функций F[xv ^) — 2 ф(*») по области, определенной следующим образом: N а) 2 xi < хг > °» г=1 N б) 2 х? с2> г=1 соответственно для двух различных случаев р > 1 и р<1, если функция ср(х) — строго вогнутая и монотонно возрастающая. 13. Получить рекуррентные соотношения для задачи о мини* N мизации функции 2?i(xi) ПРИ условиях г=1 а) 0 < Xi rit N б) 2ф1(Хг)>°< где каждая функция фДх) неотрицательна, мойотонно возрастает N
14. При соответствующих предположениях относительно последовательности {фг} рассмотреть аналогичную многомерную задач' N о минимизации функции Уг) ПРИ условиях i—1 а) о < Xi < гь 0 < Л < si9 N б) 2<ЫХ{, Л» а. 1=1 15. Определить максимум функции х±х2... по области, определенной соотношениями N a) *i>0. i=l б) bxk^xk+1, Z>> 1. Л = 1,2, ...» W—1. N Рассмотреть эту же задачу для случая функции 2 х' Фи Раз’ i-i личных областях изменения р. 16. Рассмотреть рекуррентные соотношения /iW = max [g(^) + ^(x~j)], ^+1<х)= тах [г(^) + Л(х — y)+fN(ayJ-l>(x — J))], где g(y) = Ciyd> h(y) = c2yd, cv с2, d>0. Показать, что = uNxd’ где иг — max -f- q (1 — п)<г1. о < 1)< 1 ««.,= max — w))dl. Т Л Z 1 1 J Показать, что lim uN= max N -> oo 0 iC v < Г CtVd+C2(l—v)d 1 [1 — (av + b (1 —v))d J 17. Описанный в § 2 процесс рассмотреть в предположении, что не обязательно на каждом шаге использовать все доступные ресурсы. Показать, что полученное при этом функциональное уравнение имеет вид /(х)= max [?()'1)4-Л0'2)+/(в)'1 + »л + *-Л-М 5 Р. Веллман
Имеет ли это уравнение решение, если функции g(x) и Л(х) являются вогнутыми функциями х? Имеет ли оно решение, если обе эти функции выпуклы? При каких условиях, наложенных на g(x) и Л(х), имеется решение с соответствующим оптимальным поведением? 18. Показать, что если существует решение для ух -J- у2 < х, Л, то —^) = Л'(Л)/(1—#) при надлежащих пред- положениях относительно g и h. Какова интерпретация этого решения? 19. Рассмотреть процесс, описанный в § 2, в предположении, что на каждом шаге присоединяются дополнительные ресурсы либо извне, либо за счет превращения в ресурсы всего или части уже полученного дохода g (j/) h (х — у\ Получить соответствующие рекуррентные соотношения. 20. Рассмотреть процесс, описанный в § 2. Определим gN(z) как минимальные издержки, необходимые для получения полного дохода, равного z, после N шагов. Показать, что gt(z)= min [(1— а)Л-Н1— b)y2\, в (У1)+ъ (у*)-* у»у*>ь gN+1 (*) = min [(1 — a) У1 4- (1 — b) у2 4- gN (z — g (_ух) — h (у.J )]. 21. Пусть имеется N различных видов предметов, причем вес предмета Z-ro вида равен wi9 а стоимость Требуется нагрузить судно грузоподъемностью w фунтов максимально ценным грузом. Показать, что эта задача приводит к задаче определения максимума N линейной формы L— 2 по при условии, что ni = 0, 1,2, ..., Nt i—1 2 О, a затем показать, что эта задача приводит к рекур-1—1 рентным соотношениям ([я] обозначает целую часть числа а), Лг+1 (™) = „ , [х^+14- Лг (w - *^+1)Ь где х может принимать целые неотрицательные значения. 22. Предположим, что мы имеем стадо крупного рогатого скота и располагаем возможностью отправлять в конце года некоторую часть стада (у) на рынок, сохраняя оставшуюся часть (z) для раз
ведения. Допустим, что стоимость посылаемого на рынок скота выражается функцией cp(j), а оставшаяся часть стада за год увеличивается до az, а > 1. Показать, что задача определения такого поведения, при котором максимизируется полный доход скотоводческой фермы за N-летний период, приводит к рекуррентному соотношению Д(х)= max ср (.у), fN(x)= max — j))l. 23. Определить структуру оптимальных поведений в следующих случаях: a) <p(j) = ky, k > 0; б) (j) — квадратичная функция; в) — строго выпуклая функция; г) ср Су) — строго вогнутая функция. 24. Вывести уравнение при дополнительном ограничении: возраст направляемого на продажу скота должен быть не менее двух лет. Учесть затраты на покупку кормов для скота и убытки от падежа. 25. Рассмотреть случай, когда цены и спрос случайны и распределения их известны. 26. Пусть в условиях задачи 22 <р(х) = cxd, ctd^>0. Показать, что fN(x) — cNxd, где и cN+1= max [rd + c^ad(l — r)dj для N= 1, 2, .... Выяснить асимптотическое поведение отношений CN+JCN И rN+iJrN' 27. Предположим, что имеется некоторое количество денег х и некоторая часть этих денег может быть использована на приобретение ценных бумаг — облигаций или акций. Пусть сумма у, помещенная в облигации, по истечении года превращается в ay (а > 1), а сумма z, помещенная в акции, — в bz (Z? > 1). Через cp(w) обозначим полный доход при общих затратах на покупку ценных бумаг w долларов. Как должен использоваться капитал, чтобы за N лет получить максимум дохода? 28. Рассмотреть эту же задачу в предположении, что доход от акций является случайной величиной. 29. У студента-второкурсника есть три приятельницы: блондинка, брюнетка и шатенка. Если он пригласит одну из них в субботу на вечер танцев, то две другие обидятся. В результате этого возрастает
вероятность того, что на следующей неделе они отвергнут его приглашение на танцы. Кроме того, в результате приглашения появляется некоторая вероятность того, что девушка, которую он пригласил в первый раз, примет второе приглашение с большей готовностью, а также и некоторая’ вероятность того, что она примет его менее охотно. Предполагая, что девичья память не способна удерживать обиду дольше, чем одну неделю, определить, какое поведение в приглашениях максимизирует среднее число танцев, на которые студент-второкурсник пойдет с девушкой? 30. Получить последовательность рекуррентных соотношений, N эквивалентных определению минимума линейной формы L — Xj при условиях > ai> = 1» 2, ..., N—1. Пока- зать, кроме того, что пип£ = шахай если хотя бы одно из чисел аг положительно. 31. Решить аналогичную задачу для случая, когда ограничения следующие: xi + Xi+1 4" xi+2 ai> Z=l, 2, N — 2. 32. Определить рекуррентные соотношения для задачи о МИНН- АЯ мизации линейной формы <4^0 ПРИ условиях г=1 х<>0, z=l, 2, N — 1. 33. Решить предыдущую задачу для случая, когда ограничения такие: а) 1 = 1, 2, ..., N— 1, xN=aN, или б) xi + xi+l^ai. Z=l, 2, N—1, х^а, x^^>aNt или в) + Z=l, 2.N— 2, XN-1 + XN aN-V XN aN вместе с обычным ограничением 34. Выяснить, насколько точно можно аппроксимировать функцию /(х) в интервале [а, Ь\ линейной функцией ux-\-v при еле-
дующих мерах отклонения: ъ a) J* (/ (х) — их — v)2 dx, а б) max |/(х) —их — и|. а < Ь 35. Предположим, что необходимо пройти расстояние х. Если мы движемся со скоростью v, то имеется вероятность p(v)ds быть остановленным в интервале (5, s-^-ds) и подвергнуться задержке на d минут. С какой скоростью мы должны двигаться, чтобы минимизировать среднее время, необходимое для прохождения расстояния х? (Гринспан) 36. Определить в условиях предыдущей задачи скорость, с которой следует двигаться для минимизации вероятности того, что для прохождения .расстояния х потребуется большее время, чем Т. 37. Предположим, что в условиях предыдущих задач за остановку в пути взимается штраф в сумме р долларов, а чистое время передвижения стоит с долларов за единицу времени. Как следует поступить, чтобы минимизировать математическое ожидание издержек? 38. Получить рекуррентное соотношение для задачи о мини-мизации квадратичной формы Qn = 2 (хк— xk-i)2 п0 всему мно-к=1 N жеству значений хк, которые удовлетворяют условиям 2X^=1> х0=с. 39. Известно, что частица находится в одном из двух состояний, которые мы обозначим через S и Т. Задается начальная вероятность х того, что она находится в состоянии Т. Применение операции А уменьшает начальную вероятность х до величины ах, где 0<а<1. Операция А, которая состоит в наблюдении частицы, может точно установить, в каком из двух состояний,она находится. Желательно с достаточной уверенностью перевести частицу в состояние S за минимальное время. Пусть /(х) обозначает среднее число операций, которые потребуются для перевода частицы в состояние S. Показать, что /(х) удовлетворяет уравнению /(х) — min L: \ + xf(l) | А : 1 -|- f (ах) / ’ 0<х<1, /(0) = 0.
40. Показать, что в интервале (0, 1) имеется число х0, такое, что /(*)={ 14-/(ах), 0 < х < х0. 1 X х0. Показать, кроме того, что /(!)== min 6=1,2......... 1 _ 1 — Хо~ (!-«)/(!) - (1-а) (6 + 1) при минимизирующем значении k. 41. На каждом шаге последовательности некоторых выборов допускается одна из двух, операций. В результате первой операции с вероятностью получается единица чего-то, с вероятностью р2 получаются две единицы и с вероятностью р3 ничего не получается и процесс заканчивается. Результат второй операции связан с аналогичным набором вероятностей: р', р', р'. Желательно определить такую последовательность выборов операций, которая бы максимизировала вероятность p(n), п — 1, 2, 3, ... , получить по крайней мере п единиц, прежде чем процесс оборвется. Показать, что р(п) удовлетворяет уравнению (п) = max PiP (п — 1) + р2р (п — 2), Р[Р (» — 1) + (« — 2) при и =2, 3, 4.........р(0)=1 и р(1)=тах(р1, р'^. 42. Ссылаясь на § 7, показать, что для случая, когда g(x) и Л(х) квадратичны, имеем fN (с) = аЛ 4- 4- -[Nc2, причем a#, не зависят от с. 43. Показать, что имеют место рекуррентные соотношения следующего вида: aiV4-i = ^i(a^’ $n9 In)9 $N+l = Rz(aN' $N' In)9 JV +1=== ^3 $N9 In)* где Rj — рациональные функции,
44. Рассмотреть аналогичным образом задачу о минимизации функции N f(XV Х2> •••• Xn) = ^S(Xk—fk)-\-h(Xk—Xk-l) + + w — ^xk-l + xfc-2)l* где g(x), /г(х) и m(x) квадратичны. 45. Предположим, что имеется некоторая машина, производительность которой в единицу времени есть функция времени г(£), а срок службы ее выражается в тех же единицах времени. Издержки на содержание машины в единицу времени представляют собой функцию времени #(/), а цена, по которой ее можно продать в момент t, равна s(t). Цена приобретения р новой машины больше, чем $(0). В любой момент времени £ = 0, 1, 2, ... представляются две возможности: либо продолжать пользоваться старой машиной, либо приобрести новую. Рассмотреть неограниченно продолжающийся процесс, когда доход от каждого следующего шага уменьшается в а раз, О < а < 1, по сравнению с доходом от предыдущего шага. Пусть f(t) обозначает полный доход, получаемый при использовании оптимального поведения, Показать, что f(t) удовлетворяет уравнению /(О - max (0_р + г (0) _ и (0) + й/(1) J • 46. Пусть оптимальное поведение состоит в том, чтобы использовать новую машину в течение некоторого периода времени, а затем заменять ее новой машиной. Определить в этих условиях решение приведенного выше уравнения. 47. Всегда ли верно, что при наличии машины, срок службы которой превысил норму, оптимальное поведение состоит в немедленной замене ее новой? 48. Как сформулировать, задачу, в которой принимается в расчет технологическое усовершенствование в машинах и в осуществляемых с их помощью операциях? 49. Секретарь ищет некоторый листок из корреспонденции (обычно копию на тонкой бумаге). Пусть у него имеется 6 мест, где этот листок может лежать: Папка № k Три папки по 30 листов каждая .... 1, 2, 3 Одна папка в 50 листов.................... 4 Одна папка в 100 листов .................. 5 Еще какая-нибудь папка.................... 6
Пусть начальные вероятности того, что письмо находится в одном из указанных мест, взяты такими: k Рк 1 — Гк tk Вероятность того, Вероятность того, что Время, необходимое что письмо в пап- оно будет обнаружено для одного просмотра ке k при одном просмотре, если оно действительно в папке 1 0,11 0,95 1 2 0,11 0,95 1 3 0,11 0,95 1 4 0,20 0,85 2 5 0,37 0,70 3 6 0,10 * 0,10 100 Как должен секретарь просматривать папки, чтобы а) минимизировать среднее время, необходимое для обнаружения данного письма, б) максимизировать вероятность его обнаружения за данное время? (Ф. Мостеллер) 50. Пусть функция при всех х. Показать, а (х) удовлетворяет условию а (х) d < 1 что решение уравнения и — max [Z>(x)-f-ж если только оно существует, единственно и задается выражением ^(х) и = max з-- / т . а ! — я(х) При каких условиях это решение существует? Если а(х) не удовлетворяет указанному условию, то показать, что уравнение может иметь 0, 1, 2 или даже целый континуум решений. Привести пример на каждый из этих случаев. 51. Пусть нам дано некоторое количество х > 0, которое должно быть использовано при выполнении некоторой задачи. Если при каждой из попыток выполнения используется количество у, О^у^х, то вероятность успеха опыта равна а (у). Если после первой попытки задача остается невыполненной, то испытания продолжаются с оставшимся количеством х — у. Показать, что если обозначить через /(х) полную вероятность успеха и придерживаться оптимального поведения, то /(х) удовлетворяет функциональному уравнению ./(*) = sup [а(.У) + (1 — «СУ))/(* —JOL
52. Вывести аналогичное уравнение для 1—/(х), т. е. для вероятности неудачи. 53. Рассмотреть два случая, когда а (у) есть выпуклая или вогнутая функция, и получить для этих случаев явные решения. Обратить внимание на то, что в одном из этих случаев нет оптимального поведения. 54. Рассмотреть описанный в § 2 процесс в предположении, что полный доход от TV-шагового процесса равен RN = g(y)+h(x — y)+g(yi) + h(x1- -Н + g(yN_ i) 4- h (xN_ x — yN_ ,) + k (xN), где k(x)— заданная функция. 55. Рассмотреть функциональное уравнение f(x)= max [g (у)h (х — y)+f(ay + b(x — /))] в предположениях, что a) g(y)^Ciyd- h(y)~c2ya, cvc2,d>Q при у -> оо или б) g^yy^c^, h(y)~c2y\ срс2, dj, d2> 0 при В обоих случаях определить асимптотическое поведение f(x) пр х->оо. 56. Определить рекуррентное соотношение для jn Г Х1 I । .. . 1 ХП~1 । хп 1 + Л’з + ^4 ХП^~ Х1 ' Х1 + х2 J’ г введя подходящие дополнительные параметры. 57. Рассмотреть задачу об определении минимума функции N N 2 gk(.rk> rfc+l)4~ 2 Ы Л=1 где rjV+1 = r1, а числа гк удовлетворяют условиям а) 0 < rk < Ьк, N б)
причем каждая <рл(х)— известная, монотонно возрастающая функция х и (0) = 0. Введем вспомогательную задачу: минимизировать функцию N g(u, r2) + g(r2- гз)+ ••• rN) + s(rN, f)+ 2 hk(rk), fc— 2 где r2, rg, ...» удовлетворяют условиям a) 0 < rk < bk, N 6) 2 %('•*)>£• fc=2 Показать, что если обозначить указанный выше минимум через v. с), то в исходной задаче этот минимум дается выражением min F(r1, ги с— ср, (г,)). о < Л < 58. Введем для R — 2, 3, ..., N—1 последовательность функций v, c) = min{g(zz. + гв+1)+ ••• + Г А- N 1 ГЛ-1> r;v)+ £(,>> <0+ 2/* (''<)] ’ Fn(u, v, c) = min[g(tt, rN)+g(rN, Для каждого R допускается только с значений, удовлетворяющих N условию 2 с* где &к—фиксированные положительные по- k=R стоянные. Показать, что имеет место рекуррентное соотношение FB(u, V, с) —min[g(«, гв)+ЛБ(гл) + Гл+1 (гД) v, с — ^г^)], R где rR изменяется в интервале, определяемом одним из следующих неравенств: а) N б) Л_21?Л(^)>с-<Рв(гд). 59. Рассмотреть аналогичным образом задачу о минимизации функции RN = g(j\< r2, r3)H-g-(r2, Г3, г4)+ ... ... +g(rN-v r^-j-g^, rv ra).
60. Пусть имеется капитал х и возможность производить в переменных количествах N различных видов продукции. Предположим сначала, что имеется неограниченное предложение рабочей силы и машин для производства продукции в любом выбранном нами ассортименте и в любом объеме. Пусть производство количества /-го вида продукции связано со следующими издержками на единицу Z-го вида продукции: а) — стоимость основных материалов; б) —расходы по работе оборудования; в) Ci — заработная плата; г) Ci — постоянные расходы (при xi > 0 не зависят от объема производства). Тогда издержки на производство количества х^ f-го вида продукции составляют gi (*i) = (®i _Н "4“ ^i) Xj —|— Cit 0. Xi = 0. Xj> 0, Обозначим через pi реализационную цену единицы /-го вида продукции. Задача состоит в выборе таких х$, которые максимизируют чистую прибыль N Pn = ^ IpiXi —gi(Xi)] i = 1 при условиях N a) 'Zgi(xi)^.x, Пусть б) х,>0. fN(x) = maxPN. xi Показать, что fi(x) = Pi (x — Ct) ei + + ci ’ 0, И fn (x) — max^ [pNxN-^fN_i(x — gN[xN)^. Показать, что неравенство xN 0 может быть заменено неравенством /jv-i(x) —Дг_1(х —CN) Pn
61. Допустим, что спрос на каждый вид продукции является случайной величиной. Пусть Gk(z) есть функция распределения спроса z на &-й вид продукции. Показать, что математическое ожидание дохода от произведенного количества хк &-го вида продукции определяется выражением хк со Pfcf zdGk(z)-\-pk f xkdGk(z) = 0 xk xk =pkf zdGk (z) + pkxk (\—Gk (xk)), 0 и получить рекуррентное соотношение, соответствующее задаче о максимизации полного ожидаемого дохода. 62. Рассмотреть задачу о максимизации вероятности того, что доход превзойдет величину г. 63. Рассмотреть эту же' задачу в детерминированном и стохастическом вариантах, где наложены ограничения на количество имеющихся в распоряжении машин и рабочих. 64. Получить рекуррентные соотношения при следующих дополнительных ограничениях: а) x1x2 = 0, х7х8 —О, х9х10хи == О и т. д. или б) x{xi+1 = 0, /=1,2.......N— 1. 65. Предположим, что имеется сложный механизм, состоящий из N взаимодействующих деталей. Пусть /-я деталь имеет вес IFj и объем Si. Допустим, что известна плотность распределения продолжительности времени, в течение которого эта деталь механизма будет работать без поломки, ставящей нас перед необходимостью заменить ее новой деталью. Предположив далее, что известно время и издержки, необходимые для замены детали, а также общий размер убытков, вызываемых одной поломкой. Примем, наконец, что общее количество запасных деталей ограничено по весу и объему. Какие детали и в каких количествах следует хранить, чтобы минимизировать а) ожидаемую потерю времени, вызванную поломками механизма машины; б) убытки от ожидаемых поломок; в) некоторую заданную функцию от двух переменных, времени и убытков;
г) вероятность того, что потерянное из-за поломок время превысит величину Т; д) вероятность того, что убытки из-за поломок превысят сумму С? 66. Определить возможные случаи асимптотического поведения последовательности \ип], которая определяется рекуррентным соотношением wn+i = max[a«„4-£, cun-\-d\ или более общим рекуррентным соотношением «п+1 = тах[а4«п + ^], 1=\, 2, .... k г (ср. с задачей 50). 67. Определить минимум функции N Г(хг х2, ..., xN) = g gi (х() 4- max (xr х2..xN), где 68. Предположим, что имеется N различных отраслей производства, в которые можно помещать капитал. Через ^(хД обозначим доход от Z-й отрасли производства, в которую вложена сумма хг. Если дано начальное количество капитала х, то как следует поместить его не более чем в k отраслей производства, чтобы максимизировать полный доход? Обозначим максимальный доход через fk N(x). Показать, что имеет место рекуррентное соотношение Л лг (х) = max J к, N ' 7 г max — А, для 1 k N— I. 69. Двум корпорациям, в состав правлений которых входят одни и те же лица, на основании законов о трестах запрещено помещать деньги в одни и те же предприятия. Первая корпорация намерена поместить капитал х, а вторая — капитал у. Пусть gi(z)— доходы от помещения капитала z в Z-e предприятие из М различных предприятий. Показать, что если руководители хотят максимизировать полный доход по двум корпорациям, то необходимо максимизировать функцию N N FN (ХЬ Л) = S ёг (Х{) + 2 ёг (Уг)
при условиях: N a) 2xi = x* Х^О, 4=1 N б) 2л=л ?i>°. 4 = 1 В) . Xiyi = 0. Пусть fN(x, у) = max FN(xit у J. {xi’ »i} Показать, что - max (yN) +4,, (х, у — _у„)]. “ fN(x, j>) = max . max (хЛ) +/дг_1 (x — xN, >) Рассмотреть случай, когда различные корпорации от одного и того же предприятия получают различные доходы. 70. Пусть решено одновременно заменить все осветительные электрические лампочки в рабочем помещении. Обозначим через а издержки от замены электролампочек, а через g(x)— потери, которые вызваны недостаточностью освещения, когда между двумя заменами проходит время х. Пусть принято решение заменять лампочки в течение интервала Т в следующие моменты времени: xr, х1-}-х2....xi-hx2~b ••• -}~хп — Т, где число п определено заранее. Эффективность такой программы действий измеряется средней суммой потерь 2 (* + £(**)) Р (Хр Х2* • • • » Хи) = — —у; • Каким должно быть оптимальное поведение? (И. Р. Савидж) 71. Пусть функции gj(x) таковы, что максимум выражения N FN (ХГ ^2* • • • ’ Xn) = 2 ^4 4 i—1 N по области = c может быть определен с помощью i-l
множителя Лагранжа к при рассмотрении выражения N N Gn= 2 Si (х^-к 2 Xi. i=l 1=1 С другой стороны, пусть fN (с) — max F^. Показать, что Получить аналогичный результат для максимума выражения N 2 Si (xt, уд при условиях i—1 N 2 Л = ^2. хь yi 0. 1=1 N 2 Xi = clt 1=1 72. Пусть (Xr X2’ • • • ’ mr(Xl- X2......Xn) есть r-е наибольшее число среди чисел хг х2, ...» xN, есть r-е наименьшее число среди чисел хг х2, ..., xN для r=l, 2, ...» N. Получить рекуррентные соотношения, связывающие члены последовательностей {Мг(ХГ Х2’ ••• М’ 1т4Х1’ Х2.........М’ r=i-2.............. N 73. Рассмотреть задачу о максимизации выражения 2 ПРИ i=i условиях 1=1 (Дж. В. Уиттекер) 74. Игрок имеет сумму денег х и хочет держать пари в N раз* личных случаях. Существует вероятность рк того, что он может правильно предсказать исход в k-м случае. Ограничивается лишь ставка пари; это необходимо для того, чтобы игрок мог оплатить все свои проигрыши. Показать, что задачу максимизации ожидаемого им дохода можно свести к задаче максимизации линейной функции н Ltf (х) = 2 Рк%к
при условиях a) Xi О, N б) + 7=1.2.......N. г=1 75. Рассмотреть задачу о максимизации линейной формы N Ln(x)=^ ркхк Л=1 при следующих ограничениях: a) л б) 2 хг а + ХЬ i=l N в) 2 Xi < V. i=l Пусть fN(ut v) — max Ln (x). Показать, что /д(«, г») = тах[рЛхЛ,+/ЛГ_1(н — xN, min(y — xN, и))]. 76. Проблема проектирования эффективного перегонного устройства для производства тяжелой воды включает задачу о минимизации выражения Г,=1Ы+^ + ^+ . «j ^1^2 ^1^2 • • • 1 где di подчинены следующим ограничениям: a) > 1, б) d^d% • • • Cl^i *''""" х* Показать, что эта задача может быть сведена к функциональному уравнению A+i(*)= min (й1)+-1-д(2LY1 а1 > 1 L «1 \ "1 / J и получить решение в случае g {у) — уь, b > 0. 77. Рассмотреть случай ^ = ^(^4-^-4- ... +т/от(-а”)—• [С е г г i Е., Silvestri М., Vi Ilan S., The cascading problem in a water distillation plant and heavy water production, Z. Natur-jorschg,, Ila (1956), 694.j
78. Рассмотреть задачу распределения ресурсов по N различным отраслям производства, которая приводит к задаче о максимизации функции ПРИ условиях = Показать, что i i функция которая получается посредством обычного рекур- рентного соотношения, не зависит от порядка, в котором перенумерованы отрасли производства. БИБЛИОГРАФИЯ И КОММЕНТАРИИ К ГЛАВЕ I § 1. Весьма полный указатель статей до 1954 г. включительно, а также некоторые замечания, дополняющие тему, могут быть найдены в работе Веллмана [Bellman R., The theory of dynamic programming, Bull, Amer, Math. Soc., 60 (1954), 503—516]. § 2. Впервые этот процесс был рассмотрен в журнале „Эконометрика" [Econometrica, 22 (1954), 37—48]. § 7. Дальнейшее обсуждение этой задачи может быть найдено в работе Веллмана [Bellman R., A class of variational problems, Quart, of Appl. Math. (1956)]. Интересное изложение общих задач „о сглаживании" можно найти в работе Шёнберга, где приведены дополнительные ссылки на другие работы [Schoenberg I. J., On smoothing functions and their generating functions, Bull. Amer. Math. Soc., 59 (1953), 199—230]. § 11. Важность понятия „приближение в пространстве поведений" была подчеркнута в работе Веллмана (Bellman R., On computational problems in the theory of dynamic programming, Symposium on Numerical Methods, Amer. Math. Soc. Santa Monica, 1953). § 12. Изящное доказательство леммы 1 было получено независимо от автора Гликсбергом и Флемингом, перед которыми автор поставил задачу получить лучшее доказательство, чем то, которое изложено на страницах этого параграфа. § 17. Результаты этого параграфа были установлены Д. Андерсоном. § 18. Более полное изложение понятия устойчивости решений функцио-4 нальных уравнений можно найти в книге Веллмана „Теория устойчивости дифференциальных уравнений", ИЛ, М., 1955. § 19. Сведение последовательности {/£,#(*)) к последовательности является важной частью математического приема, поскольку это касается численных решений (ср. § 6 и § 7). Ограниченная емкость запоминающего устройства вычислительной машины делает ее чрезвычайно капризной по отношению к индексам и параметрам. § 22. Доказательство в тексте следует статье Джонсона (Johnson S., Optimal search is Fibonaccian, 1955). Эквивалентный результат, оставшийся Джонсону неизвестным, был получен ранее Кифером, использовавшим более сложную аргументацию [Kiefer J., Sequential minimax search for a maximum, Proc. Amer. Math. Soc., 4, № 3 (1953), 502—506]. 6 P.. Веллман
Получение соответствующего результата для задачи с большим числом измерений является чрезвычайно трудным делом, и в настоящее время в этом направлении ничего не сделано. § 24. Превосходное введение в теорию стохастических процессов дано в книге Феллера „Теория вероятностей", ИЛ, М., 1948. Целый ряд важных физических процессов рассмотрен в книге Бартлетта „Введение в теорию случайных процессов", ИЛ, М., 1958. Упражнение 76. См. Bellman R., Nuclear Engineering. 1957.
СТОХАСТИЧЕСКИЙ МНОГОШАГОВЫЙ ПРОЦЕСС РЕШЕНИЯ § 1. ВВЕДЕНИЕ В предыдущей главе мы детально рассмотрели некоторый многошаговый процесс решения как в детерминированном, так и в стохастическом вариантах. В этой главе мы займемся изучением стохастического многошагового процесса решения совершенно иного типа, который обладает рядом интересных особенностей. В частности, при получении решения для некоторых простых вариантов процессов этого типа мы встретимся с важным понятием „области решения". Мы по существу будем следовать тому же пути рассуждений, который был намечен в предыдущей главе: сначала постановка задачи, а затем краткое обсуждение ее в классических терминах. Придерживаясь этого плана, мы сначала сформулируем задачу в терминах функциональных уравнений, а затем дока-, жем требуемые теоремы существования и единственности. Остальная часть главы посвящается обсуждению различных свойств решения, таких, как устойчивость и аналитическая структура. Для одного простого процесса, используемого в качестве модели, нам удастся получить решение, которое имеет весьма интересную интерпретацию. С математической точки зрения не менее удачным является также то, что это решение не распространяется на более общие процессы того же типа. Это заставляет нас применить совершенно другие методы, которые будут рассматриваться в одной из дальнейших глав (именно в гл. VIII). Отсутствие элементарного решения обусловлено не только недостаточностью анализа. Был построен опровергающий пример, который показывает, что . решение многошагового процесса этого класса не всегда может иметь простую форму, приводимую ниже в § 8. Другое доказательство этого факта следует из леммы 8 гл. VIII. Ряд интересных результатов, которые здесь не будут детально рассматриваться, приводится в качестве упражнений в конце главы.
§ 2. СТОХАСТИЧЕСКИЙ ПРОЦЕСС ЗОЛОТОДОБЫЧИ Перенесемся теперь в область процессов золотодобычи. Предположим, что мы настолько удачливы, что владеем двумя золотыми приисками, Анаконда и Бонанца, первый из которых содержит в своих недрах количество золота х, а второй — количество у. Кроме того, мы имеем единственную, довольно чувствительную к повреждениям, машину для добычи золота. Если эта машина работает на прииске Анаконда, то с вероятностью рг она добудет долю гх находящегося там золота и не выйдет из строя, а с вероятностью 1—рг она не добудет золота и будет приведена в полную негодность. Аналогично прииску Бонанца приписываются вероятности р2 и 1—р2 и доля г2. Начнем процесс с использования машины либо на прииске Анаконда, либо на прииске Бонанца. Если машина не вышла из строя после этого первого этапа работы, то мы должны решить, на каком из наших приисков снова использовать машину. Будем поступать так после каждого этапа до тех пор, пока машина не сломается. Как только машина выходит из строя, работа кончается, а это означает, что ни один прииск не даст больше золота. Какая последовательность выборов максимизирует общее количество золота, добытого до того, как машина выйдет из строя? § 3. МЕТОД ПЕРЕЧИСЛЕНИЯ Так как мы имеем дело со стохастическим процессом, то нельзя говорить о каком-то определенном доходе от поведения, о чем уже упоминалось в § 24 предыдущей главы. В соответствии с этим нельзя выбрать и поведение, которое бы гарантировало максимальный доход. Остается утешиться измерением качества поведения при помощи среднего дохода и выбирать оптимальное поведение именно на этом основании. Как и прежде, наиболее простой средней характеристикой является математическое ожидание. Условимся, что нас интересуют такие поведения (их может быть и много), которые максимизируют ожидаемое количество золота, добытого до того, как машина выйдет из строя. В этом случае поведение будет состоять из выбора А или В (А означает Анаконда, а В — Бонанца) и может быть записано в виде Последовательности (1) S—AABBBABB ... , которая должна читаться так: сначала А, затем снова А, если машина не сломана, потом В, если машина все еще не вышла из строя, и т. д.
Для начала, чтобы избежать трудностей общего порядка, присущих неограниченно продолжающимся процессам, рассмотрим операции золотодобычи, которые автоматически заканчиваются после N шагов, независимо от того, сломалась ли машина или нет. В этом случае по идее легко перечислить все доступные нам поведения и подсчитать все возможные значения дохода х). Эту идею удается в определенной мере использовать при решении некоторых задач. Однако вообще этот метод имеет довольно ограниченные приложения, так как он не раскрывает структуры оптимального поведения и, будучи грубым силовым методом, является изменой математике, как науке, упрощающей вычисления. § 4. МЕТОД ФУНКЦИОНАЛЬНЫХ УРАВНЕНИЙ Вместо подхода, основанного на прямом перечислении возможностей, применим еще раз метод функциональных уравнений. Определим (1) У) как ожидаемое количество золота, которое будет добыто до того, как машина выйдет из строя, когда А имеет х, В имеет у и применяется оптимальное поведение, причем процесс может продолжаться не более чем N шагов. Рассматривая одношаговый процесс, мы видим, что выбор А дает среднее количество золота в то время как выбор В дает р2г2у. Следовательно, (2) Л (х, у) = max [рр\х, р2г2у]. Рассмотрим теперь (TV-|-1)-шаговый процесс общего вида. Каким бы ни был первый выбор, его продолжение на оставшихся М шагах должно быть оптимальным, если мы намерены получить оптимальное (А/1)-шаговое поведение. Значит, полный ожидаемый доход при первом выборе А можно записать как (3) fA(X, r^X, J/)], а полный ожидаемый доход при выборе В (4) fB (х, у) = р2 [r2y +fN (х, (1 — г2)_у)]. Желание максимизировать полный доход от (N4“ 1)"шагового процесса приводит нас к следующему основному рекуррентному Э Сошлемся опять на числа. Мы видим, что для 10-шагового процесса потребуется перечислить 210 = 1024 возможных поведения; если же на каждом шаге возможны три выбора, то целых 59049.
соотношению: (5) Jn+1 (х- У) = тах [/д (*• У)> fВ<*• -У)] = = max[p1(r1x+/JV((l— г^х, у)), P2.(r2y+fN(x- О— г2)>))]- § 5. АППРОКСИМАЦИЯ БЕСКОНЕЧНОШАГОВЫМ ПРОЦЕССОМ Аналогичные рассуждения показывают, что доход от неограниченно продолжающегося процесса, который мы обозначаем через f(x, у) (предполагая, что он существует), удовлетворяет функциональному уравнению (1) J')=maxIPi(r1x+/((l—J))> М'г-Н-Д*. (1— 'г)_У))1- Отметим еще раз, что бесконечный процесс рассматривается здесь как аппроксимация конечного процесса с большим 7V. Здесь мы можем рассматривать единственную функцию, но зато сталкиваемся с необходимостью установления существования и единственности решения уравнения (1). К этому мы и перейдем в следующем параграфе. § 6. СУЩЕСТВОВАНИЕ И ЕДИНСТВЕННОСТЬ Докажем следующую теорему. Теорема 1. Пусть1) (1) a) IM |р2| < 1, б) 0<r„ r2 < 1- Тогда существует единственное решение уравнения (5.1), ограниченное в любом прямоугольнике 0 х 0 ^.у^.У. Это решение f(x> у) непрерывно в любой ограниченной части области х, Доказательство. Для упрощения обозначений положим (2) Л(/)=Р1к1-*+/((1 — Г1)х, J)], T2(.f)=P2[f2y+f(X, (1— Г2).У)]. Тогда функциональное уравнение (5.1) примет вид (3) /(X, j)=max[T1(/), Т2(/)]. *) В уравнениях, которые получались для рассмотренных ранее процессов, все числа р± были неотрицательными. Приводимое здесь доказательство охватывает и более общие уравнения.
Определим точно такую же, как в рекуррентном соотношении (4.5), последовательность функций (4) Л (х, у) = max р2г2у\, fN+i <х- у)=max F1 (4)- тз О=™х [Л (/*)]• Пусть 1 = i(N) = х, у)— индекс, при котором достигается максимум в выражении max ГТ.(ДЛ1 для N= 1, 2...............Тогда, i=l, 2L 4 /J используя ту же схему доказательства, которая была применена при доказательстве теоремы о существовании и единственности решения функционального уравнения в (9.1) гл. I, получаем (5) fx+1 (* У) — Л (N) n) Л (N+l) (f #)’ Лу+2 У} — Ti (JV+1) (/ЛЧ-1) Л m (f #+1)* Отсюда мы имеем f #+1 У} f N+2 (Х* У^ I maX [ I Л (N) (/Лт) (N) ^ + l) I ’ IЛ w+1)(^)- Л (^+1)(W I ] < ™х [ IЛ (4)-Л (W I ] < <max[|p1||/7V((l— rjx, j) —_у)|, С1—r2)-V|J-Положим (7) uN(x, у)= max l/^s, /)— fN+1(s, f)|. 0<8<а? 1 1 0< t <г/ Из (6) мы получаем (8) UN+1.(X’ -У) = (X. У), со где д,= тах(|р1|, | р21). Так как 0 < q < 1, то ряд 2 11 n {х, у) сходится равномерно в любом ограниченном прямоугольнике Следовательно, и fN(x, у) сходится равномерно к функции /(х, у), которая удовлетворяет уравнению (5.1) и непрерывна в любом ограниченном прямоугольнике плоскости (х, у). Единственность доказывается точно так же, как в теореме 1 гл. I; проведение доказательства предоставляется читателю в качестве упражнения. Как видно из только что проведенного доказательства, функция Д(х, у) выбирается произвольно и подчиняется лишь тому условию, что она должна быть ограниченной в любом конечном
прямоугольнике. Интересно отметить, что вследствие единственности решения предельная функция будет непрерывной, даже если начальная функция таковой не является. § 7. ПРИБЛИЖЕНИЕ В ПРОСТРАНСТВЕ ПОВЕДЕНИЙ И МОНОТОННАЯ СХОДИМОСТЬ Как и прежде, легко видеть, что в случае можно обес- печить монотонную сходимость посредством приближения в пространстве поведений. В качестве двух простейших приближений можно взять приближения, соответствующие поведениям Л°° и BG х). От первого из этих поведений мы получаем следующий средний доход: а от второго — Как будет показано ниже, в § 8 и 9, при рассмотрении сложных процессов мы фактически располагаем гораздо более изощренным методом для получения первого приближения, но за счет утраты имевшейся простоты выражений. Основной принцип, однако, совсем прост. § 8. РЕШЕНИЕ Вернемся теперь к решению уравнения (5.1) для случая, когда Pi и Р2 — вещественные числа, удовлетворяющие неравенствам /?2 1- Интуитивно ясно, что выбор А делается в том слу- чае, если х/у^>\, а выбор В — в случае, когда у/х^>1* 2). Также легко видеть, что на каждом шаге выбор зависит только от отношения х/у, так как f(kx, ky) = kf (х, у) для k > 0. Вероятно, проще всего это можно доказать, если призвать на помощь теорему единственности, хотя все это интуитивно ясно из самого описания процесса. Отсюда следует, что если рассматривать положительный квадрант плоскости (х, у) и разделить его на Л-область и В-область (т. е. на множество тех пар значений х и у, для которых оптимальным первым выбором является Л, и множество тех пар, для которых оптимален выбор В), то из того, что точка (х, у) лежит в Л-области, будет вытекать, что точка (&х, ky) также находится в Д-области для всех k > 0, и аналогично для В-области. 1) Небезынтересно отметить следующее различие между процессом и полученным из него функциональным уравнением. По отношению к процессу последовательность А°° является условной, но с точки зрения уравнения она является детерминированной. 2) Запись а 1 означает, что а значительно больше единицы.
Если эти области устроены достаточно хорошо, то их границы должны быть прямыми линиями, как это показано на рис. 7. Области, где используются А или В, называются областями решения. Рис. 7. Смело предположим теперь, что имеются только две области, как это изображено на рис. 8, и посмотрим, как можно определить в этом случае граничную линию L. Что является тем существенным признаком граничной линии, опираясь на который можно было бы определить ее уравнение? Он таков: граничная линия — это линия, на которой оба выбора А и В оптимальны в одинаковой мере. Если в точке (х, у) сначала используется выбор А, а затем после первого шага следует оптимальное продолжение, то мы получаем (1) Л(Х, j) = Ar1x+p1/((l — rjx, у), тогда как применение выбора В в (х, у) с последующим оптимальным продолжением дает (2) /в(х, y') = p2r2y-]-p2f(xt (1— r2)y).
Приравняв эти два выражения, мы получаем уравнение для L, К сожалению, это уравнение в том виде, в каком оно нами получено, мало применимо, так как содержит неизвестную функцию /. Для того чтобы успешно завершить анализ, необходимо отметить дополнительно следующее обстоятельство. Если в некоторой точке на L мы применяем Д, то х уменьшается, в то время как у остается постоянным, после чего происходит переход в ^-область; аналогично если используется В в точке на L, то мы проникаем в Д-область (см. рис. 8). Отсюда следует, что для всякой точки на L первоначальный выбор Д означает, что вторым выбором будет В, тогда как первоначальный выбор В означает, что вторым выбором будет Д. Если, сначала применить Д, а потом В и воспользоваться оптимальным продолжением, то (3) jO=AG*4-AAr2j4-AP2/((l —G)*. (1— г2)у) и аналогично (4) /ва(х, y)=p2r2y-\-pip2rlx-\-pip2fai—ri)x, (1— rjy). Если приравнять /ав и /ва* то неизвестная функция исчезает1) и мы получаем для L уравнение (5) Р11\Х 1—А Р2Г2У 1 — р2* Остается вывести это уравнение строго. Начнем с доказательства того, что вблизи оси х имеется область, где А всегда является оптимальным первым выбором. Если д/=0, то (6) /(х, 0) = шах 0). _р2/(х, 0) П)-». 0)- Из непрерывности /(х, у) по у следуёт, что (7) f(x, y)>p2(r2y -+-f(x, (1— r2)j)) для O^y^kx, где k — некоторая малая положительная постоянная, в то время как при j/=0 имеет место строгое неравенство. Таким образом, мы имеем область (см. рис. 9), в которой в качестве первого выбора используется Д. Теперь возьмем точку Р = Р(х, у) в области между L и y=kx, такую, что точка (х, (1—г2).У) находится уже в заштрихованной !) Значение этого факта состоит в том, что как только сделаны как выбор Л, так и выбор В, для продолжения процесса первоначальный порядок этих выборов больше не важен.
области. Иначе говоря, применение выбора В в точке Р должно привести к тому, что следующим выбором будет Л, если только после первой операции машина не вышла из строя (как уже отмечалось раньше, это условие необходимо при рассмотрении процесса, но не при рассмотрении уравнения). Если выбор В оптимален в точке Pt то мы получаем (8) f(x, у)=/вл(х, у). как это следует из (4). Однако мы знаем, что ниже L /ва(х, У) У)> так что В не может быть оптимальным в Р. Рассуждая по индукции, мы распространяем заштрихованную область вверх вплоть до L. Точно так же доказывается, что область между L и осью у является В-областью. Итак, мы завершили доказательство следующей теоремы. Теорема 2. Рассмотрим уравнение (9) f(x, y)s=max А[Г1Х+/((1— i\)x, J)],’ _Рг1ЪУ + f(x. (1 —Гг)>)1. где 0 Op р2 < 1, 0ОР Его решение дается формулой (10) /(X. у} = для РгР^+Лх. (1 — r2)-V)l для Для рр\хЦ\—Р1) = р2г2У/^—Рг) любой выбор является оптимальным.
§ 9. ОБСУЖДЕНИЕ Полученное решение имеет очень интересную интерпретацию. Можно рассматривать рр\х как непосредственно ожидаемую прибыль, а (1—Pi)rix —как непосредственно ожидаемый убыток. Тогда теорема утверждает следующее: решение состоит в осуществлении такой последовательности выборов, которая в каждое мгновение максимизирует отношение непосредственно ожидаемой прибыли к непосредственно ожидаемому убытку. Как мы увидим дальше, этот интригующий критерий время от времени появляется почти во всех вопросах теории динамического программирования. (1) f(x, y) = i где х, у ^-0 и а) Рк>^-(2) б) 1>Q, Оптимальный выбор § 10. НЕКОТОРЫЕ ОБОБЩЕНИЯ Аналогичные методы применимы для доказательства двух следующих результатов. Теорема 3. Рассмотрим уравнение я А- ^Pklckx+f(c'kx, j)], •ах ; _в Qk[dky+f(x, N N % > о, 2 й < i 2 Qk < i. Zc= 1 Ar=l с к Ск = dk 4“ = 1. операций определяется следующим образом: если N 2 Ркск 2 Ш1» (3) у х > —-— у, 1 — 2 Рк 1 — 2 % Л=1 к = 1 то выбирается А; если же имеет место обратное неравенство, то выбирается В. В случае равенства любой выбор является оптимальным. Теорема 4. Рассмотрим функциональное уравнение (4) /(хх, х2....хп) = К ^^Pik\cikXi~\~ j (*!> Х2, • С,кХк, Хп = max
где Xi 0 а к a) Pik><^ ЪР1к<^ <=1.2................п. (5) б) cik~\~cik— 1- Функции решения имеют вид к PikPik Di (х) = г— Xi 1 Pik А:=1 в том смысле, что максимум D^x) достигается при том же значении индекса I, при котором достигается максимум в (4). В случае равенства безразлично, что использовать. Ясно, что теоремы 3 и 4 можно объединить в один всеобъемлющий результат, который в свою очередь может быть обобщен при помощи интеграла Стильтьеса. Так, вариантом уравнения (1), соответствующим непрерывному распределению доходов, является уравнение /(х, у) = max J 2)Х, y)]dG(z), О 1 / №y-\-f(x, (1 — w)j)JdH(w) О Предоставляем читателю в качестве упражнения вывод обобщений теорем 3 и 4, а также формулировку и доказательство соответствующих теорем существования и единственности. § И. ВИД ФУНКЦИИ /(х, у) Получив достаточно простую характеристику оптимального поведения, обратим внимание на функцию /(х, у). Вообще говоря, не существует простого аналитического представления решения. Однако если мы будем рассматривать уравнение (1) f(x, у) — шах арсЧ-а2.у-|-р2/(с2х, У)> biX-{-b2y-\-q2f(x, d2y) то можно показать, что /(х, у) может быть представлена в виде кусочно-линейной функции, если с2 и d2 связаны соотношением типа c™=d™ где т и п—положительные целые числа, ., э
Для иллюстрации этого метода достаточно рассмотреть самый простой случай, когда имеется соотношение c2 — d2. Пусть (х, у) будет точкой в Л-области. Если применено А, то эта точка переходит в точку (с2х, у), которая может находиться либо в Л-, либо в В-области. Пусть — линия, которая преобразуется в L1), когда (х, у) переходит в (с2х, у)\ Ь2 — линия, преобразуемая при этом в и т. д. Аналогично пусть — линия, которая преобразуется в L, когда (х, у) переходит в (х, d2y), и т. д. В секторе LQLr первым используется выбор Л, а потом следует В, как показано ниже. Следовательно, для точки (х, у) из этого сектора' мы получаем (2) f (х, у) = atx + а2у -\-p2f (с2х, у) = = аус 4- а2у -\-р2 (Ь&х 4- b2y) + q^f^x, с2у) = = («14-Р2*1С2) X 4- (а2+Р2^) У +РгЧ2С2/(х, у). Это дает нам /(*. у) (3) _ (а± + Р^с2) х + (а2 + Р2^2) У 1 — р2Ц‘>С2 для (х, у) из Аналогично получаем линейное выражение для f в АОЖр Если представление в этих секторах найдено, ясно, что можно получить линейное представление в секторе L$L2 и т. д. 1) Уравнение граничной линии будет [Д1 (1 — <7з) + (Рзсз — 1)] х = [63 (1 — /?3) + а3 (^3 — 1)1 у. Оно получается так же, как и выше.
^+i(x + ^) = max § 12. ЗАДАЧА ДЛЯ ПРОЦЕССА С КОНЕЧНЫМ ЧИСЛОМ ШАГОВ Прежде всего установим теорему. Теорема 5. Рассмотрим рекуррентное соотношение (1) /1 (*. У) = max {jVjX. p2r2y}, Л: pi [rtx-]-fN(O — ri)x, j)]' В : p21ггУ 4-/л (x, (1 — r2) _y)] J ’ N= 1, 2, .... Для каждого N имеется две области решения. Доказательство. Для каждого Af^2 точки, для которых АВ с последующим оптимальным продолжением на оставшихся N — 2 шагах эквивалентно В А с оптимальным продолжением на этих N — 2 шагах, лежат на той же самой линии L, которая была определена раньше, а именно: Рис. 11. Для /V-шагового процесса любое поведение, а следовательно, и любое оптимальное поведение имеет вид (3) Sat: Аа'Вь' ... AaNBbN, где ait — неотрицательные целые числа, причем (аг 4- &<) = N. i Рассмотрим теперь точку Р = Р(х, у), лежащую выше L. Если в точке Р использовано Л, то дальше представляется две возможности: либо А используется k раз подряд, и только затем следует В: (4) SN — AkB...t — 1, либо Sn= Л2^. Рассмотрим первый из этих случаев. Если Л используется k—1 раз подряд, то мы дойдем до точки Pf, лежащей
все еще выше L. В точке Р' выборы АВ не могут быть первыми двумя выборами при оптимальном (Л/ — k 1)-шаговом поведении, так как В А с оптимальным продолжением лучше. Следовательно, выше L либо В используется первым, либо оптимальным поведением является AN. Теперь покажем, что если An является оптимальным поведением в Р, то оно является оптимальным и в области между ОР и осью х. Доказательство начнем с замечания, что можно предположить, что х-\-у— 1, так как функция у) однородна относительно х и у. Рассматривая N-шаговый процесс, мы видим, что имеется 2N возможных поведений, скажем, Pv Р2, ..., P2n. При использовании каждого из этих поведений в точке (х, у) получаем доход от N-шагового процесса, который является линейной функцией от х и у\ обозначим его Ьк(х, у}. Для x + j' — 1 можно вычертить графики этих функций; это будут 2ЛГ прямых линий (см. рис. 12). Рис. 12. Если N = 2, то имеется всего четыре поведения АА, АВ, В А, ВВ, которые дают четыре линии. График максимального дохода как функции от х изображен на рис. 13. Рис. 13. Ясно, что An является оптимальным поведением для у = О» х=1. Отсюда следует, что если AN оптимально в точке (х, >),
О < у < 1, то линия, соответствующая AN, будет расположена над всеми другими линиями для Объединяя полученные результаты, мы видим, что для любого N границей между Л-областью и В-областью будет либо АВ = ВА, либо AN=Mlt где — поведение более сложной формы, либо, наконец, BN = М2 — тоже довольно сложное поведение.. Теперь мы можем установить более точный результат. Теорема 6. Области решения для fN монотонно сходятся к областям решения для f при N-+oo. Кроме того, всегда найдется такое целое число No, что для N No области решения для fN совпадают с областями решения для /. Доказательство. Рассмотрим случай N = 3. Через Ь2 обозначим граничную линию для двухшагового процесса и допустим, что L2 и L расположены друг относительно друга так, как это показано на рис. 14. Пусть Ь2 (Л-1) — линия, которая преобразуется в £2, когда в точке на ЛДЛ”1) используется Л, т. е. когда (х, у) преобразуется в (сх, у). Пусть точка Q находится в секторе между Ь2 и £2(Л”1). Если в точке Q в качестве первого выбора трехшагового поведения используется Л, то на следующем шаге используется В, так как для двухшагового процесса преобразованная точка находится в В-области. Однако если Q расположено выше L, то (как мы уже знаем) АВ не может быть первой парой выборов в оптимальном поведении. Отсюда следует, что в точке Q используется В. Таким образом, мы показали, что В-область для трехшагового процесса во всяком случае содержит область, лежащую выше £2(Л-1). Этот процесс может быть распространен на все ббльшие N до тех пор, Цока £Л(Л-1) для некоторого конечного k не будет лежать ниже L. В этой точке граничной линией становится линия АВ —В А, и она остается граничной для всех ббльших N. 7 Р. Веллман
§ 13* ТРИХОТОМИЧЕСКАЯ ЗАДАЧА Предположим теперь, что, кроме двух уже рассмотренных выборов Л и В, мы имеем третий выбор С, который является промежуточным между выборами А и В. Уравнение, которое в этом случае получается, имеет вид Л : pt kjX + ZCCl —г,)х, у)], (1) f(x, у) = max В : р2 \r2y + f (х, (1 — r2) J)], LC : Рг& \г3х + rty 4-/((1 —r3)x,(l —r4) J)1J где 0<>3, r4C 1, 0^/?3< 1 и величины pv р2, г2 удовлетворяют предыдущим неравенствам, т. е. те же, что и раньше. Основываясь на том, что уже известно относительно решения уравнения, где отсутствует член, соответствующий С, можно предполагать, что решение этого уравнения будет определяться следующим образом: имеются три области решения, как показано на рис. 15, аричем каждый из выборов Л, В и С является оптимальным первым пыбором в соответствующей области. К сожалению, имеется пример, показывающий, что в общем случае это не так. Посредством довольно сложного, хотя и непосредственного вычисления можно показать, что при подходящих значениях параметров решение может иметь вид, изображенный на рис. 16. Решение уравнения (1), по-видимому, является чрезвычайно трудной задачей, и относительно характера этого решения известно очень мало. Неизвестно даже, всегда ли конечно число областей решения, а если конечно, то является ли оно равномерно ограниченным. Чтобы получить некоторую информацию об этой задаче в некоторой области пространства параметров, мы в гл. VIII рассмотрим ее непрерывный вариант, где с помощью вариационных методов могут быть определены области решения. Для непрерывного варианта необходимо будет предположить простое расположение областей решения, подобное показанному на рис. 15.
§ 14. ТЕОРЕМА УСТОЙЧИВОСТИ Теперь докажем теорему устойчивости решения1) уравнения (1) /(х, у) — max ГЛ: t\)x, j)],l [fi: p2\r2y-\-f(x, (1—r2)J)l J Теорема 7. Пусть g(x, у) будет решением уравнения (2) g{x, >)=max Л: PikiX+g'Hl— rjx, j)]. В: Pilw+gfa (l—r.Jy)] 4-Л(х, у). Тогда в любом прямоугольнике R: 0 х<X, (3) | / (х. у) — g (х, у) | < max у)|-, R V где q=min 1(1 —pt), (1— /22)1- Доказательство. Доказательство проводится методом последовательных приближений, как в § 18 гл. I. Поэтому здесь достаточно отметить лишь некоторые детали. Положим (4) ft(x, У) = max[p/jX, р2г2у\. gi(x, у) — max [ррух, p2r2y] -}- h (x, у) и, вообще, (5) fn+dx, 3/) —max Л: pdriXd~fn(d — '•Jx, J)L В: p2 [ r2y 4- fn (x. (1 — r2) _y)l gn+dx, У) = max Л: л [rlx4-g„((l — rjx, _?)],’ B: p2[f2yd-gn(x, (1— r2)y)] _ 4-A(x, y). Ясно, что (6) у) — gi(x, j)|<max|A(x, j)|. R Применяя уже не раз использованные методы, мы видим, что (7) max | f п+1 (X, y) — gn+1(x, J) К R <тахр3|/и(х, y)~gn(x, у) | + max | h (х, .?)[, R R где р3= тах(рр р2). Итерация этого неравенства дает (8) max|/n(x, у) — gn(-x, j)|<max|ft(x, J/)| (1 4-р34~ • • • 4~рз-1) R R для п = 2, .... Полагая п->оо, получаем требуемый результат. i) Под решением здесь и в дальнейшем будет^подразумеваться единственное решение в соответствующем классе функций. 7*
УПРАЖНЕНИЯ И ПРОБЛЕМНЫЕ ЗАДАЧИ К ГЛАВЕ II 1. Для описанного в § 2 процесса рассмотреть случай, в котором целью процесса является максимизация математического ожидания ср(/?), где R—полный доход, а ср (г)— некоторая фиксированная функция z. Определим функцию /(х, у, а) как математическое ожидание ср (/?), полученное в условиях оптимального поведения, когда начальные запасы золота соответствующих приисков равны х и у, а количество а уже добыто. Показать, что / (х, у, а) удовлетворяет следующему функциональ- ному уравнению: /(х, у, а) — шах Л:' Pj/Cnx, у, а-\-гхх)+р^(а), В: p2f(x, r'2y, a-±-r2y)-{-p2<f(a) У>0, /(0, 0, а) = <р(а). Здесь Рг Р'^Х—Р2' Г1==1—Г1‘ Г2=1—<2- 2. Доказать для этого уравнения теоремы существования и единственности. 3. Рассмотреть случай, когда ср (г) определяется следующим образом: ср(» = О, cp(z)=l, z^u, где и<х-}-у. 4. Пусть g(x, у) = шах Е (еЪг), # > 0, где Е означает матема-р тическое ожидание и максимизация производится по всем поведениям Р. Показать, что g(x, у) удовлетворяет уравнению g(x, у/) = шах A: p^g^x, y)-^t-p'1 В: p2eb^vg(x. г'2у)-\-р'2 5. Показать, что решение уравнения из предыдущей задачи связано с отношением функций „ р2(Л»»-1) ------у и ~г-• Л---------------------------^2 6. Показать, что теорема 2 является предельным случаем этого результата, когда >0. 7. Функция g(x, 0) удовлетворяет уравнению g(x, 0)=p1ebr^g(r'1x, 0)4-pJ. Изучить ее асимптотическое поведение при х->оо.
8. Для задачи 1 получить некоторые достаточные условия, которые бы обеспечивали в точности две области решения. 9. Решить уравнение / (х, у) = шах -Л: р^х-^/^х, j)], В: рг[г2у + /(х, г^)]. _С: p,[rix-\-riy-\-f(tx, <у)1- 10. Решить уравнение / (х, у) = шах А: хЦ- f (ах, by), В: y+f(cy, dx) где 0 a, b, с, d < 1. (О. Гросс — X. И. Шапиро) 11. Рассмотреть описанный в § 2 процесс в предположении, что имеется вероятность рх получения величины rtx и продолжения процесса, вероятность р2 ничего не получить, но продолжать процесс, и вероятность р3 ничего не получить и прекратить добычу, если выбрано А, причем 4-р2 + Рз = 1’> и аналогичные вероятности qt, q2, q3, если выбрано В. Показать, что соответствующее функциональное уравнение имеет вид Л: р, [г,х + /((1 — rjx, v)] -\-p2f (х, у),' В: ?1Ку + /(х, (1 — sj УН+дЛх, у) f (х, у) — шах и что оно может быть записано в более простой форме А: f (х, у) — max — t\)x, j)j, 1 —p2 ттЬт Iw+f (1 — si) J)J 12. Рассмотреть процесс, описанный в § 2, в котором после его начала невозможно наблюдать результаты выборов на каждом шаге. Определить поведения, максимизирующие средний доход в следующих случаях: а) когда машина исправна, она на любом прииске добывает фиксированную долю золота; б) когда машина исправна, существует распределение дохода-. Предполагается, что мы намерены максимизировать вероятность того, что доход превысит фиксированную величину /?0. 13. Описанный в § 2 процесс рассмотреть в предположении, что для каждого из приисков задается не извлекаемая доля запасов в месторождении, а абсолютное количество золота, добываемое на прииске за единицу времени, пока неизвлеченная часть запасов. превосходит установленную заранее величину. 3*
14. Показать, что уравнение в (5.1) эквивалентно уравнению (В: рг [r2z+/((1 — гг) z)] для 0 Z < сю. 15. Рассмотреть уравнение /(х, j/)=*max А: гх-|-/((1— г)х, у), В: 91V + /U. (1 — *)>)] для х, у^О, 0<>, s, q < 1. Показать, что это уравнение имеет решение /(х, у) = х-|—г--------г. 16. Показать, что процесс золотодобычи, приводящий к этому уравнению, не имеет оптимального поведения, т. е. поведения, обеспечивающего в точности этот доход, но что имеется много поведений, при которых доход превышает величину x~H"i----7Т----Г — для любого В > 0. 1 q (1 s) 17. Доказать, что приведенное в задаче 15 решение уравнения не единственно в классе функций, ограниченных в любом ограниченном прямоугольнике, но что оно единственно в классе функций /(х, у), для которых /(0, 0) = 0 и /(х, у) непрерывна при х — у — Q. БИБЛИОГРАФИЯ И КОММЕНТАРИИ К ГЛАВЕ II § 1. Понятие „областей решения" является очень важным в изучении процессов решения. Мы встретимся с ним снова в гл. VIII, где оно приведет нас к решению рассматриваемых в этой главе вариационных задач, и далее в гл. IX в связи с вариационными задачами с ограничениями. По этому вопросу имеется интересная статья Эрроу, Блекуэлла и Гиршика [Arrow К. J., Blackwell D., Girshick М., Bayes and minimax solutions of sequential decision problems, Econometrica, 17 (1949), 213—214]. § 8. Результат § 8 был получен совместно с М. Шифманом летом 1950 г. § 12. Типичный образец использованного здесь геометрического приема был детально разработан Карлином и Шапиро для получения другого доказательства теоремы 2, а также других результатов. § 13. Первый опровергающий пример был построен Карлином и Шапиро после долгих бесплодных поисков, направленных на получение результата, основанного на рис;. 15. (См. Karlin S., Shapiro Н. N., Decision processes and functional equations, RM-933, Sept. 1952, The RAND Corporation.)
Глава III СТРУКТУРА ПРОЦЕССОВ ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ § 1. ВВЕДЕНИЕ В этой главе мы хотим исследовать и сопоставить наиболее существенные черты двух процессов, которые уже были детально рассмотрены в первых двух главах. Хотя на первый взгляд может показаться, что эти процессы несопоставимы, так как один из них является процессом детерминированного типа со стохастическим вариантом, а другой — процессом стохастического типа без детерминированного варианта, мы тем не менее увидим, что с абстрактной точки зрения оба они являются частными случаями одного и того же процесса общего типа. Естественно поэтому, что они описываются функциональными уравнениями сходного вида. После изложения общих соображений и анализа сходных черт процессов мы перейдем к описанию более общих процессов решения и получим для них ряд функциональных уравнений, обладающих единой структурой. При желании мы могли бы свести их в одно функциональное уравнение, охватывающее все случаи. Однако так как крайняя общность достигается только ценой утраты некоторых тонкостей, то как с принципиальной, так и с аналитической точки зрения несомненно представляется более целесообразным рассмотреть отдельно ряд важных классов процессов, каждый из которых обладает определенными характерными математическими и физическими свойствами. Мы закончим эту главу дальнейшим рассмотрением понятия приближения в пространстве функций, с которым мы уже встречались в предыдущих главах, и доказательством его важнейшего свойства — монотонной сходимости. § 2. ОБСУЖДЕНИЕ ДВУХ ПРОЦЕССОВ, РАССМОТРЕННЫХ РАНЕЕ Начнем с констатации того факта, что процессы, рассмотренные в гл. I и II, имеют следующие общие черты: а) в обоих случаях мы имеем физическую систему, которая на любом шаге характеризуется небольшим числом параметров, называемых параметрами состояния; б) на каждом шаге как одного, так и другого процесса мы должны принять одно из нескольких решений;
в) результатом принятия решения является преобразование параметров состояния; г) предыстория системы не имеет никакого значения при определении будущих действий; д) целью процесса является максимизация некоторой функции параметров состояния. Мы намеренно оставили это описание несколько неопределенным, так как именно сам дух подхода к рассматриваемым процессам является более важным, чем буква какой-нибудь строгой формулировки. Крайне важно отдать себе отчет в том, что мы не можем йи аксиоматизировать математическую формулировку процесса, ни узаконить отсутствие изобретательности. В некоторых задачах параметры состояния и преобразования навязываются нам существом дела; в других случаях остается возможность некоторого выбора, в зависимости от которого возникает или не возникает возможность аналитического решения. Наконец, может случиться так, что параметры состояния, а иногда и преобразования должны быть построены искусственно. Только опыт в сочетании с зачастую трудоемким методом проб и ошибок приводит к подходящим формулировкам для каждого из исследуемых процессов. Рассмотрим теперь конкретное содержание указанных выше общих свойств для каждого из двух процессов, описанных в предыдущих главах. В неограниченно продолжающемся многошаговом процессе распределения параметрами состояния являются наличное количество ресурсов х и доход z, полученный к данному моменту. На любом Шаге решение состоит во вложении количества у в первый технологический процесс, где 0<С.У<^х. Результатом принятия этого решения является преобразование х в ау + Ь(х — у)> a z в + g(y)~\~h(x — у). Цель этого процесса состоит в максимизации Окончательной величины дохода z. В стохастическом процессе золотодобычи параметрами состояния Являются наличные 'запасы х и у двух приисков и количество золота z, добытого к данному моменту. Решение на любом шаге состоит в выборе прииска Анаконда или прииска Бонанца. Если выбирается Анаконда, то пара (х, у) переходит в пару ((1 —г£)х, у) и z в z-\-rxx, а если Бонанца, то пара (х, у) переходит в пару (х, (1—г2),у) и z в 2-\~Г(гУ- Целью этого процесса является максимизация математического ожидания количества золота Z. полученного до момента выхода машины из строя. В конечных вариайтах обоих процессов мы имеем дополнительно Параметр времени, проявляющий себя в виде числа шагов, остающихся до конца процесса. Однако очень полезно все время отличать этот параметр состояния от остальных, так как обычно время играет особую роль.
Условимся теперь о следующей терминологии: будем называть поведением любое правило для принятия решений, которое дает допустимую последовательность решений; оптимальным поведением назовем поведение, максимизирующее некоторую заранее заданную функцию параметров окончательного состояния. Более точное определение поведения получить не так легко, как это можно было бы предполагать. Хотя его не очень трудно дать для случая детерминированных процессов, стохастические процессы доставляют больше забот. Однако для любого конкретного процесса нетрудно сформулировать это понятие вполне точно. Магическим словом является здесь, конечно, словечко „допустимый". Удобным термином для этой заранее заданной функции переменных окончательного состояния является термин „функция критерия*. Во многих приложениях определение надлежащей функции критерия представляет известную трудность. Может случиться, что с аналитической точки зрения решение совсем легко получается для одной функции критерия и лишь с большим трудом для очень близкой к ней другой. Поэтому в выборе таких функций желательно сохранить некоторую свободу. § 3. ПРИНЦИП ОПТИМАЛЬНОСТИ Для каждого процесса управляющее им функциональное уравнение было получено путем применения следующего интуитивного принципа оптимальности. Принцип оптимальности. Оптимальное поведение обладает тем свойством, что, каковы бы ни были первоначальное состояние и решение в начальный момент, последующие решения должны составлять оптимальное поведение относительно состояния, получающегося в результате первого решения. Математическая перефразировка этого простого принципа дает все функциональные уравнения, с которыми мы будем встречаться в оставшейся части книги. Высказанный принцип легко можно проверить доказательством от противного. § 4. ПОСТАНОВКА ЗАДАЧИ. I. ДИСКРЕТНЫЙ ДЕТЕРМИНИРОВАННЫЙ ПРОЦЕСС Рассмотрим теперь детерминированный процесс, понимая под ним процесс, у которого результат принятия любого решения определяется этим решением однозначно. Допустим, что состояние системы, если не считать зависимости его от времени, описывается на каждом шаге Af-мерным вектором p = (pv р2, ..., рму принадлежащим некоторой области D. Пусть Т— {7^}, где; индекс q про
бегает некоторое множество S (S может быть конечным, счетным, непрерывным или комбинацией множеств этих типов), представляет собой множество преобразований, обладающих тем свойством, что если p£D, то Tq(p)£D для всех q£S (т. е. любое преобразование Tq переводит множество D в себя). Термин „дискретный" означает здесь, что мы имеем дело с процессом, состоящим из конечного или счетного числа шагов. Для конечного процесса, который мы рассмотрим сначала, каждое поведение состоит в последовательном выборе N преобразований P = (TV Т2, Г#)1), дающих одно за другим последо- вательность состояний: (О А=Л(Р)- Р2 ~ ^2 (Р1)* (2) = Pn~ T#(Pn-i)9 Эти преобразования должны быть выбраны так, чтобы максимизировать значение заданной функции R окончательного состояния pN. В целом ряде случаев нетрудно установить существование 'этого максимума, а следовательно, и существование оптимального поведения. Простейшим из них является тот случай, когда на каждом шаге процесса выбор индекса q производится только из конечного числа допустимых альтернатив. Вероятно, следующим по сложности является случай, где мы предполагаем, что D — ограниченная замкнутая область, R(p)— функция, непрерывная по р для pf^D, Tq(p) — преобразование, непрерывное по совокупности р и q для всех p^D и всех q из ограниченной замкнутой области S. .Этими двумя случаями охватываются наиболее важные конечные процессы, причем неограниченно продолжающиеся процессы можно рассматривать как предельные по отношению к конечным. Отметим, что максимальное значение функции R^PN^ определяемое с помощью оптимального поведения, будет зависеть только от начального вектора р и числа шагов N, Введем теперь основные вспомогательные функции равные доходу, получаемому при осуществлении N-шагового процесса, если его начальное состояние описывается вектором р и используется оптимальное поведение. 1) Мы пишем Гх вместо Tq? Т2 вместо и т. д.
Эта последовательность определяется для N=l, 2, ... и для p£D. Подобный подход к вопросу является проявлением основного принципа анализа — принципа непрерывности. Для того чтобы решить интересующую нас задачу для процесса с фиксированным числом-шагов /Уис единственным начальным вектором р, мы рассматриваем все множество задач о максимизации, возникающих при рассмотрении процессов с произвольным числом шагов и произвольным начальным вектором р. Первоначальный процесс оказывается, таким образом, вложенным в семейство подобных ему процессов. Вместо того чтобы пытаться определить характеристики оптимального поведения для отдельного процесса, мы будем исследовать общие свойства всего множества оптимальных поведений,соответствующих различным процессам из этого семейства. Такой подход к вопросу даст нам возможность решить первоначальную задачу в ряде случаев, где применение прямых методов к успеху не приводит. Для получения рекуррентного соотношения, связывающего члены последовательности воспользуемся принципом оптималь- ности, сформулированным в § 3. Предположим, что в качестве первого решения мы выбираем некоторое преобразование Tq, получая таким образом новый вектор состояния Tq(p). Максимальный „доход" 1), получаемый после осуществления следующих W—1 шагов процесса, равен по определению (Т9 (/?)). Следовательно, если мы хотим максимизировать полный доход от осуществления всех М шагов процесса, тр индекс q следует выбрать так, чтобы максимизировать доход, получаемый на последних N—1 шагах. В результате мы приходим к основному рекуррентному соотношению (3) (Р) = max fN (Tq (р)) для N 2 (4) /i(p) = max/?(Te(p)). и Заметим, что величина fN(p) определяется однозначно, в то время как элемент q£S, на котором достигается максимум, может единственным и не быть. Таким образом, максимальный доход определяется однозначно, но может существовать много оптимальных поведений, которые обеспечивают получение этого дохода. Э То есть значение функции критерия.
В случае неограниченно продолжающегося процесса последовательность функций {/д, (/?)} заменяется единственной функцией f(p), равной полному доходу, получаемому при использовании оптимального поведения, если начальное состояние процесса описывается вектором р. Первоначальное рекуррентное соотношение заменяется при этом функциональным уравнением (5) f (р) = max f(Tq(p)). Q § 5. ПОСТАНОВКА ЗАДАЧИ. II. ДИСКРЕТНЫЙ СТОХАСТИЧЕСКИЙ ПРОЦЕСС Продолжим рассмотрение дискретных процессов, считая на этот раз имеющиеся преобразования не детерминированными, а стохастическими. В этом случае любое решение приводит уже не к какому-то определенному преобразованию, а к некоторому распределению преобразований. Начальный вектор р преобразуется при этом в случайный вектор z с соответствующей функцией распределения dGq(p, z), зависящей от вектора р и от выбора индекса q. Процесс может принадлежать одному из двух различных типов, в зависимости от того, предполагаем ли мы, что сам вектор z известен после того, как некоторое решение принято, а следующее — только должно быть принято, или же мы предполагаем, что известна лишь функция распределения этого вектора. В настоящей книге мы рассмотрим только процессы первого типа, так как процессы второго типа, вообще говоря, требуют введения понятия функции от функции, т. е. функционала. Как неоднократно указывалось ранее, теперь, очевидно, становится уже бессмысленным говорить о максимизации определенного дохода. Поэтому мы должны условиться измерять качество поведения посредством некоторого усреднения функции окончательного состояния. Будем называть это математическое ожидание доходо м. Начиная со случая конечного процесса, мы определяем функции /Л,(р) в соответствии с формулой (4.2). Если вектор z описывает состояние, получающееся в результате начального преобразования Tqi то при использовании оптимального поведения доход от последних N— 1 шагов будет равен f Математическое ожидание дохода, получающегося в результате первоначального выбора преобразования Tq, равно, следовательно, (1) ffN-^)dGq(p, г).
Поэтому для последовательности {/у(р)} справедлива следующая рекуррентная формула: (2) / (p) = max f г), Л/>2, где (3) Л (р) = max f R (z) dGq (p, z). В случае неограниченно продолжающегося процесса мы приходим к функциональному уравнению (4) /(р) —max f f(z)dGq(p, z). § б. ПОСТАНОВКА ЗАДАЧИ. III. НЕПРЕРЫВНЫЙ ДЕТЕРМИНИРОВАННЫЙ ПРОЦЕСС Имеется целый ряд интересных процессов, в которых требуется принимать решения в каждой точке некоторого непрерывного множества, например интервала времени. Простейшие примеры процессов этого типа приводятся в вариационном исчислении. Как мы увидим ниже (см. гл. IX), такое понимание вариационного исчисления приводит к новому взгляду на различные разделы этой классической теории. Определим (1) / (/?; Т) как доход, получаемый за промежуток времени [О, Г], если исходить из начального состояния р при использовании оптимального поведения. Хотя мы и считаем, что процесс состоит из выборов, производимых в каждой точке t интервала [О, Т], но лучше начать с понятия выбирающих поведений, т. е. функций, определенных на интервалах, и затем уже перейти к пределу, когда эти интервалы стягиваются в точки. Аналогом формулы (4.3) является (2) /(р; S + T) = max f(pD\ Г), где максимум берется по всем допустимым решениям, принимаемым в интервале (О, S]. Когда мы рассматриваем бесконечные процессы, являющиеся результатом либо бесконечных последовательностей операций, либо выборов, сделанных в каждой точке непрерывного множества, мы встречаемся с трудностью доказательства существования достигаемого максимума, а не просто супремума. Поэтому при рассмо
трении процессов непрерывного типа, вообще говоря, лучше начать с уравнения (3) f(p; S + T) = sup/(p„; Т), которое обычно легко, выводится, а затем уже показать, что при надлежащих предположениях супремум фактически достигается и поэтому может быть заменен максимумом. Как мы увидим в гл. IX, предельный случай уравнения (2) при S —> 0 представляет собой нелинейное дифференциальное уравнение в частных производных. Оно играет важную роль при аналитическом исследовании вопроса. При численном же решении 5 можно принять малым, но положительным 2). § 7. НЕПРЕРЫВНЫЕ СТОХАСТИЧЕСКИЕ ПРОЦЕССЫ Интересным и спорным вопросом, еще ожидающим своего исследования в дальнейшем, является строгая формулировка и решение достаточно общих классов непрерывных стохастических процессов решения для случаев с одним и двумя заинтересованными лицами. Хотя в гл. VIII и будет рассмотрен один частный процесс такого типа, мы не будем здесь останавливаться на общей формулировке непрерывных стохастических процессов .решения, так как строгое исследование требует тонких и хитроумных соображений, основанных на сложных понятиях. § 8. ОБОБЩЕНИЯ Читатель увидит, что функциональные уравнения, которые мы вывели выше для случая, когда параметры состояния и решения принимали значения в конечномерных эвклидовых пространствах, могут быть распространены на случай, в котором как параметры состояния, так и решения являются элементами более общих пространств (например, банаховых пространств). Вместо того чтобы рассматривать здесь это обобщение абстрактно, мы предпочитаем отложить вопрос до второго тома, в котором будут рассматриваться примеры этих более общих процессов. Теория интегральных уравнений и вариационные задачи, в которых участвуют функции нескольких переменных, так же как и более общие стохастические процессы — все это дает нам примеры процессов, выходящих за рамки конечномерной формулировки, которой мы ограи-ничились в этой книге, и требующих для своего определения теории функционалов и операторов. 1) В гл. IX мы покажем, что можно избежать многих трудностей, связанных с требованиями строгости и возникающих в процессе нахождения предела, если интересоваться только численным решением вариационных процессов.
§ 9. ПРИЧИННОСТЬ И ОПТИМАЛЬНОСТЬ Рассмотрим многошаговый процесс, не сопровождающийся принятием решений, скажем, процесс, порожденный системой дифференциальных уравнений (1) — gi (Xp Х2, • • • , Х^, (0) = Cj, /==1,2,..., N, которую можно записать короче в векторной форме (2) = х(°) = с- Если считать, что решение системы существует и единственно, то ее состояние в момент t есть функция только от с и t\ таким образом, (3) х(/)=/(с,/). Требование единственности решения приводит к функциональному уравнению (4) f(c, s + O=/(/(c, s), t) для s, /^0, которое представляет собой аналитическую переформулировку закона причинности. Это уравнение выражает основное полугрупповое свойство процессов такого типа. Сравнивая уравнения (4) и (6.2), мы видим, что многошаговые процессы решения можно рассматривать как естественное обобщение теории полугрупп. Всякие дальнейшие рассуждения в этом направлении неизбежно вывели бы нас за те пределы, которыми мы себя ограничили; поэтому мы удовлетворимся приведенным выше замечанием. § 10. ПРИБЛИЖЕНИЕ В ПРОСТРАНСТВЕ ПОВЕДЕНИЙ В гл. IV для решения функциональных уравнений типа (4.5) и (5.4) мы используем общий прием анализа, метод последовательных приближений. Этот метод вкратце состоит в выборе начальной функции fQ(p) и последующем определении последовательности функций {/дг(р)} с помощью алгоритма, который, например, для уравнения (4.5) имеет следующий вид: (1) ЛДр) = max(/>)), W=l, 2,-------------- <z Этим методом мы уже пользовались для решения уравнений в гл. I и II. Во многих важных случаях после надлежащего предварительного преобразования функционального уравнения применение этого
метода приводит к сходящейся последовательности, предел которой является решением рассматриваемого функционального уравнения *)• Мы будем широко пользоваться этим обстоятельством в следующей главе. Однако в теории динамического программирования имеется еще один, столь же важный метод приближения, который называется „приближением в пространстве поведений". Прежде чем перейти к его рассмотрению, отметим, что в процессах динамического программирования существует естественная двойственность между функцией / (р), описывающей максимальный доход, и оптимальным поведением (или поведениями), которое обеспечивает получение этого дохода. Каждый йз этих двойственных элементов может быть использован для определения другого, с той только особенностью, что знание функции f (р) дает возможность найти все оптимальные поведения, так как можно указать все индексы q, которые максимизируют правую часть уравнения [например, уравнения (4.5)], в то время как знание какого-нибудь одного частного оптимального поведения позволяет определить значение f(p). Можно считать, что индекс q, при котором достигается максимум, является функцией от р. Эта функция будет многозначной, если существует более одного такого индекса. Поскольку f (р) называется элементом пространства функций, назовем q = q(p) элементом пространства поведений. Хотя оба эти пространства являются пространствами функций, их целесообразно отличать друг от друга, так как элементы этих пространств имеют совершенно различный смысл. Таким образом, мы имеем два способа выбора начального приближения. Мы можем аппроксимировать саму функцию f(p), как это обычно делается в методе последовательных приближений, или же можем построить первое приближение в пространстве поведений, и это является особенностью функциональных уравнений, описывающих процессы динамического программирования * 2). Выбирая в качестве начального приближения <7о = <7о (/О* мы определяем доход, соответствующий этому поведению, из функционального уравнения (2) /о (р) — /о (^0 (р) )• Пример такого типа мы уже приводили в § 11 гл. I. 1) Интересно отметить, что во многих теориях, например в теории дифференциальных уравнений в частных производных, предварительное преобразование уравнения носит такой характер, что главная трудность при доказательстве существования решения заключается в установлении того, что предельная функция действительно удовлетворяет рассматриваемому уравнению. 2) На самом деле этот метод приближения молчаливо используется и в других областях анализа, как, например, в теории дифференциальных уравнений, где дифференциальное уравнение часто заменяется разностным с целью получения приближенного решения. При этом пространство всех функций заменяется подпространством ступенчатых функций.
Далее мы можем вступить на один из двух путей. Рассматривая функцию от q*. /о(^д(р))« мы можем, исходя из требования максимальности, определить функцию <?(р), обозначая ее через ^(р). Используя это новое поведение, мы определяем новый доход /Др) из функционального уравнения (3) Л(р)=А(Гв,(р)). Это уравнение решается итерациями, так же как и уравнения (4.6) и (8.1) в гл. I. Продолжая рассуждать аналогично, мы получим две последовательности функций: {/jv(p)} и {^(р)}« Другой путь состоит в определении Л(р), (4) Л (р) = max/0 (Tq (р)), Я и последующем индуктивном построении последовательности {/^(р)} с помощью обычного метода последовательных приближений: (5) fN+1 (Р) = max fN ( Tq (р)). Очевидно, что /i^/о» и» таким образом, последовательность {/А}— монотонно возрастающая. Вопрос о сходимости этого процесса мы рассмотрим в следующей главе. Первый метод, хотя и является более естественным, представляется более трудным для строгого изложения и не будет здесь рассматриваться. Однако при исследовании различных типов непрерывных процессов, например, таких, к которым приводят задачи вариационного исчисления, им приходится пользоваться для построения последовательных приближений. Мы снова вернемся к этому вопросу в гл. IX. УПРАЖНЕНИЯ И ПРОБЛЕМНЫЕ ЗАДАЧИ 4 '° К ГЛАВЕ III 1. Пусть нам известно, что в одной из W урн находится шар, причем априорная вероятность того, что он содержится в k-tt урне, равна рк. Показать, что процедура, минимизирующая среднее время, необходимое для отыскания шара, состоит в том, чтобы в первую очередь обследовать урну, которой соответствует наибольшая априорная вероятность рк. 2. Рассмотрим более общий процесс, в котором для исследования содержимого &-й урны требуется время tk и, кроме того, задана вероятность qk того, что любой отдельный просмотр Лг-й урны не дает никакой информации относительно ее содержания. Когда это g р. Ьеллмаи
случается, мы продолжаем процесс исследования с той информацией, которая у нас уже имелась. Пусть f(pi, р%> •••, pN} — среднее время, которое приходится тратить, чтобы извлечь .шар, при использовании оптимального поведения. Показать, что эта функция удовлетворяет уравнению f р*........=m*n [(i=t)+(Т=^) /(л. р;. • • •. о,..., /„)], где р* — р*/(Д—Рь), а 0 стоит на А-м месте. 3. Показать, что если мы хотим извлечь шар, то оптимальное поведение состоит в том, чтобы в первую очередь обследовать ТУ урну, Для которой величина рк( \ —Як)Цк будет наибольшей. С другой стороны, если мы ставим задачей только обнаружить содержащую шар урну в минимальное среднее время, то в этом случае урна, для которой указанная величина наибольшая, должна или исследоваться в первую очередь, или не исследоваться совсем. 4. Рассмотреть случай, когда мы можем осуществлять поиски шара одновременно в нескольких урнах. 5. Имеется несколько монет, причем все монеты, за исключением одной, одинакового веса, и чашечные весы без гирь. Указать процедуры взвешивания, которые минимизируют максимальное время, необходимое для обнаружения этой отличающейся по весу монеты, в следующих случаях: а) известно, что эта монета тяжелее остальных, б) неизвестно, тяжелее эта монета или легче, чем остальные. 6. Определить процедуры взвешивания, которые минимизируют среднее время, необходимое для обнаружения этой монеты. 7. Рассмотреть более общую задачу, где таких особых монет две или больше, при различных предположениях относительно свойств этих монет. (Кэрнс) 8. Имеется п, вообще говоря, не одинаковых изделий, которые должны быть обработаны на ряде установок различных типов (числом т). Порядок, в котором эти установки должны использоваться, имеет существенное значение, так как некоторые процессы обработки должны быть выполнены раньше других. При заданном времени а^(/=1, 2, ...» п; /==1,2, ..., т), необходимом для обработки Z-го изделия на /-й установке, требуется так определить порядок, в котором эти изделия должны запускаться в обработку, чтобы общее время, необходимое для выпуска готовой продукции, было минимальным х). *) По поводу задач 8—11 см. статью автора, цитированную на стр. 180, — Прим, ред.
Рассмотрим случай, когда обработка состоит только из двух операций, причем щ и — bi и обрабатывающие установки должны использоваться именно в этом порядке. Обозначим через /(«1» ЬГ а2, Ь2, ..aN, bN\ f) время, необходимое для обработки N изделий при условии, что вторая установка начинает работать на t часов позже и используется оптимальное распределение изделий по установкам; — время, необходимое для обработки Z-ro изделия соответственно на первой и второй установках. Доказать, что функция f удовлетворяет функциональному уравнению /(«р bv а2, Ь2....aN, bN-, f)= = min[ai4-/(a1,Z>1, a2, b2.0, 0.....aN, bN; b.-}-max(t— ait 0))], i где пара (0, 0) стоит на месте пары (^, Ь^. 9. Показать, что оптимальный порядок обработки определяется по следующему правилу: Z-й вид изделий предшествует у-му виду изделий, если filing, Zy) < min (я?-, bi). В случае равенства любое упорядочение будет оптимальным при условии, что оно является предпочтительным и во всех других отношениях. (С. Джонсон) Каково будет решение, если процесс может быть начат с обработки сырья на любой из обрабатывающих установок? 10. Пусть Xi есть время простоя второй установки непосредственно перед обработкой на ней Z-ro вида изделий. Пусть далее bi— соответственно время обработки Z-ro вида изделий на первой и второй установках, причем виды изделий подвергаются обработке в порядке их нумерации. Тогда п Г и w-1 2 хг = max S ai-------- 2 bi . (С. Джонсон) 11. Если процесс обработки состоит из трех операций, то полное время простоя третьей установки есть [и 11—1 V V—1 1 2 аг--- 2 4" S bi---2 ci • i«=i i=i i=i J (С. Джонсон) 12. Рассмотрим следующую задачу, возникающую при производстве агрегата, состоящего из многих деталей, а также при эксплуатации сложной производственной системы. Имеется N различных стадий производства, участвующих в выпуске готового продукта.
Вероятность того, что на Z-й стадии обработка выполнена правильно, равна pi. Пусть в нашем распоряжении имеется k устройств, которые могут быть использованы для увеличения точности обработки на любой отдельной стадии производственного процесса следующим образом. Если на Z-й стадии производства применяется одно устройство, то вероятность pi изменяется, делаясь равной р^\ если используются два устройства, то она становится равной р$9, и т. д. Как следует распределить имеющиеся устройства для максимизации общей точности процесса? Рассмотреть эту же задачу при следующих альтернативных предположениях: а) на Z-й стадии допускается использование не более чем устройств; б) устройство, которое может быть использовано на Z-й стадии, стоит di долларов, а на все используемые устройства мы можем затратить не более d долларов; в) для обслуживания устройства, используемого на Z-й стадии процесса, требуется человек, а для обслуживания всех устройств имеется не более h человек. 13. Для исправления ошибки, обнаруженной на Z-й стадии производственного процесса, требуется время а связанные с этим исправлением расходы равны сг. Определить сумму, которую целесообразно выделить на приобретение контрольной аппаратуры, а также распределение последней между операциями, если известны величина заработной платы и стоимость работы оборудования, приходящиеся на одно изделие, а также убытки от выработки дефектного изделия (скажем, z). п 14. Рассмотреть задачу максимизации функции 2 ?i(xi) ПРИ г—1 следующих ограничениях: a) Xi^O, п б) s Xi —с. i«l в) xikxik+1 — 0 для некоторого множества целых чисел Zx < Z2 < <Z3< ... < Zm, —1. Рассмотреть, в частности, случаи а) XiXi+l = 0, Z—1, 2, ..., п—1, б) XiXi+ixi+2 = О, Z=l, 2, ..., п — 2. Рассмотреть обратную ситуацию, когда ограничения имеют вид a) XikXik+1 dk.
Исследовать, в частности, случаи: a) *i-4+i> 1. б) X}Xi + lXi+2 1. 15. Владелец ресторана располагает двумя различными способами стирки салфеток; при быстром способе стирка занимает q дней и обходится в с центов за штуку; медленный же способ стирки требует /? > q дней и обходится в d < с центов за штуку. Предполагая, что владелец ресторана заранее знает число посетителей, которых он должен будет обслужить в любой из дней /V-дневного периода, и что он должен обеспечить салфеткой каждого посетителя, определить, сколько салфеток он должен купить и как должен отдавать их в стирку, чтобы минимизировать общие расходы в течение N-дневного периода. Рассмотреть сначала случаи, когда p = q-\- 1 » Р = я + ^- 16. Рассмотреть аналогичную задачу в предположении, что салфетка выдерживает лишь k стирок. 17. Рассмотреть эту задачу в предположении, что число посетителей в каждый из дней является случайной величиной. 18. Имеется некоторый ресурс х, который может быть использован несколькими способами. Пусть у — параметр, характеризующий способ использования ресурса, /?(х, у) — получаемый при этом способе доход, a D(x, у)— истраченный ресурс. Обозначив через f(x) общий доход от многократного использования первоначального ресурса х, получаемый при оптимальном поведении, мы приходим к функциональному уравнению /(x)=max[£(x, y)+f(x — D(x, 3/))]. v Предполагая, что величина £)(х, у) мала по сравнению с х для всех значений у, показать, что мы получаем формальное приближенное уравнение f (х) = max -^-7—~, 747 у П(х,у)> я дать интерпретацию этого результата. 19. Рассмотреть стохастический случай. Показать, что соответствующее этому случаю функциональное уравнение имеет вид /(х)= max у со / оо J* zdR\y, z, х)+/1 х — J* wdD(y, w, х) о \ о
а приближенное уравнение — со J* zdR (у, z, х) Г (х) = max ; у /• I wdD (у, w, х) о дать интерпретацию результата. 20. Рассмотрим применение метода аппроксимации в пространстве поведений к функциональному уравнению /(х)= max [g(y)-\-h(x — y)-)rf(ay-\-b{x — j))]. Мы выбираем начальное приближение у0(х) и вычисляем /0(х). Затем определяем первое приближение уг (х) из того условия, что yt максимизирует функцию g(у)-|~h(х — у)-\-/о(ау-\-Ь(х— _у)), и по нему находим /t(x) и т. д. При каких условиях элементы последовательностей {_уп(х)} и {/п(х){ являются непрерывными функциями по х и когда эти прследовательности сходятся? В частности, рассмотреть случаи, когда функции g и h являются одновременно выпуклыми или вогнутыми. 21. Пусть в нашем распоряжении имеются две машины (будем называть их просто машина I и машина II) со следующими свойствами. Если используется машина I, то с вероятностью г мы получим единицу прибыли. Если же используется машина П, то вероятность получения этой единицы прибыли равна s. Будем предполагать, что значение s известно, а для г задано только некоторое априорное распределение. Задача состоит в определении поведения выбора, которое максимизирует средний доход, получаемый после N испытаний, а также поведения, максимизирующего урезанный доход от неограниченно продолжающегося процесса (урезывание дохода производится на каждом шаге умножением его на а < 1). Предположим, что функция распределения случайной величины г при условии, что на машине I т испытаний были успешными, а п — нет, определяется соотношением J* rw(l —r)ndF(r) о Обозначим через fm,n средний доход, получаемый от неограниченно продолжающегося процесса, если используется оптимальное поведение и выполняется приведенное выше условие относительно исходов
испытаний на машине I. Показать» что /w,n удовлетворяет рекур рентному соотношению т, п = шах I: У rdFгп,п(г)П +Л/т+1,п1 о 1 , n+iL о II: s 1 —а 22. Доказать, что существует единственное ограниченное решение этого уравнения, которое может быть получено методом последовательных приближений. 23. Доказать, что для каждой пары целых чисел т, п 0 существует единственное значение s(/n, п), при котором последовательность {/тп, п} определяется из уравнений a) fm,n — 0 —а)> 1 S (т, л), 1 /т, п rdFm>n (/*) [ 1 afm+l, nl “4” О (1 \ 1 — frdFm,n (г) I fm, П + 1» о / О s < s (/п, п). Последовательность {s(m, п)} обладает следующими свойствами: б) s(/n4~b л)>$(т, n)>s(/n, n-pi) и в) fm-t-1 , п > fm, п > fm, п+Г Как вычислять члены последовательности {s(m, и)}? 24. Получить соответствующие результаты для процесса, допускающего только конечное*число испытаний. 25. Рассмотрим следующую ситуацию. Имеется склад товаров с заданной вместимостью и некоторым начальным запасом товара, для которого известна закономерность сезонного изменения реализационной цены, а также издержек производства. Задача состоит в определении оптимальной модели закупки (или производства), хранения и продажи. Обозначим через В заданную вместимость склада, а через А — начальный запас товара на складе. Предположим, что наш сезонный
товар покупается (или производится) и продается в каждый /-Й период, 1= 1, 2......п. Пусть для /-го периода (1) q — издержки производства на единицу товара, Pi — реализационная цена единицы товара, Xi — купленное (или произведенное) количество товара, yi — проданное количество товара. Вводятся следующие ограничения: (2) а) ограничение на покупку', запас товара в конце /-го периода не может превышать вместимость склада, б) ограничения на продажу: количество товара, проданное за /-й период, не может превышать количества его в конце (/—1)-го периода, в) неотрицательность: покупаются (производятся) и продаются лишь неотрицательные количества товара. Задача состоит в определении поведения, максимизирующего полную прибыль. Показать, что ее можно свести к задаче определения значений Xi и yif максимизирующих линейную форму (3) P = 2i (Pjyj — CjXj), при условиях i (4) a) — yJ^B, 1—1,2.........п, >=i б) 2 — У))’ /==1-2.....п, В) Xit Л>0. 26. Для фиксированного значения В определяем последовательность fn(A) = maxP, п= 1, 2, .. . . Показать, что fi(A)=p1A и что (1) /пИ)= тах 1Р1У1 — с1х1-Ь/п-1(А~1-Х1—У1)1 для п^>2, где максимум берется по области (2) а)0<^<А Q х^ — у^В— А, Х|>0,
27. Доказать, что функция fN (v) линейна относительно v, именно /у(?) — Ку(р1> Р2> •••» P#» Cl* C2* 4“ 7^2» • • •’ Pn* Cl* C2* * * ** Cn)V' и, следовательно, оптимальное поведение не зависит от v. (С. Дрейфус) 28. Рассмотреть систему: ) идеализированную транспортную Л=3 О О две конечные станции и S*. Из На каждом шаге имеются пунктов Тк и Sk можно перевозить материал в пункты 7\+1 и Sfc+1. Максимальные количества, которые можно перевезти по этим участка м, с л едующи е: а) Тк —> Тк+1 — Rkt Л+1, Ту —> F — Rn, б) Тк — Rk,k+i> Sy F = Sy, B) -> Sft+1 — Sk, k+1, r) Sfc -> Tk+1 = Ski k+1. Обозначим через у) количество материала, доставляемое в пункт F, при условии, что перевозки начинаются с начальных количеств х в пункте Тк и у в Sk и при перевозках используется оптимальное поведение. Показать, что Fy(x, y)=min(x, Ry) + min (у, Sjv), Fk(x, 22H-Wi). где максимум берется по области "4“ %2 Q &к, к+1* ^<^i<sktk+1, У* о <^2 %к, к+1* О -С *^2 Ski k+i. 29. Сформулировать соответствующую задачу для случая, когда конечные станции обладают ограниченной вместимостью.
30. Рассмотреть стохастический случай, когда упомянутые вместимости являются случайными величинами с известными функциями распределения. Получить рекуррентное соотношение для максимального среднего количества материала, доставляемого в пункт F, при различных предположениях относительно имеющейся информации. 31. Рассмотрим следующую транспортную задачу. Имеется ряд „источников", или „пунктов отправления", Sp S2.........Sm и ряд „стоков", или „пунктов назначения", Tv Т2.........Т^. В каждом источнике Si имеется некоторое количество материала xi9 которое должно быть перевезено в различные пункты назначения, причем так, чтобы общее количество материала, доставляемое в пункт равнялось заданному требованию yj на него в этом пункте. Предполагается, что = ^Ри Данных расстоя- i j ниях dij между пунктами отправления и пунктами назначения и в предположении, что стоимость перевозки единицы количества материала между пунктами S< и Tj равна определить план перевозок, минимизирующий общую стоимость удовлетворения требований. Показать, что рассмотренная выше задача эквивалентна минимизации линейной формы С = 2 при ограничениях 2 ху=xit 2 xij=yj< xij > о-3 i {Хичкок—Купманс) 32. Положим для фиксированных yv у2, ..., yN mlnC=fIf(x1, х2.....хЛ xtj Показать, что А х2, • • •. + d2wx2 -|- . .. + d^Nx^ fN (xp x2, ...» x^ == 2 d^x^ xlx, x2—— x2p ...» , где минимум берется по области м 2 Хц = У1> г-1 0 < хц < Хр
М N 33. Показать, что при выполнении соотношения = i-i j-i мы можем всегда уменьшить на единицу размерность задачи, рас-сматривая вместо fN(xv х2, - - хм} функцию fN(xlt х2, • • 34. Рассмотреть стохастический случай, когда расстояния являются случайными величинами с заданными функциями распределения. 35. Предполагая, что стоимость транспортировки из Z-ro пункта в /-й есть квадратичная функция -f-показать, что в этом случае существует единственный план перевозок, обеспечивающий минимум затрат. (В. Прагер) 36. Рассмотреть аналогичный многошаговый процесс, при котором масса из пунктов (Л$, Bit должна быть перевезена в пункты (Ai+V Bi+i, Ci+l) и т. д., причем перевозки продолжаются до тех пор, пока масса не достигнет мест назначения 7\, Т2, Т3, как показано ниже А2 An 7\ В± В2 ... Bn Т 2 С2 Cn Т’з • • • • 37. Рассмотрим задачу о минимизации линейной формы N L 00 —- ^ixi i-1 при условиях N 2 aijxj ^bit l — 1, 2........М, х{>-0, причем будем предполагать, что ау;>0. Обозначим minL(x) через fN(bv Ь2......Ьм). Показать, что X fN (bi, b2...bu) = min -f- XN — atNXN’ a2NXN.......ЬМ. ЯЛ«Ху)]> где xN удовлетворяет условиям 0, Xj^'^min— . Л Л i aiN
38. Пусть имеется два пустых сосуда и J2 емкостью соответственно в пять и в два галлона и, кроме того, виски и вода в неограниченных количествах. Будем допускать следующие операции: Лх— наполнение Jv А2 — полное опорожнение Jv А3—наполнение J2, А4 — полное опорожнение J2, Аб— переливание содержимого из в J2 до его наполнения, Ав — переливание содержимого из J2 в Jt до наполнения последнего. После выполнения конечного числа допустимых операций состояние системы может быть описано следующим образом: 1. В сосуде J2 имеется Z = О, 1, 2 галлонов жидкости с процентным соотношением г:(1—г) виски и воды. 2. В сосуде имеется /—О, 1, 2, 3, 4, 5 галлонов жидкости с процентным соотношением $ : (1—$) виски и воды. Обозначим через /(/, у; г, s) минимальное число операций, необходимое для достижения системой с начальным состоянием (7, у; г, у) заданного состояния, например для получения в J2 смеси с одинаковым процентным содержанием воды и виски. Показать, что f(l, J; г, s) = 1 + min Akf. Будет ли функция /(Z, у; г, s) конечной для всех рациональных значений г при j = 0 и для всех рациональных значений s при 1^=0? В противном случае указать, какие смеси воды и виски можно получить в J2 после конечного числа операций. 39. Рассмотрим следующую задачу. Пусть на каждом шаге некоторой последовательности действий мы вправе выбрать один из двух вариантов возможных образов действий. При выборе первого варианта мы с вероятностью получаем единицу прибыли, с вероятностью р2— две единицы прибыли и с вероятностью р3 процесс заканчивается. При втором варианте эти вероятности соответственно равны p'v р'2, р2. Указать последовательность выборов, максимизирующую вероятность получения по крайней мере п единиц прибыли до завершения процесса. Обозначим максимальную вероятность через и(п). Тогда и (п) — шах P1P (п — 1) + р2и (п — 2), fa(л — \) + р2и (л —2) 1, л(л)=1, л^о.
40. Доказать, что если (1) и(п) — max и (/) > 0, ’ R j-i Z = 0, 1, 2, R— 1, и, кроме того, а) 0, JR 0) еуЩеетаует - уравнение вида '• _ наибольший положительный корень которого превосходит по величине соответствующие корни остальных уравнений этого же вида, в) для этого индекса k имеем #= 0, то решение уравнения (1) для достаточно большого п представится в виде R и(п)=^ак)и (n—j). Рассмотреть случай, когда по крайней мере два характеристических уравнения имеют одинаковый наибольший корень. 41. Рассмотреть уравнение - R u(ti) = max 2aiiM(n — J) + gi > R где а^О, ^ау=1, gi>0, 1 = 0, 1, 2...R — 1. R Пусть достигается при единственном значе- i J=1 нии l = s. Если asl > 0, то для п п0 решение представляется в виде R и(п) = ^ a8ju (n—j) + gs, j-i где n0 зависит от начальных условий и коэффициентов. 42. Остается ли это утверждение в силе, если asl = 0? Построить пример, когда оно перестает быть верным. 43. Дано конечное множество неотрицательных квадратных матриц. Обозначим через ту из матриц ВГВ2 ... Вм (каждое Bi — это некоторая матрица AJ), которая обладает наибольшим по абсолютной величине характеристическим числом. Пусть это характеристическое число равно гу. Доказать, что существует у — lim (rjy)1/N.
Обозначим через Му минимальную мажоранту произведений Pn~ = ВХВ2 ... Bn, т. е. такую матрицу Mn, что ее /у-й элемент не меньше соответствующего //-го элемента любой из матриц Pn-Пусть ntN — наибольшее по абсолютной величине характеристическое число матрицы Mn- Доказать, что существует lim (my)1/7V. TV>CQ 44. Доказать или опровергнуть равенство = 45. Рассмотрим следующую задачу. Пусть мы располагаем в некоторый начальный момент х долларами и сывороткой в количестве у, а также возможностью покупки добавочных количеств сыворотки в точно установленные моменты времени: tx < t2 < .... За г долларов в каждый из моментов tk можно купить сыворотку в количестве ckz, где ск — монотонно возрастающая функция k. Задана вероятность вспышки эпидемии в период между моментами tk и tk+x, причем в случае ее возникновения мы можем использовать только то количество сыворотки, которое уже имеется у нас на руках. Задача состоит в определении поведения закупки сыворотки, максимизирующего полную вероятность успешности борьбы с эпидемией. Вероятность успешного исхода этой борьбы при наличии сыворотки в количестве w считается известной. Условие ск > ск_х означает, что стоимость сыворотки уменьшается со временем вследствие совершенствования технологии производства. Пусть рк — вероятность возникновения эпидемии в период между моментами tk и tk+x при условии, что до момента tk ее не было, <p(w) — вероятность успешного исхода борьбы с эпидемией при наличии количества w сыворотки, fk(x, -У) — полная вероятность успешного исхода при использовании оптимального поведения закупки сыворотки, начиная с момента tk, когда в распоряжении имеется х долларов и количество у сыворотки. Показать, что fk(x, у) удовлетворяет функциональному уравнению Д(*. J) = max -H(l — pk)fk+l(x — z, y + ckz)]. 46. Показать, что если функция cp(w)— выпуклая на всем множестве значений w, то оптимальное поведение состоит в том, чтобы не производить закупку сыворотки в моменты tx, t2i ..., а израсходовать на нее все имеющиеся деньги в момент tk. Индекс k находится из условия максимальности функции
Структура процессов динамического программирования 127 если рк=р. Найти соответствующее выражение при общих предположениях относительно рк. 47. Пусть 1 n R Ftf(/) = min f f— Узд dx. Показать, что Fn (/) = min Fn_v (/ — аЛ). aN 48. Пусть /n(xp x2, xn) означает минимум N величин xp x2, ...» Ху. Показать, что имеет место функциональное уравнение m(m(xlt х2, •••» xN) = m(<xlt х2, •••» xn\ и аналогично для максимума N величин Л4(хр х2, х^). 49. Показать, что max[(1 -хх)ех' + (1 -х2)ex‘+a”-j-... +(1 -xN)ем+-+^] = eN, {хг} где = е, ея = eeN~l. 50. Положим N j -Л (я?-&)8-^ fN(b, k) = min J e isl dV (x). ai 1 Показать, что Г (kb2-t-alr) (kb + aN \ fN(b, k) = min p+1' N)fN_1{- fe + 1 fe. f^b, A) = min f [e-»(®-6)’-(®-«)’]dV(x). a I 51. Получить рекуррентные соотношения для задачи определения минимума и максимума следующих функций: a) Qjy = (#*i)2 4- (xi ах?)2 4“ • • • 4“ (xi 4~ х2 4~ • • • 4-X2V_i4-«Xjv)2 при условии х24-х24- ... 4-^= Ь б) Qjv = Xi 4~ (*i 4" ах?)2 4~ • • • 4” (*i 4" ах2 4” я2х3 4~ • • • ... 4-^W при условии х2 4- X2 4- ... 4- X2n — 1,
в) Qjy — xf + (xv 4“ ax2)2 4” (xi 4" ax2 4~ (a + *з)2 4~ • • • • •• 4~(*i4~ал:24”(a4~^)хз4~ •••4~(6Z4~(^—-tyb) xn)2 при условии X24“^|4’ ••• 4’x^=l- 52. Конфету надо поделить между двумя детьми. Показать, что оптимальная процедура состоит в том, чтобы разрешить одному ребенку поделить конфету, а другому выбрать тот кусок, который он хочет. Показать, что при этом доля первого ребенка определяется из уравнений г— max min(j, х—у) — — . 0<2/<а? 2 53. В чем будет состоять аналогичная процедура в задаче с N детьми? (Г. Штейнгауз) 54. Известно, что автомашина может взять с собой бензина в количестве, достаточном для прохождения расстояния в d миль. Чтобы она могла пройти расстояние в 2d миль по пустынной местности, ей необходимо создать на своем пути промежуточные заправочные пункты, завезя на них запасы бензина. Как следует их разместить, чтобы общие расходы бензина, необходимые для достижения пункта назначения, были минимальными, и чему равно общее расстояние, которое при этом придется пройти машине? [Fine N. J., The jeep problem, Anter. Math. Monthly, 54, № 1 (1947).] 55. Рассмотреть следующие более реальные случаи: а) используется более одной машины, б) перевозится дополнительный груз, в) используются несколько ранее созданных постоянных заправочных пунктов с запасом бензина, г) задано несколько пунктов доставки груза, д) задан срок прибытия, е) минимизируется общая стоимость, включая стоимость бензина, стоимость приобретения автомашин, а также стоимость создания запасов бензина, ж) произвольное расстояние х > 2d. Хельмеп\ 56. Доказать, что в общем случае задача определения при условиях max " N min ^Fk(xk, ук) {»*} L*-i xk x> N 2л < у. к-1 xk' Ук>Ь
не может быть сведена к рекуррентному соотношению вида ° fN (*. у)= max min ГГЛ (xN, yN) (x — xN, у — °°N yN Ы. В каждый момент времени п к системе предъявляется требование гп. Обозначим через хп действительный уровень производительности системы, тогда для всех значений п должно выполняться неравенство хпгп. Пусть, далее, имеется ограничение на изменение уровня производительности системы в любой момент ХП + 1 Мы хотим выбрать Xi так, чтобы минимизировать форму J({x}) = ^i(xn — rn). п=1 Показать, что искомые значения х$ определяются следующим образом: xi — Tv х2 — xi = min [kcpr, kcp2 J = min [kxt, <p2], Хз — x2 — min [k2cpx, kcp2, cp3] = min [k(x2 — xx), <p3], xn xn-i — min[k <Pi, k cp2, cpw] — = min [k(xn_x —xw__2), <pw], где " ГЭ~Гк-л " ?ft=max —-------. * 2^-* i=fc {Шеперд) N 58. Определить максимум линейной формы 2аЛпРи ограниче- 1=1 N ниях S xi — Ь О -С *1 ^х2 -С - • • xn> где числа неотрицательны. 1=1 59. Рассмотрим задачу определения максимума произведения N N JI(xi —а) ПРИ ограничениях где Ь>а и = По- казать, что для получения функционального уравнения необходимо рассмотреть также задачу определения минимума произведения N JJ(Xi — а) и вывести для нее функциональные уравнения. 9 Р. Веллман
Показать, что в этом нет необходимости, если мы рассматриваем N произведение JI I— а I • 60. Предположим, что мы участвуем в викторине и имеем возможность получить в качестве приза значительную сумму денег, если ответим правильно на ряд вопросов. Обозначим через гк количество денег, получаемое при правильном ответе на &-Й (k = 1, 2.....N) вопрос, и через рк априорную вероятность того, что мы сможем правильно на него ответить. Пусть ср(х) —функция полезности, определяющая ценность выигрыша для нас суммы х. х Допустим, что после каждого вопроса мы можем принять одно из двух решений: пытаться ответить на следующий вопрос или прекратить участие в викторине с той суммой денег, которую мы уже получили. Определить оптимальные поведения, которым надо следовать, при следующих условиях: а) при первом неправильном ответе процесс заканчивается с общим нулевым выигрышем, б) допускается два неправильных ответа, в) ответив правильно на kQ вопросов, мы должны получить по ftp крайней мере сумму независимо от того, что произой- вдет позже, г) мы соревнуемся с другими участниками викторины; участнику, который получает наибольшую сумму, предоставляется право попытаться, правильно ответив на вопрос, получить „главный N приз", который значительно превышает д) на каждом шаге процесса опроса мы можем сделать выбор между трудным и легким вопросом с условием, что при ошибке в ответе на легкий вопрос процесс заканчивается с нулевым выигрышем, а при неправильном ответе на трудный вопрос процесс заканчивается с общим выигрышем, равным половине суммы, полученной к этому моменту. 61. Пусть и — случайные величины с заданными функциями распределения. Получить рекуррентное соотношение для последовательности функций ^1’ ^2» •••» ^т)}> определяемой следующим образом; Г N fN(t, q. сг....ст)= min Е et^biXt , L i-l J
где минимум берется по области а) х4>0, N б) i= I» 2, ..., m. Сделать то же для случая последовательности функций N 1 gN (f, q, с2...Cm)= min Е 2 biXi . Xt Li=l J В обоих случаях E означает математическое ожидание соответствующей случайной величины. 62. Рассмотрим форму Сельберга \Л|п / считая хх=1, а остальные хк — пока произвольными. Запись 2хл к |п означает, что сумма берется по всем целым числам k, являющимся делителями числа п, например 2 х* —х1 + х2 + хз + *в- Вводя к |6 надлежащие параметры состояния, получить рекуррентные соотношения для minQv(x). xi 63. Задача определения минимального и ристических чисел матрицы Якоби ах bt ... л2 ^2 • ^2 а3 Ь3 bN-2 aN — \ максимального характе- bN-l aN bN-l где точки означают, что все остальные элементы равны нулю, эквивалентна нахождению минимума и максимума квадратичной формы N АГ-1 Qn (X) = 2 aiX2i 4-2 2 biXiXi+i i-1 i-1 N на сфере 2 xi — 1-i—1 Рассмотреть две последовательности: fN (с) = max [Qtf (x) 4» 2cxjvb s (0 = mi*1 IQn U) + 2cxN]t
где через S обозначена N-мерная сфера. Показать, что можно получить рекуррентные соотношения, связывающие fN(c) с И gN(C) с 64. Получить аналогичные результаты для квадратичной формы А 2V-1 N-2 Qy (х) ~2! &iXi “Н 2 —|— 2 2^ ^i^i^i+2' i=l i=l i=l 65. Обозначим через A = |[a<j|| положительно определенную симметричную матрицу. Показать, что задача решения системы линейных уравнений N 2 ^ijxj = Ci> Z = 1, 2........TV, эквивалентна задаче отыскания абсолютного минимума формы N N Qn(x)— 2 OijXiXj — i, J=1 i=l 66. Обозначим упомянутый в предыдущей задаче минимум через Лу(с1’ С2.....ся)- Получить рекуррентное соотношение, связываю- Щее fN и . Показать, что fN представляет собой квадратичную форму относительно переменных JV С2.....Cn) ~ b\j^CiCj. Выяснить, как рекуррентное соотношение, связывающее fN и fN _19 может быть использовано для получения рекуррентных соотношений, связывающих члены последовательностей {^>}. 67. Телевизионная компания намерена арендовать телевизионные линии связи для объединения части своих станций в единую сеть. Телевизионные линии связи существуют между любыми двумя станциями, и известна стоимость их аренды, которая, вообще говоря, различна для различных пар станций.. Показать, что для создания сети с минимальными затратами следует среди еще не включенных в сеть линий связи выбирать ту, арендная плата за которую минимальна и которая не замыкает кольца уже работающих линий. (Р. Калаба) п 68. Рассмотрим задачу минимизации функции 2?y(xj) на мно“ жестве всех я-мерных векторов х = (х{, х2, . .., хп) с целочисленными неотрицательными компонентами, удовлетворяющими условию
п причем функции срр ср2» •••» <Рп выпуклые для х^^>0. Пусть /={1, 2,....п). Обозначим для любого допустимого множества {хр х2.....хп} ' через S+ (х) множество индексов для которых Ху > 0. Показать, что, для того чтобы минимум достигался на допустимом множестве х$, необходимо и достаточно выполнение условия min[cp;(xJ+1) —ср;(х;)]> max (*j) —(х^)]. Получить соответствующее условие, когда переменные хг ограничены только требованием неотрицательности и выполнения равенства п (О. Гросс) 69. Дана прямоугольная матрица А= ||я^-||. Требуется перейти от клетки (1,1) к клетке (/п, п), сдвигаясь на каждом шаге либо на одну клетку вправо, либо на одну клетку вниз, таким образом, чтобы минимизировать сумму встречающихся при этом элементов ау. Показать, как определить оптимальные траектории. (С. Дрейфус) 70. На тостере (приборе для поджаривания гренков) можно одновременно поджарить два ломтика хлеба, каждый с одной стороны. Какая процедура приготовления гренков минимизирует время, необходимое для поджаривания трех ломтиков хлеба, каждого с двух сторон? (Дж. Э. Литтлвуд) Решить общую задачу, когда надо обработать N й-сторонних предметов на Л4 машинах, причем каждая машина может обрабатывать одновременно R предметов с s сторон. 71. Рассмотрим систему связи, соединяющую три пункта:
Из каждого пункта можно посылать сигналы в остальные. Обозначим через максимальное число сигналов, которое может быть послано из пункта в пункт Tj в единицу времени, и рассмотрим два случая: первый —когда передача сигнала из в Tj не мешает передаче другого сигнала в обратном направлении, и второй — когда общее число сигналов в обоих направлениях не может превышать rij. Обозначим через хгу, /, у = 1, 2, 3, количество сигналов в пункте 7\, которые предназначаются для передачи в пункт 7j, и предположим, что для передачи сигнала из любого пункта Т\ в любой пункт 7j тратится единица времени. Обозначая через максимальное число сигналов, которое может быть передано за п единиц времени, получить рекуррентное соотношение для последовательности {/п(х^-)}. (Хункоса — Калаба) 72. Газеты доставляются для продажи в ряд киосков. Предполагая, что функция распределения количества продаваемых в каждом из киосков газет известна и что определенное количество непроданных газет может быть возвращено с соответствующей уценкой, определить, сколько должно быть отпечатано экземпляров газеты и как они должны быть распределены по киоскам. 73. Рассмотрим задачу о минимизации суммы - t f х2* • • •» xn) ~ В 1 (xi) “Ь S2 (ха) “Ь • • • 4~&N (x2v)’ где каждая функция gi выпуклая, а переменные должны удовлетворять условию а х2 ... xN Ь. Определим fN (я> £) = min (xr *2’ • • •» xn) для — 1» • • • и — оо < а < b < оо. Показать, что х)= min [gj+1(y) + /j(a, х)]. 74. Пусть ^(х) — непрерывная и выпуклая функция для x^d. Положим g(r, s) = min g(x), d^r^s. r <a?<8 Показать, что для d a b -С с справедливо равенство g(a, c) = g(a, b)+g(b, c) — g(b, b). Показать, кроме того, что g(a, х) как функция от х является непрерывной и выпуклой для х>>а, (КаруиГ)
75. При указанных выше предположениях доказать, что c) = fN(a, b)-±-fN(b, c)—fN(b, b), — оо <a</> <c < оо. (Kapyui) 76. Пусть gt(y) — ограниченные снизу выпуклые функции в интервале — оо < у < оо. Тогда fN(a,b) может быть представлена в виде fN («. b) = UN (а) 4- VN (b), а < Ь, где uN(x) и vN(x) — соответственно возрастающая и убывающая выпуклые функции на интервале — оо < х < оо. 77. Пусть (Kapyui) fN(a& av aw aN) = min max 7 Ci Q^L^N aL ^iXkCL-k ’ k=0 Показать, что Ar(ao’ av a2> * • aN)~ = min max [ | aQ — xQcQ |, fN_± — a2 — x2c0. 78. Получить аналогичное выражение для функции N / М \2 4(ао- аг а2....аи) = min 2 (а£— ] * ' £=0 \ к=0 / и вывести на его основе рекуррентные соотношения для коэффициентов в выражении N ai.....в^) = 2Лв8- Sf-0 79. Следователь, устанавливающий личность убийцы, имеет N свидетелей различной степени надежности, причем один из них является убийцей. Обозначим через pt вероятность того, что Z-й свидетель ответит правду в любой момент на любой обращенный к нему вопрос. Следователь допрашивает свидетелей в некотором порядке. При этом первому из допрашиваемых он задает некоторый вопрос, а каждому следующему задает либо прямой вопрос, либо вопрос относительно истинности показаний предыдущих свидетелей. Предполагая, что следователю разрешается при каждом допросе задавать один вопрос и что Z-му свидетелю для ответа на вопрос требуется время tit указать, в каком порядке свидетели должны допрашиваться и какие вопросы им следует задать, чтобы максимизировать вероятность обнаружения убийцы в течение заданного промежутка времени Г.
80. Рассмотрим задачу о минимизации функции Х^ .... XN) = ср1 (Х,) + <р2 (Х2) + • • • + <?N (х^) по всем значениям %; из области а) ^>0, б) 4“ Х2 Г2’ Х1 + Х2 + ’ * * + XN ГЯ- Введем в рассмотрение последовательность функций N fk О) = min 2 х i=k где минимум берется по области, в которой а) х{>0, б) xk^rk — z, хк 4“ Хк+1 гк+1 Хк 4“ ~ST'XN^>rN Z для значений z^O, &=1, 2, N. Показать, что fk(z) = min [%(xft)4-fk+1 (z + rfc)] для k= 1, 2....N— 1. Я)к>° xk>rk-z Получить отсюда, что minFJV(x1, x2, x2v)=/1(0). X 81. Показать, что рассмотренная выше задача при дополнительном условии xi+1 — xi^^i+1 может быть сведена к задаче определения последовательности {Д(А £)} из уравнений A(Z, с)= min{cpfe(xJ.)-4-/fe+i(2:4-xfe, xfc)]. R [Management Science, 3 (1956), 111 —113] 82. Рассмотреть также ограничение 83. Определить структуру оптимального поведения в случае, когда Ф/£(х) являются линейными функциями от х, ^.(х) = гкх, причем предполагается, что a) rfc+1>rfc, б) <й+1 < гк,
в) монотонно убывают, г) монотонно возрастают. возрастают до некоторого момента, а потом убывают до некоторого момента, а потом (Антосевич — Гофман) 84. Для данной выпуклой непрерывной функции /(х) известны два ее значения — положительное /(хх) > 0 и отрицательное /(х2)<0, *1 < *2- Требуется определить положение нуля функции в интервале [хр х2]. Задача состоит в том, чтобы минимизировать максимальную длину интервала, содержащего отыскиваемый нуль и получающегося после n-кратного последовательно осуществляемого вычисления значений функции f(x). Рассмотрим множество выпуклых функций /, определенных в интервале [0, 1], со значениями /(0) = 1, /(1) =— У- Обозначим через Rn(s, у) минимальную длину интервала, на котором можно гарантировать существование нуля для любой функции этого множества после п-кратного вычисления ее значений, если известно, что нуль расположен между $ и 1. Показать, что Ro(x’ y) = T^~s’ Rn(s, у) — min max s<a,<TT7 r> / x(y — V’) . max xRnA ——--------® , gfr-g) П \ Xy~V 1-8 max (!_*)/? 7 * « ,2. \ / П 1 1—^’ V (О. Гросс — С. Джонсон) 85. Человек стоит в очереди в ожидании обслуживания, причем перед ним стоят N человек. Ему известна полезность г от выстаивания очереди и вероятность р того, что за единицу времени будет обслужен один человек. С другой стороны, он терпит убыток величиной с, за каждую единицу времени, потраченную на ожидание. Задача состоит в определении такого поведения ожидания, которому соответствует максимальный средний доход. Обозначим через fN средний доход, получаемый при использовании оптимального поведения ожидания в случае, когда впереди стоят N человек. Показать, что /JV = max[— c+p/^j+d— p)fN, 0], W==l, 2, ... и/0 = г.
Вывести из этого, что /Jy=max[-T^j Г^р~’ °]’ и определить таким образом оптимальное поведение ожидания. (Хейгп) 86. Рассмотреть эту же задачу при условии, что ожидающий может стоять в очереди не более чем время Т. (Хейт) 87. Какое поведение ожидания выбрал бы человек, если бы он знал, что событие, состоящее в обслуживании одного человека в каждую единицу времени, — случайное, но не знал бы соответствующее ему значение вероятности (р)? (Хейт) 88. Лесопромышленная фирма обладает некоторым начальным заданным денежным капиталом, а также лесным массивом. Делаются-следующие допущения: 1. Имеется заданная начальная сумма наличных денег, а доход поступает как от продажи леса, так и в виде процентов на наличные деньги. Никакого кредита не допускается, и все текущие расходы должны быть покрыты наличными или за счет продажи леса. 2. Деревья можно выращивать только из семян, и нет возмож-. ности купить молодые деревья вне хозяйства фирмы. j 3. Годовой прирост древесины зависит от возраста дерева (скорость роста не обязательно монотонная функция). 4. Стоимость выращивания растущего дерева в течение года I 1 зависит от возраста дерева. 5. Реализационная цена дерева зависит только от количества содержащейся в нем древесины, т. е. от его возраста. 6. Цель процесса состоит в максимизации суммы наличных денег по прошествии заданного количества лет. Пусть фирма может осуществлять 4 вида деятельности: пускать деньги в оборот, сажать деревья, выращивать их и рубить лес, причем 1. Деньги можно пускать в оборот на год с доходом г процентов. 2. Деньги можно расходовать на посадку деревьев. 3. Деньги и деревья могут быть использованы для выращивания более старых деревьев. 4. Деревья данного возраста могут быть срублены на продажу. Как следует поступать в течение заданного периода времени, чтобы максимизировать полное достояние фирмы, т. е. денежный капитал и лес? (Morton, Dynamic programming, Proceedings of an International Conference on Input-Output Analysis, J. Wiley and Sons, 1956).
89. Рассмотрим многокомпонентную электрическую систему, надежность которой может рассматриваться как произведение надежностей отдельных компонент. Для повышения надежности каждого отдельного участка можно присоединить к системе параллельно ряд элементов. Обозначим через pk(хк) надежность &-го участка после# параллельного присоединения к нему хк элементов, а через gk(xk)— стоимость параллельного включения хк элементов. Задача состоит в максимизации общей надежности лг P.N (•*,) === П Рк (хк) /с-1 при ограничениях а) хк = 1, 2, 3, , N б) 2£л(*лХс-/с=1 Полагая fN(c)= тахРЛ,(х), показать, что = max [pN(x)fN_t (с — gN (х))], где максимум берется по области а) х= 1, 2...... б) (Наделъ) 90. Предположить, что имеются две „стоимости", одна выражается в денежной форме, а другая в единицах веса. 91. Изучить связь между следующими задачами: N N а) максимизировать ||рк (хк) при условиях 2 gk(xk)^ci> /с-1 /с-1 ЛГ 2МХ»)<>2 и хк=1, 2............. А—1 N N N б) максимизировать П Рк (Хк) — Х1 2 ёк (Хк) — *2 2 hk (Хк) при А—1 А—1 А—1 условии хк = 1, 2....
N N в) максимизировать JJ pk(xk)— \ 2 £к(хк) ПРИ условиях к=1 к=1 N 2^(xfe)<c2 и xft= 1, 2..... fc=l N N г) минимизировать 2 Sk(xk)^ 2 hk(xk) ПРИ условиях к=1 к=1 N ЦрМ>г, хк= 1,2........... Л=1 92. Получить соответствующие функциональные уравнения и рассмотреть вопрос о наиболее удобном способе нахождения численного решения. 93. Потребность в машинах данного типа задается в виде некоторой функции времени. Требуется определить порядок их приобретения, при котором эта потребность удовлетворяется с минимальными расходами, в следующих условиях: 1. Покупка одной новой машины обходится в р долларов. 2. Эксплуатация машины в течение рассматриваемого периода стоит т долларов. 3. Стоимость содержания и ремонта машин в течение рассматриваемого периода является известной функцией имеющегося в распоряжении числа машин и требуемого числа машин. Показать, что соответствующее функциональное уравнение имеет вид 4 (•*:) = min [рг1Ц-/п(г14-х)4-/,1(г14-х)+/дг_1(х4-г1)], 214“ Ж У1 где zx может принимать только целые неотрицательные значения 0, 1, 2, .. . . Получить решение этого уравнения в случае, когда график каждой из функций Lk(x) имеет следующий вид: и, в частности, рассмотреть случай, когда эти графики представляют собой параболы, т. е. функции Lk(x) квадратичны относительно X.
94. Рассмотреть ту же задачу при условии, что приобретаются машины двух различных типов с общим вспомогательным оборудованием, причем потребности в этих машинах независимы. БИБЛИОГРАФИЯ И КОММЕНТАРИИ К ГЛАВЕ III § 1. Основные идеи этой главы вместе с „принципом оптимальности" были впервые изложены в монографии „Введение в теорию динамического программирования" (An introduction to the theory of dynamic programming, RAND Corporation, 1953), написанной на основе другой более короткой работы, выполненной в 1952 г., но не опубликованной тогда. Последняя, в свою очередь, появилась в результате исследований, проделанных в 1949, 1950 и 1951 гг., и содержалась в ряде неопубликованных статей. § 3. Как мы показали недавно в связи с одной совместной работой [Bellman R., К al aba R., On the principle of invariant imbedding and propagation through inhomogeneous media, Proc. Nat. Acad. Scl. USA (1956)], „принцип оптимальности" является частным применением того, что мы назвали „принципом инвариантного погружения". Частный случай принципа инвариантности был применен В. А. Амбарцумяном в статье „К вопросу о диффузном отражении света мутной средой", ДАН СССР, 38 (1943), 257, и широко развит Чандрасекаром (Чанд-ра-с е к а р С., Перенос лучистой энергии, ИЛ, М., 1953). Более раннее использование этого метода восходит к Стоксу (Stokes G., Mathematical and physical papers, v. IV, On the intensity of the light reflected from or transmitted through a pile of plates, p. 145—156). Применяемый повсюду метод функциональных уравнений тесно связан с методом „точки регенерации", используемым при изучении ветвящихся процессов [В е 11 m a n R., Harris Т. Е., On age-dependent binary branching processes, Ann. Math., 55 (1952), 280—295]. Мы не пытались здесь систематически проследить происхождение и применение принципов инвариантности, и приведенные выше ссылки составляют небольшую часть того, что можно было бы привести. Однако нельзя не упомянуть одной работы Адамара [Hadamard J., Le principe de Huygens, Bull. Soc. Math. France, 52 (1924), 610—640], где имеется интересное изложение, касающееся причинности, функциональных уравнений и принципа Г юйгенса. Классическое изложение теории полугрупп имеется в книге Хилла „Функциональный анализ и полугруппы", ИЛ, М., 1951. § 6. Вопрос о представлении задач вариационного исчисления как непрерывных процессов решения будет детально рассмотрен в гл. IX. § 9. Детальное рассмотрение вопроса причинности и оптимальности и связь его с теорией полугрупп можно найти у Веллмана [Bellman R., Dynamic programming and a new formalism in the theory of integral equations, Proc. Nat. Acad. Scl. USA, 41 (1955), 31—34]. Задача 92. См. Bellman R., Dynamic programming and Lagrange multipliers, Proc. Nat. Acad. Scl. USA, 42 (1956), 767—769.
ТЕОРЕМЫ СУЩЕСТВОВАНИЯ И ЕДИНСТВЕННОСТИ § I. ВВЕДЕНИЕ В предыдущих главах мы описали в общих чертах схематическое строение процессов динамического программирования и вывели некоторые общие классы функциональных уравнений. В настоящей главе мы обобщим частные методы, использованные в гл. I и II при рассмотрении встречающихся в этих главах уравнений, и докажем некоторые теоремы существования и единственности для более общих уравнений гл. III. Нашим основным аппаратом будет восходящий к Пикару метод последовательных приближений. Хотя все доказательства по существу проводятся по единой схеме, но вместе с тем каждое из них в соответствующий момент требует своего индивидуального обходного маневра. Можно было бы попытаться объединить все сделанные нами предположения в столь общих’ терминах, чтобы все наши результаты было возможно сформулировать в единой теореме. Результатом явилась бы меньшая ясность и затруднение понимания лежащих в ее основе простых построений. Вместо этого мы разбили наши результаты на ряд теорем, относящихся к частным классам уравнений. Однако общий метод доказательства повсюду остается одним и тем же. Наш первый шаг состоит в формализации схемы, уже использованной ранее для сравнения решений двух уравнений (ср. § 9 гл. I и § 6 гл. II). Получающееся неравенство существенно используется в наших доказательствах в этой главе; оно будет применено снова при рассмотрении многошаговых игр в одной из последующих глав, а также в теоремах сравнения в вариационном исчислении (гл. IX). Первый класс уравнений, который мы рассматриваем, состоит из уравнений, в которых каждая операция имеет результатом сокращение ресурсов; иначе говоря, встречающиеся в них точечные преобразования являются преобразованиями сжатия в смысле Кач-чиополиг). Уравнения этого типа мы довольно прозаически назовем уравнениями первого типа. Следующий класс уравнений, который мы рассматриваем, состоит из уравнений, в которых вероятность выживания равномерно убывает х) Речь идет об известной теореме Каччиополи — Тихонова (см., например, Петровский И. Г., Лекции по теории обыкновенных дифференциальных уравнений, М., 1952). — Прим. ред.
с каждой операцией. Это равносильно тому» что соответствующее функциональное преобразование является преобразованием сжатия. Такие уравнения мы будем называть уравнениями второго типа. Уравнения обоих типов имеют в частных случаях вид (1) /(p) = sup[g(p, q) + h{p, q)f(T(p, q))\ Q (все величины, входящие в уравнение, были определены в предыдущей главе). Как мы увидим, эти уравнения довольно легко поддаются обычным итеративным методам с использованием нашего основного неравенства. Уравнения, не принадлежащие ни одному из указанных классов, обычно требуют для своего изучения более тонких методов, в чем мы убедимся при рассмотрении одного такого уравнения в § 8. Уравнения, не принадлежащие к первому или второму типу, мы беззаботно сваливаем в одну кучу, именуя их уравнениями третьего типа. Вслед за результатами, касающимися существования и единственности, мы обсудим в общей постановке вопрос о монотонной сходимости и сформулируем некоторые общие теоремы устойчивости, доказываемые точно таким же образом, как и прежде. Указав некоторые направления обобщений, которые можно провести довольно далеко, мы, как уже было сказано, изучим одно частное уравнение третьего типа. Здесь мы имеем комбинацию двух типов преобразований сжатия, и рассмотрение несколько усложняется. Мы завершим главу рассмотрением одного интересного интегрального уравнения, возникающего в теории „оптимального управления запасами". Эта тема будет более детально изучена в следующей главе, где будут получены также конкретные решения. Рассматриваемые нами уравнения, даже если отвлечься от того интереса, который они представляют в связи с многошаговыми процессами решения, обладают тем аналитическим преимуществом, что они в некоторых отношениях являются естественными обобщениями линейных уравнений. Их изучение заслуживает особого внимания, поскольку они служат мостом между содержащимся в образцовом порядке заповедником линейных уравнений и до сих пор непокоренными джунглями нелинейных уравнений. § 2. ОСНОВНОЕ НЕРАВЕНСТВО Рассмотрим два функциональных преобразования: (1) SJ/, р, q) = g(p, q)+ f f(r)dG(p, q, r), r^D Sz(f’P< q) = h(P> g)4- Jf(r)dG{p, q, r),
где dG{p, q, г)^0; определим два других преобразования следующим образом: (2) а) /2 (р) = sup St (/р р, q), Q б) Fz (р) = sup S2 (Fp р. д'). Q . Нет нужды входить здесь в обсуждение того, что мы понимаем при этом под интегралом Стильтьеса, поскольку мы используем его чисто формальным образом. Фактически все наши результаты будут использованы для случая, когда f f(r)dO(p, q, r) = h(p, q)f(T(p, q)), r^D и читатель, не знакомый с интегралом Стильтьеса, должен попросту совершить это преобразование для того, чтобы свести все уравнения к привычному виду, или же он может считать, что dG{p, q, f) имеет вид Н(р, q, г) dr, где /У^О. Неравенство, которое мы хотим доказать, составляет содержание следующей леммы. Лемма 1. (3) l/2(p) —F2(p)l<supr\g(p, q) — h(p, ?)Ц- Q L + J |/i (H — Fi (r) I dO (p, q, r)]. Доказательство. Сначала упростим обозначения, предположив, что оба преобразования (2) обладают тем свойством, что супремум в действительности является максимумом. Пусть q = q(p)—то значение q, при котором достигается максимум в (2а), и q = q(p)— значение q, при котором достигается максимум в (26). Тогда, как и в § 9 гл. I и в § 6 гл. II, мы имеем следующий набор равенств и неравенств: (4) а) /2(р) = Sx (fu р, ?)>S1(/1. р, q), б) F2(p) = *S2(F!, р, 9)>S2(Fx, р, q), из которых непосредственно вытекает (5) /2(/0—F2(p)> {g(p. ?)—й(Р. ?)} + + /{/1(г)-^(г)}^О(р,7. /)
А (Р) — ^2 (Р)< {ё (Р- О) — h (Р- ?)} + + f {fdr)-F1(r)}dG(p,q,r). В свою очередь эти неравенства приводят к единому неравенству (6) |/2(Р) — ^2<P)I< max ' \g(P> Q>— h(p, 9)|+ f \fi(r) — F1(r)\dG(p, q, r), r£D \g(p> q) — h(p, 9)14- /\fi(F) — Fi(r)\dG(p, q, r) L r^D из которого непосредственно вытекает неравенство (3) *). Для получения результата в его первоначальной формулировке, т. е. в терминах супремума, нам остается только заметить, что, выбрав соответствующим образом q = q(p), мы можем сколь угодно точно приблизить значение нашей функции к ее супремуму. Дальнейшее осуществляется путем предельного перехода. § 3. УРАВНЕНИЯ ПЕРВОГО ТИПА Наложим теперь следующие условия на функции, входящие в уравнение (1.1): (1) а) функция g(p, q) равномерно ограничена для всех q£S и всех p£Dt удовлетворяющих ограничению || р || <clt (N \ 1/2 2 Р*) • D есть область р, содержащая нуле-г = 1 / вой вектор р = Ь, и Т(р, q)£D для всех p^D\ б) g(0, 9) = О для всех q£S; в) | h (р, q) | + 1 для всех p£D и q£S; г) ||F(p, <?) IXй И/’ll для некоторого а<1, для всех q£S и всех p£D; СО д) если v(c)= sup sup|g(p, q)\, то 2 llPiKc q n^Q Уравнения, которые удовлетворяют этим условиям, называются уравнениями первого типа. Во многих случаях может оказаться более удобным и естественным использовать иную норму: ||р|| = 1) Мы опираемся на тот простой факт, что из а^х-^b следует | х | < шах (| а |, | b |). 10 Р» Цедлман
N = 2 IaI- Впрочем, из последующих рассуждений будет ясно, что i—i конкретный способ задания нормы не играет большой роли. Наш основной результат, относящийся к этим уравнениям, состоит в следующем. Теорема 1. Рассмотрим уравнение (2) /(р) = sup {g(р, q)-\-h(р, q)f(T(p, q))], p + 0, 7(6) = 0, предполагая, что оно первого типа. Существует в точности одно решение уравнения (2), непрерывное при р = 6, обращающееся в этой точке в нуль и определенное во всей области D. Это решение может быть получено как предел последовательности {fn(p)}> определенной следующим образом'. (3) a) fo(р) = sup g(p, q), ч б) 7n+i(P) = sup[g(p, q)fn(T{p. ?))], п-0, 1,2.... Ч Обратно, любая исходная функция f^p), непрерывная при р=в, равная в этой точке нулю и ограниченная для при любом > 0 и p£D, может быть использована в (36) для получения сходящейся последовательности. Если g(p,q\ h(p, q) и T(p,q) непрерывны по р в любой ограниченной части области D равностепенно для всех q^S, то f(p) непрерывна в любой ограниченной части области D. Доказательство. Рассмотрим последовательность, определяемую соотношениями (3). Используя лемму 1, доказанную в § 2, имеем для п^ 1 (4) |Д+1(Р)- /»(Р)1 <sup| h(p, q)\\fn(T(p. q))-fn.1(T(p, 9))|< 9 <sup|/„(r(p, q)) — fn_x(T{p, ?))| 4 и (5) |/i(p) — /o(p)l<sup|/o(7’(p, 9))| = sup\g(p, 9)|. 4 4 Определим теперь новую последовательность (6) ®n(O = sup|/n+1(p)—fn(p)\, ||p||<c, p£D. p Используя функцию, определенную в пункте (1д), мы видим, что vQ(c) = v(c). Обращаясь к соотношению (4), имеем для p£D п
IIpIK* (7) sup|/„+1(p)—f„(p)Ksupsup|/„(7’(p, ?))—Д-ДПР. ?))|< q p q < sup |/„(p)—/и-1(р)| II Pll<ac в силу нашего предположения относительно Т(р, q). Следовательно, ^+i(c)4^n(ac), n = 0, 1, 2, ..., или т/п(сХ^0(опс). Поэтому со ряд 2 l/n+i(P)—/п(Р)1 сходится равномерно при ||р||<;с И, зна-п=о чит, последовательность {fn(p)} при ||р|К> равномерно сходится к некоторой предельной функции f(p). Это завершает доказательство существования и доказательство утверждений, связанных со сходимостью и непрерывностью. Для установления единственности рассмотрим два решения уравнения (1.1) f(p) и F (р), оба непрерывные при р = 6 и, следовательно, определенные для всех p^D. Положим (8) -Z7 (с) = sup |/(р) — Р(р)|, ||р||<с, p£D. р Применяя лемму 1, имеем (9) |/(P) — ^(p)|<sup|/(T(p, q)) — F(T(p, ?))|, q откуда (10) v(c) <Cv(ac) < ... < v(anc). Так как функции f(p) и F (р) при р = 6 непрерывны, то v (апс) —► 0 при /г —> сю. Следовательно, г/(с) = 0 и f(p) = F{p). Роль леммы 1 состоит в том, что она дает нам возможность уклониться от рассмотрения поведения, максимизирующего q, как функции от р. (Это тема большой сложности, о которой вообще мало что известно.) § 4. УРАВНЕНИЯ ВТОРОГО ТИПА Рассмотрим теперь уравнение (1.1), сделав следующие предположения: (1) а) |g(p, #)| равномерно ограничена для всех q£Sn ||p|X^i» б) | Л(р, #)Х л < 1 для всех q£S равномерно в любой области ИрХ^, p£D; в) Н^Ср. ?)11<||р|| &ля всех Р или же D — ограниченная область, а на Т не накладывается никаких условий, кроме того, что Т(р, q)£D для всех p£D.
Уравнения, удовлетворяющие этим условиям, мы будем называть уравнениями второго типа. Нами будет доказана Теорема 2. Если (2) /(р) = sup [g (р, q) 4- h (р, q)f(T (р, q))] q —уравнение второго типа, то оно имеет единственное решение, ограниченное в любой конечной части области D. Как и выше, это решение может быть найдено методом последовательных приближений. Предыдущие утверждения относительно непрерывности решения остаются справедливыми. Доказательство. Положим (3) /o(/’)=;supg(p, 9), q /n+i(P) = supIg'(p, q)-\-h(p, q)fn(T(P> 0)]. n = 0, 1,2. q Используя лемму 1, имеем (4) IA+iC/O—/»(p)|<sup|ft(p, q)lfn(T(p, q))—fn^(T(p, q))] | < q <asup\fn(T(p, q))—fn^(T(p, ?))|, q где a < 1, Начиная с этого места, доказательство очевидным образом повторяет доказательство теоремы 1. Обращение решения в нуль при р — 6 теперь является следствием самого уравнения. § 5. МОНОТОННАЯ СХОДИМОСТЬ В предыдущих параграфах мы доказали сходимость процесса последовательных приближений в предположениях, которые давали по существу геометрическую сходимость. Покажем теперь, что в предположении h(p, <7)^>0 (справедливом во всех известных сейчас приложениях) мы имеем в нашем распоряжении такой метод выбора начального приближения, который вдобавок даст нам монотонную сходимость. В некоторых уравнениях третьего типа, в которых сходимость геометрического типа либо устанавливается с трудом, либо вообще не имеет места, этот метод весьма ценен. Рассмотрим наше уравнение в виде (О /(p)=max[g(p, <7)4-й(л q)f(i\p> </))]• q Пусть <7о = %(Р) — начальное приближение к q(p), и пусть функция fQ{p) определена при помощи этого поведения, т. е. (2) Л (р)=g (р. %)+h (р > %) /о О (р . %));
пусть, далее, последовательность {fn(p)}> п=1, 2, ..., построена рекуррентно: (3) /n+i(P) = sup[g(p, q)-\-h(p, q)fn(J\p, 9))], n = 0, 1,2. (Теперь, после того как введено понятие приближения в пространстве поведений, удобно снова использовать супремум, чтобы обойти весьма нелегкие вопросы относительно непрерывности по q.) Предположим, как и в случае уравнений первого и второго типов, что наложены достаточные условия для того, чтобы последовательность {fn(p)} была равномерно ограничена в любой конечной части области D. Непосредственно убеждаемся в том, что Л (р) /о (Р)» поэтому в силу неотрицательности h(p, q) имеем fn+l (р) ^>fn(p) для всех п. Следовательно, {/п(р)} сходится к некоторой функции /(р) при >со в любой конечной области D. Если q является элементом некоторого конечного множества S, то вопрос о сходимости последовательности {fn(p)} к фактическому решению уравнения (1) не возникает, а супремум в этом случае будет максимумом. Если S содержит континуум, то, возможно, нам и не удастся доказать непосредственно, что f(p) является ограниченным решением уравнения (4) /(p) = sup [g(p, q)-\-h(p, q)f(T(p, ?))]. <7 Для того чтобы это установить, заметим, что в силу монотонной сходимости мы имеем (5) /n+i(p)<sup[g(p, q)-}-h(p, q)f(T(p, ?))], q откуда (6) /(p)<sup[g(p, q)-\-h(p, q)f(T(p, ?))]. Q С другой стороны, имеем (7) f(p)>sup[g(p, q)-\-h(p, q)fn(T(p, ?))]> Я. >g{p< q)+^p< q)fn(T(p, ?)) для всех q£S и всех n. Устремляя n к бесконечности, мы получаем неравенство, противоположное неравенству (6), а следовательно, и равенство. Это свойство монотонной сходимости или, в худшем случае, монотонного приближения особенно полезно в других разделах теории динамического программирования и, в частности, как мы увидим в одной из последующих глав, в его приложениях к вариационному исчислению.
§ 6. ТЕОРЕМЫ УСТОЙЧИВОСТИ В теории функциональных уравнений проблемой, представляющей большой теоретический интерес и имеющей важные физические приложения, является вопрос о зависимости решения от вида уравнения. В частности, немало усилий было посвящено определению уравнений, обладающих тем свойством, что небольшие изменения вида уравнения вызывают соответственно малые изменения вида решения. Уравнения, не обладающие этим свойством, как правило, не представляют большого физического интереса. Рассмотрим два уравнения (1) а) /(Р) = sup [£(/?, q)-\-h{p, q)f(T(j), 9))J. Q 6) sup [G(p, q)-\-h(p, q)F(T(p, q))] Q. и предположим для начала, что оба эти уравнения первого типа. Мы желаем получить неравенство, оценивающее sup \f(p)— ^(р)|» р p£D, ||р|| где f и F — единственные, обращающиеся в нуль при р — 6 и непрерывные в этой точке решения соответствующих уравнений. Для вывода этого неравенства применим к обоим уравнениям метод последовательных приближений, полагая (2) /i(/’) = supg'(p, 9). /n+i(p) = sup[g(p, 9) + Л(р, q)fn(T(p, 9))]. F1(p) = supG(p, q), q Fn+i(p)=sup[°(p. 9)Ч-Л(р. q)Fn(.T(P’ ?))]• q Мы имеем (3) l^i(p) — /i(p)l<sup|G(p, q) — g(p, ?)| q и (4) l^n+iCp)— /n+i(p)Ksup[|G(p, q) — g(p, 9)| + q + h(p, q)\Fn(T(p, q))-fn(T(p. 9))|], Положим (5) w(c)= sup sup|G(p, 9) —g(p, g)|. Ilp||<c q Тогда имеет место
Теорема 3. Для уравнений первого шипа при введенных выше обозначениях справедливо неравенство (6) sup IF (р)—f (р) К 2 « Ы<с n=o Доказательство. Положим (7) sup sup|F„(p)—/„(р)|. IIPlKc q Используя неравенство (4) и предположения относительно уравнений первого типа, можно показать по индукции, что п—1 «’п W42 “ (<2fcc), Л>• 1. fc=O Устремляя п к бесконечности, получаем (6), поскольку Fn (р)—> F (р) Аналогично справедлива Теорема 4. Для уравнений второго типа при введенных выше обозначениях имеет место неравенство (8) sup |(F(p)-/(p)|<^. Доказательство следует по тому же пути, что и выше, и поэтому опускается. Аналогичные оценки можно получить в случае, когда варьируются Л(р, 9) и Т(р, q). § 7. НЕКОТОРЫЕ НАПРАВЛЕНИЯ ОБОБЩЕНИЙ Первым обобщением уравнения (1.1) является уравнение (1) /(p)=sup <7 N 9)+ 2л>(Р, q)fa\(.p, О) i—1 которое в свою очередь представляет собой частный случай уравнения (2) №) = sup Fg-(p, g)+ Jf(r)dG(p, q, r)l q L r£D J ’ Используя* уже известные методы, можно получить аналоги предыдущих теорем, относящиеся к существованию, единственности и
устойчивости для всех этих уравнений, а также для систем вида (3) fi(p) = sup q N gi (p . q)+2 / fj (r> dGa (p- r) j=lr^D /=1, 2, ...» N. Если исподьзовать векторно-матричные обозначения, то система (3) будет эквивалентна уравнению (2). Примером уравнения вида (2) является уравнение „оптимального управления запасами" - г у (4) /(*)= inf у)+а (1 -G(j))/(0) + Г f(y-s) dG(s) [ £ которое мы подробно изучим в следующей главе. § 8. ПРИМЕР УРАВНЕНИЯ ТРЕТЬЕГО ТИПА Метод приближения в пространстве поведений, который дает монотонную сходимость, рассмотренную выше, в § 5, оказывается весьма полезным при установлении существования решений уравнений третьего типа. Напомним, что мы определили этот класс весьма просто — как дополнительный класс к уравнениям первого и второго типа. Установление единственности решения уравнений третьего типа является, вообще говоря, задачей более высокого уровня трудности. В этом мы убедимся как в настоящем параграфе, так и в одной из последующих глав, где рассматриваются „игры на выживание". В качестве иллюстрации этих замечаний рассмотрим функциональное уравнение (1) f(p) = min п 1 2 Pkf(xk)> min[l+/(Tzp)] i Р + где I принимает значения 1, 2, ..., М. Здесь мы полагаем (2) р = (Ро. Pi...Рп)< Pi>^ ^Pi=^ i=0 Тгр — (.Pol, Рц, • •.. Pni)- Pu>®- Poi^l- ^Pii = (’
где Рн=Ри(рУ< /=1.2,..., М\ = (О, .. ., 1....О), где 1 стоит на &-м месте, k — О, 1, . . ., п. Здесь /(р)— скалярная функция р. Это уравнение является весьма широким обобщением уравнения, приведенного в упражнении 39 гл. I. Можно считать, что это уравнение возникает следующим образом. Известно, что некоторая система находится в одном из TV—J— 1 различных состояний, которые мы обозначаем через 0, 1,2, .. ., N, причем априорная вероятность того, что она находится в &-м состоянии, равна рк. Пусть мы желаем привести нашу систему к нулевому состоянию с полной уверенностью в том, что это сделано, посредством некоторой комбинации следующих операций (каждая из которых совершается за единицу времени) за минимальное среднее время: L: мы наблюдаем фактическое состояние системы и продолжаем наши действия, уже обладая этой информацией; А: * мы совершаем операцию Лг, которая переводит первоначальное распределение вероятностей {рк} в некоторое новое распределение {р^}. Пусть р = (р0, plt . . ., pN); обозначим через f(p) среднее время, необходимое для приведения системы к нулевому состоянию при использовании оптимального поведения, если система находится вначале в состоянии р. Тогда /(р) удовлетворяет приведенному выше уравнению (1). Докажем следующую теорему. Теорема 5. Если для любого преобразования Тги для всехр справедливо неравенство п (3) 2 Рк1 с1> 0 < С1 1, к=1 то существует единственное, ограниченное решение уравнения (1). Эта функция положительна при р Ф х0. Доказательство. Применим метод последовательных приближений, используя в качестве первого приближения некоторое приближение в пространстве поведений. Обозначим через L выбор п 1 Pkf (хкР а через 7\ выбор /=1 в уравнении (1). Рассмотрим функцию F^p), определяемую поведением, которое мы изобразим символически LT1LTl . . . , и функцию F2(p), определяемую
поведением 7\L7\L .... Ясно, что (4) п F2 (р) = 1 + 5 Рш Л (Л). Р + хй, л—о У71 (ХО) — F2 (х0) = 0. Следовательно, для 1= 1, 2, . .., п мы имеем (5) Ft (хг) = 2 -F (xft), I = 1, 2..........n. k-1 n Поскольку, по предположению, to определитель k=l этой системы отличен от нуля и система имеет единственное решение, обязательно положительное (в этом легко убедиться,* решая систему с помощью итераций). После определения Рг(хг) функция F2(p) и, следовательно, функция Р1(р) для любых р определяются непосредственно. Для того чтобы начать процесс последовательных приближений, положим (6) /о (р) = min [F\ (р), Р2 (р)], п /n+i(P)=min min [1 (T'zP)] . р=£хо, i J fn+ 1 (^о) Легко видеть, что f0(p)>/i(P)> fn GO > 1 • Р * хо- Последовательность fn(p) монотонно сходится к некоторой функ-> ции f(p)> которая, очевидно, удовлетворяет нашему функциональному уравнению. Тем самым существование ограниченного решения установлено. Доказательство единственности значительно более сложно и проводится в несколько шагов. Пусть /(р) и g(p) — два ограниченных решения уравнения (1). Нашим первым шагом явится Лемма 2. sup \f(p) — g(p) | = max |/(xfc) — g (xk) |. p к Доказательство. Неравенство (7) max \f(xk) — g (xk) |< sup | f(p) — g (p) | * P
очевидно. Для доказательства обратного неравенства рассмотрим четыре случая: (8) а) /(р)=1 + ^pkf(xk), к-1 g(p)=i+ 2рл£(*л); Л-1 б) /(р)= 1-4- Л=1 g(p)=i-\-g(TiP>, В) /<Р)= 1+/(ЛР). £(р)=1 + ^Pkg(xky. Л=1 г) /(р)=1+/(Лр). g(p)= i+g(TiP)- Рассмотрим сначала случай, соответствующий (а). Мы имеем (9) g(p)= 2pkl№) — Я(*ь)1. Л=0 откуда (10) |/(р) —g(p)|<max|/(xft) —£(ХЙ)|. Л Поэтому лемма справедлива для всех р, для которых имеет место (8а). Уравнение (8а) будет удовлетворяться, когда р близко п к х0, так как в этом случае 1+2 Pkf (хк) < 2, а 1 -\-f (Тгр)^2. Л-1 Таким образом, 1 + /(Тгр)и 1 +§‘(7’гР)пРи /=1,2,..., М превзойдут результат „хода L“ х) для р, близких к х0. Это — важный момент, так как трудность нашего доказательства заключается в том факте, что (8а) в силу условия (3) всегда будет иметь место после конечного числа шагов. Теперь рассмотрим случай (86). Имеем (11) /(р) = 1 + 2 Pkf(Sk) < 1 +/(Пр). Л-0 g (р) = 1+g (Tip) < i + 2 pkg (хк)- Л—0 *) То есть выбора преобразования . .. ••
Следовательно, (12) | / (р) — g (р) | < max { max | / (хЛ) — g (хк) |, к sup 1/(7^) — p(rzp)|}. р Аналогично рассматривается случай (8в). Из (8г) выводим а (13) \f(p) — g(p)\<rnax{\f(Tlp) — g(Tlp)\i \f(Trp) — g(Tvp)\}. Теперь будем применять к этим неравенствам процесс последовательных приближений. Для любого фиксированного р вектор Tiji^ . . . Ti^p при достаточно больших п будет лежать в области, описываемой равенствами (8а). Следовательно, мы получаем (14) sup|/(p) — g(p)|<max|/(xk) — g(xfc)|. р к Этим завершается доказательство леммы. Остается показать, что max|/(xfe) — g (хк) | = 0. Пусть k — то значение индекса, при котором достигается максимум. Из функциональных уравнений для f и g следует, что (15) №)-1+/(7л). l = g (xk) = 1 + S (.ТРхк), I' = Г (£). Как и выше, мы имеем (16) f(xk) = 1 +f(TlXk) < 1 +/(7>xft), g(xk) = 1 -\~g(TrXk)^ 1 ~\~g(.^lxk)’ Если оба неравенства являются строгими, то (17) \f(xk) — g(xk)\< < max ||/(7’Л) —g(TlXk)\, \f(Trxk)—g(Trxk)\\^. < sup |/(/>) —£(/>) |. P Получено противоречие. Таким образом, как для Z, так и для /' должно быть (18) /(**)= 1+/(W ИЛИ g (хк) = 1 + g (ТIхк) • Это означает, что первые выборы преобразований в позиции хк могут быть одинаковыми для обеих функций.
Теперь рассмотрим ситуацию для вторых ходов. Используя те же соображения, мы видим, что вторые ходы [т. е. уравнения для f(^ixk) и g(Tixk)] также могут быть одинаковыми, и т. д. по индукции. Пусть рп = рп(хк)—распределение, достигнутое после п ходов, где (п-р 1)-й ход переводит хк в область, определенную равенствами (8а). Приведенное выше рассуждение показывает, что f и g попадут в эту область на однохм и том же ходе. Таким образом, п (19) / (хк) = П + I + 2 Pknf(xk)> к—О п g (хк) — п + 1 + 2 Pkng (хк) к=0 и, следовательно, п (20) | f(xk)—g (xft) К 2 Ркп I / (*») — 8 (хк) I /1 = 1 < I 1 — Pon I sup I — g (xk) |. к Так как 1>рОп>0, то это дает |/(хй)— g (хк)| = 0. Следовательно, sup |/(р)— g (р) | = 0, чем завершается наше доказательство р единственности. § 9. УРАВНЕНИЕ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ЗАПАСАМИ В этом параграфе мы рассмотрим уравнение (1) /(х)= inf k(y— х)-\-а Г 00 У 4-/(0) J <p(s)d« + J f(y — s)<f>(s)ds У о' для которое уже фигурировало ранее в более общем виде, содержащем интеграл Стильтьеса. Как мы увидим в следующей главе, это уравнение встречается при изучении оптимального управления запасами, или регулирования уровня запасов. Доказательство существования и единственности решения естественно провести здесь, так как в нем мы используем те же методы, что и в предыдущих параграфах. В соответствии с нашим образом действий, которого мы все время придерживались, мы не будем рассматривать общего уравнения, содержащего интеграл Стильтьеса,
Для упрощения последующих обозначений положим (2) Т(у, x,f)=*k(y—х)Н-о f p(s—y)<f(s)ds + - У +/(0) /?(*)<& + f/Су—s)<p(s)ds . у о Тогда уравнение (1) примет вид (3) f(x)= inf Т(у, X, f). У>х Сделаем следующие предположения: (4) а) <р ($) О, J* <p(s)ds= 1; о б) функция p(s) монотонно возрастает, непрерывна и J p(s)<?(s)ds О < оо; в) функция k (у) непрерывна при у 0; k (оо) = оо; г) 0 < а < 1. В этих условиях имеет место следующий результат. Теорема 6. Существует единственное решение уравнения (1), ограниченное по х в любом конечном интервале. Это решение f(x) непрерывно. Пусть /0(х)— любая неотрицательная непрерывная функция, определенная для х^О. Определим последовательность {/п(х)} следующим образом*. (5) /п+1 (*) = min Т(у, х, /п). га = 0. 1, 2....... у>х Тогда f(x)— lim fn(x) существует для хЗ>0 и является реше-п->оо наем уравнения (6) /(*) = min Т(у, х, f). У>ОВ Доказательство. Доказательство идет хорошо знакомыми путями. Для любого рассмотрим Уп = Уп(х) — тб значение у, при котором Т (у, х, /Л) достигает минимума. Поскольку функ* ция /х(х) по предположению непрерывна, убеждаемся по индукции в том, что каждый член нашей последовательности также непре* рывен. Так как Т (оо, х, fn) ~ оо, то минимум достигается. •
Мы имеем /п + 1-ПЛр /пХТ’^п-Р /п)» /п — ПУп-^ fn^)<T(yn. X, fn-1)' Комбинируя обычным образом эти неравенства, получаем (8) |/„+i — fn к max {IТ(_у„, х, fn) — Т(уп, х, fn_t)|. 1ПА-1. х> fn) Т(уп-1> х< fn-1)1 } ИЛИ l' Уп (9) l/n+i—Л|<тах| a J |/„(_у„ — s)— fn-ЛУп — $)| ?(«)^+ +fl|/„(0)-/„-i(0)| f <f(s)ds, 1 v vn "n-1 f 1/„(Уп-1 —s)—/„-ity„ —s)l<p(s)ds+-0 + fl|/„(0)—/„-1(0)1 r<p(s)ds . J Следовательно, oo (10) max I/n+1 (*)—/„(x)|<a max |/„(x)—/n_1(x)| f<p(s)ds< 0<a?<OO 0<£D<OO J <fl max |/„(x)— /„_t(x)|. 0<a?<co co Таким образом, ряд 2l/n+i(x)—/„(x)] сходится равномерно n=0 в любом конечном интервале для всех х^>0, и fn(x) сходится к /(х) для всех х^О. Так как все fn(x) непрерывны, /(х) также непрерывна. Для доказательства единственности рассмотрим другое решение F(x), равномерно ограниченное при х^>0. Используя те же методы, что и выше, применительно к двум уравнениям (И) /7(х)= min T(yt х, F), У>0! f(x)= min T(yt x, /),
мы легко убеждаемся в том, что разность F(х)—/(х) тождественно равна нулю. Случай, когда в уравнении (1) min заменяется на inf, снова исчерпывается процессом приближения. Отметим, наконец, что, полагая " оо (12) /t(x)= min k(y— х)4~о fp(s— y)cp(s)ds V > у /2(х)= min [Г(j>, х, Л)1 У > х ит. д., мы получаем монотонно возрастающую сходящуюся последовательность, так как /2(х)^/1(х) и» следовательно, по индукции AhiWMW Для всех п- С другой стороны, мы можем получить монотонную сходимость также и приближением в пространстве поведений. Можно положить у = х для всех х^-0 и получить в качестве первого приближения оо X (13) fl(x) = a J*p(s —x)<p(s)d« + a —s)<p(s)d« + 0 0 co Н-а/ЛО) J<p(s)ds для x > 0. ж Это уравнение представляет собой „уравнение восстановления"; его решение мы исследуем в добавлении к следующей главе. Определим /2(х) посредством уравнения (14) /2(х)= min k(y—.х)4-« J p(s — y)y(s) ds + У СО У 4-a/i(0) J*<p(s)d$4-a Jfi(y — s)<f(s)ds У 0 Отсюда следует, что f2 (х) j\ (х). Таким образом, полагая (15) /и+1 (х) = min Т(у, х, fn), У>Х мы получаем монотонно убывающую сходящуюся последовательность. УПРАЖНЕНИЯ И ПРОБЛЕМНЫЕ ЗАДАЧИ К ГЛАВЕ IV 1. Определить структуру оптимальных поведений, соответствующих функциональному уравнению /(р) = тах[Я(р, 9)+/(7'(Р. 9))Ь Q.
в предположении, что R(p, q) и Т (р, q)— выпуклые функции от р' и#и что R(p, q) и Т(р, q) — монотонно возрастающие функции отр при любом q. 2. Провести подробное доказательство теоремы существования и единственности для системы уравнений Л(р) = тах Q N gi (Р> q) -I- S / fj (г) dQi} (р, q, г) j-lr^D , Z=l, 2, .. N. 3. Показать, что мы получим уравнение, принадлежащее к этому классу, если в задачу 45 гл. I ввести дополнительное условие: на каждом шаге известна вероятность рг того, что реализационная цена будет описываться функцией и вероятность р% — 1—А того, что она будет описываться функцией s2(/). 4. Рассмотрим многомерный процесс, в котором ресурсы на каждом шаге измеряются неотрицательным вектором р. На каждом шаге вектор р разделяется на г неотрицательных векторов qj, т. е. г P—^qp В результате такого распределения мы получаем доход /-1 г R(q) = R(qj), издержки , при этом составляют 2(ср #>)• [Здесь (с, q) обозначает скалярное произведение двух векторов.] Обозначим через Fn(z) издержки, которые имели место при получении общего дохода z за N шагов при использовании оптимального поведения. Показать, что N Л(г)= min 2(^ qj), R «р-г y-1 e>o ’ N Fn+1 (*) = min 2 (cr qj) 4- FN (z — R (q)) . Q. > 0 LJ=1 5. При каких условиях предельное уравнение “ N F (г) = min 2 (<> qj) + F (z~ R (q)) q>0Lj-l R(0) = 0, имеет решение? 6. Как можно сформулировать математически следующую задачу? Мы заблудились в лесу, форма и размеры которого точно нам известны. Как выбраться из леса в кратчайшее время? И Р. Веллман
7. Рассмотреть случай, когда „лес* представляет собой область, заключенную между двумя параллельными прямыми. (О. Гросс) 8. Обобщить результат теоремы 5, рассматривая процессы, в которых на каждом шаге имеется либо счетное множество, либо континуум различных преобразований. 9. Рассмотреть еще более общий процесс, в котором имеется счетное множество или континуум состояний. 10. Вывести функциональные уравнения, отвечающие нелинейным критериям, и установить соответствующие теоремы существования и единственности. 11. В частности, рассмотреть для стохастических процессов критерий максимизации вероятности получения дохода, не меньшего, чем /?0. 12. Рассмотрим уравнение x2-\-aX — b, а, b > 0. Поскольку для х2 — шах \Чхи— и2\, и > 0 это уравнение можно записать в виде max [2хя -\-ах — и2\ = Ъ. W>0 Отсюда для положительного корня имеем С другой стороны, полагая х2 = у, мы можем написать у-\- ау^2 = Ь> 2_у1/2 — minU4~ u\, и > о l u -* получая Г, ли у = max —------- «>о 1+ " L 1 Ча J Таким образом, для 0 и 2Ь/а имеем . Ь + и* X ------Г-о~.
13. Распространить эти результаты на уравнение хп-\~ах = Ь. Показать, что для подходящим образом выбранных функций g(u) и h(u) хп = max [хи—n> 1, и О хп — min [хи-]- h(u)\t 0 < и < 1, и > о откуда для п_> 1 будет х = min ——------zp-------- , „>0L а + и J а для 0 < п < 1 А —— 111 а А I . 1 — --:- - 1 I « «>oL 1 + «« J 14. Показать, что если функция ср(х) строго выпукла и диф-ференцируема, то <р (х) = шах [<Р (а) — (« — х) ср' («)]; и если же она вогнута, то ср (х) — min [ср (и) — (и — х) ср' (и)]. и Дать два доказательства — аналитическое и геометрическое. 15. Рассмотреть многомерный аналог предыдущей задачи: <Р (*i. *г) = max [ср (Ир и2) — (at — xj — («2 — х2) -Д-] для выпуклых функций. Получить соответствующий результат для вогнутых функций. 16. Изучить возможность использования этих результатов для получения явных решений нелинейных систем вида <Р1 (*1. х2) = Хр <р2 (Хр х2) = х2, где функции <pt и <р2 обе вогнутые или же обе выпуклые. 17. В методе Ньютона строится последовательность приближений к решению уравнения /(х) = 0. Показать, что если /'(х)>0 и f"(x)>0 в интервале [а, д], то для корня в этом интервале имеем Г /(у) 1 х = min у--------/4- . Получить соответствующие выражения для многомерного случая.
18. Рассмотрим два уравнения: а) и (p) = L(v, р, д)-]-а(р, q), б) u(p) = max[L(«, р, q)-\-a(p, ?)], Ч где и(р) — скалярная функция вектора р, принадлежащего некоторой области /?, a q—векторная переменная, принадлежащая множеству S, которое может зависеть, а может и не зависеть от р. Предположим, что (.1) для любого фиксированного q = q(p) существует единственное решение уравнения (а), обозначаемое через v(p, q), где p£R; (2) для p£R существует единственное решение уравнения (б); (3) если w(p)>.A(w, р, + q) для некоторого фиксированного q — q(p), то w(p)^^(p, q). Доказать, что при этих предположениях и(р) = шахтер, q). Ч 19. При каких предположениях относительно матрицы Л(р, ^)=? = ||fiij(P> <7)11 решения систем ^(р)= max ч или max ч N adp, q^ + ^aidP, q)udp) 3^ N Лг (p, q) tli (p) 4- S «ij (p. q) Uj (p) 3-1 = cit Z=l, 2....N, Z=l, 2...N, можно определить таким же способом, как и выше? 20. Пусть (х) = Gr (х) = х и х2....................xw) = max[x1, Оп_1(х2, ..., хм)], х2* • • • > Хп) ~~~ ПИП [^1> Fп—1 (^2» • • •*» Доказать, что 11 Г~ lim | ... Fп (х 1, х2, • • •, dx± dx2 • • • dxn "= ~ , 00 о 0 11 lim f • • • f On(xlt x2, . xn)dx1dx2... dxn = 1 — — n->coQ о [Гросс—Ван, Amer, Math, Monthly, 63, Ws 8 (1956), 589.]
21. Пусть j/j — независимые случайные величины, принимающие значение 1 с вероятностью р и значение 0 с вероятностью 1 —р. Пусть Xi — некоторый набор положительных величин. Положим х4)=Р N i =1 N 7=1 fN(x) = infgN(x; х.). Показать, что /JV(x)= inf 0<а?дг<1 и, таким образом, получить некоторую нетривиальную равномерную оценку снизу для gN (х; х^. (Харрис) 22. При каких условиях существует единственное решение уравнения и (х) — min 2 Pj (x)и (* + aij)> 0 < x < С, i u(x) = 0, x^O, и (x) = 1, x Ct где для 0 < x < С a)pj(x)^>0, N б) 2pjW = i- 7=1 Рассмотреть случай, когда х принимает только дискретное множество значений {&Д1 и ац-т^Л, где пи*— целые числа, отлич-ные от нуля. 3 1 3 23. Вернемся к задаче 15 из упражнений в конце гл. III. Показать, что задача определения минимальных расходов эквивалентна n задаче нахождения минимума линейной формы ПРИ i=l условиях а) ^>0, б) хк+1 4“ ••• Xk+R ак* k = 1, 2, TV, ГАе *N^k = xw {Management Science, 1957)
24. Рассмотреть более общую задачу определения минимума линейной формы ЬЛГ(^) = 3'1 + Л+ ••• при условиях а)л>0, б) У±>г, yN^s, в) Л + У2 Ч- Уз ^2> •У.ЛГ-1Ч- yN-^^N-r Для фиксированного г положим fN (s) = min L {у) (/V^>2). Показать, что /2(s) = max(s-|-r, fcj), Лу(S) = г>” I2+/^-i “ *)Ь где s*= max(s, 0). Показать, что A (s) = max (s 4- uk, vk), k = 1, 2............ где uk и vk—функции от г. 25. Показать, чтб для k 3 ик = max (г-|-ай, рЛ), ok=max(r4-yft, 8k), где ал+1 ~ Tfc* Рл+i = &Л» Тл+1 = тах(ак4-^, ук), 5ft+1 = max(pft + £ft, 8ft). 26. Рассмотреть сходным образом задачу о минимизации линейной формы LJV(x)= 2 х» ПРИ условиях i—1 a) Xj>-0, б) xt^x, в) x1 + x2>j, г) Х1 Ч- Х2~1“ Х3 ^1’ х3 Ч- Х3 4“ Х4 ^2» Xjy-2 Ч- ХЛ'-1Ч- XN ^N-3' XN-1 4“ XN S> xa>r'
27. Рассмотреть задачу о минимизации линейной формы Ly(x) = N = 2 Сгхг ПРИ УСЛОВИЯХ a) б) &22Х2 4“ &23Х3 ^2» &N-1, N—1XN—1 4" ^V-l, NXN ^N-V ’ в) хх^>х, xN^r. При подходящих предположениях относительно коэффициентов получить соответствующее функциональное уравнение и аналоги приведенных выше результатов. 28. Предположим, что мы имеем карту, на которую нанесено 7V различных пунктов, перенумерованных в некотором порядке числами от 1 до N. Пусть (Z, /=1, ...» N)— время, необходимое для переезда из пункта I в пункт /, причем гя = 0. Мы хотим, затратив минимальное время, переместиться из пункта 1 в пункт Л/ проходя при этом каждый из остальных пунктов (и только их) в качестве промежуточных остановок. Пусть fi обозначает время, необходимое для того, чтобы попасть из пункта I в пункт N(i= 1, 2, N—1, /n = 0) при использовании оптимального поведения. Показать, что Л = т1п(^+/Д Z==l, 2, ...» N~ 1. 29. Показать, что это уравнение имеет решение {/$}, единственное с точностью до постоянного слагаемого. 30. Показать, что любого из этих решений достаточно для того, чтобы определить оптимальное поведение. 31. Рассмотрим следующую аппроксимацию в пространстве поведений: /г1)заь^,<+1 + ^+1, U2+ ••• X при Z= 1» 2, ..., N — 1. Определим последовательность {/^^следующим образом: = /=1, 2......N— 1; k=l, 2, ... . J
Показать, что векторы {ДЛ)} сходятся к решению указанного выше функционального уравнения и, следовательно, могут быть использованы для определения оптимальных поведений. (Bellman R., A routing problem, Quarterly of Applied Mathematics, 2, № 4 (1957), 523—525.) 2N 32, Рассмотреть задачу о максимизации суммы ljgi(Xi) при i=l 22V условиях Показать, что эта задача эквивалентна г=1 задаче максимизации выражения /дг (уг) + (Уъ) пРи условиях ^2>0, Л + где N fN (Л) = тах 2 gi (xi). R, i=l 2# hN (Уг) = max 2 gi (xi). i=2V+l а области /?х и R2 определены следующим образом: N 2 хг У1> i=l 2N R2-. Xi > 0, 2 Xi < у2. i=N+l Какими вычислительными преимуществами обладают этот прием и его естественное обобщение? Рассмотреть многомерный случай. 33. Игрок получает по каналу связи с шумом предварительную информацию об исходах последовательности независимых спортивных встреч. Будем предполагать, что исход каждой встречи является результатом игры между двумя одинаково искусными командами и что вероятность правильной передачи равна р, а вероятность неправильной передачи равна q — 1 —р. Предполагая, что игрок имеет начальный капитал х и держит пари об исходе каждого состязания, чтобы максимизировать свой ожидаемый капитал после N шагов игры, показать, что он ставит весь свой капитал на каждом шаге при условии р > 1/2 и не ставит ничего, если р < 1/2. 34. Предположим, что наш игрок играет так, чтобы максимизировать математическое ожидание логарифма своего капитала после N шагов. Предполагая, что на каждомJ шаге он применяет одну и
ту же тактику заключения пари, определить отношение каждой его ставки к общему капиталу. (Kelly J., A new interpretation of information rate, 1956, Symposium on Information Theory, Trans. I. R. E. (1956), 185—189.) 35. Предположим, что игрок играет так, чтобы максимизировать математическое ожидание логарифма своего капитала после N шагов. Пусть /дг(х) обозначает эту ожидаемую величину, получаемую при использовании оптимального поведения. Показать, что в предположении равенства шансов /w+l<A:)= max [PfN<x + y) + <lfN(x — J)]. 2..... где = max [plog(x4-j) + ^log(x—j)]. [По поводу этого и следующих результатов см. Bellman R., Ка-lab a R., On the role of dynamic programming in statistical communication theory, Transactions I. R. E. on Information Theory. 3. № 3 (1957), 197—203.] 36. Доказать по индукции, что /2v(x) = logx4-N^, где k= max [plog(l + r)4-#log(l— r)], и, следовательно, существует такое число г0, что оптимальное поведение на каждом шаге определяется соотношением y = rQx. 37. Рассмотреть нестационарный случай, где вероятность правильной передачи зависит от номера шага. Установить соответствующее функциональное уравнение и выяснить структуру оптимального поведения. 38. В случае, когда целью процесса является максимизация математического ожидания дохода или логарифма дохода после N шагов, проведенный выше анализ показывает, что оптимальное поведение не зависит от количества ресурсов, имеющихся на каждом шаге. Рассмотреть задачу нахождения класса функций критерия, обладающих следующим свойством. Пусть <р(х)—монотонно возрастающая вогнутая функция, определенная для 0^х<оо и нормализованная условием ср' (1)= 1. Рассмотрим одношаговый процесс, в котором мы желаем максимизировать Е ЦО=р<? (х 4- у)+(1 — р) т (х—У)
по всем >£[0, х], где 1/2. Показать, что если для всех х > 0 существует максимум вида У = г(р)х, то мы должны иметь 'pO')=fqrT-Hi. k> — 1, или, как предельный случай, <p(j') = logj + c1. 39. Рассмотрим случай, когда последовательные сигналы не являются независимыми. Пусть вероятность правильной передачи на k-м шаге зависит от правильности передачи сигнала на (k—1)-м шаге. Для х>0 и ^=1, 2, ...» N определим Д(х) как математическое ожидание логарифма конечного капитала, получаемого на остающихся k шагах исходного TV-шагового процесса при использовании оптимального поведения, если начальный капитал равен х и (k—1)-й сигнал был передан правильно, gk(x) как соответствующую функцию в случае, когда (k—1)-й Сигнал был передан неправильно. Тогда A(*) = max + _м)]. о -С у gk(x)=' max + qN_k+1}gk_Sx — -У)]. О < у < а? где рк— вероятность правильной передачи &-го сигнала, если (k— 1)-й сигнал был передан правильно, qk— вероятность правильной передачи k-ro сигнала, если (k— 1)-й сигнал был передан неправильно. Показать, что А (х) = log х 4“ «ь gfc(x) = logx4-^. Определить^ и Ьк и выяснить структуру оптимального поведения. 40. Рассмотрим случай, когда канал передает любой из М различных символов. После получения символа игрок должен заключить пари о том, какой, по его мнению, сигнал был в действительности передан. Пусть игрок обладает следующей информацией: Ру — условная вероятность того, что был послан сигнал /, если принят сигнал Z; qi — вероятность приема сигнала Z; z:y — доход от единицы ставки при выигрыше пари о сигнале/. Пусть игрок вправе поставить сумму относительно сигнала Z при условии Определяя последовательность {/у(х)}, как
и выше, показать, что м fN (х) = 2 Qi max »-i 2f>0 it N>2, м fl (*) = 5 Qi i=l max ‘ M / M 2 Pij log( rjZj + x—'£lza -3 = 1 \ S«1 > о Доказать, как и выше, что fN(x) = logх-|- Мак, определить ак и выяснить структуру оптимального поведения. Показать, что оптимальное поведение не зависит от qit 41. Рассмотреть случай, когда имеется непрерывное множество различных сигналов. Пусть dG(u, v) — условная вероятность того, что послан сигнал, лежащий между v и v-\-dv при условии, что принят сигнал и. dH(u) — вероятность того, что на некотором шаге принят сигнал, лежащий между и и u-\-du. Показать, что соответствующие функциональные уравнения имеют вид J /у_1 (22 (W)) dG (и, v) dH(и). max z(v) max f log(2z(v))dG(u, v) dH(u), z(v) J где для простоты предположено, что шансы равны и что должны ставиться все деньги. Максимизация производится по всем функциям, удовлетворяющим условиям оо a) z(v)^0, б) J* z(v)dv = x. — ОО Выяснить вид fN(x) и структуру оптимального поведения. 42. Рассмотреть случай, когда р само является случайной величиной, подчиненной известному распределению вероятностей. 43. Рассмотреть случай, когда распределение вероятностей неизвестно. Однако мы располагаем априорной оценкой dG(p) и принимаем, что после k верных передач и I неверных новая априорная
оценка должна быть J/(l-ri'iJClp) о 44. Несколько промышленных предприятий, расположенных вдоль реки, перенумерованы с севера на юг: 1, 2, ..., N. Вниз по реке протекает определенное, количество воды, которое по пути следует распределить между этими предприятиями. Предположим для начала, что вода, потребленная одним предприятием, не может быть использована остальными. Определить распределение воды, максимизирующее общий доход всего комплекса предприятий. (У. Холл) 45. Рассмотреть ту же задачу в предположении, что определенное количество воды, использованной каждым предприятием, возвращается в реку — либо в том же месте берега, либо на несколько „шагов" ниже по течению. (У. Холл) 46. ‘Пусть производственные отходы каждого предприятия загрязняют воду, причем стоимость использования этой воды зависит от Степени загрязненности. Определить оптимальную политику распределения для этого случая. (У. Холл) 47. Пусть количество имеющейся воды, а также спрос на нее являются сезонными. В различных местах вдоль реки имеются плотины, с помощью которых могут создаваться запасы воды. Определить оптимальную политику распределения. (У. Холл) 48. Рассматривается задача о строительстве вдоль реки п различных промышленных предприятий. Z-e предприятие обладает объемом производства vit сбрасывает в реку производственные отходы в количестве и может использовать воду со степенью загрязненности которая должна быть выше суммарного загрязнения воды предприятиями, расположенными выше по течению. Нужно выбрать некоторое подмножество из этих п предприятий для их строительства вдоль реки так, чтобы максимизировать общий доход предприятий. (Л. М. К. Бёлыпер) Показать, что это задача о максимизации по 2wn! выборам и что последнее число можно снизить до1) [п!-е]—1. (О. Гросс — С. Джонсон) t) [л] здесь обозначает целую часть а. — Прим, перев.
49. Показать, что всякое оптимальное решение может быть без нарушения оптимальности переупорядочено в порядке возрастания величин и что поэтому подлежат рассмотрению менее чем 2W случаев. (О. Гросс — С. Джонсон) 50. Пусть ^=1 для 1=1, 2, ..., п. Показать, что в этом случае оптимальное решение может быть найдено при помощи следующего процесса: а) упорядочить и перенумеровать все предприятия в порядке возрастания величин г б) ВЫЧИСЛИТЬ ^=2 И = h-------------Si-l> ^‘el в) если dk < 0 является первым нарушением *), то вычеркнуть в множестве i^k то предприятие, для которого наибольшее; г) выполнить вычисления шага (б) для нового множества и повторять шаги (б) и (в), пока все нарушения не будут удалены. (О. Гросс — С. Джонсон) 51. Показать, что в общем случае оптимальное решение содержит не больше предприятий, чем содержится в оптимальном решении для той же задачи, когда все равны между собой. (О. Гросс — С. Джонсон) 52. Рассмотрим задачу нахождения приближенного решения системы уравнений /(х, у) = а, g(x, y) = b. Пусть {xfe, ук] (& = (), 1, 2, ...)— некоторая последовательность предполагаемых решений и dN = (f(xN> Упт) °)2 + (S Уя) ^)2- Принимая, что х0=сР Л = и (xi+1 — Х;)2 + (Л+1 +Л)2 < при Z = 0, 1, 2, ... , положим для N = 0, 1, 2, ... /ДСу с2) = min dN. Показать, что fN+i(cf c2') = min[fN(xl, л)], R где область R определяется соотношением (xt — с^)2 -|- (.Vi — с2)2 г2. 53. Пусть x1 = c14->'cos0, yt = c2-{-r sin 9, где 9 — малая величина. Тогда /jv+i(ci> e2) = tnin[/JV(q-|-rcos0, с2 + г sin 0)] = = mein [/ar (ci- c2> + r (cos 0 + sin 0 . 1) Имеется в виду первый индекс k, для которого йк<^.—Прим. перев.
Определить отсюда приближенные значения cos б и sin 0. В чем заключается связь с классическим градиентным методом? 54. Рассмотрим задачу определения чебышевской нормы dN = min max Ci 0 < X < 1 N /(*)—5 Выяснить сходимость следующей схемы. Пусть — начальное приближение; определим с'о как минимум max /(х)— cQ— 2 скхк > Л=1 затем определим с' как минимум N max f (х)—Z — с.х — 2 скхк и т. д. 55. Предположим, что мы хотим направить ракету к Луне. Ввиду сложностей в постройке и значительной цены ракеты, вызванных необходимостью нести большие количества топлива и топливные баки, мы пытаемся сократить количество требуемого топлива и размеры ракеты путем создания многоступенчатой ракеты следующего типа1): После того как топливо, имеющееся в последней (&-й) ступени, будет израсходовано, эта ступень отделяется, оставляя (k—1)-ступенчатую ракету и т. д. Задача заключается в том, чтобы построить ^-ступенчатую ракету минимального веса, которая достигла бы окончательной скорости и. Введем обозначения: 1) Мы сохраняем терминологию оригинала. Обычно ступени ракеты нумеруются в обратном порядке. — Прим, перев.
Wk — начальный брутто-вес подракеты k; — начальный брутто-вес ступени k\ рк — начальный вес горючего в ступени k\ vk — изменение скорости ракеты во время горения ступени k. Предположим, что изменение скорости vk является известной функцией от Wk и рк, т. е. vk^=v(Wk, рк) и, следовательно, Pk~P№ki vk). Поскольку Wk = + а вес k-ft ступени есть известная функция g(pk) количества горючего, находящегося в этой ступени, мы имеем = + ®й)). откуда, разрешая это уравнение относительно получаем wk = w(Wk_1, vk). Пусть fk(v) обозначает минимальный вес подракеты k, достигающей окончательной скорости v. Тогда для k 2 мы имеем AW= min — vk), Vj)], причем fo(.v) = Wo (Wo — вес головного конуса), /i(«) = min (w()F0, v0) + W0). 0< vx ^. v (P. 77. Тен Дайк) 56. Рассмотрим задачу о минимизации линейной формы Ln(x) = 82V = 2 xi П0 всем неотрицательным х^ удовлетворяющим следую-i-i щим ограничениям: «11^1 “Н ^12-^2 “Н Я13Х3 Си а21Х1 + а22Х2 ^23-^3 ^^2» Й31Х1 “F а32Х2 Ч~ Я33-К3 4~ Ь^Х± С3, ^44-^4 “4” ^45-^5 ~4~ ^46*^6 ^4» #64-^4 “И аЪЪХЬ ^66-^6 С5» Й64Х4 + Я6бХ5 -f- aQQXQ 4“ Ь2Х7 ^31V-2, 3N-2^3N-2 + CL3N-2, 32V-1 -^32V-1 + &32У-2, 3N ^3N "C c3xV-2> #31V-1, 3N-2X3N-2 + ^37V-1, 32V-1 XgJY-l + Яз#-1, 3N %3N CSzV-l» fl3JV, 31V—2 -*^-2 + #31V, 32V—1-K32V-1 4~ ^32V, 8# и где ^>0,
Определим последовательность функций /лг(2)= max Ln (х), тж Xi удовлетворяют всем приведенным выше ограничениям, за исключением последнего, которое теперь принимает вид «32V, 32V-2^32V-2 + &3N, 32V-1 ^32V-1 + UZN, 3N X3N Z, Показать, что при N^\ f^(z) = max 4~-£32V-i4~X3N 4“ &3N-2» ^STV-l» X3N + /2V-1 (^3AT-3--^2V-l-^32V-2)], где х3д?_2, *3jv_i, Хзл подчинены ограничениям: «32V—2, 32V-2^32V-2 4~ «32V-2, 8N-1X3N-I 4“ «32V-2, 32V ^32V ^ЗУ-2» «32V—1, 32V-2-^32V-2+ 6Z32V-1, 32V-1 X^N-1 4~ «32V-1, 3H X%N f3iV-l, «32V, 32V-2.*32V-2 4“ «32V, 32V-1X32V-I 4" a3N, 32V X3N Z, #2V-l*32V-2 ^32V—3» Xj 0. Функцию f0(z) принимаем тождественно равной нулю. 57. Получить соответствующие результаты для случая, когда рассматриваются матрицы различных порядков* 1)* 58. Рассмотреть случай, когда неравенство с номером 3k (k = = 1, 2, ...) имеет вид «ЗЛ-2, Зк-2ХЗк-2 4“ ^ЗЛ—2, ЗЛ-Х^ЗЛ—1 4“ ^3ft—2, ЗкХЗк 4" ^У^ЗЛ-Н 4~ 4“ C2X3fc+2 4“ ^2X3ft + 3 -С С3к- 1) Матрица ограничений в предыдущей задаче имела вид Дц л12 «1з «22 Л23 «31 Л32 а33 «44 «45 «46 Л54 а55 а5б «64 «65 Л66 ^2 «77 L • > (Такого рода матрицы в зарубежной литературе иногда называются квази-блочнодиагональными.) По-видимому, автор предлагает для исследования случай, когда квадратные диагональные блоки матрицы ограничений имеют различные порядки. — Прим, перев.
59. Показать, что указанное выше функциональное уравнение можно привести к виду /Л-(«) = max [g^(.x3N-2, 2)-4-/w-i(csat-3 — ^-1^-2)]. <W-2 где aw_2 удовлетворяет неравенству 0<X32v_2<min|^, ——-------------------------------(. L a3M,3N-2 J 60. Рассмотрим задачу о решении системы линейных уравнений вида а11Х1 4“ #12Х2 4“ #13^3 = #21Х1 4“ &22Х2 4“ #23-^3- ^2» #31*1 4“ #32*2 4” аЗЗХ3 4" ^1*4 = С3> *1*3 4” а44Х4 4“ #45*5 4” а4вХ6 — С4> а54Х4 4“ а55Х5 4” #56*6 — С5, #64*4 4" #65*5 -|- а66х6 4- Ь2х7 = с6, bN-lx3N-3 4" #1+327, 1+3A’*1+32V 4” #1+327, 2-327^2+327 4“ 4~ #1+32V, 3+327'*3+327' = +32\Г» #2+327; 1+32V*1+32V 4“ #2+827, 2+3Nx2+3N 4“ #2+327, 3+32V*3+32V — £2+3274 #3+32V, l+32V-*++32V 4” #3+327, 2+327’Х2+327’ 4~ #3+327, 3+32V*3+327 = £3+3274 где ||%-||—симметрическая положительно определенная матрица. Линейные системы такого типа возникают при изучении многокомпонентных систем, в которых имеется слабое взаимодействие между отдельными компонентами. Задача решения этой системы эквивалентна задаче нахождения минимума неоднородной квадратичной формы (х1, Alx1)^-(x2, А>х2) + ... +(лЛ ANXN) — — 2(с>, х1)—2(с2, х2) — ... — 2(cN, xN) + + 2^х3х4 4- 2£2х6х7 4- ... -J- 2^у_1Хзл'-1Хах-2, где векторы хк и ск определяются следующим образом: Х* = (Х3Л-2. XSk-i, Хзк), Ck = (Csk-2, Сзк-1, Csk), а Ак= ||а»+зй,у+з&||• I, j—\> 2, 3. Показать, что эта задача может быть сведена к задаче нахождения последовательности {/>(<£)}, определяемой рекуррентным 12 Р. Веллман
соотношением fN(z) = min [(j^, Anxn) — 2zx3N— 2(cN, x^-f- (а?зЛг» ®8Л-1* ж32У-2) + /у-1 (#7\Г-1*зУ-2)]. (Illinois Journal of Mathematics, 1957) 61. Показать, что .рекуррентное соотношение предыдущей задачи можно привести к виду fN (z) = min [gjv (z, у) Ч-/АГ-1 У где у) = min [(xN, ANxN)— 2zx3N—2(cN, x^]. (я?зЛг, #32\T-1) 62. Показать, что fa (z) — u^ v^z 4~ где u^t v^, ниц не зависят от г, определить рекуррентные соотношения, связывающие (г/дг, ^у, w7y) и (zzjv-i, ^-i, W-i), и найти отсюда решение линейной системы задачи 60. 63. Рассмотреть задачу нахождения максимума выражения N Д'-l Q?/ (-^) —- А^Х^) —|— 2 г=1 г=1 N на сфере S^: 2 (xi> xi) = 1» i=l Рассмотреть соответствующие функции от z, определяемые соотношением fa (z) = max [Qy (*) + 2^x3y], • SN и получить рекуррентное соотношение, связывающее /у(^) и 64. Обобщить предыдущие результаты на случай, когда матрицы Ак могут иметь различные порядки х)- 65. При надлежащих предположениях получить теоремы существования и единственности для следующих функциональных уравнений: a) f(p) = min max [g(p, q), f(T(p, 9))], 4 6) f(p) = min max [g(p, 9), h(p, q)f(T{p, 9))], e B) /(p) = minmax[£(p, q), r(p, 9)+ J’fCzjdGCz, p, 9)}. q R Ср. примечание на стр. 176. — Прим перев.
66. Рассмотрим задачу распределения п различных работ по ш различным типам машин. Пусть — количество работы у, выполняемое при однократном использовании машины I. Предположим, что а) если Ау > 0 и I' < Z, то Ащ > 0; б) если Ау >0 и у' > у, то Ау> > 0; ч . ./ • х •/ я /л Aij' Airjr в) если I < 1 , J , А'/> 0, ТО —т±- < -д;/-. J Ay Al'j Пусть Ху—количество машин типа Z, которое используется на работе у. Матрицу х= ||х^-||, Z—1,2, ...» т; у= 1, 2, ..., п, назовем допустимой, если ху>0, S Aijxij— Т}, j = 1. 2, .... п. и 2 i=l Z= 1, 2, .... m. Рассмотрим следующее поведение. Возьмем в качестве хп минимум 7\ и Л1Р Если хп= 7\, то определим x12=min(T2, Л41—хп) и т. д. Когда будет в результате использовано целиком на у-й работе для некоторого у, распределим x2j таким образом, чтобы либо вся работа у была выполнена, либо все машины типа 2 были распределены. Аналогично закончим все распределение. Показать, что если это поведение не приводит к допустимому размещению, то допустимого поведения не существует. (К. Эрроу —Г. Марковиц — С. Джонсон) 67. Показать, что описанное выше поведение дает решение задачи m о максимизации Тп— 2 Ainxin при условиях. г-1 п а) 2 хй‘ — Z=l, 2,..., m; Xy^O, 6) 2 Aijxij = Tp J = l. 2......n— 1, i=l где Ay удовлетворяют приведенным выше условиям. (С. Джонсон) n 68. Показать, что задача максимизации суммы 2 £i(xi> Уд ПРИ ограничениях а) хг 0, 2 xi = х* i=l N б) Л<0. 2 Уг = У г=1
при надлежащих предположениях относительно функций у) может быть сведена к задаче максимизации выражения при условиях N N Sn= 2 £«(*». уд—*5 л i=l 1=1 N a) Xi 0, 2 xi — i=i б) Уг>0- Эта последняя задача приводит к рекуррентным соотношениям /„(х)= max {max [gn(xn, y) — ^y\+fn-Ax — x^}, определяющим для каждого фиксированного К некоторую последовательность функций одной переменной. Как использовать решение этой второй задачи для решения исходной? (Proc. Nat. Acad. Scl. USA, 1956) 69. Каждый год урожай грецких орехов состоит из орехов различных сортов, скажем Gp G2, ...» Gk, в количествах qv q2, ... .... qk. Для коммерческой продажи по различным ценам составляют ассортиментные наборы орехов, используя различные количества орехов каждого сорта. Пусть нам известны фиксированный спрос di на Z-й набор и фиксированное количественное соотношение орехов различных сортов для каждого набора. Сколько пакетов каждого набора нужно изготовить, с тем чтобы максимизировать общую выручку? 70. Рассмотреть случай стохастического спроса с известными распределениями спроса для каждого типа пакета1). БИБЛИОГРАФИЯ И КОММЕНТАРИИ К ГЛАВЕ IV § 1. Эта глава следует изложению Веллмана (Bellman R., Functional equations in the theory of dynamic programming. I, Functions of points and point transformations, Trans. Amer. Math. Soc.t 80, № 1 (1955), 51—77). Совершенно иное, более абстрактное рассмотрение, использующее теорему Тихонова, содержится в неопубликованной работе Карлина и Шапиро 1) См. Bellman R., Mathematical aspects of scheduling theory, J. Soc. Ind. Appt. Math., 4, Xa 3(1956), 168—205. — Прим, nepee.
(Karlin S., S h а р i г о Н. N., Decision processes and functional equations. The RAND Corporation, RM-933, Sept. 1952). См. также Karlin S., The structure of dynamic programming models, Naval Research Logistics Quarterly, 2 (1955), 285—294. § 6. Обсуждение важности теории устойчивости в области дифференциальных уравнений можно найти в книге Веллмана „Теория устойчивости дифференциальных уравнений", ИЛ, М., 1954. § 8. Выбор /о(Р) в формуле (8.6) предложен X. Н. Шапиро. § 9. Это уравнение будет подробно рассмотрено в следующей главе.
УРАВНЕНИЕ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ЗАПАСАМИ § 1. ВВЕДЕНИЕ В этой главе мы изучим один класс аналитических задач, возникающих в связи с интересным стохастическим процессом распределения, встречающимся при изучении проблем управления запасами. Изучение общего уравнения представляется весьма нелегким делом. Однако мы можем при некоторых простых и не слишком далеких от реальной действительности предположениях получить в явном виде решение для одного частного случая, а также определить структуру оптимального поведения в некоторых других случаях. Эти явные решения весьма полезны, так как они выявляют полные внутреннего смысла сочетания существенных параметров. Эта особенность может сыграть важную роль, поскольку обратная задача— оценка параметров на основе наблюдаемых данных — играет решающую роль во всей этой теории. Кроме того — и это замечание относится ко всем процессам решения вообще — аналитическая форма решения будет иногда обладать простой экономической интерпретацией, которая после ее словесной формулировки открывает путь к аппроксимации оптимальных поведений для случая более сложных процессов1). Помимо получаемых нами результатов, представляют определенный интерес и сами методы, которые мы применяем для исследования структуры оптимальных поведений. Читатель уже встречался с ними, в частности, в § 12 гл. I и встретится вновь в одной из последующих глав, посвященной вариационному исчислению. Весьма ярко здесь проявляется тот факт, что метод последовательных приближений не только полезен при доказательстве теорем существования и единственности (он обычно применяется именно для этой скучной работы), но, кроме того, является мощным аналитическим средством для обнаружения и доказательства различных свойств решений функциональных уравнений, в нашем случае — для определения оптимального поведения. Мы начнем с формулировки одного класса сходных между собой задач, возникающих при изучении оптимального управления запасами. После этого мы посвятим один параграф простым общим сообра- Ч Разумеется, эта идея широко используется в физике и технике.
жениям, которые лежат в основе всех исследований в настоящей главе. Далее мы рассмотрим ряд случаев, в которых оптимальное поведение характеризуется особенно просто и интуитивно ясно, именно поддержанием постоянного „уровня запасов". В частности, это имеет место как в одномерном, так и в многомерном случаях, если стоимость заказываемой партии товаров прямо пропорциональна размеру этой партии. Если в стоимость заказанной партии входит некоторая сумма постоянных расходов, величина которой не зависит от размера партии, то задача намного усложняется. Эти постоянные расходы могут представлять собой либо затраты на управленческий аппарат, либо—для производственных процессов — затраты на организацию производства. Здесь мы не будем рассматривать задачи этого типа, поскольку в настоящее время решения соответствующих функциональных уравнений практически неизвестны; кроме того, по-ви-димому, очень мало известно о характере оптимальных поведений, возникающих из этих значительно более близких к действительности процессов. С целью дальнейшей иллюстрации метода последовательных приближений мы рассмотрим два процесса, каждый из которых является вариантом сравнительно простого процесса, описанного выше. В первом из них мы отказываемся от предположения линейности и считаем, что функция величины издержек является выпуклой функцией размера партии; во втором мы снимаем требование одновременности, предполагая, что каждый заказ удовлетворяется с некоторым запаздыванием во времени. Хотя оптимальные поведения здесь не поддаются простому описанию, мы все же можем выяснить их общую структуру. С математической точки зрения нам предстоит иметь дело с весьма интересным классом квазилинейных интегральных уравнений, являющихся нелинейными вариантами уравнения восстановления, которое рассмотрено в добавлении к этой главе. Как обычно, эти нелинейные уравнения обладают определенными чертами квазилинейности, которые мы время от времени будем использовать в качестве крючьев и веревок в нашем продвижении по этим труднопроходимым местам. § 2. ПОСТАНОВКА ОБЩЕЙ ЗАДАЧИ Задача, которую -мы будем здесь рассматривать в самых различных облачениях, является частным случаем общей задачи принятия решений в условиях неопределенного будущего. Рассматриваемый нами вариант относится к проблеме создания материальных запасов при неопределенном спросе, причем создание как избыточных, так и недостаточных запасов ведет к убыткам.
Положение дел можно описать следующим образом: в различные моменты времени (определяемые заранее или же зависящие от хода самого процесса) мы имеем возможность заказать партии предметов снабжения в некотором ассортименте, причем стоимость заказа, естественно, зависит от количества каждого из заказываемых нами предметов. Кроме того, могут иметься (а могут и не иметься) некоторые постоянные расходы — административные и т. п., — не зависящие от размера заказываемой партии. В различные другие моменты времени возникает спрос на предметы, запасы которых созданы. Интересен случай, когда величина этого спроса заранее не установлена, но мы знаем совместное распределение величины спроса, который может возникнуть в любой отдельный момент времени. Побудительной причиной создания запасов являются убытки, возникающие в том случае, когда спрос на некоторый предмет превышает его запасы. В различных областях деятельности характер таких убытков может быть неодинаковым. Мы весьма подробно рассмотрим случай, когда эти убытки прямо пропорциональны величине неудовлетворенного спроса. Важность этого случая состоит в том, что мы можем решить функциональные уравнения, возникающие из этого процесса, в явном виде. При этом решающим оказывается предположение о том, что стоимость первоначально заказываемой партии зависит только от ее размера и является либо линейной, либо в более общем случае выпуклой функцией. Выражаясь. несколько вольно, мы хотим определить такую политику заказов на каждом шаге, которая минимизировала бы некоторую среднюю функцию общей величины издержек на создание запасов. В практических приложениях важной стороной задачи является определение подходящих критериев для различных видов издержек, которые были бы реалистичными и вместе с тем поддающимися анализу. Однако здесь мы не будем касаться этой стороны вопроса. В следующих разделах данного параграфа мы рассмотрим различные системы предположений, которые приводят к различным функциональным уравнениям, принадлежащим некоторому общему семейству. Ряд других процессов будет рассмотрен в упражнениях. А. Конечный период времени Первый из рассматриваемых нами процессов включает образование запасов только одного предмета снабжения. Будем предполагать, что заказы делаются в каждый из конечного числа равных промежутков времени и немедленно выполняются. Величина спроса становится известной после осуществления заказа и получения заказанной партии товара; этот спрос по возможности удовлетворяют за счет созданных запасов, причем неудовлетворенный спрос приводит к убыткам.
Пусть нам полностью известны следующие функции: (1) a) y(s)ds— вероятность того, что величина спроса будет находиться между s и s-f-ds1)’» б) k(z)— стоимость первоначального заказа партии размером z единиц для пополнения уровня запасов; в) Р (г) — стоимость заказа партии размером z единиц для покрытия неудовлетворенного спроса, или дополнительные расходы. Заметим, Зто эти функции предполагаются не зависящими от времени. Предположим, кроме того, что все заказы, о которых идет речь, могут быть выполнены немедленно. Обозначим через х уровень запасов в начале процесса. Пусть процесс состоит из п шагов, причем на первом шаге заказывается ух предметов, на втором у2 предметов и т. д. Будем называть поведением набор функций (yv у2,..., уп), ук = ук(х), определяющий для каждого k то количество, которое нужно заказать на й-м шаге, если имеющийся уровень запасов равен х. Каждому поведению будет соответствовать определенное математическое ожидание суммарных издержек для этого п-шагового процесса, включающих стоимость первоначального заказа и „дополнительные .расходы". Мы ставим перед собой задачу определения поведения или поведений, минимизирующих ожидаемые суммарные издержки. Поведение, дающее минимум ожидаемых издержек, называется оптимальным. Все это соответствует введенной ранее терминологии. Не менее интересный, но более трудный класс задач мы получим, если будем пытаться минимизировать вероятность того, что издержки превзойдут некоторый заданный уровень. На любом шаге задача полностью характеризуется двумя параметрами состояния: величиной запасов х и числом остающихся шагов п. Поэтому определим (2) /п(х) как математическое ожидание общих издержек для п-шаго-вого процесса при начальном запасе х и оптимальном поведении в области заказов. Перейдем к выводу функционального уравнения для fn(x). Если заказано количество у — х^О, то мы имеем со (3) /1(х)=:й(_у — х) + f p(s — y)q(s)ds. У 9 Для упрощения наших рассмотрений мы повсюду будем избегать интегралов Стильтьеса. Легко видеть, что большинство наших результатов переносится и на более общий случай, если уделять должное внимание возможной неединственности решений уравнений. Предоставляем это читателю как ряд упражнений нетривиального характера.
Хотя может показаться странным заказывать количество у — х вместо, скажем, у, однако оказывается, что проще представлять себе заказ, пополняющий величину запасов до определенного уровня у. Оптимальный уровень запасов оказывается более существенной величиной, чем размер заказа. Поскольку у выбирается так, чтобы минимизировать ожидаемые издержки, /i(x) определяется формулой оо (4) Д(х)= min k(y — х)4- Г p(s — ,y)<p(s)ds . / J Вообще, для мы имеем (перечисляя различные случаи, соот- ветствующие возможности превышения спроса над предложением, а также возможности удовлетворения спроса) со (5) /и(х)= min k(y~х)+ f р(s — у)<р(s)ds L у СО у + Л-1(0) / <f(s)ds 4-Jyn_i(jz — <?)<p(s)rfs . У О Б. Бесконечный промежуток времени, скидка с издержек При рассмотрении неограниченного промежутка времени, в течение которого развертывается процесс, необходимо ввести какой-нибудь прием для предотвращения бесконечного роста издержек. Наиболее естественным приемом служит введение скидки на будущие издержки, определяемой для каждого периода заданным коэффициентом скидки а (0 < а < 1). Этот метод в значительной мере экономически оправдан, и обладает, кроме того, немалыми математическими преимуществами, в особенности в том случае, когда коэффициент скидки постоянен. Если определить (6) /(х) как математическое ожидание общей суммы издержек со скидкой, если начальный запас равен х и применяется оптимальное поведение, то вместо уравнения (5) мы получим, после такого же перечисления возможностей, следующее уравнение: со (7) /(х) = min k(y — x)-j-a f p(s — y)(s)ds-|-у J L У оо У 4-c/(0) J cp(s)&?4-a J f(y — s)cp(s)ds . у 0
Уравнение (7) обладает уже хорошо известным нам преимуществом по сравнению с уравнением (5)—оно содержит только одну функцию одной переменной /(х) вместо последовательности функций {/„(*)}• В. Бесконечный промежуток времени, частичный возврат предметов Предположим, что некоторые предметы, поставленные для удовлетворения спроса на них, подлежат частичному возврату, так что спрос Has единиц имеет результатом возвращение bs единиц (0<Л<1), пригодных к повторному использованию. Тогда аналогом уравнения (7) будет уравнение оо (8) /(%)= min k(y-x)-\-a [ p(s — y)<?(s) ds-±-v>x L V V co у f f(bs)<p(s)ds-b~a f f(y — S + bs) c? (s) ds . у о Г. Бесконечный промежуток времени, задержка поставки на один период Предположим теперь, что когда мы заказываем партию размером г, она поступает в наше распоряжение не сразу, а на один период позже. Если наличный запас равен х, а в предыдущем периоде было заказано у, то для удовлетворения спроса в следующем периоде в нашем распоряжении будет запас х-{~у. Функциональное уравнение, соответствующее уравнению (7), имеет теперь более сложный вид оо оо (9) /(х)= min kz-\-a f p(s—x) <p(s) ds + af (z) f <p(s)ds-|- S!>0 J J La? a? x f f(x— s-\-z)v(s)ds . 0 Величина x теперь представляет собой общее количество, имеющееся в нашем распоряжении на каждом шаге для удовлетворения спроса. Д. Бесконечный промежуток времени, задержка поставки на два периода При задержке поставки на два периода для описания хода процесса требуются два параметра состояния, именно;
(10) х — величина запаса, имеющегося в распоряжении для того, чтобы удовлетворить спрос в очередном периоде, у — количество, которое нужно поставить через один период после удовлетворения этого спроса. Поэтому определим (11) /(х, у) как математическое ожидание общей суммы издержек при оптимальном поведении (величины х и у определены выше). Тогда функция /(х, у) удовлетворяет уравнению со (12) f(x, jO=min kz-\-a f p(s — x)<p(s) ds4- z > 0 J L X co x 4-a/Cy, 2) J <p(s)rf$4-o J f(x — s-\-y, 2)<p(s)rfs . X 0 Здесь мы не будем рассматривать уравнения (8), (9) и (12), хотя они поддаются тому же методу последовательных приближений, который мы будем применять к другим уравнениям. Для уравнений этого типа, по-видимому, нельзя получить явных решений, сравнимых по простоте с решением, которое можно получить для уравнения (7). § 3. ОДНО ПРОСТОЕ ЗАМЕЧАНИЕ В этом параграфе мы намерены изложить в наиболее простой форме основное аналитическое свойство функциональных уравнений вида (1) и (х) = min v (х, у), у (х). у На этом свойстве основывается все дальнейшее рассмотрение в настоящей главе х). Вообще говоря, у будет пробегать некоторую область /?(х), в данном случае являющуюся некоторым множеством интервалов, зависящих от х. Предположим, что на некотором интервале значений х, а х ^bt минимум функции v достигается внутри области /?(х) и что эта функция дифференцируема. Тогда для минимизирующего значения у мы получаем (2) 0 = vy. Это определяет функцию у(х), которая уже не обязана быть однозначной, но которую мы, однако, предполагаем дифференцируемой. Э Это свойство мы уже использовали, не оговаривая этого явно, в § Ц гл. I.
На любой конкретной ветви этой функции _у(х) будет (3) и(х) — v(x, у). Решающим здесь является то, что для а^х^Ь мы имеем (4) «(*:) = = поскольку в силу (2) Vy = О, Аналогично, если (5) u(xlt х2) = min[v(xlt х2, yt, _у2)], (Л. *2). 2/п 2/а ' то в предположении, что минимум всегда достигается внутри области, в минимизирующих точках мы будем иметь (6) Их1 Применим теперь сделанные замечания к функциональному уравнению (2.7) в предположении, что k(z) и p(z) являются линейными функциями z, т. е. k(z) = kz, k > 0, p(z)=pz. Мы получим со (7)/(х)—min ky— kx-\-a f p(s — y)4{s)ds-\- v>x L у CO У 4-a/(0) J <?(s)ds + a j f (y — s) <f (s) ds . У 0 Если минимум достигается в некоторой точке у > х, то в этой точке СО У (8) k — ар J* ср (s) ds -р а § f (у— s)y(s)ds = 0. у о Получено уравнение, не зависящее от х! Кроме того, для указанного значения у имеем (9) f(x) = — k. Правильная интерпретация двух последних результатов, должным образом скомбинированных, дает ключ к решению задач, содержащих издержки, пропорциональные размеру заказываемой партии. В последующих параграфах мы обсудим эти задачи более детально, а также используем их многомерные аналоги. § 4. ПОСТОЯННЫЙ УРОВЕНЬ ЗАПАСОВ, ПРЕДВАРИТЕЛЬНОЕ ОБСУЖДЕНИЕ В этом и в нескольких следующих параграфах мы рассмотрим некоторые процессы, характеризующиеся принципом „постоянства уровня запасов". Общей чертой моделей такого рода является
предположение о том, что стоимость первоначально заказываемой партии прямо пропорциональна ее размеру и что распределение величины спроса от шага к шагу не изменяется. Добавление постоянных административных расходов (затрат на управленческий аппарат) существенным образом изменяет природу оптимального поведения 1). Для производственных процессов эти расходы могут также соответствовать издержкам на организацию производства. В § 5 мы получим полное решение для произвольного распределения <p(s) в случае, когда „дополнительные расходы" также прямо пропорциональны размеру заказа. В § 6 мы распространим этот результат на многомерный случай и покажем, что решение в случае, когда имеется много изделий, подчиненных совместному распределению спроса, обладает весьма важным свойством частичной оптимальности. Переходя от изучения этих процессов, происходящих в течение неограниченных промежутков времени, к рассмотрению конечных процессов, описанных в § 2, мы покажем, что предположение прямой пропорциональности требует на каждом шаге соблюдения принципа постоянства уровня запасов. Этот уровень, разумеется, меняется от шага к шагу. Этот параграф служит отличным введением в использование метода последовательных приближений как аналитического средства изучения этих функциональных уравнений. Если рассмотреть случай, когда „дополнительные расходы" включают „административное слагаемое", не зависящее от размера партии, мы вступаем на гораздо более тернистый путь. В этом случае, как нам представляется, вид решения зависит, вообще говоря, от функции спроса2). Тем не менее несколько важных классов распределений попадают в те категории, которые мы можем рассмотреть точно. Наконец, мы вкратце опишем вид общего решения, не будучи, однако, в «. состоянии извлечь из этого какие-либо конструктивные результаты. § 5. ПРОПОРЦИОНАЛЬНЫЕ ИЗДЕРЖКИ, ОДНОМЕРНЫЙ СЛУЧАЙ В этом параграфе мы приводим решение для того случая, когда функции издержек для обеих партий — первоначальной и заказываемой для покрытия неудовлетворенного спроса — прямо пропорциональны размеру этих партий. 1) В том смысле, что оно превращает поведение известного вида в поведение неизвестного вида. 2) По-видимому, имеется в виду плотность распределения спроса у . — Прим, перев.
Теорема . Рассмотрим уравнение (1) /(х) = min у>х оо k(y — х) + « J — J)<p(s)ds-|-L у со у + § <p(s)ds-|-fl J* f(y—s) <?(s)ds У 0 при следующих условиях'. (2) a) k и р — положительные постоянные, со со б) <р (^) > О, J* <р (s) ds = 1, J* s<p (s) ds < oo, о 0 в) 0 < a < 1, r) ap > k. Пусть x — единственное решение уравнения х) со у (3) k = ap J* y(s)ds-\-ak J* <p(s)Js. у о Тогда оптимальное поведение имеет вид (4) а) у = х б) у = х для для о %<; х, х^х. Иными словами, оптимальный уровень запасов равен х. Если ap^k, то для решение дается формулой у — х, т. е. предпочтительнее всего воздерживаться от заказов. Доказательство. Для того чтобы понять сущность этого решения, будем рассуждать эвристически. Если мы при ^помощи каких-либо формальных средств сможем получить правдоподобное решение и затем докажем непосредственно, что оно удовлетворяет уравнению (1), то доказанная в § 9 гл. IV теорема единственности гарантирует, что получено именно нужное нам решение. Отметим, однако, что метод последовательных приближений неизбежно привел бы нас к этому решению. г) Этому уравнению можно дать следующую интерпретацию: вероятность исчерпания запасов должна быть установлена на таком уровне, при котором приращение затрат по хранению запасов (маргинальные издержки) равно приращению издержек при дополнительном заказе.
Как отмечено в § 3, если минимум достигается в точке у > х, то минимизирующие значения у должны быть решениями уравнения (5) k-\-a ОО У ~Р f <f>(s)ds-j- J f'(y—s)<f(s)ds = 0, У О и для этого значения у будет (6) Г(х) = -Л. Теперь нам придется вытаскивать себя за волосы. Если решение у имеет предполагаемый вид, то сложное слагаемое J f'(y~ s)<p(s)ds О У можно заменить более простым: —kJ <?(s)ds. Поэтому уравнение (5) о заменится уравнением ОО У (7) k — ар J ср (s) ds — ak J ср (s) ds — 0, У • О которое как раз представляет собой уравнение (3). со Так как f ср (s) ds = 1, это уравнение сводится к следующему: о у (8) м>Л=г^- о Последнее уравнение, в предположении, что ср($) > 0, имеет в точности одно решение. Отметим, что предельные случаи ведут себя подобающим образом: если ар — & = 0, то 37 = 0; если а—\, то у==оо; наконец, если р = оо, то _у = оо. Определив х, перейдем к определению /(х) следующим образом. Для 0 х х мы имеем (9) /(х) — k(X— х)4~л со / p(s — x)<f(s)ds-}- СО X 4-/(0) J* + J /(X —s)<p(s)ds и /'(х)= —Л, или (10) /(х) = /(0)-Лх.
Подставляя (10) в (9) и полагая х = 0, получаем для /(0) следующее выражение г): оо X kx-j-paf (s — х)<р(s)ds — afe J (х—s)<p(s)ds —• о (11) /(0) =-------------------7ПТ7i------------------- Для определения функции /(х) при х^-х* 2) имеем уравнение (12) /(х) = а J p(s — x)cp(s)ds 4-/(0) J <p(s)ds-|-_X X X 4 J /(x—$)<p(s)ds 0 которое мы запишем в виде х (13) /(х) = й(х)-|- а У /(х — s)cp(s)ds, о где «(х) — известная функция от х. Последнее уравнение в свою очередь перепишем так: (14) /(х) = «(х)-|-а у /(х — s)cp(s)ds + a /(х —s)cp(s) ds. 0 х-х В интервале [х — х, х] функция /(х — s) известна; следовательно, объединяя я(х) и второй интеграл, можно написать х-х (15) /(х) = г/(х)-|-а у /(х — s)cp(s)ds, х>-х. о Если теперь положить х — х — z и f(x-\-z) — g(z)t то легко видеть, что функция g(z) удовлетворяет уравнению (16) g(z) = v (хz)a f g(z — s)<p(s)ds, £>0. 0 x) Отметим, что значение x, полученное из (7), минимизирует это выражение для /(0). 2) В прикладном отношении эта часть решения представляет весьма незначительный интерес, так как х будет превосходить х разве только в одном начальном интервале. 13 Р- Веллман
Это — простое уравнение восстановления; его свойства рассмотрены в добавлении к этой главе. Фактически гораздо проще сначала продифференцировать уравнение (12), а затем уже действовать, как описано выше. Отметим мимоходом, что важная роль производных и простота уравнений, которым они удовлетворяют, является, по-видимому, общей чертой функциональных уравнений теории динамического программирования. Причина этого заключается в том, что они представляют собой „маргинальные приращения" издержек или цены; с математической точки зрения они представляют собой множители Лагранжа1). Это, в свою очередь, связано с общей проблемой построения двойственных процессов; здесь мы этим вопросом заниматься не будем. Теперь перейдем к доказательству того, что наше гипотетическое решение действительно является решением. Обозначим полученную выше функцию через F (х), а постоянную /(0), определенную формулой (11), —через С. Тогда функция F (х) полностью определяется следующими уравнениями: (17) a) F (х) = С — kx, 0 < х < х, б) F (%) =z а со со J р (s — х) <р (s) ds -4- F (0) J ср (s) ds X X X + J* F (x — s) cp (s) ds о В нашей проверке решения существенным является строгое возрастание функции F(x)-\-kx при х^>0. Последнее устанавливается следующим образом. Из (176) мы видим, что для х> х СО X (18) F'(x) = — ар I" ср (s) ds 4~ « J F'(х — s)cp(s)ds. X О В интервале [х — х, х] мы имеем О^х — s^x и, следовательно, F' (х — s) = — k, как видно из (17а). Итак, для х > х получаем t со а? (19) F' (х) — — ар J* ср (s) ds — ka ср (s) ds 4- x x-x x-x 4-o J* F'(x — s)y(s)dst 0 *) Ср. задачу 71 гл. I. — Прим, перев.
или (20) Ff (х) +k = k — ар J* ср (s) ds — ak J ср (s) ds о X —X 4- a § \F' (x — s) -f- k\ cp (s) ds. о Выражение CO X (21) я(х) = &— ap J* <p(s)ds — ak J* cp(s)tfs x о равно нулю при x = x и положительно при х > х. Полагая х — x — z и F' (х 4- z) 4- k = g (z), убеждаемся, что g(z) удовлетворяет уравнению г (22) g (Z) = и (х -|- Z) 4- J g(z — s)<p(s)rfs, z>0. о Следовательно, gU)>0 при z > 0 (ср. добавление к этой главе). Итак, F' (х)4~/г>0 при х > х; поэтому функция F(x)-[-kx при х > х является строго возрастающей. Возвратимся теперь к доказательству того, что функция F (х) удовлетворяет уравнению (1). Рассмотрим сначала случай х > х. Используя представление (176), мы имеем (23) F(x)=min[... ] = min (3/ — x)4-F(j/)]. у>х у>х Поскольку при у^х должно быть ky 4- F (у) kx 4- F (х), то ясно, что минимум достигается при у = х. В результате мы получаем F (х), что и требовалось. - Теперь рассмотрим интервал 0 х < х. Напишем (24) min = min У>х min [ у>х min I у>х Как и выше, минимум по У^ х достигается при у — х. Следо- вательно, (25) min [...] = min у > х у
Так как р(х) = С—kx для 0<х<х, то отсюда следует, что минимум достигается при у = х, как в первоначальном определении значения х. В случае ap^k, полагая в (17) х = 0, мы получим функцию/7, которая, как легко видеть, удовлетворяет (23), поскольку функция F(y)-\-ky, как и прежде, является неубывающей. Это завершает доказательство. Интересно отметить, что решение в интервале О^х'^х, т. е. наиболее важная часть решения, может быть найдено безотносительно к виду решения для х>х. Этим завершена проверка того факта, что F (х) является некоторым решением уравнения (1) и, следовательно, нужным нам решением в классе равномерно ограниченных функций, определенных для х^О. § 6. ПРОПОРЦИОНАЛЬНЫЕ ИЗДЕРЖКИ, МНОГОМЕРНЫЙ СЛУЧАЙ Рассмотрим теперь многомерный вариант задачи. Здесь мы имеем N предметов снабжения, уровни запасов которых обозначим через хр х2, ...хп. Пусть спрос (Sp s2, ..., sn) на эти предметы в любой момент времени имеет совместное распределение с плотностью ($р $2, • • •» При выводе функционального уравнения для функции /(Хр х2, ..., хп), представляющей собой минимальные ожидаемые суммарные издержки со скидкой, будем для простоты рассматривать только двумерный случай. Выясняется замечательный факт: вид решения оказывается точно таким же, как если бы функция ср($р $2, ..., sn) имела вид ($i) ?2 (5г) • • • (5п)> т- е- потребности в различных предметах были независимыми. Имецно это обстоятельство порождает важное свойство частичной оптимальности, обсуждаемое ниже. Перечисление всех возможных случаев приводит к следующему функциональному уравнению, которому удовлетворяет функция /(хр х2): (1) /(*1. хг\= min ImJi —+ —*2) + У1) -\-Рг (s2 — ^2)1 <Р («1. $2) ds2 4- L2/J 2/а оо со +/(0. 0) J J <р($р s2)dSids2A-Ух Уч ОО 2/а 4- f J — + У г — s2)dsxds2Ar у, о
//1 оо + J J 1/(Л~«1. 0)+р2($2 —Л)1<Р(«1. s2)ds, ds2 4- о ?/а Ух У* + f f Дл —S1. У2 — S2)?(st, s2)d«i ds2 о о Упростим немного наши обозначения, полагая cp(sp s2) dsx ds2 = z=dG(sv s2), и обозначим выражение, стоящее в фигурных скобках, через К(ух, Л)- Тогда мы будем иметь (2) дК ду! Ух 2/з д + ff ^f(yx—sv y2 — s2)dO(sl, s2) О о co J* dG (sp s2) s1 = 0 2/a / °° \ + f Л S2) I У dG (^ , S2) I -|- 2/i 2/a + J f —«1. Л-s2)^O(Sp s2) 0 0 Кроме того, как и выше, при ух > хх, у2 > х2 получаем (3) ¥~= — ki- 7Г- = — k2- k ' дхх 1 дх2 2 Следовательно, если предположить, что решение здесь имеет тот же вид* что и в одномерном случае, критические уровни хх и х2 будут решениями уравнений (4) a) kx —р J* dG (sp s2) о со J* dG(Sp s2) Л’а = 0 б) k2-\-a СО / СО \ 0?9 / со — Р2 J I /dG\Si, s2) j— k2У I У dG(Sp ' ° \eieB9
Эти решения существуют и единственны, если сделать такие же предположения, как и выше, именно арх > kx, ар2> k2 и dG > 0. * Мы видим, что хх зависит только от условного распределения оо J* dG(sx, s2); аналогично для определения х2 требуется только 8g = 0 ОО J* dO(sl, s2). 8j = 0 В этом и заключается важное свойство частичной оптимальности, упомянутое выше. Проверка решения проводится точно по такой же схеме, как и для одномерного случая. Поэтому мы ее опустим, так как выкладки, разумеется, здесь гораздо более утомительны. Сформулируем наши выводы в виде теоремы. Теорема 2. Пусть уравнение (1) удовлетворяет следующим условиям'. (5) а) и pi — положительные постоянные, б) ? > 0, со оо f f Тdsi ds2= I, О о со со J* J* 5jcp dsx ds2 < оо, о о в) 0 < а < 1, г) api > ki. Пусть далее хг — единственное решение уравнения СО 1 оо (6) ki^api j' I J <p(st, s2) * У \ si=° dsx — aki Тогда оптимальное поведение имеет следующий вид: (7) a) yi — Xi для O^Xi^Xi, б) yi — Xi' для Xi х^ Иными словами, оптимальный уровень запасов для l-го вида предметов равен хг. Если api^ki для некоторого I, мы полагаем х{ = 0 (/= 1, 2). Ясно, что решение в этом виде непосредственно обобщается на /7-мерный случай. § 7. КОНЕЧНЫЙ ПРОМЕЖУТОК ВРЕМЕНИ Рассмотрим соответствующую задачу для конечного процесса, в котором будущие издержки учитываются целиком. Теперь мы хотим минимизировать математическое ожидание суммарных издержек.
Определим (1) /nW—как математическое ожидание суммарных издержек за TV-шаговый период при начальном количестве х и оптимальном Af-шаговом поведении. Тогда (2) fi (x) = min У>х &(> —x)4~p f (s— y)<f(s)ds , У fn+i(x)= min b(y — х)-\-р f (s — y)<?(s)ds 4- У>х / У co у + fnW f <?(s)ds 4- J fn(y — s)<f(s) ds У 0 n= 1,2,.... При естественном предположении p > k нами будет доказана Теорема 3. Для каждого п оптимальное поведение имеет вид (3). а) У = хп б) у = х для для где последовательность хп — монотонно возрастающая по п. Доказательство. Доказательство будем вести по индукции. Если функция J\ (х) определена согласно (2), то критическим уровнем запасов будет служить решение уравнения со (4) k^pj9 <p(s)ds. у Если это решение существует, то оно единственно. При естественном предположении р > & это решение всегда существует. Обозначим его через xt. Ясно, что для п= 1 оптимальное поведение имеет вид у—хг для х^хг; у — х для x^xv При у — xt получаем =— k; при x^xt со (5) /1 (х) = р f (s—х) <р (s) ds, X f\\x) = — p Jcp(s)ds> —fe. X /Г(х)=р<р(х)>0. Следовательно, /1(х)4~Л>-0 для всех х>-0.
Рассмотрим случай п = 2. Мы имеем со (6) /2(*)= min k(y—f (s — y)<p(s)ds -f- L у co У +A(O)f<p(s)ds+ffl(y — s)cp(s)ds . У 0 Критическое значение у мы получим, полагая частную производную по у равной нулю, или со у (7) k==pJ <?(№ — £ f'i(y-—s)<?(s)ds = Fl(y). У 0 Производная функции F\(y) равна у (8) Fi (У) = — р<? (У) — f'i (0) <р (у\ — J f" (у — s) <р (s) ds. О Так как // > 0 и р 4- /1 (0) > k Ц- f\ (0) = 0, функция Ft {у) является монотонно убывающей и уравнение (7) может иметь не более одного решения. Однако F1(0) = p> k, = Следовательно, суще- ствует в точности одно решение. Обозначим его через х2. Тогда поведение имеет вид (9) у — х2, 0 <; х < х2, y — xt Геометрическая иллюстрация оказывается весьма наглядной. Запишем (6) в виде (10) /2 (х) + kx = min v (у), - . У>х где v(y) — известная функция. Из доказанного выше ясно, что график v(y) выглядит следующим образом. Функцию /2(х)4-£х мы получаем, проводя карательную к кривой ^(>) в точке у = х2 и продолжая ее влево до пересечения
с осью V. Теперь функция /2(x)“b постоянна при и равна v(x) при х^х2. Остается показать, что х2 > xt. Величина х{ определяется уравнением (4), а х2 — уравнением (7). Из того, что —следует, что кривая ОО у (11) w = g2(y) = p J<f(s)ds — f f'i(y — s)<f(s)ds у О всегда лежит над кривой со (12) ю = gi Су) —р f <Р (S) ds. Отсюда вытекает, что х2 > xt. Для того чтобы продолжить доказательство по индукции, нам нужно показать, что (13) —/гМ>—
Мы имеем k. (14) _/1(х) = р J <?(s)ds, X 0 И (k, о —/2(х) = (15) х2, р § <р (s) ds — § f'i (х — s) <р (s) ds, x x2. x 0 В интервалах [0, xj и [x2, оо] доказываемое неравенство очевидно. В интервале [хр х2] оно следует из монотонности функции со k— р § y(s)ds, обращающейся в нуль при x = xv х Наконец, остается установить выпуклость функции /2(х). Для интервала [0, х2] это очевидно. В интервале [х2, оо] в силу (15) х (16) /2 (х)=р<р(х)-Ь/1(0)®(х) + J*/l (х — S)<p(S)dS. о Из /1(0)—|—/?> 0 и /Г>0 вытекает, что /2 (*) > 0. Теперь мы располагаем всеми составными частями индуктивного доказательства. § 8. КОНЕЧНЫЙ ПРОМЕЖУТОК ВРЕМЕНИ, МНОГОМЕРНЫЙ СЛУЧАЙ Настойчивый читатель может проверить, что решение и в многомерном случае имеет в общих чертах точно такой же характер. § 9. НЕПРОПОРЦИОНАЛЬНЫЕ „ДОПОЛНИТЕЛЬНЫЕ РАСХОДЫ* — АДМИНИСТРАТИВНЫЕ РАСХОДЫ Как только мы начинаем рассматривать случаи, в которых „дополнительные расходы" не являются прямо пропорциональными величине неудовлетворенного спроса, мы наталкиваемся на различные трудности. Похоже, что простое и изящное решение, полученное для случая пропорциональных издержек, в общем случае перестает быть верным. Однако в ряде интересных случаев мы еще можем получить решение, включающее постоянный уровень запасов. Наиболее инте
ресные случаи возникают, когда мы принимаем стоимость заказа партии размером ($ — у) равной p(s — _У) + <7- Здесь q — постоянные административные расходы, которые не зависят от величины спроса, но появляются каждый раз. когда ввиду неудовлетворенности спроса приходится заказывать дополнительную партию. Стоимость первоначально заказываемой партии, однако, принимается пока пропорциональной ее размеру. Рассмотрим уравнение J [p(s —J)4-^l<p(s)^4- (О /(*) = min <k(y — х)~\~а У>х ( со г/ 4-/(0) + J /(У — s)<p(s)rfs у О JJ отличающееся от уравнения, которое мы рассмотрели выше, только со добавочным членом aq § y(s)ds. Поистине удивительно, какое зна-у чительное усложнение вносит это столь безобидное на первый взгляд выражение. Для начала мы. будем формально исходить из предположения о существовании решения с постоянным уровнем запасов. Тогда критический уровень определяется решением уравнения (2) 0 = k + а оо У - —Р f <f(s)ds — ?<p(j)4- J f'(y— s)<f(s)ds ; У 0 при у > x имеем /'(х) —— k. Следовательно, х должно быть решением уравнения 0 — k —а (3) ср (s) ds — qy(y) — k I ср (s) ds К сожалению, неверно, что это уравнение имеет единственное решение при любых плотностях ср ($). Перепишем его в виде оо (4) (1— d)k = a(p — k) $(s)ds + aqy(». У Простым условием, при котором решение этого уравнения единственно, является cp'(j/)<0. Если предположить, что это уравнение имеет единственное решение, то доказательство'будет почти дословно таким же, как и прежде.
Однако мы обсудим сейчас более общий результат, именно тот, когда оптимальное поведение характеризуется постоянным уровнем запасов. Если приведенное выше уравнение (3) или (4) не имеет единственного решения, то может все же случиться, что наибольший корень уравнения (4) соответствует абсолютному минимуму на интервале [0, х] функции, стоящей в уравнении (1) под знаком минимума. Геометрически это можно проиллюстрировать следующим образом. Докажем следующую теорему. Теорема 4. При предположениях относительно a, k, р. q и <p(s), сформулированных в теореме 1 *), и дополнительном предположении, что достигаемый при наибольшем корне уравне-ния (4) минимум функции -со у (6) ф(.У) = *У +« — kf(y— s)<p(s)ds -У о является абсолютным оптимальное поведение щим правилом'. (7) а) у — х для б) у — х для минимумом на интервале 0 С у оо, для уравнения (1) определяется следую- о^х^х, х>- х, где х — то значение у, на котором достигается абсолютный минимум. Доказательство. Пусть х — то значение у, которое дает указанный минимум, являющийся абсолютным минимумом функции фСу) в интервале [0, оо]. Тогда точно так же, как и в случае 7=0, мы имеем /(х) = /(0) — kx в интервале О^х^х и /(0) при !) В теореме 1 q не участвует. Экономически естественным является предположение q > 0. — Прим, перев.
0<Сх<1х определяется подстановкой этого результата в (1). В интервале [х, оо] функцию /(х) определяем, полагая в уравнении (1) у = х. Доказательство того, что /(х) действительно удовлетворяет уравнению, продолжается теперь точно таким же образом, как и в случае # = 0. § 10. ЧАСТНЫЕ СЛУЧАИ Укажем некоторые частные случаи, когда приведенные выше условия выполняются: (1) а) <(,(*) =-£_----------, J* е~и* du — а б) ср(х) = ^?~Ьж. Проверку мы предоставляем читателю в качестве упражнения. § 11. ВИД ОБЩЕГО РЕШЕНИЯ Пусть f (х) представляет собой решение уравнения (9.1), т. е. (1) где (2) Дх) = &(х) = min F (.у), у>х F (_у) = р J ($— x)<p(s)ds + (/(0)4-9)+ . V V У +]7су — s) ср (s) ds о Пусть функция F (у) имеет следующий график: Рис. 21.
Тогда оптимальное поведение имеет вид (4) а) У — Хр 0« X Хр б) У = х, х х2; в) У = X3, Х2 < С х < •^3» г) У = х, X 5 > X3 и (5) I Р (*з). \Р (X), оо. о <; х xv Однако задача нахождения числа различных областей при заданных функциях издержек и спроса представляется весьма сложной. До настоящего времени эта задача не решена; неясно также, каким образом связать эти данные воедино. §12. ПОСТОЯННЫЕ РАСХОДЫ Рассмотрим теперь случай, когда в стоимость начального заказа включены постоянные административные расходы. Эта задача также не решена до сих пор. В данном случае уравнение принимает вид (1) /(*) = min Шу—x) + g(y — x) + <z fp(s— v>x I L оо у + /(°) f<?(s)ds 4- J/Су —S)<p(s)ds у о где (2) g(x) = x > 0, x = 0. Здесь g обозначает постоянные расходы. Трудно удержаться от соблазна рассмотреть решение следующего вида: {S для 0 х 5, X ДЛЯ X > 5, где 0 < s < S < оо. Поведение такого типа называется „ ^-поведением “.
Поведения этого типа, имеющие четкий интуитивный смысл, нередко используются на практике. Однако вся беда в том, что легко построить относительно простые примеры, показывающие, что это поведение не может быть оптимальным во всех случаях. § 13. ПРЕДВАРИТЕЛЬНЫЕ ЗАМЕЧАНИЯ К ОБСУЖДЕНИЮ БОЛЕЕ СЛОЖНЫХ ПОВЕДЕНИЙ В предыдущих параграфах мы рассмотрели ряд процессов, обладающих решениями довольно простого и интуитивно ясного вида. Теперь мы намерены рассмотреть два случая, в которых решения будут иметь более сложную природу. Первый из них содержит запаздывание в выполнении заказов на один период; вторым мы рассмотрим случай, когда функция стоимости первоначально заказываемой партии является нелинейной выпуклой функцией ее размера. Как в одном, так и в другом случаях постоянные административные расходы отсутствуют. е В обоих случаях для установления свойств решения мы применим метод последовательных приближений. § 14. НЕОГРАНИЧЕННО ПРОДОЛЖАЮЩИЙСЯ ПРОЦЕСС, ЗАПАЗДЫВАНИЕ НА ОДИН ПЕРИОД Функциональное уравнение, которое мы будем рассматривать, было выведено в § 2: (1) f(x)~ mm{kz-\~a I p(s — x) ср (s) ds 4-z>0 I J I L X +/(*) f<p(s)ds + f/(. 'x— $4~z)?(s) ds Нами будет доказана Теорема 5. Оптимальное поведение определяется следующим правилом'. (2) z = z(x) для 0<?х<;х, z — 0 для х х, где z (х) 0 и z (х) — 0. Функция z(x) монотонно убывает по х.
Доказательство будет проведено по индукции, основанной на последовательности приближений (3) /0(х) = с f p(s — x)<p(s)ds 4-/о(0) J <p(s)ds + Ж + J /о(х--------s)<p(s)rfs о (эту функцию мы уже несколько раз встречали раньшо) и для n=0, 1, 2, ... (4) fn+i (х) = min Т (z, х, fn), Z>0 где l\z,x,fn)—выражение, стоящее в формуле (1) под знаком минимума. Рассмотрим теперь Т(z, х, fQ) как функцию от z, обозначив ее через Mt(z). Мы имеем оо ж (5) (z) = k 4- af'0{z) J <p(s) ds + a J /'(x — s 4- z) <p (s) ds, X 0 а для втррой производной — ОО Ж (6) М" (z) = af"(z)f <p(s)ds4-a J f0 (x — s 4- z) <p (s) ds. x о Поскольку /''>0, мы видим, что Л4"(г)>0 для всех х^О. Следовательно, уравнение Af'(£) = O имеет не более одного решения z при любом х. Ясно, что для больших значений х решения вообще не будет, а для малых х (скажем, при х = 0) решение будет существовать, если только а, р и k связаны между собой должным образом. Это обстоятельство мы проверим позже; пока же убедимся в том, что это решение, которое мы обозначим через zx(x), является монотонно убывающей функцией от х. оо Для этого рассмотрим выражение О0(х, z) = — <p(s)ds — ж ж — а f — s z)^(s)ds как функцию от х при фиксированном z. о Ее производная по х имеет вид ж (7) -^- = — a f f'oSx — s-\-z)<D(s)ds о
и поэтому отрицательна. Следовательно, семейство кривых ад = О0(х, z) выглядит следующим образом: Рис. 22. Этот график ясно показывает, что функция zx(x) монотонно убывает по х и равна нулю при x^xv Чтобы получить аналогичные результаты для второго приближения, нам нужно показать, что /''(х) 0. *Мы имеем (8) Л(*) = Т (zx (х), х. Г(0, х, /0), /о). 9 % ^'1* X ХР В интервале [0, xj будет ОО X (9) (х) = —ар J <р (s) ds 4- a J /'(х — s z) <р (s) ds х о и (10) А (*) = «Р<Р (*) + af'o (*) <Р (*) 4- а? \ a f f'o(.x-s-\-z)<f(s)dsUl +-£-)• о ! Из (9) мы видим, что /'(0)=—ар. Так как функция f'Q(x) монотонно убывает по х, то арaf^z)'^ 0 для Следовательно, если мы покажем, что 1 dzjdx 0, то получим (х) > 0. С этой целью возвратимся к уравнению, определяющему zv именно М[ (z) = 0. Используя выражение (5), получаем соотношение (Н) a/'o(z) f <p(s)ds + a f f"(x — s-j-z) <p (s) ds x 0 x + a f f'o(x — s + z)<p(s)ds = 0, 0 которое снова показывает, что dzxldx^Q и 1 -^-dzJdx^Q. 14 Р» Веллман
Наконец нам требуется соотношение между /'(х) и /'(х). Имеем ОО X (12) /'(х) = — аР f<?(s)ds-\-a J /'(х — s)<p(s)rfs. х о Таким образом, мы видим, что в интервале [0, х] будет /о(х)<; </'(х), так как функция /'(х) монотонно возрастает. Поскольку fl(x) = fo(x) для х>х, то (13) /о(*)<Л(*) для всех х > 0. Продолжая точно так же, как и на предыдущих страницах, мы получим для каждого п функцию гя(х), обладающую следующим свойством: (И) а) б) zn(x)> 0 2„(х) = 0 ДЛЯ для о х < хп, х>хм, причем гя(х) монотонно убывают по х. Кроме того, последовательность {хи} является монотонно убывающей и имеет предел х. Остается показать, что х==0, если только а, р и k подобраны надлежащим образом. Это эквивалентно проверке того обстоятельства, является ли /0(х) решением или нет. Возвращаясь к (5), полагаем х = 0 и рассматриваем уравнение (15) k + af'o(z) = 0. Если &4-а/'(0)<0, то это уравнение будет иметь решение. Обращаясь к (12), видим, что /'(0) = —ар. Следовательно, мы должны требовать, чтобы (16) k < а2Р- Для процесса с запаздыванием на один период именно этого интуитивно ясного условия и следовало ожидать. § 15. ВЫПУКЛАЯ ФУНКЦИЯ ИЗДЕРЖЕК, НЕОГРАНИЧЕННО ПРОДОЛЖАЮЩИЙСЯ ПРОЦЕСС В качестве другой иллюстрации эффективности метода последовательных приближений рассмотрим случай, когда стоимость заказываемой партии g(y— х) является строго выпуклой функцией
размера партии у — х. В этом случае уравнение принимает вид I” “ оо (1) /(*) = min { g(y — х) + а f p(s — y)<?(s)ds-t~ г/>4 \_y co У " \ 4-/(0) f <p(s)ds+ f f(y — s) (p (s) ds }. У 0 J J Как обычно, полагаем (2) /0(х)=а ОО со f р (s — х) <f> (s) ds -)-fo(O) f <p(s)ds4- - x sc x + f f0(x—s)<f(s)ds 0 и для n = 0, 1,2,... (3) fn+1 (*) = min T (У< *• fn)* У>а Рассмотрим сначала функцию fx (x), предполагая, что g(x) имеет непрерывную производную при х^-0. Если у > х, то у определяется из уравнения (4) оо У Р Jy(s)ds — J/'(> —s)<p(s)ds -у о Из предположения о выпуклости функции g(x) [это значит, что £’"(*)> 0] следует, что это уравнение может иметь не более одного решения, так как его левая часть монотонно возрастает, а правая — монотонно убывает. При х = 0 решение существует, если (5) g' (0) < ар. При больших х решения не существует, если g'(0)>0. Для у > х мы имеем (6) и . f'Sx)== — g'(y~ X) g'(.y —х) = а (7) g"(y~ !)-
dy . dx * Для определения величины dyldx — 1 обратимся к уравнению (4). Оно дает нам (8) g" (у — х) — 1) = f— ар<? (.у) —- af'(0) ср (.у) — У af fo(y~ s)<f(s)ds О Отсюда уже можно заключить, что dy)dx > 0 и dy/dx — 1 < 0. Следовательно, f"(x) > 0. Кроме того, легко видеть, что — /' — f. Теперь мы располагаем всеми элементами индуктивного доказательства следующей теоремы. Теорема 6. Существует функция у (х) и число х, обладающие следующими свойствами: (9) а) у(х)3>х; функция у(х) монотонно возрастает} б)у(х)>х пРи х^х\ у(х) = х при Х^Х} в) х > 0, если ар > g' (0). Эта функция у(х) описывает оптимальное поведение для уравнения (1). ДОБАВЛЕНИЕ К ГЛАВЕ V. УРАВНЕНИЕ ВОССТАНОВЛЕНИЯ Уравнение X (1) и (х) = /(х) + J* и (х — s)(p(s)ds, о которое встречается в самых различных областях математического анализа, обычно называется уравнением восстановления. Для выяснения свойств его решений имеются два основных метода — метод преобразования Лапласа и метод последовательных приближений Лиувилля — Неймана. Метод преобразования Лапласа обязан своим успехом тому X обстоятельству, что выражение J*и(х — s') у (s) ds является сверткой, о обладающей следующим формальным свойством: C~tx X fa(x—s)<p(s) -О ds dx= e~txu (x) dx e-sty(s)ds
Действуя совершенно формально, получаем из (1) оо ю J e-^f(x) dx (3) f e-^u(x)dx = -^—-------------- 0 1 — J* (x) dx 0 Отсюда при соответствующих предположениях относительно f и <р можно вывести многое относительно асимптотического поведения и(х) при х —> оо (используя тауберовы теоремы или же теорию функций комплексного переменного). Однако наиболее интересные для нас в данном случае свойства: положительность, выпуклость и пр. — удобнее устанавливать, рассматривая следующую последовательность приближений: (4) «0 = /(х), CD un+i = ип (х — s) <р (s) ds О и показывая, что каждая функция ип(х) обладает требуемым свойством. Этот подход оправдывается следующим результатом. Теорема 7. Пусть (5) а) функция f(x) ограничена в любом конечном интервале [О, х01; сю б) /|?($)|ds < 1-о Тогда существует единственное решение уравнения (1), ограниченное в любом интервале [0, х0]. Это решение может быть получено как предел последовательности (4). Если функция /(х) дифференцируема, а функция <р(х) непрерывна, то CD (6) и' (х) = f (х) + « (0) ф (х) 4- у «' (х — s) ср (s) ds. О Если f(x)^0 и 0, то «(x)i>0. Можно дать целый ряд других комбинаций условий, соответствующих условиям (5а) и (56), которые также обеспечивают существование и единственность.
Доказательство этой теоремы легко получить, следуя тем методам, которые мы уже многократно использовали. УПРАЖНЕНИЯ И ПРОБЛЕМНЫЕ ЗАДАЧИ К ГЛАВЕ V 1. Получить аналог теоремы 3 для того случая, когда функция распределения спроса от шага к шагу изменяется. 2. Рассмотреть случай, когда как в стоимость первоначально заказываемой партии, так и в „дополнительные расходы" включены постоянные расходы, а распределение спроса имеет вид ср(х)=1/& при O^x^k', ср(х) = О при х > k. 3. Рассмотреть процесс с постоянными расходами в случае, когда возможны только два уровня спроса — низкий и высокий. Можно ли обобщить полученный результат на случай, когда имеется произвольное конечное число уровней спроса? 4. Получить аналоги теорем 1, 2 и 3 для случая, когда на каждом шаге имеются некоторые издержки на хранение, пропорциональные количеству изделий, сохранившихся с предыдущего периода. 5. Получить функциональные уравнения, описывающие процесс, в котором как величина спроса, так и моменты времени, в которые он предъявляется,. — случайные величины. Рассмотреть случаи, когда моменты времени, в которые предъявляется спрос, имеют непрерывное распределение и дискретное распределение. 6. Получить аналог теоремы 5 для процессов с произвольными запаздываниями во времени. 7. Рассмотреть случай постоянных расходов и определить: а) поведение „постоянного уровня запасов", минимизирующее ожидаемые издержки; б) „sS-поведение", минимизирующее ожидаемые издержки. 8. Мы хотим производить единственный вид товара в течение заданного ряда промежутков времени, с тем чтобы удовлетворить известный будущий спрос. Это следует делать таким образом, чтобы минимизировать суммарные издержки, зная издержки на производство и хранение и функцию изменения уровня производства во времени. Рассмотрим сначала дискретный вариант. Пусть Т — число периодов, rt — величина спроса в момент Л xt — количество, произведенное в промежуток времени [/—1, t\t
xQ — заданный объем производства в единицу времени (производительность) начального этапа, yt — xt+1— xt^> Q— увеличение производительности в момент/, ut — превышение предложения над спросом в момент /. Издержки: Ci — издержки на производство единицы товара за период [Z— 1, /], di — издержки на хранение избыточной единицы товара в течение одного периода, Ci — издержки на увеличение производительности на одну единицу за единицу времени. Нужно минимизировать общие издержки процесса, состоящего из Т периодов, при условии, что предложение всегда должно превосходить спрос. 9. Рассмотреть поставленную выше задачу при условии, что производительность нельзя увеличивать произвольным образом. В частности, рассмотреть два случаях): • a) xt 'С xt+i ’С axt> 1 < а < оо; б) Xt < xt+1 < xt + b, b>0. 10. Рассмотреть вариант, когда спрос случаен, при следующих двух различных предположениях: а) спрос должен всегда удовлетворяться; б) удовлетворение спроса может быть отложено на один шаг. 11. Получить функциональное уравнение, соответствующее процессу, описанному в § 2, в предположении, что мы стремимся минимизировать вероятность того, что издержки превзойдут заданную величину с. 12. Рассмотреть функциональные уравнения, изучавшиеся в этой главе, в предположении, что распределение с плотностью y(s)ds заменено более общим стильтьесовским распределением dG(s). Получить относящиеся к этому случаю теоремы существования и единственности и выяснить, каким образом следует видоизменить установленные выше теоремы для того, чтобы они оставались справедливыми. 13. Чем отличается задача производства заказов для военного склада от задачи производства заказов товаров для универсального магазина? 14. Пусть за невыполнение заявки на товар мы не платим штрафа, но с каждой единицы товара, которая была заказана и поставлена, имеем прибыль в b долларов. Пусть этот доход можно использовать 1) Ср. задачу 57 к гл. III. — Прим, перев.
для увеличения количества товаров на следующем шаге. Если задан начальный запас х и запас денег у, то какую политику заказов следует применить, чтобы максимизировать общий ожидаемый доход? Рассмотреть конечный и бесконечный процессы в предположении пропорциональности издержек размерам заказываемых партий. 15. Рассмотрим уравнение /(х) = шах У g Су)+Л (х — у) + f f ( у—s) k (s) ds О где а) £ (0) = & (0) = О, 6)g'(j)>0. Л'СУ)>0, g'(0)<A'(0). в) A(s)>0, г) Г О') > О, Л"О)>0, д) функция A(jO — g(y) монотонно возрастает по у. Показать, что решение этого уравнения дается формулой h (х), 0 < х < х, X £*(х)+ J*/(х — s)k(s)ds, х^х, I О где х определяется как ненулевое решение уравнения X h(x) == g(x)-\- j* h(x — s)k(s)ds. о 16. Рассмотрим случай, когда нужно заказывать подлежащие продаже товары в ожидании неопределенного спроса, который можно считать известной случайной величиной. Пусть равные по длительности периоды заказов занумерованы числами 0, 1, 2, ... , а спрос описывается распределением F$(x), где F<(x)— вероятность того, что в период I спрос будет меньше или равен х. Пусть р—реализационная цена единицы товара, С (у) — общая стоимость заказа у единиц в любой период [функция С (у) предполагается дифференцируемой], I — запас в начале текущего периода (периода с номером 0). Пусть все товары, заказанные в начале периода, предоставляются немедленно и могут расходоваться только путем продажи по цене р по требованию. При политике заказов yi на каждом шаге наличный доход составит Л(-Ч> у у х4) — С(у$.
Пусть целью процесса является максимизация математического ожидания 2 aiPi (хь yit Ц), 0 < а < 1. 1=0 Показать, что получающаяся система рекуррентных соотношений имеет вид Д(/) = тах{ f х) — С(у) + + afk+i (тах (0. I + У — х))] dFk (х) |. Решить задачу в случае С (у) — су. (X. Д. Миле) 17. Рассмотрим уравнение со со /(x) = min kz-\-a(p(s— x')<^(s)ds-\-af(z} f <p(s)rfs + г>0 J " L X x X 1 + a J* f(x — s-\-z)<?(s)ds , 0 соответствующее случаю запаздывания в поставке на один период. Предполагая, что оптимальное поведение состоит в выборе такого z, чтобы x-\-z — L для и z = 0 для x>L, определить L. 18. Доказать, что описанное выше поведение является оптимальным, или опровергнуть это. 19. Изучить предположение о том, что в общем случае запаздывания на k периодов оптимальное поведение заключается в следующем: не заказывать ничего, если количество заказанных и имеющихся в наличии товаров превышает определенную величину L, и заказывать разность, если L превышает это количество. БИБЛИОГРАФИЯ И КОММЕНТАРИИ К ГЛАВЕ V § 1. Рассматриваемая нами математическая модель задачи об управлении запасами берет начало от основополагающей статьи Эрроу, Харриса и Маршака [Arrow К. D., Harris Т. Е., Marschak J., Optimal inventory policy, Econometrlca, 19, № 3 (1951)]. Вскоре появились еще две статьи, стимулированные этим исследованием [Dvoretzky A., Kiefer J., Wolfowitz J., The inventory problem, I, II, Econometrlca, 20, № 2—3. (1952) 187—222].
Первая из этих статей посвящена исследованию существования и единственности решения основного функционального уравнения и обсуждению некоторых частных процессов. Вторая статья — по своему характеру более статистическая — посвящена вопросу нахождения распределения функций спроса в течение процесса. Результаты настоящей главы были получены в сотрудничестве с И. Г ликсбергом и О. Г россом [Bellman R., Glicksberg I., Gross О., On the optimal inventory equation, Management Science, 2 (1955), 83—104]. Co времени выхода этих статей появилось большое число работ, посвященных управлению запасами, — как опубликованных, так и находящихся в частном пользовании. Мы полагаем, что интересующийся этими вопросами читатель перелистает страницы журналов Econometrica, J. Soc. Industr. Appl. Math., J. Operations Res. Soc. Amer., Management Science, Naval Research Logistics Quarterly, где он найдет дальнейшие результаты и библиографические ссылки. § 3. Обсуждаемые здесь результаты находятся в соответствии с замечанием в одной из предыдущих глав о том, что производные функций дохода, или „маргинальные доходы “, во многих случаях обладают более простой структурой, чем сами функции дохода. Добавление. Дальнейшие результаты относительно уравнений восстановления и функций подобного типа можно найти в статьях Феллера [Feller W., On the integral equation of renewal theory, Ahn. Math. Statistics, 12 (1941)] и Веллмана и Данскина (Bellman R., D a n s k i n J. М.» A survey of the theory of time-lag, retarded control and hereditary processes, RAND Corporation, R-271, 1954).
ЗАДАЧИ „НА УЗКИЕ МЕСТА" В МНОГОШАГОВЫХ ПРОЦЕССАХ ПРОИЗВОДСТВА § 1. ВВЕДЕНИЕ В этой главе мы рассмотрим некоторый частный класс важных и трудных вариационных задач, возникающих при изучении многошаговых производственных процессов. Прежде всего мы опишем дискретный вариант этого процесса, который при некоторых предположениях относительно пропорциональности выпуска продукта затратам производства приводит нас к задаче определения максимума линейной . формы, подчиненной линейным ограничениям, — важнейшей задаче, в решение которой значительный вклад за последние годы внесла теория линейного программирования. Хотя аналитическое исследование этой основной задачи находится еще в своей начальной стадии, тем не менее широкий класс задач, возникающих в приложениях, может быть успешно решен численно с помощью современных вычислительных машин и различных итеративных методов, таких, как, например, симплекс-метод. Однако если пользоваться стандартными вычислительными методами, то при изучении процессов „с узкими местами", характеризующихся небольшим числом технологических способов на каждом шаге процесса и одновременно большим числом шагов, мы сталкиваемся с обычной трудностью размерности. Как и при рассмотрении процессов в предыдущих главах, это препятствие можно до известной степени обойти, описывая процесс при помощи функциональных уравнений. Поскольку, однако, мы в целях изучения характера оптимальных поведений интересуемся аналитическими решениями в явном виде, мы дадим формулировку непрерывного варианта этих процессов. Следует подчеркнуть, что во многих случаях непрерывная модель процесса может дать на самом деле более точное описание действительности, чем дискретная. Весьма важным оружием в нашем математическом арсенале является применение двойственного непрерывного процесса; таким образом используется линейность рассматриваемого процесса. Чтобы проиллюстрировать этот метод, мы в настоящей главе детально изучим один простой процесс, оставляя рассмотрение более сложного процесса до следующей главы. Во многих случаях эти аналитические методы, примененные с аккуратностью и старанием, позволяют нам получить в явном виде аналитические решения задачи
максимизации вместе с явным описанием оптимальных поведений. Много трудностей остается, однако, непреодоленными, когда дело доходит до построения общей теории. Изучая следующие страницы, читатель быстро убедится в том, что математическая теория задач этого типа находится еще в зачаточном состоянии. Будем рассматривать вариационную задачу, состоящую в*определении максимума скалярного произведения (х(Т), а) по вектор-функции z(f), где вектор-функции х и z связаны векторно-матричным дифференциальным уравнением (1) — = Ax-\-Bz, х(0) = с, a z удовлетворяет ограничению (2) Cz Dx для 0 <3 7\ Методы, которые мы используем для решения этой задачи, будут развиты дальше и применены к классическим задачам вариационного исчисления в гл. IX. § 2. ОБЩИЙ КЛАСС ЗАДАЧ, ВОЗНИКАЮЩИХ ПРИ ИЗУЧЕНИИ МНОГОШАГОВОГО ПРОЦЕССА ПРОИЗВОДСТВА Центральной задачей в теории и в приложениях математической экономики является задача комбинирования одинаковых или различных отраслей промышленности с целью изготовления какого-либо конкретного вида продукции наиболее эффективным образом. Критериями эффективности при этом могут быть либо минимальная продолжительность процесса изготовления или максимальная прибыль, либо же некоторая комбинация этих двух характеристик процесса. В качестве примера, который совершенно элементарен с экономической точки зрения, но достаточно сложен математически и приводит к задачам, которые мы не можем решить так легко, как нам этого хотелось бы, рассмотрим простую модель трехотраслевого производства, где в качестве составляющих взяты „автомобильная", „сталелитейная" и „инструментальная" отрасли промышленности1), В этой чрезвычайно сжатой, „огрубленной" экономической модели межотраслевых связей2) мы будем предполагать, что состояние каждой отрасли в любой момент времени полностью определяется созданными в ней запасами материалов и мощностью производства при 4) Излишне говорить, что эти названия используются только чтобы направлять должным образом нашу интуицию. Здесь не предполагается, что этйм терминам приписывается какой-либо глубокий содержательный смысл. 2) Это огрубление совершенно аналогично тому, которое делается при изучении электрических токов низкой частоты, где вводятся понятия „сопротивления", „индуктивности" и , емкости".
изготовлении новой продукции из этих материалов. Кроме того, мы начнем с предположения, что изменения в этих основных количествах, запасе сырья и производственной мощности, происходят только в дискретные моменты времени: / = 0, 1, 2, ..., Г. Определим следующие параметры состояния: (1) -^1(0—число автомобилей, выпущенных к моменту /, х2(0 — производственная мощность автомобильных заводов в момент Z, х3(0 — з’апас стали в момент х4(0—производственная мощность сталелитейных заводов в момент t, х5(0 — запас инструмента в момент Z, х6 (/) — производственная мощность инструментальных заводов в момент t. Введем следующие предположения относительно взаимосвязи этих трех отраслей: (2) а) для увеличения производственной мощности автомобильной, сталелитейной или инструментальной отраслей требуются только сталь и инструмент, б) для производства автомобилей требуется только производственная мощность автомобильной отрасли и сталь, в) для производства стали требуется только производственная мощность сталелитейной отрасли, г) для производства инструмента требуются только производственная мощность инструментальной отрасли и сталь. Динамика этого процесса производства может быть описана следующим образом: в начале каждого единичного периода времени, скажем, от t до 1, мы выделяем различные количества стали и инструмента, взятые соответственно из их запасов, для производства автомобилей, стали и инструмента, —т. е. для пополнения запасов последних, —и для увеличения производственных мощностей автомобильной, сталелитейной и инструментальной отраслей. Пусть для /=1, 2, ... (3) a) Zi(t) есть количество стали, выделенное в момент t на увеличение б) есть количество инструмента, выделенное в момент t на увеличение Учитывая предположения (2), мы видим, что (4) a) z3(t) =0, б) w, (О = W3 (0 = W5 (t) = 0. Чтобы получить соотношения, связывающие величины xt (t -1- 1) с x^t), Zj(t) и мы должны сделать еще несколько дальнейших
предположений относительно связи между выпуском продукта и затратами производства. Самое простое допущение, которое может быть сделано, состоит в том, что мы имеем линейный производственный процесс, в котором выпуск продукта всегда прямо пропорционален объему затрат наиболее дефицитного из требуемых ресурсов1)- Таким образом, объем производства при обилии сырья прямо пропорционален производственной мощности, а при избытке соответствующих производственных мощностей прямо пропорционален количеству дефицитного сырья. Именно эта зависимость от количества наиболее дефицитного ресурса и приводит к термину „задачи на узкие места". Проиллюстрируем сказанное: объем производства автомобилей за период от t до t-\- 1 будет зависеть от производственной мощности автомобильных заводов в момент Z, т. е. от и от количества стали zv(t), определенного в (За). Так как объем производства зависит от минимальной из двух величин: производственной мощности и запаса сырья, то мы получаем уравнение (5) Xi (t + 1) = (t) + min (Т1х2 (Z), atzt (t)), где у! и — положительные постоянные, которые предполагаются известными. Аналогично на основании этого предположения, а также предположений (2) мы получаем следующие уравнения, связывающие величины х^(/+1) с хД/)» и ^г(02): (6) xt(Z+l) = x1(Z)4-min(YiX2(Z), а^Ю), х2 G + 1) = х2 (Z) + min (a2z2 (О. ₽2«>2 (0). х3 (Z + 1) = х3 (Z) — (t) — z2 (Z) — Zi (f) — z3 (Z) — z6 (Z) + y3x4 (Z), (Z + 1) = x4 (Z) + min (a4z4 (Z), 04w4 (Z)), x5(^+ l) = x5(Z) —w2 (Z) —w4 (Z) — we(Z) + min[T5x6(Z), a5z5(Z)], l) = *e(Z) + min(aez6(Z), ₽6w6(Z)), где a^, Pi и Yi — постоянные. *) Как мы уже отмечали в введении, это допущение в действительности может и не быть с математической точки зрения самым простым. Более реальное предположение, основанное на законе уменьшающегося дохода и связанное с нелинейными функциями, может на самом деле привести к более простой математической задаче. Это объясняется тем, что нелинейные функции более удобны при вариационном подходе. С другой стороны, линейные задачи в некоторых случаях гораздо легче решать численно. 2) Все эти уравнения являются „уравнениями сохранения", которые утверждают, что количество ресурса в момент t + 1 равно количеству его в момент t минус то, что было использовано за период [/, t -f- 1], и плюс то, что было произведено за период [/, t -f-1].
Ограничения, которые должны быть наложены на Zj и очевидны: (7) а) z{, б) Zt -|- Z2 -j- Z4 + Z5 -f- Z6 x3> в) w2 4- w4 -I- w6 < x6. Здравый смысл подсказывает также ограничения: (8) а) б) a2z2 = p2w2, в) a4z4 = p4w4, г) a5z5<T5xe, л) aez6 = ₽ewe. Смысл последних соотношений состоит в том, что, во-первых, выделение сырья сверх того количества, которое может быть освоено производственной мощностью, никакого прироста производства не даст, и, во-вторых, что объем производства определяется запасами наиболее дефицитного ресурса. Пользуясь этими дополнительными ограничениями, мы можем полностью исключить переменные и вместо соотношений (6) получить систему уравнений (9) х4 (/ + 1) = Х( (О -J- atzt (Z), х4 (0) = с„ х2 (t 4- 1) = х2 (/) 4- a2z2 (/), х2 (0) = с2, X$(t 4“ 1) == •'-зЮ (О ^2 (О ^4 (0 ^5 (0 ^6 (О ТзХ4 (0> •^з(О) == ^3> xt (t 4- 1) = х4 (04- a4z4 (О. Xi (0) = с4, Xj (t 4“ 1) X6 (t) (0 S4^4 (O Se^e (0 -H (0> ei == py • *5(0)=C5- X6 (t 4- 1) = x6 (Z) 4- a6z6 (/), x6 (0) = c6. Теперь для каждого t ограничения на Zj(O принимают вид (Ю) а) Zj^-O, б) z, 4- z2 4~ z4 4- 4- z6 х3, в) e2Z2-|-e4244-e6z6<X5, г) 2,</fx2> д) z5</6xe. Мы должны выбрать Zj(Z) для Z = 0, 1, 2........Т — 1 с учетом указанных выше ограничений и притом так, чтобы максимизировать величину х1(Т},
§ 3. ОБСУЖДЕНИЕ РАССМОТРЕННОЙ ВЫШЕ МОДЕЛИ Легко видеть, что величина хх(Т), равная общему объему производства автомобилей за период [О, 7J, может быть линейно выражена через величины z^f), t = 0, 1, 2, ..., Т—1, /=1, 2, .... 6. Поэтому задача максимизации величины хг(Т) при линейных ограничениях (2.10) является задачей линейного программирования. При заданных значениях коэффициентов и времени Т ее можно решить численно с помощью различных итеративных методов, если только Т не слишком велико. В частности, для динамических процессов рассмотренного здесь типа возможен ряд важных упрощений. Однако обычно в анализе, подобном тому, который здесь проводится, мы не столько интересуемся численным решением, соответствующим некоторому конкретному набору постоянных, сколько всем множеством числовых значений, соответствующих ряду значений параметров. Иными словами, в большинстве случаев цель исследования состоит в „анализе чувствительности", „устойчивости" решения. Такой анализ чувствительности необходим, поскольку мы сделали много допущений, например о линейности процесса производства продукта, об отсутствии времени запаздывания и „времени опережения" в производстве, пользовались упрощенным описанием отраслей при помощи огрубленных понятий производственной мощности и запасов сырья и т. д. Любые выводы относительно структуры оптимальных поведений, которые делаются на основании этой упрощенной математической модели, могут быть признаны обоснованными только в том случае, когда они сравнительно нечувствительны к точности определения значений различных описывающих эту модель параметров. Из сказанного выше ясно, что вычислительная работа, связанная с выполнением любого надежного анализа чувствительности, при использовании только чисто вычислительных методов (когда приходится исследовать многомерное пространство) будет утомительной, требующей много времени, а анализ неизбежно неполным. Встает вопрос, можно ли определить внутреннюю структуру оптимального поведения, не зависящую от тех численных значений, которые мы можем последовательно приписывать параметрам. Знание этого факта важно не только само по себе (оно позволяет нам осуществить полный анализ чувствительности решения), но и чрезвычайно полезно при отыскании приближенных решений в тех случаях, где точный анализ оказывается неосуществимым, а также при отыскании способов аналитического решения сложных процессов. В качестве первого шага на пути к получению аналитического и численного решений мы переформулируем задачу в терминах функциональных уравнений.
§ 4. ФУНКЦИОНАЛЬНЫЕ УРАВНЕНИЯ Ясно, что общий объем производства автомобилей при оптимальном поведении распределения зависит только от начальных ресурсов , с6 и продолжительности процесса Т. При этом величину (\ можно точно и не указывать. Определим тогда для Т= 1, 2, ... (1) /(с2> сз> • • •» D как общий объем производства автомобилей за период Т при начальных ресурсах q, Z ===== 2, 3, ...» 6 и использовании оптимального поведения. На основании принципа оптимальности мы получаем следующее функциональное уравнение для функции /(с2, с3, ..., с6; Т): (2) /(с2, с3...с6; 7'+l) = max[a1z1+/(4 с'3.......с'; 7)1, Z где (3) с; = с24-а2га, сз = сз — zi — Z3 — zi — z-> — z3 + Va- < = c4 + aA, c' — c. — е„д> — e.z, — e zR -J- a z с' = с. -|- az b b 1 о о а через Z обозначена область в пространстве векторов (zv z2, z4, z5, z6), определяемая следующими неравенствами: *(4) а) ^>0, б) zx -f- ^2 + ^4 + £5 + ^6 сз» в) % + % + ¥б<С5’ г) д) Аналитическая задача определения функции / и, что, еще более важно, природы оптимального поведения все еще связана с большими трудностями. Вычислительная задача также громоздка, так как для каждого значения Т приходится табулировать функцию пяти переменных. Однородность рассматриваемого процесса позволяет нам свести эту задачу к другой, содержащей четыре переменных; этим замечанием мы воспользуемся в следующих параграфах. Вычислительную задачу, связанную с определением максимума в многогранной области Z, можно значительно упростить, если учесть, что отыскиваемый максимум достигается на ее вершинах. 15 Р. Веллман
§ 5. НЕПРЕРЫВНЫЙ ВАРИАНТ i) Чтобы упростить аналитическую задачу, мы перейдем от дискретной модели процесса к непрерывной. При этом мы преследуем .цель использования мощных методов анализа и линейной алгебры. Очень часто при рассмотрении физических явлений непрерывные модели значительно проще для изучения, чем дискретные. Для построения непрерывного варианта задачи мы предположим, что решения принимаются в моменты О, АЛ 2 А/ и т. д., а коли* чества материалов z2(/), Wj(O, выделенные в интервале времени t~|-1], заменяются количествами ^(^)А/, Wj(/)A/, выделенными в интервале времени [£, /Ц-А^. Величины ^(/) и w<(0 являются теперь плотностями распределений ресурсов. Возвращаясь к уравнениям (2.9), описывающим дискретный процесс, и устремляя к нулю, получаем новые уравнения: (О Д(О = аА(О. *1(0) = ^. х2 (0 — a2z2 (0, х2 (0) = с2, Хз (0 = — (/) — г3 (/) — zi (t) — гъ (0 — z6 (t) + 7 Зх4 (/), х3(0) = с3> x4(0 = a4z4(f), -М0) = с4, Х6 (0 = — e2z2 (0 — е4 z4 (t) — eeze (f) а6г5 (t), x6 (0) — съ, Xt(f) = (0> = ce (здесь точкой обозначается дифференцирование по t). Ограничения, накладываемые на zi9 теперь таковы: (2) а) ^>0, б) ^ + *2 + *4 + *5 + *6<oo, В) %+М4 + Мб<°°> О Д) Это означает, что ограничения (26) и (2в) отпадают. Однако теперь должны быть добавлены два условия, смысл которых состоит в том, что в любой рассматриваемый момент величины запаса сырья должны быть неотрицательными: •(») б') х8>о, в') *5>0 (в дискретном варианте эти условия выполнялись автоматически). *) Гл. VIII посвящена изучению аналогичного непрерывного варианта дискретного процесса, рассмотренного в гл. II.
- Из этих ограничений видно, что всякий раз, когда х3 = 0, должно выполняться неравенство (4) 214-Z2-|-24H-^4-Ze<73X<. и аналогично, когда —0, мы должны иметь (5) e2z2 4- e4z4 + eez6 < abz6. Следовательно, величины г2, z3, z4 и zQ неограниченно возрастают, как только х3 и хь становятся положительными. Это означает, что нам могут встретиться решения типа дельта-функции. Более детально это обстоятельство будет рассмотрено в следующей главе, где исследуется пример с решением именно этого типа. Однако строгое изучение этой особенности решения будет отложено до следующей книги. В этой и следующей главах мы будем поступать по существу формально в тех случаях, где строгое рассмотрение увело бы нас слишком далеко в сторону1). - Теперь задача состоит в том, чтобы максимизировать величину хг(Т) с учетом приведенных выше ограничений. Остановившись на некоторое время на системе обозначений, мы перейдем к решению этой задачи, используя рассматриваемый в динамическом программировании метод функциональных уравнений. § 6. СИСТЕМА ОБОЗНАЧЕНИЙ Введем векторно-матричную систему записи, которая значительно упростит обозначения и таким образом поможет при изложений общего теоретического подхода, избавляя нас от обилия различных индексов. Одновременно с изучением основных понятий мы рассмотрим один частный пример, чтобы проиллюстрировать нетривиальные аналитические детали. Пусть символы х(/), z(f) и с обозначают соответственно п-мёр-ные векторы-столбцы: а символы Ait Bj (для встречающихся далее значений I и j) обозначают (п X /п)-матрицы. !) Важно отметить, что непрерывный процесс действительно описывается приведенными выше уравнениями. Детальное рассмотрение этого вопроса дано в гл. VIII, где также Исследуется связь между дискретным и непрерывным процессами. - - . . . . . . . : л? л
Мы будем рассматривать векторы х и z только с неотрицательными компонентами. Чтобы указать на это, мы будем использовать запись которая означает, что для Z=l, 2......и. Неравенство х^у равносильно неравенству х — У^>®. Возвращаясь к системе уравнений (5.1), мы видим, что ее можно записать в виде //у (1) ^-=AlX + A2z, х(0) = с, где и А2 — матрицы, составленные из коэффициентов системы (5.1). Аналогично ограничения (5,2)— (5.5) принимают вид (2) £>0, bxz в2х. Задача максимизации величины хг(Т) является частным случаем п задачи максимизации линейной формы Чтобы представить 4=1 это выражение в более простой форме, мы вводим скалярное произведение двух векторов х и у, именно п (3) (X, = 4=1 Общая задача состоит тогда в выборе функции z(f), максимизирующей скалярное произведение (х(Г), а) (а — данный вектор) при выполнении приведенных выше ограничений (Г) и (2). Одна из трудностей, которая не возникает при рассмотрении дискретного процесса и появляется при изучении его непрерывного варианта, состоит в том, что если в качестве z(f) рассматриваются только функции в обычном смысле, то отыскиваемый максимум может й не Существовать. В дальнейшем мы будем предполагать, что ограничения (4.4) обеспечивают существование максимизирующей функции. Так действительно и будет, если условия (4.4) имеют вид z^B3x, где матрица В3— положительная. Для полного исследования задачи необходимо использовать интегралы Стильтьеса. § 7. ПОСТАНОВКА ЗАДАЧИ С ТОЧКИ ЗРЕНИЯ ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ Так как вид уравнений (4.1) и (4.2) не зависит от времени, то max(x(T), а) (мы будем предполагать всюду в оставшейся части этой иллюстративной главы, что рассматриваемый максимум действительно существует) является функцией только времени Т и компо* цент вектора с (начальных запасов сырья и производственных
мощностей), т. е. только параметров состояния и продолжительности процесса. Напишем поэтому (1) тах(х(Т), а)==/(с, Т)э/(с1( с2...сп; Т). Z § 8. ОСНОВНОЕ ФУНКЦИОНАЛЬНОЕ УРАВНЕНИЕ Мы хотим получить функциональное уравнение для функции f на. основе использования принципа оптимальности *), который в данном случае утверждает, что природа произвольного оптимального поведения в вопросах распределения ресурсов на интервале [О, Г] [т. е. поведения, максимизирующего скалярное произведение (х(Т), а)] такова, что его продолжение в любом конечном подинтервале [S, Г] должно быть оптимальным поведением для процесса продолжительности Т—Sc начальным состоянием c(S). Здесь через c(S) обозначен вектор x(S), определяемый из уравнения (6.1) при некотором поведении в вопросах распределения ресурсов на интервале [О, S]. Математическая формулировка этого принципа приводит к функциональному уравнению (1) /(с, 5Ч-Г)=/(е(Я О для оптимального поведения на интервале [О, S'4-TJ. Следовательно, оптимальное поведение на йнтервале [0, 5] определяется уравнением (2) /(с, 5^-Г) = max/(с (5), Т\ [o,‘S] где максимум ищется на множестве всех допустимых поведений на интервале [О, S], т. е. по всем функциям z(t)t удовлетворяющим соответствующим ограничениям. Уравнение (2) вместе С начальным условием /(с, 0) = (с, а) является основным функциональным уравнением, описывающим этот процесс. § 9. НЕЛИНЕЙНОЕ ДИФФЕРЕНЦИАЛЬНОЕ УРАВНЕНИЕ В ЧАСТНЫХ ПРОИЗВОДНЫХ Используем Теперь основное уравнение (8.2) для получения дифференциального уравнения в Частных производных для функции / (в предположении, что функции /их обладают всеми необходимыми свойствами дифференцируемости). Как мы увидим далее, в этом месте мы вправе действовать совершенно формально, так как 1) Гл. Ш, §3, ’ ' ----
в .дальнейшем мы построим метод для обоснования того» что любая функция, полученная таким несколько вольным путем, действительна является решением данного уравнения. Пусть S является бесконечно малой величиной. Тогда мы имеем (1) а) /(с, S + T) = /(C, T)4-S/T4-O(S), 0) c(S) = c+S[A«4-V(0)l+<>(S). b)/(c(S), T) = /(c+SM1c4-^(0)J, T) + o(S) = =/(C, T)+5(ac + ^(0), -^)+o(S). где через df/dc обозначен вектор (2) Of дс df] dci df dc2 df dcn Когда 5 стремится к нулю, максимум на интервале [О, S] при наших предположениях о непрерывности сходится к максимуму в точке S = 0, т. е. к максимуму по значениям величины ^(0). Учитывая рассмотренные выше соотношения (1), мы убеждаемся в том, что для уравнения (8.2) аналогом в бесконечно малом является нелинейное дифференциальное уравнение в частных производных <3) ^ = тах[(л1С + Лгг(0), f)], причем величина z(0) должна удовлетворять условиям (6.2). § 10. ПРИЛОЖЕНИЕ ДИФФЕРЕНЦИАЛЬНОГО УРАВНЕНИЯ В ЧАСТНЫХ ПРОИЗВОДНЫХ Важность уравнения (9.3) состоит в том, что оно позволяет нам определить решение в интервале [0, T-f-AT], если оно уже определено в интервале [0, Г] для всех начальных состояний. Г Оказывается, для большинства задач этого типа многие трудности легко преодолеваются в случае малого 7, так как для процессов малой продолжительности оптимальными являются очевидные грубо приближенные поведения. Поэтому теоретически мы имеем систематический метод продолжения решения вплоть до любого желаемого значения Г. Однако в следующей главе мы увидим, что, -хотя этот ;
метод является систематическим, детали, связанные с его применением, никоим образом не тривиальны. В следующем параграфе мы остановимся на анализе решения одной сравнительно простой задачи. Многое в этом анализе может быть опущено, если только определить структуру решения, которая во многих случаях подсказывается экономическими соображениями. § 11. ЧАСТНЫЙ ПРИМЕР Для иллюстрации описанного выше общего подхода рассмотрим вадачу максимизации величины х2(Т), где (1) х1(0) = с1> ^- = a2z2 — zv х2(0) = с2 и плотности распределений zv z2, как функции от /, удовлетворяют в интервале следующим ограничениям: (2) a) q, *2>0» б) q + в) z2 < хр г) х2>0. В этом случае плотности zt и z2 равномерно ограничены, и, используя свойство слабой сходимости или основываясь на классических теоремах вариационного исчисления, легко убедиться, что в данном случае максимум достигается. Следовательно, мы вполне обоснованно можем написать (3) f(Cy с2, T) = maxx2(71). [0. т\ Как и в общем случае, функция / удовлетворяет функциональному уравнению (4) /(q, q, S + T)=max/(x1(S),;x2(S), Т), Ю, Я] которое в пределе при S -> 0 приводит к дифференциальному уравнению в частных производных: ® if = [°1Z1 if + — if] • Мы напоминаем, что пока это уравнение является чисто формальным, так как нам не известно, обладав^ ли функция / необходимыми свойствами непрерывности.-.
Максимум берется по области, определяемой неравенствами (6) а) ООр z2, б) Zx-\-Z2^C2, в) г2 < q при дополнительном ограничении (7) a2z2— ^>0, если х2 = 0. Переменными являются zt = zt (0), z2 = z2 (0). Обрисуем теперь в общих чертах схему аналитических преобразований, которая позволит нам получить решение. Мы начнем с наиболее сложного случая, когда с2 < Для процесса с малой продолжительностью решение тривиально. Именно, мы имеем (8) zt = 0, z2 = х2, f = с2еа^т. Этого поведения придерживаются до тех пор, пока не возникнет „узкое место", т. е. пока с2 не превысит Используя оптимальное поведение, определяемое формулой (8), мы убеждаемся, что этот случай имеет место, когда Т больше, чем Тх — log(cjc^la2. Чтобы получить решение для значений Т > 7\, мы перепишем уравнение (5) в виде /пч df Г ( df df\ । df 1 v dT S(o) L 1 \ 1 dcA dc2 ) ' 2 dc2 2J Точка (^(0), £2(0)), где достигается максимум, зависит от знака й от величины коэффициентов при zr и z2. Для Т < 7\ мы имеем: (Ю) = 0^ = 0^. Пользуясь условием непрерывности производных dfldcr и dfldc2t мы можем подозревать, что для значений Г, ненамного превосходящих Т19 решение будет иметь вид (11) a) zx = 0, z2 = x2 для б) = 0, z2 — для 7\ <5 Т. Этому поведению соответствует функция / следующего вида: (12) f = b2c2 -h (Т — Tf) а2Ь2^, где значение 7\ —-то же, что и выше. Чтобы определить, при каких значениях Т (Т^ 7\) это поведение остается оптимальным, допустим, что рассматриваемый процесс начинается с момента S = 7\. Полагая С1 = ^1(Л)’ С2 = Г2(Л)’ записываем / в виде (13) /=< + а2<(7’— TJ.
Уравнение, заменяющее уравнение (9), имеет точно такой же вид, только вместо cv с2 в него входят c'v с', именно, „ df д? дсх дс2 Используя формулу (13), мы находим „ df df dcr дс2 df а* ~~т dc2 (14) df — max дТ z (Tj (15) । df 1 + а2 ~Т~Т Z2 • <4 -— (Т----Тi) 1» “г- *1 Коэффициент при zt отрицателен для значений Т < Т*= 7\Ц- l/^a^)» равен нулю в точке Т* и положителен для всех остальных значений Т. Следовательно, новое поведение, определяемое формулами (11), остается оптимальным для Т в интервале 1\^Т ^Т*. Кроме того, так как величина Т*—7\ не зависит от q и с2, то нам известен вид оптимального поведения и в остальной части йнтервала. Теперь остается определить вид оптимального поведения внутри интервала [О, Г] в общем случае, когда Т превосходит Т*. Рассматривая вершины на приведенном ниже рисунке, мы можем предположить, что оно имеет вид (16) Z±— Х2 Хр Z2— Хр Поучительно рассмотреть область, определяемую ограничениями (6), при с2 > cv При максимизации по ^z тремя критическими точками являются вершины Pt Q и, К, где Р = (0, ct), Q = (c2 — cv ct), R = (c2t 0). В случае, когда с2 превосходит q, принцип непрерывности приводит к. выбору Q как максимизирующей вершины».
234 Вместо непосредственной проверки этого утверждения (которую можно фактически осуществить), мы опишем в следующем параграфе более изящный метод, использующий линейность рассматриваемого процесса. Этот метод можно использовать не только для проверки предлагаемых решений, но и в качестве теоретического аппарата для определения природы оптимальных поведений. § 12. ДВОЙСТВЕННАЯ ЗАДАЧА Для иллюстрации принципов, которыми мы будем пользоваться, возьмем наше основное уравнение в виде (1) ^=Az’ *(<>)=*. со следующими ограничениями: (2) a) z>0, б) Bz^x. Заметим, что уравнение (6.1) всегда может быть записано в виде (1) при если переписать его сначала следующим образом: /У у- (3) ^ = A^ + A2z, x(0) = G с ограничениями (4) а) £>0, > б) Bz^x, в) w^x, и затем объединить векторы w и z в некоторый единый вектор. Следовательно, к уравнению типа (6.1) эти методы также непосредственно применимы. t Так как + Azdt, то ограничение (26) можно переписать о следующим образом: t (5) • Bz-\- $ Czdt^c (р = — А). о Задача максимизации величины (х(Т), а) равносильна задаче макси-т т мизации выражения J* (Az, a)dt = J* (z, a') dt, где a' — Л'а. Здесь о о через А' обозначена матрица, транспонированная к Л.
: Возвращаясь опять к началу, мы рассмотрим задачу максимизации т функционала J—f &')dt на множестве всех функций г, удовле* о творяющих ограничениям (6) а) *>0, * б) Bz + J* Cz dtt с. о Обозначим через w(/) некоторый неотрицательный вектор той же размерности, что и вектор с. Тогда, используя условие (66), мы получаем г/ t \ т (7) Г I w, + J C^d^j dt J* (w, c)dt. O' 0 Io Пусть, как и выше, через В' обозначена матрица, транспонированная к В. Легко видеть, что (Bz, w) = (z, B'w). Для произвольной постоянной матрицы С интегрирование по частям дает Пользуясь этими двумя равенствами, находим (9) t Bz-\- f Cz dtx о . Предположим, что можно найти неотрицательный вектор = удовлетворяющий неравенству (10) Тогда мы приходим к следующей цепочке равенств и неравенств: т Т[ t \ (11) J*(w, c)dt^ +f Czdti) dt = о О' о / Т \ Т ^C'wdt:, zjdt^ J* (a', z)dt. t • о Отсюда ясно, что т т (12) inf f (w, c)dt^ sup j (zt a')dt, о 0
где точные нижняя и верхняя границы ищутся на множестве всех функций w и z, удовлетворяющих неравенствам (10) и (66). В случае существования минимума и максимума приведенные рассуждения остаются в силе. Если, однако, их существование предполагать нельзя, то появятся дельта-функции, и мы должны переформулировать эти задачи с помощью интегралов Стильтьеса. При этом возни* * кает ряд интересных и трудных задач, которые мы не будем здесь рассматриватьх). Если оба экстремума в неравенстве (12) равны, то, очевидно, должны выполняться следующие соотношения2): (t Bz-\~ J* Сz dt о (т B'w -f" J* C,ew dt t Установим теперь то важное обстоятельство, что справедливо и обратное утверждение: любая пара неотрицательных z и w, удовлетворяющих условиям (13) и первоначальным ограничениям, является решением рассматриваемых задач на максимум и минимум. Для доказательства заметим, что если выполняются условия (13), то все соотношения (11) превращаются в равенства. Предположим, что какой-то другой вектор z удовлетворяет всем ограничениям и что для него т т (14) J* (z, a')dt < J* (z, a'}dt. о 0 Тогда, используя вектор до, соответствующий вектору z, мы приходим к противоречию: = J (z, a') dt. О *) В частности,. мы не будем рассматривать связь с теоремами о минимаксе в теории игр, соответствующими известным результатам для дискретной задачи. *) С точностью до множеств меры нуль.
Следовательно, мы нашли метод для проверки справедливости угаданного решения. По данному z мы определяем вектор w с помощью неравенств (13). Получив w, мы проверяем, удовлетворяет или не удовлетворяет w заданным ограничениям. (В следующем параграфе мы подробно рассмотрим это на примере задачи из § 11.) При использовании этого метода возникают трудности, если вектор w не определяется однозначно из условий (13). В этом случае должны быть рассмотрены различные альтернативные решения. § 13. ПРОВЕРКА РЕШЕНИЯ, ПОСТРОЕННОГО В § 11 Используя описанный выше метод, мы находим, что для задачи, рассмотренной в§ 11, двойственной является задача минимизации т функционала J* (CjWj 4~ ^2^2) dt по всем функциям ^(/) и w2(/), о где у и tsd связаны уравнениями4 (1) -^- = —Л(Л=1- = —a2w2, Уг{Т)^а2, а ограничения таковы: (2) а) то2>-0, б) Wt-|-W2>J>2, в) W2>Jp Уравнения (12.13) приобретают теперь следующий вид: (3) а) если z2 < то Wi = 0, б) если ^4-^2 < ; х2, то w2 = 0, • в) еслй w2 > у19 то ^==0, - г) если 4~ ^2' > то *2 = °- Мы опустили условия, соответствующие неравенству х2^>0, так как мы предполагаем, что предложенное оптимальное поведение распределения автоматически удовлетворяет условию х2 0. В действительности это так и есть. 1) Заметим, что двойственный процесс протекает в обратном направлении во времени.
Мы хотим проверить, что поведение, максимизирующее величину х2(Т), задается следующим образом: (4) а) гх(/) = 0, z2=min(x1, хг) Для Т— < t Т; (1) если то г, —О, z2 = x2, ] Л ~ б) для 0 < t < Т (2) если х2 xv то zx = х2 — хр z2 = xt J 1 ^а2 Легко видеть, что это допустимое поведение, при котором вектор zx = x2— хх действительно неотрицателен, когда zx и z2 имеют указанные выше значения. По данному вектору z мы можем с помощью условий (3) определить вектор w, а затем проверить согласованность. При этом приходится рассматривать два случая в зависимости от того, превосходит ли функция х2 в какой-либо точке функцию хх или нет. Предположим, что в этом случае, если используются со- ответствующие поведения, функция х2 может превосходить функцию хР Случай I: Т—<С Л Решение дается в следующем виде: (5) для для z^ — 0, z2 — х2, = 0, z2 = Для значений t < 1\ эти результаты вместе с условиями (3) при- водят к следующему: (6) для 7\ < Т для ТХ^Т Wt (О = 0, (0 = о, (О = Л(0. (0 = 3'2(0- Используя уравнения (1), мы получаем для значений / > 7\ (7) Л (0 == а2, У1 (t) = - 1 + ^2 (Г — 0 < 0, тогда как для £ < 7\ имеем (8) j/2(O = a2^<T>'#)>0, Л (/) = - 1 4- аха2 (Т — 7\) — < 0. Следовательно, неравенства wp w2^0, w2^> j/p 4-\w2 У2 в соответствующих интервалах выполняются. Случай II: Т( < Т—\!(аха^. Этот случай наиболее интересен. Векторы z и w определяются здесь следующим образом: (9) для для для zx = 0, w2 = 0, z2 = xlt wx = y2; zx = x2—xv w2 = jp z2=xp ^[^=y2—yi; zx = 0t Wj = 0, z2 = x2, w2 = j/2
В интервале Т—^.t мы имеем (Ю) Л(О = «2> Л(0 = “1+^2(^ —О- Следовательно, в этом интервале = Заметим, что, yJT—l/(#i#2)] —0- При —l/(^i^2) мы имеем уравнения (11) -^ = -а2Л4-(^+1)Л. dy<> Покажем, что в этом интервале уг ^0, У2^> У1- Беря за начальную точку t = T — в которой эти неравенства соблюдаются, будем считать, что время изменяется в обратном направлении. При этом наши уравнения примут вид 02) • ^- = a2y2 — (l-\-al)yv ЧГ = °2j2: Отсюда получаем (13) -^-(Л —Л) = (14-«1)Л- Следовательно, если функция yt неотрицательна, то выполняется неравенство у2 — Ясно, что производная dyjdt, будучи по- ложительной в начальной точке, сохраняет свой знак все время, пока точка у2) находится над прямой а2у2 — (1 •+о1)у1.=х0. Когда же она попадает на эту прямую, мы имеем dyjdt = 0, т. е. эта точка является для функции ух либо точкой максимума, либо точкой перегиба. Обе эти возможности исключены, так как (14) „ <У2 dt* ~~ 2 dt d+«i) # =°2Л>0- Последнее показывает нам, что в рассматриваемом интервале функции и w2 неотрицательны. Наконец, для значений t < 7\ имеем (15) dy\ _ _ dt ~У2’ dt ~ а2У2, При уменьшении t функция у2 возрастает, а функция ух убывает. Следовательно, неравенство у2 ух остается справедливым. Это завершает проверку. . ,
§ 14. ЧИСЛЕННОЕ РЕШЕНИЕ Задача максимизации величины хя, где (1) = x0 = ct, Ук+1 = й21хй 4“ а22Ук + &21гк 4“ ^22^' Уо — с2> на множестве всех последовательностей {^ft} и {wfe}, удовлетворяющих условиям вида (2) dilute 4~ ^i2^k ^i3^k 4~ ^иУк^ ^=1» 2, - Л4, как известно, может быть сведена к вычислению членов последовательности <т2)}, ^=1, 2............N, где (3) ^2) = с1» fjv+i(cv ^2) = max[/7V(anc1+a12c24-.^ll^4-^12^, a2i^i 4- ^22^2 + 4- b2iz 4- ^22w)], а область R определяется неравенствами (4) J^4- di2<w <^i4- ^2» *=1> 2..............Al. Хотя нетрудно доказать, что этот максимум достигается в некоторой вершине области, определенной неравенствами (4) (мы рекомендуем это читателю в качестве упражнения), и, значит, вычисление его на каждом шаге тривиально, однако нам приходится все-таки табулировать последовательность функций двух переменных. Оказывается, что в этом случае решение задачи особенно затрудняется тем фактом, что решетка в плоскости (ср с2) может увеличиваться. Другими словами, если мы хотим найти значение fN(clt с2) в области О^^^Ср 0<С^2^с2» то, возможно, нам придется вычислять значения функции в большей области, fN_2 в еще большей и т. д. Ясно, что каждый раз, когда возникает подобная ситуация, вычисления требуют много времени и средств. Покажем теперь, что вычисление членов последовательности {/дг(Ср с2)} можно одновременно свести, во-первых, к вычислению членов двух последовательностей функций одной переменной и, во-вторых, к случаю, когда решетка фиксированная. Нашим основным орудием является следующее свойство однородности функции (Ср с2): для всех cv с2 > О (5) = J). fn(CV С2) = С/л(^ • 9*
Мы можем, таким образом, переписать уравнение (3) в виде (6) fN+1 ^1* ^2) ~ = ™х [«.1Л +а,л (1. + =т [<**++^+•1 )J Мы видим, что вычисление значений функции fN+l(cv с2) можно осуществить, если известны две функции: (7) gNM==fN(x, 1), 0<х<1, (%) —“ fN (1 Q % 1 * Следовательно, нахождение последовательности с2)} может быть сведено к вычислению членов двух последовательностей (х)}, {^jv (*)}• § 15. НЕЛИНЕЙНЫЕ ЗАДАЧИ Ряд задач в математическом анализе и в его приложениях к проблемам управления, возникающим в инженерном деле и в математической экономике, сводятся к максимизации или минимизации интеграла вида т (I) J(z) = j* F (х^, Х2, • ••» Хп, Zj, £2» •••• dt О на множестве всех функций (/), удовлетворяющих следующим ограничениям: (2) a) <?), *=1.....k, б) Rj(x, г)<0, /=1,2........I. В некоторых случаях нелинейность задачи приводит к более полному анализу, позволяя нам определить экстремаль с помощью классических вариационных методов, а не путем испытания вершин, как это приходилось делать в линейных задачах. В тех случаях, когда в задаче имеются ограничения указанного выше типа, мы должны одновременно сочетать оба этих подхода. Во всех случаях метод функциональных уравнений может быть использован как для аналитических, так и для вычислительных целей. Задачи этого типа будут рассмотрены в гл. IX.
УПРАЖНЕНИЯ И ПРОБЛЕМНЫЕ ЗАДАЧИ К ГЛАВЕ VI 1. Рассмотреть задачу о максимизации линейной формы п L(x) = ^i i*-l п при ограничениях хг-^0 и J=L 2, ..., М. Пред- полагается, что коэффициенты и положительны. Пусть fn(cv с2....см)=тах£(х). {*<} Показать, что /1(^1. С2...см)=/’1П1'п^-> i uil fn+l(ei’ с2* • • • * см> = m^X l^n+ix~bfn(cl — а1п+1х» • • • * — аЛ/п+1Х)]9 где 2. Показать, что fn(ci9 с2, ...» сп) является вогнутой функцией переменных q при q = 0. 3. Какой вывод о числе ненулевых максимизирующих последовательностей Xi может быть сделан на основании этого результата? - 4. Рассмотреть приведенную выше задачу для случаев, когда М= 1, 2 или 3, и определить зависимость максимизирующей последовательности Xi от параметров Cj9 а также аналитический вид функ-ЦИИ 5. Показать, что табулирование функции fn(cl9 c2t ...» см) всегда можно свести к табулированию функции fn(ci9 с2, .... 1). Установить соответствующий результат для рассмотренного выше процесса „с узким местом". 6. Рассмотреть задачу о максимизации величины и(Т) по всем функциям v(t)9 удовлетворяющим условию 0 v и в интервале 0 t Г, если = аи 4- v, и (0) = е. пт 1 х ' Зл&ьъ все рассматриваемые величины скаляры.
7. Решить общую задачу о максимизации скалярного произведения (х(Т), а) по всем векторам y(t)9 удовлетворяющим условию О у х в интервале 0 t Т, если — = Ах-\-Ву, х(0) = с. Здесь х, у, с и а — векторы, а А и В — матрицы. 8. Показать, что задача максимизации величины х2(Т) при условиях а) = a2z2 — z3, х2 (0) — с2, = Ь^\3z3 — Тг-^г* хз (0)= сз» где z2 и z3 — функции от /, подчиненные ограничениям б) 1. ^2 + ^3<х2, 2- Т2^2 + Тз^з<^з. 3. z2, z3 0, при соответствующих предположениях о непрерывности равносильна решению дифференциального уравнения в частных производных ч «V Г/ df df \ . , df df 1 в) =п™ ч. где D(z) — область, определяемая неравенствами (б). Предполагается, «что все входящие в задачу параметры — неотрицательные и что / = f(c2, с3, /)• 9. Показать, что оптимальные поведения зависят только от величины отношения г — с2]с3, т. е. х2/х3, и от остающегося времени Т. 10. Определить вид решения для малых значений Т, 11. Решить рассматриваемую задачу для частного случая #3=0. БИБЛИОГРАФИЯ И КОММЕНТАРИИ К ГЛАВЕ VI § 1. Изложение теории линейного программирования можно найти в сборнике под редакцией Купманса (Activity analysis of production and ^allocation, ed. by T. C. Koopmans, Cowles Commission, U. of Chicago, 1951), где имеется описание симплекс-метода Данцига и рассмотрен ряд приложений1). Изложение итеративного метода другого типа, метода .потока* Бол- 9 См. также сборник .Линейные неравенства и смежные вопросы*, ИЛ> М., 1959. — Прим. ped.
дырева, можно найти в его работе [Boldyreff A., Determination of the maximal steady flow of traffic through a railroad network, RAND Corporation, 1955, Р-687]. Оба они являются „релаксационными* методами, на важность которых впервые указал Р. Саусвелл. § 5. Методы и результаты этого и следующего параграфов были опубликованы в работе Веллмана [Bellman R., Bottleneck problems and dynamic programming, Proc, Nat. Acad. Scl. USA, 39 (1953)] и подробно изложены Веллманом в статье: Bellman R., Bottleneck problems, functional equations and dynamic programming, Econometrica, 23 (1955), 73—87. § 9. Строгая теория этих вариационных задач будет во всяком случае опираться на интегралы Лебега — Стильтьеса и, вероятнее всего, на теорию обобщенных функций Шварца. Очень может быть, что это послужит поводом к изучению вариационных задач, содержащих обобщенные функции. § 12. Как и в дискретном случае, эту двойственную задачу можно изучить наиболее последовательным образом, если рассмотреть задачу на минимакс, содержащую как первоначальный, так и двойственный процессы. В случае, когда функции, описывающие поведения, равномерно ограничены в силу имеющихся в задаче условий, можно установить ряд результатов о существовании значения соответствующей игры и об эквивалентности, min-max = max-min, используя сведения из теории непрерывных игр. Общий случай, однако, требует уже использования теории игр в пространстве обобщенных функций Шварца. Примечательно, что так много выводов можно сделать только на основании легко получаемого результата (12.12). § 13. Леман построил непрерывный аналог симплекс-метода Данцига, который можно использовать как систематическую процедуру для получения решений вариационных задач этого Типа. Предварительное изложение его результатов можно найти в работе L е h m a n R. S., On the continuous simplex method, RM-1386, RAND Corporation, 1954.
ЗАДАЧИ «НА УЗКИЕ МЕСТА». ПРИМЕРЫ § 1. ВВЕДЕНИЕ В предыдущей главе мы рассмотрели многошаговый процесс производства, включающего три отрасли промышленности, которые мы назвали автомобильной, сталелитейной и инструментальной отраслями. Исходя из этой задачи, мы пришли к некоторой обшей теоретической формулировке одного класса непрерывных многошаговых процессов производства в терминах понятий и методов теории динамического программирования. Цель настоящей главы состоит в том, чтобы на примере детального изучения некоторого частного случая показать, что с помощью нашего нового подхода можно получить явные аналитические решения для задач этого более общего типа. Математическая сторона таких задач доставляет много трудностей, так что эти задачи ни в каком смысле нельзя еще считать освоенными. Мы рассмотрим упрощенный двухотраслевой процесс, включающий автомобильную и сталелитейную отрасли. О высокой степени огрубления или, выражаясь более педантично, укрупнения (conglomeration) свидетельствует наше предположение о том, что в любой момент времени t состояние этой системы отраслей полностью определяется следующими величинами: (1) xr(t)— запас автомобилей в момент t, х2(0—производственная мощность автомобильной отрасли в момент Z, хз(0 — запас стали в момент t, х4(0— производственная мощность сталелитейной отрасли в момент /. Считая, что t изменяется непрерывно, мы должны в каждый момент определить плотности распределения запаса стали для трех различных целей: (2) а) производство автомобилей, б) строительство автомобильных заводов, т. е. увеличение производственной мощности автомобильной отрасли, в) строительство сталелитейных заводов, т. е. увеличение производственной мощности сталелитейной отрасли.
Последние две из этих трех целей должны быть подчинены основной задаче максимизации общего числа автомобилей, выпускаемых за период времени Г, т. е. максимизации величины х^Т). Основные предположения, положенные в основу нашей модели, состоят в следующем: единицы измерения запаса и производственной мощности выбраны так, что и в сталелитейной и в автомобильной отраслях для производства единицы запаса за единицу времени требуется единица соответствующей производственной мощности. Пусть для выпуска одного автомобиля требуется Ъх единиц стали, а для увеличения на одну единицу автомобильной и сталелитейной производственных мощностей —соответственно Ь2 и Ь4 единиц стали. При этом предполагается, что не требуется стали для производства дополнительного ее количества. Очень важным является допущение об отсутствии отставания во времени между выделением ресурса и увеличением производственной мощности. Задачи, возникающие при учете этого времени запаздывания, являются значительно более трудными и рассматриваться здесь не будут. Пусть (3) a) z1(t) — скорость производства автомобилей, б) ^г(0 — скорость роста производственной мощности автомобильной отрасли, в) ^з(0 — скорость производства стали, г) ^(0 — скорость роста производственной мощности сталелитейной отрасли. Рассуждая так же, как и в предыдущей главе, мы получаем следующую систему уравнений: rf У* (4) ^- = Zl(t), ^(0) = ^, -^ = г2(0, Х2(О) = С2, /У у* = *з(0 — Mi (0 — М2 (f) — Ь4г4 (/), Х3 (0) = с3, = » х4(0)=с4, в которой функции Zi и Xi должны удовлетворять ограничениям вида (5) а) ^(/)Кх2(/), б) х3(/)<х4(/), в)^(/)>0. /=1, 2,3, 4, г) х, (/)>().
Из этих условий первые два связаны с ограниченностью производственных мощностей, т. е. являются ограничениями типа „узкого места*, третье требует, чтобы скорости производства были неотрицательными, т. е. чтобы не было разрушения или „каннибализма", и, наконец, четвертое условие утверждает, что величина запаса стали должна быть неотрицательной, что означает невозможность брать металл в долг. Наша задача состоит в определении функций удовлетворяющих условиям (5) и максимизирующих величину xt(T). Благодаря отсутствию явного ограничения функций z2 и z± сверху возникают различные трудности, которые должны быть преодолены с помощью дельта-функций. § 2. ПРЕДВАРИТЕЛЬНЫЕ ЗАМЕЧАНИЯ В § 1 мы математически сформулировали задачу использования сталелитейной и автомобильной отраслей промышленности для максимизации выпуска автомобилей. Будем исходить из уравнений (1.4) И (1.6). Эти уравнения можно объединить в равносильную им систему интегральных неравенств: (1) zv < х2, О <х3, t г1 (0---- f Z2 (S) ds < С2» О t f (— z3 (s) 4- Mi (s) 4- b2z2 (s) 4- b<zt (s)) ds < c3, 0 z3 < x4* t z3(f) — f Zilsjds^Ct. 0 Наша задача является частным случаем следующей более общей задачи. Обозначим через Z множество всех векторных функций z(t). удовлетворяющих условиям (2) a) z(0>0, t б) Вг(04- fCz(s)ds^c, О где В и С—матрицы, а с — постоянный вектор. Мы хотим найти в множестве Z векторную функцию z(t), которая максимизирует
функционал (3) т a)dt. О Эту задачу мы рассматривали в предыдущей главе. Там было показано, что имеется двойственная задача, которая дает достаточное условие того, чтобы функция z(t) из множества Z являлась максимизирующим вектором, или, другими словами, допустимое решение было оптимальным. v Обозначим через W множество векторных функций w(/), для которых (4) W)>0, т B'w (/) -|- С' (s) ds а, г где В' и Сг — матрицы, транспонированные к В и С. Двойственная т задача состоит в определении минимума интеграла J* (^(/), c)dt на о множестве функций w £ W. Как было показано в § 12 гл. VI, для всех функций z и w из соответственных классов Z и W выполняется неравенство (5) т т f f c)dt. 0 0 Если мы сможем найти две. векторные функции z и w, для которых соотношения (5) выполняются со знаком равенства, то на них будет достигаться соответственно максимум и минимум в двух рассматриваемых задачах. Такие две векторные функции, для которых в выражении (5) имеет место равенство, будем называть двойственными по отношению друг к Лругу. Таким образом, достаточное условие того, чтобы функция z£Z была оптимальным решением, состоит в том, чтобы для нее нащелся двойственный элемент <w£W. Для рассмотренной выше задачи со сталелитейной и автомобильной отраслями мы имеем: /1 0 0 0\ /0—1 0 0 \ /1 \ (6) В=|0 О О 0J, С==Ь1 b2 —1 бД а=1 0 | \0 0 1 0/ \0 О Q _ 1 / \0 Z
Поэтому двойственная система неравенств имеет вид (7) т = w2 (/) + J* (s) ds — 1 0, t т т l2 = — J* w2 (s) ds + b2 J (s) ds >> 0, t t T l3==EW4(t)— f w3(s) ds^O, t T T l4=sb4 £ <w3 (s) ds — f (s) ds 0. t t Мы обозначим компоненты вектора w через w2, и ^4„ чтобы была ясной их связь с неравенствами z4^x2, 0-^х3, Условия оптимальности, т. е. условия того, чтобы соотношение (5) выполнялось co знаком равенства, , состоят в следующем: (8) если ^(/)>0, то /1(0 = 0 (/=1,2, 3,4), если z4 (t) < х2 (£), то w2 (0 = 0. если 0<х3(7), то w3(/) = 0, если z3tf) < х4(/), то К’.. (/) = (). Условия оптимальности эквивалентны следующим условиям: (9) если /до: > 0, то ^(0 = 0 (/=1,2, 3,4), если ^2 (Ох >0, то г1(0 = х2(/), если (0 х > о, то х3(0 —0, если ^4 (Ох > 0, то z3(/) = x4(/). § 3. ДЕЛЬТА-ФУНКЦИИ Прежде чем перейти к нахождению решения, рассмотрим предстоящее использование „дельта-функции". Вполне может случиться так, что рассмотренные выше общие задачи не имеют решений, если множества Z и W состоят только из векторов, компоненты которых являются интегрируемыми функциями. Фактически, как мы позже увидим, так обычно и бывает в задаче с автомобильной и сталелитейной отраслями. Этой трудности можно, однако, избежать, если расширить множества Z и W так, чтобы они содержали векторные „функции", компоненты которых являются суммами интегрируемых функций и „дельта-функций". В этих расширенных классах рассматриваемые задачи уже имеют решения. Под дельта-функцией,
t J* o)B(s — /0) ср (s) ds = J о I сконцентрированной в точке tQ, с весом со, которую мы обозначим через о)В(/ — /0), мы понимаем такую обобщенную функцию, что для каждой функции ср, непрерывной в точке tQ, 0, если t < /0, шер (Q» если t > /0. [Для t = tQ этот интеграл не определен, за исключением того случая, когда ср (£0) = 0; в этом случае интеграл полагается равным нулю.] Использование дельта-функций может быть строго обосновано при помощи теории интегралов Стильтьеса. Другой подход заключается в том, что дельта-функции рассматриваются как расширение пространства интегрируемых функций с помощью предельного процесса, аналогичного тому, который применяется для получения вещественных чисел из рациональных х). Условия оптимальности остаются прежними даже в тех случаях, когда классы Z и W расширены описанным способом. Заметим, что если в качестве компонент векторов z и w допускаются только измеримые функции, условия оптимальности могут нарушаться в изолированных точках и даже на множествах меры нуль. Но если один из векторов, например w, имеет в качестве компоненты дельтафункцию в точке Zo, то для вектора zt двойственного вектору w, в точке /0 соответствующие условия оптимальности должны выполняться. Мы увидим далее, что для нахождения оптимального вектора нам никогда не придется пользоваться дельта-функциями, сконцентрированными в точках, отличных от нуля. Интуитивно это означает, что в точках, отличных от начала отсчета, скачкообразные изменения не являются необходимыми. § 4. РЕШЕНИЕ Мы будем применять метод, состоящий в построении ряда w-решений, для которых можно найти двойственные элементы z из класса Z и, следовательно, получить решения нашей задачи. Главную трудность представляет построение w-решений с нужными свойствами. При этом мы будем сочетать догадки с использованием тех свойств, которыми должен облагать оптимальный вектор z. Догадками здесь можно пренебречь только ценой рассмотрения гораздо большего числа случаев. Прежде всего ясно, что всегда должно выполняться равенство z3 = x4. Произведя слишком много стали, мы во всяком случае не *) Изучение получаемых таким образом обобщенных функций в настоящее время разрослось в целую математическую дисциплину. См., например, Гельфанд И. М., Шилов Г. Е., Обобщенные функции и действия над ними, Физматгиз, 1958. —Прим. ред.
причиним вреда. Это означает, что для всех значений I должно быть т Z3(/) = 0, т. е. w4(Z) = J* w3(s)6fc. Остальные неравенства (2.7) при-t нимают вид (1) /^^(0 + ^(0—1>0, т = — J w2(s)ds>0, t т l4=sb4w4(f)— J* 'w4(s)ds^0. t Ясно, что непосредственно перед моментом Т автомобили должны производиться, так как мы хотим максимизировать величину хг в момент Т. Следовательно, ^>0, откуда следует, что lt = 0. Однако один только этот факт не дает еще нам достаточной информации для нахождения функций w2 и w4. Построим сначала w-решение с тем свойством, что Z2=0 вблизи точки Т. (Это решение назовем базисным w-рещением.) Это означает, что w4(T) = 0. Тогда на основании (1) мы имеем (2) w4(/)==-^-(l —е-МТ-О/ь.), W2 (0 — Мы видим, что все функции w2, w3 и w4 остаются положительными при убывании t. Следует проверить, выполняется ли неравенство Z4^>0. В соответствии с выбором вектора w находим (3) /4 = — (1 —е-МГ-0/ft.)—_c-b.(r-t)/b.). Ь1 °! Правая часть этого равенства положительна для малых значений Т—t и отрицательна, когда разность Т — t велика. Обозначим через tQ то значение Z, при котором правая часть равна нулю. Тогда разность Т — tQ будет решением уравнения (4) Т—/0 = (^ + ^-)(1 — е-ь^т-^). Таким образом, в точке tQ мы должны отбросить одно из уравл нений: /х = 0 или /2=0. Попытаемся теперь выбрать функцию w так, чтобы для значений Л менщодх z0, было 4 = 0 и 4 = 0. Мы
имеем (5) w4(O = w4(/o)^°-()/b*, w2 (0 = 1 — МДА») e(to~tVb'. Для проверки того, что /2^0, найдем производную этой функции. Мы получаем (6) 4г = Ъ* + w2 = 1 - к + w4 (/0) e^-tvb\ Для того чтобы /2^>0, достаточно выполнение неравенства dl2[dt для всех значений t Последнее будет иметь место, если <7> что на основании (2) и (4) равносильно условию Т — Это неравенство можно проверить, если подставить Ь4 вместо Т — t в формулу (3) и затем убедиться, что полученная при этом величина является положительной. Мы имеем (В) = e-bfijb^|ег>>м>2 -(14--М4 jj> 0. Следовательно, Z2^>0 для всех значений t при указанном выше выборе функции w. Из формул (5) видно, что функции w4 и w3 остаются положительными. Таким образом, выбор векторной функции w в соответствии с формулами (5) будет удовлетворительным до тех пор, пока функция w2 не. обратится в нуль. Предположим, что это произойдет при t = tv Тогда на основании (2) и (4) мы получаем (9) Ь4 + Ь2/Ьр е - T^tQ • Посмотрим, можно ли для значений /, меныних> чем tv выбрать w2—0 и при этом иметь /4 = 0. Мы видим, что w4 > 0 и w3>0. Кроме того, dl2ldt = b2 dwjdt <*0, т- е- /2>0, и dljdt — ^’b'ldwjdt <0, так что ^>0. Следовательно, сделанный выбор векторной функции w будет верным для всех значений Наше базисное решение может быть сведено в помещаемую ниже таблицу. В этой таблице перечислены также те свойства, которыми должна обладать векторная функция z, двойственная этому ^-решению. Если поведение, описываемое любым вектором z с этими свойствами, является допустимым (т. е. удовлетворяет налагаемым на Z ограничениям),, то оно будет и оптимальным^ •
Таблица 1 t< Zi 4 < t < t0 Zo < t< T h > 0 zx — 0 l4 = 0 /j = 0 h > 0 z2 = 0 /2 > 0 Z2 = 0 /2 = 0 . h — 0 4=o /3 = o Z4 = 0 Z4=o /4>0 ^4 = 0 w2 = 0 w2 > 0 zx = x2 W2 > 0 —— x2 ^3> 0 x3 = 0 w3 > 0 x3 — 0 w3> 0 x3 == 0 W4 > 0 z3 = x4 vu4 > 0 z3 = x4 w4 > 0 ^3 ~ -^4 Посмотрим, как можно использовать эту таблицу для нахождения частного решения задачи с автомобильной и сталелитейной отраслями. Предположим на время, что £3 = 0. Для значений t мы должны иметь (10) ^=0, г2=0, 23 = х4, г4 = ^-- В интервале tx < t < tQ нам следует выбрать (11) ^ = x2, z2=0, z3 = x4, z4 - Такой выбор можно произвести в том и только в том случае, когда х4(/х)—Предположим, что это неравенство справедливо. Тогда в интервале /0 < t < Т мы должны иметь (12) zx = х2, z2— z3 — x4, z4 — 0, что возможно, если х4(/х)— Таким образом, мы видим, что при некоторых начальных условиях мы можем найти оптимальное решение. § 5. МОДИФИЦИРОВАННОЕ w-РЕШЕНИЕ Как уже отмечалось, если х4(/х)— btx2(f^ < 0. то задача осложняется. Для успешной работы над этим случаем рассмотрим модификацию базисного ^-решения (табл. 1). Обозначим через uQ некоторую точку из интервала Т]. Для каждой такой точки uQ мы определяем решение следующим образом. В интервале uQ < t < Т пусть w(Z) совпадает с базисным решением. Для значений t < zi0 выбираем ^2(f) = 0. Для значений I <С но близких к uQt полагаем w4 (0— Г/йр так что 1^ — 0. При таком
выборе в некотором интервале слева от uQ должно быть Z4 > 0. Обозначим через точку, в которой функция Z4 обращается в нуль при данном выборе w. Для значений t < определяем w так, чтобы Z4 = 0. Легко видеть, что при таком выборе Zx >0, /2 > 0, «>з > 0 и w4 > 0 для всех значений t < В результате описанного построения мы получаем некоторое w-решение для каждого из интервала [Zp Т]. Заметим, что если = то u1 — tv и это решение тождественно совпадает с нашим базисным решением (табл. 1). Отметим также, что непрерывно зависит от aQ. Так как иг = Т— Ь4 при uQ=T, то ^-решение существует для каждого значения в интервале [/р Т — й4]. Построенные w-решения, а также свойства соответствующих z-решений сведены в следующую таблицу. Таблица 2 t < «1 "1 < t < Uq Uq< Z<7 t < Zq uQ<t< :T t0<t<T 4 >0 0 4 = 0 К = 0 — 0 4 >0 z2 = 0 4 > 0 — 0 4 >0 Z2 = 0 4 = 0 4 = 0 4= 0 4 = 0 4 = 0 4 = 0 4> 0 z4 = 0 4 = 0 4> 0 z4 = 0 = 0 w2 = 0 w2 > 0 = x2 W2> 0 Z! = X2 W3 > 0 xs = 0 0 >0 x3 = 0 ^3> 0 x3 = O w4 >0 £3 = X4 w4 > 0 £3 = x4 w4 >0 z3 = x4 W4 > 0 z3 = x4 Так как есть дельта-функция в точке н0, должно быть х3(«о) = О. Заметим, что при uQ > tQ не существует /, удовлетворяющего условиям, указанным в третьем столбце таблицы; если же uQ=Tt то не найдется /, удовлетворяющего условиям, приведенным в по* Следнем столбце. § 6. РАВНОВЕСНОЕ РЕШЕНИЕ В ряде случаев представляется естественным выбор следующего поведения: израсходовать начальный запас стали (т. е. уменьшить х3 до нуля) таким образом, чтобы в результате стало x4 = Z\x2. После этого увеличение производственных мощностей уже не является необходимым, и вся имеющаяся сталь может быть использована для производства автомобилей. Так как и z2, и z4 в общем случае должны быть дельта-функциями, то выбор такого поведения требует, чтобы для двойственной^ ему функции w было Z2(0) = 0 и Z4(0)=0. Построим4 «r-решение; обладающее этим свойством, -
Прежде всего заметим, что наше базисное решение имеет указанное свойство, если Т таково, что /о = О. Это наводит на мысль, что можно попробовать вЗять (1) да4(О = а<?-мт"о/ь’ + ₽, где а и р—постоянные. Если w2 выбрано так, что ^ = 0, то неравенства (4.1) принимают вид т (2) /2 = ^4(0_(Т —/) + &, J w4(s)ds>0, t т l4 = b4w4(f)— f w4(s)ds^0. i Если Z2 (0) = Z4 (0) = 0, то Полагая Е = е~ь*т/\ мы получаем из формул (1) — (3) следующие два уравнения для а и f: (4) й2а + (й2 + ^Т)₽ = Л (Ь2 + Ьф4) Еа + (&2 + ₽ =; Т. Решение этих уравнений позволит найти w, для которого /2(0)==» == /4 (0) = 0. Мы имеем W «=т|! - ? = i | X + ьМ е ; | = Г '»• <1 - V - ».ад. где (б) ‘-1л+«« Таким образом, (7) А = (b2 + brb4) Е (Ь2е^т/ь. _ъ2-ЬхТ)> > (b2 + Ь.Ь4) Е (b2 + bxT — Ь2 — ЬХТ) = б. Предположим теперь, что Т — tQ^T ^Ь4. Тогда из формулы (5) видно, что а<;0. Проверим теперь, что построенная нами векторная функция w в интервале 0 t Т имеет неотрицательные компоненты w2(Z), w3(f) и w4(Z)., Это равносильно проверке неравенств ^4 (О С l/^i и dwjdt ^0. Мы Имеем ^4/JZ=a^1/ft2^b»(r"^/&2<:0. Поэтому достаточно убедиться в том, что и w4(0)X^
'Гак как Т — tQ^T, то из формул (4.4) и (3) мы получим, что /ох ... /Пч__ т T — tQ К + ^2/^1 _ 4 ^2+^1^4 ^2+ ^1^4 ^2 Н“ ^1^4 И (9) ™4 (D - а + ₽ - [(^4 + -^) (1 - F) - Г] > 0. Наконец, мы должны проверить, что в интервале /2 >> 0 и /4 0. Так как (10) _^ = Z,2^ + 1—^(/)=1_^₽ и 12(Т) = b2tw^(T) >.0, то /2^>0 для всех значений t из [0, Т]. Кроме того, нам известно, что /4(Т) = &4w4 (Т);> 0. Поэтому, если мы покажем, что d2/4/d/2<;0, то будет доказано, что /4 0 для всех значений t из [0, Г]. Но 411) Это завершает доказательство того, что построенное нами w является решением. Его свойство вместе со свойствами двойственной ему функции л сведены в следующую таблицу: Таблица 3 /=.0 0 <t < т /, = 0 /2 = о /2>0 г2 = 0 /3 = 0 /4 = 0 /4>о •г4 —0 > 0 — х2 ws > 0 х3 = 0 > 0 л3 = х4 Примечание. Это решение является верным только при Т^Ь±. § 7. w-РЕШЕНИЕ ДЛЯ ПРОЦЕССА МАЛОЙ ПРОДОЛЖИТЕЛЬНОСТИ ^-решение, которое мы теперь построим, будет полезным при Нахождении решения нашей задачи максимизации в случае малой продолжительности процесса, Т Это решение отличается от уже
построенных тем, что допускает, чтобы х3 принимало положительные значения, a z2 было дельта-функцией, сконцентрированной в нуле. Пусть в интервале 0 ^/<^7 мы имеем w4 (/) = 7, ^2(Z) = — 1 —М» где 0 < 7 < 1/&Р Тогда Zx (/) = О, Z4(Z) > 0 для 0 t < Т, Кроме того, (1) z2 (Z) = b# — (Т — Z) (1 — Z>xT) = [b2 + \ (Т — Z)] 7 — (Т - Z). Если положить 7 = ТЦЬ2-\-ЬХТ), то Z2(0) = 0, а при Z>0 и Z2(Z)>0. Таким образом, мы получаем решение системы неравенств (4.1). Оно приводится ниже вместе со свойствами двойственного ему вектора z. Таблица 4 z = o 0</ < Т 4 = 0 о о II А г2 = 0 о о о о о II А А || А СО S ? 3 о II II II со Так как — дельта-функция, сконцентрированная в Т, то х8 (?) = 0. Примечание. Это решение является верным только при Т < Z>4. § 8. ОПИСАНИЕ РЕШЕНИЯ И ДОКАЗАТЕЛЬСТВО Теперь мы можем дать полное решение поставленной задачи При этом имеется совсем немного случаев, требующих отдельных рассмотрений. Критические значения /0 и Zx, определяемые из (4.4) и (4.9), зависят от Т, но таким образом, что при фиксированных bit b2 и Ь4 величины Т — tQ и Т — tt постоянны. Случай I: Т настолько велико, что Zx>-0. В этом случае мы выбираем в качестве z4 дельта-функцию, сконцентрированную в точке 0, чтобы можно было непосредственно уменьшить х3 до нуля. Это означает, что в случае, когда общая продолжительность процесса достаточно велика, мы должны не держать сталь в запасе, а употребить ее для строительства новых сталелитейных заводов. 17 Р. Веллман
Использование дельта-функции здесь допустимо, так как для значений Л близких к нулю, /4 = 0. Положим в интервале 0 < t < tx (1) ^ = 0, z2 = 0, z3 = x4, Zi = ^, сохраняя, таким образом, величину х3 равной нулю. В точке tx приходится рассматривать отдельно два подслучая: (2) IA: х4(^) — М2(^)>0, IB: хД^) — Дх2(/1)<0. В случае IA мы можем выпускать автомобили, используя всю производственную мощность и не истощая при этом запаса стали. Поэтому положим в интервале /1 <До (3) ^ = x2, z2 = 0, г3 = х4, zt= ^—7 —, ^4 а в интервале £0< t Т (4) Zt = x2, ^2 = •** —Мэ , Z3 —х4> г4 = 0. и2 Это решение будет оптимальным в случае IA, так как оно является двойственным к базисному w-решению, приведенному в табл. 1. В случае IB у нас уже нет достаточного количества стали, чтобы использовать для выпуска автомобилей всю производственную мощность. Поэтому при t > tv мы производство автомобилей прекращаем, т. е. (5) ^! = 0, г2 — 0, z3 = x4, z4=-~. ^4 Мы не производим автомобилей до тех пор, пока величина х4 — btx2 не обратится в нуль или же пока не окажется t=T — b± (в зависимости от того, какое из этих событий произойдет первым). Если величина х4 — btx2 обращается в нуль в точке то мы после этого момента выбираем zx = x2, z2 = 0, z3 = x4, z4 = 0. Построенное решение, очевидно, оптимальное, так как оно является двойственным к ^-решению, приведенному в табл. 2, если считать = Как уже отмечалось, такое решение существует при любом , если только <^t' — Если же, с другой стороны, хДТ—#4)— — btx2(T — Ь4Х®, то в интервале Т — b^Xt^T мы выбираем (6) Zi — ^-, z2 = 0, г3 = х4, z4 = 0. В оптимальности этого решения можно убедиться, проверив, что оно является двойственным к w-решению, приведенному в табл. 2, где и0 = Т, ut = Т — Ь±. Случай II: величина Т такова, что Как и раньше, мы выбираем в качестве z4 дельта-функцию, сконцентрированную
в точке 0, чтобы сразу же уменьшить х3 до нуля. После этого решение находится, как и выше. Здесь также могут представиться два подслучая: (7) ПА: х4(0) — Мг(0)>0, ПВ: х4(0) —Мг(0)<0. В случае ПА полагаем zt = x2i т. е. автомобили производятся с использованием всей производственной мощности. Остающуюся сталь мы используем до момента tQ для увеличения производственной мощности сталелитейной отрасли, а начиная с момента tQ—для увеличения производственной мощности автомобильной отрасли. Таким образом, в интервале 0 < t < 10 мы полагаем (8) zx = x2, z2 = 0, z3 = x4, z4 = » а для / /q (9)- Zi = x2, z2= , z3==x4, z4==0. ^4 Это решение будет оптимальным, так как оно является двойственным к базисному решению, приведенному в табл. 1. Случай ПВ аналогичен случаю IB. Здесь проводятся такие же рассуждения и получаемое решение оказывается двойственным к решению, данному в табл. 2. Случай III: Т таково, что — Ь4. Здесь приходится рассмотреть три подслучая: (10) П1А: с4 —-g, ШВ: с4 — Ьхс2<^ — ^, 1ПС: —-^<с4 —^с2< ь4 4 1 2 ь2 В случае ША мы используем наш начальный запас стали для увеличения производственной мощности автомобильной отрасли; другими словами, мы выбираем в качестве z2 дельта-функцию, сконцентрированную в точке 0, уменьшая х3 до нуля. Далее полагаем zv = х2 и используем всю остающуюся сталь для увеличения производственной мощности автомобильной отрасли, т. е. (11) z, = x2, .г2 —z3 = x4, z4 —0. Это решение будет оптимальным * так как оно является двойственным к базисному w-решению, приведенному в табл. 1. В случае ШВ нам не хватает производственной мощности сталелитейной отрасли. Решение и доказательство в этом случае те же, что и в случае IB.
В случае ШС мы можем так израсходовать начальный запас стали, что величина х3 будет равна нулю, a x4 = btx2. Мы выбираем для этого в качестве z2 и z4 дельта-функции, сконцентрированные в точке 0. Затем полагаем zr = x2, z2 — 0, z3 = х4, z4 = 0. Это решение— оптимальное, так как оно является двойственным к равновесному w-решению, приведенному в табл. 3. Случай IV: Т Ь4. В зависимости от начальных значений рассматриваются три подслучая: (12) IVA: IVB: ---^1С2 > у 8 » IVC: — °4 ^2 В случае IVA решение и доказательство те же, что и в случае ША. В случае IVB мы выбираем z2 — 0 и z4 — 0 для всех значений t. Как всегда, полагаем г3=х4. Функция zY может быть произвольной и подчиняется лишь условиям х2(0 их3(7) = 0. Таким образом, в этом случае решение не будет единственным. В оптимальности каждого решения такого вида можно убедиться, проверив его двойственность к w-решению, приведенному в табл. 2, где uG=T. Случай IVC является промежуточным, и в нем нельзя следовать поведениям, Цостроенным для случаев IVA и IVB. На этот раз мы расходуем начальный запас стали до уровня с', используя ее для увеличения производственной мощности автомобильной отрасли. Затем мы выбираем <г1 = х2, z2 = ti, z3 = x4 и z4 = 0. Величина с' опреде- ляется из условия х3(Т) = 0. Оказывается, что этим свойством обладает , _ ЬАс3 — Ь2(с4 — Ьхс2) сз— b2+btT (13) Это решение будет оптимальным, так как оно является двойственным к ^-решению для процесса с малой продолжительностью, данному в табл. 4. § 9. ПЕРЕЧЕНЬ СЛУЧАЕВ РАСХОДА НАЧАЛЬНОГО ЗАПАСА СТАЛИ После того как начальный запас стали использован, оптимальное поведение можно определить с помощью системы очередности. До момента увеличение производственной мощности сталелитейной отрасли, т. е. z4, является первоочередным. Это положение сохраняется и после момента до тех пор, пока не будет илих4^^1х2, или t~b4, в зависимости от того, какое из этих событий произойдет первым. В каждом из этих случаев (они могут, конечно, ветре?
Случаи I: *i>0 II: о z0 III: /0<0<7’-й4 IV: T<bi A Уменьшить x3 увеличивая x4 до нуля, Уменьшить х3 до нуля, увеличивая х2 „Увеличить производственную мощность автомобильной отрасли" В „Увеличить производственную мощность сталелитейной отрасли" Начальный запас стали не расходуется C Уменьшить х3 до нуля так, чтобы х4 = Ь±х2, увеличивая х2 и х4 Уменьшить х8, но не до нуля, так чтобы х3(Т)~ = 0; увеличить *2 титься и в точке /х) первоочередным становится производство автомобилей zv На него расходуется вся имеющаяся сталь, если только не выполняется неравенство х4 (/J > bx х2 (^i). В последнем случае до момента tQ приписывается вторая очередность увеличению производственной мощности сталелитейной отрасли. После момента /0 вторая очередность приписывается увеличению производственной мощности автомобильной отрасли. БИБЛИОГРАФИЯ И КОММЕНТАРИИ К ГЛАВЕ VII § 1. Результаты этой главы были получены совместно с Леманом в неопубликованной статье: Bellman R., Lehman R. S., Studies on bottleneck problems in production processes, Part I, RAND Corporation, 1954, P-492. Подобного типа, но более сложный анализ решения вариационной задачи из этого общего класса можно найти в работе Лемана: Lehman R. S., Studies in bottleneck Problems in production processes, Part II, RAND Corporation, 1954, P-492.
чг НЕПРЕРЫВНЫЙ СТОХАСТИЧЕСКИЙ ПРОЦЕСС РЕШЕНИЯ § 1. ВВЕДЕНИЕ Как мы видели в гл. II, постановка задачи о золотодобыче в ее дискретной форме приводит к ряду нерешенных задач, таких, как задача о трихотомическом выборе, задача с нелинейной функцией выгоды и многие другие, которые также можно было бы сформулировать. Мы обратимся поэтому к непрерывному варианту задачи в надежде преодолеть эти трудности путем использования более мощных средств непрерывности. Как мы увидим, теперь мы сможем детально изучить соответствующие вопросы и тем самым составить ясное представление О структуре оптимальных поведений. Получаемые нами сведения о структуре поведений можно использовать для построения полезных приближений к исходному дискретному процессу. Выясняется. один очень интересный и значительный факт. В то время как исходная дискретная задача имеет определенные черты линейности, которые делают затруднительным ее вариационный анализ (по крайней мере в случае, когда мы рассматриваем средний ожидаемый доход), непрерывный вариант в достаточной мере нелинеен, чтобы позволить нам использовать вариационный подход в его классическом виде с некоторыми модификациями, которых требует наличие ограничений. Однако при нахождении решения этим методом наше знание формы решения для дискретного случая сослужит нам большую службу, предсказывая, каких результатов можно ожидать. Мы используем комбинацию двух методов, старого и нового, которая обеспечит успЛпное наступление на задачу. Прежде чем обратиться к действительно применяемому нами методу, мы рассмотрим еще два возможных подхода, каждый из которых связан с некоторыми трудностями, делающими его неприемлемым. Вероятно, одинаково важно знать как то, какие методы работают с успехом, так и то, какие методы не действуют и почему. В более общих процессах решения этого типа корректная формулировка непрерывного варианта задачи не является тривиальной. В частности, это так для случая многошаговых игр непрерывного типа. • Можно предложить много различных возможных формулировок; и о корректности подхода следует судить не только на основании его математической строгости, но также и по аналитической трудности. Если мы не имеем систематических средств для решения типичных проблем, то мы не имеем и удовлетворительной теории.
После предварительного обсуждения мы обратимся к действительно применяемому нами подходу, который является компромиссом между двумя предыдущими. Обоснование, нашего подхода заключается в том, что мы можем показать, что рассматриваемый нами непрерывный процесс является в соответствующем смысле пределом дискретного процесса. Однако в этом томе мы не будем обсуждать этих важных и интересных вопросов. § 2. НЕПРЕРЫВНЫЙ СЛУЧАЙ. I. ДИФФЕРЕНЦИАЛЬНЫЙ ПОДХОД Перейдем теперь к рассмотрению некоторых возможных непрерывных аналогов функционального уравнения (5.1) гл. И. Здесь и в следующих параграфах основное наше предположение будет заключаться в том, что при каждом нашем действии должна иметь место высокая вероятность добычи малого, количества золота и отсутствия поломок в машине. Иными словами, мы теряем всякую надежду на решение нашей задачи для всех возможных значений параметров и рассматриваем вместо этого малую область изменения параметров rp r2, q2. Введем в рассмотрение величины: 1—q^ — вероятность получения /^хЗ и отсутствия поломок в машине, когда работы ведутся на прииске Анаконда, 1—#23— вероятность получения г2уЪ и отсутствия поломок в машине, когда работы ведутся на прииске Бонанца, где qx и q2 положительны, а 3—^достаточно малая Положительная величина, такая, что 1—qfi и 1—q2b суть вероятности, а г\3 и г2Ь меньше единицы. Определяя /(х, у) как и раньше, мы получаем функциональное уравнение (1) /(х, у/)=шах 'А: В: (1 — — 1\хЪ, J0). 1 (1 — ?28)(r2 4- /(X, у — г2 Jg)) J Это уравнение совпадает с уравнением (5.1) гл. II для этих новых параметров. Действуя формально, в предположении, что f имеет непрерывные частные производные, для малых 3 получаем прибли^ женнре уравнение А: /(х, _у) — max (2) В: f(x, y)-b8^rix — q1f(x,y)—r1x^+O(82), f(x, y) + b(r2y—q2f(x, y) — r2y^+O(&)_
Его предельной формой при (3) О — max 8 —> О является уравнение . д/ п rtx — qj— rYx-^-x, . df r2y-<]2f—r2y-^ J Такой подход не представляется нам плодотворным из-за. трудности установления теорем существования и единственности для функциональных уравнений этого типа. § 3. НЕПРЕРЫВНЫЙ СЛУЧАЙ. II. ИНТЕГРАЛЬНЫЙ ПОДХОД Рассмотрим теперь диаметрально противоположный подход. Пусть Sn — обозначает некоторую последовательность, состоящую из N выборов А (т. е. Анаконды) и В (т. е. Бонанцы). Определим pNk(x, у) как вероятность выживания в течение N шагов и окончания процесса в состоянии (xnjc, У nr), с использованием последовательности Sn и при начальном состоянии (х, у), Rn(x> У) как ожидаемый доход от N шагов с использованием последовательности Sn при начальном состоянии (х, у). Если Sn действительно состоит из первых N выборов некоторого оптимального поведения, то мы получим для /(х, у) функциональное уравнение (1) f(x, y)=RN(x, УУ + ^Р^х, y)f(xNk, yNk). Если N8, где 8 определяется как и ранее, выбрано так, что при 8 -> О и N —> оо оно остается конечным и становится равным £, то аналогом уравнения (2.1) будет функциональное уравнение типа (2) /(х, .j/) —max s 1 1 Rs(x, у, /)+ J J* f(xr, ysydGsfr, s, х, у, f) Г-0 8-0 где S обозначает непрерывное поведение на интервале [0, /], a dGg— вероятность перехода, определяемую этим поведением. Функциональные уравнения такого типа встречаются в общей теории случайных процессов. Мы не будем развивать этот подход в настоящем томе вследствие обилия трудностей, возникающих при обосновании этого уравнения и определении общих непрерывных поведений. Вместо этого мы будем использовать подход, средний между дифференциальным и интегральным подходами, который приведет к функциональному уравнению, имеющему такое же отноше
ние к уравнению (2), как уравнение диффузии или теплопроводности к уравнению Чепмена — Колмогорова в теории диффузионных процессов. Обоснование этого подхода заключается в том, что можно доказать сходимость решения для дискретного процесса к решению для непрерывного процесса при В->0. Однако, как указывалось выше, здесь этот вопрос рассматриваться не будет. § 4. ПРЕДВАРИТЕЛЬНОЕ ОБСУЖДЕНИЕ Продолжим использование простого уравнения (2.1) в качестве модели для дальнейшего рассмотрения. Согласно решению, рассмотренному ранее в .гл. II, А- и В-области отделены граничной линией определяемой уравнением (1) = *z 2 Эта линия при В—>0 переходит в линию L с уравнением Для каждого 5 > 0 оптимальное поведение имеет следующую форму: „Находясь ниже L8, продолжать применение выбора А до попадания в В-область, выше Затем применять выбор В до попадания в Л-область, ниже Ls, и т. д.; аналогично для начального положения выше Л8“. Геометрически: Рис. 24. Предельная форма этого поведения при 8—>0 такова: „Если (х, у) ниже L, то использовать выбор А до попадания на прямую L, затем двигаться вдоль L; если (х, у) лежит выше L, то использовать выбор В до попадания на прямую £, затем дви-% гатьсгя вдоль L\
Заметим, что поведение такого рода, требующее движения вдоль прямой L, не включено ни в какое из множеств поведений, соответствующих ненулевым В. Эти поведения, включающие только использование А или В, приводят к путям в виде ломаных, состоящих из горизонтальных и вертикальных отрезков, как на рис. 24. Однако ясно, что такой путь, как изображенный на рис. 25, может быть произвольно точно аппроксимирован оптимальным поведением при В—>0. Сказанное приводит нас к важному выводу, что непрерывный вариант исходной дискретной задачи может не обладать оптимальным поведением, обеспечивающим максимальный доход. Вместо этого может существовать последовательность поведений, приводящая к супремуму, если только мы не расширим надлежащим образом понятие поведения. Естественным путем для получения этого расширения является допущение смешивания в некотором подход дящем смысле решений на каждом шаге. § 5, СМЕШИВАНИЕ В ТОЧКЕ Без намерения каламбурить заметим, что введение смешивания является смешанным благодеянием, поскольку с ним приходит ряд трудностей как математической, так и физической природы. С математической стороны мы находим, что перед нами стоят те же трудности, которые вызвали наше желание пренебречь интегральной формулировкой из § 3; с физической стороны мы неохотно принимаем поведение, которое допускает использование смеси решений в задаче, где требуется определенный-выбор того или иного решения. Чтобы избежать идейных трудностей математической и физической природы, применим интерпретирующую схему, которая в очень похожей ситуации уже использовалась ранее. Сущность этой схемы состоит в том, что при некоторых естественных предположениях непрерывности смесь решений в точке эквивалентна смеси решений на малых интервалах около этой точки, —
Начиная строить нашу математическую модель, будем предполагать, что мы рассматриваем процесс, который в момент времени t = О, Д, 2Д и т. д. требует от нас решения, какую долю следующего временнбго интервала длины Д мы отводим соответственно для А и для В. Так, на интервале [&Д, &Д -1- Д] мы уделяем первую часть [ЛгД, ЛгД —|—ср£Д] использованию Д, а в течение оставшейся части [&Д-|-<рА &Д-|-Д] используем В. л а ।' * 4 Г * . I»_____— —-----п----------1 I кД кД+<рД (к+1)Д Рис. 26. Выбор будет зависеть от k или, более точно, от х(&Д) и у (kb) и, кроме того, если процесс конечен, от Самого k. Считая Д настолько малым, что процесс достаточно хорошо описывается влияниями первого порядка малости, мы получим в пределе при Д—>0 систему дифференциальных уравнений, которые мы будем использовать для определения нашего непрерывного поведения1). Теперь непрерывное поведение будет описываться функцией cpj (/). В настоящей главе мы выведем эти дифференциальные уравнения. Чтобы проиллюстрировать силу этого метода, мы решим последовательно задачи, соответствующие задаче о дихотомическом выборе, задаче о дихотомическом выборе для конечного числа шагов, задаче о дихотомическом выборе с нелинейной функцией выгоды, изложенной в упр. 1 гл. II, и задаче' о трихотомическом выборе из § 13 той же главы. Хотя эти решения изобилуют подробностями, основные их идеи просты. Чтобы обосновать использование этой формализации, следовало бы показать, что полученный таким путем непрерывный процесс действительно является в некотором естественном смысле пределом исходного дискретного процесса. Этот вопрос будет рассматриваться во втором томе. § 6. НОВАЯ ФОРМУЛИРОВКА ПРОЦЕССА ЗОЛОТОДОБЫЧИ Приступим теперь к осуществлению программы, намеченной в предыдущих параграфах. Интересной чертой этих построений будет непрерывное взаимодействие между техникой классического вариационного исчисления и методами динамического программирования. Для упрощения результатов переформулируем рассматриваемую нами задачу следующим образом: „В каждый из моментов времени t = k\ мы должны принять реше Ч Ср. соответствующее замечание в гл. VI.
ние-относительно того, какую долю следующего временного интервала длины Д машина будет использоваться на прииске А, а какую на прииске В. Это влечет выбор доли которая зависит от количества золота на этих двух приисках в момент t и от самого если процесс конечен. Условимся, что если выбрана пропорция то первую часть интервала, [&Д, (k -1-<рг) А], машина используется на прииске А, а вторую часть, [(£ <pt) Д, (&-[-1)ДЬ на прииске В. Если х — количество золота на прииске А в момент ЛД, то-с вероятностью 1 —О1Д будет добыто т^хс^Д золота и машина не испортится, а с вероятностью ^^Д золота добыто не будет и машина полностью выйдет из строя. Если прииск В содержит золото в момент &Д в количестве у, то с вероятностью 1—^2ср2Д будет получено количество г2уу2к и машина не испортится и с вероятностью ^2ср2Д (где ?2 = 1 — ?i) эта операция прекратится. Задача состоит в определении такой последовательности операций, которая максимизирует ожидаемое количество золота, добытое до поломки машины". § 7. ВЫВОД ДИФФЕРЕНЦИАЛЬНЫХ УРАВНЕНИЙ Легко видеть, что если Д мало, то перестановка порядка операций в [&Д, (&-|-1')Д] дает эффект второго порядка малости. Именно это свойство позволяет использовать смешивание на интервалах для получения функции смешения в точке. Поведение состоит теперь из последовательности {<Р1(АД)}, & = 0, 1, 2, .... Для любого данного поведения определим x(t) как количеств^ золота, оставшегося на прииске Л, когда процесс продолжается до времени /, y(t) как количество золота, оставшегося на прииске В, когда процесс продолжается до времени /, р (t) как вероятность того, что машина сохранится до времени /, т. е. что процесс продолжится до t, f(t) как ожидаемое количество золота, добытого до времени t, где t — пД, п = 0, 1, 2, .... Пренебрегая членами второго порядка малости по Д, имеем (1) х(/Н-Д) = лс(О — _у(/+Д) = .у(О — г2?2(0^(0Д. р + Д).= р (/) [ 1 — (0 Д — q2<f2 (0 Д], f(t+Д) = / (0+р (0 [?1 (0 riX (t)+<f2 (t) r2y (0J A-
Устремляя Д к нулю, получаем систему дифференциальных уравнений (2) 4г = -?1(0/-1Х(0, х(0) = хо, (О ггу (О. у (0) = у0, ^f=~P (О [?! (О <71 + ?2 (О <72Ь Р (0) = 1 • =р (О I?! (О г1Х (0 4- ?2 (О Г2у (01, /(0) = о. Мы рассматриваем теперь эти уравнения как определяющие уравнения нашего процесса и забываем их формальное происхождение. Наша цель найти = <рг (/), где (3) ср2(0=1— так, чтобы максимизировать /(Г). Особенно важен случай Т = оо. Аналогичные уравнения для случая трихотомического выбора будут выведены ниже, в § 12. § 8. ВАРИАЦИОННЫЙ МЕТОД Пусть cpi и ср2 — функции, обеспечивающие максимум1), и пусть (1) ?i = ?i + e₽i(O. где е— малое положительное число, а и (32— две функции от /, удовлетворяющие для всех t^>0 условиям (2) + ф < 1, ^₽1 + р2 = 0 (откуда следует | | 1 /е), так что <р{ также допустимы в качестве ФУНКЦИЙ (fa Следовательно, если <pf(Z)= 1, если 91(0 = 0» и может быть любого знака, если 0<срг(0<1,— область, где допускается свободная вариация. Производя варьирование, без труда найдем, что 2 *) (3) х (0 = х (0 (1 — (0) + о (е), 7(0 = J (О (1 — ег2В2 (О ) + о (е), 7(0 = Р(О(1 — (0 — ^2В2(0)4-0 (е), т f(T)—f(T) = ef {-/' (О (0 4- Я2В2 (014- + г Л (0 р (t) х' (О+г2В2 (О р (0 у' (t) + 4- (Op (0 х (0 4- г2$г (t)p (f) у (0} dt 4- о (е), *) Легко показать, что вследствие равномерной ограниченности функции ¥1(0 максимум достигается. 2) Член о (е) обозначает некоторую функцию от е, стремящуюся к нулю быстрее, чем е, для всех t из [О, Г].
где (4) t Bi(t) = f^(s)ds о и черточками помечены варьированные переменные. Интегрируя по частям для исключения мы получаем т (5) 7(0 - / (О = е f (t) ₽! (О + К2 (0 ₽2 (0] dt + о (е), О где т т (6) (t) = — qx f f' (s) ds 4- rxp (T) х(Т)—гх^р' (s) x(s) ds, t t T T K2 (0 = — q2 ff' (S) ds 4- r2p (T) у (T) — r2 f p' (s) у (s) ds. t t Так как f(T) — /(T)<^0, мы видим, что при Kj(f) мы должны иметь <р$ (/) — 1, ср7- (/) = 0. Эти соотношения дают неявные уравнения для и сру. В следующем параграфе мы рассмотрим более детально поведение функций /<й с тем чтобы определить срх(/) в явном виде. § 9. ПОВЕДЕНИЕ ФУНКЦИЙ Kt Основным соотношением является следующее: (1) 4 (^1 - ^2) =(<к—%)/' (0 -р' (О (r2y - rlX) = = Pl<hr2y — q2rix]. Таким образом, „смешанное поведение" [т. е. такое поведение, для которого более чем одна из функций положительна при заданном /, откуда следует, что Kr (t) = К2 (01 может быть оптимальным только на линии. qvr2y = q2i\x. Эта линия как раз и является той граничной линией, которая получается при переходе к пределу при Д —> 0 из решения для дискретного случая, как в § 4 !). Если смешанное поведение следует вдоль этой линии, то <рх и ср2 должны выбираться так, чтобы остаться на линии; это означает, что наклон s = yjx должен оставаться постоянным. Так как (2) 4 G9=4 - 4 * s> 1) Если в результате анализа дискретного случая появляется уверенность, что эта линия должна появиться, ее сравнительно нетрудно опознать.
мы видим, что (3) * = 7^ § 10. РЕШЕНИЕ ДЛЯ СЛУЧАЯ Т = оо После этих напутственных замечаний определим оптимальное поведение для бесконечного процесса Т — оо. Бесконечная задача, как обычно, проще, чем конечный случай, по причине однородности, порождаемой бесконечным временем: после любых начальных действий мы оказываемся перед проблемой такого же типа с другими исходными значениями. Отметим, что вследствие этого, а также вследствие однородности уравнений по х и у, решение в каждой точке является функцией одного только наклона s — y[x. Начнем с замечания, что если выбор А применяется где-либо на прямой qtr2y = q2rxx в плоскости (х, у), то после этого он применяется все время. Это следует сразу же из соотношения (9.1), которое показывает, что при qxr2y— <?2rix > 0 разность — К2 возрастает. Так как использование А уменьшает х и не изменяет у, использование Д 'не может нарушить неравенства Кг > К2. Однако возле оси у непрерывное использование А не столь прибыльно, как непрерывное использование В. Действительно, при = 1, с?2 — 0 Для t 0 мы имеем (1) х(/) = хое-Ч У(*) = у0, р (/) = е~<ь*, t f(t) = г1хое~г^е-ч^ ds, 0 и, таким образом, <h + Л ’ Однако при = 0, <р2= 1 Для всех получаем аналогично /в(схэ) = = г2УоК^2~\~ г2)- Для достаточно большого Уо/xQ мы имеем /в(оо)> >/д(оо). Таким образом, около оси у существует область, в которой используется В. Эта область, где используется В, простирается вниз до прямой qxr2y = q2i\x. Чтобы доказать это, заметим, что смешанный выбор не может употребляться выше этой линии и что если выбор А используется где-нибудь выше этой линии, он в дальнейшем употребляется все время. Однако бесконечное использование А привело бы в конечном счете точку (х, _у) в область, близкую к оси у, где, как известно, оптимален выбор В, что создает противоречие.
Следовательно, выше линии всегда применяется В. Аналогично ниже линии всегда применяется А. После достижения прямой qxr2y = #2rix точка (х, у) должна все время оставаться на этой линии. Действительно, если это не так, то в В-области должно использоваться поведение Дав Л-области — поведение В, что невозможно. Следовательно, на самой линии должно использоваться смешанное поведение (9.3). Нами, таким образом, доказана Теорема 1. При выполнении условий (7.2) и ограничений (7.3) максимальное значение /(оо) достигается использованием поведения (2) = 1 для qs2y < q2rrxt <р2 = 1 для qj2y > q2/\x, ?1=тг+77’ ^ = 77+^ для Отметим, что и <р2 определены указанными соображениями почти всюду и, следовательно, единственны с точностью до значений на множестве меры нуль. Указанное конструктивное построение решения дает другое доказательство существования. § 11. РЕШЕНИЕ ДЛЯ КОНЕЧНОГО ПОЛНОГО ВРЕМЕНИ При определении решения для конечного Т мы будем начинать с определения поведения, применяемого в конце процесса. Так как оптимальное поведение обладает тем свойством, что его продолжение после начальной части также оптимально, то сначала рассмотрим случай, когда Т мало. Для Т, близких к нулю, мы имеем т (1) f (О = J Р О) [<Р1 О) rix (s) + ?2 О) ггУ 0)1 ds = О Т Т = Г1Х0 J <Р1 О) ds + Г2Уо У ?2 О) ds + О (Т). о о Отсюда следует, что для малых Т максимум достигается, если <Pi(s)=l» ?2($) = 0 Для г1хо > г2Уо и ?1($) = 0, ?г(5)=1 Для r2yQ > rixo- Как и следовало ожидать, для процессов малой продолжительности определяющим фактором является ожидаемый выигрыш, а опасения относительно остановки процесса не учитываются.
Если ^ = ^2» т0 линии r2y = rtx и qvr2y = <72rix совпадают и, как легко проверить, оптимальное поведение будет таким же, как и для Т — оо. Рассмотрим общий случай, когда qx #= q2. Предположим без ограничения общности, что линия r2y — i\x лежит выше линии qxr2y — q2rtx. Положительный квадрант разделяется при этом на три области, которые мы обозначаем через I, II, III (рис. 27). Как и выше, если в области I хоть раз используется выбор В, он должен использоваться все время, тогда как в областях II и III это же относится к выбору А. Кроме того, в областях I и II, когда остающееся время достаточно мало, используется выбор В, а в области III при тех же условиях используется выбор В. Отсюда следует, что в I всегда применяется выбор Л, а в III всегда применяется выбор В. Покажем теперь, что оптимальное поведение никогда не переходит от Л к В. Предположим противное; пусть /0— момент, когда наступило это изменение. Так как в /0 выбор А прекращается, точка (х(/0), У (to)) должна лежать в области I или на границе между областями I и II. Использование В оставляет точку (х(/), y(t)) в I для всех t > /0, так как мы знаем, что, если В однажды применен в I, он должен применяться и впредь. Однако, это противоречит тому, что, когда остающееся время достаточно мало, в I используется А. Аналогично не может встретиться комбинация использования смешанного выбора, а затем выбора В, так как переход должен произойти на границе между областями I и II, а затем в области I должен все время применяться выбор В, что приводит к противоречию. Это сводит число типов решений к шести: всегда А; всегда В; после смешанного выбора идет А; выбор А, затем смешанный выбор и окончательно выбор В; выбор В, затем смешанный выбор и окончательно выбор А; после В идет А. Пусть /0 — значение /, при котором в оптимальном поведении происходит последнее изменение, если такое изменение встречается.
Для tQ < t С Т мы должны иметь <рх (0=1. <?2 (О = °- Вычислим значение (tQ) — К2 (ад. Для мы имеем (2) х (/) = х (tQ) e-r. (t-h), у (Z) = у (Q, р(0=р(4))*~в1(*“Ч /' (О =Р (*о) ^г.х (/0) и после некоторого упрощения (3) клад—к2(ад= =р(адгхх(ад[(1 ------\ g-to+n)(T-«o) _| Qx + r\ / Qi + п. г2У (*о) ~| fix (/0) J Для любой фиксированной точки (x(f0), y(t0)) из области II правая часть этого выражения положительна при малых Т — tQ и отрицательна для больших Т — tQ. Она равна нулю только для одного значения T — tQ. Этот нуль определяет, когда именно происходит переход. Когда он уже произошел, в оставшееся время используется выбор Л, тогда как ранее возможно любое из шести начал, в зависимости от положения исходной точки. § 12. ЗАДАЧА О ТРИХОТОМИЧЕСКОМ ВЫБОРЕ Непрерывный вариант задачи о трихотомическом выборе, упомянутый выше, в § 13 гл. II, тем же формальным путем, что и в § 7, приводит к следующему. Задана система (1) dx ~dt ~~ = — [?1 (0 G + <Рз (0 Гз1 X (t), х(0) = хо. - dt -- — [?2 (0 Г2 + <р3 (0 г4] У (0. J(O) = Уо. dp _ dt ~ •- — Р (0 [?1 (0 414- ?2 (0 Чг 4- Тз (0 7з1. Р(О)=1, где (2) df__ dt ~~ для всех :Р(ОК?1(Ог1 + ?з(0Гз)х(О4- 4- (?2 (0 r2 ~h ?3 (0 /<) у (01. t ?14-фг4-<Рз= 1. ?i>0. /(0)=0. Требуется определить <?<(/) так, чтобы максимизировать f(T). Мы рассмотрим только случай, когда Т=оо. t Как и ранее, положим <Р| = <р$ + 4^ и = f ^i(.s)ds. О
Получим (3) x(t) = х (/) (1 — zr4B4 (t) — ег3В3 (0) + о (е), У (О = >'(0(1— sr2B2 (t) — ег4В3 (0)4-о (е), (3 \ 1— eS<7iSi(0)-|-o(e), i-1 / =Р КфЛ 4" Фз'з) X+(?2г2 4- фз^) Я Следовательно, используя те же приемы, что и раньше, мы получаем т (4) (Т) = № 4- «2?2 4- W л 4- о (8), О где т т (5) К4 (t) = — qIff' (s)ds-\-rlp(T)x(T)—rl р'($)х(s) ds, t t т т K2(t) = — q2 J* f'(s) ds-\~ r2p(T) y(T) —r2 f p' (s)у (s)ds, t t T K3 (t) = — 9sf/' (0 ds 4-p (T) [r3x (T) 4- r4y (T)J — t T — fp’ (0 lr3x (S) 4- Г4У (01 ds. t § 13. НЕКОТОРЫЕ ЛЕММЫ И ПРЕДВАРИТЕЛЬНЫЕ РЕЗУЛЬТАТЫ Утверждения в приводимых ниже леммах, касающиеся зависимости cpi от Kit считаются, конечно, выполняющимися почти всюду. Лемма 1. Если mo cpi(/)=l или cpy(/) = O. Доказательство. Пусть Е — множество тех /, для которых эти утверждения не выполняются. Пусть pj=l, = —I для t из Е, а вне Е пусть эти р равны нулю. Для достаточно малых е эта вариация допустима и делает разность /(Г)—/(Т) положительной, если mesE>0: Лемма 2. Если Kj(t) для всех mo Доказательство следует непосредственно из предыдущей леммы.
Лемма 3. Бела существует такое J, для которого Ki(t) < то <Pi = O. Это снова простое следствие леммы 1. Вычислим теперь производные функций Непосредственное вычисление дает симметричные результаты: (1) ^(О=Р[С1?2 + С2?3], ^(0=Р[-с1?1-ед. ^Ю = Р[-С2?1 + С3?3], где мы положили (2) Ci. = qir2y — q2rix, С2 = Ч1Г4 У—(^зП — х, Сз = (^2 — q2ri') У — (ЪГзХ. Относительное расположение трех линий = 0 определяется величиной (3) D = qj2r3 + q2r1ri — q3rlr2. Бели мы допустим, что все три линии лежат в положительном кцадранте, то непосредственное вычисление показывает, что при £)> О линии имеют расположение, изображенное на рис. 28, тогда как при £) < О они лежат, как показано на рис. 29. С3=0 Рис. 28. Рис. 29. Может встретиться каждый из случаев D > 0 и D < 0. Случай, когда одна из линий С2 = 0, С3 = 0 лежит вне положительного квадранта, приводит к немедленному упрощению наших рассуждений без изменения их структуры в целом. Поэтому мы рассмотрим подробно только указанные выше случаи. § 14. СМЕШАННЫЕ ВЫБОРЫ Как и выше, обозначим термином „смешанный выбор" то положение, при котором некоторые из имеют значения, отличные от нуля и единицы. Под выбором А мы будем понимать, что = 1, под
выбором В — что ср2— 1» под выбором С — что <р3 = 1. Докажем лемму. Лемма 4. Никакое оптимальное поведение не содержит смеси выборов А, В и С. Доказательство. Предположим, что в некотором интервале мы имеем одновременно <pt, ср2, ?з > О- В этом интервале мы должны иметь Kt — К2 — Отсюда (1) <р1 + <р2 + <Рз= К'-К'2=р [СЛ + с1?2 + (С2 + С8) <р8] = 0. - К'3=Р [СЛ+(Сх - С8) ?2+ЭД = о. Если Ct— С2— С3 ¥= 0, то решением для ср18 <р2, ?з является /с>\ — б?з -__ С*1 (2) С;-С2-С? <Р2— Q-Сз-Сз’ ?8— Ci-Cz-C8 • Так как должны быть в этом интервале положительны, С\, —С2 и —С3 должны иметь один и тот же знак. Обращаясь к рис. 28 и 29, легко проверить, что этого не может произойти ни в случае D > 0, ни в случае D < 0. Далее, — С2 — С3 —0 только в том случае, когда линии Сг = 0, С2 = 0, С3 — 0 совпадают. В этом случае задача эквивалентна задаче о дихотомическом выборе. Исследуем теперь возможность использования смешанных выборов, включающих только два из трех выборов Д, В, С. Лемма 5. Допуская смешивани? двух и только двух выборов, мы получаем следующие результаты*. (3) а) смесь выборов А и В допустима только на линии Ct = 0, где r2 П ^ = 77+7?’ б) смесь выборов А и С допустима только на линии С2 = 0, где в) смесь выборов В и С допустима только на линии С3 — 0, где г^—г^ г 9, ?2 — 7-4- --т~ > ?з — 7’ V г-7“ • Г2~ГГ3— *4 Г2 + Г3—
Доказательство. Если срр ср2 > О, ср3 = О, мы должны иметь =ж= /<2 > /<3. В интервале, где это имеет место, выполняется соотношение (4) 0 = <-^=р[С1(?1 + ?2)]. Следовательно, С\ = 0. Значения и ср2, которые удерживают (х, у) на этой линии, определяются, как и в случае дихотомического выбора. Остальные утверждения леммы 5 доказываются аналогично. § 15. РЕШЕНИЕ ДЛЯ БЕСКОНЕЧНОГО ВРЕМЕНИ; СЛУЧАЙ D > 0 Получив эти предварительные результаты, мы приступим теперь к нахождению решения для задачи максимизации /(оо). Будем предполагать, что г3>г4, так как случай г4>г3 может быть получен переменой ролей х и у и А и В, Вырожденный случай г3 = г4 будет рассматриваться отдельно. ЗаметихМ сначала, что, когда г3=г4, смешанный выбор АС никогда не употребляется, так как, согласно (14.3), в этом случае и ср3 не могут быть одновременно положительными. Решение принимает две разные формы в зависимости от того, будет D > 0 или D < 0. Начнем с рассмотрения случая D > 0. Основные результаты мы получим в ряде лемм. Лемма 6. В оптимальном поведении около оси у используется выбор В. Доказательство. Около оси у имеется область, где выбор А не используется. Действительно, если Ct > 0, С2 > 0 и А используете^ V е. срх(/)= 1, мы имеем Ki = 0, К'% < 0, Кз < 0. Это означает, что остается наибольшим для Следовательно, если А/используется в этой области, это должно происходить и дале#< Вычислим результаты постоянного применения выбора А, выбора В и выбора С. Мы имеем (О /Л(ОО) + rl9 u -Г гз <7з -г / Сравнение /А (оо) и fB (оо) показывает, что для достаточно больших уц!Хц имеет место неравенство fB (оо) > fA (оо). Покажем теперь, что если в области выше линии С3 — 0 выбор С используется хоть раз, то он используется и во всем дальней
шем ходе процесса. Использование С увеличивает наклон s(0 = = (Z)/x (0, так как для ср3 = 1 мы имеем (2) s'(O = s(O(r3—г4)>0. С другой стороны, использование В уменьшает наклон. Следовательно, мы не можем использовать В после С, так как это возвратило бы нас в область, где должен был применяться выбор С. Мы уже показали, что вблизи от оси у выбор А не может использоваться после выбора С. Сравнение /в(&э) и /с(оо) показывает, что около оси у лучше использовать В, чем С, если r2yl(q2 г2) > > i\y!(q3 + г4) или q3r2 — <72f4 > О- Это, однако, эквивалентно условию, что С3=0 лежит в положительном квадранте, что мы и предполагали. Отсюда следует, что около оси у существует область, где не употребляются ни Л, ни С. Так как по лемме 5 выше линии С3 = 0 смешанные выборы не употребляются, мы заключаем, что существует область, прилежащая к оси у, где должен применяться выбор В. Лемма 7. Нижняя граница В-области, прилежащей к оси у, есть линия С3 — 0. На этой линии используется смешанный выбор ВС. Ниже линии С3 = 0 выбор В не употребляется. Доказательство. Начнем с исходных значений (х0, у0) около оси у в области, где используется выбор В, и посмотрим, какую форму может иметь оптимальное поведение. Выбор В не может использоваться все время, так как это в конечном счете приблизит (х, у) к оси х, где сравнение fA(oo) и /Б(оо) покажет, что выбор А лучше. Однако, так как и А и С увеличивают наклон у/х; выбор В не может предшествовать выбору А или выбору С, ибо любой из них привел бы точку (х, у) опять в область, где нужно использовать В. Следовательно, В может предшествовать только одному из смешанных выборов. Как мы уже видели, для г3> г4 смешанный выбор АС никогда не употребляется в оптимальном поведении. Мы утверждаем, что если смешанный выбор применен в оптимальном поведении, то й продолжение смешанного выбора в дальнейшем также оптимально. Действительно, пусть (/0, .интервал, в котором употребляется смешанный выбор. Так как точка (x(/j), _y(Q) лежит на том же луче, что и точка (х(/0), у (/о)), т0 вследствие однородности это же поведение, продолженное на равный интервал времени, является оптимальным. Следовательно, смешанный выбор можно продолжить далее. Используя это замечание счетное число раз, мы можем показать, что .для D > 0 смесь АВ никогда не встретится в оптимальном поведении. Согласно ш (а) леммы 5, выбор АВ может применяться
только на линии Сг = 0. Если бы здесь употреблялся АВ, мы имели бы Кз = р [С3?2 — C2<pJ < 0. так как здесь С2 > 0 и С3 < 0 (ср. рис. 28). Так как при использовании А мы имеем Кх (оо) = К2 (оо) = К3 (оо) ~ 0 и ^ = /<2 = 0, то поэтому /С3>/<1 = /<2, когда используется АВ. Отсюда, однако, следует, что <р3= 1, срх = ср2 = 0, что приводит к противоречию. Остается возможность использовать после В выбор ВС на линии С3 = 0. Выбор В вследствие приведенных рассуждений на этой линии использоваться не может. Лемма 8. Существует такая линия L — 0 между линией С2=0 и осью х, что выбор С используется в области между линиями С3 = 0 и L — 0, а выбор А используется в области ниже линии L = 0. Доказательство. Из уже полученных результатов мы знаем, что единственные выборы, которые можно использовать в области ниже линии С3 = 0, это А и С. Так как оба этих выбора экспоненциально увеличивают наклон, в конце концов точка (х, у) достигнет линии С3 = 0, где применяется смешанный выбор ВС. Исследуем возможности переходов от А к С и от С к А. Из (13.1) имеем Ki (I) — Кз (t) = р К\<Р2 + ^2?3 + C2<pi — С3?2]> и, следовательно, когда применяется только С или А, (3) / Ki(f) — K3(t)^pC2 [?1 + <р2], а эдЮ выражение положительно выше линии С2 = 0 и отрицательно цйже этой линии. Далее, при переходе от С к А мы должны иметь Ki — Следовательно, изменение С на А не может встре- титься ниже С2 = 0. Аналогично мы видим, что переход от Л к С не может встретиться выше С2 = 0. Точно так же не может быть перехода от Л к ВС, так как, когда Л применяется выше С2==0, разность Ki — К3 положительна и возрастает, следовательно, выбор ВС, который требует К3> Klt не может использоваться. Таким образом; допущение, что Л может использоваться выше С2 = 0, приводит к противоречию, поскольку, как мы знаем, в конце концов должен использоваться выбор ВС. Мы можем также доказать, что переход от Л к С не может произойти на линии С2 = 0. Действительно, предположим, что такой переход произошел. В момент перехода мы имели бы КГ = К3. Выбор С увел бы точку выше линии С2 = 0, где Ki — Аз>0. Следовательно, Kt > К3, откуда следует, что должен применяться выбор Л, а это приводит к противоречию^
Теперь остались две возможности: 1) С используется во всей области ниже линии С3 = 0, 2) существует такая линия £=0, лежащая между осью х и линией С2 = 0, что А используется ниже £ —0, а С—выше. Следующее ниже доказательство от противного показывает, что первый случай невозможен. Пусть (х0, у0) — точка ниже С3 = 0. По предположению, единственными используемыми выборами являются С и ВС, так что мы должны иметь (/)= 0 для всех / 0. Так как /<3(оо) = 0, мы имеем /С3(0) — 0. Поскольку в точке (х0, >о) предпочтительнее С, мы должны иметь 0 — К3 (0) (0). Следовательно, так как /С1(сю) = 0, мы получаем в силу (13.1) tf со (4) 0 < К. (оо) — К. (0) = f р (О С2 dt + f р (t) [Cl?2 + С2?3] dt, * О t' где t' — момент перехода от С к ВС. Сохраняя х0 неизменным, устремим у0 к нулю. Это влечет t' —> оо. Так как функция Ctcp2 4~ + С2?з равномерно ограничена, второй интеграл стремится к нулю. Тогда, применяя выражения для х, у и р, полученные для поведения С, имеем и (5) lim f —(^зГ1—91r3)x0e-raZ]^>0. ^»*°O ИЛИ co (6) — f (9sri— 9irs) xoe~(«‘+r>) t dt — — ~ > 0. J <?3 -r *3 что противоречит предположению о том, что линия С2 == 0 проходит через положительный квадрант. Рис. 30. Это завершает рассмотрение случая Z) > 0, когда линии С2 = 0 и С3 —0 содержатся в положительном квадранте. Окончательным результатом является
Теорема 2. Если D = qlr2r3-}-q2rlr^— <7зг1г2>0» то решением задачи максимизации функции /(оо), подчиненной ограниче-* нию (12.1), будет решение, схематически изображенное на рис. 30. Найти L каким-нибудь простым путем, по-видимому, невозможно. Наконец, рассмотрим . вырожденные случаи, когда линия С3 = 0 или линия С2 = 0 не лежит в положительном квадранте. Если вне квадранта лежит С3=0, то область С расширяется до самой оси у. § 16. СЛУЧАЙ D < 0 Рассмотрим теперь случай, когда D < 0. В этом случае оказывается, что выбор С никогда не используется, а это означает, что решение такое же, как в задаче о дихотомическом выборе. Лемма 9. Выбор В используется только около оси у. Доказательство такое же, как и раньше. Лемма 10. Нижней границей В-области, прилежащей к оси у, является линия Ct = 0. На этой линии используется выбор АВ. Ниже этой линии выбор В не используется. Доказательство. Как и в случае D > 0, мы находим, что за выбором В должен следовать один из смешанных выборов АВ или ВС. Однако, в настоящем случае, когда D < 0, смешанный выбор ВС не может быть использован в оптимальном поведении. Действительно, при использовании ВС имеем (1) / =р [С1?2+с2?3] < о, так кай С3 = 0 ниже, чем С2 = 0 и Сх = 0. Кроме того, когда используется смешанный выбор ВС, имеем (оо) = К2 (оо) = К3 (оо) == 0 и /(а(/) =/Сз(/) = 0. Следовательно, когда используется смесь ВС, мы имеем (/) > К2 (/) — К3 (/). Это, однако, является противоречием, так как отсюда вытекает, что ^ = 1, ср2 = ср3 = 0. Следовательно, выбор В должен предшествовать использованию выбора АВ на линии С1 = 0. Снова такие же соображения, как и выше, показывают, что В не используется ниже <^ = 0. Лемма 11. Выбор А используется во всей области между линией = 0 и осью х. Доказательство. Во-первых, С не может применяться непосредственно перед смесью АВ. Когда применяется АВ, то Аи(О = /^(О = 0 и С2Т1 + СзТ2]>0, как это можно увидеть из рис. 30. Следовательно, непосредственно перед переходом к АВ мы имеем К3 < К2 и /С3 < Kv Поэтому выбор С не используется непосредственно перед АВ.
Отсюда вытекает, что имеется область, лежащая ниже линии Ct=0 и примыкающая к этой линии, где используется А. Однако невозможно использовать другой выбор до того, как А стал оптимальным выбором. Когда А используется ниже Сх, мы имеем (2) Ki (0 = 0, Кз(t) = —pCt > О, Кз (/) -----Р^-2 > О» Следовательно, Кх является наибольшим и при меньших t и Л-об-ласть расширяется до оси х. Объединяя полученные результаты, мы приходим к следующей теореме. Теорема 3. Если D — дгг2г3~\- — <73rir2 < О, то реше- ние задачи максимизации /(оо) никогда не использует выбор С и имеет такую же форму, как в задаче о дихотомическом выборе. § 17. СЛУЧАЙ г8 = г4 Некоторые из предыдущих рассуждений теряют в этом случае силу, так как выбор С оставляет наклон yjx постоянным. Из (14.36) и (14.Зв) следует, что не применяется ни один из смешанных выборов АС и ВС. Покажем прежде всего, что, если D < 0, выбор С никогда не применяется. Для этого мы сравним результат многократного использования АВ с результатом, получающимся при использовании С. Если все время используется АВ, то простые вычисления показывают, что (1) = FfT (х° + -У®)’ где (2) Г1Г2 ?___?1Г2+?2Г1
Аналогично результатом постоянного использования выбора С будет (3) Неравенство /АВ(оо) > fc(oo) эквивалентно D < 0. Если D > 0, то приведенные рассуждения показывают, что не используется ни один из смешанных выборов. Встречаются различные случаи, зависящие от того, какие из линий С2 = 0, С3 = 0 проходят через положительный квадрант. Как и раньше, можно увидеть, что если С3 = 0 лежит в положительном квадранте, то около оси у выбор В предпочтительнее выбора С. Определим теперь, где может быть сделан переход от В к С. Пусть tQ—время перехода. Для tQ < t < оо мы имеем (4) = —С2> &(?) =—рС3, К8(Г) = 0. Кроме того, мы должны иметь (/0) К2 (^о) = (t0). Снова, ис- пользуя замечание, что Кг (оо) = /<2(00) = /С3(оо), мы видим, что для должны иметь С3 = 0. Таким образом, нужно следовать выбору В до достижения линии С3 = 0, а затем следовать выбору С. В этом вырожденном случае С играет роль ВС. Аналогично переход от А к С происходит по достижении линии С2 = 0. Если линия С3—0 не ^ежит в положительном квадранте, то С используется вплоть до оси у. Если С2 = 0 не лежит внутри положительного квадранта, то С используется вплоть до оси х. § 18. НЕЛИНЕЙНАЯ ФУНКЦИЯ ВЫГОДЫ, / ЗАДАЧА О ДИХОТОМИЧЕСКОМ ВЫБОРЕ ^Рассмотрим коротко задачу о дихотомическом выборе, обсуждавшуюся в § 6—10, при условии, что мы желаем максимизировать ожидаемое значение некоторой функции и полного дохода R. Ввиду результатов, полученных для дискретной задачи, или скорее ввиду недостатка результатов, несколько неожиданным является то, что для любой функции выгоды и, которая строго возрастает и имеет непрерывную производную, оптимальное поведение является в точности таким же, как для решенной выше задачи с линейной функцией выгоды. Одного этого было бы достаточно, чтобы предупредить неосторожных, что непрерывные варианты не могли бы использоваться без пристального внимания к характеру приближений к ним. Так как любая монотонно возрастающая функция выгоды может быть произвольно близко аппроксимирована функцией указанного типа, то это поведение оптимально для любой монотонно возрастающей функции выгоды (хотя и не обязательно единственно). Большой тео*
ретический класса: и практический интерес имеет следующая функция этого ( 0 для 0 << R < Ro, (1) u(R) = , . D. D (1 для R Ro. Ожидаемое значение u(R) есть вероятность того, что R больше или равно /?0. Пусть переменные имеют такой же смысл, как и раньше; тогда мы получим (2) ^- = _<Р1(/)Г1х(0. х(О) = хо, = —<р2(0^(0. J(0) = Уо. ^- = -p(t)[<fl(t)q1 + <?2(t)q2], Р(0)= 1. Пусть z(/) = х04- J'o — х(0— J (О— величина, которая представляет собой полное количество золота, добытого вплоть до времени /, если машина до этого времени не испортилась. Математическое ожидание н(7?) дается интегралом оо (3) G = — f “(z(t))dp(t). о Это легче всего увидеть, рассматривая плату за то количество золота, которое машина добыла за время до ее поломки. Наша цель — найти функции %(/), <р2 (0> которые при выполнении условий (4) <Pi + ?2=l максимизируют G. Используя тот же вариационный аппарат, что и ранее, после некоторых непосредственных вычислений получаем со (5) О - G = е f [К, (0 ₽, (О+Кг (0 ₽2 (01 dt + о (е), О где (6) К, = ?!/?(/) и (^(0) — ОО — f Ip' (S) w (z (s)) r1 x (s) — qtp' (s) a (z (s) )1 ds, * 0 K2 = q2p(t)u(z(t)) — co — J Ip' (s)«' 0 (s) )r2y (s) — q2p' (s) a (z (s) )J ds, 0
Далее, (7) К[ (0 — К'2 (О = р (О и' (z (/) ) [qtr2y (0 — q2rtx (0]. Отсюда следует, что в предположении, что и'С0>О при z>0, применимы с очень небольшими модификациями все рассуждения и результаты линейного случая. БИБЛИОГРАФИЯ И КОММЕНТАРИИ К ГЛАВЕ VIII § 1. Результаты этой главы были получены в сотрудничестве с Леманом, см. Bellman R., Lehman R. S., On the continuous gold-(nining equation, Proc. Nat. Acad. Set. USA, 40 (1954), 115—119; Bellman R., Lehman R. S., On a functional equation in the theory of dynamic programming and its generalizations (не опубликовано). .§ 2. Уравнение (2.3) может быть формально использовано для нахождения характера решения, но пока еще в изучении нелинейных дифференциальных уравнений в частных производных этого типа ничего не сделано. § 3. Современная теория случайных процессов в том виде, как она изложена в книге Дуба „Вероятностные процессы“ (М., 1956), дает основу для строгой теории таких уравнений, но для этого требуется математика бесспорно более^ высокой категории. § 5. Идея замены смешения в точке смешением на малом интервале была исподьзбвана в статье Беллмана и Блекуэлла [Bellman R., Black-well D., Some two-person games involving bluffing, Proc. Nat. Acad. Set. USA, 35 (1949), 600—605] при изучении некоторых простых игр двух лиц типа покер^ ср. также Bellman R., On games involving bluffing, Rend. Clrc. Mat. Palermo (2), 1 (1952), 1—18. Более/ общие результаты относительно сходимости дискретного процесса к непрерывному содержатся в работах Осборна [Osborn Н., On the convergence of discrete stochastic processes to their continuous analogues, RM-1368, RAND Corporation, 1955; The problem of continuous programs, P-718, RAND Corporation, 1955; см. также Pacif. J. Matti., 6 (1956), 721-731.]
НОВАЯ ФОРМАЛИЗАЦИЯ ВАРИАЦИОННОГО ИСЧИСЛЕНИЯ § 1. ВВЕДЕНИЕ При рассмотрении многошаговых процессов производства в гл. VI и VII мы встретились с задачей максимизации функционала (х(Т), а) на множестве всех функций z(t), удовлетворяющих условиям (1) а) = х(0) = с, б) Bz^Cx, в) Z 0. Используя тот факт, что максимум (мы предполагаем, что он достигается) является функцией только начального вектора с и продолжительности процесса Т, мы получили функциональное уравнение для /(с, Т) = тах(х(Т), а), которое преобразовали в диффе- ренциальное уравнение в частных прозводных. Как уже упоминалось в конце гл. VI, подобный подход применим также и к изучению других классов задач вариационного исчисления. В настоящей главе мы продолжим исследование, обращая внимание на два частных типа задач. Задача первого типа состоит в определении максимума или минимума функционалов вида (2) т J (z) = J* F (Хр х2, •••» хп\ Zv Z2> •••» Zm) dt о при наличии следующих связей и ограничений: (3) a) ^ = Gi(x, z), Xi(0) = cit Z=l, 2, ..., и, 6) Rk(x, z)<0, /5=1, 2, . .., I. Ко второму типу относится задача отыскания собственных значе-чений уравнения (4) и" + к2ср (Z) и = 0. и (0) = и (1) = 0. Эта задача тесно связана с той, которая описывается уравнениями (2) и (3), так как при естественных предположениях относительно
функции cp(Y) она эквивалентна задаче определения относительных минимумов функционала 1 (5) J(«) = J и'2 dt О при ограничениях 1 (6) а) $ 4(t)u2dt=\, О б) я(0) = я(1) = 0. Однако наличие граничного условия, заданного в двух точках, вносит в задачу новые особенности и трудности. Следуя нашему обычному подходу, мы введем соответствующие параметры состояния и получим функциональное уравнение для минимума функционала J(u) как функции этих параметров. Предельной формой этого функционального уравнения будет дифференциальное уравнение в частных производных. Затем мы перейдем к численному решению этих уравнений. Отметив обычный способ решения с помощью уравнений в конечных разностях, мы пркажем, как можно ввести разностные уравнения иным путем. Значение этого нового подхода состоит в том, что он позволяет нам обойти целый ряд аналитических трудностей, свойственных вариационному исчислению. Он также дает нам возможность избежать/ трудностей, связанных с исследованием устойчивости вычислительных методов. Используя &тот подход, мы рассмотрим также некоторые задачи, содержащие чебышевский функционал J(z) = max х2............z^ z2..........z^. о< $ < т В данной главе мы во всех случаях будем неизменно придерживаться чисто формальной точки зрения. В этом вводном иллюстративном обзоре мы прежде всего стремимся к изложению основных идей метода функциональных уравнений. Строгое изложение, неизбежно связанное с большими трудностями, мы откладываем до второго тома. § 2. НОВЫЙ ПОДХОД Прежде чем пуститься в открытое море анализа, рассмотрим основную идею нашего нового подхода к решению непрерывных вариационных задач. Классический аппарат вариационного исчисления, точно копирующий технику конечномерных вычислений, основывается на представлении экстремали в виде точки пространства функций и на характеризации этой точки посредством ее вариационных свойств.
Вместо этого мы будем рассматривать задачи вариационного исчисления как частный класс многошаговых процессов решения непрерывного типа. Функция, осуществляющая экстремум, может тогда рассматриваться как непрерывное поведение. Приведем некоторые простые примеры, которые могут проиллюстрировать эту идею более ясно, чем любое абстрактное рассуждение. Пример 1. Определить кривую,. которая соединяет две точки Р и Q и обладает тем свойством,, что частица, движущаяся вдоль нее под действием силы тяжести, приходит из точки Р в точку Q за минимальное время (классическая задача о брахистохроне). Ясно, что, какова бы ни была промежуточная точка R на экстремали, путь вдоль экстремали от R до Q должен быть таков, чтобы минимизировать время, требуемое для прохождения участка кривой RQ при заданной в точке ^ скорости слева. • В каждой точке на кривой мы определяем направление движения, т. е. касательную к кривой. Оптимальное поведение, или экстремаль, может быть выражено не только при помощи уравнения для у как функции от х, как это делается обычно, но и при помощи уравнения для dy/dx как функции от у и заданной в точке (х, у) скорости слева. Пример 2. Через точки Р и Q (см. рис, 33) провести кривую фиксированной длины Д так, чтобы , площадь криволинейной трапеции, ограниченной искомой кривой, перпендикулярами РР' и QQ' и отрезком P'Q' оси х была максимальной (классическая изопериметрическая задача). Ясно, что, каковы бы ни были участок экстремали PR и ограничиваемая им заштрихованная площадь, продолжение вдоль экстремали от R к Q должно максимизировать площадь трапеции RR'Q'Q при условии, что кривая RQ имеет длину L-r~L\ 19 Р. Веллман
Оптимальное поведение может быть выражено при помощи уравнения для dyjdx как функции от у и L — L' вместо уравнения для у как функции от х. Оба вывода в этих двух примерах получены на основе „принципа оптимальности", рассмотренного в гл. III и применявшегося во всех предыдущих главах. Математическая формулировка этого принципа позволит получить наш новый подход к задачам вариационного исчисления. Преимущество нового подхода состоит в том, что при нахождении оптимальных поведений для многошаговых процессов очень Рис. 33. часто определение следующего хода через текущее состояние процесса дает во многих отношениях более простую, естественную и даже более важную часть информации, чем определение полной последовательности ходов в оптимальном поведении, которые надо осуществить, начиная с некоторого фиксированного начального положения. Если говорить в геометрических терминах, мы стремимся определить натуральные уравнения экстремальных кривых. Вместо того чтобы рассматривать кривую как множество точек, мы считаем ее огибающей своих касательных, что является двойственным подходом по отношению к классической трактовке1). Обычно, как и следует ожидать, сочетание этих двух подходов, локального и глобального, будет наиболее плодотворным, так как одни свойства экстремали проще всего описываются в точечных координатах, а другие —в тангенциальных. *) Употребляя терминологию теории игр, можно сказать, что рассмотрение процесса в его позиционной (extensive), а не в нормальной форме может дать существенные преимущества. По существу только тогда мы и можем Полностью использовать внутреннюю структуру процесса и таким образом выделить его среди остальных многошаговых процессов и других многомерных задач максимизации.
В следующих параграфах мы применим эти идеи к ряду типичных задач и рассмотрим вопрос о применении этого подхода к нахождению решений. со § 3. МАКСИМИЗАЦИЯ ФУНКЦИОНАЛА J F (х, у) dt О В гл. I мы рассмотрели дискретный процесс, который описывался следующим функциональным уравнением: (l)/(*)= max + —J)+/(a^ + ^(x —j))], /(0) = 0. Непрерывная модель этого процесса приводит к задаче максимизации функционала со (2) J(y)=f lg О') + h (х—j/)] dt О на множестве функций y(t)> удовлетворяющих условиям (3) а) =— ау — Ь(х— у), а, £ > О, х(0) —с, б) 0<у(/)<х(/), ^>0. Для ознакомления с нашим методом рассмотрим в качестве первого примера задачу о максимизации интеграла вида оо (4) У(У) = / F(x, y}dt О при условии, что х и у связаны соотношением (5) ^ = G(x,y), x(0) = f. Для начала опустим ограничение (36). Подчеркнем еще раз, что мы в данном случае будем рассуждать формально, так как здесь мы ставим целью только показать схему нашего подхода. Именно, мы всюду будем предполагать, что максимумы и минимумы существуют, а экстремали обладают всеми теми дифференциальными свойствами, которые нам понадобятся. Строгое установление этих свойств требует совершенно другого, отличного от формального, подхода, и не будет здесь рассматриваться. Кроме того, как будет указано ниже, в ряде случаев мы не будем нуждаться в получении априорных результатов относительно природы максимизирующей функции у. Возвращаясь к сформулированной выше задаче о максимизации мы замечаем, что максимальное значение функционала J(y) будет
зависеть только от начального значения х, а именно от с. Напишем поэтому (6) max J (у) = f (с) v и перейдем к выводу функционального уравнения Для функции /(с). Обозначим через y = y(t) функцию, максимизирующую функционал V(y). Тогда для любого значения <S>0 можно написать 8 оо (7)- f(c)~ f F(x, у)<Ц± f F(x, y)dt. О 8 Рассмотрим второй из этих интегралов. После любого начального выбора функции y(t) для значений t из интервала [0,5] можно по с на основании дифференциального уравнения (5) определить значение функции х в точке 5, которое мы обозначим через c(S). Следовательно, при любом начальном выборе функции у на интервале [0, 5] на остающемся интервале [5, оо] мы будем иметь дело с задачей точно такого же типа, что й первоначальная, с той только розницей, что роль с в ней будет играть c(S) = x(S). Так как пбдинтегральная функция, так же как и правая часть дифференциального уравнения, не зависит от /, то новый интервал можно рассматривать как интервал [0, оо], полагая х(0)==с(5). Следовательно, на основании принципа оптимальности уравнение (7) можно переписать в виде s (8) /(с) = /Г(х, y)dt-f-f(c(S)). О Поскольку функция у должна быть выбрана так, чтобы значение /(с) было максимальным, то мы приходим к основному функциональному уравнению (9) /(с) = тах’ у [о, S] для любого значения 5 > 0. Устремляя 5 к нулю, мы из этого уравнения получим дифференциальное уравнение для функции /(с). Для малых значений 5 при соответствующих предположениях о непрерывности мы имеем (Ю) /(с) = max [F(c, >(0))5+/(^ + 5G(c, j/(0)) + o(5)]. 2/10, S] Так как интервал [0, 5] стягивается в точку 0, выбор функции у на интервале [0, 5] сводится в конечном счете к выбору ^(0). Для упрощения обозначений положим > (0) = v. Тогда на основании фор - s [F(x, y)dt+f(c(S>) -о
мулы {10) мы получаем (11) /(c)=max[F(c, tO$4-/(c)4-SO(c, v)f'(c)\ 4- о (S), * V что в результате предельного, перехода при S -> 0 приводит к соотношению (12) 0 — max [Г(с, v) 4- Р (с, v) f (c)J. Используя для определения' точки максимума приемы классического анализа, мы получаем два уравнения: (13) 0 = F (с, v) 4-0 (с, ®) f (с), 0 = Г„(с, ф)4-Ос(с, ®)/'(с). Исключение из этой системы производной f (с) приводит к уравнению ...................... (14) К"’'” 0<") I"»- из которого можно найти v как функцию от с. г Определив v как функцию от с, т. е. у как функцию от х, мы возвращаемся к дифференциальному уравнению (5) и, решая дифференциальное уравнение (16) J = O[x, _у(х)1, x(0) = c, находим х, а затем и у как функции от t. Из этого следует, что Относительно простое поведение у — <р(х) может привести к сравнительно сложной экстремальной функции x = x(t). § 4. ОБСУЖДЕНИЕ Будем предполагать, что О(х, у) — всюду отрицательная функция, равная —Л(х, у), так что мы можем рассматривать приведенную выше задачу как непрерывный процесс распределения ресурсов, в котором плотность дохода описывается функцией F(x, у), а плотность расхода ресурсов — функцией Д(х, у). Исходя из основного уравнения (1) 0 = max [F(c, v) — A(ct V мы получаем для всех значений v неравенство (2) 0>F(c, v)—А (с, v)f'(c) и, следовательно, (3) ” ~
Так как неравенство (3) обращается в равенство по крайней мере для одного значения vt то мы получаем уравнение (4) /'(C) = max^h. Это уравнение показывает, что поведение, которое максимизирует полный доход, одновременно локально максимизирует отношение плотности дохода к плотности расхода ресурсов; с поведением такого рода мы уже встречались раньше (ср. упр.’ 18 гл. I; § 8 гл. II). Возможна очень интересная интерпретация уравнения Эйлера для вариационных задач рассмотренного выше простого типа. Мы предоставляем читателю возможность самому убедиться в том, что выражение (3.14) представляет собой первый интеграл уравнения Эйлера, полученного классическим методом. § 5. ДВУМЕРНЫЙ СЛУЧАЙ Мы оставляем в качестве упражнения доказательство того факта, что, применяя тот же самый метод к задаче определения максимума функционала со (1) J Х2, ylt yjdt О на множестве виям (2) всех функций yr(t) и y2(t), удовлетворяющих уело- = G х2, yv y2), (0) = q, — #(*v Х2, У1> У2), *г(0)—С2> можно получить уравнение (3) Г(сь с2, и, v) G(clt c2i и, v) Ги Gu Я(С1э С2, v) Hu связывающее величины yt(0) = u(cv c2) и y2(O) = v(q, c2). Вопрос о том, может или нет решение поставленной выше вариационной задачи быть получено в той же форме, как и в одномерном случае, т, е. в виде J'l = <p1(x1, *2), 3'2 = cp2(x1, х2), остается открытым.
т § 6. МАКСИМИЗАЦИЯ ФУНКЦИОНАЛА J F(x, y)dt О Перейдем к рассмотрению более общей задачи определения максимума функционала т (1) J(y) = fF(x,y)dt О при условии, что х и у связаны соотношением // у (2) g^O(x, У>> *«>) = <>• Как это будет еще раз обнаружено ниже, в рассмотрении конечной задачи существуют определенные преимущества, несмотря на усложнения, возникающие благодаря наличию дополнительного параметра. В этой задаче имеются два параметра состояния: С и Т. Во многих приложениях параметр С описывает начальное количество ресурсов, а Т—продолжительность процесса. Запишем это в следующем виде: (3) maxJ(j) = /(c, 7). у Рассуждая точно так же, как и в предыдущем параграфе, мы приходим к функциональному уравнению Г 5 1 (4) /(с, Т)= max f F(x> у) dtf (с (S), T—S) , у 10, S] из которого в процессе предельного перехода при S 0 получается нелинейное дифференциальное уравнение в частных производных (5) 0 = max[F(c,‘У) + О(С, ®)/с—/у]. V Последнее, в свою очередь, приводит к следующей системе: (6) fT = F (с. О (с, ») /с> О = 7% (с, v)±Gv(c, v)fc. Решая ее относительно /с и /т, мы находим (7) fc=— Р (с, V), fT = F-G%^Q(c, v). uv
Чтобы получить уравнение для основной переменной v, мы приравниваем выражения для производных fTc n fcT и приходим к уравнению (8) PvvT — Q„vc + Qc. Это — линейное дифференциальное уравнение в частных производных первого порядка ддя функции v=^=v(c, Г); оно может быть решено методом характеристик (к этому вопросу мы еще раз вернемся ниже в § 14) или же численными методами, если задано значение v (О, Т) или v(с, 0). Именно здесь выясняется преимущество, связанное с наличием в формулировке задачи параметра Т. Мы можем почти без труда определить v как функцию от с при Т = 0, так как для малых значений Т имеет место равенство (9) /(с, 7") = max [F (с, г») Z 4-о (Г)]. Следовательно', при 0 значение v=-v (с, 0) определяется из условия максимальности F(c, v). т § 7. МАКСИМИЗАЦИЯ ФУНКЦИОНАЛА JF(x,y)dt О ПРИ УСЛОВИИ 0 < у < х Рассмотрим теперь задачу определения максимума функционала т J(y)= J* F(x, y)dt при условиях ’о Н тс (1) а) Л х(0)=с, ' б) О^^^Х. При классическом подходе трудность этой задачи состоит в том, что функция у не может быть, вообще говоря, определена на основе произвольных вариаций. Когда 0<<у<х, мы можем варьировать совершенно свободно, и в интервалах, где это неравенство выполняется, функция у должна удовлетворять уравнению Эйлера. Однако, когда у есть 0 или х, мы.имеем только неравенство Эйлера. Основная трудность' задачи состоит в том, чтсбы решить, как следует сопрягать три типа решения*.: у = Q, у=х й функцию являющуюся решением уравнения Эйлера. Эта задача эквивалентна определению точек перехода^в которых-, соединяются решения двух типов. В настоящее время , не существует единого метода для решения таких задач в явной аналитической: форме. Некоторые классы задач
подобного типа решаются просто, и на этом вопросе мы коротко остановимся ниже. Рассмотрим теперь, как применяется для решения данной задачи метод функциональных уравнений. Положим (2) /(с, Г) = max/(j'). У Как и выше, мы получаем дифференциальное уравнение в частных производных (3) fT= max [F(c, v) + G(c, v)fc], 0< v<e Первоначальное условие 0 у x перешло в ограничение О v с. Начальное условие имеет следующий вид: (4) 0) = 0 для всех значений с. Мы видим, что ограничение не позволяет нам сво- бодно дифференцировать по V. В § 10 мы покажем, как при некоторых предположениях относительно функций F и G уравнение (3) можно использовать для определения структуры решения. § 8. ЧИСЛЕННОЕ РЕШЕНИЕ Исследуем нелинейное дифференциальное уравнение в частных производных (1) fT= max [F (с, ©) + О (с. ®)/d V при условии, что f(c, 0) = 0, и опишем, в общих чертах процесс, который может быть использован для его численного решения. Вместо того чтобы считать параметры Тис изменяющимися непрерывно, ограничим область их значений дискретным множеством (2) Т = 0,Д, 2Д, М, ...» с = 0, ±8, ±28, ..±68, ..., где Д и 8 — положительные величины. Частные производные fT и /с аппроксимируются в этом случае разностными отношениями /ох / ~ /(с, Г+Д)-7(с, Л W Jt= д »
в результате чего нелинейное дифференциальное уравнение (1) заменяется приближенным уравнением вида (4) /(с, 7'+Д) = /(с, Т) + + Д{тах [F(C, г,)+ О (с, Р)/(с-+8-’ /(с,0) = 0. Начиная с известных значений f(c, 0), можно последовательно вычислять значения /(с, Д), /(с, 2Д), ..и т. д. Хотя общая идея этого метода очень проста, однако при его фактическом применении возникают большие трудности. По существу основной вопрос заключается в выборе величин А и 8. От правильного выбора этих параметров зависят сходимость процесса и устойчивость численного решения. Для линейных уравнений, которые получаются, если убрать операцию взятия максимума, эти вопросы теоретически разработаны достаточно полно и удовлетворительно. Однако для нелинейных уравнений никакой теории такого рода практически не существует и эти вопросы решаются на основе искусства и опыта1). Интересно отметить, что уравнение с ограничением (7.3) легче поддается численному решению, чем рассмотренное выше уравнение (1), так как существование ограничения суживает ту область, которая должна быть исследована для определения максимума. Поэтому во многих случаях более реальный процесс будет и более просто решаться численно. В § 11 мы рассмотрим еще один метод численного решения, также основанный на использовании разностных уравнений, который оказывается более эффективным на практике и дает возможность рассуждать более строгим образом, не затрагивая при этом трудных областей вариационного исчисления. I § 9. ОБСУЖДЕНИЕ Выше мы ^помянули о трудностях, которые могут возникнуть при решении царцдционной задачи с ограничениями, а также о том, что некоторые классы этих задач могут быть исследованы полностью. Покажем, как для получения сведений о структуре решения данной задачу можно использовать функциональное уравнение (8.1). Мы рассмотрим только случай, когда функция F(et v) для всех !) Возникает также задача и о выборе надлежащего приближения с помощью разностного отношения. В формулах (3) мы рассматриваем симметричную аппроксимацию для fc и асимметричную для fT, В случае линейных уравнений часто могут быть полезны соображения, связанные с устойчивостью. Для нелинейных уравнений в этом отношении практически ничего не известно.
значений с строго вогнута по v, а функция G(c, v) зависит от v линейно. Нелинейное дифференциальное уравнение в частных производных имеет в этих условиях вид (1) /т= max [F(c, h(c)v)fc]. 0<С Функция F(c,-u) + [g(c)-|-/z(c)<y]/c для всех значений с и Т является строго вогнутой по v и достигает максимума по v в единственной точке. При этом он может достигаться в точках г/=0, v = c или в некоторой внутренней точке. Предполагая, что все рассматриваемые функции непрерывны по с и Т, мы можем сделать следующее важное замечание. Так как функция F(c, ^) + [g (с) +/г (с) т/]/с непрерывно зависит от с и Т и является строго вогнутой по -и, ее максимум по v не может переместиться из точки т/=0 в точку t/ = c, минуя при этом внутренние точки интервала [0, с]. Это является следствием того факта, что максимум данной функции по v зависит от с и Т непрерывно. Сделанное замечание можно использовать для того, чтобы значительно сократить время, необходимое для численного решения подобных процессов; кроме того, оно делает осуществимым численное решение многомерных процессов 9- Таким образом, любая экстремаль должна иметь следующую структуру. Интервал, где у = 0, должен заключаться между двумя интервалами, в которых 0 < у < х; аналогичное утверждение справедливо для интервала, в котором у = х. Возникает вопрос, как часто решение может переходить из одного типа в другой. Для ответа на него мы должны сделать дальнейшие предположения относительно рассматриваемых функций. Нетрудно построить примеры, показывающие, что при надлежащем выборе функции F таких переходов может быть сколь угодно много. В примере, который рассматривается в следующем параграфе, этс исследование будет выполнено более подробно. § 10. ПРИМЕР Рассмотрим задачу определения максимума функционала т (1) f(x~ y^dt о 9 Ср. замечания в § 22 и 23 гл. I.
при выполнении условий (2) а) § = х(0>=с, б) ‘ 0 < у < х. Основное уравнение имеет вид (3) ; max [с—v -|- b (®) fc]. 0 < V < с Будем предполагать, что функция Ь(у) удовлетворяет следующим условиям: (4) a) £(0) = 0, У(0)=оо, б) (_у) > 0, Ь'(У)-+® при _у->оо, В) У'(.У)<0. Из простых функций этими свойствами обладает функция У у. .Предположим (это допущение вполне правдоподобно), что fe •> 0 О- Тогда, возвращаясь к определению максимума функции K(v)=c— v-[-b(v)f0, мы видим, что ее производная по V, K'(v) — = —1 b' (у) fc, будет положительной для малых значений v, отрицательной для больших значений v и равной нулю в точности Для одного значения v. Пусть, кроме того (это условие также в данном случае правдоподобно), fo=0 при 7=0, а, начиная с мо* мента Т = 0, монотонно возрастает как функция от Т: Если v изменяется в интервале 0<iv<co, то решение уравнения /C'(tF) = O существует всегда. Однако когда изменение v ограничено условием 004$, то при большом /с, т. е. при большом 7, функция К' (*0 будет положительной во воем интервале 0 v с. Это означает, что если Т велико по сравнению с с, то искомый максимум будет достигаться в точке ф=с или в точке У — х. / Остается определить кривую перехода Т=Т(с), состоящую из точек, в которых в поведении происходит переход от одного типа решений к другому. Нам известно, что решение будет иметь вид (5) а)^ = х, б) 0 < у < х, 1\ < t < Т. Первый участок кривой, где j = x, содержится в решении только в том случае, когда значение Т достаточно велико. При малом зна- 9 В следующем параграфе мы покажем, как можно,’получить эти результаты посредством рассмотрения дискретного процесса.
чении Т решение будет состоять только из второй части, где 0<у/<х. Рассмотрим тот случай, когда значение Т мало. Здесь мы можем рассуждать двумя способами. Можно сначала использовать то обстоятельство, что максимум в формуле (3) достигается внутри интервала, а это означает, что уравнение (3) эквивалентно следующей системе: (6) fT = с — v-{-b(v)fc, о^-14-fe'Wc- Этих уравнений вместе с граничными условиями (7) /(с, 0) = 0, v(c, 0) = 0 достаточно для определения функций /(с, Т) при малых значениях 7. Есть и другой путь. Мы можем применить классические вариационные методы, пользуясь тем, что мы вправе игнорировать условие 0 < у < х. Полагая т г t (8) J(y) = f f b(y)ds — y dt, 0 L о мы без труда получаем в качестве вариационного уравнения следующее уравнение Эйлера: (9) (Т—t)b' (у) — 1=0. С помощью однозначно определяемой этим уравнением экстремали у мы можем вычислить соответствующее ей значение функционала J(y) и таким образом определить /(с. Т). Когда Т возрастает, его критическое значение как функция от с определяется как значение Т, при котором уравнение (10) _1+у(^/с = 0 имеет решение v = c, т. е. критическое значение Т находится из уравнения (11) Если, как это и предполагается, функция fc(c, T) монотонно возрастает по Г, то это уравнение имеет один корень 7(c). С нахождением критического значения решение полностью определяется.
§ 11. ДИСКРЕТНАЯ МОДЕЛЬ Один из методов, которым можно пользоваться, чтобы сделать строгими приведенные выше рассуждения, основан на дискретной аппроксимации непрерывной задачих). Для задачи, рассмотренной выше в § 10, дискретная модель представляет собой задачу определения максимума функционала N (1) J(y)=J(y0. yv У2.....yN)= 2 (xft—л) л=о на множестве всех значений уь удовлетворяющих соотношениям (2) а) хк+1 = хк + Ь(ук), х0 = с, б) k — 0, 1, 2....N. Если положить (3) uN(c) = max J {у), У то мы получаем рекуррентные соотношения (4) a) w0(c) = c, б) «дг+1 (с) ^max Дс — v + uN (с + b (у)) ]. W = 0, 1. ... . Используя те же методы, которые мы применяли в § 12 гл. I, а также при изучении уравнения оптимального управления запасами, легко установить следующий результат. Теорема 1. Для каждого целого TV^l существует функция обладающая следующими свойствами: {Н) а) функция vN{c) монотонно убывает при возрастании с, б) VN+1 ^>VN (С>- N = 1 - 2....... в) уравнение vN(c)=c имеет единственное решение} если его обозначить через cN, то cN+l > cN, г) uN (с) = uN_t (с 4- b (с)) для 0 с cN, т. е. v = c, Д) uN{c) = c — + для CN^.C, е) u'N(c)^. u'jf-itc), N=l, 2, .... для с>>0. г) Эти результаты можно также строго установить, используя классические методы. Соответствующая ссылка имеется в библиографии в конце этой главы.
Доказательство этой теоремы, которое проводится обычным способом по индукции, мы предоставляем читателю. Аналогичный результат можно получить и для более общего случая, соответствующего задаче из § 7, если потребовать выполнение соответствующих условий для функций F(x, у) и О(х, у). При этом доказательство будет гораздо более громоздким. Как мы видели в § 7—8, задача определения максимума функ-т ционала J(y) = f F(x,y)dt при выполнении условий о (6) a)^ = G(x,j), х(0) = с, 0 может быть сведена к задаче решения нелинейного дифференциального уравнения в частных производных (7) fT = max [F(c, гО + <Ж v)f], 0<v<CL J 0) = 0. Последнее уравнение может быть численно решено, если его аппроксимировать уравнением в конечных разностях. Чтобы пользоваться этим методом с полной уверенностью, мы, во-первых, должны установить, что поставленная вариационная задача эквивалентна решению построенного нелинейного уравнения (доказательство этого несколько затруднительно при наличии ограничений), и, во-вторых, должны показать, что метод конечных разностей дает приближенное решение рассматриваемого нелинейного уравнения (это тоже сложная задача). Доказательств обоих этих утверждений можно избежать следующим образом. Мы заменяем первоначальную задачу задачей об определении максимума функции N (8) /7({Л}) = Д2 F(xk,yk) л=о по всем значениям ук, удовлетворяющим условиям (9) а) — хк —|— ДО У к)* %о — с* б) А = 0, 1, 2..........N. где xfe = x(AA), yk = y(kb), N b = T. Полагая (Ю) = max
мы заменяем рассмотренную выше задачу максимизации рекуррентными соотношениями (П) /о(с) = 0, /у+1(с)= тах [д/7(с’ ®)+/Лг(с4-Д0(с,г>))]. Во всех рассмотренных до сих пор случаях выяснилось, что этот метод является более надежной вычислительной процедурой, обладающей к тому же рядом других привлекательных с точки зрения численного решения черт. Оказывается, не очень трудно показать, что (12) \im fN(c)== f (с, Т) Д->0 при тех же требованиях, предъявляемых к функциям F и G, которые обычно рассматриваются в вариационном исчислении. На самом деле эти требования могут быть значительно ослаблены, однако всякое дальнейшее рассмотрение этого вопроса увело бы нас слишком далеко в сторону. § 12. ДОКАЗАТЕЛЬСТВО СХОДИМОСТИ Так как изучение вопроса о сходимости во всей общности даже при сильных предположениях становится очень скучным делом и в принципе не дает ничего нового, то мы ограничимся получением одного типичного результата. ^Дбложим (1) f(c, Т) — max Г F (х, y)dt у / при ограничениях /У у (2) a)^=G(x,j), х(0) = с, б) Для удобства положим у — срх1), так что, вводя новые функции F и G, мы получим т (3) f(c, Т) — max Г F(x, ср) dt, у о 1) В частности, такое преобразование независимой переменной удобно использовать при численном решении, так как оно позволяет перейти от максимизации по переменной области к максимизации по фиксированной области С другой стороны, существуют случаи, когда наличие переменной области представляется даже желательным, в частности, при рассмотрении процессов с сокращением.
Где (4) а)^ = О(х,<р), х(0) = с, б) 0 ср 1 для всех значений t 0. Теперь определим для п=1, 2, ... последовательность аппроксимирующих задач: максимизировать Zc = O при условии, что хк и ср/с связаны при помощи уравнений (6) xk+1 — xk = G(xk,<fk')^, /г = 0, 1, • •n —1, х0 = с, а переменные ук удовлетворяют следующим ограничениям: (7) 0 < < 1, /2 = 0,1........N. Здесь, как и выше, хЛ = х(^Д), срЛ = ср(^Д). Для каждого значения с и Т положим (8) /(с, Т, «) = max/y({<pftJ, л). Мы хотим показать, что (9) Иш /(с, Г, n) = /(c, Т). Прежде всего нам понадобится следующая лемма. Лемма, Предположим, что функция G(x, у) удовлетворяет условию Липшица в области т ^.х При этом пусть (10) а) ср (/) — ступенчатая функция с постоянным значением cpfe, 0<срй<1, в интервале kln^t < (Л —|—— = 0, 1..............N, б) последовательность {хл} определяется рекуррентно по формуле (6), причем числа т и М являются нижней и верхней границами множества членов этой последовательности, т. е. т^хк^М\ в) x(t) — ступенчатая функция с постоянным значением хк в интервале k/n <(&+ 9/п; г) функция x(t) определяется как решение дифференциального уравнения (4). . 2Q Р. Веллман
Тогда существует постоянная k, зависящая только от G и Т, такая, что |х(/)— x(f)\^k/n в интервале Эту лемму можно доказать методом Коши—Липшица, применяя его таким же образом, как и при доказательстве теоремы существования для систем обыкновенных дифференциальных уравнений. Докажем теперь теорему о предельном соотношении (9). Теорема 2. Пусть (11) а) функции F и G имеют непрерывные вторые частные производные, б) существуют постоянные р, q, г, такие, что рх^, ^G(x, y)^qx-±-r для х>0 и Ъ^у^х, в) Gy не меняет знака*, либо Gy > 0, либо Gy < 0 для всех значений х > 0 и 0 у ^х. Тогда (12) lim f(c, Т, n) = f(c, Т) п-> оо для всех значений с 0, Т > 0. Доказательство. Пусть, как и выше, W = [Т/п] при данных значениях с>0 и Т>0. Условие (116) позволяет установить равномерную ограниченность функций x(t) в интервале Пусть m^x(t)^.M и, таким образом, m^xk^ М. Так как по предположению функции F (х, ср) и G(x, ср) удовлетворяют условию Липшица в области m х 7И, O-^cp^l, то на основании доказанной выше леммы существует постоянная В', зависящая только от с, Т, F и G, такая, что (13) каковы бы ни были ср(£) и <pft, удовлетворяющие условиям этой леммы. Отсюда следует, что (14) /(с, Т, п)</(С, Т) + ^ для всех п= 1, 2.... Обозначим через {/^} подпоследовательность последовательности {«}, для которой lim f(c, Т, п$) = Ит f(c, Т, п). По заданному е> 0 вы- г -> оо п-> со берем функцию <р(/) так, чтобы (15) f(c, T)<J(cp) + e. Функция ср (О является пределом сходящейся почти всюду последовательности {срт(/)} ступенчатых функций, для каждой из которых 0<cpw(0<l, и при этом lim J(cpw) = J (ср). Следовательно, ОО в формуле (15) в качестве функции ср можно взять ступенчатую
функцию, постоянную в каждом интервале вида &/n<(&+1)/л при некотором произвольно большом числе п = п^ Учитывая неравенство (13), мы получаем (16) т' «)+т+е- Следовательно, (17) /(«,?)< Нт /(с, Т, «0 + 8= Hm f(c, Т, п)4-е. п{ > 00 П -> ОО С другой стороны, используя неравенство (14), заключаем, что (18) iirn f(c, Т, ri)^f(c, Т). п-> оо Так как е произвольно, мы убеждаемся в справедливости формулы (12). Последовательность {срЛп}, которая максимизирует /#({%}.«)» определяет для каждого п=1, 2, ... ступенчатую функцию для которой (19) lim J(?n) = /(c,T). п-> ОО Если при этом существует подпоследовательность, которая почти всюду сходится к предельной функции <р(/), то lim J(<pw) = J(cp) П->СО и <р(/) является максимизирующей функцией. Если эта функция обладает соответствующими свойствами монотонности, то для выделения сходящейся подпоследовательности можно воспользоваться теоремой Хэлли. В противном случае мы должны использовать свойство слабой сходимости или какой-нибудь подобный метод. т § 13. МАКСИМИЗАЦИЯ ФУНКЦИОНАЛА t)dt О До сих пор мы рассматривали процессы, не зависящие от времени, т. е. -такие процессы, в которых функции F и G не зависят от t. Рассмотрим теперь более общую задачу максимизации функционала т (1) J(y)= $F(x, y,t)dt О при условии dx (2) ^ = О(х, у, t), х(0) = с. Для того чтобы применить метод функциональных уравнений, мы будем рассматривать эту задачу как частный случай несколько более общей задачи о максимизации функционала т (3) Лу)= f F(X, у, t)dt а
при условии (4) ^ = 0(Х,ЛО. х(а) = с. (Здесь а изменяется в интервале [О, Т].) Если зафиксировать Т, то мы будем иметь два параметра состояния, а и с. Поэтому можно написать 5) ф max J(y) = f (a, с). у Функциональное уравнение для f будет иметь вид (6) f(a, с)= max f F\x, у, f {a-\-S, c(S)) , У l«, a+S] J где 0 < S < T — a. Устремляя S к нулю, мы приходим к уравнению (7) 0 = max[F(c, v, d) +fa+<j(c, v, a)fc], V где v = v(a, с) есть значение у (а). Из уравнения (7) получаем систему уравнений (8) O — F(c, v, a) + /o+G(c, v, a)fc, 0 = Fv(c, v, a)-\-Qv(c, v, a)fc. Решая ее относительно fa и /с, находим (9) fc==_^L^p(c, v, а), = — v, а). Как и выше, приравнивая значения производных fca и f'ac, получаем дифференциальное уравнение в частных производных первого порядка (Ю) Pvva ~\-Ра — Qvvc + Qc- Читатель, знакомый с квазилинейными уравнениями этого типа, легко проверит, что уравнения характеристик этого уравнения совпадают с уравнениями Эйлера, полученными классическими вариационными методами. § 14. ОБОБЩЕНИЕ И ОБСУЖДЕНИЕ При рассмотрении задачи о максимизации функционала т (1) = О
при условиях (2) $- = £(*. у), х(0) = с, где х, у, с и g—n-мерные вектор-столбцы, a F— скалярная функция от х и у1), можно действовать аналогичным образом. Положим (3) /(с, 7) = maxJ(j). у Тогда принцип оптимальности приводит к функциональному уравнению “ .8 (4) /(с, S+T)= max f F(x, y)dt + f(c(S), T) . у (°’ si Lo Классические условия трансверсальности оказываются частным случаем этого уравнения; этого и следовало ожидать в силу той двойственности между точечными и тангенциальными координатами, которую мы отмечали выше. Производя выкладки, аналогичные (7) — (9) § 13 этой главы, мы получим систему квазилинейных дифференциальных уравнений в частных производных для вектора v = v(c, Т) = у(О). Для этого уравнения построена теория характеристик; как и следовало ожидать, уравнения этих характеристик совпадают с уравнениями Эйлера для вариационной задачи. Строгое доказательство этого факта довольно громоздко и здесь не приводится. § 15. ИНТЕГРАЛЬНЫЕ ОГРАНИЧЕНИЯ В § 7 настоящей главы рассматривалась вариационная задача, в которой на у было наложено ограничение 0 у х. Рассмотрим эту задачу в случае, когда наложено дополнительное ограничение т (1) J* ydt^m. о т Минимум функционала J* F(x, y)dt будет теперь функцией трех - о параметров состояния: с, Т и т. Обозначим его через f {с, Т, т). Используя уже знакомые нам методы, убеждаемся, что f удовлетворяет уравнению (2) /г— max [F(s, v)-±G(c, v)f0 — vfm]. o< v < c 1) Любую явную зависимость от t всегда можно устранить, рассматривая t как зависимую переменную лп+1, определяемую соотношениями ^хп+1/^ — 1> «^л+1 (9) 0.
Задачи, содержащие ограничения уже известного нам по предыдущим параграфам типа, возникают при изучении многих физических проблем, если мы накладываем реалистичные ограничения на такие величины, как скорость, ускорение, радиус кривизны, плотности распределения ресурсов и т. п. Интегральные ограничения, подобные т приведенному выше, или же ограничения вида f у'2 dt^.m возни-о кают, если мы предполагаем, что ограничены ресурсы или кинетическая энергия и т. д. Вообще говоря, оперировать с интегральными ограничениями более удобно, чем с локальными. Хотя теоретически метод множителей Лагранжа применим для рассмотрения обоих типов ограничений (равно как и ограничений более общих классов), однако на практике мы, как уже упоминалось выше, встречаемся с трудностями при выяснении того, когда переменная лежит внутри области изменения, а когда — на ее границе. § 16. ДАЛЬНЕЙШИЕ ЗАМЕЧАНИЯ ОТНОСИТЕЛЬНО ЧИСЛЕННОГО РЕШЕНИЯ Рассмотрим задачу определения максимума интеграла т (1) J(x) = х', t)dt, О где х(0) = с, причем других ограничений на х не налагается. В предположении, что F удовлетворяет надлежащим условиям, решение этой задачи будет определяться уравнением Эйлера 4 ' дх dt дх' ~ ’ которое представляет собой уравнение второго порядка, имеющее вид (3) V<=G(x, x't t). Поэтому для определения решения необходимо иметь два граничных условия. Одно условие дается- исходным ограничением х(0) = £, другое же, возникающее в результате варьирования, таково: Мы видим, что одно условие задано в точке /=0, а другое — в точке t—T. С другой стороны, для того чтобы достаточно удобным образом проинтегрировать уравнение (3) — либо на цифровой
вычислительной машине, либо на машине непрерывного действия,— нам требуются значения х и х' при t = 0 или при t = T. К сожалению,. из проведенного выше исследования мы не получаем ни одного из этих наборов условий. Таким образом, перед нами возникает классическая трудность двухточечного краевого условия. Если функция G линейна по х и х', мы не встречаем особых трудностей; если, однако, как это имеет место в общем случае, функция G нелинейна, то мы должны считаться с тем фактом, что для нахождения решения уравнения (3), удовлетворяющего условию (4) и начальному условию, мьг не имеем систематических методов. Обычная процедура заключается в следующем. Нужно начать интегрирование при 1=0, задавшись некоторым промежутком значений х' (0), и сужать этот промежуток до тех пор, пока условие (4) не будет аппроксимировано достаточно хорошо. Этот процесс весьма трудоемок; иногда он усложняется проблемами устойчивости и с увеличением размерности вариационной задачи быстро становится малоэффективным. Чтобы оправдать использование уравнения (2), мы предположим, что F— достаточно гладкая функция. Если же мы допускаем, чтобы F содержала такие члены как |х — а| или тах(х — а, х' — b, g(t)) (подобные функции возникают весьма естественным образом в экономических и технических процессах), то применение обычного вариационного подхода резко затрудняется. Соединим перечисленные затруднения с теми затруднениями, которые вносятся существованием ограничений, и мы увидим, что для эффективного решения разнообразных задач, возникающих весьма естественным путем в физическом мире, традиционные методы должны быть обобщены. Отметим, наконец, что замечания относительно необходимости анализа „чувствительности", или устойчивости, которые мы сделали в гл. VI, а также в связи с дискретными процессами решения, разумеется, равным образом справедливы применительно к непрерывным процессам решения. § 17. ЗАДАЧА О СОБСТВЕННЫХ ЗНАЧЕНИЯХ Посвятим теперь наше внимание задачам определения тех значений X, при которых возможно существование нетривиального решения уравнения (1) + Х2ср (Z) и = 0, и (0) = и (1) = 0. Связь между нашими предыдущими рассмотрениями и этой задачей (на первый взгляд они кажутся далекими друг от друга) имеет своим источником то обстоятельство, что — при слабых ограничениях на
функцию <р (0 — задача о собственных значениях эквивалентна задаче 1 отыскания относительных минимумов функционала J* и'2 dt при о условиях 1 (2) f<p(t)u2dt — 1. и(0) = и(1) = 0 О или задаче отыскания относительных максимумов функционала 1 J* <p(f)u2dt 0 при условиях 1 (3) j’u'2dt=l, «(0) —«(1) = 0. О То обстоятельство, что условие я(0) = 0 нарушается, когда мы пересекаем экстремаль, делает эту задачу качественно отличной от задач, рассмотренных нами выше. Следовательно, если мы хотим применить метод функциональных уравнений, мы должны рассматривать эту задачу как частный случай некоторого более общего класса задач, обладающих соответствующими свойствами инвариантности. К счастью, это можно осуществить несколькими путями. Первый подход состоит в следующем. Рассматривается задача минимизации функционала 1 (4) J(«) = f и'2 dt а по всем и, удовлетворяющим условиям (5) a) u(d) = k, zz(l) = O, . б) f<f(t)u2dt = 1. О Здесь новый параметр состояния а удовлетворяет условию < 1. Мы предполагаем, что функция ср(/) подчинена ограничению 0 < Ьх Для 0 <^4^1 и непрерывна на интервале [0, 1]. Эквивалентная задача — максимизировать функционал 1 (6) K(a)=‘f <f(t)u2dt
при условиях (7) a) u(d) = k, zz(l) = 0, • *• ; i б) j.a'2 dt=\. а Вторая, менее очевидная формулировка, которая служит нашим целям, состоит в следующем. Требуется минимизировать функционал (8) 1 У(и)= J u'2dt при условиях (9) а, а) и(а) — ц(1) = 0, 1 - б) J[?(O«2 + A(1 — 1. а Положим § 18. ПЕРВАЯ ФОРМУЛИРОВКА 1 (1) f(a, k)=min J u'2dt, где , (2) а a) и (а) —/г, и(1) = 0, i 6) j‘<p(t)u2di=l. a Вдоль экстремали, с точностью до членов порядка O(s)1), можно написать 1 (3) a) J* cp (/) zz2 = 1 — scf (a) k2» a+s 6) zz(a-|-s) — k-]~SV, 1 в) / (a, k) — i/2s-|- J* uf2 dt. a+8 1) Для упрощения исследования мы перейдем непосредственно к йыбоДу йрёдёлького дифференциального уравнения в частных производных.
Теперь, для того чтобы выполнялось условие (26), произведем замену переменной (4) н(/)=[1— Мы имеем с точностью до членов порядка о($) (5) a) — + i б) f (a, k) = v2s -4- (1 — («) &2) J* ^'2 dt. a+s Комбинируя полученные результаты, приходим к приближенному функциональному уравнению (6) /(а, £) = [Л / № \1 v2s +(1—$ср(а)£2)Уда-[-$, & + («)+ о ($)• Устремляя 5 к нулю, в пределе получаем уравнение \7) 0 = min [0 + vfk] +fa+ («) &f, v z ИЛИ /2 f (8) — ?(«)#+?(«)*2Л Начальное условие задается в точке а = 1 и является нетри* виальным, поскольку f (at k) —>оо при я—>1. Для» определения этого начального условия имеются два пути, которые мы обсудим в следующем параграфе. § 19. ПРИБЛИЖЕННОЕ РЕШЕНИЕ Если а близко к единице, а функция <р(/), как предполагалось ранее, непрерывна, то вариационную задачу (17.4) и (17.5) можно заменить следующей аппроксимирующей ее задачей: минимизировать функционал J* и'2 dt при условиях а (1) а) «(а) = /г, «(1) = О, 1 б) J и2 dt= 1, а где Множитель ср(1) включен в функцию «(/)*). х) Здесь аппроксимация заключается в замене y(t) на ф(1). — Прим, перев.
К этой задаче можно подойти двумя путями. Используя классический подход, мы получаем уравнение Эйлера (2) + = которое может быть разрешено в явном виде. Неизвестный параметр определяется из условий (1а) и (16). Второй метод использует уравнение (18.8) при <p(a)=sl. Так как для А = 0 решение задачи (1) известно, именно чг2 (3) f(fl. то мы можем получить решение задачи (17.8) в виде степенного ряда по k, где k^O. Поскольку нас интересует в первую очередь решение для малых k, этот вид решения удобен для получения численного решения. § 20. ВТОРАЯ ФОРМУЛИРОВКА Вывод соответствующего дифференциального уравнения в частных производных для вариационной задачи (17.8) и (17.9) мы предоставляем читателю в качестве упражнения. Отметим лишь, что важным моментом является такая нормализация функции u(f), чтобы выполнялось начальное условие и(а) = 0. § 21. ДИСКРЕТНЫЕ АППРОКСИМАЦИИ В той мере, в какой это касается начальных значений, дифференциальное уравнение для минимума f (а, А) обладает определенными неприятными чертами. Поэтому может оказаться полезной следующая дискретная формулировка. Рассмотрим задачу о минимизации функции N (1) F(«Р и2, .... uN_±) = Д(«s — "fc-i)2 при условиях (2) N-1 а) 2/рХ^1’ б)и0 = а, uN = 0. Введем параметр состояния R и в соответствии с этим рассмотрим последовательность , определенную следующим образом: (3) N fR (о) = min 2 («ft — «й-1)2. {“*} к~в
где подчинены условиям N (4) а) Л—R б) UR-l=sa' для \ k.=r 1. -2, ... , N — 1., Поскольку эти условия содержат переменные.границы для.каждого ик, произведем замену переменных (б) предполагая, Тогда (6) что 0<ft1<<pfc^Z>2<oo для k = 0, 1, 2, (а) = min {«»} fk-i / ’ где \<7) \. Задачу тельности л а) 2 = 1. k=R * 6)^! = ^-^ ®Л = 0. определения рекуррентного соотношения для последова-{/r(°)} мы предоставляем читателю в качестве упражнения. § 22. ПОСЛЕДОВАТЕЛЬНЫЕ ПРИБЛИЖЕНИЯ Вернемся к выведенному в § 3 уравнению - s (1) /(с)= max [Р(х, y)dt + f{c(S)) . Ио, S] J Соблазнительно рассмотреть вопрос об использовании для решения этого уравнения метода последовательных приближений. Однако если выбрать некоторую начальную функцию /0(с) и определить второе приближение при помощи уравнения - s (2) /1 (с) = max [ F (х, -у) dt-\- f0 (c(S)) , у [°> S1 lo мы видим, что в пределе (при 5->0) мы должны иметь (с), ==/0(сн- если только функция /0(с) непрерывна. На первый взгляд может показаться, что это обстоятельство делает невозможным использование метода последовательных прй^ ближений. В действительности это не так. Правда, теперь мы должны
строить приближения уже в пространстве поведений, а не в пространстве -функций и должны сконцентрировать наше внимание в первую очередь на поведении v = v{c, Т), а не на функции f (с, Т). Тем не менее функция /(с, Т) еще играет важную вспомогательную роль. Для иллюстрации этого положения рассмотрим задачу о максимизации функционала ' (3) J(y)^fF(x, y)dt при условиях (4) ' ^ = G(x, J), х(0) = с. Тогда, как и в § 6, получаем уравнение (5) fT = max [F (с, v) -\-G(c, v) /1. Выберем теперь начальное приближение v0 = Vq(c, Т)9 что равносильно выбору начальной функции у0 = у0(х, Т—f), помня соотношение между текущим временем t и временем Т, остающимся до окончания процесса. Используя это значение у0, вычислим х0 при помощи дифференциального уравнения (6) ^ = G(x0, у0(х0, Т—/)), х(0) = с, а затем /0(с, Г) по формуле г (7) /о (с. Г) = / F <хо- Л) dt- О Эта функция /0 удовлетворяет линейному дифференциальному уравнению в частных производных (8) /От=Лс> ®о)+°(с- ®о)Лс- Для получения следующего приближения к экстремали у (или к оптимальному поведению v) возьмем в качестве (с, Т) функцию, максимизирующую выражение (9) F{c, v)+G(c, z Используя ^(c, 71), мы, как и выше, получим yv(x, Т—t), а затем Xj и Д. Найдя Д, выберем в качестве^.функцию, максимизирующую (10) Е(С, v)+G-(c, ю)Т{с;
и будем продолжать в том же духе, определяя |/п)— последовательность приближений к / и последовательность приближений к V. § 23. МОНОТОННАЯ АППРОКСИМАЦИЯ Покажем теперь, что указанная последовательность приближений к f является монотонно возрастающей. Это обстоятельство важно как с теоретической, так и с вычислительной точек зрения. Имеем (1) Лт = F (С- ®1) + ° (С’ Vl) /10’ Ar=f(c' vo) + 0(c. ^0)/oo<F(c. *\) + 0(с. г'О/оо- Следовательно, (2) СЛ — /о)г > О (с, V.) (Д — /0)с. Поскольку ДСс, О) = /о(с, 0) = 0, мы видим, что Д— /о^О для всех Т 0. Продолжая аналогично, мы легко устанавливаем монотонность последовательности {/п}. Если эта последовательность равномерно ограничена, то она должна быть сходящейся. Однако существенно знать, когда сходятся последовательности частных производных {/пс} и [fnT], а также последовательность поведений {^п}. Эта общая проблема весьма сложна, и мы не будем здесь углубляться в нее. Интересно отметить, однако, что мы располагаем систематическим методом для улучшения любого конкретного поведения. § 24. ЕДИНСТВЕННОСТЬ РЕШЕНИЯ Как уже отмечалось выше, мы обходим все требующие строгого обоснования моменты при выводе дифференциальных уравнений, с которыми мы встречались, а также избегаем изучения существования решения этих уравнений. Следует, однако, заметить, что единственность решения может быть установлена весьма легко с помощью того же приема, который мы формально изложили в виде леммы 1 в гл. IV. Пусть, например, f— решение уравнения (1) fT = max [F (с, v) -f- О (c, v)fc]. V X Предположим, что существует другое решение этого уравнения g — g(ct Т), имеющее при всех с то же начальное значение, именно (2) /(с, 0) = £(с, 0) = 0.
Тогда будет справедливо также и соотношение (3) gT=max[F(c, w)-\-G(c, ^)gc]. Пусть = T)— функция, на которой достигается максимум в (1), и w = w(T) — функция, на которой достигается максимум в (3). Мы имеем следующие неравенства: (4) fT = F(c, v)-\-G(c, v)fc^>F(c, w) + G(c, w)fc, gT = F(c, <w)-\-G(c, 'a>')gc>F(c, v)-\-G(c, v)gc. Эти неравенства дают (5) О (c, w) (fc — gc) < fT—gT < G (c, v) (fc — gc). Таким образом, полагая u — f — g, видим, что функция и удовлетворяет неравенствам (6) G(c, <w)uc^uT^G(yy v)uc. Поскольку решения уравнений (7) хт—G(c, w)xc = 0, х(с, 0) = 0, Ут— G(c, v)yc — 0, у(с, 0) = 0 тождественно равны нулю, из теоремы сравнения следует, что функция и тождественно равна нулю. § 25. МИНИМУМ МАКСИМАЛЬНОГО ОТКЛОНЕНИЯ Рассмотрим теперь численное решение вариационной задачи следующего типа: минимизировать (1) max \и — а\ o^t^T по всем функциям v(t), удовлетворяющим ограничению — где (2) ^- = g{a,v), u(G) = cl. Рассмотрим соответствующий дискретный процесс, в котором (3) + ®й)Д. «0 = С1 и ик = и (&Д), Д = T/N, vk = v (^Д). Положим С4ч /дг(с) = й11п fflax \ик — о|.
Тогда (5) И /о(С1)=к—а\ (О /w(ci)=max[ici—°|’ min ^(С1 + ^(Ср ®)Д)] I v L 1 для N = 0, 1, 2, ... . Таким образом, мы свели решение исходной вариационной зада-чи к вычислению последовательности функций одной переменной, определенной рекуррентным соотношением (6). УПРАЖНЕНИЯ И ПРОБЛЕМНЫЕ ЗАДАЧИ К ГЛАВЕ IX 1. Вывести функциональные уравнения для следующих выражений: a) max J* f2dt, f о т б) max J* f2mdt, t. о- т в) max J* / dt, f' б : - т /(0) = с, f f'2dt=h о Т /(.(У) —с, f(J'y!ndt=l-, О 7 . 7 /(0) = с, j/2dt<a. jt2f2dt^b. о о 2. Вывести функциональные уравнения для следующих выражений: 7 a) max J* fgdt, — f — монотонно возрастающая функция, f о 7 J* /2Л< 1; о 7 б) max J* fgdt, /(0)=== с, f — монотонно возрастающая выпуклая f о т (вогнутая) функция, J*f2dt=\. о 3. Провести исследование, намеченное в § 18, и получить несколько первых членов разложения f (а, К) в виде степенного ряда по k для а, близких к единице.
4. Проделать это же для второй формулировки задачи о собственных значениях. 5. Вывести функциональное уравнение для следующего выражения: т min J* [(х— c)2-\-kf2\ dt, f о $ = — ax-\-f, x(0) = c. 6. Получить соответствующий результат для общего случая Тр-1 min / 2 (XW—Cfc)2+/2 О L fc_o dt. ... +V + /. x<«(0> = «,. » = ». 1........N—1. 7. Применить метод функциональных уравнений для нахождения минимума функционала т fO—xydt О по всем функциям /, удовлетворяющим условиям Л4>1» 4г = -* + /, х(0)=1, т $ f df < а <Т. О 8. При тех же предположениях найти минимум функционала т 9. Определить минимум функционала J* f2 dt по всем /, удовле-о творяющим условиям 4f- = — x + f, х(0)=1, 1 —для 0<f<T. 21 Р. Веллман
т 10. Определить минимум функционала J (х— y)dt по у, если о а) = х(0) = с, 0<_у<х, б) Ь" (у) непрерывна, ^СУ)>0» в) Z/(4-0) = -+-оо. 11. Рассмотреть ту же задачу в предположении, что значение Ь' (4~ 0) конечно. т 12. Определить минимум функционала J* [К(у)-{- L(x—y)]dt о по всем у при условиях а) /С(0) = £(0) = 0, б) L"(x)^Q для всех х, в) =— ay — b(x— у), x(fi) — ct #>а>0. 13. Рассмотрим задачу минимизации функционала т J(x) = f К (0 (х — Ь, (/) )2 + а2 (/) (х' — Ь2 (0 )2] dt, S О Л по всем функциям х, для которых х (s) = с и т J* х'2 dt < оо. Предположим, что все входящие сюда функции непре- S рывны и что яД/)>0 в интервале [О, Т]. Положим У (с, s)==minJ(x, s). Показать, что у2 /8 = -Oi(s)(c-Z>i(s))2 + Vc-4^). у (с, Т) = 0, для всех с. 14. Показать, что /(с, $) = и ($)Ч~ c^(s)4- c2w(s), где ut v и w зависят только от $. 15. Показать, что и, v и w удовлетворяют уравнениям а) и' (s) = — at (s) bl (s) 4- b2 (s) v (s) — , 6) v' (s) = 2at (s) l\ (s) + 2b2 (s) w (s) — .
В) 'll)' (S) = — 01 (s) — , причем u(T) — v(T) = w(T) = 0. 16. Получить соответствующие результаты для функционала т J(x) = f [01 (/) (х — b, (t) )2 + o2 (0 (x'-b2 (t))2 + a3(t) (x"—b3 (t) )*] dt. 8 17. Рассмотрим следующий дискретный аналог задачи 12: минимизировать функцию N J(x) = [<f>£ (х^) + (ХК К =1 по всем возможным значениям хк, /С = 1, 2, ..., N, причем х0 = х. Как обычно, предполагаем, что функции сря(х) и ф^(х) непрерывны и обладают надлежащими свойствами при х — оо. Показать, что эта задача приводит к последовательности |/я(х)}, определяемой следующим образом: (*) = min [?jV (хЛ) + (хЛ — х)], /в (*) — min [?В (Хв) + Фв (Хв Х) 4“ /В+1 (Лй)]' 18. Рассмотрим, в частности, случай, когда функции и квадратичны по х, причем ук — Ьк(х— dKy, a tyK = скх2. Показать, что в этом случае (х) —где и не зависят от х. 19. Показать, что __ bN-ldN-l + UN~~ — vn/2)2 Un^ bN_i + + __ — ^CN-1 (dN-lbN-l Vn/2) + CN-1 + WN __ c7V-l(^ + wjy) b^-l + c4Y-J + *
20. Пусть {х^.}— минимизирующая последовательность. Показать, что _ xct+ ^ — 1/2/2 1 #2 + Cl + ’ _ ХК-\ + dK-lbK-l — VK+1P Xr + скЧг 21. Рассмотреть соответствующим образом задачу минимизации выражения N J(x)= 2 [ая(ХК &к) ~^~Ск(ХК X£-l) ~^~Sk^SK ]’ К “1 где s£ = x1 + x24- ... +хк. 22. Рассмотреть стохастический случай, когда входящие параметры являются случайными величинами и нужно минимизировать математическое ожидание J(x). 23. Рассмотрим скалярное уравнение = v), «(0) = с, где v выбирается так, чтобы минимизировать функционал т J(v) = J h (и — c)dt. о Положим /(с, T)=minJ(<y). Вывести функциональное уравнение V для f. 24. Рассмотреть задачу, в которой нужно минимизировать т J* h (и — о 25. Рассмотреть задачу, в которой нужно минимизировать max \и — а (О|» о<* < т где a(t)— известная функция от t, 26. Рассмотреть соответствующую двумерную задачу, используя уравнение где — 1.
27. Рассмотреть таким же образом задачу о максимизации т J(J. g) = J min (x, У) dt, 0 где ^. = ах + /, x(0) = c1( ^ = by+g, ^(0) = c2. а функции f (t) и g(f) удовлетворяют условиям />0, g>0. 28. Рассмотрим уравнение ^ + a*u = f(t), u(G) = cv и'(0) = с2, а2<1. Нужно выбрать функцию f(t), подчиненную ограничению — так, чтобы уменьшить и до нуля за минимальное время. Каково соответствующее функциональное уравнение? 29. Получить методом функциональных уравнений решения задачи о брахистохроне и изопериметрической задачи. 30. Определить путь луча света через неоднородную среду, предполагая, что луч света проходит этот путь за минимальное время. 31. Рассмотрим задачу определения минимума — max max[|«ft|, |1—wft|] по всем последовательностям {^}, удовлетворяющим условиям | wk | 1, где «Л+1 = g (“к> vk, ‘Wk), uQ=cv, 'Vk+l=h (“к- Vk> ™к)’ 4) = c2- Положим /лг(с1- c2) = min JN{W). w Показать, что Mr C2) = maX [ I C1 |> | ^l- C2- W)’ A(Cr C2> ®))]’ 32. Получить соответствующие рекуррентные соотношения для случая, когда 4(w)= max ч»-
33. Рассмотрим реактивный самолет, движущийся по горизонтальной траектории. Его масса слагается из постоянной массы самого самолета w и массы топлива т. Его движущая сила считается известной функцией скорости горения топлива, скорости самолета и массы горючего. В то же время движущая сила является известной функцией тяги и лобового сопротивления, которые в свою очередь представляют собой известные функции скорости горения топлива, скорости самолета и массы горючего. Пусть (1) x(t)— расстояние по оси х от начала в момент tt v(t)— скорость самолета, m(t)— масса топлива, w — постоянная масса самолета, y(t)— скорость горения топлива, F(y, v, т)— движущая сила. Тогда d^x = v, ni), ИЛИ (w + т) = F (у, V, т), г»(0) = v0, И ~аГ— — У> т(О) = то. 34. Рассмотрим дискретный вариант описанного выше процесса и наложим ограничение на скорость горения топлива: 0^y(t)^R. Пусть f(v, т)—расстояние, пройденное при начальной скорости v, количестве топлива т и окончательной скорости vTi если при сжигании топлива используется оптимальное поведение. Показать, что РД+отхД/(,+ и выяснить зависимость f(v, tri) от vT. (Р. Беллман— С. Дрейфус, А. Картано — С. Дрейфус1)) 35. Пусть аналогично т, d)— время, необходимое для того, чтобы пройти расстояние d при начальной скорости заданном х) С а г t a i п о Н., Dreyfus S., Application of dynamic programming to the minimum time-to-climb problem, Aeronautical Engng. Rev., 1957.
количестве топлива т и требуемой окончательной скорости vT, если при сжигании топлива применяется оптимальное поведение. Показать, что f(v, т, <0 = Д+ min [/(?> + т—уЬ, d —т>д)1. 36. Рассмотрим уравнение __ + (х2_1)__ + х = г(0 + г,^> __f x (0) — ct, x' (0) = c2, где нам нужно определить функцию v~v(x, dxjdt, f), подчиненную ограничению так, чтобы минимизировать математическое ожидание величины т J(x}= f х2 dt +1X(T)I О в некотором подходящем классе случайных функций r(t). Перейдя к дискретному варианту, показать, что мы получаем рекуррентное соотношение /о(СГ С2) = ДС1 + |С1+С2Д|> 4 (С! • С2) ==( ™J М + f fjf-1 (С, + С2Д. С2 + + [_ (С2 _ !) с2- С1 + г0 + Ч(] Д) dG (г0) , где dG(r^) — функция распределения независимых случайных величин. {/“$}- 37. Рассмотрим линейное уравнение = 4г’ z)’ ^(0)==С1. х'(0) = с2, где v нужно определить так, чтобы минимизировать математическое ожидание величины т о
Найти соответствующие рекуррентные соотношения, выяснить структуру последовательности £2)} и определить оптимальное поведение. (Р. Беллман 1)) 38. Возвращаясь к задаче 36, рассмотрим задачу определения такого которое минимизирует вероятность J=P{ max Показать, что дискретный вариант приводит к рекуррентному соотношению 4+1 (сг с2) = //»(С1 + С2Д> Сг + [-(4— !)С2 — Cl + ro + ®o]A)d0(ro)- 39. Рассмотрим случай, когда переменные не являются независимыми. Предположим для начала, что распределение гп+1 зависит от значения гп. Определим с2, г) как минимальное математическое ожидание величины JN при начальном состоянии (q, с2) и информации о том, что значение случайной величины на предыдущем шаге было равно г. Показать, что рекуррентное соотношение для последовательности (Д/ имеет вид с2- r)=min Дс?+ с2+ + [- (С1 — 9 с2 — С1 + Го + Д) d0 (Го- Г) 40. Рассмотрим задачу нахождения монотонно убывающей последовательности приближений к первому собственному значению уравнения Хер (/) zz = 0, я(0) = я(1) = 0. Пусть ср — непрерывная положительная функция от/£ [0, 1]; тогда первое собственное значение дается соотношением 1) В е 11 m a n R., Dynamic programming and stochastic control processes, Trans. IRE, 1957.
J*a'2 dt — min —р---------. и г J <f>(t)u2dt о Будем строить приближения в пространстве поведений, рассматривая функции а'(/), постоянные в интервалах [АД, (А-|- 1)Д], А = 0, 1, 2, .... N— 1, ЛГД=1, т. е. и' (0 = ик, АД < t < (А 4- О Д- Пусть Xi(N) обозначает минимум в этом пространстве. Показать, что Xi(^)>Xi(2N), и вывести рекуррентный метод для вычисления Xt(N). 41. Рассмотреть ту же задачу для уравнения 4-Х<р(0и = 0, «(0) = «'(0) = «(1) = «'(1) = 0; соответствующая вариационная задача заключается в определении 1 J a"2 dt — min -у---------. J* (/) и2 dt о БИБЛИОГРАФИЯ И КОММЕНТАРИИ К ГЛАВЕ IX § 1. Метод, применяемый в этой главе, был впервые изложен в статье Беллмана [Bellman R., Dynamic programming and a new formalism in the calculus of variations, Proc. Nat. Acad. SCI. USA, 39, № 9(1953), 1077—1082]. § 3. Ряд приложений метода функциональных уравнений в математической экономике можно найти у Беллмана (Bellman R., On the application of dynamic programming to variational problems arising in mathematical economics, Proc. Symp. on Calculus of Variations and Applications, Chicago, 1956). § 7. Рассмотрение задачи этого параграфа классическими вариационными методами можно найти в статье Беллмана, Флеминга и Уиддера (В е 11 rti a n R., F 1 е m i n g W., W i d d e r D. V., Variational problems involving constraints, Ann. di A\at., 1956).
§ 11. Эта задача рассмотрена в статье Веллмана (Bellman R., Notes on the theory of dynamic programming, J. Soc. Industr. Appl. Math., 1955). § 12. Другое доказательство сходимости, основанное на функциональных уравнениях, описывающих процесс, дано у Веллмана (Bellman R., Functional equations in the theory of dynamic programming VI, A direct convergence proof, Ann. Math., 1957). Приведенное здесь доказательство принадлежит Флемингу. § 14. Доказательство эквивалентности характеристик системы квазилинейных дифференциальных уравнений в частных производных для Vi и уравнений Эйлера, полученных обычным путем, было дано Осборном. Его можно найти в гл. 7 монографии Веллмана (Bellman R., Dynamic programming of continuous processes, The RAND Corporation, R-271, 1954). § 21. Эта последняя формулировка кажется наиболее многообещающей для вычислительных целей. § 22. Результаты этого параграфа были намечены в статье Веллмана [Bellman R., Monotone approximation in dynamic programming and the calculus of variations, Proc. Nat. Acad. Set. USA, 40, № 9 (1954), 1073—1075]. § 25. Обсуждение приложения метода функциональных уравнений к некоторым аналитическим задачам, возникающим при изучении управляемых процессов, можно найти у Веллмана (Bellman R., On the application of dynamic programming to the study of control processes, Proc. Symp. on Nonlinear Control Processes, Brooklyn Polytechnic Inst., 1956).
Глава X МНОГОШАГОВЫЕ ИГРЫ § 1. ВВЕДЕНИЕ В предыдущих главах мы рассматривали ряд процессов решения, которые, хотя они и были разного происхождения и различной аналитической структуры, обладали важной общей ’чертой — все эти решения направлялись единой целью максимизировать значение некоторой функции критерия. В этой главе мы будем рассматривать многошаговые процессы решения, в которых эта общая целенаправленность более не сохраняется. Некоторые решения будут направлены на максимизацию, а другие на минимизацию. Вероятно, в наиболее интересной форме эти процессы с противоположными интересами предстают перед нами при изучении действий двух одушевленных противников, которые на каждом шаге процесса обмениваются оптимальными ходами. В этих терминах можно успешно рассмотреть многие ситуации экономического мира, а теория азартных игр случая и умения1) предоставляет ряд изящных приложений общих методов. Далее, в области физики в связи с испытаниями и экспериментированием часто полезно рассматривать природу в какой-то мере антропоморфизированной, в виде противника, стремящегося утаить от нас истину2). Постановку экспериментов можно рассматривать как игру, в которой мы пытаемся выудить сведения из упрямого, но честного противника. Развивавшаяся в последние годы математическая теория, которая исследует задачи, характеризующиеся таким взаимодействием между личными целями, и есть теория игр. Хотя много усилий в этом направлении приложил Э. Борель, теория игр основывается на фундаментальном результате Неймана — известной теореме о минимаксе. Прежде х) Игры случая и игры умения — два типа игр. К первому из них можно отнести кости и детские игры типа „Цирк®, ко второму — шахматы, преферанс и т. п. — Прим, перев. 2) Не следует придавать этой гипотезе философской окраски. Она лишь отражает ту принятую в теории игр установку, что при отсутствии информации о деятельности противника следует предполагать, что он действует наихудшим для нас образом. В применении к природе это означает, что неизвестная, но важная для нас закономерность объективного мира приводит к наименее благоприятным для нас результатам. Как только эта закономерность познается, она перестает быть элементом „стратегии природы®, а включается в число „правил игры®. — Прим. ред.
чем приступить к рассмотрению многошаговых игр, мы очень коротко остановимся на основных понятиях теории игр. Теорию многошаговых игр можно рассматривать не только как обобщение теории одношаговых игр, но во многих отношениях и как нечто более фундаментальное1). Одношаговую игру можно рассматривать как стационарный вариант исходного динамического процесса, именно многошагового процесса. После этих предварительных замечаний мы рассмотрим некоторые частные многошаговые игры, возникшие из многошаговых ггроцессов распределения, а затем рассмотрим „игры на выживание" и игры типа погони. Следуя этим примерам, мы по образцам гл. III представим общую формулировку, а затем, как в гл. IV, докажем ряд теорем существования и единственности для некоторых важных специальных классов уравнений. В основном используются те же методы, что и в исследовании процессов с единым намерением. Однако игры на выживание содержат особые трудности, требующие более развитого аппарата для общего исследования. Метод, который мы употребляем, приложйм только к узкому классу уравнений. Одним из интересных аспектов игр на выживание является приложение этой концепции к изучению игр с ненулевой суммой, где интересы игроков уже не являются прямо противоположными. Формулировка этих игр в терминах выживания дает нам возможность ввести для этих игр метрику так, чтобы сделать их играми с нулевой суммой. Далее, как мы покажем ниже, достаточно разумные аппроксимации приводят нас к нахождению новой метрики для игр с ненулевой суммой, метрики с соответствующей теоремой о минимаксе. § 2. ОДНОШАГОВАЯ ДИСКРЕТНАЯ ИГРА Мы будем рассматривать класс процессов решения, в которых участвуют два лица. Эти процессы мы будем называть играми. Два действующих лица, которых мы будем называть игроками, будут несколько прозаично именоваться А и В2). Рассмотрим типичную игру. !) Трактовка теории многошаговых (позиционных) игр как обобщения теории одношаговых игр (т. е. игр в нормальной форме) представляется спорной. Естественнее, пожалуй, считать, что многошаговые игры являются более конкретным объектом, чем одношаговые, так как в многошаговых играх стратегии являются некоторыми функциями, т. е. более конкретными и индивидуализированными объектами, чем в одношаговых играх, где они являются просто элементами абстрактных множеств. Важность теории многошаговых игр определяется не ее общностью, а возможностью воспроизвести в ней больше черт изучаемого явления. — Прим. ред. 2) Преемники алгебраических А, В и С, рассмотренных С. Ликоком. [Стефан Ликок (1869—1944) — популярный в Америке канадский юморист.— Прим, пере в.}.
Правила этой игры состоят в следующем. Первый игрок А делает выбор из М различных ходов, которые мы будем обозначать числами 1, 2, ...» М, а второй игрок В — из N различных ходов, обозначаемых через 1, 2, ..., 2V. Если А выбирает свою Z-ю возможность, а В—у-ю, то А получает величину ац, а В величину Если эти величины положительны, мы можем смотреть на них как на выигрыши, если они отрицательны — как на проигрыши1). Эти доходы, или выигрыши, удобно вводить посредством двух матриц игры, или матриц выигрышей (1) MA=\\ai}\\, МВ =|1М- 1 Рассмотрим теперь одношаговый процесс, в котором каждый игрок делает в точности один ход. Оптимальный ход, определяемый как ход, который обеспечивает максимальный доход, находится непосредственно, если А должен ходить раньше В и В может использовать информацию о его выборе. Если А выбирает Z-ю возможность, то В выбирает у — y(Z) так, чтобы максимизировать by. Следовательно А выбирает Z так, чтобы максимизировать aitj(i). Такое же правило определяет выбор у, если первым ходит В. Единственно интересным является случай, когда оба игрока должны ходить одновременно и ни один из них ничего не знает о выборе другого. В этих условиях игроки могут защитить себя, смешивая свои выборы, т. е. определенным образом рандомизируя их. Предположим тогда, что А делает Z-й выбор с вероятностью pit а В свой у-й выбор с вероятностью q Вектор p — (j)vp2t ..., рм^ определяет распределение вероятностей для Л, а вектор q = (qv q2, ..., qN}— распределение вероятностей для В. Как и в нашем рассмотрении случайных процессов в предыдущих главах, мы не можем далее говорить о самом доходе, а должны согласиться рассматривать некоторый средний доход. Как обычно, простейшим является ожидаемый доход. Математическое ожидание дохода для Л будет М N (2) Ел (р, q) = 2 2 a-ijPiQp i—1 J—l а для В — M N (3) Ев(р, q) =2 i-i y-i 1) Новые результаты по теории таких игр см. в статье Н. Н. Воробьева .Ситуации равновесия в биматричных играх", Теория вероятностей и ее применения, 3 (1958), 318—331. — Прим, перев.
Первому игроку следует выбирать р так, чтобы максимизировать Ejl, тогда как второй должен выбирать q, максимизирующее Ед. § 3. ТЕОРЕМА О МИНИМАКСЕ Чтобы получить достаточно полные результаты, мы должны предположить, что интересы игроков прямо противоположны, что выражается соотношением (1) Ьу=± — ау. В этом случае игра называется игрой с нулевой суммой (или нуле* вой игрой), и только для этого случая существует удовлетворительная общая теория. Мы имеем (2) Ев(р, q)= — ЕА(р, q), откуда ясно, что любой выбор р и q, который увеличивает ЕА(р, q), уменьшает Ев(р, q), и наоборот. В дальнейшем нашем обсуждении достаточно рассматривать только ЕА(р, q). Мы можем, используя это выражение, определить два значения игры (3) ’ VA = min max ЕЛ (р, q), Q р VB = max minEA{p, q). p ч Первое из них — это ожидаемый доход игрока А, если В выбирает q до того, как А выбирает р, второе — аналогичная величина в обратной ситуации. Тот замечательный факт (теорема Неймана о минимаксе), что (4) VA = VB, является основным результатом в теории игр. Эта величина называется значением игры. Этим результатом мы будем пользоваться здесь без доказательства х). Интерпретация этого результата такова: А может заранее объявить свое распределение вероятностей р, точно так же как В может объявить q, так как эти дополнительные сведения не увеличат ничьего выигрыша. Этот результат не является ни интуитивно ясным, ни тривиальным, но он верен. !) Различные доказательства этой теоремы см., например, в книге МакКинси „Введение в теорию игр", Физматгиз, М. (в печати), в сборнике «Линейные неравенства", ИЛ, М., 1959, или в статье Воробьева Н. Н. „Конечные бескоалиционные игры", Успехи машем, наук, 14, №4 (1959), 21—56—Прим.ред.
§ 4. НЕПРЕРЫВНЫЕ ИГРЫ Предположим теперь, что вместо выбора одного хода из дискретного множества ходов А (а также В) должен выбрать ход из континуума. В качестве простого, примера допустим, что А должен выбрать в интервале [0, 1] вещественное число х, а В — выбрать в таком же интервале вещественное число у. Рассматривая только случай игры с нулевой суммой, мы имеем функцию выигрыша /С(х, у), которая оценивает значение этого набора ходов для А, причем значение этой функции для В равно —/С(х, у). Если В выбирает распределение F (х) вероятностей, с которыми он избирает х, а В выбирает G(y), то ожидаемый выигрыш для А будет равен 1 1 (1) Ел==/1К(х’ -У)аЕ (x) d0 О')- о о Непрерывный аналог теоремы о минимаксе состоит в том, что (2) max min Ед — min max Ел F G GF по всем F и О, для которых 1 (3) a) J’dF(x)=l, О 1 б) rfO>0, $dG(y)=\ О при условии, что функция /С(х, у) непрерывна по х, у на единичном квадрате1). Если /С(х, у) не является непрерывной функцией, то равенство (2) может и не выполняться и Ea(F, О) может даже существовать не для всех F й О2). § 5. ОГРАНИЧЕННЫЕ РЕСУРСЫ Во многих ситуациях, включающих многоходовые действия, приведенная выше модель не является удовлетворительной. Так обстоит дело, в частности, в многошаговых процессах, в которых каждый 1) Эта теорема является весьма тонкой иллюстрацией полезности интеграла Стильтьеса, так как результат неверен, если мы будем рассматривать только функции F(x) и G(x), являющиеся первообразными, т. е. если dF (х) = ср (х) dx, dG (у) = ф (у) dy. 2) См. по этому поводу статью Карлина (Karlin S., Operator treatment of minimax principle, Contributions to the theory of games, vol. I, Princeton, 1950). Весьма общие условия существования и равенства минимаксов (J) £м. в статье Фань Цзи в сборнике „ Линейные неравенства". — Прим, ред.
игрок обладает ограниченными ресурсами. Здесь выбор ходов зависит от того, какое количество ресурсов имеется в распоряжении, и игра прекращается, когда какой-либо игрок исчерпает свои ресурсы. Следовательно, мы не можем считать получающийся набор N игр состоящим из N отдельных партий. Рассмотрим простой пример. Пусть А имеет количество ресурсов х, а В — количество у. На каждом шаге каждый игрок может поставить на кон одну или две единицы ресурсов с выигрышем для игрока Л, если А поставил Z, а В поставил /, и с выигрышем —-для игрока В, где Z, j — 1, 2. Здесь, чтобы упростить первоначальный пример, выигрыш измеряется в иных единицах, чем х и у, и поэтому не может превращаться в ресурсы. Пусть процесс обрывается, когда кто-либо из игроков исчерпает свои ресурсы, и каждый из них играет так, чтобы максимизировать свой полный доход. Допустим, что мы можем определить функцию (1) /(х, у/) как доход, ожидаемый от процесса игроком Л, если вначале Л имеет х, В имеет у и каждый использует оптимальное поведение. На первом шаге Л делает свои выборы согласно распределению вероятностей р — (рг, р2), а В — согласно распределению вероятностей q — (qlf q2)t где р и q будут, вообще говоря, функциями от х и у. Перечисление всех возможностей приводит к следующему соотношению для оптимального поведения: (2) 2 2 f(x, i- y—J)}. i-1 >1 причем в данный момент считается, что для многошаговых игр выполняется принцип оптимальности. Доказательство этого будет дано в § 9. Таким образом, мы получаем для /(х, у) функциональное уравнение {2 2 5 — y—f)] i=l {2 2 2 + — I, y—j)\ i=l J=1 для x, .y>0 с граничными условиями (4) f(x, — если х^О или
§ 6. ИГРЫ НА ВЫЖИВАНИЕ Обращаясь к игре, описанной в § 2, будем считать, что А имеет х ресурсов, В имеет у, и допустим, что доходы игроков и bjj выражены в тех же единицах, что и х, у (например, в долларах), и что Ьц —— ац (случай нулевой суммы). Предположим теперь, что игра продолжается, пока не разорится один из игроков, и что каждый игрок стремится разорить противника. Игру такого типа мы назовем игрой на выживание. Она является обобщением известной задачи о разорении игроках). Предполагая существование функции (1) /(х, у)—вероятности того, что А разорит В, когда А имеет х, В имеет у и каждый игрок придерживается оптимального поведения, и рассуждая, как и раньше, мы получим функциональное уравнение (2) /(х, j/) = maxmin 2/(x + a»j, З' —= Р Q = min max 2/(x + aij> У — ч p где x, у > 0, с граничными условиями (3) /(х, -У) = { х > О, х < 0. З'СО. у>0. Так как игра имеет нулевую сумму, количество ресурсов в игре остается постоянным. Таким образом, состояние процесса определяется величиной х, т. е. количеством ресурсов, принадлежащих А. Полагая х + у = с и/(х, у) = f(x), получим более простое уравнение (4) /(х) = max min S/(x + а^рщ = min max + афРгЧ) p q i,j q p i, j для 0<x<c, где./(x) = 0 для x^O и /(x)=l для x^>c. § 7. ИГРЫ ПОГОНИ Другой интересный класс игры составляют игры, включающие догоню одного игрока за другим, В одних случаях ставится вопрос, может ли один игрок поймать другого, в других случаях, где поимка бесспорна, задача состоит в том, чтобы определить выбор такой траектории для одного игрока, которая минимизирует время 1) См., например, Гнеденко Б. В., Курс теории вероятностей, ГТТИ, М., 1954, стр. 60. — Прим, перев. 22 Р. Веллман
поимки, а для другого игрока —траектории, которая максимизирует это время. Непрерывные варианты этих задач очень трудно строго сформулировать, и поэтому большинство полученных результатов относится к дискретному варианту. Рассмотрим следующую простую задачу. Два игрока, А и В, расположены на прямой соответственно в точках &Д и ZA, где Д > О, a k и I — целые числа. На каждом шаге игры каждый игрок решает, продвинуться ему на одну единицу вправо или влево. Ходы делаются одновременно, причем имеется полная информация относительно позиций каждого игрока. После каждого шага В уплачивает А количество g(d), где d=\k— /|Д — расстояние между игроками. Кроме того, на этом шаге с вероятностью 1—a(d) процесс заканчивается. В этой многошаговой игре за полный выигрыш принимается ожидаемое значение величины, которую В уплатит А до того, как закончится процесс. Снова предположим, что существует функция (1) /(d)—ожидаемый выигрыш, если вначале А и В находятся на расстоянии d и оба используют оптимальные стратегии. ,-^Тогда, рассуждая, как и раньше, получим функциональное уравнение (2) f(d) = a (d) max min IprfJCd) +p2q2f(d)+P 1^2f(d — 2) + p Я. H-p2?i/(d + 2)]+g(d)==a(d)minmax[. . .] + g(d). Q P где и p2— соответственно вероятности того, что А пойдет влево или вправо (для любого шага), a qx и q2— соответствующие вероятности для В. Вообще говоря, оптимальные pt, р2, qr и q2 будут зависеть от d. § 8. ОБЩАЯ ФОРМУЛИРОВКА Опишем теперь в более или менее общем виде класс многошаговых игр, которые мы намерены анализировать. На каждом шаге игры положения обоих игроков А и В будут характеризоваться /n-мерными векторами х и у, которые мы будем понимать как „ресурсы". Чтобы исключить на время принципиальные трудности, связанные с рассмотрением бесконечных процессов, рассмотрим сначала конечный процесс. В начале каждого шага TV-шагового процесса игрок А выделяет определенное количество своих ресурсов — вектор а и В — определенное количество своих ресурсов — вектор v\ это символически будет выражаться соотношениями где неравенства выполняются покомпонентно. В результате этого распределения ресурсов А получает выигрыш R(u, v\ х, у), где R— скалярная функция, а В — выигрыш — R(u, х, у) (рассматривается процесс с нулевой суммой).
Кроме этого, происходит изменение их ресурсов: х преобразуется в Т(х, у-9 и, v), а у — в Т' (х, у\ ut v). Процесс продолжается теперь по тому же принципу еще (N—1) шагов. Полный доход игрока А в N-шаговом процессе выражается формулой (1) Rn = Rn(u, ult u2i uN__±-t vlt vN_±; x, y) — = R(u, v)-\-R(ult ... 4-/? Gztv-i, ^-i). Имеется несколько способов, которыми мы можем исследовать этот N-шаговый процесс. Одна крайность — рассматривать эту N-шаго-вую игру как одношаговую игру усложненного типа, требуя, чтобы А выбирал множество векторов (и, uv ..., uN_^, а В — множество векторов (у, vv . .., где выбор ик и vK зависит от ut uv ..., uK_v v, ‘Ур ...» ^к-г ДРУгая возможность—использовать функциональное уравнение. Для случая неограниченно продол’ жающегося процесса и для процессов, включающих случайное воздействие, единственно возможным является применение рекуррентных соотношений. Для случая конечных детерминированных процессов этот метод обычно проще и с аналитической и с вычислительной точек зрения. Мы будем предполагать, что R(u, <и\ х, у)— непрерывная функция от и и v для всех конечных значений и и х и у, и аналогично, что Т(х, у\ и, v) и Т'(х, у\ ut v) — непрерывные функции от х, у, и и v для всех конечных значений этих векторных переменных. Общий случай, когда предполагается только ограниченность и измеримость функций, можно исследовать, применяя те же принципы, ценой введения операторов sup и inf вместо max и min. Интересно также рассмотреть частный случай, когда величины х, у, и, т/, Т, Т' принимают лишь конечное число значений; он имеет то преимущество, что позволяет избежать рассмотрений, основанных на непрерывности. Одно из преимуществ рассмотрения N-шагового процесса как одношагового, как это описано выше, состоит в том, что это позволяет нам на основе известных результатов об одношаговой игре точно определить многошаговую игру, а также значение многошаговой игры. Определив игру, мы можем доказать приложимость метода рекуррентных соотношений. Значение описанной выше N-шаговой игры задается выражением (2) 1^ = max min [j" ^КлсЮ(и, uv и2.........uN_J X X dQ' (у, vv v2, ..., ajy-i)] = mm max
где О и G'— функции распределения на областях очень сложной формы, определенных неравенствами о и х, 0 < v < у, 0<^<Г 0 <1 т, N-1 0 ^-1 ?N-2 Величины Т и Т' зависят от х, у, и и v, х, у, и, uv vr и т. д. величины 7\ и Т{ — от § 9. ПРИНЦИП ОПТИМАЛЬНОСТИ И ФУНКЦИОНАЛЬНЫЕ УРАВНЕНИЯ Изменим теперь наши обозначения, введя Р вместо х и Р' вместо у, с тем чтобы рассмотреть более общие случаи, в которых х и у уже. не будут обязательно векторами, элементы которых являются количествами ресурсов х). Так как VN зависит только от исходных состояний, мы можем определить последовательность функций (1) fN(P, P') = VN, N=l, 2........ Предполагая на время, что для многошаговых игр справедлив принцип оптимальности, мы получим следующие рекуррентные соотношения 2): (2) f^P, Р') = R {и, v) dG (и) dG' (у) = min max J G' G 0<v<P' fN+1(p< P')= = max min G G’ [ f f [/?(a, v) + fN(T, T')]dG(u)dG'(v)]== 0<w<P 0< v<P' = min max [. . J; G' G В том, что этот принцип имеет место для процессов с одним действующим лицом, где мы стараемся максимизировать доход или !) По-видимому, в этих более общих случаях предполагается какая-то упорядоченность элементов Р и Р'. См., например, область интегрирования в (2) и дальнейшее изложение. — Прим, перев. *) Для простоты мы будем вместо R(ut v; Pt Р') писать R(u, v).
минимизировать „издержки", легко убедиться, рассуждая от противного. Так как его выполнение для игровых процессов может оказаться не столь очевидным, мы в целях полноты предложим краткое доказательство. Рекуррентное соотношение (2) обеспечивает последовательность (не обязательно единственную) пар функций распределения {GN(u, Р, Р'), G'N(v, Р, Р')}, которые определяют последовательность {fN(P, Р')}. Чтобы показать, что функция fN(P, Р') действительно является значением N-шаговой игры, достаточно показать, что игрок А может обеспечить себе ожидаемый выигрыш fN(P\ Р'), если он выберет и на первом шаге N-шагового процесса в соответствии с функцией распределения ON(u> Р, Р'), когда состояния А и В описываются соответственно точками Р и Р', и аналогично, что В может гарантировать, что его ожидаемый убыток будет не больше, чем fN (Р, Р'). Чтобы показать это, рассмотрим N-шаговый процесс с одним действующим лицом, в котором А использует заданную стратегию, представленную последовательностью функций распределения {Gk(u, Р, Р')}, k— 1, 2, ..., N, а В старается минимизировать ожидаемый доход для А за N шагов. Достаточно рассмотреть этот процесс, так как любое другое поведение, применяемое В, даст А больший ожидаемый выигрыш. Пусть (3) w^(P, Р')—ожидаемый доход игрока А за N шагов, когда А использует заданную стратегию {Gk(u, Р, Р')}, В использует минимизирующую стратегию и А и В первоначально находились в состояниях Р и Р'. Тогда после использования принципа оптимальности для процесса с одним действующим лицом мы получим рекуррентные соотношения (4) wJP, P') = inf f О’ ' f R(u, v)dO1(u, P, P') dG'(v), O^v<P' WN+1(P> P') = = inf= f Г f [R(u,V)-I-wn(T, T')]dOw+1(u,P,P')ldG'(v). G' J Рассматривая происхождение функции Gp мы видим, что минимум в выражении для Wj(P, Р') в формулах (4) достигается на функции G'=G', которая, вообще говоря, не является единственной. Следовательно, (б) WJP, Р^жхУДР, Р').
Так как выражение для w2 тем же путем приводит к тому, что w2sV2, и, таким образом, по индукции убеждаемся в том, что (6) ^(Р, p')^vN(P, ру Точно так же мы убеждаемся, что если В использует стратегию G'n(v, Р, Р'), то А не может получить больше, чем V N(P, Р'). Следовательно, У^(Р, Р') является значением данной N-шаговой игры. § 10. БОЛЕЕ ОБЩИЙ ПРОЦЕСС Прежде чем предлагать какие-либо точные утверждения о процессах, которые мы рассматривали выше, рассмотрим группу более общих процессов, которые также можно исследовать с помощью методов, употребляемых нами ниже. Рассмотрим сначала бесконечный процесс описанного в § 8 типа, в котором мы считаем преобразования Т и Т', так же как и доход Р, зависящими от номера шага. В этом случае мы рассматриваем функции (1) /(Р, Р'; k)— значение для А бесконечного процесса, начатого на k-м шаге, если А и В имели на этом шаге Р и Р' и оба использовали оптимальные стратегии. Эта .последовательность с обычной оговоркой относительно существования удовлетворяет рекуррентному соотношению (2) /(Р, Р'; k) = = max min G G in [ f f I# v. k) +f(Tk, Tk-, k 4- 1)] dG («) dG' («)] = 0 < u < P = min max [.. G' G Перейдем теперь на следующую ступень усложнения процесса. В предшествовавшей задаче мы предполагали, что взаимодействие игроков вполне определено после того, как сделан выбор и и v. В ряде процессов выбор и и v определяет распределение результатов, что вынуждает назвать взаимодействие скорее случайным, чем детерминированным. Пусть Kk{z, t, t'\ и, v) обозначает функцию распределения, где z — значение Rk(u, v), t — значение Тк и Р — значение Тк. Функциональное уравнение (2) заменяется уравнением (3)/(Р, Р'; £) = — max min [ f f ^+l)l^k]rfG(«)dO'(®)]== G G 0^V<P' — min max G' G
Наконец, рассмотрим случай, когда мы сталкиваемся не столько с самим полным доходом R, сколько с его нелинейной функцией. Особенно важна ситуация, когда А стремится максимизировать вероятность получения дохода, не меньшего, чем заданная постоянная /?0. Другая интересная функция выгоды — это eaR. Предположим, что А стремится максимизировать ожидаемое значение ср(/?), где ср — заданная функция от R. Чтобы описать этот нелинейный случай, мы должны ввести дополнительный параметр состояния а, полный доход, полученный А от предыдущих шагов процесса. Определяя функцию f(P3 P't a; k) в основном как в (1), мы получим соответствующее функциональное уравнение (4) f(P, Р', а\ k) = = max min G G' t, t', k+1) dK*\ dG (zz) dG' (tz)l = = min max G' G Здесь не будут рассматриваться вопросы единственности и существования решений ни для одного из этих функциональных уравнений, поскольку основной подход является во всех случаях одним и тем же. § 11. ОСНОВНАЯ ЛЕММА Рассмотрим простое, но крайне полезное неравенство, которое обнаруживает квазилинейность преобразования (1) L(f) = max min Т(Р9 Р'\ f\ G, G') — min max T. G G' G' G Оно будет играть такую же роль в доказательствах существования и единственности в этой главе, какую в гл. IV играла лемма 1. Лемма 1 г). Пусть (2) L(/) = = max min[ f f[R (и, v) + h(P, P'; u, v) f(T, Г)] dG (zz) dG' (г/)] = G G и fS v^S' = min max [. . . ], G' G Ldn= г 1 == max min [J Jl/?! (zz, v) + h (P, P'- u, v) F (T, Г)] dG (zz) dG' (i»)j= G G uGS v£S' = min max [... G' G i) Предполагается, что для каждого преобразования max min == min max. Аналогичный результат верен для одностороннего оператора min max (см. § 18).
Тогда (3) Ц(7)— Z-i(F)Kmax niax[|P(a, ®) — Р,(й. ©)Ц-u f s ® e s' + \h(P. P'-, u, ©)| • 1/(7'. n—F(T, nil. Доказательство. Запишем (4) £(/)= max min T(P, P'; /; Gt G') = min max T (P, P'; /; G, G')» G Gf Gf G L1{F)= max min Tx (P, P'; F; G, G') = min max 7\ (P, P'; F; G, G'). G G’ Gf G Пусть (Gp 00 — пара функций, на которой достигается значение L(j), a (G2, G2) — пара функций, на которой достигается значение Li(F). Тогда в силу свойств седловой точки мы имеем следующую цепочку неравенств: (5) Т(Р, Р'; /; Ор О0<Т(Р, Р'; /; 02. 00 = £(/)< <7’(Р, Р'; /; 01( 00, Л(Р, Р'; F; 02) О0<Л(Р, Р'; F- Gt, G'^ = L^F)^ ^Tt(P, Р'; F, 02, 00. Комбинируя эти неравенства, получаем (6) T(P, P'; /; 02> 00 —Tt(P. P'; F; 02> 00 <L(/)-L1(F)< <7’(P, P'; /; 01( 00 — 7\(P, P'- F- 0P 00. Неравенства (6) дают (7) f f {P («. ®)~Pi («. v)+/i (P. P'; u, v) [f(T, T') -uCS v$S' -F^.T^dG^dG'^o^L^—L^F)^ f f {/?(«, ©) — u£S v£S' —Ri<Jh V)+*(P, P'; и, ®)[/(Г, T')—F(T, T')]} dGl(u)dGz(y),
Используя, как и в гл. IV, тот факт, что из а^с^Ь следует |с|<шах(|л|, |b |), мы получим из (7) следующее неравенство: (8) |£(/) — LJF)! < max Ц]*(|R(u, vy — R^u, г>)| + u£S v£S' + |Й(Р, Р'; «, *0||/(Л П —F(T, f v)—R^u, v)| +1h(P, P'-, u, ©)| |/(7\ F)- uCS v£S' — F(T, T'yidG^aydG^v)^, из которого непосредственно вытекает (3). Легко сделать изменения, нужные для получения аналогичных результатов в случае, когда max min заменяется на sup inf. § 12. СУЩЕСТВОВАНИЕ И ЕДИНСТВЕННОСТЬ До установления наших результатов введем некоторые обозначения. Пусть Р и Р' являются п- и n'-мерными векторами, определенными соответственно в областях D и D', каждая из которых содержит начало координат соответствующего пространства. При всех значениях и, v, Р и Р’ от преобразованных векторов Т(Р, Р'\ и, v) и Т'(Р, Р'\ v) требуется, чтобы они лежали в тех же областях, причем и и v суть соответственно А- и ^'-мерные векторы выбора, ограниченные областями S и S', которые могут зависеть или не зависеть от Р и Р'. Так как в следующей ниже теореме мы будем иметь дело с преобразованием сжатия, то предположение о конечности множеств D и D' не уменьшает общности. В каждом из этих пространств введем норму ||Р|| , равную сумме абсолютных величин компонент вектора Р: (1) PH =21^1. 1—1 1Р'Н=2Р'|. 1-1 По существу эти нормы не должны быть обязательно идентичными; в некоторых случаях может оказаться полезнее рассматривать нормы, сформированные по структуре функционального уравнения, чем стандартные нормы указанного типа.
Функциональные уравнения, которые мы рассмотрим несколько обстоятельнее, таковы: (2) ?') — max min { J f [R(u, ^)-|- ° G' u£Sv£8' -\-h(P, P'; u, v)f(T, T7)] dG(u) dG'(v) l = minmax[.. .1, > G' G где T=T(P, P'- u, v), T' = T'(P, P'; u, v). Для упрощения наших обозначений запишем оператор в фигурных скобках в уравнении (2) как Т(Р, Р'; f\ G, G'). Тогда уравнение в (2) примет вид (3) /(Р, Р7) = max min Т(Р, Р7; /; G, G') = G G' = min max Т (Р, Р7; /; G, G'). G' G Возникает вопрос, следует ли относиться к этому соотношению как к одному уравнению или как к паре уравнений. Мы будем называть (3) „уравнением". Результат, который мы будем доказывать, составляет содержание следующей теоремы. Теорема 1. Рассмотрим уравнение (2) при следующих пред* положениях: (4) а) функции R(u, v), h(P, Р'\ и, ^), Г(Р, Р7; и, v) и Т' (Р, Р'\ и, v) — непрерывные функции от Р, Р', и, v в любой ограниченной области изменения этих пере* менных; б) области выбора S(P, Р'), S'(P, Р') изменяются не* прерывно по Р и Р7; в) Т и Т' — преобразования сжатия, т. е. тах(||Т|| + ||Г||)<Л(||Р || + ||Р'||), u£S v£S' где k — заданная постоянная, меньшая единицы} оо г) 2 <w(knc) < оо для всех с > 0, где п*=1 ^(с)=^ max (max \R(u, -v)|); ||P|| + ||P'||<C u£S v£S' Л) max \h(P, P'\ u, U, V, P, P' Если указанные условия выполняются, то мы можем утвёр* Ждать, что существует единственное решение уравнения (2)
в классе функций f(P, Р'), которые непрерывны для всех конечных Р и Р' и равны нулю, когда Р и Р' — нулевые векторы. Это решение может быть получено методом последовательных приближений: (5) /о (^> Р') — max min [ J* J* R (а* v) dG (w) dG' (t/)j = u£S v£S' = min max [.. O' G fn+i(p’ max min T(P, P'- fn-, G, G') = G G' — min max T (P, P'\ fn\ Gt G'), n^O. G' G Решение получается как предел f(P, Р') = lim fn(P, P') в любой П>СО ограниченной области пространства (Р, Р'). Далее будет доказана следующая Теорема 2. В предположениях теоремы 1 множество функций (О (и), G' (v)), порожденное функциональным уравнением, образует множество оптимальных решений соответственно для игроков А и В в описанной выше многошаговой игре. § 13. ДОКАЗАТЕЛЬСТВО РЕЗУЛЬТАТОВ (О Приступим теперь к доказательству сформулированных выше результатов. Пусть fQ(P, Р') — max min £ J* J* R(u, v) dG (и) dG' = u£S vgs' = min max [... ] G' G и (2) (P, P') = max min T (P, P'\ f- G, G') = min max T, G G' G' G где T определяется формулами (12.2) и (12.3). В силу наших предположений о функциях, входящих в коэффициенты, и об областях S и S' мы можем получить существование седловой точки в (1) и непрерывность f^P, Р'). Тогда по индукции можно показать, что все функции fn(P> Р') существуют и непрерывны для всех конечных Р и Р'. . Покажем теперь, что последовательность {fn} сходится равномерно в любой конечной части пространства (Р, Р'). Используя
лемму 1, получаем неравенство (3) \fn+i(.P. P')—fn(P. Р')\< max max [J f |/п(Л T')ldG(u)dG'(V)],n^2, 8...... Определим новую последовательность (4) *„+i(0 = max |/n+1(P, P')-/„(P, P')|. m+\\pi<c Тогда при использовании предположения (4в) теоремы 1 соотношение (3) дает нам (5) «»+1(с)<»п(М. п = 2, 3.......... Кроме того, мы имеем (6) |/2(Р« р')— fi(P> P')|<maxmax J* J* | R (и, v)\dO(u)dO'(v)t откуда (7) w2(c)<w(c). Используя наше предположение о том, что %v(knc)<oot мы видим, что ряд 2l/n+i(P* Р')—fn(P* Pz)l сходится равномерно п в любой конечной области. Следовательно, {/n(P, Р')} сходится равномерно к функции /(Р, Р'), которая удовлетворяет исходному функциональному уравнению. Это завершает доказательство существования. Приступим теперь к доказательству единственности. Пусть F(P, Р')—другое решение, которое непрерывно при Р = 0, Р' = 0 и ограничено в любой конечной области. Мы видим, что тогда F(JPt Р') действительно непрерывно при всех конечных Р и Р', хотя этот факт и не не-- обходим для нашего доказательства. Он просто несколько упрощает его, так как мы можем заменить sup inf на max min. Мы имеем тогда два уравнения (8) Р(Р, Р,)= max min Т(Р, Р'; Р; О, О') = min max Т, G G' G’ G f(P, P,) = max min T(P, P'\ f\ G, O') — min max T. G G' G1 G Применяя лемму 1, мы видим, что (9) |F(P, P')-f(P, Р')|< max max G' G \F(T, T')—f(Tt T')\dOdO'
Пусть (10) Д(с) = шах |F(Pt Р')к IIP ll+ll P'lK с Из неравенства (9) следует (11) Д(с)<Д(Ас), что после итераций дает Д(с)<^ Д(£пс), п=1, 2, ... . Так как функции F и f непрерывны при Р = 0, Р' = 0 и имеют общее значение 0, мы видим, что Д(&пс)~>0 при п->оо. Следовательно. Д(с) = 0 и F==sf. Это завершает доказательство теоремы 1. § 14. ДРУГОЕ ДОКАЗАТЕЛЬСТВО СУЩЕСТВОВАНИЯ При изучении функциональных уравнений этого класса доказательство существования достается почти даром, тогда как доказательство единственности требует различной степени усилий. Что же касается функциональных уравнений, возникающих в вариационном исчислении, то для них имеет место обратное: доказать существование трудно, а единственность просто. Отметим, как мы можем получить существование решения уравнения с sup inf в случае, когда мы предполагаем, что R(u, и h(P, Р'\ Рассуждая индуктивно, мы получаем, что последовательность {fn(P, Р')} монотонно возрастает и ограничена. Значит, эта последовательность сходится к функции f(P, Р'). Чтобы показать, что эта функция удовлетворяет функциональному уравнению (1) f(Pt Р') — sup inf Т(Р, Р'\ f\ G, G') = inf sup T, G G' G’ G поступим следующим образом. Мы имеем (2) /(Р. P')>fn+1(P> P') = sup inf Т(Р, Р'- fn- G, G') G Gf и, значит, (3) /(P, P')>sup inf T(P, P'\ f; G, O'). G G' Обратно, используя положительность этого оператора, мы получаем (4) fn+l(P. P'XsupinfTfP, Р'; /; G, О') для всех п и, следовательно, (5) f(P, P/)<supinf7'(P, Р'; f; G. G'). Сравнивая (3) и (5), мы видим, что достигается равенство.
§ 15. ПОСЛЕДОВАТЕЛЬНЫЕ ПРИБЛИЖЕНИЯ В ОБЩЕМ СЛУЧАЕ Последовательность приближений {fn(P, Р')), используемых для построения функции f(P, Р'),—это последовательность, которая получается из конечных n-шаговых процессов. Эта последовательность не самое лучшее, что можно использовать, если интересоваться только бесконечношаговым процессом. Как мы указывали на предыдущих страницах, приближение в „пространстве поведений" (здесь в „пространстве стратегий") по ряду причин является более естественным и более важным типом приближения. Чтобы обосновать этот и другие типы приближений, нам нужна Теорема 3. В предположениях теоремы 1 последовательность, определяемая соотношением (1) Л+1(Я Р') = ™х min Т (Р, Р'; /п; О, О') = G G* = min max Т (Р, Р'; fn\ G, О'), п = 0, 1, ... , G’ G сходится к решению уравнения (12.3) для любой исходной функции f0(P, Pz), которая непрерывна в любой конечной части области (Р, Р') и равна нулю при Р —0, Р' = 0. ♦ Доказательство точно такое же, как данное выше. § 16. ЭФФЕКТИВНОСТЬ РЕШЕНИЯ Мы установим существование и единственность для выведенного выше функционального уравнения в предположении, что бесконечный процесс обладает значением для каждого игрока. Теперь возникает вопрос, будет ли действительно это функциональное уравнение давать достаточную информацию, чтобы позволить каждому игроку достичь этого значения. Если это так, мы будем говорить, что решение эффективно и функциональное уравнение теоретически эквивалентно игре х). Решение будет эффективно в предположениях теоремы 1, которые равносильны непрерывности. Чтобы показать эффективность в предположениях теоремы 1, мы должны показать, что если игрок А использует функцию распределения G(u) = G(tr, Р, Р'), получающуюся из пары (G, G'), 1) По многим причинам это, однако, неверно. После того как функциональное уравнение было сформулировано, а процесс снят с рассмотрения, мы ограничили себя определенным направлением подхода, который может и не быть оптимальным для исследования всех свойств этого процесса. Хорошо всегда помнить, что указанное функциональное уравнение — это только одно*из многих мыслимых математических описаний процесса.
которая дает минимакс, то независимо от того, что может делать В, А может гарантировать доход не меньший, чем f(P, Р'). При использовании этой фиксированной стратегии доход игрока А будет в наименее благоприятном случае определяться решением функционального уравнения (1) F(P, Р') = т1п|У f [Р(и, ©) + + й(Р, Р'; и, v)F(T, T')]dG(u)dG'(v) Используя аппарат предыдущих глав вместе со сделанными предположениями, легко показать, что это уравнение имеет единственное непрерывное решение, которое равно нулю при Р=0, Р' = 0. Более того, решение этого уравнения может быть получено как предел последовательности, определенной соотношениями (2) Р0(Р, P')=min Ц* J Р(м, v)dG(a)dO'(v)], & uGS v£S' Pn+i(P< = f ®) + ®gS' -+-h(P, P'\ u, v) Fn(T, T')\dG(u)dG'(v)}. Из происхождения G(u) ясно, что Fo = /o. Следовательно, по индукции ^n+i—fn+v где fn определено в соответствии с (15.1). Таким образом, (3) F(P, Р')= lim = lim/„ = /(P, Р'). П->оо n->oo Это показывает эффективность решений. Обращаясь к замечаниям, сделанным в § 6 гл. IV, получим теперь следующую теорему. Теорема 4. Пусть , (4) Д(с)— шах max|/?(r/, я)— R'(и, #)!• l|Pll+IIP'll<c u£S
Тогда в предположениях теоремы 1 решения уравнений (5) f(P, Pz)=maxmin f f \R(u, г/)4~ g G’ u£S v£S' + h (P, P'\ ut v) f(T, Г')1 dO (zz) dG' (v) = min max [.. G G' F(Pt Р') — max min f f [/?'(«, ^)+ a G' uCS v£S' H- h(P, P't u9 v)F(Tt T')] dG(u) JG'(^) = min max[. ..] G' G удовлетворяют неравенству (6) co \f(p, p')—f(p, p')|< 2 д(л)« П=0 Доказательство. Применяя лемму из § 11, мы видим, что (7) |/(Р. Р')— F (Р, Р')1< < max min f f [ | R — R' | + \f(T, T')—P(T, T')\\dGdG'. G G' J ”, uCS vCS' Повторное применение этого неравенства приводит к желаемому результату. § 17. ДАЛЬНЕЙШИЕ РЕЗУЛЬТАТЫ Результаты, полученные в предыдущих параграфах, зависели только от того, что полные ресурсы системы уменьшались вследствие участия в игре на любом отдельном шаге игры. Аналитически мы можем выразить это утверждением, что преобразование (Р, —>(7\ Т') является преобразованием сжатия. Введем теперь преобразование сжатия другим путем, предполагая, что О) |/г(Р, Р'; и. v)\^k < 1 для всех допустимых Р, Р'9 и и v. Учитывая, что сейчас мы предположили, что Р и Р' лежат в ограниченных областях и что Т и Т' при любых и и v представляют чСобой преобразования этих областей в себя, мы легко получим аналоги предыдущих теорем для предположения (1). Мы предоставляем формулировку и доказательство этих результатов читателю в качестве упражнения.
§ 18. ОДНОСТОРОННИЙ МИНИМАКС Рассмотрим теперь уравнение (1) /(Р, Р') = min max [/?(#, v)-\-h(P, Р'\ и, v)f(T, Г)], v£S' u£S которое возникает из описанного выше процесса распределения, если от второго игрока требуется, чтобы он перед каждой партией сообщал первому выбранное им v. Мы можем получить аналог основной леммы из § 11, поступив следующим образом. Для любой функции R(u, v), для которой написанные далее выражения имеют смысл, имеем (2) min max/?(я, v)= min max R(u, v)> v£S' u£S u(v)£S где u(v)— функция, которая при заданном v максимизирует R(u, v). Пусть U (v) — такая функция. Пусть V — значение v, которое минимизирует R (U (v), v). Тогда мы имеем неравенства (3) W(V), V)<R(U(v), v)t R(U(V), V)>/?(rz(V), V) для любых других допустимых значений и и v. Из этого свойства седловой точки следует аналог леммы 1. Получив эту лемму, мы выводим доказательства существования и единственности уже без всяких ухищрений. § 19. СУЩЕСТВОВАНИЕ И ЕДИНСТВЕННОСТЬ ДЛЯ ИГР НА ВЫЖИВАНИЕ Мы докажем следующее предложение. Теорема 5. Рассмотрим уравнение (1) / (X) = min max [p^f (х — 1)(х + а) + q р -\-p2<hf(x-\-c)+p2q2f(x — b)] = — max min [p^J (x — 1) -[-p^f (*+«) + p q + PiVlf (x + c) +p2?2/ (x — 6)1 для x = l, 2, 3, ..., d—1, соответствующее матрице игры -г: _;)• 23 Р. Беллман
где а, b и с — целые положительные числа, 1, a f(x) удовлетворяет граничным условиям (О, х^О, <3> x>d. Существует единственная функция f(x), удовлетворяющая неравенствам О4/И41- для которой выполняются (1) и (3). Доказательство. Для упрощения обозначений будем под V(/(x)) понимать значение игры с матрицей (4) //(лс —1) \/(х + С) /(х + л)\ f(x-b)} ' Функциональное уравнение (1) имеет вид (5) /(х) = О V(/(x)), 1, X С О, х= 1, 2........а— 1, х^>_ d. Определим последовательность {/n(x)J следующим образом: (6) (О, /o(*) = |h Х<С d— 1, х^> d, О, V(A(x)), 1 2........d — 1, n = 0, 1, 2.................... f п + 1 («*0 -- Ясно, что fi(x)^ fo(x) для всех х; следовательно, по индукции . /т? + 1Х>'/п(х). Из этого и из того, что 0</п(х)<1 для всех х и и, вытекает, что fn(x) сходится при п—>сю для всех х к функции /(х). То, что /(х) удовлетворяет (5), легко проверяется. Это завершает доказательство существования. Так как /0(х) есть монотонно возрастающая функция от х, каждая функция fn(x) также монотонно возрастает и, следовательно, /(х) также монотонно возрастаёт. Получим теперь важный результат, состоящий в строгой монотонности этой функции. На этом факте основано наше доказательство единственности. Мы имеем х) /О f(a)\ <” Л1> = ™(/«) о ) Если f(a) и f(c) положительны, мы имеем /(1)> 0. !) ValH — значение игры с матрицей А. — Прим, перев.
Чтобы установить положительность /(а) и /(с), допустим противное, что /(х) = 0 при х = 0, 1.....k < d, но /(А-|-1)>0. Тогда (f(k — 1) f(k + a)\ „,J 0 f(k + a)\ (g\ = Vai I ‘ I = Vai I I. W ZW уаЦ/(Л+с) f(k-b)] \f(k + c) 0 ) Так как /(fe + o)>/(fc+1) > 0,/(fc-|-c)>/(£ + 1)> О, отсюда следует, что f(k) > 0, что приводит к противоречию, кроме случая, когда k= 1. Таким образом, /(1) > 0. Мы имеем (9) /(2) = Val//(1) /(й + 2)к (9) /U) Va \/(С + 2) Так как /(1)>0, /(а + 2)>/(а + 1), /(с + 2) >/(с + 1), /(2 — то мы должны иметь /(2)>/(1), кроме случая, когда /(2 — Ь) = 0 и решением является р2 = #2=1. Это, очевидно, невозможно, так как это дает /(2) = 0</(1), а мы знаем, что Таким образом, по индукции получаем, что (Ю) 0 = /(0)</(1)</(2)< ... </(J)=l со строгим неравенством на каждом шаге. Теперь легко получается единственность. Положим (11)' Т(р, q, f) = p1qif(x-l)+p1q2f(x-lra)-{- +РДх/ (х + с) 4-р272/ <х — Ь). Пусть fug — решения уравнений’ (12) /(%)= min max Т(р, qt /) = max min Г(р, q, /), q P P q g (x) = min max T (p, qt g) = max min T (p, q, g) q p p q для 0 < x < d и (0, (i3) /(x) = ?(x) = |1> x>d с дополнительным предположением об ограниченности g(x) при 0 < х < d. В предположении, что /(x)^g(x), положим (14) Д = max |/(х) —g(x)|, X и пусть у — наибольшее число из интервала [0, d], при. котором достигается максимум, предполагаемый отличным от нуля.
(20) Если мы обозначим через рг = (y)f qt _ дг (у), рг = р{ (у), qi = qi(y) стратегии, на которых достигаются соответствующие минимаксы, то получим (15) f(y)=T(p, q, f), g(y)=T(p, ~q, g) и, как в лемме 1, (16) Д=|/(_у) — gW|< max [| T(p, q, Так как для всех р и q (17) \Т(р, q, f—g)\<^, мы видим, что в (16) имеет место равенство; это означает, что (18) Т(р, q, f)—T(p, q, /), Т(Р, q, g)=T(p, q, g). Рассмотрим соотношение (19) /(У)— g(y)==Pi<lilf(y— 1) — ё(У— 1)1 + +P2?i If (У + c) — g (у + 014-P102 If (У + «) — g (У + a)l + 4-A021/(J — b) — g (j — ^)], Так как 2/W=l- то если какие-нибудь скобки в (19) по абсо-i, 3 лютной величинё меньше, чем Д, то соответствующий коэффициент p^j должен равняться нулю. По предположению у является наибольшим значением, для которого \f(y) — g(y)\ — h. Следовательно, р2Ях = 0, Pi<72 = 0- Так как pl-^-p2= 1 и, следовательно, рг и р2 не могут одновременно равняться нулю, то либо ^ = 0, либо же ^2=0. Обращаясь к матрице игры /(у —1) 7(у + л)\ /(у + О /(у —6)/’ мы видим, что строгая монотонность /(х) как функции от х делает невозможным, чтобы ^ = 0 или q2 = 0 было оптимальной стратегией при х = у. Это означает, что предположение Д > 0 приводит к противоречию, и завершает доказательство. Мы видим, что доказательство единственности строго возрастающего решения относительно легко, и вся трудность доказательства единственности сострит в доказательстве строгой монотонности.
Использованный нами метод является достаточно общим и применим к широким классам функциональных уравнений. Он неприменим, однако, к исследованию общего случая, когда относительно элементов матрицы игры А предполагается только их вещественность. § 20. ПРИБЛИЖЕНИЕ Вернемся теперь к общему уравнению (1) тахшт2л?у/и + «у) = т>птах2р^/(х4-^) р q i, j q р и допустим, что х велико в сравнении с aij. Используемое нами ниже рассуждение, несмотря на всю формальность, обладает многими интересными чертами. Допустим, что мы можем написать х) (2) /(* + ау)=/(*) +«у/(*)• Тогда уравнение (1) примет вид (3) / (х) max min 2 РгЯ, I/ (*) 4- aijf' 0)1 = р q i, i = max min [7(x)+/'(x)2Pity«yl • p q L i, j J что ведет к (4) 0 S max min Г/' (х) 2л7уау1 - min max 17' О) 2jPifyaijl. р q L J q p L J Предположим теперь, что /'(x)>0. Тогда мы получим приближенное уравнение для неизвестных распределений р и q (5) 0 — max min X atjPiQ$ — min max 2 atjPiQj p q i, j q P — уравнение, которое не зависит от /(х)! Смысл этого уравнения состоит в том, что для больших х при большом числе партий, остающихся до конца игры, способ действий приближенно такой же, как в одношаговой игре, где оба игрока стремятся просто максимизировать свой ожидаемый выигрыш за одну партию. Полагая малым сравнительно с х, мы по существу перешли к непрерывному варианту процесса. Как мы отмечали в § 18 гл'. VIII, при рассмотрении нелинейной функции выгоды оптимальное поведение не зависит от вида функции выгоды. Здесь этот общий принцип т) Отметим, что во многих случаях функция f(x) не обладает требуемыми для этого качествами и приближенное равенство (2) написать нельзя. — Прим, перев.
демонстрируется еще раз, а в § 22 мы найдем еще один пример, посвященный аналогичному приближению для игр • с ненулевой суммой. § 21. НЕНУЛЕВЫЕ ИГРЫ НА ВЫЖИВАНИЕ Обратимся теперь к рассмотрению более общего случая, когда by =£ — Здесь не излагается приемлемой теории для определения оптимальных действий в одношаговом процессе. Поэтому обратимся непосредственно к рассмотрению многошагового процесса. Предположим снова, что каждый из игроков стремится разорить другого и что игра продолжается до тех пор, пока это не произойдет х). Теперь их интересы прямо противоположны, и мы можем использовать минимаксную формулировку. Так как это игра с ненулевой суммой, состояние процесса зависит от капиталов и Л и В, обозначаемых соответственно через х и у. Определим (I) /(х, у) как вероятность того, что А разорит В, когда А имеет х, В имеет у и оба используют оптимальные стратегии. Тогда функция /(х, у), если только она существует, удовлетворяет функциональному уравнению (2) /(х, j)=maxmin2A?j/(-« + «y. j + M = Р Q = min max '£lpiqjf (x + у + bi}) a p с гранйчными условиями (3) /(x, y) = I, 0, x>0, y<0, x < О, У>0, 2 ’ x — у — 0 (по соглашению). Используя употреблявшиеся ранее методы, легко получить следующий результат. Теорема 6. Если ац-\~Ьц 0 для всех I, jt то уравнение (2) имеет единственное ограниченное решение, удовлетворяющее граничным условиям (3). *) При этом игра, очевидно, становится игрой с нулевой суммой. Привлечение игр с ненулевой суммой в данном случае совершенно несущественно, так как получающиеся изменения относятся лишь к правилам игры. — Прим, перев.
§ 22. ПРИБЛИЖЕННОЕ РЕШЕНИЕ Предположим теперь, что мы имеем дело с процессом, где выигрыши и bij всегда отрицательны. Тогда, предполагая, что х и у велики в сравнении с и by и что мы можем написать мы получим приближенное уравнение (2) /(х, J)^maxmin2wj/(x, J) + «у Z» + Mi/] = р q *,з = min max S PiVj l/(x, у) + ai}fx + bi}fy\. <7 P i,3 Отсюда мы получим приближенные уравнения (3) О = max min [fx5 а^рщ Ъ^рдЛ = р q L i,j i,j J = min max \fx Щ-а^р^ -]~fy S Ьцрщ] . q p L i, j i,j J Используя соображение, приведенное в § 4 гл. IX, мы видим, что эти уравнения дают (4) — = max min W--------~ min max "Ы-------• fy P 4 aijPiQj Q P Xj aijPiQj i, 3 i* 3 Это весьма основательный критерий. Заметим, что не представляет разницы, пишем ли мы равенство для fx/fy или для fy/fx, так как максимизация fx/fy эквивалентна минимизации fylfx. В следующем параграфе мы покажем, что в формуле (4) max min действительно равен min max. § 23. ДОКАЗАТЕЛЬСТВО ОБОБЩЕННОЙ ТЕОРЕМЫ О МИНИМАКСЕ В этом параграфе мы хотим доказать следующую теорему. Теорема 7. Если ^Ьцр^^ d > О для всех векторов вероятностей р и q *), то ^2 ,2 ^ijPiQj (1) max min --------= min max . p 0. 2^bijPiQj g. P ZjbijPiQj i) To есть если для всех l и j. Очевидно, что знак элементов матрицы (при условии их знакоопределенности) не играет роли, и поэтому не следует придавать значения тому, что в § 22 все Ьц отрицательны, а в § 23 положительны. — Прим, перев.
Доказательство. Без ограничения общности будем в даль- нейшем считать, что Ьц^.т < 1 для всех Z, /, так что 2/ijPi^y i>3 для всех приемлемых р и q. Рассмотрим систему рекуррентных соотношений (2) Uq = max min 2 aijPiQj = min max 2 atjPiQj, P q i, j q P i,j «П+1 = max min (1 — jg b^p^ un] = = min max [2 ai}piq} + (1 — S bijPiQj\ unl • q P Li, 7 \ i,j /J Используя рассмотренные выше методы, легко показать, что последовательность {ип} сходится к значению м, удовлетворяющему уравнению (3) и — max min [2 + (1 — = р q Li,3 \ i,j /J = min max [2 a^p^ + (1 — S b^piqA «1. q P Li, 7 \ i, 7 / J Условие . 0 < 1 — 2 bijPiQj 1 — d обеспечивает геометрическую i,7 co сходимость ряда 2 (ttn+i — n=o Так как и удовлетворяет уравнению (3), легко видеть, что оно задается выражением г) 2 2 ^jP^j (4) и = max min -------— min max , p q 2 ЬцРМэ « p 2 i, j i, ,9 из которого следует теорема. *) Действительно, первое из равенств (3) эквивалентно следующему: max min [2 ацрщ — 2 = 0- Р q Li, j i, 3 J Отсюда min aijPiqj — 2 < 0, причем существует p°, для которого msin [2 aijPi^ - ^4 bijP^JUj = °-
§ 24. ИСТОЛКОВАНИЕ ИГР С НЕНУЛЕВОЙ СУММОЙ Важность полученного результата в сочетании с методом приближения, описанным в § 22, состоит в том, что теперь мы имеем возможное естественное истолкование игры с ненулевой суммой, а именно основывающееся на функции критерия R(p> я) (1) ___ 2 aijPiQj 2 bijPtqj Соглашаться с этим или 'не соглашаться — дело вкуса. Нужно понимать, что этот вопрос всегда должен возникать в процессах с двумя действующими лицами, когда не очевидно a priori, что оба участника имеют общую функцию критерия, или, что еще хуже, когда они не имеют соизмеримых шкал пользы. Значит, для любого р найдется такое q(p), что S ацРгЧз (р)—2 bijPi4j 2 ai jPi^i 0>°)—2 bnP^j O’0)« = o. i, Э i, J ИЛИ 2aoA^(p) 2ao^/^°) u > 2 baPi^ oo ’ u ~ 2 bnP^j ^°) ’ i,3 Тогда 2ai^*^ 2а»Л и min -----------> u *= min -------к—» a ZiaijPi9j « ZibijPi4j i,j i, J откуда 2 aijPi4j u = max min ---------• P « Z bijPtfj i» J Второе равенство в (3) дает 2 aijPiQj и = min max . — Прим, nepee.
УПРАЖНЕНИЯ И ПРОБЛЕМНЫЕ ЗАДАЧИ К ГЛАВЕ X 1. Рассмотрим следующую игру. Два игрока, I и II, выставляют монетки, исходя из следующих правил: а) если обе монетки положены вверх гербом, оба проигрывают по единице; б) если обе монетки положены вверх решеткой, I выигрывает, а II проигрывает единицу, в) если монетки положены разными сторонами, I проигрывает, а II выигрывает единицу. Первый игрок начинает с количеством т, а второй с количеством п. Каждый играет так, чтобы разорить другого. Пусть р(т, п; х, у) — вероятность того, что I будет разорен раньше или вместе со Ц, если первый кладет герб с вероятностью х, а II— с вероятностью у *)• Пусть ql = xy — вероятность того, что оба игрока выбирают герб, ^2 = х(1—.У) + .У(1—х) — вероятность того, что монетки положены разными сторонами, ^3 = (1—х)(1—у) — вероятность того, что оба игрока выбирают решетку. Получить для /п, п 1 рекуррентное соотношение p(/n, n) = qxp(tn— 1, л— 1)Н~<72Р(/п+ 1» л—1) + <73р(/п—1, и+1) с граничными условиями р(т, 0) = 0, /?(0, и)=1, (Беллман, Блекуэлл) 2. Показать, что для л^>2 мы получим конечную систему уравнений р(1, п) = 91+^2+9зР(2. п— 1), р(2, п—1) = ^р(1, п —2)4-92р(1, п) + 9зР(3, л—2), р(п—\, 2)=qlp(n — 2^\)-\-qip(n — 2, Z) + q3p(<ti, 1), p(n, \) = q2p(ji— 1, 2). x) Отметим неточность в постановке задачи. Здесь игрок может стремиться разорить противника, но может стремиться не разориться сам (разница заключается в отношении игроков к случаю, когда они оба разоряются: в первом случае он желателен, во втором — нет). Что касается обозначений, то здесь считается, что у и х выбираются в начале игры, а потому далее автор пишет просто р (т, п). — Прим, перев.
3. Показать, что Р(2. I — ^2^3 и, следовательно, в общем случае minmaxp(zn. и; х, у) х у maxminp(m, и, х, у) (интересно отметить, -что min max ~ 0,4397, ух х у х' = 0,43, j/ = 0,5, max min 0,4302, х' = 0,43, у' = 1, где у х х' = 1 — х, у' = 1 — у). 4. Из теоремы о минимаксе для непрерывных игр следует, что min шах/С(ап, и; А, В) — max min/C(m, и; Л, В), АВ в А где 1 1 К(т, п; А, В) = j* J*р(т, п; х, у) dA(x) dB (у), о о а А и В изменяются на пространстве монотонных функций равномерно ограниченной вариации, равной единице. Показать, что решение для т = 2, п=1 дается следующим правилом: а) II выбирает для у' такое значение _у0, чтобы р(2, 1, 0, У) = = р(2, 1, 1, У), — чистая стратегия. б) I выбирает смешанную стратегию, используя либо выбор гербов, либо выбор решеток в комбинации (а, 1—а), где а подбирается так, чтобы величина яр(2, 1, 0, Х) + (1~Л)Х Хр(2, 1, 1, У) достигала максимума при у' = у0 г). 5. Показать, что ожидаемая вероятность разорения I игрока равна Уо^ 0,4302, единственному вещественному корню уравне-НИЯ У = (1—У)2/(1—У + У2). 6. Доказать, что если т, п-+оо с любым фиксированным соотношением m'n —г, то II игрок может выбрать у так, чтобы равномерно по х lim р (т, и) = 1. т, п -> со 7. Показать, что предыдущие рассмотрения приводят к следующему принципу: участвуя в игре такого типа, I должен стремиться к увеличению ставок, тогда как II — к их уменьшению. 1) Напомним, что х и у выбираются в начале игры и являются чистыми стратегиями. Смешанная стратегия играется так: игрок случайно (по смешанной стратегии) определяет, с какой вероятностью ему выбирать гербы; найдя эту вероятность, он ее уже не меняет. — Прим, перев.
8. Пусть [N 2 ацХгУ) + г, N N + 2 aixi + S Vjyj = max min [...], N— 1, 2........... i«l J=1 J x у Найти рекуррентную формулу для [fN]- 9. Рассмотрим игру на выживание, описываемую матрицей где полный капитал игроков равен 4, a k — капитал первого игрока. Показать, что /(&), вероятность выживания первого игрока, удовлетворяет уравнениям /(3)/(2) — /(2)+/(3)’ f (2) — _____ 2-/(2)/(1) ’ (Хауснер) 10. Показать, что, следовательно, /(1)=1-£2, /(2) = 4« /(3) = JT- и что соответствующие оптимальные стратегии таковы: Pi = ]^ 2 1, р2— тр Рз=% —1^2 <7, = /2—1, ?2=1—X?-, <73 = /2— 1. А = 11. Рассмотрим игру на выживание, описываемую матрицей а —1\ —1 Ь) ’ где а и b — положительные целые числа. Пусть ^п(/г)— вероятность выживания I игрока, когда общий капитал игроков равен п и I имеет k. Показать, что «Ь-м (А + 1) = vn (Л) + (1 — (А)) vn+1 (1). 12. Показать, что /1 \ Уга+1 (1 + Д) ^п+1 (1 + *) v«+i(i+«)4-v„+1(l+O
и, следовательно, ®п+1(1) = 1 + УЧг («) (*) 13. Показать, что Vn(l +6) п /]\ 'Wfl'l _ *>„(1) Рп^’ v„(l+«) + v„(l+6) v»(l+«)’ Pn+1(*+ ^=Pn(k) = pn-k+l(\). 14. Доказать теорему 7, получив непрерывность и монотонное возрастание Vai (Л — ВХ) как функции от X. На основании этого показать, что существует в точности одно решение уравнения Vai (Л — ВХ) = 0, которое можно представить формулой (23.1). (Карлин) 15. Рассмотрим уравнение «(р) = М«(р). + <7. д') и связанное с ним уравнение v (р) = max min [Z, (v (р), q, q')-\-a(p, q, #')1 — min max I- • • 1-q q' Qf q При каких условиях мы можем написать v (р) = max min и (р) = min max и (р)? q q’ q' р 16. Рассмотреть, в частности, систему уравнений Xi = max min q q' n Ci(q, д') +2 «»;(?• q')Xj 3~* = min max q' q n Ci(q, /) + 2 q')Xj 3=** I — 1, 2, ...» n, при подходящих ограничениях, налагаемых на матрицу A(q, q') = = 11«»/(?’ /)||- (Шепли) 17. Предположим, что нам сообщили, что монета имеет фиксированную, но неизвестную вероятность р выпадения герба и вероятность q—\—р выпадения решетки и что р имеет известную априорную функцию распределения F (р). Монета бросается N раз, и перед каждым бросанием мы должны угадывать, что выпадет, зная результаты предыдущих бросаний. Какое поведение максимизирует ожидаемое число правильных ответов? 18. Предположим, что мы можем бросать монету столько раз, сколько захотим, уплачивая с за каждое бросание, и требуется
определить значение р, вероятности выпадения герба. Если выбрано значение р', то за отклонение от истинного значения уплачивается g(p—р')> где S — известная функция. Какое поведение минимизирует полную ожидаемую уплату? 19. Возвращаясь к задаче 17, предположим, что противник может выбирать F (р), с тем чтобы уменьшить ожидаемое число правильных ответов при использовании оптимальной стратегии. Можно ли охарактеризовать оптимальный выбор F (р) утверждением, что противник выбирает F (р) так, чтобы минимизировать информацию, получаемую после любого конечного числа бросаний. В этом предположении найти минимакс. 20. Обобщить эти результаты на случаи, когда на каждом шаге имеется много различных возможных результатов, например бросается игральная кость. 21. Игрок А имеет ресурсы в количестве х, а игрок В — в количестве у. Игрок А разделяет х на п частей: х = 2хй i Игрок В аналогично разделяет у. = Выигрыш i игрока А равен Р (х, у) = 2 с» max (х{ — yjt 0), i=l а выигрыш игрока В противоположен ему по знаку. Пусть fn(X. j) = = max min Г f P(x, y)dG(xt, x2.......xn)dG'(yi, y2.......yn. G G' LJ = min max G' G Найти рекуррентное соотношение между fn и fn-r. * • {Полковник Блотто 22. Пусть А — положительная матрица, т. е. 0 для всех f, j. Показать, что А имеет единственное наибольшее по абсолютной величине собственное значение, которое положительно, а соответствующий собственный вектор может быть выбран положительным. 1) Эта задача является обобщением известной „задачи Блотто" (см., например, сборник „Линейные неравенства", ИЛ, М., 1959, стр. 12). Полковник Блотто является в этой задаче действующим лицом. — Прим, перев.
Это собственное значение, называемое перроновским корнем матрицы Л, обозначается через р(Л). 23. Показать, что п п р (Л) = max min V — = min max V а^~, х г “ xi х i “ xi J-l .7 = 1 где изменение происходит в области i 24. Показать, что П X П X р (Л) — max min V ~ — min max V , R' 1 “ Xi Rf г ~ xi 7=1 ; = 1 где R' определяется условиями J£xi=\, a d можно счи- i тать заданным равенством min ау d =_____id_______. max (2 я* A i \ з ) 25. Доказать, что р(Л) есть единственное решение уравнения [п У ---Xi) 3=1 или К = min max $ a^Xj + X (1 — x£ R' i b-i где R' определено так же, как в предыдущей задаче. • 26. Рассмотрим нелинейное рекуррентное соотношение [п 2 UijXj + «п (1--xi) с произвольным я0. Доказать, что р(Л)= lim ип. П->оо (Proc. Amer, Math. Soc.> 1956)
БИБЛИОГРАФИЯ И КОММЕНТАРИИ К ГЛАВЕ X § 1. Блестящее введение в теорию игр дано в книге Вильямса (Wil-1 i a m s J. D., The compleat strategyst, Me Graw-Hill, 1954 г)). Классической работой в этой области является книга Неймана и Моргенштерна «Теория игр и экономическое поведение" (von Neumann J., Morgenstern О., The theory of games- and economic behavior, Princeton Univ. Press, I ed. 1944, II ed. 1947, III ed. 1953). Описание приложения математической теории игр к изучению карточных игр имеется в статье Беллмана и Блекуэлла [Bellman R., Blackwell D., Red dog, blackjack and poker, Scientific American, 184 (1951), 45—47]; см. также ссылки в примечании к § 5 гл. VIII. Рассмотрение некоторых игр типа покера имеется в упомянутой выше книге Неймана и Моргенштерна, а с тех пор конкретные игры изучались многими авторами. Интересующийся читатель может за дальнейшими ссылками обратиться к Contributions to the theory of Games, выпускаемым издательством Принстонского университета в серии Annals of Mathematics Studies * 2). Мы полностью избегали в этом томе какой-либо связи с секвенциальным анализом Вальда и общей теорией статистических решений и планирования экспериментов. Интересующийся читатель может обратиться к книге Вальда (Wald A., Statistical decision functions, New York, 1950) и книге Блекуэлла и Гиршика „Теория игр и статистических решений", ИЛ, М., 1959, и вообще к статьям по этому вопросу в свежих и старых номерах журнала Annals of Mathematical Statistics. См. также Robbins Н., Some aspects of the sequential design of experiments, Bull. Amer. Math. Soc., 58 (1952), 527—536. § 3. Доказательство теоремы о минимаксе можно найти в цитированной выше книге Неймана и Моргенштерна, равно как и в книге Блекуэлла и Гиршика, где рассмотрены также ее обобщения. Хотя в нашем распоряжении и имеются теории игр с ненулевой суммой и игр N лиц (N > 2), ни одна из них не обладает ни изяществом, ни завершенностью теории игр двух лиц с нулевой суммой ввиду отсутствия соответствующей теоремы о минимаксе. Этим вопросам посвящена значительная часть книгй Неймана и Моргенштерна, а основной результат содержится в статье НэШа [Nash J. F., Equilibrium points in V-person games, Proc. Nat. Acad. Sci. USA, 36 (1950), 48—49]. § 4. Абстрактное рассмотрение непрерывных игр см. в статье Карлина [Karlin S., The theory of infinite games, Ann. Math., 58 (1953), 371—401], а дальнейшие результаты — в статье Дрешера и Карлина (D г е s h е г М., Karlin S., Solutions of convex games as fixed points, Contributions to the Theory of Games, II, Ann. Math. Studies, № 28, Princeton Univ. Press, 1951, p. 75—86). § 5. Насколько нам известно, первое исследование игр, в которых каждый из игроков имеет конечные рессурсы, и в частности „игр на выжи х) Автор переоценивает достоинства этой популярной книжки, являющейся набором элементарных задач. В качестве элементарного введения в теорию игр скорее можно рекомендовать книгу Мак-Кинси „Введение в теорию игр", Физматгиз, М. (в печати) (McKinsey J. С. С., Introduction to the theory of games, New York — Toronto — London, 1952). — Прим, ped. 2) В настоящее время вышло четыре таких сборника. См. также библиографию в сборнике „Линейные неравенства и смежные вопросы", ИЛ, М., 1959. — Прим, перев.
вание", проведено в работах Веллмана и Ла-Салля (Bellman R., LaSalle J. Р., On non-zero sum games and stochastic processes, RM-212, The RAND Corporation, 1949) и Веллмана и Блекуэлла (Bellman R„ Blackwell D., On a particular non-zero sum game, RM-250, The RAND Corporation, 1949). Название „игры на выживание" было дано во время некоторых семинарских лекций в Корпорации RAND. § 7. Предмет „игр погони" интенсивно исследовался Айзексом, который решил ряд специальных игр и развил общую теорию этого класса задач. См. Isaacs R., Games of pursuit, P-257, The RAND Corporation, 1955; The problem of aiming and evasion, P-642, The RAND Corporation, 1955; Differential games I, II, III, IV, RM-1391, 1399, 1411, 1486, The RAND Corporation, 1955. § 8. Результаты этого и дальнейших (9—17) параграфов излагаются в статье Веллмана [Bellman R., Functional equations in the theory of dynamic programming IIL Multi-Stage Games, Rend. Circ. Mat. Palermo (1957)]. § 18. Использованный здесь аппарат был предложен Флемингом. Дальнейшие результаты в вопросах существования и единственности указаны в статье Шепли [S h a pl е у L., Stochastic games, Proc. Nat. Acad. Scl. USA, 39 (1953), 1095—1100]. § 19. Предложенное здесь доказательство содержится в работе Беллмана (Bellman R., Introduction to the theory of dynamic programming, R-245, The RAND Corporation, 1953, ch. VI). Co времени появления цитированных выше основоположных работ эта проблема подверглась интенсивному исследованию. Наиболее значительные результаты, полученные к настоящему времени, содержатся в статьях Пейсакова (Peisakoff М., More on games of survival, RM-884, The RAND Corporation, 1952) и Милнора и Шепли (М i 1 п о г J„ S h а р I е у L., On games of survival, P-622, The RAND Corporation, 1955 *)). § 20. Содержание этого параграфа и § 21, 22 и 24 взято из статьи Беллмана [Bellman R., Decision making in the face of uncertainty. II, Naval Research Logistics Quarterly, 1 (1954), 323—332]. § 23. Это доказательство обобщенной теоремы о минимаксе было дано Шепли в статье, цитированной в примечании к § 18. Формулировка теоремы и первоначальное доказательство даны Нейманом. 1) См. также Contributions to the Theory of games. Ill, Ann. Math. Studies, № 39, Princeton Univ. Press, 1957. — Прим, nepee.
МАРКОВСКИЕ ПРОЦЕССЫ РЕШЕНИЯ § 1. ВВЕДЕНИЕ В этой главе мы будем изучать некоторые процессы решения, которые отличаются от встречавшихся ранее и приводят к новому классу функциональных уравнений. Мы рассмотрим дискретные процессы, которые приводят к изучению разностного уравнения N (1) х4 (п + 1) = max 5 */(«)• <*«(0) = «4. /=1, 2...N, q а также некоторые непрерывные процессы, которые порождают уравнение N (2) -^- = max^ay(9)Xj(Z), х4(0) = сй 1=1,2...........N, 9 J-i в случае одного действующего лица и уравнение Г Л (3) max min У а^р, q) Xj(t) = ч $ L£i = min шах [..х$(0) = С|, Z=l, 2..........Nt Р Q * в случае двух действующих лиц. Как мы увидим, уравнения этого типа имеют связь с классической теорией дифференциальных и разностных уравнений. Мы отложим, однако, детальное рассмотрение этой связи до второго тома. § 2. МАРКОВСКИЕ ПРОЦЕССЫ РЕШЕНИЯ Опишем в этом параграфе процесс решения, который побуждает к изучению класса нелинейных разностных уравнений, представленного уравнением (1.1). Затем мы рассмотрим предельную форму, именно (1.2). Рассмотрим физическую систему S, которая в каждый из моментов / = 0, Д, 2Д, ... может находиться в одном из ряда состояний, обозначаемых нами через S2, ..., Sjv* Предположим, что в любой
момент t задана вероятность х$(0 того, что система находится в Z-ом состоянии и что существуют переходные вероятности? управляющие переходом из одного состояния в-другое. Следует отдавать себе отчет в том, что это очень сильные предположения о природе системы. Пусть (1) ац — условная вероятность того, что система будет в состоянии I в момент £-|-Д, если в момент t она была в состоянии /. Соотношение между множеством вероятностей и мно- жеством {Xi(O} задается тогда соотношениями N (2) х4(/ + Д) = 2 1=1,2......N, j=i для /=0, Д, 2Д, .... Полагая хДпД) = у^(п)9 мы можем записать эти соотношения в более простой форме N (3) Л(«+1) = 5 *=1. 2, N. Асимптотическое поведение вектора состояния (yv у2, ..., yN) при t оо определяется алгебраической природой собственных значений матрицы Л=||я^||. Процесс такого типа называется марковским процессом. Существует хорошо разработанная математическая теория этих процессов. Рассмотрим теперь марковские процессы решения. Предположим, что переходные вероятности зависят от параметра q (который может быть и вектором) и что на каждом шаге процесса q следует выбирать так, чтобы максимизировать вероятность того, что система перейдет в состояние Вместо уравнений (3) мы получим нелинейную систему ✓ N (4) Ух (п + 1) = max S <hj (q) yj (n), q 1=1 N yi(n+\) = S «У (9*) yj(«)• / = 2,3......N, где q* = q*(ri) в последних N—1 уравнениях есть одно из значений q, максимизирующих yr(n~1). Так как — переходные вероятности, они при всех q удовлетворяют условиям (5) 2Xj=l, 7=1.2.....N.
Для получения более общих уравнений рассмотрим положение, когда имеется N различных видов продукции, причем x^t)— количество Z-ой продукции в момент t. Эти продукции обладают тем свойством, что единица Z-ой продукции за время [/, /-|-А] замещается количеством j-ой продукции. Здесь > 0 обозначает производство, обратное неравенство обозначает потребление. Пусть снова зависит от параметра q, а цель процесса состоит в максимизации в каждый момент времени количества первого вида продукции. В этом случае мы получим уравнение (4) без ограничений на величину или знак а^. При Д->0 мы получим в пределе вместо (4) систему нелинейных дифференциальных уравнений N (6) -^ = тах У b^x^f), х1(0) = с1, q j-i N х{(0) = сй i = 2,3,:..,N. j=i Для получения этой системы мы полагаем, как обычно, (7) ау = #0-Д, i =£ у, ===: 1 и затем устремляем Д к нулю. Получив эти уравнения с помощью такого формального подхода, мы определим теперь с помощью уравнений (6) непрерывный процесс. Для этого мы должны в свою очередь убедиться в существовании и единственности решения. Другими словами, мы должны показать, что этот метод определения процесса действительно обоснован. § 3. ОБОЗНАЧЕНИЯ Учитывая предыдущие замечания, мы приступим сначала к рассмотрению непрерывного случая. Для упрощения записи введем векторно-матричные обозначения \ Ъ | : • CN / Тогда система л (2) ^ = тах Уау(?)х> х4(0) = сй 1=1, 2.....N,
примет вид (3) dx л . ч — = тахЛ(<7)х, х(О) = с, где подразумевается, что максимум берется отдельно для каждой компоненты. Под этим мы понимаем, что набор параметров q для каждой строки отличен от соответствующего набора для любой другой строки. Таким образом, (4) = £12» •••• (?) = a2j (#21» #22» • • • » #2fc)» aNj^ — aNj^NV #Ж* ##*)* так что взаимодействия между различными максимизациями нет1). После рассмотрения этого случая мы обратимся к уравнениям, полученным в предыдущих параграфах, где такое взаимодействие действительно встречается. Удобно ввести обозначения N (5) и=>|. i = 1 N 1ИН= S-I«ul. i» ,7 = 1 Эти величины удовлетворяют обычным аксиомам нормы и, кроме того, неравенству (6) ||Лх|| <||Д||. ||х||. § 4. ЛЕММА Как это обычно делается в теории дифференциальных уравнений» первый шаг доказательства существования и единственности решения состоит в превращении дифференциального . уравнения в соответствующее интегральное. Это дает нам возможность использовать сглаживающие свойства интегрирования. Рассматривая более общее уравнение (1) = max [Л (9, t)x + b(q, 0], х(0) = с, 1) Фактически здесь разные строки матрицы зависят от разных параметров, и максимизация производится по множеству параметров SX-*«X5.— Прим, перев.
мы получим интегральное уравнение к t (2) х = с+ Г тах[Л(^, s)x-\-b(q, $)] ds, которое может быть записано следующим образом: (3) х = max Q с L о J t b^q, 0 + /s') у d s ; 0 Так как q — функция от t, максимизация в каждой точке порождает максимизацию в целом. Легко доказывается следующий результат (в основном по тому же принципу, что и лемма 1 гл. IV). Лемма. Пусть t (4) 7\(x) = max br (q, /) + | A(q, s) x ds , T2 (y) = max Q тогда (5) IIЛМ)—7^ Су) II t + f IM(q. s)|| • ||x — 0 max 0 — ^2 (?. 011 + Q Эта лемма будет точкой опоры в нашем доказательстве существования и единственности. § 5. СУЩЕСТВОВАНИЕ И ЕДИНСТВЕННОСТЬ. I Рассмотрим теперь вопрос о существовании и единственности решения уравнения /У (1) — f)x-\-b(q, OL x(0) = c. Имеется ряд особенно интересных случаев, соответствующих разным допущениям, которые можно делать в отношении функций Л(д, /), b(q, О1) и множества допустимых функций q(t). Мы рас *) Напомним, что А — функция-матрица, а b — функция-вектор. — Прим, перев.
смотрим один класс уравнений и на этом оставим данный вопрос, так как применяемый метод будет в достаточной мере иллюстрировать действия, которые можно использовать в других случаях. * Первый наш результат — это Теорема 1. Предположим, что q есть элемент множества функций S, обладающих свойством (2) ||Л(9, ОН. ||*(<Л О||</(0. где функция f(t) интегрируема на любом конечном интервале О 7\ Предположим далее, что максимум выражения A(q, t)x-\-b(q, t) достигается1) для q£S при любых фиксированных значениях t и х2). Тогда имеется единственное решение уравнения (1), удовлетворяющее уравнению почти всюду. Это решение можно получить как предел последовательных приближений (3) х^ — с, xn+l = c+max 0. * t J [Л (9, s) хп + b (9, $)] ds О n = 0, 1.......... Доказательство. Покажем сначала, что функции хп равномерно ограничены в интервале [О, Т]. Именно, мы покажем, что ||хп|| <аехр /(s) ds (4) где (5) t а = || с || + J* f(s)ds. о Это неравенство бесспорно верно для п — 0. Предположим, что оно выполняется для & = 0, 1, .п. Тогда из (4) мы имеем t (6) ||хп+1||< ||с||+ f max |р(9, s)|| ds + о « t 4- f (max || A(q, s)||) ||*J| ds < J Q 0 4 t <a + f /(s)lknll ds. 0 i) Имеется в виду максимум сразу по всем компонентам. — Прим, перев. 2) Цель этого предположения — учесть одновременно случай, когда q принимает только дискретное множество значений (в этом случае максимум всегда достигается), и случай, когда q меняется непрерывно.
Заменяя ||xw|| ее оценкой, имеем (7) t II *n+l II + //(«) О a exp ds хп+\ = с + тах ч (8) и, таким образом, получаем такую же оценку для ||хп+1||. Докажем теперь сходимость последовательности {хп}. Применяя лемму из § 4 к двум соотношениям t / [А (д, s)xn-\-b(q, s)}ds , - О t f [A(q, s)xn_1 + b(q, s)]ds , - 0 xn = c-j- max о. мы получаем неравенство (9)> t iax / ||Л(?, s)||-|k„ —x„_i|| ds 2 о t П — *„-ill ds, п= 1, 2 о Итерируя эти соотношения, начиная с неравенства для ||хг — х0||, мы приходим к неравенству (Ю) I t \ n+1 I f /(s)ds j II xn+l Xn II (IIc II “F 1) (я _|_ 1)1 которое обеспечивает равномерную сходимость последовательности {хп} в интервале [0, Г] к функции x(t). Эта функция непрерывна для удовлетворяет интегральному уравнению t (11) x(t) = c-\- Гшах[Л(^, s)x-\-b(q, 5)] ds *1 q 0 4 и, следовательно, удовлетворяет дифференциальному уравнению почти всюду. Наконец, докажем единственность. Пусть y(t)— произвольное решение, существующее на некотором интервале [0, S]. Тогда в этом интервале y(t) удовлетворяет уравнению (11). Применяя лемму из § 4,
мы получим неравенство г (12) ||х(0 —_у(О||<тах Г||Л(^, s)|| • ||х —< в о t < J/ООН* — Jll ds. О Это неравенство имеет вид t (13) и (0 < J /($) и (s) ds, о где и ($) = || х ($)— _y(s)||>0. Следовательно, для сколь угодно малой положительной постоянной а мы имеем t (14) « (О О +J f(s) и(s)ds, О или, после деления, (15) ---------------ММП-------- а.+ j f(s)u(s)ds О Интегрируя от 0 до Z, находим, что t t fr(s)de (16) a~^~f / (s) “ (s) "C ae° 0 Комбинируя это с (14), получаем неравенство t Г f (8) (17) a(O<aeO Так как a — произвольная постоянная, отсюда следует, что u(f) = 0. Можно дать и другое доказательство. Ясно, что существует такая постоянная Ь, что ||х — ,у||^/> на I®» sl- Следовательно, , t (18) u(t)^.bf f(s)ds. О Используя это неравенство в правой части (13), получаем t 8 / t (19) и(t) < b j [/(s) J/(st) rfsjds = % I //(s) ds o L 0 J \0
Продолжая таким же образом, получаем для каждого п = = 1, 2, ... неравенство (20) (t \ п+1 о / Устремляя п->оо, мы снова убеждаемся в том, что и(/)==0. § 6. СУЩЕСТВОВАНИЕ И ЕДИНСТВЕННОСТЬ. II Рассмотрим теперь уравнение (2.6). В общем случае уравнения этого типа не обязательно имеют единственное решение ввиду множественности максимизирующих значений q. Рассмотрим, например, уравнение (1) ^- = шах[1 — <?2(1 — <7)2]4-х2, х1(0) = 0, -^ = 9%. х2(0)=1. Так как #* = 0 или 1, мы получим бесконечное множество решений, представителями которого являются, например, следующие решения: (2) х1 = 2Л Х1 = / + (^— 1), х2 — 1, х2 = е*. Мы можем, однако, получить теоремы единственности, если ограничим себя решениями, полученными следующим образом. Рассмотрим сначала уравнения X N (3) = Xj, X2(0) = C2, J=1 d N = xn(®) = cn 3 = 1 для величин x2, x3, ...» xN, зависящих от функции xv временно считая q некоторой неизвестной функцией. Каждая величина хк, k = 2, 3, .N, будет иметь вид t (4) хк = ик (q, f) + J vk (q, t, s)xl (s) ds. 0
Подставляя эти выражения в уравйение ЛХл _— шах dt ч N J=1 Xj (0) = cv мы получим уравнение (6) t b(q, ^)+«u(9)Xi + J v(q, t, s)xl{s)ds 0 Это уравнение запишем в виде Xl = с1-\- шах dtv (7) t / ц 4- J I J v (q> t, s) Xj (s) ds 0 ' 0 Применяя метод, использованный в § 5, легко доказать существование единственного решения этого уравнения в предположениях теоремы 1х). § 7. СУЩЕСТВОВАНИЕ И ЕДИНСТВЕННОСТЬ. III Можно, используя такие же последовательные приближения и неравенства, получить теоремы существования и единственности для более общих систем дифференциальных уравнений вида (1) — = max/(x, q, t), x(0) = c. Так как этот результат относится скорее к области дифференциальных уравнений, чем теории процессов решения, мы предоставим честолюбивому читателю построить свои собственные аналоги классических теорем существования и единственности. 1) Эти рассуждения автора не являются достаточно строгими. Автор подменяет задачу максимизации функции в каждый момент [формула (6)] максимизацией функции в конце любого промежутка времени [формула (7)]. В первом случае независимо от того, какие значения имела функция q(s) при s <t (так как эти значения входят лишь в не зависящее от q (t) слагае-t мое f v(q (s)> s) xi (s) ds), выбирается значение q (s) при s = t. Во втором о случае при каждом t выбирается функция q(s), вообще говору, зависящая от t. Значения этой функции для одного и того же $ при разных i ' могут и не совпадать. — Прим, перев.
§ 8. УРАВНЕНИЕ РИККАТИ Хотя мы и не хотим здесь глубоко вникать в изучение этого класса нелинейных дифференциальных уравнений, следующий результат представляется нам особо достойным упоминания. Замена переменных сводит общее линейное дифференциальное уравнение второго порядка (2) = O к нелинейному уравнению первого порядка (3) ^2 + pWt, + ^)===0 Это уравнение называется уравнением Риккати. Из предыдущего ясно, что общее решение уравнения (3) эквивалентно общему решению уравнения (2) и, следовательно, не может быть получено в квадратурах. Покажем теперь, что уравнение (3) можно интерпретировать как уравнение указанного выше общего класса. Начнем с замечания, что (4) — v2 = min (W — 2twv). w Следовательно, (3) можно переписать в виде (5) i/ = min['W2 — 2wv— p(f)v— tf(0], w где w пробегает сейчас множество всех функций от t. Для фиксированного w пусть V (w, t) -обозначает решение уравнения (6) V' = w2 — 2wV — р (О V — q (0, удовлетворяющее условию V (0) = v (0) = с. Это решение имеет явное представление t t - J (Р (8)+М 08 * _ f(p (81) + 2w)(fel (7) V = ce о _|_J(w2_?(s))e eJ 0 получаемое обычным путем с помощью интегрирующих множителей. Покажем теперь, что (8) v = min V (w, t). w
Для произвольной функции w = w(/) мы имеем (9) v' w2 — 2wv — p(t)v — q(t), откуда следует, что v^V(w, t). Следовательно, -y^minV(w, /)• w С другой стороны, v = V(w*, t) для минимизирующего значения w*. которое равно v(t). Следовательно, равенство (8) справедливо. Таким образом, мы получили явное представление решения уравнения Риккати в терминах квадратур и минимизации. § 9. ПРИБЛИЖЕНИЕ В ПРОСТРАНСТВЕ ПОВЕДЕНИЙ Как мы уже видели в предыдущих главах, в теории динамического программирования имеется два типа последовательных приближений, один из них основан на приближении функций, которые удовлетворяют функциональному уравнению, а другой — на приближении поведений, которые к этим уравнениям приводят. Мы уже использовали наш традиционный метод выше в § 3. Рассмотрим теперь второй метод. Рассмотрим скалярное уравнение (1) — max [b(q, t)-\-a(q, /)«], «(0) = с, at а ^0 где мы налагаем ограничения \a(q, /)|, I ^(<7» 01^7(0 и f Мы начнем, приняв за исходное и определим из уравнения ^Г = ь^ 0-\-a(sfo, (2) О цоведение функцию qQ — qQ (t), t)u0,' «о(0) = с. Далее определим функцию qt из условия, что она максимизирует 0 + а(<7» и вычислим как решение уравнения (3) ^==b^’ + Z)«i. «i(0) = c. Продолжая идти по этому пути, мы определим последовательность функций [ип] и последовательность поведений {#п}. Остается доказать, что эта последовательность \ип] действительно сходится. Мы имеем (4) = b Z) + а U' (0> = С' -^- = b{q0, t)-\-a{q0, t)u0< <t>(qv 0 4- «(9i. О «о. «о(0) = с, в силу определения qt.
Решение уравнения (5) имеет вид (6) 5?=g-(O® + A(O. f(O) = c. t t f д (S) ds t J g (£,) dti v = ce<> + J* Н(з)е* ds-, о это выражение можно записать в виде £(£), где L — оператор, действующий на функцию Л. t J д (s) as Из того, что es О, вытекает соотношение (7) £(^)>£(£2), если hr (f) h2 (0 для t 0. Следовательно х), (8) uQ для о t т. Продолжая таким же образом, мы получим по индукции, что un^un+i для л = 0, 1,2........Так как каждый член последова- тельности {ип} равномерно ограничен величиной т (Т \ /^8)d8 с 4“ J* f(s)ds I eQ t о / то последовательность {«„(/)} сходится к некоторой функции u(t). Эта предельная функция удовлетворяет интегральному уравнению t (9) и (0 = с + С max [i (<?, s) + a (q, s) и] ds 0 q и, следовательно, почти всюду удовлетворяет дифференциальному уравнению. Мы видим, что в одномерном случае приближение в пространстве поведений приводит к сходящимся последовательностям. Обратимся теперь к соответствующему вопросу для систем вида (10) 17Г = шах0(q, 0 + ^4(<?. t)x], х(0) = с. 1) Из (7) еще не следует (8), так как у нас меняется не только Л, но и g, а при отрицательном с увеличение g будет уменьшать v [ср. (6)]. Однако самый результат (8) верен, так как в любой точке, где н0 (/) = (/), имеет место соотношение иг (/) > н0 (/). — Прим, перев.
Используя тот же метод, что и раньше, легко усмотреть, что задача сводится к определению ограничений, наложенных на матрицу A(q, t), которые гарантировали бы, что из для сле- дует y^Q для />0, где у—решение уравнения (И) = ОД'+УЮ. Л0)=0. Так как решение уравнения (11) дается формулой (12) y^fY(t)Y-1(s)f(s)ds, О где Y(t)— матричное решение уравнения (13) ^=Л(9, ОГ. Г(0) = /, мы видим, что необходимое и достаточное условие состоит в том, чтобы (14) r(0r-1(s)>0 для />«>0 для всех q£S. Так как это условие проверяется с трудом, мы удовольствуемся замечанием, что достаточным условием является a^{qt Если условие I /, выполняется для и для всех q£S, то требуемая сходимость в пространстве поведений имеет место. § 10. ДИСКРЕТНЫЕ ВАРИАНТЫ В этом параграфе мы хотим выяснить асимптотическое поведение последовательности {хг(п)}, Z=l, 2, N, определяемой рекуррентными соотношениями N (1) Xi (п-\- 1) = шах2 Z = 1, 2, ..., AZ, при некоторых предположениях относительно начальных значений сг = х?(0) и матрицы коэффициентов A(q). Начнем с рассмотрения однородной системы уравнений (2) где мы (3) N Ъ>г = max 2 ау(д)ул, Q 1= 1, 2.N, налагаем следующие условия: a) q = (qv q2, • ••, qN) пробегает множество S, обладающее тем свойством, чтЪ максимум в (2) достигается при любом наборе параметров у2, yNy
6) 0 < ац(ц) т < оо для q^S и I, j=l, 2, ..., N; в) пусть <р(#) для любого q обозначает наибольшее по абсолютной величине собственное значение матрицы A(q) = ||%-(tf)lh т- е- перроновский корень. Предполагается, что ср(#) достигает максимума на S. Докажем теперь следующую теорему. Теорема 2. При указанных предположениях существует единственная положительная постоянная X, обладающая тем свойством, что однородная система (2) имеет положительное решение yi > 0, i = 1, 2, .... N. Это решение единственно с точностью до постоянного множителя, и (4) X = max ср (#). Доказательство. Мы начнем с доказательства существования положительного К и положительного решения Наиболее простой, хотя и наименее элементарный метод доказательства использует теорему Брауэра о неподвижной точке х). Рассмотрим область, определяемую условиями N (5) Л>0, 2л=1- Нормализованное преобразование N (6) х = является непрерывным отображением этой области в себя. Отсюда следует, что существует неподвижная точка {^}, дающая искомое положительное решение, поскольку а#(#)>0. Параметр X равен знаменателю в выражении (6). Чтобы показать, что решение единственно с точностью до постоянного множителя, предположим, что [р, z]— другое решение системы (2), где р>0 и z— положительный вектор. Пусть {q}— множество значений, при которых в (2) достигается максимум, а {#}—соответствующее множество для z. Мы имеем (7) . Vi=Sai/(?)^>2flv(?)^. 2.....N, j э i) См., например, Канторович Л. В. и Акилов Г. П., Функциональный анализ в нормированных пространствах, Физматгиз, 1959, гл. XVI. — Прим, перев. max 2 «у (?) yj I ______________ N Г N 2 max 2 (?) Ъ' 4—1 <z |_y=i
Не ограничивая общности, можно допустить, что Х<р., так что векторы у и z неколлинеарны. Если у и z коллинеарны, то y = z. Пусть е — положительная постоянная, выбранная так, что по меньшей мере одна из компонент у^ — eZj равна нулю, по меньшей мере одна положительна, а все остальные неотрицательны. Если I — индекс равной нулю компоненты уг—ezit то мы имеем Л (8)' 0 = у — ezf) > kj’i — ep.Zi > 2 «V (<7) (У; — > 0, 2=1 что является противоречием, так как о^(<7)>0. Следовательно, у и z коллинеарны, откуда следует, что X = jx. Чтобы показать, что Х = шахср(<7), поступим следующим образом. Я Пусть = шах ср (</). Ясно, что X как собственное значение ма-я трицы A(q) при некотором q удовлетворяет неравенству X pt. Предположим, что Х< jx. Пусть z = (zv z2, ..., z^— положительный собственный вектор, соответствующий |л, a q — набор значений qt для которого рь = ср (q). Тогда мы имеем N _ N (9) VZi = 2 aij Ъ < max 2 (?) z}. 3^ я 3=1 Так как каждая из компонент у^ положительна, мы можем найти такую положительную постоянную т, что (10) Zi^myit Z=l, 2..............N. Тогда (9) приводит к /N \ (И) pZi<max(2 aij(q)yj]m = mkyi. <z v=i / Таким образом, вместо (10) мы получим неравенство т^Х/рь. Повторяя приведенные рассуждения, находим, что myi (К/р)к для любого k. Так как по предположению Х/рь < 1, то из этого следует, что Zi — 0. Полученное противоречие доказывает, что X = рь. § 11. РЕКУРРЕНТНОЕ СООТНОШЕНИЕ Возвращаясь к рекуррентному соотношению (10.1), докажем следующее утверждение. Теорема 3. Если в дополнение к условиям (10.3) предположить. что существует только одно значение q, для которого 25 К Белл м ан
достигается максимальное значение ср(^), и что то при п-+оо (1) х4(«)~ауЛя, где а = а(сг с2..*). Доказательство. Без ограничения общности можно считать, что Ci > 0. Найдутся две положительные постоянные k и К, такие, что kyi^Ci^Kyi для Z=l, 2, N. Покажем по индукции, что для любого п (2) kytln < Xi (п) < Ку^п. Если этот результат уже получен для п, то (3) Х{ (п + 1)< /4я max 2 aij (<f) Уз — ^п+*Уь q 1=' N Xi (п + 1) >• max S (<f) Уз — +1^. q Чтобы выяснить асимптотическое поведение, покажем, что для достаточно больших п набор q, при которых достигается максимум в (10.1), совпадает с набором q, максимизирующих <?(#). Предположим противное. Это означает, что в рекуррентном соотношении (10.1) мы бесконечное число раз получим набор {#}, который не совпадает с набором {#}, максимизирующим ср(^). Тогда мы имеем N _ / N _ \ (4) хt (п 4- 1) - 2 aij (?) хз («X ( S aij (?) Уз) ^П' м=1 / 1 = 1, 2, .... N. Для некоторого индекса I мы должны иметь N _ (5) N _ т. е. строгое неравенство. Действительно, если 2 aij (Я) Уз >^У1 для всех Z, то собственное значение матрицы A (q) = || а^ (#)||., наибольшее по абсолютной величине, было бы не меньше, чем Х = = тахср(<7), вопреки предположению о единственности максимума q ф(^)- !) Здесь у — решение уравнения (10.2), к = max (q), Ci = Xi (0). — Прим. перев.
Следовательно, для некоторой компоненты, например для первой, мы имеем (6) хх(п4-1)<еЛ7.п+1Л, 0 < 0 < 1. Так как (<?*)> О для всех Z, /, где q*— значение qt для которого Х=<р(<?*), мы видим, что для Z=l, 2, ...,N [N Ч 5 «у (<П У} + (9*) У1 < ^п+2Уг. .7^2 J где < 1. Следовательно, если R раз использовать набор {#}, отличный от {(?*}, то для больших п мы получим1) (8) хх(п)<^Ккпу{. Так как 0 < < 1, мы в конце концов нарушим нижнюю границу для Х;(п), выбрав достаточно большое R. Следовательно, набор (д), отличный от {q*}, можно использовать только ограниченное число раз, причем границы определяются числами k и К. § 12. МИНИМАКС Тот же метод, который мы использовали при доказательстве теоремы 1, дает следующий результат. Теорема 4. Рассмотрим уравнение dx (1) — max min [А (р, q, t)x-\~b(pt q, Z)] = P Q = min max [...], x (0) = c, Q P. где мы предположили, что (2) а) для фиксированных значений х и t максимин в соотношении (1) равен минимаксу, когда р и q пробегают некоторое множество допустимых векторов S9 б) max ||А(р, q, Z)||, max |Р(р, q, Z)|| для Z>0/ s 8 т где f f(t)dt<Zoa. о 1) Это заключение автора кажется не вполне обоснованным, так как q, 6 и 6t зависят от п, а, следовательно, (8) имеет вид x$(n)C (п8) 8-=1 и противоречие не имеет места. Доказательство этой теоремы содержится в заметке И. В. Романовского „Об одной теореме Р. Беллмана* (Теория вероятностей и ее применения, 4, № 4 (1959), 456—458). — Прим. ред.
Л(Тогда существует единственное решение уравнения (1) при Q которое удовлетворяет уравнению почти всюду и ко- торое можно получить как предел последовательности (3) х0 = с, t ^n+i=c+ f max min [Л (р, q, s)xn-\-b(p, q, s)\ds — о p * t = c—f min max [Л (p, q, s) xn-\-b(p, q, s)\ds. § 13. ОБОБЩЕНИЕ РЕЗУЛЬТАТА НЕЙМАНА В главе, посвященной многошаговым играм, мы нашли, что (1) . Ир, • (Лр, q) max min ; D - = min max ;D p q (Bp, q) q p (Bp, q) где А и В — матрицы, a p и q— векторы вероятностей, причем (Bp, q)'^d'^0 для всех р и q. Получим теперь обобщение этого утверждения. Теорема 5. Рассмотрим скалярное уравнение (2) -JT-= max min [(Лр, q) — (Bp, q)u] = ai P q = min max [(Др, q) — (Bp, q)u\, u(ty — c. q p Если (Bp, q)^> d> 0 для всех векторов вероятностей р и q, то (3) lim и (t) — max min ^5—= min max . 47 t + co p q (Bp, q) q p (Bp, q) Доказательство. Классическая теорема Неймана о минимаксе обеспечивает равенство максимина и минимакса величины (Ар, q) — •—(Bp, q)u для каждого и. Остальные условия теоремы 4 также выполняются, что обеспечивает существование и единственность и(£). Для выяснения асимптотического поведения решения рассмотрим сначала скалярное уравнение (4) -£-=а — Ьи, и(Ъ) = с, ПТ х ' где а и b — постоянные и b > 0. Легко видеть, что решение ограничено при t —> со. Мы можем показать, что lim u(t) = a/b, с помощью оо следующего простого рассуждения. При da^dt == 0 мы должны иметь
и = alb. Следовательно, функция и (/) может иметь не более одной точки возврата при и, значит, монотонна. Так как u(t) ограничена, она при / —> оо стремится к конечному пределу, который должен равняться alb. Рассмотрим нелинейное уравнение (5) — max [а(р) — Ь(р)и], и(0) = с, р где #(р)>^>0 для всех р, для всех р и а(р), Ь(р) таковы, что максимум достигается. В любой точке возврата и мы должны иметь (б> Следовательно, функция u(t) должна быть монотонной и стремиться к пределу, определяемому формулой (6). Мы видим, что в точности те же рассуждения применимы к уравнению (2). В качестве точки возврата мы должны взять (7) и = max min ; р = min max ; р - -< . р q (Bp, q) q p (Bp. q) УПРАЖНЕНИЯ И ПРОБЛЕМНЫЕ ЗАДАЧИ К ГЛАВЕ XI 1. Торговец имеет п одинаковых товаров, которые он должен продать за период времени t. Товары могут продаваться в любой из моментов 1, 2, ..., /, и вероятность покупки зависит от цены *)• Пусть ср (z)— вероятность продажи товара по цене z в любой отдельный момент времени. Определим fn(t) как максимальный ожидаемый доход от продажи п товаров за время t. Предполагая независимость цен, получить рекуррентное соотношение (0 = max j £ С* [?(z)f [ 1 — <Р (£)]”"* \fn-u (/•- 1)4- kz\ Z > О I Zc=o где /„(0) = 0. (Дарлинг} 2. Предположим, что товары продаются непрерывно и что y(z)dt— вероятность того, что товар будет продан по цене z за время от t до t-\-dt. Показать, что предельная форма предыдущего рекуррентного соотношения такова: 4 (О = шах [— Мр (г) fN (/) 4- Мр (z) fN-i (f) 4- Mp (z)], z^Q . 4(0) = 0, N>1. /0(0 = 0. 1) Считается, что товары, продаваемые в один момент времени, имеют одинаковую цену и продаются независимо. — Прим, перев.
3. Рассмотрим в условиях задачи 2 случай, когда W=l. Показать, чтох) j\ (t) = max F (/, z), где t * - J Ф (2) F(t) = F(t9 z) = f e 8 <p(z)ds о есть решение уравнения F'(t) = — <р(г)Г(О + <?(г), F(0)=0. 4. Показать, что уравнение f[ (0 = max [— <? (z)ft (/) + z<? (z)], ft (0) = 0, «>o эквивалентно двум уравнениям /J (0 = -?(*)/i(0+ *<?(*). /1(0) = о, 0 = — <?' С?) Л (О + <р (г) + (z). б. Подробно рассмотреть частные случаи: а) <p(z) = be~bz9 f k — z б) <?(*)={ k I 0 о z k. 6. Найти решение уравнений в задаче 2 для любого N. 7. Рассмотреть аналогичную задачу, когда цены могут назначаться лишь в некоторых пределах. Как нужно устанавливать цены в этом случае? 8. Рассмотреть процесс из задачи 1, в котором цены за единицу товара уменьшаются при увеличении закупаемой партии. Как следовало бы поступать, чтобы максимизировать ожидаемый доход? 9. Получить при надлежащих предположениях теоремы существования и единственности для интегральных уравнений вида и (/) = max ч а (<7* О + J К (#« s)и ($)ds о 1) Здесь максимум берется по всем неотрицательным функциям z = г (Z). — Прим, перев.
10. Получить результаты, аналогичные результатам § 8, для уравнения u'=*uk+p(t)u-+-q(f) при & > 1 и 0 < k < 1. 11. Рассмотреть общий случай, когда t) и функция g либо строго выпукла по и при любом /, либо строго вогнута. 12. Рассмотреть уравнение Риккати ^- = И2 + О(/), «(0)ЗС, и последовательные приближения ^-=2u0v0 — г>о + а(О. ио(О)=с, ^^- = 2un+xun—un-\-a(f), un+l(G) = c, где ^о(О — произвольная непрерывная функция. Показать, что этот метод эквивалентен определенным аппроксимациям в пространстве поведений и что я0-С-•... на общем интервале определения. 13. Аналогично, в связи с уравнением duldt = g(u, t), u(0) = c, рассмотреть последовательность ^^-=^g(un, t) + (un+i — zzn+,(O) = c. 14. Какова связь между этим методом последовательных приближений и ньютоновским методом решения уравнений? 15. Какова связь между указанными аппроксимационными схемами и идеей приближения в пространстве поведений? БИБЛИОГРАФИЯ И КОММЕНТАРИИ К ГЛАВЕ XI • § 1. Рассмотрение этих процессов и вывод соответствующих функциональных уравнений содержится у Беллмана (Bellman R., Functional equations in the theory of dynamic programming. IV, Multi-stage decision processes of continuous type, RAND Paper, June 1955, P-705).
§ 2. С теорией марковских процессов можно познакомиться по книге Феллера „Введение в теорию вероятностей и ее приложения", ИЛ, М., 1952 *). § 5. Теоремы существования и единственности для этого типа нелинейных дифференциальных уравнений были получены в статье Веллмана [Bellman R., Functional equations in the theory of dynamic programming. II, Nonlinear differential equations. Proc. Nat. Acad. Set. USA, 41 (1955), 482—485]. Следствие из неравенства (5.14), указанное в (5.17), является основным неравенством при изучении ограниченности и устойчивости решений линейных дифференциальных уравнений. Впервые с этой целью оно было использовано в статье Веллмана [Bellman R., The stability of solutions of linear differential equations, Duke Math. J., 10 (1943), 643—647], а дальнейшие его применения можно найти в книге Веллмана „Теория устойчивости решений дифференциальных уравнений", ИЛ, М., 1954. §8-0 применении этой схемы к другим классам функциональных уравнений см. статьи Веллмана [Bellman R., Functional equations in the theory of dynamic programming. V, Positivity and linearity, Proc. Nat. Acad. Set. USA, 41 (1955), 743—746, а также В e 1 1 m a n R., On the explicit solutions of some trinomial equations in terms of the maximum operations, Math. Mag., 30 (1956), 41—44]. § 10. Содержание этого параграфа первоначально опубликовано в статье Веллмана [Bellman R., On a class of quasi-linear equations, Canad. J. Math., 8 (1956), 198—202] * 2). § 13. На это обобщение было указано в статье, цитированной в примечании к § 8. 1) См. также Гнеденко Б. В., Курс теории вероятностей, ГТТИ, М., 1954; С а р ы м с а к о в Т. А., Основы теории процессов Маркова, ГТТИ, М., 1954. — Прим, перев. 2) В этой же статье опубликовано и содержание § И. — Прим, перев.
Вариационное исчисление гл. IX Замена оборудования 71 (упр. 45—48), 78 (упр. 70) Использование водных ресурсов 172 (упр. 45—48), 173 (упр. 49—51) Капиталовложения 67 (упр. 27, 28,), 77 (упр. 68, 69) Каскадный процесс 80 (упр. 76, 77), 124 (упр. 38) Контролируемые процессы, см. Управляемые процессы Лесоводство 138 (упр. 88) Максимизация и минимизация в многомерном случае 28, 29, 61 (упр. 1—3), 62 (упр. 4—7), 63 (упр. 8—11), 64 (упр. 12, 13), 65 (упр. 14, 15), 73 (упр. 56, 57), 74 (упр. 58, 59), 78 (упр. 71), 79 (упр. 72, 73), 81 (упр. 78), 116 (упр. 14), 127 (упр. 47—51),128 (упр. 56), 129 (упр. 58, 59), 130 (упр. 61), 132 (упр. 68), 134 (упр. 73, 74), 135 (упр. 75—78), 139 (упр. 91), 140 (упр. 92), 168 (упр. 32), 179 (упр. 68) Максимизация и минимизация линейных функций 68 (упр. 30—32), 80 (упр. 75), 119 (упр. 25), 120 (упр. 26), 121 (упр. 27—29), 122 (упр. 31, 32), 123 (упр. 33, 37), 165 (упр. 23), 166 (упр. 24—26), 167 (упр, 27), 175 (упр. 56), 176 (упр. 57, 58), 177 (упр. 59, 60), 241 (упр. 1), 242 (упр. 2—5) Многошаговые процессьироизводства и планирования 75 (упр. 60), 76 (упр. 61—64), 114 (упр. 8), 115 (упр. 9—12), 116 (упр. 13), 117 (упр. 15—17), 119 (упр. 25), 120 (упр. 26), 129 (упр. 57), 133 (упр. 70), 138 (упр. 88), 161 (упр. 4, 5), 179 (упр. 66), 180 (упр. 69, 70), гл. VI, VII Надежность многокомпонентных схем 76 (упр. 65), 139 (упр. 89—91) Оптимальные траектории 69 (упр. 35—37), 133 (упр. 69), 326 (упр. 33—35) Оптимальная загрузка судов 66 (упр. 21) Последовательные испытания 67 (упр. 29), 69 (упр. 39), 70 (упр. 40, 41), 71 (упр. 49), 113 (упр. 1, 2), 114 (упр. 3—7), 118 (упр. 21), 119 (упр. 22—24), 124 (упр. 39), 125 (упр. 40—42), 130 (упр. 60), 135 (упр. 79), 137 (упр. 85), 138 (упр. 86, 87), 365 (упр. 17, 18), 366 (упр. 19, 20) Процессы поиска 54, 137 (упр. 84), 161 (упр. 6), 162 (упр. 7) Процессы распределения ограниченных ресурсов 22, 26, 51, 58, 65, 66= (упр. 17—20, 22), 73 (упр. 54), 77 (упр. 68), 81 (упр. 78), 117 (упр. 18, 19), 118 (упр. 20), 128 (упр. 52, 53), 134 (упр. 72), 366 (упр. 21) Разведение скота €6 (упр. 22), 67 (упр. 23—26) Ракетная техника 174 (упр. 55), 326 (упр. 33—35) Решение уравнений 132 (упр. 65, 66), 162 (упр. 12), 163 (упр. 13—17), 164 (упр. 18, 19), 173 (упр. 52, 53), 177 (упр. 60), 178 (упр. 65), 365 (упр. 15, 16), 390 (упр. 9), 391 (упр. 10—15) Сглаживание 29, 70 (упр. 42, 43), 71 (упр. 44), 119 (упр. 25), 129 (упр. 57), 136 (упр. 80—83), 165 (упр. 23), 166 (упр. 24—26), 214 (упр. 8), 215 (упр. 9, 10> Собственные значения 125 (упр. 43), 126 (упр. 44), 131 (упр. 63). 311^—316, 328 (упр. 40), 329 (упр. 41), 366 (упр. 22), 367 (упр. 23—26) “ Стохастический процесс распределения ресурсов 57, 72 Тупр, 51), 73 (упр. 52, 53), гл. II, 118 (упр. 21), 119 (упр. 22—24), 126 (упр. 45/46), гл. VIII Теория вероятностей 113 (упр. 1, 2), 114 (стр. 3, 4), 165 (упр. 21), 365 (упр. 17, 18), 366 (упр. 19, 20), гл. X Теория игр, гл. X Теория информации 133 (упр. 71), 168 (упр. 33, 34), 169 (упр. 35—38), 170 (упр. 39, 40), 171 (упр. 41—43) Теория расписаний 18, 114 (упр. 8), 115 (упр. 9—11) Транспортные задачи 121 (упр. 28, 29), 122 (упр. 30, 31), 123 (упр. 33—36), 132 (упр. 67), 133 (упр. 69, 71), 167 (упр. 28—31) Управление запасами гл. V, 389 (упр. 1, 2), 390 (упр. 3—8) Управляемые процессы 321 (упр. 5—9), 324 (упр. 23—26), 325 (упр. 27, 28)г 327 (упр. 36, 37)
Адамар (Hadamard J.) 141 Айзекс (Isaacs R. Р.) 369 Акилов Г. П. 384 Амбарцумян В. А. 141 Анализ чувствительности 25, 224, 288, 311 Андерсон (Anderson D.) 81 Антосевич (Antosiewicz Н. А.) 137 Бартлетт (Bartlett М. S.) 82 Веллман (Bellman R.) 19, 81, 82, 141, 168, 169, 180, 181, 218, 243, 261, 286, 328, 329, 330, 362, 368, 369, 391, 392 Бёльтер (Boelter L. М.) 172 Бил (Beale Е.) 18 Блекуэлл (Blackwell D.) 19, 102, 286, 362, 368 Болдырев (Boldyreff A. W.) 18, 20, 243 Борель (Borel Е.) 331 Вальд (Wald А.) 19, 368 Ван (Wang) 164 Виллан (Willan S.) 80 Вильямс (Williams J. D.) 368 Вогнутость 39, 41, 53, 54, 62 Вольфовитц (Wolfowitz J.) 14, 19, 217 Воробьев Н. Н. 333, 334 Выпуклость 38, 53, 62, 210 Гиршик (Girshik А.) 19, 102, 368 Гликсберг (Glicksberg I.) 19, 81, 218 Гнеденко Б. В. 337, 392 Гофман (Hoffman A. J.) 137 Гринспан (Greenspan) 69 Гросс (Gross О.) 19, 101, 133, 137, 162, 164, 173, 218 Данскин (Danskin J. М.) 218 Данциг (Dantzig G.) 18, 243, 244 Дарлинг (Darling) 389 Дворецкий (Dvoretzky А.) 14, 217 Дельта-функция 236, 249 Джонсон (Johnson S.) 81, 115, 137, 173, 179 Динамическое программирование 7. 18, гл. III Дискретный детерминированный процесс 105 — стохастический процесс 108 Дифференциальный подход 263 Дихотомическая задача 284 Дрейфус (Dreyfus S.) 19, 121, 133, 326 Дрешер (Dresher М.) 368 Двойственный процесс 234, 237, 248 Дуб (Doob J. L.) 286 Игры на выживание 337, 353 — с ненулевой суммой 336, 361 -----нулевой суммой 334 Интегральный подход 264 Калаба (Kalaba R.) 132, 134, 141, 169 Канторович Л. В. 384 Карлин (Karlin S.) 20, 102, 180, 181, 335, 365, 368 Картано (Cartaino Н.) 326 Каруш (Karush W.) 134, 135 Келли (Kelley J.) 169 Кифер (Kiefer J.) 14, 81, 217 Кун (Kuhn Н.) 18 Купманс (Koopmans Т. С.) 18, 122, 243 Кэрнс (Cairns) 114 Ла-Саль (LaSalle J. Р.) 19, 368 Леман (Lehman S.) 19, 244, 261, 286 Ликок (Leacock S.) 332 Линейное программирование 18, 219 Литтлвуд (Littlewood J. Е.) 133 Мак-Кинси (McKinsey J. С.) 368 Марковиц (Markowitz Н.) 179 Маршак (Marschak J.) 14, 217 Метод „потока" 243 Милнор (Milnor J.) 369 Миле (Mills Н. D.) 217 Минимакс 334, 387 Многошаговый процесс решения 7 Монотонная сходимость 148
Моргенштерн (Morgenstern О.) 19,. 368 Мортон (Morton О.) 138 Мостеллер (Mosteller F.) 72 Стокс (Stokes R. W.) 141 Существование и единственность гл. IV Надел ь (Nadel) 139 фон Нейман (von Neumann J.) 19, 331, 368, 369, 388 Непрерывный детерминированный процесс 109 — стохастический процесс ПО Нэш (Nash J. F.) 368 Таккер (Tucker A. W.) 18 Тен Дайк (Ten Dyke R. Р.) 175 Трихотомическая задача 98, 274 Уиддер (Widder D. V.) 329 Уиттекер (Whittaker J. V.) 79 Уравнение восстановления 212 Устойчивость 48, 99, 150 Область решения 102 Оптимальное поведение 105, 111 — управление запасами 157,182, гл. V Осборн (Osborn Н.) 19, 286, 330 Файн (Fine N. J.) 128 Фань Цзи (Fan Ку) 335 Феллер (Feller W.) 82, 218, 392 Флад (Flood М. М.) 18 Флеминг (Fleming W.) 81, 329, 369 Паксон (Paxson Е. W.) 20 Параметры состояния 103 Пейсаков (Peisakoff М.) 369 Петровский И. Г. 142 Поведение 9, 185 Последовательные приближения 32,35, гл. IV, 350 Прагер (Prager W.) 123 Приближение в пространстве поведений 35, 88, 111, 317, 381 Принцип оптимальности 105, 340 Причинность 111, 141 Пространство поведений 35, 88, 111 Процесс распределения ресурсов 22, 58 — решения 7, 370 — с „узким местом" 219 Функциональное уравнение 26,59, 225, Функция критерия 105 Харрис (Harris Т. Е.) 14, 141, 217 Хауснер (Hausner) 364 Хейт (Haight) 138 Хельмер (Helmer О.) 20, 128 Хилл (Hille Е.) 141 Хичкок (Hitchcok F. L.) 18, 122 Холл (Hall W.) 172 Хункоса (Juncosa М. L.) 134 Чандрасекар (Chandrasekhar S.) 141 Черри (Cerri Е.) 80 Численное решение 44, 140, 297, 310 Роббинс (Robbins Н.) 368 Романовский И. В. 387 Шапиро (Shapiro Н. N.) 20, 101, 102, 180, 181 Савидж (Savage I. R.) 78 Сарымсаков Т. А. 392 Саусвелл (Southwell R. V.) 243 Сглаживание 29 Сельберг (Selberg) 131 Сильвестри (Silvestri М.) 80 Симплекс-метод 219, 243, 244 Смешивание 266 Стильтьеса интеграл 60, 144, 236 Шварц (Schwarz L.) 244 Шеперд (Shepherd) 129 Шепли (Shapley L.) 365, 369 Шёнберг (Schoenberg 1. J.) 81 Шифман (Shiftman М.) 102 Штейнгауз (Steinhaus Н.) 128 Эрроу (Arrow К. J.) 14, 102, 179, 217
ОГЛАВЛЕНИЕ Предисловие редактора перевода .................................. 5 Предисловие автора .............................................. 7 Глава Многошаговый процесс распределения..................... 21 § 1. Введение............................................... 21 § 2. Многошаговый процесс распределения ресурсов............ 22 § 3. Обсуждение............................................. 23 § 4. Метод функциональных уравнений......................... 26 § 5. Обсуждение............................................. 28 § 6. Многомерная задача о максимизации...................... 28 § 7. Задача о „сглаживании" ............................... 29 § 8. Бесконечношаговая аппроксимация........................ 30 § 9. Теоремы существования и единственности................. 30 § 10. Последовательные приближения........................... 35 §11. Приближение в пространстве поведений.................. 35 § 12. Свойства решения. I. Выпуклость ....................... 38 § 13. Свойства решения. II. Вогнутость...................... 39 § 14. Свойства решения. III. Вогнутость...................... 41 § 15. Причудливый пример..................................... 44 § 16. Обычный пример. I...................................... 45 § 17. Обычный пример. II..................................... 47 § 18. Приближение и устойчивость............................. 48 § 19. Процессы, зависящие от времени ........................ 50 § 20. Процессы с несколькими видами ресурсов................ § 21. Теоремы о структуре решения для многомерных задач . . . 53 § 22. Разыскание единственного максимума вогнутой функции ... 54 § 23. Непрерывность и память................................. 57 § 24. Стохастические процессы распределения ресурсов......... 58 § 25. Функциональные уравнения............................... 59 § 26. Интегралы Стильтьеса................................... 60 Упражнения и проблемные задачи к главе I.................... 61 Библиография и комментарии к главе I........................ 81 Глава IL Стохастический многошаговый процесс решения .... 83 § 1. Введение............................................... 83 § 2. Стохастический процесс золотодобычи.................... 84 § 3. Метод перечисления .................................... 84 § 4. Метод функциональных уравнений....................• . . 85 § 5. Аппроксимация бесконечношаговым процессом.............. 85 § 6. Существование и единственность....................• . . '86 § 7. Приближение в пространстве поведений и монотонная сходимость ....................................................... 88 § 8. Решение................................................. 88 § 9. Обсуждение.............................................. 92 § 10. Некоторые обобщения..................................... 92 § 11. Вид функции f(x, у)..................................... 93 § 12. Задача для процесса с конечным числом шагов............. 95 § 13. Трихотомическая задача ................................. 98 § 14. Теорема устойчивости................................... 99 Упражнения и проблемные задачи к главе II.....................100 Библиография и комментарии к главе II ........................102
Глава III. Структура процессов динамического программирования 103 § 1. Введение.............................................103 ’§ 2. Обсуждение двух процессов, рассмотренных ранее.......103 § 3. Принцип оптимальности.................... •.........105 § 4. Постановка задачи. I. Дискретный детерминированный процесс 105 § 5. Постановка задачи. II. Дискретный стохастический процесс . . 108 § 6. Постановка задачи. III. Непрерывный детерминированный процесс . ... . Л .................... . 109 § 7. Непрерывные стохастические процессы................. 110 § 8. Обобщения........................................... 110 § 9. Причинность и оптимальность........................ 111 § 10. Приближение в пространстве поведений.................111 Упражнения и проблемные задачи к главе III.................113 Библиография и комментарии к главэ III . . . ..............141 Глава IV. Теоремы существования и единственности..............142 § 1. Введение.............................................142 § 2. Основное неравенство . . .........................143 § 3. Уравнения первого типа ...........................145 § 4. Уравнения второго типа............................147 § 5. Монотонная сходимость............................ 148 § 6. Теоремы устойчивости ........................... .... 150 § 7. Некоторые направления обобщений...................151 § 8. Пример уравнения третьего типа . . ...............152 § 9. Уравнение оптимального управления запасами........157 Упражнения и проблемные задачи к главе IV . . .............160 Библиография и комментарии к главе IV......................180 Глава V. Уравнение оптимального управления запасами.........182 § 1. Введение..........................................182 § 2. Постановка общей задачи.........................; . . 183 А. Конечный период времени...........................184 Б. Бесконечный промежуток времени, скидка с издержек . . 186 В. Бесконечный промежуток времени, частичный возврат предметов ....................................... ........ 187 Г. Бесконечный промежуток времени, задержка поставки на один период....................................... 187 Д. Бесконечный промежуток времени, задержка поставки на два периода..................................... 187 § 3. Одно простое замечание............................ . 188 § 4. Постоянный уровень запасов, предварительное обсуждение . .189 § 5. Пропорциональные издержки, одномерный случай.........190 § 6. Пропорциональные издержки, многомерный случай........... 196 § 7. Конечный промежуток времени..........................198 § 8. Конечный-промежуток времени, многомерный случай .... 202 § 9. Непропорциональные „дополнительные расходы*-администра- . тивные расходы...................................... 202 § 10. Частные случаи......................................205 § 11. Вид общего решения..................................205 § 12. Постоянные расходы..................................206 § 13. Предварительные замечания к обсуждению более сложных поведений................................................ . 207 § 14. Неограниченно продолжающийся процесс, запаздывание на один период....................................................207 § 15. Выпуклая функция издержек, неограниченно продолжающийся процесс.............................................. ' . * 210
Добавление к главе V. Уравнение восстановления...............212 Упражнения и проблемные задачи к главе V . .. .........*. • 214 Библиография и комментарии к главе V..................... . 217 Глава VI. Задачи „на узкие места" в многошаговых процессах производства.................................................. 219 § 1. Введение........................................ . 219 § 2. Общий класс задач, возникающих при изучении многошагового процесса производства............................... . 220 § 3. Обсуждение рассмотренной выше модели ..224 § 4. Функциональные уравнения..............................225 § 5. Непрерывный вариант............................... . 226 § 6. Система обозначений........................................227 § 7. Постановка задачи с точки^ зрения динамического программирования 228 § 8. Основное функциональное уравнение................. 229 § 9. Нелинейное дифференциальное уравнение в частных производных ................................................... 229 § 10. Приложение дифференциального уравнения в частных производных .....................................................230 § 11. Частный пример...............................................................231 § 12. Двойственная задача..........................................................234 § 13. Проверка решения, построенного в § 11....237 § 14. Численное решение . . . .'................................................. 240 § 15. Нелинейные задачи............................................................241 Упражнения и проблемные задачи к главе VI..........................................241 Библиография и комментарии к главе VI..............................................243 Глава VII. Задачи „на узкие места". Примеры......................245 § 1. Введение.............................................245 § 2. Предварительные замечания............................247 § 3. Дельта-функции..................................; . . . 249 § 4. Решение............................................ 250 § 5. Модифицированное ^/-решение..........................253 § 6. Равновесное решение..................................254 § 7. ^/-решение для процесса малой продолжительности......256 § 8. Описание решения и доказательство . .............257 § 9. Перечень случаев расхода начального запаса стали ... 260 Библиография и комментарии к главе VII........................261 Глава VIII. Непрерывный стохастический процесс решения .... 262 § 1. Введение .............................................262 § 2. Непрерывный случай. I. Дифференциальный подход.........263 § 3. Непрерывный случай. II. Интегральный подход...........264 § 4. Предварительное обсуждение...........................• 265 § 5. Смешивание в точке....................................266 § 6. Новая формулировка процесса золотодобычи..............267 § 7. Вывод дифференциальных уравнений......................268 § 8. Вариационный метод....................................269 § 9. Поведение функций Ki..................................270 § 10. Решение для случая Т = со.............................271 § 11. Решение для конечного полного времени.................272 § 12. Задача о трихотомическом выборе.......................274 § 13. Некоторые леммы и предварительные результаты ...... 275 § 14. Смешанные выборы................................. • 276 § 15. Решение для бесконечного времени; случай D > 0........278
§ 16. Случай D < 0..........................................282 § 17. Случай г3 = г4....................................... . 283 § 18. Нелинейная функция выгоды — задача о дихотомическом выборе 284 Библиография и комментарии к главе VIII................... 286» Глава IX, Новая формализация вариационного исчисления .... 287 § 1. Введение..............................................287 § 2. Новый подход......................................... 283 00 § 3. Максимизация функционала j* Г(х, у) dt ...............291 о § 4. Обсуждение............................................293 § 5. Двумерный случай..........4.......................... 294 Т § 6. Максимизация функционала ...................295 о 7 § 7. Максимизация функционала J* F(x, у) dt при условии О у х 296 о § 8. Численное решение.....................................297 § 9. Обсуждение............................................298 § 10. Пример................................................299 § 11. Дискретная модель.....................................302 § 12. Доказательство сходимости.............................304 т § 13. Максимизация функционала j Г(х, у, t)dt................307 о § 14. Обобщение и обсуждение.................................308 § 15. Интегральные ограничения...............................309 § 16. Дальнейшие замечания относительно численного решения . . 310 § 17. Задача о собственных значениях.........................311 § 18. Первая формулировка.................................. 313 § 19. Приближенное решение...................................314 § 20. Вторая формулировка ...................................315 §21. Дискретные аппроксимации............................... 315 § 22. Последовательные приближения.................... .... 316 § 23. Монотонная аппроксимация...............................318 § 24. Единственность решения . . . .'........................318 § 25. Минимум максимального отклонения.......................* 319 Упражнения и проблемные задачи к главе IX....................320 Библиография и комментарии к главе IX........................329 Глава X. Многошаговые игры..................................................................................................331 § 1. Введение.................................................................................331 § 2. Одношаговая дискретная игра...............................................................332 § 3. Теорема о минимаксе.334 § 4. Непрерывные игры...............................................................335 § 5. Ограниченные ресурсы.............................................................................335 § 6. Игры на выживание.................................................................................337 § 7. Игры погони.................................................................................337 § 8. Общая формулировка................................................................................ 338 § 9. Принцип оптимальности и функциональные уравнения .... 340
§ 10. Более общий процесс............................................342 § 11. Основная лемма........................................343 § 12. Существование и единственность .......................345 § 13. Доказательство результатов............................347 § 14. Другое доказательство существования.................349 § 15. Последовательные приближения в общем случае...........350 § 16. Эффективность решения......................................... 350 § 17. Дальнейшие результаты....................... 352 § 18. Односторонний минимакс................................353 § 19. Существование и единственность для игр на выживание . . . 353 § 20. Приближение...........................................357 § 21. Ненулевые игры на выживание.............................. 358. § 22. Приближенное решение..................................359 § 23. Доказательство обобщенной теоремы о минимаксе.359 § 24. Истолкование игр с ненулевой суммой............................361 Упражнения и проблемные задачи к главе X.............................362 Библиография и комментарии к главе X.................................368 Глава XL Марковские процессы решения....................................370 § 1. Введение..........................370 § 2. Марковские процессы решения................. 370 § 3. Обозначения..........................................372 § 4. Лемма..........................................373 § 5. Существование и единственность. I..................374 § 6. Существование и единственность. II .... ........... . 378 § 7. Существование и единственность. III . ........................379 § 8. Уравнение Риккати........................................... 380 § 9. Приближение в пространстве поведений..........................381 § 10. Дискретные варианты............................... ... 383 § 11. Рекуррентное соотношение............................385 § 12. Минимакс......................................387 § 13. Обобщение результата Неймана...................................388 Упражнения и проблемные задачи к главе XI............................389 Библиография и комментарии к главе XI................................391 Указатель приложений . . . ..........................................393 Именной и предметный указатель ......................................395 Р. Беллман ДИНАМИЧЕСКОЕ ПРОГРАММИРОВАНИЕ Редактор И. В. Глатёнок Художественный редактор Е. И. Подмаръкова Технический редактор В. А. Доценко. Сдано в производство 26/Х 1959 г. Подписано к печати 24/II 1960 г. Бумага 60х921/1<з=а «= 12,5 бум. л., 25 печ. л., Уч.-изд. л. 23,0. Изд. № 1/5111. Цена 17 р. 60 к. Зак. 834. ИЗДАТЕЛЬСТВО ИНОСТРАННОЙ ЛИТЕРАТУРЫ Москва, Ново-Алексеевская, 52 Типография № 2 им. Евг. Соколовой УПП Ленсовнархоза. Ленинград, Измайловский пр., 29