Текст
                    АКАДЕМИЯ НАУК СССР
МИНИСТЕРСТВО ПРИБОРОСТРОЕНИЯ.
СРЕДСТВ АВТОМАТИЗАЦИИ
И СИСТЕМ УПРАВЛЕНИЯ СССР
ОРДЕНА ЛЕНИНА ИНСТИТУТ ПРОБЛЕМ УПРАВЛЕНИЯ
Б. А. Березовский, А. В. Гнедин
ЗАДАЧА
НАИЛУЧШЕГО
ВЫБОРА
Ответственный редактор
доктор технических наук
Э. А. ТРАХТЕНГЕРЦ
ИЗДАТЕЛЬСТВО «НАУКА»
МОСКВА 1984


УДК 519.226 Березовский Б. А., Гнедин А. В. Задача наилучшего вы- бора. М.: Наука, 1984 Монография содержит систематическое изложение класса задач принятия решений в условиях риска, называемых задачами наилуч- шего выбора, в иностранной литературе — задачами о секретаре. На- ряду с классическими постановками, основанными на предположении о существовании единственного критерия сравнения вариантов, рас- сматриваются многокритериальные, учитывающие структуру предпо- чтений принимающего решение лица в том случае, когда варианты сравниваются по нескольким критериям. Для специалистов в области теории принятия решений и систем- ного анализа. Табл. 11. Библиогр. 96 назв. Рецензенты: В. А. ЖОЖИКАШВИЛИ, А. Д. ЦВИРКУН 1502010000-267 © Издательство «Наука», Б 042 (02)-84 ^З"84-11 1984 г.
ВВЕДЕНИЕ За последние двадцать лет в рамках статистической теории ре- шений сформировался круг задач, получивших название задач наилучшего выбора. Интерес к этим задачам возник по двум причи- нам. Во-первых, они отражают некоторые существенные особен- ности реальных процессов выбора и, во-вторых, всегда имеют со- держательную постановку и легко интерпретируемые решения. Старая истина гласит, что самый лучший способ описания ка- кого-нибудь нового класса заключается в указании его наиболее типичного представителя. Таким представителем в нашем случае является классическая задача наилучшего выбора. Приведем ее формулировку. Предположим, что имеется N вариантов, сравниваемых между собой по какому-то критерию, из которых требуется выбрать все- го один вариант. Ознакомление с вариантами происходит в слу- чайном порядке, а на процесс выбора наложены следующие огра- ничения: в каждый момент может быть выбран только непосред- ственно наблюдаемый вариант, и ничего не известно о качестве последующих вариантов. Требуется так остановить процесс выбо- ра, чтобы выбранный вариант с максимальной вероятностью ока- зался наилучшим4. Решение задачи хорошо известно: требуется пропустить при- мерно N/e вариантов, а затем остановиться на первом же варианте, который окажется лучше /вЬех-"евойз? -предшественников, а если такого варианта нет, то фыбра'рь последний вариант. При этом вероятность выбора наилучшего варианта при больших N равна примерно 0,37. Эта задача является самой простой, тем не менее она имеет все характерные черты задач наилучшего выбора: выбор осуществляется в несколько этапов, т. е. происходит во времени; на процесс выбора наложены стратегические и информационные ограничения, связанные с полной или частичной недоступностью для выбора пропущенных вариантов и статистической неопреде- ленностью качества будущих вариантов; эффект выбора зависит только от сравнения выбранных вари- антов со всеми остальными вариантами, из которых выбор в прин- ципе можно было бы сделать и, быть может, от некоторых факто- ров, внешних по отношению к сравнениям вариантов (например, от затрат на проведение наблюдений); эффект выбора тем выше, чем лучше выбранные варианты. Таким образом, в задачах наилучшего выбора за основу берет- ся сравнение вариантов, и даже если сравнение производится пу- 3
тем измерения или числовой оценки, то оценка отдельно взятого варианта, безотносительно к оценкам других вариантов, никакой роли не играет. Иначе говоря, про вариант нельзя сказать, хорош он или плох, но можно сравнить его с другими вариантами, т. е. качество выступает только как сравнительное качество. Именно этот «ординализм» и выделяет задачи наилучшего выбора из ос- тальных задач последовательного анализа. С формальной точки зрения сказанное означает, что если под наблюдением понимает- ся число (интерпретируемое как оценка качества очередного ва- рианта), то критерий эффективности стратегий выбора должен быть инвариантен относительно изменения масштаба на числовой шкале. В настоящей книге рассматриваются задачи наилучшего вы- бора, в которых требуется выбрать всего один вариант, и выбор может быть сделан только с одной попытки (за исключением п. 2.6, в котором этих попыток несколько). Под способом выбора пони- мается правило остановки, т. е. определенное предписание, кото- рое на каждом этапе по результатам проведенных наблюдений ука- зывает, следует выбрать очередной вариант или же следует перей- ти к следующему варианту, если такая возможность имеется. Эффект выбора определяется исключительно результатами срав- нения выбранного варианта со всеми остальными и выражается через способ описания предпочтений на множестве вариантов. «Чистая» зависимость эффекта выбора от сравнений делает легко сопоставимыми различные задачи. Основная схема, принятая в книге, следующая. Пусть Аг, . . ., An — последовательность вариантов, рассмат- риваемая как случайная выборка из некоторого глобального мно- жества 91. Предполагается, что на % задана структура предпоч- тений, т. е. задан определенный способ упорядочения вариантов по качеству. Если Ax = αΧ, . . ., An = un, то эффект выбора ва- рианта ап из множества {аъ . . ., ajv} всех наблюденных вариантов полагается равным q (an, {аг, . . ., aIv}), причем функция q (·, ·) зависит только от сравнения вариантов между собой. Далее, пред- полагается заданным некоторый класс 9К правил остановки τ, т. е. случайных величин, принимающих значения п = 1, . . ., N таких, что значение τ = η определяется результатами наблюде- ний, приведенных к моменту появления Ап. Под событием {τ = = п} понимается выбор варианта An, а математическое ожидание Mq{Ax, {Ai, . . ., AN}) интерпретируется как средний выигрыш правила τ. Требуется максимизировать средний выигрыш по классу 3R, т. е. указать такое правило остановки τΝ, что Mç(ATiv, {Ai, . . ., AN}) = sup Mg(At, {Ai, . . ., AN}), и найти значение υΝ этого супремума. Чтобы полностью конкретизировать задачу наилучшего выбо- ра, остается указать, что такое структура предпочтений, каков 4
явный вид функции выигрыша q (·, ·) и, наконец, о каком классе ЗК идет речь. Если варианты Ax, . . ., An можно линейно упо- рядочить по качеству, то вся информация о сравнениях вариан- тов исчерпывается последовательностью Хъ . . ., Xn абсолютных рангов, где Хп есть ранг An среди A 1? . . ., An (лучшим вариантам отвечают меньшие ранги). Исходное предположение о зависимости эффекта выбора исключительно от сравнений вариантов приводит к тому, что g (An, {Ai, . . ., AN» = q(Xn), т. е. эффект выбора зависит только от абсолютного ранга выбран- ного варианта. Если считать число вариантов N случайным, или же параметром задачи, то в общем случае следует ввести также за- висимость эффекта выбора от N. Однако введение такой зависимо- сти, равно как и введение платы за наблюдения, делает совершенно несопоставимыми различные задачи и при этом теряется нагляд- ность среднего выигрыша как некоторой величины, выраженной через сравнения. Коротко изложим содержание книги. Гл. 1 носит вспомогательный характер. В п. 1.1 приводятся стандартные сведения об измеримости и интеграле Лебега. В п. 1.2 содержится постановка задачи оптимальной остановки процессов с дискретным временем. Наиболее пристальное внима- ние здесь следует обратить на метод обратной индукции, позво- ляющий в случае конечного числа наблюдений конструктивно на- ходить оптимальное правило, а также на так называемый моно- тонный случай. В п. 1.3 изложены элементы теории оптимальной остановки марковских цепей. Важную роль в дальнейшем играет случай не- зависимых наблюдений и теорема 1.11 о возможности исключения из рассмотрения рандомизированных правил остановки (приводи- мая без доказательства). Второстепенное значение имеет теория, излагаемая в п. 1.4, ее выводы используются только в п. 2.6. В гл. 2 рассматривается самая простая функция выигрыша: q (Хп) равно 1, если Хп = 1 и равно 0 во всех остальных слу- чаях. Таким образом, все множество вариантов Аг, . . ., An раз- бивается на два уровня качества — первый уровень состоит из единственного варианта с единичным абсолютным рангом (назы- ваемого наилучшим), а второй уровень состоит из всех остальных вариантов. Средний выигрыш Mq (Χτ) в этом случае равен вероят- ности остановки на наилучшем варианте. В п. 2.1 рассматривается классическая задача. Классом 9JÎ здесь является совокупность правил остановки, основанных на наблюдении относительных рангов Yx, . . ., Υν, где Υη есть ранг An среди Aj, . . м Ап, п = 1, . . ., N. Оптимальным оказывается правило τΝ, которое предписывает пропустить Ax, . . ., Ad*-i,, а затем остановиться на первом же относительно лучшем варианте 5
An, т. е. таком, что Υη = 1. Правила такого типа называются по- роговыми, их эффективность в задачах наилучшего выбора обусло- влена самой природой этих задач и связана с простым принципом монотонности: ожидаемое качество относительно лучших вариан- тов неуклонно возрастает во времени (назовем его первым принци- пом монотонности). Второй принцип монотонности выражается в том, что νΝ монотонно убывает, доказательство его обычно свя- зано с различными способами «вложения» задачи с меньшим чис- лом вариантов в задачу с большим числом вариантов и использова- нием теоремы 1.11 (о рандомизации). Содержательно второй прин- цип монотонности означает, что из большего числа вариантов наи- лучший вариант выбрать труднее, нежели из меньшего их числа, даже при использовании оптимального правила. Сразу же оговоримся, что термин «задача» будет пониматься достаточно вольно — это не только предмет изучения, но и неко- торый набор формальных объектов, с которыми можно произво- дить какие-то операции (например, «вкладывать» одну задачу в другую). В п. 2.2 рассматривается задача, в которой число вариантов N случайно, а наблюдению опять-таки подлежат только относитель- ные ранги. Эта задача дает пример, в котором нарушаются все принципы, присущие задачам наилучшего выбора, в частности, оба принципа монотонности. Оптимальное правило может уже не быть пороговым, т. е. множество номеров п, на которых сле- дует останавливаться при появлении относительно лучших ва- риантов может не иметь вид {d*, . . ., TV}, как в классической за- даче, а состоять из нескольких «островов». Эффект появления ост- ровов объясняется чрезвычайно просто. Предположим, что нам известно, что N с большой вероятностью принимает значение 100, и с очень малой дополнительной вероятностью — значение 1000. Тогда начав процесс выбора, мы «почти» находимся в условиях классической задачи и пропускаем примерно 100/^ ^^ 37 вариантов с целью остановиться до A100 на относительно лучшем варианте. Если же среди A37, · · ·, Aioo не оказалось относительно лучшего варианта, aiV = 1000, то в момент п = 100 мы опять находимся в условиях классической задачи и, следовательно, должны про- пустить Aioi, . · ·, A370· Тем не менее, если дисперсия N не очень велика, то класс пороговых правил является асимптотически оп- тимальным, когда N велико. В п. 2.3 изучается задача, в которой наблюдения относитель- ных рангов производятся в моменты скачков пуассоновского про- цесса. Оптимальное правило выглядит намного сложнее, нежели в классической задаче, но когда среднее число наблюдений бес- конечно увеличивается, то все равно асимптотически оптималь- ным является некоторое пороговое правило, а вероятность оста- новки на наилучшем варианте стремится к е-1, как и в классиче- ской задаче. В п. 2.4 рассматривается задача с полной информацией, в ко- торой за исходный класс Ж берутся правила, основанные на 6
наблюдении независимых одинаково распределенных случайных величин Ux, . . ., Un* интерпретируемых как оценки качества ва- риантов Ax, . . ., An- Функция распределения оценок F пред- полагается известной. Непрерывность F гарантирует возможность линейного упорядочения вариантов по величине их оценок. За- дача наилучшего выбора, таким образом, ставится как задача максимизации вероятности события {U = max (Ux . . ., Un)}. Оптимальное правило оказывается таким: нужно остановиться на первом же относительном максимуме Un = max (С71? . . ., С7Л), для которого F (Un) > ι/ΛΓ-η, где ук = 1 — с/к + о (1/ft). Оба принципа монотонности остаются в силе, и vN -*0,58 ... при Лг -*оо. В п. 2.5 рассматривается пуассоновский вариант задачи с пол- ной информацией. Асимптотически эта задача эквивалентна пре- дыдущей, но здесь удается получить аналитическое выражение оптимальной вероятности остановки на наилучшем варианте как функции от среднего числа скачков. Первый принцип монотон- ности остается в силе, а второй нарушается. Предмет п. 2.6 составляет задача, в которой наблюдаются от- носительные ранги, а в качестве способов выбора рассматриваются наборы правил остановки, т. е. выбор можно производить несколь- ко раз. Асимптотическое решение определяется системой диффе- ренциальных уравнений. И в этом случае оптимальным оказывает- ся набор пороговых правил. Оба принципа монотонности сохра- няются. В п. 2.7 изучаются сразу две задачи. Предполагается, что наб- людаются оценки иъ . . ., Un вариантов, но их распределение не- известно. Под правилом остановки понимается функция τ (ии . . . , . ., un) такая, что значение τ = п зависит только от ии . . ., ип. Первая постановка — байесовская, распределение Fq предпола- гается равномерным на (0, Θ), а неизвестный параметр — имеющим одностороннее распределение Парето. За максимизируемый кри- терий берется вероятность события {f/t = max (А0, С/1? . . ., Un)} (h0 — нижняя грань носителя распределения Парето). Оказывает- ся, что байесовским правилом является пороговое правило, но порог смещен по отношению к порогу из классической задачи. Вторая постановка — минимаксная в том же классе распределе- ний Fq. С помощью принципа инвариантности задача сводится к изложенной выше байесовской постановке путем перехода к проективным координатам. Здесь доказывается, что пороговое правило из классической задачи является минимаксным, и дается объяснение смещению порога в байесовской задаче. Таким обра- зом, недостаток сведений о распределении оценок делает бесполез- ным наблюдение собственно оценок по сравнению с наблюдением относительных рангов. Оптимальное правило из задачи с полной информацией оказывается чувствительным к незнанию одного- единственного параметра. В гл.З имеется полное единообразие постановок, но сложность задач значительно увеличивается. За исходное берется предполо- 7
жение о том, что функция q (Хп) имеет общий вид, т. е. это произ- вольная монотонная последовательность q (1), q (2), .... Здесь q (·) интерпретируется как потери, чтобы иметь возможность рас- сматривать неограниченные q ( · ), считая при этом что все значения одного знака. Таким образом, q (·) не убывает, и задача ставится как задача минимизации средних потерь Mq (Χτ) по классу пра- вил 3R, основанных на наблюдении относительных рангов Υη . . ., Υν· В п. 3.1 показано, что оптимальное правило τΝ задано набором порогов (di , . . ., djv), эти пороги не убывают по нижнему индексу, а оптимальное правило выглядит т-ак: пропустить Ai, . . ., Α,ν » затем выбрать первый вариантAn из Adrv, · · ·,Α,ν_ , еслиУп = 1 2 Х = 1; а если такого нет, то следует выбрать первый An из A jy, . . . . . ., A N , если Υη ^ 2, и т. д. Второй принцип монотонности <*3-ι выражается в возрастании минимальных средних потерь νΝ, а первый принцип остается верен на каждом уровне качества, опре- деляемом фиксированным значением относительных рангов. В п. 3.2 изучается предельная форма задач наилучшего выбо- ра, число вариантов здесь бесконечно, а моменты наблюдения ва- риантов с фиксированным значением относительного ранга обра- зуют неоднородный пуассоновский процесс интенсивности i/t на единичном интервале. Оптимальное правило существует всегда, если минимальные средние потери v конечны, и задано набором порогов (ôj, δ2, . . .). В п. 3.3 исследуется связь между задачей с конечным числом вариантов и ее предельной формой. Путем введения ряда проме- жуточных моделей доказывается, что vN | v и d^/N —> 6к. В п. 3.4 находятся условия, при которых v < оо, и при которых v = сю. Оказывается, что для всех функций потерь полиномиаль- ного роста v < оо. В п. 3.5 исследуется задача, в которой максимизируется вероят- ность остановки на варианте, имеющем абсолютный ранг не выше г. Пороговые правила остановки вида «пропустить фиксированную часть вариантов, а затем остановиться на первом же варианте, имеющем относительный ранг не выше г», оценивают (асимпто- тически по N) вероятность успеха величиной (l/r)1^-1) ~ ~ 1 — (In r)/r, однако истинный порядок сходимости этой веро- ятности к 1 при оптимальном правиле является экспоненциаль- ным. В п. 3.6 рассматривается задача, в которой имеются очень сильные ограничения на возможности сравнения вариантов. Пред- полагается, что в каждый момент разрешается помнить только один вариант, и очередной вариант можно сравнивать только с находящимся в памяти. Задача сильно усложняется невозмож- ностью использования обратной индукции из-за необходимости управления памятью. Несмотря на это, при любой полиномиаль- β
ной функции потерь можно указать последовательность правил, для которых средние потери остаются конечными, когда JV —> сю. В гл. 4 рассматриваются задачи, в которых структура предпоч- тений на глобальном множестве вариантов % не описывается ли- нейным упорядочением. Предположим, что варианты А1ч . . ., An могут быть упорядо- чены по нескольким, скажем m, независимым критериям, т. е. каждому An отвечает 7?1-компонентный вектор Хп абсолютных ран- гов среди Ai, . . ., An и вектор Yn относительно рангов среди Аг, . . ·, An· Таким образом, на множестве {Аи . . ., An} возни- кает естественное частичное упорядочение: один вариант лучше другого, если он лучше по всем m критериям. Пусть q (Xn) — монотонная функция потерь, а Ж — класс правил остановки, основанных на наблюдении Y1? . . ., ΥΝ. В п. 4.1—4.3 изучается задача минимизации Mq (Χτ). В п. 4.1 показано, что оптимальное правило задается частично упорядоченным набором порогов. Первый принцип монотонности проявляется на каждом уровне качества, отвечающем фикси- рованному значению вектора относительных рангов. Второй прин- цип сохраняется без изменений. В п. 4.2 изучается предельная форма задачи из предыдущего параграфа и устанавливается ее связь с этой задачей. Аналогия между предельной и допредельной задачами оказывается значи- тельно менее полной, нежели в задачах предыдущей главы. Ос- новная трудность состоит в невозможности вложения одной зада- чи в другую, что связано с различными формами несравнимости вариантов. Дело в том, что при переходе к пределу наблюдается качественный скачок: мы наблюдаем не одну большую совокуп- ность, сравниваемую по m критериям, a m больших групп ва- риантов. Внутри каждой группы сравнение производится по свое- му критерию, а эффект выбора определяется функцией потерь вида ql(i) = q(oo, . . ., i, oo . . .). Варианты из различных групп между собой несравнимы. На содержательном уровне подобное «расслое- ние вариантов» означает, что вероятность существования варианта, хотя бы пара абсолютных рангов которого остается ограничен- ной при iV-> оо, бесконечно мала, поэтому в каждой группе ва- рианты имеют только один небольшой ранг, а все остальные ранги бесконечно велики. В пп. 4.4—4.6 рассматривается задача максимизации вероят- ности остановки на лучшем варианте, сформулированная в терми- нах функций выбора. Пусть С — функция выбора на 9t, т. е. отображение, которое ставит в соответствие любому набору tel» · · ·, ап) Œ 9tn множество С {аг, . . ., ап) CZ {аь . . ., ап} лучших среди аъ . . ., ап вариантов, п = 1,2, .... Для каждого правила τ, основанного на наблюдении A1? A2, . . ., Ajv, число Р {Ax £Ξ С {Ax, . . ., Ajv}} есть вероятность остановки на лучшем варианте. Пороговое правило τ^ есть предписание «пропустить 9
Ax, . . ., Ad-i» а затем остановиться на первом же относительно лучшем An, т. е. таком, что AnŒ С {Аъ . . ., An}>>. В п. 4.4. показано, что в задаче остановки на лучшем по Па- рето варианте класс пороговых правил дает сколь угодно близкую к 1 вероятность остановки на лучшем варианте, когда 7V —» оо. Второй принцип монотонности, очевидно, нарушается. В п. 4.5 выделен класс функций выбора, для которых порого- вые правила дают нижнюю оценку вероятности успеха, равную (l/r)i/(r-i), где г — число лучших вариантов. В п. 4.6 рассматривается задача остановки на максимальном по некоторому частичному порядку варианте, т. е. когда С — графодоминантная функция выбора. Используя аналоги правил из п. 2.4, опять получается оценка (l/r)1/^"1), но г уже может при- нимать нецелые значения. Авторам приятно выразить благодарность за помощь и поддерж- ку Э. А. Трахтенгерцу, Ю. М. Барышникову, А. Е. Гнединой и Е. Ю. Добровой. 10
Глава 1 ЗАДАЧА ОПТИМАЛЬНОЙ ОСТАНОВКИ 1.1. Предварительные сведения из теории вероятностей 1.1.1 Система подмножеств множества Ω называется а-алгеб- рой, если она содержит пустое множество ф и замкнута относи- тельно взятия дополнения и объединения ее членов в не более чем счетном числе. Ясно, что система всех подмножеств Ω образует σ-алгебру; это же верно и для системы, состоящей из ф и Ω. Для любой системы А подмножеств Ω пересечение всех со- держащих А σ-алгебр является наименьшей σ-алгеброй, содержа,, щей А. Это пересечение называется σ-алгеброй, порожденной А- и обозначается 3d (А). Если А есть система всех интервалов рас- ширенной действительной прямой R = [—оо, оо], то 3d (А) на- зывается σ-алгеброй борелевских множеств и обозначается 3d. Множество Ω с выделенной на нем σ-алгеброй подмножеств § называется измеримым пространством (Ω, $F). Пусть (Ω, §) и (Е, <g) — два измеримых пространства. Функ- ция X = X (со), определенная на Ω и принимающая значения в Е$ называется <Г/$-измеримой, если прообраз X"1 (A) принадлежит f для любого A ΕΞ Ш. В теории вероятностей такие функции на- зываются случайными элементами. Если Е = R и S = 3d, то #7$-измеримые функции называются случайными величинами (часто говорят о ;F-измеримых случайных величинах). Случай- ные величины, определенные на пространстве (R, 3d), называют- ся борелевскими функциями. Если {Xt, tEE T}— семейство слу- чайных величин, то наименьшая σ-алгебра, по отношению к кото- рой все случайные величины Xt, t ΕΞ Т измеримы, обозначается 3d (Xt, îgT)h называется σ-алгеброй, порожденной семейством {Xt, iG T}. Неотрицательная действительная функция Р (A), определен- ная на σ-алгебре f измеримого пространства (Ω, JF), называется вероятностной мерой (вероятностью), если Р (Ω) = 1 и P(U А„)=§Р(АП) η=Ι η=Ι Для любых AnŒ £, η = 1, 2,. . ., таких, что An f] Am = ф% n =7^ m. Совокупность трех объектов (Ω, §, Ρ) называется вероят- ностным пространством. Точки w Œ Ω часто называют элемен- тарными событиями, а множества A из W — событиями. а
Конечное семейство {§~ъ . . ., <fk} под-а-алгебр JT называется независимым, если Р (Аг [) . . . f] A^) = Р (Ax) ... Р (Afc) для любого набора ΑΧΕΞ fi, ... A^ ΕΞ J^. Произвольное се- мейство под-а-алгебр {F/, £ S Î1} является независимым, если любое его конечное подсемейство независимо. Семейство случай- ных величин {Xf, t ΕΞ Т} называется независимым, если семейство под-а-алгебр {53 (X*), ÎGÎ1} является независимым. Аналогично, случайная величина X называется независимой от под-а-алгебры $, если 3$ (X) и 2? независимы. 1.1.2. Пусть (Ω, f, Р) — вероятностное пространство и X = X (со) — неотрицательная случайная величина. Математи- ческое ожидание (обозначаемое MX) есть интеграл Лебега \ Х<2Р, Ω по определению равный lim (S *2-*Р{&2-п < X < (£ + 1) 2~п} + Р {X > п}) П->эо fc=0 (где {...} обозначает «множество всех точек ω из Ω таких, что...»). Для произвольной, не обязательно неотрицательной, случай- ной величины X математическое ожидание определяется только в том случае, когда одно из математических ожиданий МХ+ или МХ~ конечно (здесь Х+ = max (X, 0), Х~ = — min (X, 0)), и полагается равным MX = МХ+ — МХ~. Случайная величина X называется интегрируемой, если M | X | = МХ+ + МХ~ < оо. Для M (IaX), где ΙΑ = Ια (со) (другое обозначение — 7(A)) есть функция-индикатор события A, равная 1 при ©Ei и 0 при ω ΕΞ A = Ω \ A, часто используется обозначение \ XrfP. А В случае, когда случайная величина X дискретна, т. е. при- нимает конечное или счетное число значений х1? х2, . . . с вероят- ностями рц р2, . . ., из определения интеграла Лебега легко по- лучается формула оо мх= S ад*· В общем же случае математическое ожидание выражается как интеграл Лебега — Стилтьеса оо МХ= 5 xdFx(x), —оо где Fjf (х) = Р {X < х} — функция распределения случайной величины X. Можно также показать, что для любой борелевской функции / (х) оо М/(Х)= \f(x)dFx(x). (1.1) 12
Перечислим основные свойства математических ожиданий: 1) MX > 0, если X > 0; 2) если существует MX, то для любого числа с существует M (сХ) и M (сХ) = сШХ; 3) если X и Y интегрируемы, то M (X + Y) = MX + MF; 4) Ml = 1; 5) если MX существует, то | МХ| < M | X |; 6) если X > 0 и MX = 0, то X = 0 (п.н.) *; 7) если X и Y интегрируемые независимые случайные вели- чины, то М| XY |< оо и M (XY) = MX-MF. 1.1.3. Напомним виды сходимости случайных величин и ос- новные теоремы о предельном переходе под знаком математиче- ского ожидания. Последовательность случайных величин Х1? Х2, . . . сходится почти наверное к случайной величине X (обозначается Хп —► X), если Р {Хп -> X} = 1. Последовательность случайных величин Х1? Х2, . . . сходится р по вероятности к случайной величине X (обозначается Хп —> X), если для любого ε > 0 Р { | Хп — X \^> ε}-^0, n —> оо. Последовательность случайных величин Х1? Х2, . . . сходится по распределению к случайной величине X (обозначается Хп —> X), если для любой ограниченной непрерывной функции / (х) Mf (Хп) » М/(X), η->οο. Из формул"ы (1.1) следует, что это эквивалентно сходимости оо оо S f(x)dFXn(z)-> J f(x)dFx(x), —ОО —ОО называемой в анализе слабой сходимостью функций распределения (слабая сходимость, в свою очередь, эквивалентна сходимости Fx (x) к Fx (x) в каждой точке непрерывности Fx (x)). Поскольку сходимость по распределению случайных величин определяется только в терминах их функций распределения, то этот вид сходи- мости имеет смысл и тогда, когда случайные величины определены на разных вероятностных пространствах. Следует отметить, что из сходимости почти наверное вытекает сходимость по вероятности, а из сходимости по вероятности вы- текает сходимость по распределению. Будем писать Xn f X, если Хп -* X и Χη ^ Χη+ι (п.н.). Аналогично определяется сходимость Хп\ X. Теорема 1.1. (о монотонной сходимости). Если Хп\ X и MXf < оо, то MXn \ MX. Аналогично, если Хп\ X и МХ\ < <оо, то MXn l MX. Назовем последовательность случайных величин Хг, Х2, . . . Почти наверное (п.н.) означает, что соответствующее соотношение выпол- няется с вероятностью 1. 13
равномерно интегрируемой, если limsup J |Χη|α7Ρ = 0. 0-°° п {|Ζη|>α} Теорема 1.2. (лемма Фату). Если последовательность Хп, п = 1, 2, . . . равномерно интегрируема и существует M (limnsup Xn), то M (lim^ sup Xn) > lim^ sup MXn*. Теорема 1.3. Пусть О < Χη -* X и МХп < оо. Тогда МХП —> MX <оо б тож а только в том случае, если последова- тельность Хх, Х2, ... равномерно интегрируема. Теорема 1.4 (Лебега о мажорируемой сходимости). Пусть р Хп —> X и существует такая интегрируемая случайная величина У,что \Хп |<У,тг = 1,2, .... ТогдаМ | Х|< оо и M (Хп — Х)-> —►О, n —> оо. 1.1.4. Пусть $ — под-σ-алгебра f,X — неотрицательная случайная величина. Условным математическим ожиданием X относительно $ (обозначается M (X | $)) называется ^-измери- мая случайная величина такая, что для любого A Œ S $XdP = $M(X|$)dP. А А Существование и единственность (с точностью до значений на мно- жестве нулевой вероятности) условного математического ожидания вытекают из известной теоремы Радона—Никодима. Если X — произвольная случайная величина, для которой MX существует, то условное математическое ожидание определяется формулой M(X|i§) = M(X+|$)--M(X-|$). В том случае, когда X = 1А — индикатор события A, услов- ное математическое ожидание M (Ia \ S) обозначается Р (A | Щ и называется условной вероятностью события A относительно $. Функция Р (со, A), определенная для всех (oGÎiniEÎ, называется регулярной условной вероятностью относительно $, если: 1) для каждого ωΕΩΡ (ω, ·) есть вероятностная мера на f\ 2) для каждого 4EÎ функция Р (·, A) является ^-измери- мой и Р (со, A) = Р (A I Щ (п.н.). Существование такой функции означает, что условные мате- матические ожидания могут быть найдены как интегралы по услов- ным вероятностям, а именно: M (X | &) (со) = J X (ω') Ρ (со, dco') (п. н.). Ω * Через limnsup Хп обозначается верхний предел последовательности Χι, Х2» . . ., т. е. inf sup Xm. Аналогично, нижний предел limninf Xn п т^п есть sup inf Xm. 14
Положим M (X I Y) = M (X I 3i (У)). Можно показать, что всегда найдется такая борелевская функция / (у), для которой jyi (х | γ) = / (У) (п.н.), т. е. M (X | У) есть функция от У. Это обстоятельство позволяет определить математическое ожидание M (X | У = */) ПРИ условии, что У принимает фиксированное значение у, полагая M (X \ У = у) = / (г/). Пусть пара (X, У) имеет плотность распределения fXy (х, у), т. е. для любого боре- левского множества на плоскости Р {(X, У ) G В} = J fzy (х, у) dxdi/ в и fx|Y (x1*/) — плотность условного распределения вероятно- стей: \fx\Y (*, 2/) | /у (у), если fy (у) > О, /х|г(*|10-|0| если /у (ι/) = О, где fy (y) — плотность распределения У. Тогда оо М(Х|Г=г/)=$ xh\r(x\y)dx. —оо Перечислим основные свойства условных математических ожи- даний, предполагая при этом, что математические ожидания рас- сматриваемых случайных величин существуют и Э d f: 1) M (X | S) > 0, если X > 0; 2) M (1 | S) = 1; 3) I M (X |S) |< M (I X |[S); 4) M (aX + ЬУ | 3) = αΜ (X | ») + bM (У | #), если сум- ма αΜΧ -j- ЬМУ не является неопределенностью вида +оо — оо; 5) если Х$ -измерима, то M (X | &) = X; 6) если X не зависит от $, то M (X | &) = MX; 7) если »х с #2, то M (М (X | Э2) | 8г) = M (X | ^); 8) если Si 3 Э2> то M (М (X | Э2) | $г) = M (X | Э2); 9) если X и ХУ интегрируемы и У»-измерима, то M (ХУ |$) = = УМ (X | g). Все приведенные соотношения справедливы почти наверное. Теоремы 1.1-1.4 остаются верными, если в их формулировках математические ожидания заменить на условные математические ожидания. Важную роль в статистике играет следующее свойство услов- ных математических ожиданий^ известное как обобщенная теоре- ма Байеса. Пусть Θ — случайная величина такая, что условные вероятности Р {В | Θ = а) являются регулярными и допускают представление Ρ{£|θ=α} = $ρ(ω, a) dX в гДе р (cûi a) — неотрицательная измеримая по обеим переменным 15
функция, a λ есть σ-конечная мера * на (Ω, $). ЕслиМ | g (θ) | <С оо, то оо ос M (g (θ) I m = [ $ g (α) ρ (ω, a) dFe (α)]/[ J ρ (ω, α) d^e (a)]. 1.2. Задача оптимальной остановки 1.2.1. Пусть (Ω, <F, P) — некоторое вероятностное простран- ство, f-L CZ ^2 С . . . — неубывающая последовательность под-σ- алгебр 5\ и Х1? Х2, ... — последовательность случайных ве- личин таких, что Хп измеримы относительно fn, п = 1, 2,. ... Пара последовательностей {Хп, $Fn}? называется стохастической последовательностью. Будем интерпретировать fn как совокуп- ность событий, которые могут быть наблюдены к моменту n, a Хп — как выигрыш, который мы получаем при прекращении наблюде- ний в момент п. Правилом остановки называется случайная вели- чина τ со значениями 1, 2,. . ., оо такая, что τ < оо с вероятностью 1 и {τ = η) ΕΞ &п для любого п = 1, 2,. . .. Случайная величина ∞ Г Хп, если τ = /г, п = 1, 2, . . ., ^τ — 2j Xn·* {τ=η} = |λ η=ι 10, если τ = οο представляет собой выигрыш, который мы получаем при прекра- щении наблюдений в случайный момент τ, а математическое ожи- дание ΜΧτ (если оно существует) трактуется как средний выигрыш, соответствующий правилу остановки т. Цена ν стохастической по- следовательности { Xn, fn}T определяется как sup MXT, где супремум берется по множеству всех правил остановки, для кото- рых это математическое ожидание существует. Задача оптималь- ной остановки состоит в нахождении оптимального правила оста- новки, для которого средний выигрыш равен v. Задачу оптимальной остановки часто рассматривают относи- тельно некоторого подкласса 91 всех правил остановки, значение супремума supMXt называется ценой класса 9Î и обозначается t;(3l). В случае произвольной стохастической последовательности может вообще не существовать ни одного правила остановки, для которого определен средний выигрыш. Мы ограничимся рассмот- рением лишь тех стохастических последовательностей, для ко- торых M (sup Хп) < оо, тогда MXt существует для любого пра- вила остановки. Смысл указанного условия заключается в том, что даже если мы имеем возможность производить наблюдения сколь угодно долго и затем выбирать любое из значений Хъ Х2, . . . в качестве выигрыша, то все равно наш средний выигрыш не будет бесконечно большим. * Мера называется σ-конечной, если пространство допускает разбиение на не более чем счетное число подмножеств, мера каждого из которых конечна. 16
В большинстве конкретных постановок задач оптимальной ос- тановки имеется некоторая основная последовательность случай- ных величин ΥΙ, Уъ, ... с известным совместным распределением, значения которой интерпретируются как результаты наблюдений, и выигрыш от прекращения наблюдений на n-м шаге является функцией уже проведенных наблюдений, т. е. Хп = Хп (У1э . . . # . ., Уп). В этом случае fn = 33 (Yx, . . ., Yn) и условие измери- мости {τ = η} ΕΞ fn B точности означает, что решение о прекра- щении наблюдений на п-м шаге должно зависеть только от уже из- вестных значений Ух, . . ., Уп и не зависеть от будущих значений Поясним сказанное. Нетрудно видеть, что случайная величина τ измерима относительно о-алгебры &∞ = 3d (Уц У2, . . .), по- этому всякое правило остановки можно рассматривать как функ- цию τ (ι/ι, У2» · · ·)> определенную на пространстве бесконечных последовательностей (уъ у2, . . .). Из условия измеримости {τ = п) Œ 33 (Уь . . ., Уп) следует, что если τ (ylt y2, . . .) = п для некоторой последовательности (уг, г/2, . . .), a (i/i, г/21 · · ·) — другая последовательность, для которой ук = ук при & = 1,. . . . . ., и, то τ (у'ц y'v . . .) = n. Разумеется, верно и обратное — любой функции τ (ух, ζ/2> · · ·)» принимающей конечные значения n = 1, 2,. . . и обладающей указанным свойством, можно поста- вить в соответствие правило остановки τ = τ (Ух, У2, . . .)· Та- ким образом раскрывается двоякий смысл понятия «правило оста- новки»: во-первых, это есть некоторая процедура, т. е. соответствие между результатами наблюдений и предпринимаемыми действия- ми, и, во-вторых, это есть случайное число наблюдение проводи- мых согласно этой процедуре. Излагаемые далее общие результаты не зависят от конкретного строения σ-алгебр fn, однако случай $fn = 3S (Уi, . . ., У„) полезно иметь ввиду. 1.2.2. Пусть 9КП обозначает совокупность всех правил оста- новки таких, что τ > n, η = 1,2,. . .. Очевидно,, что 3Ri Z) ^2 Z) Z) . . .; поэтому v = vx ;> г;2 ;> . . ., где z;n = ν (3Rn). Поло- жим * Yn = esssupM(Xx|fn). Наглядный смысл γη очевиден — это максимальный средний выиг- рыш, который может быть получен после момента п при условии уже проведенных наблюдений. С точки зрения общей идеологии динамического программиро- вания особого внимания заслуживает случайная величина Пусть {Xti t œ Т} — семейство случайных величин, заданных на одном вероятностном пространстве. Существенным супремумом ess sup Xt этого семейства называется такая случайная величина У, что У :> Xt (п.н.) Для каждого t <= Т, и если Z > Xt (п.н.) для каждого f, то Z > У (п.н.). Существенный супремум всегда существует и У = sup Xt для некото- рого счетного подмножества {if, f2, . . .} С T. 17
τ* = min {η | Χη = γη} (в определениях правил остановки бес- конечной стохастической последовательности мы полагаем min ф = = оо). Вообще говоря, τ* может принимать значение оо с положи- тельной вероятностью, (условия {τ* = п) e= fn, η — 1, 2,. . . всегда выполняются), но если все-таки τ* является правилом ос- тановки, то оно является подозрительным на оптимальность, по- скольку предписывает остановку лишь в тех ситуациях, когда это дает наибольший возможный выигрыш. Как мы увидим далее, если τ* <С оо (п.н.), то .это правило оптимально; в противном случае оптимального правила остановки не существует *. Основная идея последующих рассуждений такова: если нам удастся найти последовательность правил остановки хк таких, что MXTfc ->уит^-)- τ*, то переход к пределу MXTfr ->- ΜΧτ* под знаком математического ожидания и докажет оптимальность τ*, если только τ* окажется правилом остановки. Оптимальность τ* при этом естественно связывается с одновременной оптималь- ностью в классах 3Rn правил остановки хп = min {кр> п \ Хк = ук}. Назовем правило остановки τ е= 3Rn п-регулярным, если M (Χτ I fx) ^> Xfc на множестве {τ ]> к} для всех к > п. Иначе говоря, если n-регулярное правило в момент к ^ п предписывает продолжение наблюдений, то общий средний выигрыш обязатель- но уменьшается за счет остановки. Напротив, если правило из класса 5Rn не является n-регулярным, то с положительной ве- роятностью на одном из шагов к = щ п + 1, . . . оно предписы- вает продолжение наблюдений, хотя остановка могла бы увели- чить средний выигрыш. Из следующей леммы будет следовать, что в классе 3Rn можно ограничиться рассмотрением только /г-регу- лярных правил. Лемма 1.1. Для любого правила остановки τ ε= $în найдет- ся п-регулярное правило остановки τ' <^ τ такое, что M (Χτ> \ fn) > >M(XT|fn). Доказательство. Пусть τ е= SRn, положим τ = = min {k > η | M (ΧΧ \ fk) < Xfr}. На множестве {τ = к} имеем равенство M (Хх \ fk) = Xk, поэтому τ' < к. Следовательно, τ' <ζ τ. Для любого k ;> η и А ΕΞ fk $ адр-2 J ^>LnLM(X^)dP= = J XtdP. АП{Т'>Л} Поскольку А произвольно, то при k — п получаем M (Xr | fn) > > M (Χτ | fn). Далее, на множестве {τ' > k} M (Xr | f к) > !> M (XT I if fe) > Xfc, что доказывает n-регулярность τ'. Лемма доказана. * Пусть, например, Хп = 1 — 1/га, тогда уп = 1 и τ* = оо какими бы ни были «^п, и = 1,2,. . .. Легко видеть, что ν = 1, но оптимального правила оста- новки не существует. 18
Пусть теперь %г, τ2, ... — такая последовательность правил остановки из класса Жп, что MXTfc -»- νη, и τ^, τ£, . . . — после- довательность определенных леммой 1.1 n-регулярных правил. Тогда ШХЧ = M (M (Хч | Уя)) < M (M (Хх,к | f n)) = MX*V Следовательно, sup MX > ^> ι;η, а поскольку строгое неравен- ство невозможно, то этот супремум равен νη. Таким образом, суже- ние 9Rn до класса n-регулярных правил остановки не уменьшает цены. Из следующей леммы следует, что класс n-регулярных правил замкнут относительно операции взятия максимума конечного чис- ла правил и что эта операция не уменьшает средний выигрыш. Лемма 1.2. Пусть правила остановки хг и τ2 п-регулярны, тогда правило τ = max (τ1? τ2) также п-регулярно и M(Xx\fn)>M(X4\fn), i = l, 2. Доказательство. Очевидно, что τ ΕΞ $în. Для любого к > п и iGÎjf J XTdP=2( $ X*dP+ J *|dP)> ΑΓΗτι>/c} i=* AD{Ti=i<T} ΑΠ(τι=ι=τ} oo > Σ ( S *idP + S x№) = S Xt^P. fefc Afi{Ti=i<T} ΑΠΙτι=Ι=τ} AQ{Ti>fr} При & = n по произволу A получаем M (Χτ | fn) ;> M (Χτι |^n). В силу симметрии между хх и τ2 последнее неравенство верно и для τ2. Заметим, что {τ ^> к) = {τ1 ^> к} (J {τ2 > &} и на множестве {xj ^> А:} в силу произвольности A M (X, I fft) > M (Xt. | f -J > X„ i = 1, 2, что доказывает n-регулярность τ. Лемма доказана. Из следующей леммы тривиально следует, что в классе 9Rn можно ограничиться рассмотрением правил остановки, не пре- восходящих т£. Лемма 1.3. Пусть τ е $?п и τ' = min (τ, т^). Тогда M (Χτ, I fn) > M (Xx I ^n). Доказательство. По определению существенного су- премума (см. сноску в п. 1.2.2.) M (Χτ | fn) < γη (п.н.) для лю- бого τ е Жп. Следовательно, для любого 4EÎn оо оо ΑΠ{τ*<τ} »=η α π{τ*=/τ<τ} *=η ΑΓι{τ*=Λ<τ} 19
*=n ΑΓΚτ&^<τ> ΛΠ{τ*<τ} Отсюда получаем \xvd Р= J Χ^Ρ + J XT*d P>5 XTd P и, следовательно, M (Xv \ fn) > M (Xx \ fn). Лемма доказана. Мы подходим к основному месту в нашем построении. Из свойств существенного супремума вытекает, что существует такая последовательность хк е ®1п> к = 1, 2, ..., что уп = sup M(XTJ fn). к К В силу леммы 1.3 мы можем считать, что xk ^ τ*. Лемма 1.1 позволяет считать правила хк n-регулярными. Положим хпк = = max (τΧ, . . ., τ^). Последовательность τη1, τη2, . . . при каж- дом фиксированном п не убывает, и по лемме 1.2 имеет место мо- нотонная сходимость M (Χτ I f n) | γη. Далее мы будем счи- тать правила остановки хпк с указанными свойствами заданными. Первое важное следствие состоит в том, что νη = Μγ . Дей- ствительно,: пусть ΜΧτ f vn, тогда по лемме Фату (напомним, что M (sup X*) < οο) νη = limft sup M (M (XT]( \ fn)) < M limfe sup M (X%k J | fn) <^ Μγ . G другой стороны, по теореме о монотонной схо- димости vn > м ΧΧιΛ = м (M (XXnli | r„)) î MVn. Из-следующей леммы будет следовать, что xnk \ τη. Лемма 1.4. Пусть xk Œ $in, к = 1, 2, . . .— неубывающая последовательность правил остановки такая, что ΜΧτ | рп. Гогда lim xfc Ξ> τ* (π. н.). Доказательство. Положим τ = lim xk и предполо- fc-oo жим, что для некоторого i^ п событие A = {τ = i < τη} имеет положительную вероятность. Тогда найдется ε ]> О такое, что J YidP — 3ε >J XidP. А А' Пусть при всех к ^ п Вк = {хк = i <. τ*}^ тогда JBfc -> /д и по теореме Лебега о мажорируемой сходимости для всех достаточно больших к J XtcZP< $ YtdP — 2ε. (1.2) вк вк По определению последовательности xnki к = 1ж 2, . . . для всех 20
достаточно больших к S !**»*<* р> $τ^ρ-ε· (1-3) Положим pi; = τη1.ΙΒ}! + ts/g· . Тогда pfc e 3R„ и для всех до- статочно больших А; из (1.2) и (1.3) получаем МХр,. = $ Х,пк<*Р + $ Xt^P > $ XidP + $ Χτ^Ρ + ε = Β*' \ Β* 5* = ΜΧ^ + ε. Следовательно, sup MXPj, ^> ι>η~ + ε. Полученное противоречие завершает доказательство леммы. Теорема 1.5. Если τ*η < оо (n.w.), то правило остановки τ* оптимально в классе 9йп. B противном случае в классе Жп опти- мального правила не существует. Доказательство. По лемме 1.4 τη/. | τη. По лемме Фату *;п = Шп ТЛХТпк < M (limfcsup ΧτJ < $ XT*dP + ~,,∞ {τ*<∞} + ^ limfr sup XkdV. {τη=°°} Действительно, при каждом элементарном исходе ω последова- тельность xnlî (ω) либо стабилизируется на значении τ* (ω) < οο, либо %nk (ω) J оо, k ->- оо. Если τ* < оо (п.н.), то MX * ;> г;п, так как τη = max (n, τ*) < оо (п.н.), и тогда правило τ* опти- мально в классе 3Rn, п = 1, 2, . . .. Если событие {τ* = оо} имеет ненулевую вероятность, то это же верно и для всех τ*, п ^> 1. Предположим, что μ — оптималь- ное в одном из классов ЭДП правило. Тогда по лемме 1.3 правило остановки μ' = min (μ, τ*) также Жп-оптимально. Полагая в ус- ловии леммы 1.4 хк = μ', к = 1, 2, . . ., мы видим, что μ' = τΛ, т. е. τη — правило остановки. Полученное противоречие завер- шает доказательство теоремы. Теорема 1.6. Для любого п = 1, 2, . . . Yn = max(Xn, M (γη+11 fn)). (1.4) Доказательство. Пусть τ — произвольное правило остановки из класса Жп. Положим τ' = max (n_+ 1, t) и δ = И % Τ η}' **а множестве Вх = τ', поэтому на В M (Χτ | fn) = 7 ^ 2τ' ' fn) = Μ (Μ (Χτ' I *»+ι) I ^η)< M (γη | f η), так как ^ ^η+ι· Следовательно, 21
M (Xx | F„) = IBXn + hM (*t | fn) < max (Zn, M (γη+11 fn))r откуда v„ < max (Xn, M (γη+1 | fn)). В другую сторону, по теореме о монотонной сходимости для условных математических ожиданий γη > M (Xtn+i(k I Fn) = M (M XXn+hk | fn+1) | f n) î M (γη+11 fn).. Неравенство yn > Xn очевидно. Теорема доказана. Формула (1.4) позволяет записать τ* = min {п | Хп > M (γη+1 J f n)}. (1.5) Таким образом, τ* на каждом шаге предписывает останавливать- ся, если выигрыш от остановки не меньше максимального среднего выигрыша, который может быть получен при продолжении на- блюдений. 1.2.3. До сих пор мы рассматривали задачу оптимальной оста- новки бесконечной стохастической последовательности, однако за- дача оптимальной остановки конечной стохастической последо- вательности {Xn, fn}^ является частным случаем, так как мы всегда можем формально положить fn = fN и Хп = Xn при α^>Ν. Нетрудно видеть, что в этом случае γ/ν = Xn, поэтому уравнение (1.4) позволяет рекуррентно вычислять уп от больших значений п к меньшим, отправляясь от п — Ν, а поскольку τ* <^ ^ Ν, то это правило оптимально. Метод нахождения оптималь- ного правила остановки с помощью уравнения (1.4) по очевидным причинам получил название «принцип обратной "индукции». В общей задаче оптимальной остановки бесконечной стохасти- ческой последовательности {Xn, <f}ï° отсутствует «граничное ус- ловие» Y/y = Xiv, поэтому мы не можем воспользоваться уравне- нием (1.4) непосредственно. Тем не менее, при N -+ оо задача оп- тимальной остановки последовательности {Xn, fn}i, т. е. с конеч- ным числом шагов, в определенном смысле аппроксимирует общую задачу. Чтобы описать такой способ аппроксимации, положим < = {τΕ3)?η|τ< Ν}, γη7 = ess sup M (Xx \fn), v% = v (Ш%). n Задача оптимизации в классе 3RN = ЗК^ эквивалентна задаче оптимальной остановки последовательности {Xn, fn)i^ поэтому обратная индукция дает Yiv = Xn, Уп = max (Xn, M (γ£+11 F„)), n = N-l, . . ., 1. Поскольку Ж£ с ^η+1 С . . ., то уЪ < уТ1 < . . . и νηη < <Ξ νη+1 ^ · · ·» так что существуют пределы уп = lim y% и Ν-*∞ vn = lim i?^. По теореме о монотонной сходимости Μγη = νη и iV-»oo γ* = max (Xn, M (γη+11 f n)), (1.6) 22
т. е. {Уп} удовлетворяет тому же рекуррентному уравнению, что я {γη}, но в общем случае эти последовательности не совпадают. Теорема 1.7. Пусть для любого правила остановки х limsup J (Yk)-dP = Of (1,7) N {τ>Ν) тогда уп = γη, η = 1, 2, . . . . Доказательство. В силу уравнения (1.6) для всех п справедливо неравенство уп > M (γη+1 | fn), которое равносиль- но тому, что для любого В е fn $ ν^ρ>ξγ^Ρ. (1.8) в в Для любого n, A Œ fn и τ е $&п N $γ#Ρ = 2 S y'mdP+ J γ^Ρ = Α m=n Afi{T>m—1} ΑΓΜτ>Ν} = Σ ( S y'mdv- 5 Ymdp)+ S т;йр. m=n Af\{x>m—1} АП{т>т} Λ(1{τ>Ν} Из того, что A П {х^>т — 1} ΕΞ Fm-i и (1-8) вытекает, что при m ^> п J Ym-ldP> J y'mdP. Af){x>m-l} AÇ){x>m-l} Следовательно, jY;dP<JYndP_ jj rVP+ S Υτ<ζρ< <5т;йр+ $ (VN)"dP+ S ïtrfp. Α ΑΓΚτ>Ν} ΑΓΗτ>ΛΓ} Устремляя iV -»- оо по подпоследовательности, для которой ин- теграл в (1.7) стремится к нулю, мы видим, что второе слагаемое в последнем неравенстве стремится к нулю. То же верно и для треть- его слагаемого, так как τ < оо (п.н.). По произволу A отсюда получаем у'п > M (у'х | fn) для любого τ е= ЭДП» следовательно Υη > Υη, так как γ^ > Х^, к = 1, 2, ... и M (γ; | f n) > M (Χτ| Гп). Обратное неравенство γ^ <^ γη следует из включения 9)?^ С С ЭДП, дающего при всех iV > n неравенство γ^ < γη. Таким об- разом, уп = уп. Теорема доказана. Для выполнения условия (1.7) достаточно равномерной интег- рируемости последовательности Хъ Х2, . . . или выполнения не- равенства M sup Х~ < оо. 23
В общем случае оптимальное правило остановки невозможна найти без операции предельного перехода, но в некоторых слу- чаях это можно сделать даже в задаче с бесконечным числом шагов. Скажем, что имеет место монотонный случай, если стохастическая последовательность {Хю ^ГП}Г удовлетворяет следующим усло- виям: положим An = {M (Xn4i I fn) < Хп} и = 1, 2, ... и потребуем, чтобы Ai С A2 С ..., Р ( (J AJ = 1. (1.9) 71=1 Смысл этих условий заключается в том, что в процессе наблюде- ния мы обязательно придем к состоянию, в котором невыгодно делать ровно одно очередное наблюдение, причем на последую- щих шагах ситуация не изменяется. Ясно, что если Хп<.М(Хп+1\ | !fn), то имеет смысл сделать, по крайней мере, еще один шаг, поэтому в монотонном случае подозрительным на оптимальность является правило остановки μ = min{n|/An = 1}. Теорема 1.8. Пусть выполняется условие (1.7), тогда в монотонном случае μ = τ*. Доказательство. Покажем сначала, что в классе 9KW оптимально правило остановки μΝ = min (TV, μ). Для этого до- статочно доказать, что μΝ = min {n\ Xn = уп}- На множестве An» п ^ N, имеем γ^ = Xnî действительно, γ$ ξ= Х^у и если Уп+i = Xn+i на An+ι> n < Лг, то в силу (1.9) и рекуррентного уравнения на An получаем у% = max (Χη, Μ (γ£+1 | fn)) == = max (Xn, M (Xn+i | fn)) = %n· Из того, что на множестве Ап выполняется неравенство Хп < Μ(Χη+1 | 5* η) <^ Μ (γ^+ι | fn) теперь следует, что μΝ = min {н | Хп = Уп}· По теореме 1.7 MX N = vN j v, поэтому по лемме 1.4 μΝ f J μ ^ τ*. Обратное неравенство μ ^ τ* вытекает из очевидного неравенства μΝ ^ τ*. Таким образом, μ = τ*. Теорема доказана* 1.3. Оптимальная остановка марковских случайных последовательностей 1.3.1. Напомним теперь определение марковской цепи и изло- жим некоторые основные факты теории оптимальной остановки марковских цепей. Пусть (Ω, §, Р) — вероятностное пространство с выделенным на нем семейством σ-алгебр f0 (Z §x (Z . . . CI f, и (Е} ё) — изме- римое пространство, все одноточечные подмножества которого принадлежат Щ. Точки Е будем называть состояниями, а само пространство (£, &) — фазовым пространством. Последователь- ность {Zn, fn}™, где Zn являются fn/& — измеримыми случай- 24
иыми элементами со значениями в Е, называется марковской цепью, «если для любых к>/п>0и/5е^ F{ZnŒB\fn} = V[ZnŒB\Zn}. Это условие выражает марковский принцип независимости «буду- щего» от «прошлого» при фиксированнОхМ «настоящем». В том частном случае, когда fn = 33 (Zl7 . . ., Zn) и после- довательность {Zn, fn}™ образует марковскую цепь, говорят, что сама последовательность {Zn} является марковской цепью. Не- трудно видеть, что если {Zn, fn}™ — марковская цепь, то и {Zn} также есть марковская цепь. В исследовании марковских цепей особо важную роль играют переходные вероятности Р {Zn+1 £= В | Zn) за один шаг. Если существуют регулярные условные вероятности Рп+1 (z, B), яв- ляющиеся при фиксированном z мерами на (Е, g) и при фиксиро- ванном В измеримыми функциями по z такие, что P{Zn+1EEB| Zn) — Ρη+ι (Zn, В) (п.н.), то Рп (z, В) называются переходными функциями. Марковская цепь называется однородной, если переходные ве- роятности за один шаг не зависят от п\ если при этом существуют переходные функции, то все они совпадают и обозначаются про- сто Р (z, B). Другой важной вероятностной характеристикой марковской цепи является начальное распределение вероятностей, определяе- мое как Q (В) = Р {Ζ0 Εδ}. В случае однородной марковской цепи пара (Q, P) полностью определяет все вероятностные свой- ства марковской цепи. Более точно: для любого п и ^-измеримых множеств B0, . . ., Вп справедлива формула Р {Ζ0 ΕΞ Bo,. . ., Zn е Вп) =5 Q (dz0)J P (zo, dzx) ...$/> (zn.lt dzn)9 Во вг вп определяющая все конечномерные распределения марковской цепи. Для достаточно широкого класса однородных марковских цепей регулярные переходные вероятности за п шагов P^(Z0, B) = P{ZnŒB\Z0} (п. н.). можно выбрать так, чтобы выполнялось уравнение Чепмена — Колмогорова! PW (2, B) = J /><*> (z, dz') P® {z', В) (1.10) s Для всех z е Е. Важным следствием регулярности переходных вероятностей 25
является формула для условных математических ожиданий M (/ (Zm) I Zn) = $ / (z) P^-n> (Zn, dz) (п.н), (1.11) E где m > η > 0. 1.3.2. Перейдем к задаче оптимальной остановки. Все утвер- ждения п. 1.2 остаются верными, если вместо условий, которые накладывались на исходную стохастическую последовательность, потребовать выполнения одного-единственного условия равно- мерной интегрируемости. Поэтому нам удобно будет предполо- жить, что стохастическая последовательность {Xn, Fn}o° равно- мерно интегрируема. Из этого предположения, в частности, сле- дует, чтоуп Î Τηι τ· е· последовательность γη, η ;> 0 может быть по крайней мере в принципе вычислена с помощью обратной индукции и предельного перехода. Скажем, что стохастическая последовательность {Хп, ^п}о° имеет марковское представление, если существует марковская цепь {Zny fn}^ с фазовым пространством (Е, #) такая, что Хп = gn (Zn), где gn (z) — некоторая измеримая функция на фазовом пространстве. По-видимому, ясно, что в марковском случае решение об оста- новке должно зависеть только от состояния системы в текущий момент. Этот принцип часто считают само собой разумеющимся в задачах оптимальной остановки. Формально указанный прин- цип означает, что мы можем ограничиться рассмотрением класса © правил остановки τ таких, что τ = min {n \ Zn е= Z?n}, где Bu B2, ... — некоторая последовательность ^-измеримых под- множеств Е. Множество Вп естественно интерпретируется как область окончания наблюдений, а его дополнение Вп = Е\Вп — как область продолжения наблюдений. Положим £>п = £> fi ®*η· Теорема 1.9. В марковском случае для каждого п = 0,1, ... уп = ess sup M (Хх I f n) = ess sup M (Χτ | Ζη), νη = sup ΜΖτ. φ φ φ Доказательство. Случайная величина γ$ является 53 (Zjv)-H3MepHMou, так как γ$ = ΧΝ = gN (ZN). Если уп+х является 53 (£п+1)-измеримой, η + 1 ^ Ν, то в силу обрат- ной индукции уп = max (Xn, M (γη+1 (fn)) = max (gn (Zn), M (γ^+11 Zn)) является 53 (ZJ-измеримой. Следовательно, при всех η <; Ν случайная величина γ^ является 53ч^п)-измеримой· Отсюда вытекает, что существуют функции Vn (z) на (E, <g) такие, что γ* =υζ (Ζη) (п. н.). Полагая Г^ = {ζ ΕΞ E\gk (z) = v%(z)}, мы можем оптимальное в классе SR^ правило остановки τ^ = min {k !> n\Xk = y^} 26
представить в виде х% = min{k>n\Zk ŒTf}, поэтому τη е ©η· Остается заметить, что M (X N \fn) = M (X Ν \Ζη) = γ^ f γη при iV->∞. Теорема доказана. Поскольку γη является пределом 3d (ZJ-измеримых функций у% = у^ (ZJ, то мы можем также записать уп = νη (Ζη), где Vn (z) Î yn (z) ПРИ N ->οο. В марковском случае последователь- ность функций vn (я), га = О, 1, . . . играет ту же роль, что и {γη} в общей задаче оптимальной остановки. В частности, τ* = min {га \ vn (Zn) = gn (Zn)}, или, полагая Γη = {ζ Œ Ε \ νη (ζ) = gn (z)}, τ* = min {n\ ZnŒ Γη}. В том случае, когда τ* является правилом остановки, τ* ΕΞ Э. Поэтому из теоремы 1.5 следует, что если оптимальное правило остановки существует, то его можно искать в классе©. С другой стороны, если существует ©-оптимальное правило, то по теореме 1.9 оно является оптимальным и среди всех правил остановки. Из этого, конечно, не следует, что все оптимальные правила, а не только τ*, принадлежат ©. Предположим теперь, что марковская цепь Ζ0, Ζ1? . . . явля- ется однородной с переходной функцией Р (ζ, В). Уравнение (1.4) мы можем записать, воспользовавшись формулой (1.11), в виде νη (ζ) = max (gn (z), Tvn+i (z)) (1.12) где оператор Т действует на ^-измеримые функции по формуле Tf(z)=lf(z')P(z, dz'). Ε Ситуация существенно упрощается, если выигрыш при попа- дании в какое-либо состояние не зависит от момента попадания, т. е. когда gn (z) = g (z), га = 0, 1 В этом случае vn (z) = = ν (ζ) и Γη = Г = {ζ ΕΞ Ε | g (ζ) = ν (ζ)} при всех га. При этом ν (ζ) естественно называть ценой состояния, а Г —множеством остановки, так как τ* — это момент первого попадания цепи в Г. Уравнение (1.12) превращается в функциональное уравне- ние для ν (ζ): ν (ζ) = max (g (z), Tu (z)). (1.13) В теории марковских цепей функции, удовлетворяющие неравен- ству Tf (z) <^ / (ζ), называют эксцессивными. Можно показать, Что ν (ζ) является наименьшей эксцессивной мажорантой функции вЫигрыша, т. е. ν (ζ) меньше любой эксцессивной функции / (ζ) > >g(z). 27
Особенно просто выглядит марковский вариант монотонного случая. Определим G как множество состояний ζ ΕΞ 2?, для кото- рых g (z) ^ Tg (z). Первое условие монотонности (1.9) превра- щается в условие Р (z, G) = 1 для всех ζ, принадлежащих G. В монотонном случае Г = G. 1.3.3. Пусть {ХПУ fn}T равномерно интегрируемая стохасти- ческая последовательность. Скажем, что имеет место случай независимых наблюдений, если Хп+1не зависит от fn, п = 1, 2, . . .. Нетрудно видеть, что в этом случае Хг, Х2, - - . —независимые случайные величины. Наиболее типичный пример: У1? Уа» · · · ~~ независимые на- блюдаемые случайные величины, if n = 3à (Yl9 . . ., Yn), и Хп является функцией от Yn. Из теоремы 1.9, примененной к марковской последователь- ности Ζη = Хп~ъ п = 1, 2, . . ., вытекает следующий результат. Теорема 1.10. Пусть имеет место случай независимых наблюдений. Тогда 1) случайные величины уи γ2, ... являются независимыми; 2) уп = max (Xn, vn+1), vn = M max (Xn, i7n+1), n = 1, 2, . . .; 3) i;n является ценой класса ©n, /г = 1, 2, . . .; 4) τ* = min {η \ Χη > ι;η+1}; 5) оптимальным в классе $RN является правило остановки %N = mm{n\Xn^vZi}, где yjv+i = — ∞ и ν% = M max (Χη, Vn+1). Как утверждает теорема 1.9, в марковском случае можно исключить из рассмотрения те правила остановки, которые пред- писывают принимать то или иное решение не только в зависимости от текущего состояния, но и от некоторых прошлых состояний. Иначе говоря, информация о прошлых состояниях является из- лишней, поскольку ее наличие не увеличивает средний выигрыш. Вообще, введение дополнительной информации, которая может влиять на выбор решения, но не влияет на будущее течение про- цесса, называют рандомизацией. Интуитивный метод рандомиза- ции заключается в проведении «не относящегося к делу» допол- нительного случайного эксперимента (например, подбрасывания монеты) для выбора решения. Более формально, пусть {Хп, fn}? — произвольная стохас- тическая последовательность и $1э 2?2, ... — неубывающее се- мейство под-о-алгебр f, удовлетворяющее двум условиям: для каждого п = 1, 2, ... 1) f » С $п\ 2) Р (А | Sn) = Р (А | fn) для любого A Œ Se ( (J f*)- Пра- вило остановки τ такое, что {τ = n} Œ $n, n = 1, 2, . . . назы- вается рандомизированным правилом остановки относительно стохастической последовательности {Xn, fn}T- 28
Теорема 1.11. Если выполнены условия 1) и 2), то зна- чения уп для последовательности {Хп, $П}Г совпадают со значе- ниями уп для последовательности {Xn, $Fn}T> Для равномерно интегрируемой последовательности Х1% Х2,..., теорема может быть доказана путем перехода к усеченным последовательностям {Xn, fn}i и {Xn, $n}f с помощью обратной индукции и последующим предельным переходом по N. В общем случае доказательство требует более сложных предельных пере- ходов (точнее, большего числа предельных переходов). По теореме 1.11 рандомизация не увеличивает цены, что под- тверждает вполне понятный факт, что серьезные решения не сле- дует принимать посредством подбрасывания монеты. Несмотря на это, рандомизация часто оказывается полезным вспомогатель- ным приемом в задачах оптимальной остановки. Пусть fn = tB (Ух, . . ., Yn), n = 1, 2, . . .. Решение задачи оптимальной остановки стохастической последовательности {Хп, £п}?, не зависит от конкретной структуры вероятностного про- странства (Ω, f, Р), лишь бы на нем существовали случайные- величины Ух, У2, ... с заданным совместным распределением. Часто в качестве пространства элементарных исходов Ω естест- венно рассматривать пространство последовательностей (г/1, у2, . . .)» однако это пространство оказывается слишком бедным, если мы хотим, чтобы наши решения могли зависеть от результатов подбрасывания монеты. Таким образом, желание использовать рандомизацию может привести к усложнению вероятностной моде- ли эксперимента. В общем случае достаточно ввести новое про- странство (Ω, f,_ Р), где Ω = Ω х Ω', f = f (g) f, Ρ = = Ρ &) Ρ' и (Ω', #', Ρ') — некоторое измеримое пространство- «рандомизирующих» исходов *. 1.4. Задача с двумя возможностями остановки 1.4.1. Использование методов оптимальной остановки оказы- вается полезным и в других задачах последовательного принятия решений. Предположим, что последовательно наблюдаются значения случайных величин Ух, У2, . . . с известным совместным распре- делением. На каждом шаге мы можем либо продолжить процесс наблюдения этой последовательности, либо прекратить. Если наблюдение прекращается на m-м шаге, то далее наблюдается Другая последовательность случайных величин Ут, т+и Ут, т+2, Если наблюдение второй последовательности прекращается в Момент п^> m, т. е. на значении УтЛ, то наш окончательный Пусть (ΩΧ, &и Рх) π^(Ω2, Jf'g» Рг) —Два вероятностных пространства. Произведением &х 0 & 2 называется σ-алгебра подмножеств Q± x Ω2, порожденная множествами вида Ах X Л2, где Аг е &*и А2 <= S? г% Произ- ведением Рх 0 Р2 называется вероятностная мера на &± ® &2 такая, Что Pi ® Р2 (Ах X А2) = Р< (At) P2 (Л2). »
выигрыш составляет Хтп, где Хтп зависит от всех наблюденных значений У1э . . ., Уш, Гт, т+1, . . ., Ymn. Требуется максимизи- ровать средний выигрыш при условии, что совместное распреде- ление семейства {Ymn, 1 ^ m <^ п) известно. Более общая ситуация такова. Пусть заданы следующие объекты: 1) вероятностное пространство (Ω, f, P); 2) неубывающее семейство σ-алгебр 5Ι (Z #~2 С . . . CZf', 3) для каждого фиксированного m = 1, 2, ... стохастиче- ская последовательность {Хтп, fmn}n=m+i такая, что fmCÎmn CI CI f m, n+i, η^>ΤΠ. В частном случае, о котором говорилось вначале, следует по- ложить f т = Ж (У1Э . . ., Ут) и fmn = 33 (Yu . . ., Ут, *т, m+i, - . . Утп)· Составным правилом остановки называется пара случайных личин (σ, τ), принимающих значения 1, 2, . . ., оо таких, что 1) σ <τ< οο (п. н.); 2) {σ = m} е £"то, ти = 1, 2, . . .; 3) {σ = /тг, τ = п) Œ fmn, я > ™ > 1. Из этого определения следует, что σ является правилом остановки относительно последовательности $х, f2> · · · . Аналогично, т можно рассматривать как правило остановки относительно fm,m+i, fm,m+2, - · · на множестве {σ = m}. Будем интерпретировать $fm как информацию, накопленную наблюдателем к моменту m при условии, что до этого момента ни одна из возможностей остановки не была использована. Точно так же, fmn интерпретируется как информация, имеющаяся к мо- менту п при условии, что первая возможность остановки уже была использована ранее в момент т. Для каждого составного правила остановки (σ, τ) определим случайную величину στ 2j 2j Xmnl{a=m,x=n) = m=i n=m+l fXmn, если а = т и τ = η, m<^n; [О, если σ ^> τ или τ = οο, -{г которую будем также обозначать X (σ, τ). Под средним выигры- шем составного правила остановки будем понимать математиче- ское ожидание ΜΧστ, а чтобы средний выигрыш был определен для всех (σ, τ), потребуем чтобы семейство {Хтп} удовлетворяло условию M sup t/m<oo, (1.14) где Um = M (U I fm) и U = sup Хтп. Пусть Sm обозначает класс составных правил остановки (σ, τ) таких, что σ ^ m, a Smn обозначает подкласс @w, состоящий из 30
пар вида (m, τ), где τ ^ л. Положим z;m = sup ΜΧστ, ymn = sup МХт. Составное правило остановки, для которого один из этих супре- мумов достигается, будем называть оптимальным в соответствую- щем классе. 1.4.2. Задача с двумя возможностями остановки сводится к поочередному решению двух обычных задач оптимальной оста- новки. Предположим, что первая возможность остановки всегда ис- пользуется в момент m, тогда объектом оптимизации является класс Sm, m+i· Мы приходим, таким образом, к задаче оптимальной остановки стохастической последовательности {Xmn, fmn} n=m+i» Пусть β™ = ess sup M (Χστ I f mn). (1.15) mn По теореме 1.6 pmn удовлетворяет рекуррентному уравнению Ртп = max (Хтпу M фт,п+11 fmn)). (1.16) Кроме того, из теоремы 1.5 следует, что если %тп < оо (п. н.), гДе tmn = min {к^ п\ Xmlî = β^}, то составное правило оста- новки (т, хтп) оптимально в классе Smn, и, как следует из леммы 1.3 и (1.5), Kn = M(X(m,rmn)\fmn). (1.17) Полагая β7η = Μ(β7η,7η+1|^), (1.18) мы из (1.17) и (1.18) получаем β™ = M (X (m, τ*, m+1) J fm), если только правило остановки тт>т+1 почти наверное конечно. Это означает, что β™ есть условный ожидаемый выигрыш, который мы получаем, если сначала останавливаемся в момент m, a далее действуем оптимальным образом. Теперь рассмотрим задачу оптимальной остановки стохасти- ческой последовательности {β7η, fm}?. Из предположения (1.14) следует, что M (sup $m) < оо. Положим 7m = ess sup Μ(βσ|^), где $?т есть класс правил остановки σ > т. В силу использован- ных выше аргументов, имеем Tm = max(pm,M(Ym+1|fm)), (1.19) а если случайная величина σ* = min {к > m | β* = γ^} 3Î
является правилом остановки (т. е. σ™ < οο (п. н.)), то Ym=M(p(o*)|rw). Теорема 1.12. Пусть σ* = ππη {m|Pm = vm} и на множестве {σ* = m) T* = min{n>m|Xmne=:Pmn}. Если σ* < τ* < οο (п. н.), то (σ*, τ*) является оптимальным составным правилом остановки, т. е. M (X (σ*, τ*) I fx) = yx и MX (σ*, τ*) = νν Доказательство. Для любого составного правила остановки (о, х) определим последовательность правил остановки tm = τΛσ-m} + (m + 1) 1{о*т}* Поскольку хт е вт,т+1» то в силу (1.15), (1.17) и (1.18) на мно- жестве {σ = m} имеем $т ;> M (X (m, хт) \ fm), причем для (σ*, τ*) имеет место равенство, так как хт совпадает с τ™, w+1 на \о = т). Следовательно, для любого A Œ fi $β(°)<*Ρ=Σ S Kdv> A m==l AOW=m} ΟΟ >S J M(X(m,Tm)\?m)dP m=»i ΑΠ<σ=ηι> οο -S S X(m,Tw)dP=$X<TT<lP, m=l ΑΠ{σ=τη| A и, в силу произвольности A, M (β (σ) I fx) > ΜΧστ, причем для (σ*, τ*) имеет место равенство. Поскольку у± > M (β (σ) I f г) и Τι = M (β (σ*) | Рг), то M (X (σ*, τ*) | Рг) = γΧ и MX (σ*, τ*) = *>ι· Теорема доказана. В отличие от обычной задачи оптимальной остановки пара {σ*, τ*) может с положительной вероятностью принимать значения оо, даже если оптимальное составное правило остановки сущест- вует (ср. с теоремой 1.5). 1.4.3. Теперь предположим, что мы имеем дело всего лишь с конечным числом наблюдений, т. е. индексы семейства {XmTU fmn) пробегают конечное число значений 1<^ттс^М, m <^η <ζ. ^N(m). Соотношения (1.17) и (1.19) дают 1<т<М; (1.20) Ртп = max (Хтп, M (β™, „+11 f тп)), m < re < N (то), 1<т<М; (1.21) Υμ = Ρμ, (1-22) ут = max (ft,, M (Vm+1| f J), 1< i» <ilf (1.23) 32
Эти формулы есть не что иное как вариант метода обратной индукции применительно к задачам с двумя возможностями оста- новки. В принципе они позволяют вычислять последовательность Rmn при фиксированном m от больших значений п к меньшим, а затем последовательность ут от больших значений m к мень- шим. Пара (σ*, τ*), определенная через {Pmn} и {ут}, является конечнозначной, поэтому (σ*, τ*) есть оптимальное составное правило остановки. Нетрудно сформулировать аналогичную задачу с к возмож- ностями остановки. Теорема 1.12 легко обобщается и на этот случай, но нахождение оптимального правила, состоящего из к правил остановки, потребует вычисления к семейств случайных величин (имеются ввиду аналоги ут и Pmn), число индексов кото- рых изменяется от 1 до к. 2 Заказ № 3752 33
Глава 2 ВЫБОР НАИЛУЧШЕГО ВАРИАНТА 2.1. Классическая задача наилучшего выбора 2.1.1. Эта задача будет исходной для рассматриваемого круга задач, она имеет много других названий, среди прочих такие, как задача о выборе наилучшего объекта, задача о секретаре, задача о выборе жениха или невесты. Предположим, что имеется N упорядоченных по качеству вариантов, из которых мы хотим выбрать наилучший. Ознакомле- ние с вариантами происходит в случайном порядке так, что все Λ^Ι возможных перестановок равновероятны. На каждом шаге мы можем сравнить очередной вариант со всеми предыдущими, но ничего не знаем о том, каковы будут последующие варианты. В зависимости от результатов проведенных сравнений очередной вариант может быть либо выбран, и тогда процесс выбора закон- чен, либо пропущен, и тогда мы смотрим следующий вариант, если еще не все варианты просмотрены. Требуется с максималь- ной вероятностью выбрать наилучший вариант. Препятствием для выбора наилучшего варианта в этой задаче является невозможность возврата к отвергнутым вариантам. Если бы это ограничение отсутствовало, то мы всегда могли бы выбрать наилучший вариант, просмотрев все N вариантов. В известной интерпретации, связанной с выбором жениха, разборчивая невеста хочет остановить свой выбор непременно на наиболее достойном кандидате. При этом она каждый раз должна решать вопрос об избраннике до поступления следующего пред- ложения. Однажды отвергнутый жених считает это решение окончательным и более не навязывается. Искусственность неко- торых условий в этой интерпретации (например, о том, что неве- ста знает наперед число предложений) будет частично устранена в других постановках задачи наилучшего выбора. Уточняя и формализуя постановку задачи, мы рассмотрим в качестве пространства элементарных исходов Ω множество всех перестановок чисел 1, 2, . . ., iV, считая при этом все пере- становки со = (ω1? . . ., cozy) равновероятными. Число Хп (ω) = = ωΛ, 1 ^ п <^ Ν, мы будем называть абсолютным рангом п-то по порядку просмотра варианта и считать, что вариант тем лучше, чем меньше его абсолютный ранг. Так, абсолютный ранг 1 соот- ветствует наилучшему по качеству варианту, 2 — второму по качеству и т. д. Определим относительный ранг п-го по порядку просмотра варианта, как число членов последовательности Хг,. . - 34
.. ., Хп, не превосходящих Хп, п = 1, . . ., N. Значение Уп определяется результатами сравнений тг-го варианта со всеми предыдущими. Обратно, по значениям Ух, . . ., Υη однозначно определяются результаты сравнений первых п вариантов. Таким образом, последовательностью У1? . . ., Уп исчерпывается вся информация, которая может быть получена путем ознакомления с первыми п вариантами. Это означает, что решение о выборе п-то по порядку просмотра варианта должно определяться отно- сительными рангами Ух, . . ., Υη. Иначе говоря, в качестве спо- собов выбора следует рассматривать правила остановки последо- вательности наблюдений Ух, . . ., У#. Задача наилучшего выбора заключается в нахождении такого правила остановки τΝ, для ко- торого вероятность Р {Хх = 1} выбора наилучшего варианта принимает наибольшее значение. Чтобы привести нашу задачу к обычному виду задач оптималь- ной остановки, следует положить где fn = 33 (У1? . . ., Уп) — σ-алгебра, порожденная относи- тельными рангами первых п вариантов. Для любого правила остановки τ относительно последовательности f^ . . ., f n мсч= 2 S <?n<*P=S S P{Xn=i|fn>dP= η==ι |τ=η) η=ι {τ=η} = 2Ρ{Χη=1,τ = η}=Ρ{Χτ=1}, n=l поэтому задача наилучшего выбора эквивалентна задаче опти- мальной остановки конечной стохастической последовательности {Qm ^п}7» причем Qn — это условная вероятность того, что n-й вариант окажется наилучшим. 2.1.2. Оптимальное правило остановки и оптимальная вероят- ность удачного выбора легко находятся методом обратной ин- дукции. Прежде всего следует определить совместное распреде- ление относительных рангов и явный вид выигрышей Qn. Лемма 2.1. Относительные ранги Ух, . . ., Yn незави- симы и Р {Уп = к} = 1/n, к = 1, . . ., п. Доказательство. Положим Утп, где т^ n, равным числу членов последовательности Хх, . . ., Хт, не превосходящих Хп. Нетрудно видеть, что Уп = Упп, У^п = Хп и если Ут+ι < ^ *■ тпч то *тп+1, п = Yfnn + 1» а еСЛИ У m+l ^> * тпч то ■* т+1, η = ^тпп· Всякую перестановку (5Х, . . ., sN) чисел 1, 2, . . ., N можно рассматривать как взаимнооднозначное преобразование s про- странства Ω, действующее по формуле s (Ar1? . . ., Xn) = (Xs1? · · · . . ., XSN). Поскольку все точки Ω равновероятны, то s сохраняет вероятность. Пусть 5m+i = m + 1, ..., sN = N для некоторого m <С N. Под действием преобразования s событие {Ут1 = 1, . . ., Y mm = 2* 35
= m} переходит в событие равной вероятности {Ymi = s±, ... . . ., Ymm = sm}. В силу произвольности ($!, . . ., sm) все т\ возможных значений вектора (Yml, . . ., Ymm) равновероятны. Обозначим / (У\, . . ., Уп) вектор (Уп1, . . ., Упп), взаимно- однозначно определяемый относительными рангами У\, . . ., Yn> тогда при любых ук <^ /с, А: = 1э . . ., n, ^{4=lln|ii=lfi 'и=М= Р{У1 = Уь ..., ^„.ι = νιι-ι} = Р{/(У1.---,Уп)=/(Уь.-оУл)} Ι/ι>Ι ±_ = Р {/ (П, . . ., Уп_г) = / (ylf . . ., î/n-1)} = 1/(д-1)! = п - Лемма доказана. Как следствие получаем, что <?n = P{Zn = l|Fb...,Fn} = P{Xn = l|yn}, так как абсолютный ранг Хп однозначно определяется относитель- ными рангами Уп, . . ., YN. Скажем, что тг-й вариант является относительно лучшим, если он лучше всех своих предшественни- ков, т.е. Уп=1. Если n-й вариант не является относительно луч- шим, то он не может оказаться наилучшим среди всех вариантов. Если же дг-й вариант является относительно лучшим, то он оказы- вается наилучшим тогда и только тогда, когда больше относитель- но лучших вариантов не появляется. Из сказанного следует, что Qn=/(γη=ι> Ρ {Xn = 11 Υη = 1} = — У<Г„=1> p{yn = 1j — -/«г,-*, П (Ι-τΗ = Τ^<ν->· (2·1) fc=n+l ' Мы видим, что имеет место случай независимых наблюдений, по теореме 1.10 в этом случае оптимальным является правило остановки τ N min{n|<?n>i;£+1}, (2.2) где последовательность yf, . . ., vfi удовлетворяет рекуррентному уравнению Vn = M (max (Qn, i^+i;)), v%+1 = — oo. Учитывая (2.1), перепишем это уравнение в виде vS-^^MiQn-v^^fe-^y, n = i,...,N-l, (2.3) 36
Заметим, что νη не возрастает, a nIN строго возрастает по п% поэтому найдется d* = d* (N) такое, что неравенство nIN !> > Vn+i равносильно п^ d*. Таким образом, неравенство Qn >Vn+1 равносильно одновременному выполнению условий п > d* и Уп =? = 1. Это позволяет представить (2.2) в виде τ^ == min {n| n ^ à*, Yn = 1}, где мы полагаем min ф = N. По-другому этот результат можно сформулировать так: опти- мальный способ выбора заключается в том, чтобы пропустить первые d* — 1 вариантов и затем выбрать первый вариант, который окажется лучше всех своих предшественников. Число d* интер- претируется как порог, который разбивает процесс выбора на два этапа — этап создания эталона и этап сравнения с эталоном и остановки. Найдем теперь пороговое значение d* и вероятность удачного выбора vN=Vi, равную вероятности события {X^jv = 1}. Из (2.3) при N ^> 1 получаем vS-ifin =4" ("Ж ~v™) » n = d*' · · ·. # - 1, (2.4) v2 = O$» n = l,...,d*. (2.5) Решением (2.4) является последовательность N (2.6) /e=rt Вместе с (2.5) это дает fc=d* По определению, пороговое значение d* задается неравенствами !ï>cf+if д7 <yd*, ~/V~ ^ yd*+l , др которые в силу (2.5) и (2.6) эквивалентны двойному неравенству Σ тЬ-<κ Σ τω- <2·8) Численные значения vN и d*, полученные из (2.7) и (2.8), приведены в табл. 1. Обращает на себя внимание монотонность последовательности {vN}. Доказать этот факт можно с помощью следующего рассуждения. Рассмотрим модифицированную задачу выбора из N вариан- тов, в которой перед началом просмотра известен порядковый 37
номер наихудшего варианта μ. Пусть Yu . . ., Yn-i —относи- тельные ранги по порядку просмотра всех вариантов, за исклю- чением наихудшего. Случайные величины Y[, . . ., Υ'ν-ι не зави- сят от μ, а их совместное распределение совпадаете распределе- нием относительных рангов в немодифицированной задаче с N — 1 Таблица 1 IV <f* vN N d* vN N d* vN 1 1 1,000 9 4 0,406 60 23 0,373 2 1 0,500 10 4 0,399 70 27 0,372 3 2 0,500 15 6 0,389 80 30 0,372 4 2 0,458 20 8 0,384 90 34 0,371 5 3 0,433 25 10 0,381 100 38 0,371 6 3 0,428 30 12 0,379 1000 369 0,368 7 3 0,414 40 16 0,376 8 4 0,410 50 19 0,374 вариантами. Ясно, что выбирать наихудший вариант не имеет смысла, поэтому модифицированную задачу можно рассматривать как рандомизацию исходной задачи, а, следовательно, вероят- ность удачного выбора здесь равна v1*-1 (ср. с теоремой 1.11, где следует положить fn = 33 (Y[, . ♦ ., Fn), 2?n = 53 (μ, Yi . . ., К), η<Ν -i). G другой стороны, наличие дополнительной информации в за- даче с N вариантами может только увеличить вероятность удач- ного выбора, поэтому выигрыш в модифицированной задаче не меньше vN. Следовательно, vN~x !> vN. 2.1.3. Выведем формулы, дающие хорошее приближение для d* и vN при больших N. При любом к J> 2 имеем fc+l к \п(к+1)-Ык= Jii<_L< jj ^.=1ηΑ-1η(Α-1). к fr-l Суммирование этих неравенств от к = d до к = N дает 7V+1 In- ■<Στ<>>^γ. k=d Из этих оценок и (2.8) вытекает, что In -J5- < 1 < -р—ъ , откуда Nie < d* < Nie + 2 — 1/β. (2.9) В интервале длины 2 — 1/г может содержаться не более двух целых чисел, поэтому (2.9) определяет d* с точностью до 1. 38
Стоящая в правой части (2.8) сумма не более чем на l/(d* — 1) отличается от 1, а поскольку d* ->οο при N —>-οο, то в пределе она равна 1. Вместе с (2.7) и (2.9) это дает lim vN= lim Л. = е-г^0,368. /о i(\\ Таким образом, когда число вариантов велико, то доля про- пускаемых вариантов составляет приблизительно Nie, и вероят- ность удачного выбора монотонно убывает к е"1. Назовем правило остановки xd, равное первому п^ d такому, что Yn = 1, пороговым с порогом d. Как мы видели, оптимальное правило остановки τΝ является пороговым с порогом <2*. Выигрыш порогового правила задается уже известной формулой Пусть последовательность d (1), d (2), . . . такова что d (N)/N -> -^е"1 при iV->οο, тогда соответствующее пороговое правило остановки является асимптотически ортимальным в том смы- сле, что limP{X, =i} = e-K В частности, вычисление оптимального значения порога с по- мощью (2.9) дает асимптотически оптимальное правило остановки. 2.2. Задача наилучшего выбора при случайном числе вариантов 2.2.1. В качестве первого обобщения классической задачи мы изучим ситуацию, когда число вариантов, из которых требуется выбрать наилучший, не известно заранее, а является случайной величиной с заданным распределением. Мы найдем условия, ко- торым должно удовлетворять распределение числа вариантов, чтобы решение задачи можно было получить без использования предельного перехода, а также исследуем асимптотические свой- ства пороговых правил остановки. Пусть N —случайное число вариантов с известным распре- делением оо pk = P{/V = £}, S рк=1. Предположим, что если N = к, то к упорядоченных по качест- ву вариантов появляются в случайном порядке так, что все к\ перестановок равновероятны. Мы хотим, основываясь на попар- ном сравнении поступающих вариантов, с максимальной вероят- ностью остановиться на наилучшем варианте при условии, что возможность возврата к пропущенным вариантам исключена. 39
Рассмотрим в качестве пространства элементарных исходов Ω объединение всех Qk, к = 1,2,..., где Ω^ есть множество пере- становок ω = (ω1? . . ., сок) длины к, причем вероятность любой точки ω из Ω/f равна рк/к\. Положим по определению N (со) = /с, если со £Ξ Ω^. Определим абсолютный ранг n-ro по порядку про- смотра варианта как Хп (со) = соп, если n <^ N (ω), и Хп (ω) = = оо, если п^> N (со). Определим относительный ранг n-ro вари- анта Yn как число членов последовательности Хг, . . ., Хп, не превосходящих Хп, если Хпф оо; и Υη = оо, если ХЛ = оо. Полагая iïn = Sd(Yu...,Yn), Çn = P{A'n = i|^nb мы приходим к задаче оптимальной остановки стохастической по- следовательности {Qn, ^по- следующее утверждение доказывается аналогично лемме 2.1. Лемма 2.2. Относительные ранги Ух, . . ., Yn условно независимы при условии {N J> n}, п = 1, 2, . . ., и Р {Yn = к} = яп/п, к = 1,. . ., n, еде оо Jîn = P{iV>72}= S pt. Отсюда несложно получить, что последовательность относи- тельных рангов является марковской и оо Çn = P{Xn = l|Fn = l} = /tyn==1,V-f^ (2.12) fc=m (эта сумма содержит конечное число слагаемых, если все рк начиная с некоторого к = к0 равны нулю). Полагая gn (Yn) = Qn, мы получаем марковское представление для стохастической после- довательности {Qn, fn}T (см. п. 1.3.2). Пусть vn (y) есть наибольший средний выигрыш, который может быть получен после попадания марковской цепи Yly Y21... в состояние Υη = у. Поскольку νη (оо) = gn (оо) = 0, то оо принадлежит множеству] Гп = {У | vn (У) = gn (У)}- Случайная величина τ* = min {n\YnŒ Γη} не превосходит TV + 1, так как Υν+ι = ∞ е= Γ#+1. Следователь- но, τ*<^οο и согласно п. 1.3.2 является оптимальным правилом остановки. Рассмотрим подробнее структуру остановочных множеств Гпп Равенство νη (у) = 0 выполняется только в том случае, когда у — оо или πη+ι = 0,^ во всех остальных случаях vn (y) строго 40
больше нуля. С другой стороны, gn (у) в силу (2.12) отлично от нуля только если у = 1. Из сказанного следует, что Гп всегда содержит оо, при некоторых п содержит 1, и, наконец, если jtn+i = 0, то Гп = {1, . . ., дг, оо}. Впрочем, заменяя в последнем случае Гп на {1, оо}, мы не изменяем вероятности удачного вы- бора, поэтому можно считать, что Гп при любых п состоит не более чем из двух элементов, а именно: 1 и оо. Определим Г как множество тех n, для которых Гп содержит 1 (т. е. vn (1) = gn (l))f с присоединенной к нему (фиктивной) точкой д, смысл введения которой будет ясен из дальнейшего. Мы можем, таким образом, представить оптимальное правило остановки в виде f min{n|yn=l, пеГ}, τ* = ι ιιη j» (2.13) [ N + 1, если это множество пусто. Следовательно, нетривиальные решения могут приниматься только при появлении относительно, лучших вариантов, причем эти решения зависят исключительно от порядковых номеров от- носительно, лучших вариантов. Оказывается, что сама последо- вательность номеров относительно лучших вариантов образует однородную марковскую цепь, и Г является ее остановочным множеством. Пусть Zx = 1 и Zfc = min {п ^> Ζ^-γ \ Υη = 1}, а если это множество пусто, то Zk = <9. По определению, Zk — это номер к-то относительно лучшего варианта, а если их число меньше кщ то Ζκ = д. Из леммы 2.2 получаем . ; ,,—ιπ— » если Ζ<Α<οο; к (к — 1) Пг { О, если к <^ Ζ; L. Ï * Эти равенства означают, что Zx, Z2, ... образует марковскую цепь с переходной функцией Р (·, ·) и фазовым пространством È = {д} U {!> 2, . . . }. Состояние д является поглощающим — однажды попав в него, цепь навсегда в нем остается; число шагов до попадания в д не превосходит N + 1. Рассмотрим задачу оптимальной остановки цепи Z1? Z2, . . * с функцией выигрыша то g <*)=&(1) = 5£-Γ-5*-· ё(д) = 0. 1 = Ь Как мы знаем из п. 1.3.2, можно ограничиться правилами оста- новки, которые являются моментами первого попадания цепи в некоторое подмножество В d E. Каждому такому правилу остановки тв естественно соответствует правило остановки хв H
Последовательности относительных рангов Ух, Υ2, · · .* в опреде· лении (2.13) нужно заменить Г на B, при этом Mg(xB) = Mg-B(Y-B). (2.14) Равенство (2.14) означает, что средние выигрыши обоих правил остановки равны. Из оптимальности τ* = ïr теперь следует, что Mg (τΓ) > Mg (τΒ) для любого В CZ Е. Следовательно, Г является остановочным мно- жеством цепи Ζ1? Ζ2, . . ., а тг — оптимальным правилом останов- ки этой цепи. Пусть ν (п) = νη (1), ν (д) = 0, тогда функция ν (ζ) на Е удовлетворяет уравнению υ (ζ) = max (g (ζ), Τν (ζ)), (2.15) где оператор Τ действует по формуле Γ/(λ)=Σ f(l)P(n,l) Tf(d)=0 (мы считаем, что областью определения Т является множество функций / на Е таких, что 0 <^ / (ζ) <^ 1 для всех ΖΕΞ Е и / (д) = = 0). В этих терминах Г есть просто множество тех ζ ΕΞ Е, для которых g (ζ) = ν (ζ). Итак, мы свели задачу наилучшего выбора к задаче оптималь- ной остановки цепи Ζ1? Ζ2, . . . Такая редукция вносит существен- ное упрощение тем, что эта цепь является однородной и почти не содержит состояний, в которых выигрыш нулевой. 2.2.2. Перейдем к исследованию остановочного множества Г. Следующее утверждение доказывает, что Г однозначно опреде- ляется уравнением (2.15). Лемма 2.3. Уравнение (2.15) имеет единственное решение в рассматриваемом классе функций. Доказательство. Пусть v (k) и w (к) два решения (2Л5). Положим и (к) = [ ν (к) — w (к) |, применение оператора Т дает оо Tu (к) = Т | ν (к) — w (к) | = 2 Iv (k) — w Ψ) Ip (fc> 0 > >\Ъ (v(k) -w(k)) P (к, l)\ = \Tv(k) - Tu>(k)\> ^\v(k)—w{k)\ = u(k). Многократное применение Т к этому неравенству дает и (к) < Тпи(к) (2.16) для всех п — 1, 2, . . .. Введем в рассмотрение функцию с (к) = 1, если к = 1, 2, . . ., с (д) = 0. Прямое вычисление показывает, что 42
Тп с (к) равно вероятности того, что цепь из состояния к за п шагов не перейдет в состояние д. Эта вероятность не превосходит jtn, поэтому Тп с (к) ->■ 0 при п-+-оо. Остается заметить, что и (к) ^ с (к), Тпи (к) <; Тп с (к) и, переходя в правой части (2.16) к пределу по п, получить и (к) = 0. Лемма доказана. Решение уравнения (2.15), таким образом, эквивалентно на- хождению Г. Лемма 2.4. Множество Г бесконечно. Доказательство. Пусть Г состоит из конечного числа элементов, тогда найдется п такое, что g (k) <^ν (к) для всех к > п. Из (2.15) тогда следует, что v (к) = Tv(k), a применение Т к обеим частям этого равенства дает Tv {к) = S v (I) Р (к, l)=^Tv (I) Р (к, I) = Τ2ν {к). 1>к 1>к Совершенно аналогично, Tmv (к) = v (к) для всех к ^ п. Пере- ходя по m к пределу, мы видим, что v (к) = 0 при к ]> и, что противоречит строгому неравенству g (к) < v (к) и неотрицатель- ности g (&). Лемма доказана. Назовем целочисленный отрезок [m, n] островом, если [т, n] CZ Г, a /îi - 1 и л -f 1 не принадлежат Г. Если Г состоит из конечного числа островов, то по лемме 2.2 последний остров имеет вид [d*, oo]. Случай конечного числа островов особенно важен, так как в этом случае задача оптимальной остановки имеет кон- структивное решение: v (к) = g (к) при к ^ d*, и мы можем из (2.15) последовательно вычислить v (к) при к <^ d*, отправляясь от к = d*. Следующая теорема дает критерий конечности числа островов. Теорема 2.1. Множество Г состоит из конечного числа островов тогда и только тогда, когда последовательность а (к) == = g (к) — Tg (к) неотрицательна начиная с некоторого k = d*. Доказательство. Пусть а (к) > 0 при к ^ d*, тогда в задаче остановки цепи {Zn} с начальным состоянием Zx = d* имеет место монотонный случай (см. п. 1.3.2), так как цепь изме- няется в сторону больших значений к. Поэтому [d*r ool CZ Г, и число островов конечно. Обратно, пусть число островов конечно, и Id*, oo] — послед- ний остров. Тогда g (к) = v (к) ;> Tv (к) > Tg (к) при к^> d* и а (к) ^> 0. При этом a (d* — 1) < 0, так как d* — 1 не принад- лежит Г. Теорема доказана. Через исходное распределение числа вариантов величины а (к) выражаются в виде двойного ряда 00 ОО поэтому непосредственная проверка условий теоремы для кон- кретных распределений довольно сложна. Более простые доста- точные условия конечности числа островов основываются на тас- 48
ле перемен знака последовательности оо Ь(к) = рк- £ -^-, 0(0) 1. j= fr +1 Теорема 2.2. Число островов не превосходит числа пере- мен знака с минуса на плюс последовательности Ъ (0), Ъ (1), .... Доказательство. Следующие соотношения выво- дятся непосредственно из (2.15) и определения g (к): f(*-'>-(£V+î*<*>H^-. (2Л7) Τυ (А -1) = (ν (к) + (к - 1) Гу (А;» _*-. (2.18) 4-1 Докажем с их помощью импликацию (&ег и &(& —1)>0)-»·(Λ —1)ег. (2.19) Действительно, откуда с учетом ν (к) = g (к) ;> TV (к) получаем Подставляя (2.17) и (2.18), мы видим, что g (к — 1) > Γι; (/с — 1), т. е. (к — 1) s Г. Аналогично доказывается импликация ((А — 1)ЕГ и й(Л — 1)<0)=4>АеГ. (2.20) Мы хотим показать, что на каждом острове есть хотя бы одна перемена знака с минуса на плюс. Пусть [т, п] — некоторый остров. Из (2.20) вытекает, что b (п) ]> 0, а из (2.19) вытекает, что b (m — 1) <[ 0, поэтому на таком острове есть перемена Знака. Покажем теперь, что и на бесконечном острове [d*, со] имеется йо крайней мере одна перемена знака с минуса на плюс. В силу (2.19) b (d* — 1) < 0. По теореме 2.1 a (d* — 1)< 0, поэтому nd* ]> 0. Возможны два случая. а) При некотором к ^> d*, щ = 0. В этом случае все рп равны нулю при п^к. Взяв наименьшее такое к, мы получаем b (к — - 1) = рк-г > 0. б) Все Яд. ненулевые. В этом случае β(*>—ε-Σ-^τ-· (2·21) Если все а (к) = 0 при к ^ d*y то и все b (к) равны нулю. По- 44
следнее противоречит равенству b(k + i)-b(k)= -Ц^-р* -ρ*-ι, так как существует сколь угодно большое к такое, что рк ^> р^-х* Следовательно, найдется а (к) ]> 0 и в силу (2.21) найдется по- ложительное b (m) при некотором т^> к !> d*. Таким образом и на бесконечном острове всегда имеется пере- мена знака. Теорема доказана. 2.2.3. Классическую задачу наилучшего выбора мы можем рассматривать как частный случай задачи при случайном числе вариантов, если считать распределение N сосредоточенным на одном-единственном значении. Предельные соотношения (2.10) трактуются тогда как частный случай следующей общей схемы: имеется однопараметрическое семейство одноостровных распре- делений {р£, λ ^> 0} (т. е. распределений, для которых остановоч- ное множество состоит из единственного острова) и изучается предельное поведение начала острова и вероятности удачного выбора. Если Г = [d*, со], то оптимальное правило выбора пред- писывает пропустить первые d* — 1 вариантов, а затем остано- виться на первом же относительно лучшем варианте. Как и в клас- сической задаче, будем называть такие правила пороговыми. Поскольку для одноостровных распределений оптимальное зна- чение порога совпадает с началом острова, постольку вопрос о предельных соотношениях естественно связывается с исследо- ванием асимптотической оптимальности в классе пороговых пра- вил остановки. Пусть Νλ — случайное число вариантов с распределением {Pfcb зависящим от параметра λ ^> 0, и tâ = min({n|rn=l, n><Z}, N + i) пороговое правило остановки. Если п ^ d, то по аналогии с (2.11) условная вероятность удачного выбора правила х\ при условии {Νλ = η) составляет п d-1 \~1 1 η 2-1 к— 1 * Следовательно, общий выигрыш этого правила составляет n=d fc=d Положим ^λ(ζ)==Ρ{Λ7λΑ<ζ}. Теорема 2.3. Пусть семейство распределений Fk (ζ) слабо сходится к распределению F (ζ) при λ->- оо, и d (λ) — функция 45
Π 7 /Л \ со значениями 1, 2, ... такая, что lim—\-1- = а. Если О <^ α <* <^ оо, то ОО lim φ* (d (λ)) = α[ 1η(^/α) dF (ζ). (2.23) λ-*οο t) ζ а Если к тому же F (ζ) непрерывно в О и оо, то правую часть (2.23) следует доопределить нулем в точках а = О и а = оо. Доказательство. При 0 <^ α <^ оо получаем из формулы (2.22) η=<*(λ) = S -f-ln(^)^)+0(ri)· ο(λ)/λ При d (λ)/λ ;> α/2 подынтегральное выражение в этой формуле с точностью до величины порядка О (λ"1) равномерно по ζ ^ α/2 приближается выражением (α/ζ)1η (ζ/α). Кроме того, это выражение непрерывно как функция двух переменных при положительных α и ζ, и равно нулю при α = ζ. Поэтому для любого ε ^> О λζ 1η^(λ)<ε при всех достаточно больших λ, и ζ1 достаточно близких к а. Следовательно, ос φ* (d (λ)) = α J ≥ψι dfb (ζ) + О (λ"*). Воспользовавшись слабой сходимостью, мы можем теперь заме- нить Ρλ на F и, переходя к пределу при λ->- оо, получить (2.23). Пусть <2(λ)/λ->οο, тогда вероятность события {№ <^ d (λ)} стремится к 1, если только (1 — F(Ç))-+0 при ζ->οο. Следо- вательно, φλ (d (λ)) ->· 0. Пусть d (λ)/λ -> 0, тогда для любого ε ^> 0 найдется δ = = δ (ε) такое, что вероятность события {Νλ <[ λδ} меньше ε при всех достаточно больших λ. Вклад в (2.22) слагаемых, соот- ветствующих п <^ Хбг оценивается сверху числом ε. Вклад всех остальных слагаемых асимптотически равен нулю, что следует из соотношений Теорема доказана.
Обозначим определенную теоремой предельную функцию через φ (а). Если d (λ) определяет асимптотически оптимальное значение порога, то отношение d (λ)/λ должно стремиться к точке максимума φ (α), a вероятность удачного выбора стремиться к максимальному значению φ (α). Для одноостровных распреде- лений это значение дает предел Vх (1) при λ->- οο. 2.2.4. Рассмотрим несколько конкретных распределений. Пример 1. Этот пример показывает, что не все распреде- ления являются одноостровными. Пусть N <; 8, Ρι — 0,1; р2 = 0,895; р3 = /?4 = Рь = Ре = Pi = 0,001; р6 = 0,1. Остано- вочным множеством здесь является Г = {2, 4, 5, . . .} = [2, 2] (J (J [4, оо], т. е. Г состоит из двух островов. Оптимальное значение порога равно 2, причем Р {ХТ2 = 1} = 0,48202 < 0,48228 = Ρ{Χτ* = 1}. Пример 2. Равномерное распределение: рк = 1/n, к = 1, . . . . . ., п. Последовательность »«-Ηι-Σ4·) i=fc+l монотонно возрастает при к = 1, . . ., n, Ь (n) = 1/n и 6 (ft) = 0 при к^> п. Поэтому имеется единственная перемена знака с ми- нуса на плюс, и по теореме 1.2 Г состоит из единственного острова. Положим λ = n, тогда при λ -> оо предельное распределение случайной величины Νλ/λ будет равномерным на [0, 1] и 1 ç(a)==aji2^'^ = yln%6f Ο<α<Ι. α Единственной точкой максимума φ (α) является α* = е~2, по- этому оптимальная вероятность выбора наилучшего варианта стремится к 2е~2. Пример 3. Геометрическое распределение: рк = р (1 — — p)fc-1, к = 1, 2, . . .; 0 < р < 1. В этом случае b(k)=p(l-p)k- jp ±p(l-p)i-i = i=*+l =^-Η'-Σ^)· fc=û Выражение в скобках монотонно возрастает к 1 с ростом к, по- этому имеется всего одна перемена знака с минуса на плюс, и Г состоит из единственного острова. Положим λ = ρ"1, тогда при λ -> оо предельное распределение отношения N (λ)/λ будет пока- 47
зательным с плотностью F' (ζ) = e~t, откуда оо 1 а* ^ 0,174 — единственная точка максимума, φ (α*) ^ 0,27. Пример 4. Пуассоновское распределение: рк = V:"le"4 /(к — 1)!, к = 1, 2, . . .; λ > 0. В этом случае fr/frx*^*-1 V? *~λλ* — '^^ IA V^ λ* (fe — 1)1 \ ll" (*-l)l Zai!(i + 1)— (*-1)Ι V L· (k + i)\ !' Выражение в скобках монотонно возрастает к 1 при к ->■ оо, по- этому имеется всего одна перемена знака. Из неравенства Чебы- шева Ρ{|Χ_ΜΧ|>ε><-^4 римененного к случайной величине X — Νλ/λ, и того, что М7\а = £>τνλ = λ, следует, что предельное распределение F (ζ) сосредоточено в точке ζ = 1. Следовательно, {α1η(1/α), если Ο^α^Ι; 0, еслиа>1. Единственной точкой максимума является а* = е~х и φ (а*) = е"1. Замечание 1. Предположим, что при каждом испыта- нии значение Νλ известно до начала просмотра вариантов. При каждом фиксированном значении № = п мы находимся тогда в условиях классической задачи, и оптимальная вероятность выбора наилучшего варианта при условии {Νλ = ri) равна νη из классической задачи. Полная вероятность удачного выбора составляет Ъ%= S pïvn π=ι независимо от того, знаем мы распределение Νλ или нет. Если для каждого п = 1, 2, ... вероятность события {Ν* <^ ri) стре- мится к нулю при λ -> оо (или, что эквивалентно, рп ->■ 0), то νλ ->■ е""1, поскольку νη-+е~г при n->οο. Что касается задачи с известным распределением, но априори не известными значениями Ν9 то здесь νλ является верхней оцен- кой ιΑ (1). Если /?п->0, га = 1, 2, . . ., то предельное значение νλ (1) не превосходит е"1. Вообще, это значение в определенном смысле характеризует информативность распределения. Наиболее информативные семейства распределений (удовлетворяющие усло- виям р\ -> 0, λ ->- оо) это те, для которых νλ (1) ->■ е~г. Достаточ- ным для выполнения соотношения ιΑ (1) ->■ е"1 является условие 48
DiWiMiV*)2 -»- 0, доказательство этого факта такое же, как в случае семейства пуассоновских распределений в примере 4. Замечание 2. Как мы видели в п. 2.1 в задаче с фиксиро- ванным N, т. е. неслучайным числом вариантов, вероятность удачного выбора уменьшается с ростом N. Этот факт не обоб- щается для случайного числа вариантов — если случайные ве- личины Л\ и N2 таковы, что ΜΝ± > МЛГ2, то в соответствующих задачах для оптимальных вероятностей удачного выбора могут выполняться любые неравенства или равенство. 2.3. Задача наилучшего выбора, связанная с пуассоновским процессом. Случай ранговой информации 2.3.1. В задаче, которую мы рассматривали в п. 2.2, опти- мальное решение на каждом шаге определялось сравнением ве- роятности того, что наблюдаемый вариант окажется наилучшим, с максимальной вероятностью удачного выбора, соответствующей пропуску наблюдаемого варианта, причем обе вероятности од- нозначно восстанавливались по апостериорным распределениям числа оставшихся вариантов. Вид оптимального правила не зави- сит от того, являются моменты появления вариантов фиксирован- ными или случайными, поскольку в момент очередного решения апостериорное распределения числа оставшихся вариантов зави- сит только от номера наблюдаемого варианта. Введение случай- ных моментов приводит лишь к дополнительной рандомизации задачи, не изменяя вероятности удачного выбора. Применительно к нашей интерпретации, связанной с разбор- чивой невестой, независимость апостериорного распределения от момента последнего наблюдения означает, что представления невесты о числе будущих предложений остаются неизменными, даже если она уже провела свои лучшие годы в ожидании. На- против, как показывает практика, начиная с некоторого возраста, интенсивность предложений обычно идет на убыль независимо от числа прошлых предложений. Поэтому, если невеста не только разборчива, но и достаточно разумна, то она не станет затягивать выбор, даже если число уже полученных предложений невелико. Чтобы учесть временной фактор, мы рассмотрим постановку вадачи наилучшего выбора, в которой варианты появляются с переменной интенсивностью. Общее число вариантов здесь опять-таки оказывается случайным, но апостериорное распреде- ление этого числа существенно зависит от момента наблюдения. Пусть {Ν (*), t р> 0} — неоднородный пуассоновский процесс с функцией интенсивности λ (t) > 0. Этот процесс имеет незави- симые приращения, и вероятность того, что N (t + δ) — N (t) = = 1, равна δλ (t) + о (δ). Моменты последовательных скачков процесса tlt t2, ... мы будем интерпретировать как моменты появления сравниваемых между собой вариантов. Наложим дополнительное условие конечности интеграла от λ (t) в пределах 49
от t — О до t — оо, тогда N (оо) конечно с вероятностью 1. Пред- положим, что если N (оо) = п, то п вариантов появляются в мо- менты tu . . ., tn в случайном порядке так, что все п\ перестано- вок равновероятны. Наша задача заключается в том, чтобы, ос- новываясь на наблюдении последовательности (Уь ^), (У2, £2), . . . относительных рангов и моментов появления вариантов, с мак- симальной вероятностью остановиться на наилучшем варианте. 2.3.2. Простая замена времени по формуле t оо φ (t) = \ λ (s) ds I \ λ (s) ds о о преобразует исходный процесс в однородный пуассоновский процесс N (φ (t)) на единичном интервале. Это позволяет без потери общности считать процесс N (t) однородным интенсивности λ при 0 <; t <; 1. При этом распределение числа скачков на вре- менном промежутке s <^ t ^ s + δ является пуассоновским с параметром λδ. Рассуждая точно так же, как в предыдущем параграфе, мы сводим нашу задачу к задаче оптимальной остановки марков- ской цепи, связанной с относительно лучшими вариантами. Положим Ζη = (m, tm), если n-й относительно лучший ва- риант является т-м по порядку просмотра; и Ζη = д, если число относительно лучших вариантов меньше п. Обозначим Ζ0 = α начальное состояние и заметим, что из свойств совместного рас- пределения относительных рангов и моментов скачков вытекает марковское свойство последовательности Ζ0, ΖΧ, .... Эта цепь является однородной, а ее фазовым пространством Е является множество пар (m, t) таких, что лг = 1, 2, . . . и 0 ^ Ц 1,- с присоединенными к нему начальной точкой а и конечной точ- кой д. Явные выражения для переходных вероятностей нам не потребуются, за исключением вероятности перехода в конечное состояние. Переход цепи из состояния а в состояние д означает, что за все время вообще не появился ни один вариант, поэтому Р (а, д) = £~λ. Переход из состояния (m, t) в д означает, что т-ж ва- риант оказывается последним относительно лучшим вариантом, поэтому Р((т, t), Ô) = P{yfB+1>l,...,yffa)>l|^(i) = m} = оо оо = £р^(1)-ЛГ(<) = Л}1^ = те-М1-о£^-^> fc=0 fc=0 (2.24) Наконец, очевидно, что Р (д, д) = 1. Выигрыш g (m, t), получаемый при остановке в состоянии (m, t), равен вероятности того, что т-й вариант является наилуч- шим среди всех поступивших к моменту t = 1 вариантов, т. е. вероятности Р ((m, t)y д) того, что т-и. вариант последний отно- 50
сительно лучший. Кроме того, g (д) = g (а) = 0, так как оста- новка в этих состояниях вообще не отвечает выбору какого-либо варианта. Мы хотим показать, что в задаче остановки цепи Z0, Zx, . . . с функцией выигрыша g имеет место монотонный случай. Для этого нужно сначала найти множество G таких состояний z из Е, что g (z) > Tg (z), (2.25) где T есть оператор усреднения за один шаг. Поскольку Р (<9, д) = 1 и g (д) = 0, то д принадлежит G. Кроме того, g (α) = О и Tg (а) ^> 0, поэтому а не принадлежит G. Для остальных со- стояний z = (m, t) Tg (z) = J g (z') P (z, cfc') = J P (z\ 5) i> (z, rfz') (2.26) E E\{d) так как g (5) = 0, поэтому Tg (m, £) равно вероятности перехода цепи из состояния (m, t) в состояние д ровно за два шага. Такой переход в точности означает, что за оставшийся временной про- межуток (t, 1] появляется единственный относительно лучший вариант. Следовательно, Tg (m, t) = Ρ {среди Ym+1, . . ., Υν(ι) ровно одна единица | N (t) = оо к = m) =J? Р{W (1) -IV (t) = А} ^Р{Уто+1> 1, ... ...,Ym+i-i>i, (2.27) *m+i — a , Y m+i+1 ^> * » · · · > ^m+fr ^> *} — Формулы (2.24) и (2.27) позволяют неравенство (2.25) записать в виде оо оо Σ (knfibJ < Σ ««m*', (2-28) i=i i=o где полагается i « = λ(1 — *), aim = il(m + i) , bim=2^ m + ^_i · fr=l Из соображений непрерывности следует, что для нахождения всех пар (m, £), удовлетворяющих (2.28), достаточно найти корни урав- 51
нения ex К (х) = а0т + S (1 - bnm) аптз» = 0. (2.29) Лемма 2.5. При каждом m = 1, 2, . . . существует единст- венный положительный корень хт уравнения (2.29). Кроме того, hm (x) ]> 0 n/w 0 < я <^ xm, w ftm (х) < 0 при х ;> хт. Доказательство. Пусть m фиксировано. Найдется такое г, что Ьпт ^> 1 при п > г, и bnm <^ 1 при n ^ г. В выраже- нии Г оо кт{х) = а0т + ^(1 — Ьпт)аптхп— ^ (bnm — l)anmxn п=1 п=г+1 все коэффициенты положительны, кроме, быть может, r-го, равно- го нулю. Для &-й производной имеем выражение сю hW (x) = — ^ (bnm — 1) an-fc, Tn+fcx71"^ если /с > г; Am И = Σ (1 — Km) ûn-fc, m+/cxn"* — Σ (bnm — 1) ^n-fr, m^x""*, n=fr n=r+l если 0 ^ k ^ r. Для всякого k ^ 0 производная ft Jî? (х) отрицательна при доста- точно больших х, т. е. существует последовательность неотрица- тельных чисел г/0, уи . . . такая, что йУ (х) < 0 при х ;> ук. При Λ: ^> г можно положить ук = 0. При 0 <; к <; г имеем ^т} (0) > 0 и h(m (ук) < 0» отсюда по непрерывности следует, что функция hm (x) имеет неотрицательный нуль. Мы покажем, что этот нуль единственный. Прежде всего, /4£41) (x) < 0 при х > 0, поэтому /4? строго убывает, и имеется единственный нуль, скажем zr, функции h^ (х). Кроме того, йт(*)>0 при *]<zr и й^(х)<[0 прих>2г. (2.30) Теперь из й(т} (zr) = 0 и 7^+1) (zr) < 0 следует, что ftm"1} дости- гает максимума на отрезке [0, yr-i\ в точке zr. Поскольку hm~X) (0) > 0, то и hfcV (zr) > 0, поэтому из (2.30) вытекает на- личие единственного нуля zr-x ΕΞ Ur» i/r-il функции ftm""X) (х). Из единственности zr и определения уг-г вытекает отсутствие нулей вне [zr, i/r-il. Аналогично, отрицательность h$ (zr-i) и единствен- ность ζΓ_! позволяют установить, что hm~2) (х) имеет единственный положительный максимум в точке z^. Коль скоро few""1) (х) < 0 при х ^> Zr-i, то уравнение ftm"2) (х) = 0 имеет единственный по- ложительный корень zr-2, который лежит на отрезке [ζΓ_ι, г/г-гЬ 52
Индуктивно продолжая это рассуждение, получаем, что урав нение hm (х) = О имеет единственный корень z0 и hm (x) < 0 при х < z0, hm (x) > 0 при х > ζ0. Остается положить xw = ζ0. Лем- ма доказана. Как следствие получаем, что (яг, t) принадлежит G в том и только в том случае, если λ (1 — t) <ζ xm. Последовательность Таблица 2 m Ящ m xm 1 2,120 9 15,587 2 3,692 10 17,301 3 5,352 16 27,600 4 7,041 20 34,470 5 8,742 25 43,058 6 10,450 30 51,647 7 12,601 35 60,237 8 13,872 40 68,827 корней xx, х2, . . . частично представлена в табл. 2. Довольно громоздкие аналитические выкладки, которые здесь приведены не будут, позволяют установить, что хт/т -> е — 1 при m —■> оо. Следующая лемма понадобится для доказательства того, что множество G является поглощающим. Лемма 2.6. Последовательность хи х2, . . . положитель- ных корней (2.29) монотонно возрастает* Доказательство. Положим /в(я, m) = S manmx", /^x, то) = S manmbnmxn, 71=0 71=1 тогда (2.29) записывается как f0 (x, m) — Д (x, m) = 0. Нам по- требуется формула ± ((m + 1) x^i (/i (x, m) - /x (x, m + 1))) = *"»ι (/0 (x, m + 1) - -/i(x,m + l)). (2.31) Непосредственно проверяется, что mb (,я + 1)Ьп,т+1 m-j-n m + л + 1 (т + 1)(т + 2)» η(1· "n-li m+i [ (m -|- л) (m -|- л + 1) если n = l, если n>2. Отсюда получаем xm+l {m + 1} (Д (a7} m) _ h {Xi m+i)) = =x-i(^+d|;^(. =xm+4™ + i)(X(- mb„ (m + 1) 6n m -\- n m + n + i ) n\ (m J- л) (m+rc+l) 53
nxnbn,m+i ) = У (m + i)xm+™ _ n\ (m + n) (m + n + 1) / ^J n\ (m + n + i) (m + n + 2) S(m + i)xm+n+2bn,m+1 й!(т + л + 1)(т + И n=l (m + w + l)(m + Λ + 2) Следовательно, A ((m + 1) xm+l (Д (*, m) _ Д (*, TO + 1))) = V^j w!(m+n + l) Z-J /г!(т + /г+1) ' η=Ο η=Ι ν ' ' ' = z™ (/о (x, m + 1) - h (x, m + 1)), и формула (2.31) доказана. Правая часть (2.31) положительна на интервале (0, xm+i)> поэтому на нем функция (т + 1) xm+1 (/x (x, m) — fx (х, /гг + 1)) возрастает и, следовательно, положительна. Отсюда вытекает, что и функция fx (x, т) — Д (x, m + 1) положительна на этом интер- вале. Из неравенства f0 (x, т) < /0 (х, /тг + 1), справедливого при всех положительных х, теперь вытекает, что /о (Zm+l>m) < /0 («то+1» m + 1) = fx (Хт+ъ т + 1)< fl (*m+it ™). Вместе с тем f0 (0, m) ^> fi(0, /тг), что вследствие непрерывности дает xm < xm+i· Лемма доказана. Наша цепь изменяется от меньших значений m и t к большим, вплоть до попадания в конечное состояние д. Если λ (1 — t) <J <Г. xm для какого-нибудь состояния (m, t), то по лемме 2.6 в любом последующем состоянии (m', t') λ (1 — £') < λ (1 — t) < < xm < #m'» так как t' ^> t и m' j> 77г. Следовательно, P (z, G) = = 1 для любого z ΕΞ G, и имеет место монотонный случай. Число шагов, за которое цепь из произвольного состояния z попадает в д, не превосходит числа вариантов N (1). Следовательно, цепь из любого состояния обязательно попадет в G, так как д принадле- жит G. Как мы знаем, в этом случае момент первого попадания цепи в множество G является оптимальным правилом остановки. Применительно к последовательности наблюдений (Yu ^), (У t2), · · · наш результат звучит так: оптимальное правило ос- тановки предписывает остановку на первом относительно лучшем варианте, момент появления tm которого удовлетворяет неравен- ству λ (1 — tm) <; хт, где xm есть положительный корень (2.29), Возвращаясь к переменной интенсивности λ (£), неравенство λ (1 — tm) <Ξ xm нужно заменить на с» \ λ (s) ds ^ хт. 54
Поразительной особенностью этого результата является зависи- мость оптимального решения, помимо очевидного условия Ym = = 1, только от среднего числа оставшихся до конца просмотра вариантов. По-видимому, это особое свойство пуассоновского процесса. 2.3.3. Итак, мы показали, что для нахождения оптимальных способов выбора при всевозможных значениях λ требуется вычис- ление бесконечного числа корней хт, хотя при каждом фиксиро- ванном λ нужно знать лишь конечное число хт <^ λ. Во всяком случае, оптимальное правило сложнее, чем в классической задаче или в задаче со случайным числом вариантов, распределенным по пуассоновскому закону. Оказывается, однако, что учет времен- ного фактора дает бесконечно малый выигрыш по сравнению с классом правил, основанных лишь на относительных рангах — оптимальная вероятность удачного выбора, обозначим ее у\ в пределе равна е"1 при λ —> оо. Действительно, если значение N (1) всякий раз известно до начала просмотра вариантов, то мы находимся в условиях класси- ческой задачи, независимо от значений £х, . . ., ε#(ι>· Поэтому рассуждение, которое использовалось в замечании 1 п. 2.2.4, доказывает, что предельное значение ιλне превосходит в"1. С дру- гой стороны, если учитывать только относительные ранги, то мы оказываемся в условиях примера 4 из п. 2.2.4, так как распреде- ление N (1) пуассоновское с параметром λ. Следовательно, порого- вое правило, предписывающее остановку на первом же относи- тельно лучшем варианте после того, как пропущено d (λ) вариан- тов, где d (λ)/λ -» е"1, асимптотически оптимально и его выигрыш стремится к е"1. Существует еще более простое асимптотически оптимальное правило, которое даже не требует подсчета числа пропущенных вариантов. Если пропускать все варианты, которые появляются до момента t = е"1, а затем останавливаться на первом относитель- но лучшем, то вероятность удачного выбора при этом стремится к е'1. Этот факт следует из того, что доля пропускаемых таким об- разом вариантов сходится по вероятности к е"1. 2.4. Задача с полной информацией 2.4.1. До сих пор мы считали, что вся информация, которой мы располагаем при ознакомлении с очередным вариантом, исчерпы- вается его относительным рангом. Таким образом, предполагает- ся, что об общем уровне качества обследуемых вариантов ничего не известно, и даже если качество первого варианта кажется до- вольно высоким, то все равно этот вариант следует с равной ве- роятностью считать наилучшим или наихудшим среди остальных. Такое предположение, по-существу, равносильно отождествлению варианта с его абсолютным рангом. Теперь мы перейдем к задаче, в которой имеется значительно более обширная информация. Предположим, что имеется некото- 65
рая числовая шкала, по которой мы можем оценить качество каж- дого варианта в момент его появления. Оценки различных вариан- тов являются независимыми случайными величинами, имеющими одну и ту же функцию распределения. Эта функция распределе- ния предполагается известной — именно в этом смысле мы гово- рим о задаче с полной информацией, в противоположность ранго- вой задаче, в которой «совершенно ничего не известно» о функции распределения. Будем, кроме того, считать заданным общее число вариантов, из которых предстоит сделать выбор. Требуется найти правило, максимизирующее вероятность остановки на наилучшем, т. е. имеющем наибольшую оценку, варианте. Важная особенность этой задачи состоит в том, что оценки существенны лишь постольку, поскольку они дают возможность сравнивать варианты между собой: численное значение оценки отдельно взятого варианта безотносительно к оценкам других ва- риантов никакой роли не играет. Вышесказанная особенность позволяет изменять масштаб на шкале оценок, не изменяя при этом существа задачи и, в частности, вероятности удачного выбо- ра. С точки зрения разборчивой невесты это означает, что оценки есть всего лишь способ описания ее предпочтений и не имеют смыс- ла дохода, так как в противном случае скорее следует руководст- воваться средним значением оценки, а не вероятностью выбора наилучшего варианта. Пусть иъ . . ., UN — независимые, одинаково распределенные случайные величины, имеющие непрерывную функцию распреде- ления F (и). Мы интерпретируем значение Un как оценку п-то варианта и хотим, основываясь на наблюдениях Г/ь £/2> · · ·» с максимальной вероятностью остановиться на варианте с наиболь- шей оценкой. Из непрерывности F (и) следует, что вероятность совпадения оценок различных вариантов равна нулю, поэтому мы всегда можем считать, что варианты однозначно ранжируются по порядку их оценок, и, в частности, наилучший вариант всегда единственный. Монотонные преобразования не изменяют упорядо- чение оценок, поэтому заменяя £/ь . . ., Unh8l F (#ι),. . ., F (U^)r мы сводим задачу к случаю равномерного распределения оценок на единичном интервале. Такая редукция возможна именно в си- лу того, что распределение предполагается известным. Будет показано, что в задаче остановки марковской цепи, свя- занной с относительно лучшими вариантами, имеет место моно- тонный случай, и найдено предельное выражение для вероятно- сти удачного выбора, которое оказывается приблизительно равным 0,58, т. е. шансы на удачный выбор по сравнению с классической задачей существенно увеличиваются. 2.4.2. С относительно лучшими вариантами, т. е. с относитель- ными максимумами Un = max (£/1? . . ., Un), свяжем следующую марковскую цепь. Положим Zn = (m, Um), если n-й относительно лучший ва- риант является т-м по порядку просмотра; Zn — д, если число относительно лучших вариантов меньше n. Последовательность 56
Zl4 Z2, . . . образует однородную марковскую цепь, фазовым пространством Е которой является объединение N экземпляров интервала (0, 1) и поглощающего состояния д. При фиксирован- ных та, уж п переходная функция Р {{m, y), (n, ·)) является мерой яа (0, 1), плотность которой задается выражением [ У71'™'1, если п^> m и z > у\ р ((m, у), (п, z)) = п г чч х 10, в остальных случаях. Выигрыш при остановке в состоянии (m, y) равен вероятности то- го, что тп-и вариант является последним относительно лучшим, т. е. оставшиеся варианты имеют оценки меньше у. Следователь- но, g (m, y) = Р ((m, у), д) = у**-™. Кроме того, g (д) = 0. Покажем, что в задаче оптимальной остановки цепи Zb Z2, . . . с функцией выигрыша g имеет место монотонный случай. Усредне- ние выигрыша за один шаг задается формулой N 1 Tg (m, y) = S $£ (*, z) p ((m, y), (n, z)) dz = n=m+l 0 * 1 N n=*m+l y n=m+i Рассмотрим множество G состояний, в которых выигрыш от оста- новки не меньше усреднения выигрыша за один шаг. Ясно, что д принадлежит G. Чтобы найти остальные точки G, нужно решить неравенство N Ση-m-l __ „N-m N — n+1 n=m+i которое равносильно «-1 — 4 ?/-2 — \ v-(N-m) __ j Правая часть здесь строго убывает по у и равна нулю при у = 1, поэтому при фиксированном m неравенство (2.32) выполняется при 1 }> у > у n-m, где i/n, n = 1, 2, . . . является единственным положительным корнем уравнения 4-Σ ÎT*- 1 (2.33) fr=l Когда п растет, то к правой части (2.33) добавляются новые сла- гаемые, и она тоже возрастает. Следовательно, последователь- ность уи г/2»··· строго возрастает. Наша цепь изменяется в сто- рону увеличения обоих параметров m ж у, пока не попадет в со- стояние ду поэтому если (m, у) £Ξ G, что равносильно у > Уи-т, то для всех последующих состояний (n, z) выполняется неравенст- во z > у ^уя-т > Уя-п* и (η, ζ) ΕΞ G. Отсюда вытекает, что име. 57
ет место монотонный случай, и, следовательно, оптимальным пра- вилом остановки является момент первого попадания цепи в G. Таким образом, оптимальный способ выбора заключается в том, чтобы остановиться на первом же относительно лучшем ва- рианте, оценка которого не меньше i/jv-m, где m есть номер этого варианта по порядку просмотра. В отличие от классической зада- чи в задаче с полной информацией не требуется создания эталона, и выбор может быть сделан сразу же, если только Ux > i/jv-i· Выясним, чему равны приближенные значения уп при больших n. Для этого удобнее вместо (2.33) рассматривать уравнение п î/n=s(i)i/n-A'(i-i/)4· <2·34) Правая часть (2.34) есть не что иное как Tg (/тг, у) при N — m = = п. Действительно, аналогично (2.26), Tg (/тг, у) равно вероят- ности перехода цепи в состояние д за два шага, а такой переход происходит, если первый после т-то вариант с оценкой выше у оказывается наилучшим. Распределение числа оставшихся ва- риантов с оценкой выше у является биноминальным, причем если это число равно к, то каждый из таких вариантов с вероятностью ilk оказывается наилучшим, что и дает (2.34). Замена переменной у на х = (1 — у)1у приводит (2.34) к уравнению решение которого представим в виде хп = с (п)/п. Замечая, что с (п) < 1 и оценивая хвост остатком сходящегося ряда fc=m It—m мы видим, что с (п) —> с, где с корень уравнения оо Отсюда следует, что Уп = 1 — с/п + о (1/τι). (2.36) Численные значения уп и их приближения по формуле (2.36) при- ведены в табл. 3. 2.4.3. Опуская некоторые детали, мы наметим теперь вывод асимптотической формулы вероятности удачного выбора в задаче с полной информацией. Пусть oN — момент появления наилучшего варианта, и δ^ — момент появления лучшего к моменту σ^ варианта. Таким обра- зом, UoN = max (Uu . . ., UN), UàN = max (Ulr . . ., UaN_J. On- — единственный положительный (2.35) 58
Таблица 3 п Уп \—с/п п Уп 1—с/п 1 0,500 0,196 9 0,916 0,911 2 0,690 0,598 10 0,924 0,920 3 0,776 0,732 20 0,961 0,960 4 0,825 0,799 30 0,974 0,973 5 0,856 0,839 40 0,980 0,980 6 0,878 0,866 50 0,984 0,984 7 0,894 0,885 8 0,906 0,899 тимальное правило τ^ выбирает наилучший вариант в том и толь- ко в том случае, когда UcN > yN_cN и UàN < yN_6N· Действитель- но, до момента δΝ все оценки не превосходят своих критических значений, так как Un < UàN и yN^N < Уъ-п при п = 1, . . ., δ^, и вдобавок ни} одна из оценок UôN, . . ., Ugn_x не является отно- сительным максимумом. Следовательно, оптимальная вероят- ность удачного выбора равна v* = Р {UxN = max (Ul9 . ., UN)} = -P{UaN>yN^N9 (2.37) Введем новые переменные SN = N (1 - UaN), ΤΝ = (σ*_1) (1 - UfN/UaN), ,w тогда (3.37) переписывается в виде ^-ρ{(4-^ sN -j ι) ν1 W") < yN-wN(NVN-i), (2.38) При iV —> oo четверка (Sjv, ЗГ#, Vjv, H^jv) сходится по распределе- нию к (£, Г, У, W0, где 5 и Т имеют экспоненциальное распреде- ление с плотностью / (х) = е~х, х > 0; 7 и РГ распределены рав- номерно на (0, 1), причем S, Т, V и W независимы. Из (2.36) и (2.38) получаем ;г"=р(т+5>т^х<^-) Вычисление этой вероятности как интеграла от плотности / (s, t, y, w) = β"*"* по четырехмерной области, заданной неравенствами s>0, *>0, 0<ι;<1, 0<м><1, L + s>-J—^ 59
приводит к выражению оо StTcx -—dx. (2.39) х 1 Численное значение этого предела находится с помощью формулы ^^Ldx^-lnX-y-^S^L, λ>Ο (2.40) 1 fr=l (см., например, [31] на стр. 57, формулы 5.1.11 и 5.1.28), где yzzz ж 0,577 постоянная Эйлера. Это значение составляет приблизи- тельно 0,580. Таблица 4 7V υΝ N νΝ~ 1 1,000 30 0,590 2 0,750 40 0,587 3 0,624 50 0,586 4 0,655 5 0,634 10 0,609 15 0,599 20 0,594 Заодно мы доказали асимптотическую оптимальность правила остановки т* = min [п | Un = msx):(Dlt . . ., Un), Un > 1 - -j^-^, (2.41) в котором в качестве критических значений оценок берутся при· ближения уп по формуле (2.36). Последовательность {νΝ} монотонно убывает с ростом числа ва- риантов. Действительно, пусть в задаче с N вариантами мы перед каждым просмотром знаем значение оценки наихудшего варианта, т. е. î/μ = min (С7Х, . . ., UN)- Ясно, что наш выигрыш при нали- чии такой дополнительной информации не меньше ι^. С другой стороны, при каждом значении μ = п и U = и мы находимся в условиях задачи с N — 1 вариантами и равномерным на (и, 1) распределением оценок, и, если мы действуем оптимальным обра- зом (в частности, пропуская наихудший вариант), то наш выиг- рыш составляет υ**-1. Следовательно, г;^'1 > νΝ. Формализация этого рассуждения не представляет трудности. Численные значения vN приведены в табл. 4. [2.5. Задача наилучшего выбора, связанная с пуассоновским процессом. Случай полной информации 2.5.1. Рассмотрим следующую задачу. Пусть имеется пуассо- новский процесс на положительной полуоси с заданной функцией интенсивности. Моментам tx, t2, . . . последовательных скачков процесса отвечают независимые между собой и с моментами tly 60
U, · · · реализации С/ц £72» · · случайной величины с известной функцией распределения, которая предполагается непрерывной. Требуется найти правило остановки последовательности наблю- дений (£/i, *i), (U2, £2), . . ., максимизирующее вероятность оста- новки на наибольшем значении Ε/Ι, U^ .... Мы по-прежнему интерпретируем £пкак момент появления п-го варианта, a Un — как оценку его качества. Если интеграл от функции интенсивности расходится, то вы- игрыш любого правила остановки равен нулю, так как последо- вательность оценок почти наверное бесконечна и максимума не имеет. В противном случае, производя преобразования масштаба времени и масштаба на шкале оценок, мы сводим задачу к случаю однородного на единичном интервале пуассоновского процесса и равномерного на этом же интервале распределения оценок. Эта задача оказывается более простой, нежели задача с диск- ретным временем из п. 2.4, так как здесь удается не только явно определить оптимальное правило, но и найти аналитическую зави- симость между интенсивностью процесса и вероятностью удачно- го выбора. Кроме того, обе задачи оказываются асимптотически эквивалентными. Свяжем с относительно лучшими вариантами марковскую цепь и покажем, что имеет место монотонный случай. Положим Ζ0 = α, %п = (tmi i^m)» если n-й относительно лучший вариант является т-м по порядку просмотра, и Ζη = <9, если число относительно лучших вариантов не превосходит п, п = 1, 2, . . . Последова- тельность Z0, Zx, . . . является однородной марковской цепью с фазовым пространством Е, представляющим собой единичный квадрат с присоединенными начальным состоянием а и конеч- ным состоянием д. Переходная функция Р ((£, у), ·) при фикси- рованных t и у является мерой на единичном квадрате с плот- ностью (Хе Р((*. V)t (*> z)) = (o, ta-*<s-i)<i-î/>f если s>*> z>y; в противном случае. Кроме того, Р (<9, д) = О, Р (а, д) = е~х, где λ — интенсивность пуассоновского процесса. Определим функцию выигрыша форму- лами g (f, у) = Р ((*, у), д), g (a) = g (д) = 0. Как обычно, пусть G есть множество состояний z таких, что g (z) ^ Tg (z). Ясно, что д принадлежит G, a a не принадлежит. Далее, 1 1 Tg (t, y) = J5^(l-2)(l-f)^-Ms-i)(l-î/)dzd5 = у t λ<ι-ι/)<ι-Ι) = g-Vl-tyl-y) f gX~"1 dx, о 6t
и неравенство Tg (t, у) ^ g (£, у) равносильно неравенству λ(1-1/)(1-*) S ^-dx<i. о Отсюда следует, что (£, у) принадлежит G тогда и только тогда, когда λ (1 — t) (1 — у) ^ с, где с находится из формулы с вЯ-1 dx=l. (2.42) J х о Поскольку цепь, пока не оборвется в состоянии <9, движется от меньйшх значений t и у к большим, то множество G является погло- щающим. Следовательно, имеет место монотонный случай, и оп- тимальным правилом остановки цепи является момент первого попадания в G* Таким образом, оптимальное правило остановки предписывает остановку на первом же варианте, момент появления которого tn и оценка Un удовлетворяют неравенству λ (1 — tn) (1 — Un) ^ <J с. При λ ^ с появляется эффект малой интенсивности — оп- тимальное правило предписывает всегда выбирать первый вариант, какой бы ни была его оценка. Сравним теперь рассматриваемую задачу с задачей из преды- дущего параграфа. Аналогами переменных N и N — п здесь яв- ляются, соответственно, λ и λ (1 — tn), при этом асимптотически оптимальное правило (2.41) вполне аналогично оптимальному правилу в рассматриваемой задаче. Более того, константы с в обеих задачах совпадают: чтобы убедиться в этом, нужно разло- жить подынтегральное выражение в (2.42) в ряд по степеням х и, почленно интегрируя, получить (2.35). Развивая эту аналогию дальше, можно методом п. 2.4.3 доказать, что правая часть (2.39) дает также предельное значение вероятности удачного выбора при λ —> оо. Однако далее мы воспользуемся иным методом, позволяю- щим выразить вероятность удачного выбора через λ. 2.5.2. Пусть 0 < δ < 1, введем в рассмотрение класс Ж (λ, δ) правил остановки последовательности наблюдений (U1, ^), (U2, t2), . . ., не вьдбирающих вариантов с оценками не больше δ. Моменты появления вариантов, оценки которых больше δ, можно рассматривать как моменты скачков пуассоновского процесса ин- тенсивности λ (1 — δ), причем эти оценки независимы и равномер- но распределены на интервале (δ, 1). Отсюда следует, что задача оптимальной остановки в классе Ж (λ, δ) эквивалентна оптимиза- ции в классе 9)? (λ (1 — δ), 0). Для произвольного распределения оценок F оптимальное правило остановки в классе 3R (λ, 0) ос- новано на проверке для относительно лучших вариантов нера- венства λ (1 — tn) (1 — F (Un)) <^ с, поэтому оптимальным в классе 9D2 (λ, δ) правилом остановки является τ (δ) = min {n\Un = max (tflf . . ., Un) > δ, λ (1 - tn) (1 - - Un) < c) (2.43) 42
(если это множество пусто, то τ (δ) можно определить произвола ным образом). Обозначим ν (λ) оптимальную вероятность удачного выбора в классе 9)? (λ, 0), т. е. вероятность выбора наилучшего варианта правилом τ (0). Рассмотрим приращение Δν = ν (λ (1 — δ)) —. — ν(λ), равное разности вероятностей удачного выбора правила- ми τ (δ) и τ (0). Ясно, что это приращение неположительно, так как 9R (λ, δ) CZ 3R (λ, 0). Если к моменту t = 1 вообще не появил- ся ни один вариант, то, разумеется, τ (δ) и τ (0) никакой вариант не выбирают и вклад этого события в Δν нулевой. Рассмотрим те- перь менее тривиальный случай, когда появился хотя бы один вариант. Если оценка первого варианта больше δ, то τ (0) = τ (δ): действительно, если λ (1 — tx) (1 — U^ ^ с, то τ (0) = τ (δ) = lr как следует из (2.43); а если λ (1 — tx) (1 — иг) > с, то для всех tn > h условие Un = max (Ut, . . ., Un) гарантирует Un > δ, и опять-таки τ (0) = τ (δ). Таким образом, τ (0) Φ τ (δ) только в случае U1 <; δ. Вообще, интенсивность потока вариантов, оцен- ки которых не больше δ, равна λδ, поэтому с точностью до собы- тия вероятности порядка δ2 можно считать, что O\ единственная такая оценка. Чтобы иметь далее возможность однотипно рассматривать как случай малых интенсивностей, кб^да λ <^ с, так и всех остальных, введем вспомогательную функцию s (δ) = (1 - с/(Х (1 - δ)))+, считая λ фиксированным. Наглядный смысл s (δ) очевиден — это момент, начиная с которого оптимальным правилом может быть выбран вариант с оценкой δ. Продолжим рассмотрение случая 17г ^ δ. Мы имеем две аль- тернативные возможности — либо tx <C s (δ), либо ii ^ s (δ). В первом случае ни правило τ (0), ни τ (δ) первый вариант не вы- бирают, а поскольку все остальные оценки можно считать боль- шими Uu то τ (0) = τ (δ), и вклад этого события в Δν равен нулю. Во втором случае имеются дальнейшие возможности: 1) τ (0) выбирает наилучший вариант, а выбор τ (δ) неудачен; 2) τ (δ) выбирает наилучший вариант, а выбор τ (0) неудачен; 3) выбор обоих правил неудачен. Разберем поочередно эти возможности. Поскольку τ (0) выбирает первый вариант, то 1) с точностью До события вероятности порядка о (δ) означает, что этот вариант вообще единственный. Следовательно, 1) осуществляется с вероят- ностью егЧ (1 - s (0)) δ + о (δ), (2.44) гДе мы пишем s (0) вместо s (δ) в силу того, что разность s (0) — ■"- s (δ) имеет порядок О (δ). Рассмотрим случай 2). Поскольку τ (δ) не выбирает первый ьариант, то общее число вариантов больше единицы. Коль скоро Мы считаем все оценки большими δ, за исключением С/х, и t2 ^> 63
> h > s (δ), то τ (δ) выбирает второй вариант. При общем числе вариантов к условная вероятность того, что выбор τ (δ) удачен (т. е. U2 =* max (t/1? . . ., Uk)), равна (fc — I)"1. Следовательно, возможность 2) осуществляется с вероятностью fe=2 (2.45) где мы опять с полным правом заменили s (δ) на s (0). Вклад 3) в Δν равен нулю. Вычитая из вероятности (2.45) вероятность (2.44), получаем Λ»=4Στ^-λ<,-'<0»)+'-<δ'· Теперь λ будем считать переменной; подставляя s (0) = 0 при λ< си s(0) = 1 — c/λ при λ > с и полагая δ -> 0, получаем dv(X) *42j w(fc-i) *)' J fr=2 --£-£■ fr=2 A:!(Ar—1) если λ <^ с, с ), если λ ^ с. Интегрирование дает ν(λ) _< Ь=1 А;! А; + Ci, если Х<^с, >с. *с=1 Постоянные интегрирования определяются из условия v (0) = 0 и условия совпадения обеих частей равенства при λ = с. Оконча- тельно получаем ι;(λ) = k\k если λ<ζο, fr=l если λ ^ с. Асимптотическое значение оо S-CX dx^ 0,580 ·■ х (2.46) 64
получается в результате несложных манипуляций с формулами (2.40) и (2.46). Замечание. Возрастание ν (λ) может показаться стран- ным, так как интуитивно кажется, что чем больше среднее число вариантов, из которых мы хотим выбрать наилучший, тем труд- нее это сделать. Такое поведение ν (λ), по-видимому, объясняется тем, что с увеличением λ уменьшается равная е"1· вероятность того, что общее число вариантов равно нулю, когда мы вообще никакой вариант не выбираем. 2.6. Выбор с несколькими попытками 2.6.1. Сохраняя неизменными остальные условия классической задачи, предположим теперь, что у нас имеется возможность вы- бора г ^> 1 вариантов. Будем считать выбор удачным, если наи- лучший вариант находится среди отобранных, и максимизировать вероятность удачного выбора. Сначала мы рассмотрим случай г = 2, в котором легко определяются все асимптотические харак- теристики оптимального способа выбора, а затем перейдем к обще- му случаю и получим рекуррентное уравнение для предельной вероятности удачного выбора. Итак, предположим, что в процессе наблюдения относительных рангов У\, . . ., ΥΝ мы пытаемся выбрать наилучший вариант дважды. Ясно, что те варианты, которые не являются относитель- но лучшими, следует пропускать. Что же касается относительно лучших вариантов, то по аналогии с классической задачей (т. е. случаем г = 1) естественно ожидать, что оптимальный способ выбора задается парой порогов d2 и аг: первую попытку следует использовать, если просмотрено не менее d% вариантов, а вторую попытку следует использовать, только если просмотрено не менее d% вариантов. Мы докажем этот факт, исходя из общей теории со- ставных правил остановки, изложенной в п. 1.4. Для всех 1 <; m < п <; N определим σ-алгебры fn = = 3è (Yu . . ., Уп), fmn = fn. Положим Таким образом, Qmn есть условная вероятность удачного выбора после того, как просмотрено п вариантов и выбраны n-й и т-й. Поскольку $Fmn = §п, то составное правило остановки есть просто пара (σ, τ) правил остановки последовательности относи- тельных рангов таких, что σ < τ. Для любой такой пары MQCX = = Р {Х0 = 1 V ^τ = 1}, поэтому задача выбора равносильна нахождению оптимального составного правила остановки семей- ства {Qmn, fmn}· В силу конечности данного семейства оптималь- ная пара (σ*, τ*) описывается теоремой 1.12 и достаточно дока- зать, что (σ*, τ*) задается двумя порогами. Независимость относительных рангов позволяет представить 3 Заказ № 3752 65
формулы (1.20) и (1.21) в виде β™ = Rmn + max (Qw vftàf (2.47) где 4} = ^г ; vn} = М max «?»· Л. * = 1, ...,# — 1. (2.48) С точностью до обозначений последнее уравнение совпадает с уравнением для цены продолжения в классической задаче (см. п. 2.1.2), поэтому на множестве {σ* = η} τ*^πι1η^>/ηΙ^η = β7ηη} = πιιη{^>^|η>^, Уп = 1}, где min ф = N, a d% = d* определяется неравенствами (2.8). Далее, из (2.47) получаем Pm = M фт,т+11 fm) = Qm+ P&l, (2-49) а поскольку Qm = -^ 1{γ =^, то все βηι независимы и, следователь- но, уравнения (1.22) и (1.23) превращаются в Ym = max(Pm,^)+1), где i#-i = 4-; г^Мтахф^Ц /n = 1,... , N-2. (2.50) Мы видим, что Vm не возрастает по m, a из (2.48) легко получить, что mIN + Vm+i строго возрастает по т, следовательно, неравенст- во mIN + Vm+i > Ут+ι выполняется начиная с некоторого m = = (Ц- Сказанное позволяет из (2.48) и (2.50) получить = min{m\m^ d*, Ym = 1}, σ* == min {mI Pm = ym) = min{m | ^>i4Sii} = где min ф = N — 1. Таким образом, оптимальный способ выбора действительно определяется парой порогов d2 и ^, причем а[ совпадает с порогом d* из классической задачи. Переменные г4? и и£* представляют собой динамические ха- рактеристики оптимального способа выбора: если просмотрено п вариантов, то v^ есть вероятность удачного выбора с двух попы- ток, a v^ — с одной (точнее — со второй попытки — вклад пер- вой попытки здесь не учитывается). Стандартное рассуждение, которое использует вложение задачи с N вариантами в задачу с N + 1 вариантами, доказывает, что оптимальная вероятность удачного выбора νψ уменьшается с увеличением числа вариантов. Численные значения d%, d% и v±2\ которые находятся из (2.48), 66
Таблица 5 N < < „(« IV < 4 if> 1 1 1 1,000 9 3 4 0,651 2 1 2 1,000 10 3 4 0,646 3 1 2 0,833 20 5 8 0,619 4 1 2 0,708 30 7 12 0,608 5 2 3 0,708 40 10 16 0,604 6 2 3 0,693 50 12 19 0,601 7 2 3 0,672 100 23 38 0,596 8 2 4 0,656 (2.50) и определений dt= min |n J -£- > 1;2Ц , dt = min jn | -^- + y^ > ^j , (2.51) приведены в табл. 5. 2.6.2. Как было установлено в классической задаче, α^ΙΝ и νψ стремятся к е'1 при N -> оо ; теперь же мы хотим найти предель- ные значения d2/N и Vi- Вычисляя в (2.48) и (2.50) математиче- ские ожидания, перепишем эти формулы в виде разностных урав- нений „<ι> 7;(1) _ * /JL — i/D Y — [lT + Vn+1 n+1) z;(2) /;(2) - ^n+1 - (2.52) с концевыми условиями v{n = 1/iV; У/ν-ι = 2ΙΝ. Будем считать nlN точкой излома двух кусочно-линейных непрерывных функций со значениями, соответственно, vnx) и г42) в этой точке. Из общей теории разностных методов следует, что vnl) и v£ при JV —> оо сходятся равномерно на [0, 1] к функциям, соответственно, vx(t) и v2 (£), которые являются решением системы дифференциальных уравнений = _J-.(t + Z;(l)_Z;(2))+ (2.53) dt с концевыми условиями г/1> (1) = г/2) (1) = 0 (в нуле нет особен- ности, так как обе функции в окрестности нуля постоянны). Как следует из (2.51), d*/N —> δ*, где δ* есть единственный корень уравнения t — г;(1) (t) = 0. Аналогично, d%/N стремится к корню 3* 67
δ* уравнения t + υ№ (t) - v& (t) = 0. (2.54) Кроме того, νψ -> ζ;<2> (0), N -> οο. Первое из уравнений (2.53) решается моментально: | — £ In ι> если е"1 <^ t ≤ζ 1; *<»(*) = (е-1? если 0<<<«-*, и мы получаем известный результат: δΧ = е"1. Второе из уравне- ний (2.53) при t ^ Ь% превращается в J!^ = -4-(* + «,«_„«) и легко интегрируется с помощью подстановки и = v&Vt: ι;<*> (*)= — Пп £ + -γ- In2 *, если е-1 <; * < 1 ; — t In t + e"1 g-, если δ2 <^ t <^ e"1; i;(2) (0), если 0<*<δ*, где постоянная интегрирования во второй части этого равенства определена посредством склейки первой и второй частей в точке t = е'1. Вместе с (2.54) это дает δ* = e-V», г/2) (0) = е"1 + ér*/* ~ «0,591. Таким образом, наличие дополнительной попытки позволяет увеличить при больших N вероятность удачного выбора прибли- зительно на e~*l* « 0,223 по сравнению с классической задачей. 2.6.3. Перейдем к случаю, когда имеется г ^> 2 возможностей выбора. Обобщение теории п. 1.4 на задачи с г моментами остановки позволяет доказать, что оптимальный способ выбора задается г порогами d*, . . ., d%. Аналогично случаям г = 1, 2 получаем систему разностных уравнений Vn —^п+1 — ~(~ + Уп+1 —Vn+lJ > К— Ι,.,.,Γ, (Δ.ΟΟ) где г;п0) ^0и ^ιν-κ+ι = &/7V. Порог d% является точкой перемены знака с минуса на плюс правой части (2.55). Отсюда, в частности, следует, что набор (d?_i, . . ., d?) задает также оптимальный спо- соб выбора в задаче с г — 1 возможностями. При N —> ©о (2.55) равномерно аппроксимируется системой дифференциальных уравнений 2Ç-- = \- (t + и(*-« - г;<*>)+, Λ = 1,..., г, (2.56) где у(°> (t) == 0 и г/*> (1) = 0. Функция v^ (t) имеет к особых то- чек δΧ, . . ., δ*, которые являются нулями правой части (2.56): 68
в точках ôj f i = 1, Л ., к имеется только к— i + 1 производных, в то время как во всех остальных точках t ф δ* эта функция бес- конечно дифференцируема. Для нахождения предельных значений d£/N и Vi при N —* оо достаточно найти все δ* и i;<fc> (δ*), однако попытка прямого решения (2.56) приводит к весьма громоздким аналитическим выкладкам, так как i/fe) (t) задается различными выражениями на к + 1 интервалах. Мы можем, конечно, интегри- руя (2.56) при к = г, выразить на интервале (δΓ, δΓ-Χ) функцию z/r) (i) через i/7*-1* (£), но возникающая при этом константа интег- рирования потребует вычисления аналогичных констант в точках склейки ôr_x, . . ., δι, что опять-таки равносильно интегрирова- нию всей системы. Вместо решения указанной системы мы найдем производную функции i/r> (t) в окрестности δ* из других сообра- жений, что позволит рекуррентно выразить δΓ через δΓ_ι,.. . . . . ., δ^. При этом z;(r) (ôr) определится из формулы V& (δ*) = δ? + ιΑ-*> (δ?_ι). (2.57) Наши рассуждения опираются на следующую лемму. JI е м м а 2.7. Пусть р^ (a, b; N) есть вероятность того, что среди значений Уа, Ya+n - - -,Yb ровно к единиц. Если -рт-х* и -ту- —> β при N -> оо, то Pk(a,b;tf)^p^«.W = x(ln-J-)7*1· Доказательство. Случай к = 0 тривиален: р0 (а, Ь; N) = (а — 1)/Ь. Предположим, что для некоторого к утверждение справедливо. Если среди вариантов с номерами от а до b имеется к + 1 относительно лучших и i — номер последнего такого ва- рианта (а + к <^ i <; b), то до г-го среди этих вариантов ровно к относительно лучших, а после г-го их нет вовсе. Следовательно, ь pM{a,b\N)= ^ J-Pfc(a,i —1;Л0ро(* + 1,Ь;Л0~ i=a-j-k Ь г=а-\-к f α(1η1τ): ~ ) Pk (α, «) Ρο (*. Ρ) dx = p(fc + 1) β(* + 1)Ι α Лемма доказана. Будем считать, что варианты появляются в моменты 1/JV, 2/iV, . . ., 1. Из леммы 2.7 вытекает, что при N —> оо моменты по- явления относительно лучших вариантов образуют неоднородный
пуассоновский поток интенсивности 1/t. С этим потоком связыва- ется задача выбора, которая является в строгом смысле пределом конечных задач. В нижеследующих рассуждениях термин «ве- роятность» имеет двоякий смысл: во-первых, как вероятность некоторого события, определяемого реализациями указанного пуас- соновского процесса, и, во-вторых, как предел вероятностей одно- типных событий в задачах с конечным N. Аналогично, под «прави- лом с порогами ôr, . . ., δι» понимается как правило в предельной задаче, так и последовательность составных правил с порогами dr, . . ., du где dk/N —> ôfc. Пусть точка t лежит на интервале (δΓ, δΓ_Χ), тогда v<r) (t) есть вероятность удачного выбора правила л^, заданного порогами t, 6*_ь . . ., ôt-Пусть Ai достаточно мало, рассмотрим приращение ÂV* (t) = vr (t — Ai) — v<r) (t), равное разности вероятностей удачного выбора правил zit-ы и nt. Если интервал (t — Ai, t) не содержит ни одного относительно лучшего варианта, то правила щ-м и π* совпадают, и, следовательно, вклад этого события в Аг/Г> равен нулю. В противном случае с точностью до события вероят- ности порядка (At)2 можно считать, что такой вариант единствен- ный; правило nt-M его выбирает, а л< — пропускает, при этом первое правило выигрывает за счет этого выбора, только если на (t, 1) нет относительно лучших вариантов, т. е. с вероятностью (At/t) (t/1) + о (At). После момента t правило nt имеет не меньше возможностей, чем nt-M, поэтому выбор π* на (t, 1) не может быть менее удачен. Следовательно, вышеуказанное событие порядка At исчерпывает весь положительный вклад в Аг/Г^ события {π* φ Предполагая, что (t — At, t) содержит единственный относи- тельно лучший вариант, рассмотрим событие, состоящее в том, что nt выигрывает, а л^м проигрывает. Это возможно только то- гда, когда (t, 1) содержит не менее одного относительно лучшего варианта. Точки бг_ь . . ., δ^ разбивают (t, 1) на г интервалов lt = (£, ô*_x), /2 == (ô*_b δ*_2), . . ., Ir = (δ*, 1). Ясно, что инте- ресующее нас событие определяется случайным вектором а = = (ai, . . ., αΓ), к-я .компонента которого равна числу относитель- но лучших вариантов на 1к. Нашей ближайшей целью является описание множества А таких векторов, при которых nt выигры- вает, а nt-M проигрывает. Ситуацию проясняют следующие примеры. Пример 1. а = (1, 0, 0, . . ., 0). В этом случае nt выби- рает относительно лучший вариант на 1г и выигрывает. Правило Ш-м уже использовало единственную возможную к моменту δΓ_! попытку на интервале (t — At, t), поэтому оно проигрывает. П р и м е р 2. а = (0, 2, 0, . . ., 0). В этом случае nt выбирает оба относительно лучших варианта на /2 и выигрывает, а правилу Tit-м на А не хватает одной попытки. П р и м е р 3. а = (1, 1, 2, . . .). После момента δΓ_! у обоих правил остаются одинаковые возможности, поэтому они выигры- вают или проигрывают одновременно. 70
Обозначим ак последнюю ненулевую компоненту а. К концу каждого промежутка Iu i < К у nt должно оставаться больше попыток, чем у зх*_д*, так как в противном случае оба правила после момента ог_* совпадают (пример 3). Отсюда вытекает, что к любому из моментов ôr-!, . . ., δΓ_κ+1 правило π* должно не ис- черпывать всех возможных попыток, а это возможно только если все относительно лучшие варианты выбираются. Следовательно, число таких вариантов меньше числа возможных попыток, т. е. S α,-<ι, i = 1 JE"— 1. (2.58) Обратно, если выполнено это условие, то к любому из моментов ôr_!, . . ., àr-κ+ι У ttf остается неиспользованной хотя бы одна возможная попытка. Интервал 1к находится на особом положении. Дело в том, что к моменту δΓ_κ правило π* должно исчерпать все К попыток и вы- брать на 1к все ак вариантов (примеры 1 и 2), так как в противном случае правилу jtt-м хватило бы своих К — 1 попыток. Отсюда получаем к ^iaj = K. (2.59) Следовательно, A есть множество тех векторов, для которых вы- полнено (2.58) и (2.59). Из леммы 2.7 следует, что вероятность вектора а равна t ( à* Να* где ln-^M f(a2,...,ar), (2.60) / (α2, . . . , ar) = H I In -г* I —у , i==2 \ °r-i+i ' aV и мы полагаем δ0 = 1. Сумма слагаемых вида (2.60) по всем a ΕΞ ΕΞ A, умноженная на At/t (вероятность появления на (t — At, t) относительно лучшего варианта), дает отрицательный вклад в Аг/Г>. Полагая At —> 0 и замечая, что единственным в A вектором с ненулевой первой компонентой является ех = (1, 0, 0, . . ., 0), выводим --зг=1-1п—— 2j /(*«·····«')· asA\{ei} Приравнивание производной к нулю дает - In δ* = - In δ*_! + 1 - Σ f (α2,.. ., αΓ). (2.61) aeA\{ei} 71
Эта формула рекуррентно выражает ôr через остальные пороги ô*_x, . . ., of, так как стоящая в (2.61) сумма зависит только от г-Ь . . ., 01в Вычислим, например, δ3· Поскольку δι = е"1, δ2 = е~Ч', то подстановка дает ae=A\{ei} a£A\{ei} Множество А состоит из векторов (1, 0, 0), (0, 2, 0), (0, 1, 2) и (0, 0, 3), поэтому (2.61) сводится к —In δ* = 3/2 + 1 — Vs — 74 — — Ve = 47/24. Следовательно, δ* = е~47/24 ~ 0,141, и формула (2.57) дает i/r> (δ*) = e'1 + er*l> + е-"/* — 0,732. Результаты подобных вычислений приведены в табл. 6. Таблица 6 г i;(r>(0) 1 0,368 2 0,591 3 0,732 4 0,823 5 0,883 6 0,921 7 0,948 8 0,965 Замечание. Табличные значения подсказывают, что г/г> (0) -> 1, г —> оо. Доказательство тривиально. Рассмотрим пра- вило с порогами (δ, . . ., δ). Среднее число относительно лучших вариантов на (δ, 1) равно —1η δ < оо, поэтому при г -> оо рассмат- риваемое правило все эти варианты выберет с вероятностью сколь угодно близкой к 1. Вместе с тем наилучший вариант с вероят- ностью 1 — δ появляется на (δ, 1). Остается положить δ —» 0. Заметим также, что в силу неравенства ν^ ^ г;(г> (0) имеет место равномерная по N сходимость ζ/^—>Ι, г —> оо. Доказа- тельство указанного неравенства опирается на вложение задачи с N вариантами в задачу с N + 1 вариантами. 2.7. Задача с частичной информацией 2.7.1. Предположим, что мы последовательно наблюдаем N независимых реализаций некоторой случайной величины и хотим остановиться на наибольшем значении. Задача с полной инфор- мацией и классическая задача наилучшего выбора представляют две крайние информационные ситуации: в задаче с полной инфор- мацией функция распределения известна точно, а в классической задаче мы о ней совершенно ничего не знаем — такая степень не- ведения гарантируется требованием о том, что все решения долж- ны зависеть исключительно от наблюденных относительных ран- гов. Широкий спектр промежуточных постановок заполняют задачи с частичной информацией, в которых мы располагаем опре- деленной информацией о функции распределения, но она не пол- 72
на. Иначе говоря, задано некоторое семейство П непрерывных функций распределения, содержащее функцию распределения F фактически наблюдаемых значений (в нашей прежней терминоло- гии — оценок вариантов), однако сама F неизвестна. Как и во многих статистических задачах, результаты наблюдений могут дать более полное представление о конкретном виде функции рас- пределения, что, в свою очередь, может увеличить вероятность удачного выбора по сравнению с классической задачей. Пусть Uи . . ., Un — последовательность независимых оди- наково распределенных случайных величин с функцией распре- деления, принадлежащей заданному семейству П = {Fq, θ ΕΞ ΕΞ θ}, непрерывных функций распределения. Под правилом ос- тановки τ = τ (и) мы будем понимать функцию вектора и = = (μΧ, . . ., uN) со значениями 1, 2, . . ., N такую, что каждое значение τ (и) = п определяется первыми п компонентами и. Вся- кому значению параметра θ и правилу остановки τ отвечает выиг- рыш оо оо Ζ(θ,τ)= 5 ··· \ / {ит = max (их,. .. » и^)} d*e fai). ..dFQ(un), — оо —оо (2.62) равный вероятности остановки на наибольшем значении оценки. Таким образом, выигрыш любого правила оказывается не числом, как в рассматривавшихся ранее задачах оптимальной остановки, а функцией неизвестного параметра. Это обстоятельство обуслов- ливает необходимость введения принципа, по которому можно бы- ло бы сравнивать различные правила остановки. Предположим дополнительно, что параметрическое множество Θ является открытым подмножеством некоторого евклидова прос- транства. При байесовском подходе параметр θ рассматривается как случайная величина со значениями в Θ и известной функцией распределения Ф, которая называется априорным распределени- ем. Согласно байесовскому принципу предпочтительными являют- ся те правила остановки, для которых средний выигрыш #φ(τ) = $£(θ,τμΦ(θ) θ принимает возможно большее значение. Правило остановки τ*, доставляющее максимум Bo (τ), называется байесовским, такое правило существует при любом априорном распределении и мо- жет быть найдено обычными методами оптимальной остановки. Другим часто используемым принципом является принцип ми- нимакса, согласно которому всякое правило следует оценивать по выигрышу при наименее благоприятном значении параметра. При таком подходе наиболее предпочтительным является минимаксное правило, для которого значение inf L (θ, τ) максимально. Мини- θ максный подход оправдан в том случае, когда априорное знание 73
о параметре является весьма неопределенным, хотя иногда его целесообразность признают лишь самые неисправимые пессимисты. В задачах, к которым мы теперь переходим, оба принципа тес- но связаны. 2.7.2. Пусть Ux, . . ., Un и W— случайные величины, сов- местное распределение которых обладает следующими свойствами. Случайная величина W принимает значения в пространстве па- раметров Θ и имеет функцию распределения Ф с плотностью φ0. Далее, при фиксированном значении W = θ случайные величины С/ь . . ., Un независимы и одинаково распределены с общей функ- цией распределения Fq, которая имеет плотность / (· | Θ). Таким образом, плотность условного совместного распределения случай- ных величин Un . . ., Un при заданном значении W = θ есть произведение / (их| Θ) . . . f (^η|θ), а безусловная плотность сов- местного распределения есть /Κ,...,αη) = $/(Μι|θ).../Κ|θ)φ0(θ)^θ, (2.63) θ для всякого п = 1, . . ., N. Из теоремы Байеса следует, что плот- ность условного распределения случайной величины W при за- данных значениях Ux — иъ . . ., Un = ип выражается формулой /QI ч /(*ι|θ).../(αη|θ)φ0(θ) φ(ΘΚ,·...,ι*η) = /(Μι,,,,,„η) ■ если знаменатель не обращается в нуль. Для семейства распреде- лений Fq роль индекса играют возможные значения случайной величины W, поэтому она называется параметром семейства. Говорят, что плотность φ (θ | ии . . ., ип) задает апостериорное распределение параметра после n наблюдений. С байесовской точки зрения апостериорное распределение содержит всю информацию, которой мы располагаем после п наблюдений. В частности, плот- ность условного распределения Un+i равна / (wn+i | »ι»... , ип) = ] f (ип+11Θ) <ρ (Θ | иъ ..., ип) ив. (2.64) в Сравнивая (2.63) с (2.64) можно сказать, что апостериорное рас- пределение после п наблюдений играет такую же роль, как и ап- риорное распределение до начала наблюдений. Рассмотрим семейство И1 равномерных распределений на ин- тервале (О, Θ). В этом случае Θ совпадает с множеством положи- тельных чисел, и Fq имеет плотность f (и | θ) = θ"1/ {0 < и < <С θ}. Предположим, что параметр W этого семейства имеет ап- риорное распределение Ф с плотностью φ0 (θ) = π (θ; й0, а), гдей0 > 0, α > 0 и aho -^ΤΓ » если θ > Αο 0, в противном случае. зх (θ; Λο> α) = 74
Такое распределение называется распределением Парето, выбор его в качестве априорного распределения особенно удобен тем, что апостериорное распределение также является распределением Парето, а именно φ (Θ | иг, . . ., ип) = π (Θ; hn, a + n), Где hn = max (A0, uly . . ., un). В этих предположениях пересчет апостериорного распределения сводится к нахождению максиму- ма наблюденных значений. Для каждого правила остановки τ (и) определим средний выиг- рыш /?φ(τ)=ξ Ζ/(θ,τ)<ρ0(θ)(*θ, л. » θ θ Ζ/ (θ, τ) = \ . . . \ 1\{их = max (AQ, μΧ, ..., uN)} X X θ ■jy- d^i... dupf. (2.65) Следует обратить внимание на то, что U (θ, τ) отличается от L (θ, τ) в формуле (2.62). Критерий V (θ, τ) отвечает задаче ми- нимизации вероятности остановки на оценке, которая больше других оценок и, кроме того, больше h0. Формула (2.64) при положительных иъ . . ., ип+1 принимает следующий вид: f(un+1 \uv...,un) = \ -g-/ {ип+1 < θ} π (θ; Ап, а + п) dQ = /lo f / α+ τι \ 1 ^ j \[a + n + i)-jr> еслй "*»<*». / α + » \ СП \ а + /г + 1 / аа+ α+η+ι » n+i Положим Нп = max (h0, Ux, . чаем Р{С/п+1 = Яп+1|С71,...,С7п}: (2.66) если un^hn. ., С/п), из формулы (2.66) полу- а + /г+1 (2.67) Подобным образом вычисляя совместную плотность / (un+lt . . . . . ., их I uu . . ., ип) получаем Qn = ¥{Un = HN\U1,...,Un} = ^±^T{Un = Hn). (2.68) Нахождение байесовского правила τ* равносильно решению задачи оптимальной остановки стохастической последовательно- сти {Çn, fn}, где σ-алгебра fn порождена С/х, . . ., Un. В этой задаче не имеет места случай независимых наблюдений, однако 75
решение полностью аналогично классической задаче. Действи- тельно, уравнения обратной индукции таковы yN^QN, Yiv = max(£n,M(Yn+i|^n))> n = l,..., ЛГ — 1. При η = N — 1 из формул (2.67) и (2.68) получаем M (уN | fN-г) = M(QN\ fn-à = ^ρ^. Пусть при некотором η < N — 1 случайная величина М (γη+ι I I fn) равна константе уп+1, тогда M (V„ |f„-i) = M (max (Qn, vn+1) \ f n_x) = i;n+1P {Un < Hn | f „} + + max (|±£ , iw) P {t/„ = #n | f „> = а-\-п— 1 , 1 /α + я \ = —Ч ι>π+ι 4 ;— max —г-лГ » yn+i , поэтому M (γη | f η-ι) также является константой. Таким обра- зом, при всех п = 1, . . ., N имеем M (γη+1 | fn) = νη+1, причем νΝ = 1/(α + Ν), νη = Μmax(ynfl, Çn) = g + ~ νη+ι + + -^T^x(^±^-,z;n+1). (2.69) Отсюда непосредственно вытекает, что байесовским правилом ос- тановки является τ* = min{n I η > da, Un = #η}, где порог da равен наименьшему п такому, что (а + п)/(а + N) > ^ г;п+1. Если а является целым числом, то рассматриваемая байе- совская задача имеет то же решение, что и классическая задача с а + N вариантами и дополнительным требованием о пропуске первых α вариантов, поэтому da = max (1, d* — α), где α = = 1,2,... и d* = d* (α + TV) — порог в классической задаче. Нетрудно видеть, что P {HN = max (Uu . . ., Un)} —> 1 при N —>οο. Отсюда получаем два следствия: во-первых, Яф (τ*)-> -> в"1, так как разность Нф (τ*) и Лф (τ*) стремится к нулю. Во- вторых, правило Td*, где d* = d* (iV) — оптимальное значение порога в классической задаче с N вариантами, оказывается асимп- тотически байесовским и в задаче с критерием Нф (τ). Из сказанного несложно вывести, что правило τ<** является асимптотически минимаксным относительно L (θ, τ). В самом деле, для любого τ и е ^> О при всех достаточно больших N inf L (θ, τ) <fo (θ, τ) αΦ (θ) < sup Ηφ (τ) < Ηφ (xd*) + ε < éT1 + ε. θ θ f С другой, стороны, L (θ, Td*) не зависит от Θ, так как правило %d* основывается только на относительных рангах, и L (θ, Td*) —> —> еТ1 при N —* со. Следовательно, для всех достаточно боль- 76
ших N sup inf L (θ, τ) <^ inf L (θ, τ<**) + ε. τ θ θ 2.7.3. Правило остановки %d* из классической задачи является не только асимптотическим минимаксным для семейства распре- делений Пх, но и минимаксным при любом N. Таким образом, для этого или любого более широкого семейства распределений (например, для семейства всех равномерных распределений или для семейства всех непрерывных распределений) наблюдение оце- нок дополнительно ничего не дает, по сравнению с наблюдением только относительных рангов. Оставшаяся часть этого параграфа посвящена доказательству минимаксности τ^*. Важное место в теории статистических решений занимает прин- цип инвариантности. Говоря нестрого, этот принцип утверждает, что если задача сохраняет вид при определенных преобразованиях переменных, то и решение должно быть инвариантным относи- тельно этих преобразований. В нашем случае в произведении пространства параметров и пространства наблюдений действует мультипликативная группа положительных действительных чисел. Это действие осуществляется по простой формуле gc (θ, u) = = (c9, eu). Существенная особенность семейства Пх состоит в инвариантности относительно таких растяжений, а именно: FcQ (eu) = F (u). Кроме того, если и^ — максимальное значение среди иг, . . ., un, то и cun будет максимальным значением среди сиг, . . ., cuN, с ^> 0. Отсюда следует свойство инвариантности функции выигрыша, т. е. L (θ, τ) = L (c9,gc τ), где по определе- нию gc τ (u) = τ (си). Применительно к этой ситуации принцип инвариантности означает, что минимаксное правило можно искать в классе инвариантных правил остановки, для которых gc τ = τ при всех с > 0. Считая принцип инвариантности обоснованным, покажем как из него вытекает минимаксность Td*. Пусть правило τ является инвариантным, тогда его выигрыш не зависит от значения неиз- вестного параметра. Действительно, L (θ, τ) = L (1, Λ/βτ) = L (1, τ). Следовательно, инвариантное правило является минимаксным в том случае, если оно максимизирует L (1, τ) по классу всех инвариантных правил остановки. Значение τ (u) = 1 зависит только от иъ поэтому для инвариантных правил верно одно из двух: либо τ (u) = 1, либо τ (u) > 1 для всех u. Выигрыш прави- ла τ (u) == 1 составляет всего лишь iV"*1, поэтому его можно исключить из рассмотрения. Для всех остальных инвариантных правил положим μ (и2/иь - - . , Un/ux) = τ (1, иа/иь . . . , Un/Ux), (2.r/0) можно считать μ правилом остановки относительно переменных и2/иъ . . ., un/щ. 77
В интеграле 1 1 L (1 f τ) = j ... ^ / {ux = max (иъ ... , uN)} аиг. .. duN 0 о сделаем замену переменных s2 = w2/wlf . . ., sn = uN/uv По· скольку Ит/^! = ^μ/^Χ = 5μ, то имеем 1 l/si 1/si L(l, ^ = ^Γ"1^! ^... ^ /{5д = тах(1,52,.. .,sN)}ds2.. .d^. 0 0 0 Еще одна замена w = 1/sj. сводит задачу максимизации L (1, τ) по классу инвариантных правил к байесовской задаче остановки: ∞ W W L (1, τ) = J -^- J ... ^ / {5μ = max (1, s2,... , sN)} d.<?2 ...dsN=* 10 0 = Яф (μ), где априорное распределение параметра WT есть распределение Парето с плотностью π (w; 1, 1). Как следует из результатов п. 2.7.2, байесовским правилом остановки последовательности наблюдений 52, . . ., SN, которые распределены равномерно на (0, w), оказывается правило μ*, равное первому п^ d* такому, что Sn = max (1, 52, . . ., Sn) (если μ* = n, то выбирается Sn — смещение на 1 по сравнению с п. 2.7.2 происходит из-за того, что нумерация наблюдений начинается с 2). Прообразом при отобра- жении (2.70) правила μ* является правило т^*, поэтому Td* — оптимальное инвариантное правило и, следовательно, минимакс- ное. 2.7.4. Теперь приведем формальное доказательство. Каждой плотности φ, сосредоточенной на положительной полуоси, поста- вим в соответствие выражение оо &(τ|φ) = $ gcT(p(c)dc, о где τ — произвольное правило остановки. Это выражение можно рассматривать как рандомизированное правило остановки: до начала наблюдений моделируется значение с некоторой случай- ной величины, имеющей распределение с плотностью φ, а затем используется правило gcr. Безотносительно к этой интерпрета- ции можно чисто формально обращаться с i (τ|φ) по правилам оо £(θ,|(τ|φ)) = $£(θ,*βτ)φ(β)Λ? о £Λ(τ|φ) = Ι(£βτ|φ). при этом, как нетрудно проверить, свойство инвариантности £(<*.*Λ(τ|φ)) = £(θ,|(τ|φ)) остается в силе. 78
Определим последовательность плотностей Эта последовательность обладает тем свойством, что для любого х inf lim L (θ, § (τ I φΜ)) > inf L (θ, τ). (2.71) θ Μ->οο θ В самом деле, м 1/M M l/M — <Θ'<ΜΘ и (2.71) получается при M ->^οο. Далее, этот предел не зависит от Θ, что доказывается так lim £(θ,|(τ|φΜ))= Hm £(1, gjj (t | срм)) = Μ->οο M—»·οο û = limL(i,i(g1x\ff„))=lim-sXs- \ L(l,gcj)^- = м~» τ M— À "Θ" . М/θ M Θ/Μ 1/M где при последнем переходе мы воспользовались тем, что M Μ/Θ 1 .| JL(1,^T)4- J HUs)-%-\< 2 In M 1/M Θ/Μ 1/M M ~ ' JA?JL! ' θ/Μ " Μ/Θ 1/M iW < 2 In M (J J ~l+ |J ~|/ = ~ΕΓ3 Введем семейство правил остановки относительно переменных $2 = 1г2/1гх, . . ., sn = ^η/^ι формулой μ0 (иг/Иц ...» ^iv/^i) = £0τ (1, u2fuv . . ., μ#/μι). С помощью замены переменных и изменения порядка интегриро- вания получаем 11 M О 0 1/M de \ = max (tti, ..., uN)} —— ) d^i... cfojv = 1 1 M/ui 0 0 Ui/M 79
1 l/ut 1/ui M/ui xdu1...duN=[ J ··· J (тщг ) 7^c = 0 0 0 Ui/M = max (1, s2,,.., 5jv)} —£-) ^f"1 du± ds2... cis^. Простые аналитические преобразования последнего выражения показывают, что при M -* оо м 1/Л1 Следовательно, lim L (1, J (τ I φΜ)) < sup Дф (μβ) < Яф (μ*) = L (1, τα*). М-*оо С В это неравенство с полным правом можно подставить произволь- ное Θ вместо 1, совместно с (2.71) это доказывает, что L (1, τ<**) > > inf L (θ, τ) для любого τ. Следовательно, %а* — минимаксное θ правило. Комментируя доказательство, отметим, что входе рассуждения по существу был доказан частный случай принципа инвариантно- сти: мы определили последовательность плотностей, которая в определенном смысле задает асимптотически (по М) инвариант- ное рандомизированное правило. Плотность 1/с задает инвариант- ную меру на группе положительных чисел. Если бы эта группа была компактной, то интеграл от плотности инвариантной меры был бы конечен, и мы имели бы возможность обойтись без пре- дельного перехода по М. Вторую часть рассуждения можно рас- сматривать как доказательство того, что в классе инвариантных рандомизированных правил существует оптимальное нерандо- мизированное правило1 хотя здесь требуются некоторые уточне- ния.
Глава 3 РАНГОВЫЕ ЗАДАЧИ НАИЛУЧШЕГО ВЫБОРА 3.1. Задача с конечным числом вариантов 3.1.1. Во всех задачах предыдущей главы результат выбора считался удачным только в том случае, если выбранным оказался наилучший вариант. Было показано, что если качество очередного варианта можно охарактеризовать только результатами сравне- ния этого варианта с предыдущими, то при бесконечном возраста- нии числа вариантов вероятность удачного выбора асимптотиче- ски не превышает ё~х ж 0,37, независимо от конкретного вида про- цесса появления вариантов. Вспоминая о разборчивой невесте, мы заметим, что причиной столь невысоких шансов на удачный выбор оказывается слишком высокая разборчивость нашей невес- ты, для которой выбор уже второго по качеству варианта равно- значен выбору наихудшего. Пожалуй, даже самая строгая цени- тельница изменит свою систему предпочтений, когда узнает, что ее запросы можно удовлетворить приблизительно лишь в одном случае из трех, и согласится с тем, что и выбор второго по каче- ству варианта из большой совокупности не так уж плох. Более широкий класс постановок задач наилучшего выбора исходит из предположения о том, что потери, которые соответст- вуют выбору того или иного варианта, определяются абсолютным рангом выбранного варианта, причем потери тем больше, чем боль- ше этот ранг. Задачи из предыдущей главы дают совсем простой пример зависимости потерь от абсолютного ранга: потери равны 0, если этот ранг равен 1, и равны 1 во всех остальных случаях (не- трудно понять, что для определяемых таким образом потерь зада- ча минимизации средних потерь эквивалентна задаче максимиза- ции вероятности выбора наилучшего варианта). В общем случае предполагается заданной некоторая неубывающая последова- тельность q (1), q (2), . . ., которая называется функцией потерь. Удобно считать функцию потерь неотрицательной, тем более, что это не ограничивает общности. Основная постановка задач этой главы такова. Пусть Хъ . . . . . ., Xn и Ух, . . ., Yn, соответственно, абсолютные и относитель- ные ранги поступающих в моменты 1, . . ., N вариантов. В мо- мент п мы наблюдаем относительный ранг Yn и должны принять решение о выборе или пропуске n-го варианта только на основании значений Ух, . . ., Υη. Если выбирается n-й вариант, то потери составляют q (Xn). Требуется минимизировать средние потери 81
Mq (Xx) по классу всех правил остановки последовательности наблюдений Ух, . . ., ΥΝ. Говоря об этой задаче, мы будем поль- зоваться символической записью <УП, q (Хп)>> имея при этом ввиду, что Уп — наблюдаемая в момент п случайная величина, a q (Хп) — потери при остановке в момент п. Не будет лишним нацомнить, что относительные ранги неза- висимы, иУ„с равной вероятностью принимает любое из значе- ний к = 1, . . ., n. Абсолютный ранг Хп является функцией от Уп, . . ., Уаг, поэтому величина ожидаемых при остановке в момент п потерь зависит только от Уп. Мы можем, следовательно, по опре- делению положить Q»<rn)=M(q(Xn) ΙΥ,,.,.,Υη). Пусть fn — σ-алгебра, порожденная У1? . . ., Уп. Случайная величина Qn (Уп) является ^„-измеримой и для любого правила остановки Mq(Xx)= Σ Μ(9(Χη)/(τ=η))= Σ M(M(g(Xn)|fn)/)T=n)) = η=Ι η=Ι = Σ M «?5Γ (Υη) /<τ=η>) = MQ% (τ), η=Ι поэтому задача <УП, q (Xn)> эквивалентна задаче оптимальной остановки стохастической последовательности {—Qn (Уп)> &η)ι (знак минус возникает из-за того, что в первой главе задача оп- тимальной остановки была введена как задача максимизации сред- него выигрыша, а теперь мы минимизируем средние потери). 3.1.2. Как и во всех задачах оптимальной остановки конечной последовательности наблюдений, оптимальное правило остановки в задаче <УП, q (Xn)> можно найти методом обратной индукции. Согласно этому методу, оптимальным является правило остановки x» = mm{n\Q%(Yn)^i&.a' (3.1) так как в задаче <УП, q (Xn)> имеет место случай независимых наблюдений. Величина vn есть минимальные средние потери в классе правил остановки τ > n, предписывающих пропуск пер- вых п — 1 вариантов, и рекуррентно вычисляется по формуле νξ = M min (4, Qn (Υη)), 4+1 = ∞, (3.2) причем Mq(XxN) = v? есть минимальные средние потери. Мы часто будем называть v% ценой продолжения в задаче <УП, q (ХП)У. Хотелось бы иметь описание оптимального правила останов- ки более явное, нежели (3.1), типа того, которое мы имели в клас- 82
сической задаче. Для этого требуется установить некоторые свой- ства монотонности функции ожидаемых потерь Q% (Yn). Эти свой- ства содержатся в следующей лемме. Лемма 3.1. Для любых n = l,...,iV и А = 11...,/г IV-n+fr <?η (A)=^+τ <?£» (к +1) + (ι - -^ ) <??+1 (Α), (3.4) Qn(k)<Qn(k+i), (3.5) <?η+ι (£)<<?«(&). (3.6) Доказательство. Из определения и двойного неравен- ства Υη < Χη < N — п + Гп следует, что W-n+fc С«(А) = М(д(Х„)|Гп = А)= Σ q(i)P{Xn = i\Yn = k). Абсолютный ранг тг-го варианта при условии, что Υη = &, имеет гипергеометрическое распределение, т. е. гл-<|у.-*)-(£Хг;)/(:). Действительно^ событие, состоящее в том, что Xn = i и Υη = к можно описать так: в случайной выборке объема п из совокуп- ности в N вариантов ровно к — 1 вариантов извлечены из i — 1 вариантов низших рангов, один вариант имеет ранг i, остальные же п — к вариантов извлечены из множества N — i вариантов высших рангов. Это доказывает (3.3). Если относительный ранг n-ro варианта равен к, то его ранг среди первых п + 1 вариантов равен к или к + 1 в зависимости от выполнения неравенства Υη+ι ^> к. Первая возможность осу- ществляется с вероятностью к/(п + 1), а вторая — с вероятно- стью 1 — к/(п + 1), поэтому (3.4) вытекает из формулы полных вероятностей. Для доказательства (3.5) используем индукцию по п от боль- ших значений к меньшим. Ясно, что Qn (к + 1) = q (к + 1) > q (к) = Q% (к). Далее, пусть (3.5) выполняется при некотором п + ЦД^и всех A: = l,...,n-fl, тогда из (3.4) получаем <?" (* + !)--Î$tÇ«i(* +2) +(1-4тг)Л(* +1)- = -^rrQn+Afc + 2) + (l--^rr)Ql1(k+i) + + ТТГ Œ»+i (* + 2) - Qli (к + 1)) > 83
> » + τ QL· (к +1) + (ι - -^rr) <?£i (k) = <?? (A), т. e. (3.5) справедливо и для n. Перейдем к доказательству (3.6). Из (3.4) и (3.5) получаем <?п (*) = -£γ<&ι (* + !) + (!- ТТГ) <?™ (*) > > "+Г <?η+ι (А) + (1 - -^-j QL· (к) = QL· (к). Лемма доказана. Неравенство (3.5) означает, что в каждый момент выгоднее выбирать вариант с как можно меньшим относительным рангом. Неравенство (3.6) — что вариант с относительным рангом к выбирать тем выгоднее, чем большее число вариантов пропущено. Цена продолжения Vn возрастает по нижнему индексу, поэтому если в какой-то момент оптимальное правило (3.1) предписывает остановку на варианте с относительным рангом к, то это предпи- сание и далее сохраняет силу. Полагая d% = min{n\Q%(к) ^ν%+1}, (3.7) мы видим, что (3.1) эквивалентно записывается как T* = min{*|*>dyn>, (3.8) где dy — это случайная величина, равная d^ на множестве \Υη = к}. Неравенство (3.5) позволяет заключить, что TV По аналогии с классической задачей будем называть dt , . . . . . ., div порогами, а оптимальное правило остановки пороговым. Порог dfe — это момент, начиная с которого следует выбирать вариант с относительным рангом к. Итак, мы показали, что оптимальное правило остановки такое: следует пропустить первые df — 1 вариантов, затем следует выбрать вариант с относительным рангом 1, если только такой вариант появится в один из моментов п = df, . . ., d2 — 1; если при этом первые d% — 1 вариантов оказались пропущенными, то затем следует выбрать вариант с относительным рангом 1 или 2, как только такой вариант появится в один из моментов п = = d2 , . . ., d3 — 1 и т. д. (разумеется, некоторые пороги могут совпадать — тогда мы пропускаем некоторые стадии). 3.1.3. Как можно найти (dx ,. . ., d^) Один из способов— попытаться решить (3.2). Другой возможный способ — миними- зировать средние потери как функцию порогов. Пусть dx <^ . . . . . . ^ djv — набор порогов, определим пороговое правило τ, заменяя в (3.8) d^ на dk. Выпишем формулу для величины средних 84
потерь. Имеем IV dk+l""1 к Μ<ζ(Χτ) = Μ<??(Γτ) = ν J? Vp{T = n,yn = i}Çn(0 = к=1 η=α^ i=i N dfr+l-1 n fe=l n=d^ i=l причем, если dfe = d^+1, то соответствующее этому /с слагаемое во внешней сумме отсутствует. Событие {τ = п — 1} при dk <^ п < < dfe+1 имеет место тогда и только тогда, когда Yt ^> 1 при ' -ь . . ., dk — 1 и, Следовательно, i = аъ . . наконец, Ρ{τ> где d Ρζ = > n — j+i-1 Π n=dj Окончательно -i> = ('- », из IV ï ,, · · - 1 .; r,>*-i при i = dfc, S—1 n—1 = nPin(i-4 ζ=ι i=dfe ч --H (3.9) t-1 (rf,-0·· получаем d/m-1 n-1 при г . . ., n - ■)· .(i,-l) ■·№«- = 4. -2. ■ïï"· k (3.10) м.(хо-Е(Пй) Σ (π ('-τ))Στ«?» <3-»> и это выражение станет еще более громоздким, если подставить (3.3). Тем не менее, минимизация (3.11) как функции порогов dlf . . ., djv для простых функций потерь может быть более прием- лемой с вычислительной точки зрения, нежели решение (3.2). Причина этого заключается в том, что для «достаточно хороших» функций потерь наборы порогов (df, . . ., d^) и (di+l, . . ., djv+î) отличаются мало, и (3.11) нужно вычислять для сравнительно не- большого количества значений (dx, . . ., d/v+i), если уже найдены пороги (df, . . ., djv)· Напротив, при переходе от N к N + 1 (3.2) требует нового пересчета. Нетрудно показать, что в классической задаче йх монотонно возрастает, а остальные порогиd2 , . . ., dIv вообще всегда равные. Что касается монотонности, то в случае произвольной функции потерь пороги могут вести себя самым нерегулярным образом. Почувствовать это можно на таком примере. Пусть функция потерь такова, что q (1) = 0; q (i) = 1, начиная с i = 2 до достаточно большого числа i = M, и q (M + 1) очень велико. Таким обра- зом, пока N <ζ Μ задача эквивалентна классической, поэтому d^/N равно приблизительно е"1 и αζ = . . . = djv = N. Как толь- ко N становится равным M + 1, то все пороги резко отодвигают- ся влево, т. с. затягивать выбор становится рискованно. 85
Совсем иначе обстоит дело с минимальными средними потеря- ми vx — как в классической задаче, так и в общем случае v? растет с увеличением числа вариантов. Лемма 3.2. Для любого N = 1, 2, . . . yf+1 > ν± . Доказательство. Пусть в задаче с N + 1 вариантами заранее известен момент появления наихудшего варианта. Ясно, что наличие дополнительной информации не мешает. С другой стороны, мы приходим к задаче с N вариантами, если пропускаем наихудший вариант. Более формально, пусть в задаче с N + 1 вариантами μ — момент появления наихудшего варианта, т. е. Χμ = TV + 1. Рассмотрим класс правил остановки, измеримых относительна последовательности σ-алгебр, &п = *В (μ, У1э . . ., Уп), п = <= 1, . . ., N + 1. Можно считать, что правило τ*, оптимальное в этом классе, никогда не равно μ, так как q (Χμ) ^ q (Xn) для всех п = 1, . . ., N + 1. Поскольку $n ZD §"п, то g(XT*)<?(XTiv+i). (3.12) Пусть Y[, . . ., Υ'Ν есть последовательность У1? . . ., Υν+ι, из которой исключен член Уд. Нетрудно видеть, что совместное распределение У^, . . .,Υ'ν совпадает с совместным распределени- ем У1? . . ., Υν (результат сравнений остальных вариантов не зависит от момента появления наихудшего варианта). Следователь- но, τ* есть рандомизированное правило остановки в обычной задаче с N вариантами, ид (Xxn) = Q (X%*)· Вместе с (3.12) это дока- зывает лемму. Чтобы найти значение предела νΧ , можно поступить следующим образом. Запишем (3.2) как разностное уравнение п ι^-ι&ι= ±.^^-Q»(fc)f (3.13) с граничным условием N 4-1 = -^г^?(&). Пусть N —> оо, п -> оо, но так, что n/N -> £, тогда гипергеометри- ческое распределение аппроксимируется отрицательно биноми- альным, т. е. Поэтому естественно ожидать, что при сделанных предположениях QÏ (к) - Rk (О я S g (О (\Ζ\) ** (1 - *)". С3·14) 86
и Vn -* v № (в частности, vL —> v (0)), где г; (·) является решением дифференциального уравнения оо fc=l с граничным условием N v (1) = lim 4г S * (А) = sup q (*)" Этот факт для ограниченных функций потерь можно доказать чисто аналитически, рассматривая (3.13) как разностную аппрокси- мацию уравнения (3.15). Для неограниченных функций потерь на этом пути возникает ряд препятствий, связанных со сходимо- стью (3.14) и с превращением (3.16) в условие v (Î) = оо, которое само по себе не гарантирует единственности решения (3.15). Детали указанного аналитического подхода довольно громозд- ки и, что самое главное, оставляют в тени интуитивно наглядную вероятностную сторону вопроса. Альтернативный подход состоит в рассмотрении v (t) как цены продолжения в задаче оптимальной остановки некоторого предельного процесса (для процесса относи- тельных рангов) с непрерывным временем. Предельную задачу оптимальной остановки можно назвать задачей наилучшего выбора с бесконечным числом вариантов, так как аналогия с задачей <УП, q (Хп)У достаточно полная. Все предельные соотношения для задачи с конечным числом вариантов находят свое естественное выражение в задаче наилучшего выбора с бесконечным числом вариантов, причем доказательства основных предельных перехо- дов можно получить с помощью введения некоторых промежуточ- ных задач оптимальной остановки. Заметим, что большинство задач предыдущей главы также допу- скает предельную интерпретацию (по существу, мы уже пользо- вались ею в п. 2.6), однако в ранговых задачах такой подход осо- бенно важен, так как позволяет прояснить ряд качественных вопросов, которые при аналитическом подходе остаются незаме- ченными. Например, с аналитической точки зрения совсем неяс- но, может ли интересующее нас решение (3.15) (т. е. то, кото- рое является пределом Vn) быть бесконечным при некоторых t Ф 1 и конечным при остальных t < 1, а вероятностное решение этого вопроса (отрицательное) оказывается совсем простым (тео- рема 3.2). 3.2. Задача с бесконечным числом вариантов 3.2.1. В ранговых задачах наилучшего выбора с наблюдае- мой последовательностью вариантов связываются векторы X = = (Хг, . . ., Xn) и Т = (7\, . . ., TN), где Хп есть абсолютный ранг появившегося в момент п варианта, а Тк есть момент появ- (3.16) 87
ления варианта с абсолютным рангом к. Между Т и X имеется простое соответствие: Тк = п тогда и только тогда, когда Хп = к. Правило перехода от одного вектора к другому является опера- цией взятия обратного элемента в группе перестановок чисел 1, . . ., TV, т. е. Т = Х-1, X = Т-1. (3.17) В основу вероятностной модели можно положить как X, так и Т, считая все N\ значений одного из этих векторов равновозмож- ными элементарными исходами и определяя другой вектор по пра- вилу (3.17). Иными словами, все изучаемые случайные величины можно рассматривать как функции либо X, либо Т. В частности, вектор относительных рангов Y = (Υ\, . . ., ΥΝ) можно опреде- лить как через X: Υη = card {к | 1 < к < п, Хк < Хп}, (3.18) так и через Т: Yn = card {к | 1 < к < Î, Тк < Г,}, где Тι = n, a символ card обозначает мощность множества. Пожа- луй, в задаче <УП, q (Хп)У с конечным числом вариантов удобнее иметь дело с зависимостью Y (X), но именно зависимость Y (T) обобщается на случай бесконечного числа вариантов. Предположим теперь, что компоненты вектора Т являются независимыми равномерно распределенными на единичном интер- вале случайными величинами. Относительные ранги, определен- ные формулой (3.18), имеют то же совместное распределение, что и в случае, когда Т есть перестановка. Следовательно, в задаче <УП, q (Хп)У в качестве пространства элементарных исходов можно взять iV-мерный единичный куб с равномерным распреде- лением вероятностей. При этом (3.17) следует понимать как ТХп=;Т(п), (3.19) где Т(П) — п-я порядковая статистика вектора Т, т. е. Гц) < Г(2) < . . . < r(jv) — упорядоченный по возрастанию на- бор (Тъ . . ., Tn) (неравенства строгие в силу того, что вероят- ность совпадения некоторых компонент Т равна нулю). Новое пространство является более «богатым» и позволяет сформулиро- вать рандомизированную модификацию задачи (Yn, q (Xn)>, в которой временной параметр пробегает единичный интервал, т. е. время непрерывно. В рандомизированной задаче предпола- гается, что в каждый момент t известны моменты Tt ^ t по- явления уже наблюденных вариантов и результаты их сравнения, и что решение о выборе какого-либо варианта может приниматься только в момент его появления. Для дальнейшего существенно, что наличие указанной информации равносильно знанию в каж- дый момент t момента появления лучшего на (0, t] варианта, второго по качеству и т. д. В рандомизированной задаче мы рас- полагаем большей информацией, нежели в задаче <Fn, g(Xn)>» 88
но она является избыточной, так как наши потери зависят толь- ко от абсолютного ранга выбранного варианта и не зависят от момента его появления. Обе задачи эквивалентны, и оптимальное .правило остановки зависит только от Υ. Несмотря на эквивалентность при каждом фиксированном Ν, только рандомизированная задача позволяет положить N = оо. Причина такого различия заключается в строении пространства элементарных исходов. Если под Т = (7\, Г2, . . .) понимать пере- становку натурального ряда, то на множестве таких Т нельзя определить вероятностную меру, которая была бы'инвариантной относительно перестановок компонент Т* (это свойство требует- ся как естественная формализация условия «варианты появляют- ся в случайном порядке»). Напротив, если под Т понимать точку бесконечномерного единичного куба, то таким свойством обладает мера Лебега. Заметим, что предположение о равномерном распределении Тп не ограничивает общности. Коль скоро мы считаем случайные величины Тп наблюдаемыми, то случай произвольного непрерыв- ного распределения F сводится к случаю равномерного распреде- ления с помощью замены времени t —-> F (t). От условия непрерыв- ности F отказаться нельзя, так как это привело бы к ненулевой вероятности совпадения компонент Т, и определение (3.19) стало бы некорректным. 3.2.2. Перейдем к формальной постановке задачи с бесконеч- ным числом вариантов. В основу вероятностной модели мы поло- жим последовательность Т = (7\, Т2, . . .) независимых, равно- мерно распределенных на единичном интервале случайных вели- чин, все остальные случайные величины будут функциями вектора Т. Мы интерпретируем Тп как момент появления варианта, имеющего абсолютный ранг п среди счетного множества упорядо- ченных по качеству вариантов. Для каждого t ΕΞ (0, 1] положим Кг (t) = min {п | Тп < f}, Ki+1 (t) = min {n> Kt {t) | Γη< < t), (3.20) Z{ (t) = TK. (f), и К (t) = (К, (f), K2 (i), . . .). Z (t) = (Zx (t), Z2 (t), . . .)· Таким образом, Ki (t) и Zt (t) являются, соответственно, абсолютным рангом и моментом появления варианта, i-το по качеству среди поступивших на (0, t] вариантов. Векторы К (t) и Z (t) независимы, и компоненты Z (t) являются независимыми, равномерно распре- * Предположим, что такая мера Р существует, тогда все Ап — {Т | Тп = 1} должны быть равновероятными, так как Лп получается из Аг перестанов- кой 1-й и п-й компонент. Вместе с тем ΣΡ (Ап) = 1, поэтому найдется п такое, что Р (Ап) > 0. Следовательно, Р (Ап) = Р (Ах) > 0 для всех п. Последнее невозможно, так как нельзя разбить 1 на счетное число равных слагаемых. 89
деленными на (0, t] случайными величинами (это известные свой- ства выборок из равномерного распределения). Если s < t, то Z (s) является функцией Z (t) — чтобы убедить- ся в этом, нужно в определениях (3.20) заменить Тп на Zn (t)t Положим ft=±*3d(Z(t)), 0<f<l. Семейство σ-алгебр ft является возрастающим и непрерывным справа, т. е. fad ft, fs=f) fs, t>8 причем t<l Вектор Z (t) содержит в себе всю информацию, которую можно получить в результате сравнения всех вариантов, поступивших к моменту £, поэтому потребуем, чтобы решение о выборе вариан- та в момент t зависело исключительно от Z (t). В соответствии со сказанным, в качестве способов выбора мы будем рассматривать класс Ж правил остановки τ = τ (Τ) таких, что Ο<τ<Ι; {T<i}Œ^, f<l; τ(Τ) Œ{1,2Plf Γ2,...}. Если τ = Γη, то выбирается вариант с абсолютным рангом пу потери при этом составляют q (n), где функция потерь q (·) неотрицательна и не убывает. Если τ = 1, то все варианты ока- зываются пропущенными, потери при этом полагаются равными q (оо) = sup q (n). def Для абсолютных и относительных рангов будут использовать- ся следующие обозначения: Xt = n, если t = Тп; mYt = nt если t = Ζη (t). Кроме того, удобно положить Хг = ΥΧ = οο· Для каждого правила остановки τ средние потери определяют- ся как M<?(Xt)=S q(n)l>{x = Tn} + q(oc)P{x=l}. η=ι Задача с бесконечным числом вариантов заключается в минимиза- ции средних потерь. Таким образом, мы хотим найти инфимум v = inf Mq (Χτ) def да Ч V τ; и оптимальное правило остановки. Часто, имея в виду эту задачу, мы будем пользоваться обозна- чением (Yu q (Xt)}· Наши дальнейшие рассмотрения покажут, что такая запись вполне обоснована. 3.2.3. До сих пор мы не занимались вопросами оптимальной остановки процессов с непрерывным временем, у нас и теперь нет необходимости в изложении общей теории. Мы ^покажем, что 90
в рассматриваемой задаче имеет место непрерывный аналог слу- чая независимых наблюдений, т. е. цена продолжения y(t) = essinîM(q(Xx)\£t), где инфимум берется по классу SRf правил остановки τ ^> t, яв- ляется (почти наверное) константой v (t) и достигается за счет правил, не зависящих от ft. В задаче с конечным числом вариантов аналогичное свойство было прямым следствием независимости относительных рангов, теперь же оно требует более тонкого обоснования. Сначала нужно понять, насколько σ-алгебра f t «беднее» f±. Для этого мы рас- ширим определения (3.20). Положим для s< t Ki% t) = min {n \s < Tn < t}, K& (s, t) = = min{n>#i(M)|*<77n<£}, (3.21) Z{(s,'t) = TKi(Sjt), M, (s, t) = Yz^ty Таким образом, Kt (s, t), Zt (s, t) и M\ (s, t) — это, соответственно, (ненаблюдаемый) абсолютный ранг, момент появления и относи- тельный ранг варианта, i-το по качеству среди поступивших на (s, t] вариантов. Пусть К (s, t), Z (s, t) и M (s, t) — векторы, со- стоящие из одноименных компонент. Векторы Z (s) и Z (s, t) незави- симы и каждый из них не зависит от пары (К (s), К (s, t)). Из опре- делений (3.21) вытекает также независимость M (s, t) ж Z (s). Пусть Ум = Ж (Z (M), M (M)), ясно, что σ-алгебры fs и $FSi t независимы. Покажем, что σ- алгебра ft порождена парой σ-алгебр (fs, fs,t)· Для этого до- статочно доказать, что Z (t) является функцией тройки (Z (s), Z (s, t), M (s, t)) или, что то же самое, доказать, что эта тройка позволяет сравнить все поступившие к моменту t варианты. В самом деле, Z (s) позволяет сравнить все варианты на (0, s]; Ъ (s, t) позволяет сравнить все варианты на (s, t]\ наконец, резуль- тат сравнения варианта, поступившего в момент Zt (s) ΕΞ (0, s] с вариантом, поступившим в момент Z7· (s, t) ΕΞ (s, t], определяется неравенством i < Mj (s, t) - card {к < /I Zk (s, t) < Zj (s, t)} (3.22) (вычитаемое к есть число вариантов на (s, t], лучших поступивше- го в момент Zj (s, t) варианта, а вся правая часть (3.22) дает число вариантов на (0, s], лучших указанного варианта). Итак, f t «беднее» f1 на σ-алгебру f t> г в том смысле, что fx порождена парой (ft, ftj х), и σ-алгебры f t и f u г независимы. Нетрудно видеть, что абсолютный ранг Ki (t, l) = XZi(i,l) i-το по качеству на (£, 1] варианта измерим относительно f tt x, и, следовательно, не зависит от f t. 91
Положим по определению g(t) = iniMq(Xx), Щ v(t) = inîMq(Xx), щ где $?* есть класс правил остановки τ ΕΞ $5tt, измеримых относи- тельно ft,i· Правила τ ΕΞ $ftt отвечают тем способам выбора, которые предписывают следить за относительными рангами ва- риантов после момента t и не прийимать во внимание результаты сравнения вариантов до этого момента. Мы покажем, что этот класс достаточно широк, а именно: справедлива следующая тео- рема. Теорема 3.1. Для любого t ΕΞ (0, 1) у (t) = g (t) = ν (t). Доказательство. Основная идея состоит в представ- лении произвольного правила из класса $ftt в виде рандомизиро- ванного правила из класса ЗК'* и в использовании независимости ft и $4ι· Мы знаем, что σ-алгебра §\ порождается тройкой (Z (t), Z (£, 1), M (t, 1)), поэтому всякое правило остановки τ ΕΞ ®i* можно считать функцией τ (Z (t), Z (£, 1), M (t, 1)). Для каждого вектора z = (zx, z2, . . .) с компонентами zn ΕΞ (0, t] положим tz = t(z,Z(U),M(U)). Для любого u^> t индикатор /{T<u} является функцией тройки (Z (t), Z (t, u), M (i, u)), поэтому /{τζ<η> является функцией пары (Z (£, и), M (£, и)). Следовательно, τζ является правилом остановки из класса Ж< » Поскольку τ = τζ(ο» то для потерь имеем выражение оо ?(Χτ)= Σ ?№(^1))]Ι{τζα) = ^(Μ)} + ?Μ/{τζ(*)=1}, i=l в котором #,· (t, 1) и Zf (£, 1) не зависят от Z (t). Из свойств услов- ных математических ожиданий теперь следует, что M (q (Χτ) IZ (t) = z) = Д ç (if, (t, 1)) P {τζ = Z, (i, 1)} + + 3(°ο)Ρ{τζ=1} = Μ<?(Χτζ). Из того, что τ ΕΞ $?* и последней формулы вытекает, что на мно- жестве {Ζ (£) = z} M(q(Xx)\ft)>v(t), а по произволу τ получаем у (t) ^ v (t). Обратные неравенства v (t) > g (i) ;> Μγ (£) следуют из вклю- 92
чения $fttZD$5lt и леммы Фату. Неравенство υ (t) 1> Μγ (t) вместе с v (t) < y(t) дает v (t) = g (t) = γ (t). Теорема доказана. Множество {τ > t} является ЗГгизмеримым, поэтому из оп- ределения γ (t) вытекает неравенство M(q(Χτ) 1{х>Ц \ft)>y (t) I{x>th которое по теореме 3.1 равносильно неравенству M (q (Χτ) /<τ><> \ft)>v(t) /{τ><). (3.22) Это означает, что если какое-нибудь правило предписывает про- пустить все варианты на (0, £], то ожидаемые при этом потери не меньше v (£). Ясно, что 9R5 ZD 9R* при s<i t, поэтому v {t) не убывает. Сле- довательно, если v (s) = оо, то и v (t) = оо при t ^> s; но априори неясно, может v (t) быть бесконечным при одних t Ф 1 и конечным при других t. Следующая теорема дает отрицательный ответ. Теорема 3.2. Если v < оо, то v (t) < оо для <?сех £ ΕΞ ΕΞ [0, 1);ес./шже v = оо, то г; (t) = оо. Доказательство. Определим 5 как супремум значе- ний £, для которых г; (г) конечно. Пусть ε < s, тогда г; (5 — ε) < оог и, следовательно, существует τ ΕΞ 9Rs-e такое, что Mq (Χτ) < οο. Из (3.22) следует, что вероятность событий {τ ^> s} равна нулю,, так как в противном случае средние потери τ были бы бесконечна велики. Определим правило остановки σ (Ζ (1 - s, 1)) = τ (Ζ' (*)) + 1-5, где Ζ'* (5) = Zt (1 — 5, 1) — 1 + s. Это определение корректна в силу того, что τ можно считать функцией вектора Z (s), a Z' (s) принимает те же значения, что и Z (s). Можно сказать, что σ действует как τ применительно к вариантам на (1 — ε, 1] и не зависит от сравнений до момента 1 — ε, т. е. σ ЕЕ 9Κι-ε» причем σ < 1. Более того, Щ (Χτ) = Σ M (q {К, (s)) I τ (Z (s)) = Ζ, (s)) Υ{τ = Ζ, (s)} = Ь=1 оо = Σ M (g (if, (1 - s, 1)) I τ (Z' (s)) = Ζ[ (s)) P{x=Z'i (s)) = i=l = ÊM(g(JC4(l-*fl))|a=Z4(l-ifl))P{o = = Ζ,(1-*,1)} = Μ?(Χσ), где мы воспользовались тем, что пары (К (s), Z (s)) и (К (1 — s, l)r Z' (5)) имеют одинаковое совместное распределение. Следователь- но, v (1 — ε) <^.Mg (Χσ) < оо, откуда по произволу ε следуетг что 5 = 1. Вторая часть утверждения тривиальна. Теорема доказана. 3.2.4. Теперь ответим на вопрос — какова величина ожидае- мых в момент t потерь при выборе i-ro по качеству на (0, t] вариан- 9$
та? Нетрудно видеть, что случайная величина Kt (t) имеет отри- цательно биномиальное распределение. Действительно, событие {Ki (t) = к), i <^ к, имеет место тогда и только тогда, когда Тк <^ t и еще i — 1 штук Tj из Тг, . . ., Тн-ι попадают на (0, t], а остальные к — i штук Tj попадают на (t, 1], поэтому P{JfiTi(t) = A:}=(fri1)ti(l-i)'f-i. По определению Xz.(t) = Kt (t), так что независимость К (t) и Z (t) дает M (q {Хч%)) | ft) = Mg № (t)) = Д* (*), (3.23) где Rt (t) определяется формулой oo *ι (*) = ^ î (*) (fГ î) ** i1 - О*"1· (3-24) K=l Соотношение (3.23) показывает, что Rt (t) и есть искомая величина потерь, ожидаемых в момент t при выборе варианта с относитель- ным рангом i. Наряду с v (·), функции Ri(-) играют централь- ную роль в решении задачи наилучшего выбора. Ряд свойств этих функций легко доказывается, исходя из определения и известных теорем анализа: 1) если Rt (t) < оо, то Ri (·) сходится равномерно на It, 1); 2) внутри круга сходимости i?'(£) < 0, неравенство всегда строгое, если только q (i) Ф q (oo); 3) Rt (i) I q (i) при t f 1, если радиус сходимости ненулевой; 4) если i?! (s) < оо, то Ri (t) < оо для всех i и t Œ Is, 1); 5) Ri W t Я (°°) ПРИ i î ∞; 6) Ri (t) t q (oo) при t i 0; 7) если Bi+1(i)<oo, то Ri (t) < Ri+iit), кроме случая Ч {Ï) = Я. (оо), когда имеется равенство; 8) если 2 (M) = q (oo), то все Rt (·) — многочлены; 9) если 2q (к) tk < оо при всех t Œ [0, 1), то Rt (t) < оо при i = 1, 2, . . .. В соответствии с 5) положим Roo (1) = # (оо). Следующая лемма обобщает (3.23) для случайных моментов времени, т. е. ожидаемые при остановке в случайный момент τ потери составляют RY% (τ). Пусть fT есть σ-алгебра событий A , для которых A П {τ < t} Œ ft для всех t. Под f% можно по- нимать совокупность событий, наблюдаемых до случайного момен- та τ. Лемма 3.4. Если Mq (Χτ) < оо, mo M (q (Χτ) \ fx) = RYx (τ). Доказательство. Разобьем (0, 1] на 2^ равных полу- интервалов Уп = ((n— 1)/2N, n/2N] и положим Yn и Хп равными, соответственно, относительному и абсолютному рангу наилучше- го на Cfn варианта. Определим правило остановки τΝ, принимаю- щее значения ηβΝ и измеримое относительно f 1/2n> f2/2Nl · ' *' <^"1' «94
условием При каждом элементарном исходе йЕ{т<1) значение τ (со) является моментом появления наилучшего варианта в достаточна малой окрестности τ (ω). Следовательно, на множестве {τ<Ι} имеется монотонная сходимость Х^ \ Χτ, ΥτΝ f Υτ. Вместе с тем на множестве {τ = 1} сходимость также имеется, так как XxN|oo, Υ'%Ν J oo на этом множестве. Из того, что τΝ \ τ и непрерывности справа семейства {ft} вытекает ([20], стр. 36) N Из монотонности q (·) и свойств 2) и 7) функций Ri (·) получаем q(X'XN) t?(X,), Д. Ы !ΛΥτ(τ). В силу (3.23) имеем M (g (X'XN) \fXN)=^M(g (XXN) | F„/2n) /<τΝ=η/2Ν( = n=l 2* Пусть A — произвольное событие из fx, тогда A ΕΞ ^T]Vr при всех N. Следовательно, 5g(X;N)dP=5 Я . Ы^Р, A A τΝ а по теореме о монотонной сходимости lg(XT)dP = l RrT(x)dP. А А По произволу А отсюда получаем M (q (Χτ)|^τ) = Λγτ(τ). Лем- ма доказана. Согласно этой лемме при остановке в момент τ = t ожидаемые потери всегда не меньше R± (£). Положим δΧ равным супремуму тех значений £, для которых Ri (t) > v (t). Интуитивно ясно, что до момента δΧ останавливаться не следует даже на относительно лучшем варианте, т. е. когда Yt = 1, а после δΧ выбор относитель- но лучшего варианта становится более выгодным, нежели про- должение. Каким может быть значение δΧ? Предположим, что δΧ = 0. Тогда для любых s < t имеем при s I 0 v(t)>v(s)>R1(s) t ?(oo). 95
Правило τ= 1 содержится в любом из классов $?f, поэтому v № < Q (°°)· Следовательно, v (t) = q (оо). В случае q (оо) < сх> рассмотрим правило остановки inf{t>4-|^ = i}; 1, если это множество пусто. Если наилучший вариант попал на (-к-, 1), а второй по качеству— 1 на (0, у), то Χτ = 1. Поэтому Mg(XT)<^g(l)+-|-g(oo)<g(oo), причем равенство возможно только когда q (1) = q (оо), т. е. q (i) = g (оо). Но если функция потерь постоянна, то i?j (£) ξ= ξ= g (oo) = v (t) и δΧ = 1. Это противоречит предположению, и, значит, при ограниченной функции потерь δΧ Φ 0. Рассмотрим теперь случай q (оо) = оо. В этом случае при сделанном пред- положении v (t) ξ= оо и /?! (t) < оо при всех t ΕΞ (0, 1], т. е. δΧ = 0 лежит на границе круга сходимости Bi (·) (центр этого кру- га находится в 1). Далее мы покажем (следствие теоремы 3.10), что верно более общее утверждение: если радиус круга сходимости Bi(·) мень- ше 1, то г; (t) ξ= оо и, следовательно, δΧ лежит опять-таки на границе этого круга. Рассмотрим другой крайний случай — δΧ = 1. Если v = оо, то v (t) = B! (t) ξξξ оо при всех t ΕΞ (0, 1). Верно и обратное: если Ri (t) ξξξ оо при t ΕΞ (0, 1), то q (оо) =οο и для всех τ по лемме 3.4 Μ^(Χτ)>Μ(Λ1(τ)/{τ<1>) + ?(οο)Ρ{τ=1}=οο, откуда г; (t) ξ= оо. Следовательно, если v < оо, то радиус сходи- мости Bi(·) ненулевой, а поскольку при t | 1 v (t) > Mq (Кг (1 - t, 1)) = Mq {Кг (t)) f q (oo), то предположение δΧ = 1 дает (по свойству 3)) q (1) = lim Rx (t) > lim v(t) = q (oo), Hi *U поэтому q (i) = q (oo). Таким образом, δΧ равно 0 или 1 только в патологическом или тривиальном случаях. Если их исключить, то справедлива следую- щая теорема. Теорема 3.3. Если v < оо и функция потерь непостоянна, то 0 < δΧ < 1 ы у (i) = у я/ж <?сех i Er [0, δΧ). Доказательство. О первой части утверждения теоремы говори- лось выше. Чтобы доказать вторую часть, возьмем 0 <^ s < t < àt и правило остановки τ ΕΞ 9R5. По лемме 3.4 и в силу монотонно- 96 τ =
сти Bi (·) и неравенства Иг (и) < Rt (и) имеем M (q (Χτ) /<τ<<>) = M (Дуτ (τ) /{T<i}) > M (Дх (τ) /{τ<<>) > > Дх (f) Ρ {τ < t) > υ (t) Ρ {τ < t}, (3.25) так как t < Ô! и, следовательно, Bx (t) ;> y (t). По теореме 3.1 для любого ε^> 0 найдется правило μ Е= 3R* (т. е. не зависящее от ^е) такое, что Μα(Χμ) — u(i)<8. (3.26) Рассмотрим правило остановки Ρ = τ7(τ>η + μ/{τ«}» принадлежащее 9R,. Из (3.25) и (3.26) получаем Мд (Хр) = M (, (Χτ) /{τ>,}) + M (q (Χμ) /<т<|)) = M (g (Χτ) I{x>t}) + + P{t<i}M7(X^<M(g(XT)/{T>f})+ ^(*)Ρ{τ<*} + ε< < M (q (Xx) I{x>t}) + M (q (Xx) I{x<t}) + ε = Щ (Xx) + ε. По произволу ε и τ мы заключаем, что v (t) <^ и (s). Вместе с об- ратным неравенством это дает v (t) = v (s). Теорема доказана. Еще одна лемма понадобится нам при выводе основного диф- ференциального уравнения, которому удовлетворяет v (·). Эта лемма утверждает, что если мы задались целью остановиться на каком-нибудь интервале на первом же варианте с относительным рангом не больше г, то в случае успеха относительный ранг выбранного варианта будет с равной вероятностью принимать любое из значений у = 1, . . ., г. Лемма 3.5. Пусть 0 < s < t <^ 1 wr = l,2, .... Поло- жим jini{Tn^(s,t]\YTn^r} 11, ест э*п) множество пусто, тогда на множестве {σ < t} для всех у = 1, . . ., г ΡΟ'σ=/Ι^> = Ι/Γ. Доказательство. Пусть Nj — число вариантов на (s, t], которые лучше у-го по качеству, но хуже (у — 1)-го из вариантов, поступивших на (0, s], т. е. Nj = card {i I К,-± (s) < Kt (s, t) < Kj (s)}, где полагается К0 = 0. Все Nj одинаково распределены и неза- висимы (в этом нетрудно убедиться, выразив Nj через Т) и не зависят от fs. Случайный момент σ не зависит от $s и, в силу перестановочности компонент Z (s, t), при условии {σ < t} с равной вероятностью принимает любое из значений Zt (s, £)> где 1 < i < ΝΧ + . . . + Nr. С равной вероятностью любой из (А^ + . . . + 7Vr) лучших на (s, t] вариантов попадается первым, причем если он принад- 4 Заказ № 3752 97
лежит множеству в Nj вариантов (лучших /-го, но хуже (/ — 1)-го на (0, s]), то Υσ = ;. Поэтому на множестве {σ < t} = {ΝΧ + . . » • . - + Nr > 0} Ρ {^σ = / | f,} = M (Ρ {Υ0 = 7 | ^., {Λ^}> | £-.) = -Mu,+..'.+^r'+-+jv'>°J- 4-"(fe#K---+*>°)--l· Лемма доказана. 3.2.5. Мы переходим к изложению основных результатов в задаче <Yi? q(Xt)y. Сначала мы выведем основное дифферен- циальное уравнение, а затем докажем оптимальность порогового правила остановки, аналогичного оптимальному правилу в зада- че <Fn, q (Хп)У с конечным числом вариантов. Теорема 3.4. Если v < оо, то v (t) непрерывна на [0, 1) и удовлетворяет дифференциальному уравнению оо ^(ο=-τ-Ε^-^^· (3·27) Доказательство. Возьмем 0<s< i< 1и положим Θ равным моменту появления наилучшего на (s, t] варианта. Для любого правила остановки τ из класса 9RS, согласно лемме 3.4, формуле (3.22) и свойствам Rt (·), получаем Mq (Хх) = ΜΗΥτ (τ) > M (ByT (τ) /{τ<η + v (t) I{x>t}) > > M (RYq (t) /{τ<η + v (t) I{x>t}) > M min (RYq (t), v (t)). (3.28) Если s | £ или t j 5, то Yq I оо, поэтому (свойство 5)) RyQ (t) î | q (оо). По произволу τ из (3.28) заключаем, что lim v (s) > г; (£), lim v(t)^v (s), a это вместе с неравенством v (s) <^ v (t) (монотонность *;(·) доказывает левую и правую непрерывность. По теореме 3.3 v (t) = v при tŒ (0, δΧ), что согласуется с (3.27) на этом интервале, а также позволяет далее ограничить рассмотрение полуинтервалом [ог, 1). В каждой точке t лишь конечное число Rt (t) меньше v (t), так как Ri (t) j q (оо) ^ v (t) при i f оо. Пусть это число равно г, покажем, что при s, достаточно близком к £, для всех и Œ (s, t] Ri (и) < v (и), i = 1, . . ., г. Действительно, поскольку s <С δ1? то Bx (5) < ï; (s) < 00 и, сле- довательно, все Ri (·) сходятся на (δΧ, 1). По непрерывности Rr (s) и v (s) и монотонности Br+i (s) при 5, достаточно близких 98
к t, #r+i (s) Ξ> ν (s) и /?r (5) < ν (s), причем последнее неравенство справедливо и для всех Ri (s), i <Z r (свойство 5)). Пусть σ определено как в лемме 3.5, положим р = Gl{o^t} + ъ1{а>Ц, где τ Œ 3R* и Mq (Χτ) сколь угодно близко к v (t). Из (3.22) и леммы 3.4 получаем v (s) < Mq (Хр) = M (g (Χσ) /{σ<η + ι; (i) I{G>t)) < < M (ДГ(у (s) I{c^t) + ι; (i) /{σ>,}) = M min (RY(J (s), v (i))f (3.29) где в первом равенстве подразумевается предельный переход Мд (Χτ) -> v (t). Событие {Yq = ]} происходит тогда и только тогда, когда jf-й по качеству вариант, из поступивших к моменту t, попадает на (s, i], а остальные / — 1 лучших на (0, t] вариантов попадают на (0, s]. Следовательно, распределение Yq геометрическое, т. е. P{YQ = j} = (s/ty-i(l-s/t). События {Yq ^ г} и {Υσ <ζ г} совпадают, поэтому лемма 3.5 дает г M min (ВУо (s), v (s)) = (1 - (s/t)r) ]g 4" Ri (*) + (*/*)Γ ν (')· Но на множестве {σ <ζ t} = [Υσ ^ г} случайные моменты θ и σ могут не совпадать лишь в том случае, если (s, t] содержит по меньшей мере два из г лучших на (0, t] вариантов, что происхо- дит с вероятностью порядка ((i - s)/tr = o(t-s) так как i ^> δΧ ^> 0. Отсюда получаем lim (v (t) — M min (RYq (t), v (t)))/(t — s) = s 11 =lim (v (t) - Mmln (Rr (t), v (t)))/(t —s) = 8 t < 00 =-г^и*)-ад)+. Из (3.28) следует, что v(t)^Mmm(RYQ(t),v(t)), и вместе с (3.29) это доказывает (3.27) для левой производной £■(·); непрерывность v (·) гарантирует непрерывность левой производной, что влечет равенство левой и правой производных. Теорема доказана. <* 99
Пусть ν <Ζ со и функция потерь непостоянна. Поскольку J?! (·) сходится на (δΧ, 1], то при каждом i > 1 существует един- ственное решение ôf уравнения Rt (t) = v (t), причем 0 < δΧ <; <С δ2 <Ζ . . . и 6t J 1 при i f oo. Исключение составляет случай q (M) = q (oo) при некотором ЛГ, когда 0 < δΧ < . . . < δΜ = = бм+i = . . . = 1. Порог Si — это момент, начиная с которого выгоднее останавливаться на варианте с относительным рангом г, нежели пропускать его. Порог δΧ находится пока на особом поло- жении, так как его мы определили как супремум множества t таких, что B! (t) > v (t). Следовательно, δΧ может не удовлетво- рять равенству Rx (Ьг) = ν (δΧ) только в том случае, если δΧ лежит на границе круга сходимости R1(-). В действительности эта пато- логия исключается, так как она несовместима с условием конеч- ности ν (теорема 3.10). Определим пороговое правило остановки: ^ = г min {t ΕΞ {Тп} I RYt (t) < ν (t)} \ 1, если это множество пусто. эквивалентная запись: ^ г mm{tŒ{Tn}\t>ôYt} \ 1, если это множество пусто. Таким образом, τ* предписывает выбирать вариант с относитель- ным рангом 1, начиная с момента 61? варианты с относительным рангом 2 — начиная с момента δ2, и т. д. Правило τ* — это не- прерывный аналог оптимального правила из задачи <УП, q (Xn)>. Теорема 3.5. Если ν < oo, mo правило остановки τ* является оптимальным. Доказательство. Сначала докажем такое обобщение (3.22): M (q (Ха) /{σ>τ} \f,)>v (τ) /{σ;>τ}. (3.30) Для этого возьмем <tN такими, как в лемме 3.4, тогда Tjv | ти П ^τΝ = fx· В силу (3.22) и монотонности v (·) имеем M (q (Х0) Ι{ο>τΝ) I fxN) > V (τΝ) Ι{σ>τΝ} > V (τ) /<σ>τ^>. Пусть A Œ fx, тогда A ΕΞ fxN для всех Л" и jj ç (Χσ) /{T>Tivl û7P >v{x)\ I{c>xN) dP, Л Л a по теореме о монотонной сходимости 5 ? (Χσ) Λσ>τ> dV > ι; (τ) ξ /{σ>τ} <Я\ Л Л что и доказывает (3.30). 100
По определению τ* и лемме 3.4 M (q (JMI f ^) = RYv)1 (τ*) < ν (τ*). (3.31) Для любого правила остановки τ правило min (τ, τ*) его не хуже, так как ввиду (3.30) и (3.31) M (q (Χτ) I f τ*) /<τ>τ*> > ν (τ*) /{τ>τ*} > M (q (X*) \ f^) /{τ>τ*}. (3.32) Пусть У* = [δ/c-x, ôfr), где δ0 = 0. На множестве {τ Œ J&, τ<τ*} правило τ выбирает вариант с относительным рангом больше к, поэтому на этом множестве RYT(T)>Rk(x)>Rk(ôk) = v(6k). Следовательно, M (q (Χτ) J Уτ) 7{te^t τ<τ*> > ι; (δ») JW,, τ<τ*}, (3.33) т. е. τ может быть улучшено правилом, которое пропускает все варианты на Jfe, a затем совпадает с достаточно хорошим прави- лом из класса SRôt,. Покажем, что для любого правила τ существует при любом к правило τ^ ΕΞ ^бк такое, что правило τ* = τ*/{τ*<0£} + 4kI{i*>bk} не хуже τ, т. е. Mq (Ххк) <1 Mq (Χτ)· Доказательство будем проводить по индукции. Ясно, что при к = 1 утверждение спра- ведливо, так как ν (δΧ) = ν. Индуктивный переход будет доказан, если мы построим правило τ&+1, которое имеет требуемый вид и не хуже тк. Для этого рассмотрим полную систему событий A = {τ* < τ, < δ*+1>, В = {δ,+1 < τ* < τ,}, £ = {τ*<δ*+1<τ*>, D = {τ, < τ* < δ,+1}, Ε = {δ*+1 < τ, < τ*}, ^ = {τ*<δ*+1<τ,}. На множествах A и оправило τ* в силу (3.32) улучшает правило Tfr. На множестве D имеем %к = %ьк, поэтому %к можно в силу (3.33) улучшить правилом из класса ^ôfc+1» которое больше τ*, и, в свою очередь, в силу (3.32) улучшается правилом τ*. На множестве С имеем хк = тьъ Œ C/κ+ι, поэтому тк в силу (3.33) улучшается некоторым правилом μ ΕΞ ^ôfe+1· Теперь положим tfc+i = τ*/(Α U D U F) + Tfr/(A \}E) + \*Jc- Нетрудно видеть, что τ&+1 имеет нужный вид, и Mq (Χτ^) ^ < Щ (Хх,)· Возьмем теперь последовательность {τη} правил остановки таких, что Mq(Xx)-+v. Согласно доказанному, существуют 101
правила То такие, что последовательность правил является оптимизирующей, т. е. Mq (X *) -vy. В силу (3.22) M? (X *) > $ q (Χτ*) d? + v (δη) Ρ {τ* > δη}. (3.34) η (τ*<υη> ПокажвхМ, что ν (δη) -+q (οο). Действительно, если τ > J, то Χτ не превосходит абсолютного ранга наилучшего на (t, 1] варианта, поэтому при t \ 1 M? (Χτ) > M? (Кх (*, 1)) = Mg (Kt (1 - 0) = Hi (1 - 0 î q (∞). Если g (οο) = οο, то Ρ {τ* < 1} = 1, и (3.34) дает при η -νοο Mg (*,*)< », откуда следует оптимальность τ*. В случае ограниченной функции потерь (3.34) дает ι;= J g(Xx*)dP + g(oo)P{T* = l}=:Mg(XT*), {τ*<ι} поэтому τ* во всех случаях оптимально. Теорема доказана. Замечание 1. В задаче с бесконечным числом вариантов все содержательные результаты связаны с условием г;<оо. Однако, эта задача важна нам не сама по себе, а лишь как пре- дельная форма задач с конечным числом вариантов. Далее мы покажем, что во всех случаях νΝ | v (vN — минимальные средние потери в задаче <Fn, q (Xn)>), но чтобы единообразно описать асимптотическое поведение оптимального правила τΝ, нужно опре- делить пороги ôfr и в случае ν = οο. В последнем случае естест- венно положить все од. равными нулю, хотя такой набор порогов не отвечает никакому правилу остановки, так как выражение min{t|yf<oo} не имеет смысла (почти наверное inf {Тп} = = 0). Вообще, случай ν = οο (который мы назвали патологиче- ским) с точки зрения асимптотик в задачах с конечным числом вариантов является значительно более сложным и совсем не ис- следованным. Замечание 2. Из доказательства теоремы 3.5 следует, что τ* — наименьшее оптимальное правило остановки. 3.3. Предельные соотношения в задаче с конечным числом вариантов 3.3.1. Классическая задача наилучшего выбора — это ранго- вая задача с функцией потерь î 0, если i = l; 9®=[1, если i>l; 102
так как для любого правила остановки Mï(XT) = l-P{Xt = l> и минимизация средних потерь равносильно максимизации вероят- ности выбора наилучшего варианта. В соответствующей задаче с бесконечным числом вариантов уравнение (3.27) для цены продолжения выглядит особенно просто: v'(t) = -^-(v(t)-i+t)\ 17 (1) = О, и так же просто решается: il — éT1, если Ο<^<εΓ1; и®=[1 + Ппи если ^<ε<Ι; иоэтому оптимальное правило такое: (ππη<ψ>εΓ1, Yt = i} {1, если это множество пусто, т. е. ν = £~\ δΧ = е"1, а все остальные пороги дк, к^> 1, равны 1. Мы знаем, что в классической задаче с конечным числом вариан- тов N оптимальное правило задано порогами (df, . . ., djy), при- чем только первый порог не совпадает с N. Сопоставляя сказанное с известными результатами, можно заметить, что в классической задаче vN->v, a^/IV->δ*, A = 1,2,... npiiiV->οο. (3.35) Именно в этом смысле задача с бесконечным числом вариантов (Yt, q (Х()У аппроксимирует задачу с конечным числом вариан- тов <Г„, q (Хп)}. Наша ближайшая цель состоит в доказательстве (3.35) для всех, даже неограниченных, функций потерь, если ι;<∞. Это будет сделано путем введения некоторых промежуточных моделей между задачами <Ff, q (Х*)> и <Fn, q (Xn)>, которые также есте- ственно интерпретируются, как задачи наилучшего выбора. В действительности будет получен более сильный результат о сходимости цен продолжений, но мы считаем предельные соот- ношения (3.35) основными. 3.3.2. В п. 3.2 рандомизация задачи (Yn, q (Xn)> путем вве- дения случайных моментов наблюдений была связующим звеном между постановками задач <УП, q (Xn)> и (Yt, q (X*)>. Теперь же это звено будет использовано для «вложения» задачи с N вариантами в задачу с бесконечным числом вариантов. Чтобы описать это вложение, рассмотрим следующую модификацию задачи <YU q (Xf)>. Предположим, что в задаче с бесконечным числом вариантов нам дополнительно известны моменты появления N лучших за весь процесс наблюдения вариантов, но неизвестен порядок по- явления этих вариантов. Иначе говоря, мы знаем, что этими мо- 103
ментами являются Г(1) < 7\2) < · · · < Т(ю (разумеется, это N первых порядковых статистик вектора Т), но не знаем, в какой именно из этих моментов появится наилучший вариант, второй по качеству, и т. д. Для краткости вместо «вариант, появившийся в момент Г(П)», условимся говорить «вариант ап». Таким образом, в процессе выбора мы в каждый момент t ΕΞ (0, 1) знаем не только результаты сравнений уже поступивших вариантов, но и число Nt вариантов из множества {%,..., а^}, которые поступили к этому моменту. Выбор варианта с абсолютным рангом больше N не может быть более выгодным, нежели выбор любого из ва- риантов а1? . . ., ajy, так как в первом случае потери но меньше q (N + 1), а во втором — не больше q (N). Поэтому для любого правила остановки τ можно указать не худшее правило τ', кото- рое предписывает выбор только вариантов из {аъ . . ., αΝ}. В качестве такого правила можно взять — ΙΓ<η)! еслч ?Τ(η-ι)<τ<Γ(η), которое предписывает выбор варианта с абсолютным рангом боль- ше N заменить на выбор следующего по порядку просмотра ап (здесь по определению Т(0) = 0). Таким образом, в модифициро- ванной задаче мы можем искать оптимальный способ выбора (пра- вило остановки) в классе правил, предписывающих выбирать толь- ко варианты из множества {ах, . . ., αΝ} (т. е. останавливаться только в моменты Г(1), . . ., Т^). Но абсолютный ранг варианта αη, определяющий наши потери, зависит только от результатов сравнения вариантов аъ . . ., αΝ между собой и не зависит от результатов сравнения остальных вариантов, поэтому в момент t = Г(П) достаточно принимать во внимание лишь ранг ап среди аъ . . ., an, равный Y\ — относительному рангу ап (среди всех поступивших к моменту t вариантов). Сказанное означает, что модифицированная (знанием Гц), . . ., T^N)) задача (Yt, q (Х*)> является дальнейшей рандомизацией задачи (Yn, q (Хп)У — здесь уже не только моменты Тъ . . ., TN случайны, но и добавляется ненужная инфорхмация о сравнениях худших вариантов. Всякое правило остановки в задаче (Yn, q (Хп)У можно рассматривать применительно к выбору одного из вариантов αλ, . . ., aiV, причем средние потери оказываются теми же. Более того, оптимальное правило в «рандомизированной в квадрате» задаче получается таким способом из оптимального правила в задаче <Yn, q {Хп)У- Говоря формально, мы в задаче с бесконечным числом вариан- тов расширяем класс правил остановки до класса правил, изме- римых относительно σ-алгебр Si = «(Z(i),2,(1),...,rw), где (7(1), . . ., 7\Iv)) — упорядоченный по возрастанию набор {Тъ . . ., TN). Напомним, что Ζ·τ (t) — момент появления варианта, i-ro по качеству к моменту £, а 7\· — момент появления варианта с 104
абсолютным рангом ζ: Гг· = Ζ^ (1). «Считающий процесс» оп- ределяется как Nt = card {i < N I Tt < i}. В наших прежних обозначениях, Çn (Yn) и г;п+1 — соответственно^ ожидаемые при выборе n-ro варианта потери и цена продолжения в задаче <УП, q (Xn)>, a τΝ = min {тг | Ç^ (Уп) < н£+1} — оптималь- ное правило остановки (3.1). В модифицированной задаче <Xt% q(Xt)y, следовательно, оптимальным правилом является τΝ = min {T(n) I Q% (YT(n)) < v%+1) = min {t | <?#( (У,) < ι#(+1>, поэтому роль цены продолжения в момент £ здесь играет случай- ная величина vN +1. Следовательно, если Nt = /г, то минимальные средние потери при продолжении процесса выбора за момент t составляют vn+1, и никакое правило τ ΕΞ 3R* из ^модифицирован- ной задачи (Yt, q (Х*)> не может эти потери уменьшить. Что можно извлечь из этой конструкции? Первое важное след- ствие — это неравенство v3? ^ v. Доказательство тривиально: поскольку iV0 == 0, то yf = yjv0+i ^ ν (0) = v. Было бы очень заманчиво так же доказать неравенство vn ^ v ({п — 1)/N) при остальных п ф 1, но ситуацию усложняет то обстоятельство, что Nt при t = (п — i)/N может принимать любое из значений 1, . .., N. Тем не менее, при больших iV, и n/Ns близких к t, Nt/N «мало уклоняется» от t. На этой идее основы- вается доказательство следующей леммы. Лемма 3.6. Для любого t E: (0, 1) lim sup Vn <[ v (t). nlN-*t Доказательство. По определению Nt есть число T t <^t, i = 1, . . ., Ν, где Тъ . . ., ΤΝ — независимые равномер- но распределенные на единичном интервале случайные величины. Следовательно, Nt имеет биномиальное распределение с парамет- рами (iV, £), т. е. распределение числа успехов в серии N незави- симых испытаний с вероятностью успеха t. Нам потребуется сле- дующий известный результат [32] о вероятностях больших укло- нений: для любого ε ]> 0 sup Ρ{|Λ7,— MNt\>YNlnN} = 0(i/(YNlnN)). (3.36) ε<*<1-ε На множестве {Nt = m} цена продолжения в модифицированной задаче <Yt, q (Х*)> равна г;^+1, поэтому для любого t Œ (0, 1) Vm+\I{Nt=m} ^ V (t) I{Nt=m)» Если m > /г, то ^> ν^, поэтому переходя к математическим ожиданиям и суммируя по m от m = п до m — п + 2Δ, где Δ еще подлежит определению, получаем !#Р {Nt Œ(n,n + 2Δ)} < v (t) P {Nt Œ (я, n + 2Δ)} < v (t). 105
Теперь возьмем t = η/Ν + (In N)/*\fN9 Δ = γΝ In N. Посколь- ку MNt = n + yïV In iV, то (3.36) дает i# (1 - 0 (1/j/W In TV)) < ι; (л/ЛГ + (In N)/yN). При 7i/iV -> t получаем требуемое неравенство. Лемма доказана. 3.3.3. Доказательство обратного неравенства требует более значительных усилий, но при этом будут введены в рассмотрение новые задачи наилучшего выбора, представляющие и самостоя- тельный интерес. Одна из основных черт задачи (Yt, q (Х*)> состоит в запреще- нии .возврата к однажды отвергнутым вариантам. В двух следую- щих задачах это ограничение отчасти снимается. Разобьем весь интервал наблюдения на N равных полуинтервалов Jn=((n—1)/N, n/N], n = 1, . . ., N. Пусть tn — момент появления наилучшего на £/п варианта, который мы назовем «вариантом bn». Ясно, что если в момент t ç= Jn считать доступным для выбора любой из вариантов, появившихся за временной промежуток Jn, то серьезного внимания заслуживает только вариант bn в том смысле, что потери нельзя уменьшить путвхМ выбора любого другого ва- рианта на Jn. В задаче с конечной памятью и частичным возвратом решение о выборе bn может быть основано только на_результатах сравне- ния вариантов Ъъ ..., bn между собой. Пусть Учесть ранг Ъп среди &и . . ., bn; Хп — ранг bn среди Ьъ . . ., bN; Xn— ранг Ъп среди всех вариантов, поступивших на (0, 1). В этих переменных задача с конечной памятью будет обозначаться как <УП, q (Xn)>. В задаче с полной памятью и частичным возвратом решение о выборе bn может быть основано на результатах сравнения всех поступивших на (0, η/Ν] вариантов. Полагая Υη равным рангу bn среди всех вариантов на (0, η/Ν], мы^можем сказать, что задача с полной памятью есть задача <УП> Я (Xn)}· Определим Ai как абсолютный ранг (т. е. ранг среди всех ва- риантов на (0, 1)) того из вариантов bx, . .., bN, который имеет ранг i среди bx, . . ., bN. Вот список формальных определений в обозначениях п. 3.2: 1) tn = Zt ((n - i/)N9 n/N), n = 1, . . ., N; 2) A0=0, Ai+1 = min {j> Ai \Tj& {tl9..., tN}}% i=0,... . ., N — 1; 3) Xn = i, если Zx (n — l/N, n/N) = TA., i = 1, . . ., N; 4) Yn = ;, если для некоторого i ΕΞ {/, · . ·, Щ, tn = ΤΑ. и 7 — 1 штук из ТА., . . ., TAi попадают на (0, (n— l)/iV), /= 1А · · · . . ., п\ ^ 5) Хп = ix если Zi ((^— i)/N, n/N)= Tt, i= 1, 2, . . . (экви- валентное определение: Хп = Xt )î 6) ψη = /f если Zx ((n — i)/N, n/N) = Zj (n/N), j = 1, 2, . . . 106
Непосредственно из определений выводится, что Υη = ΑΙη. (3.37) 3.3.4. Рассмотрим задачу с конечной памятью, т. е. задачу <Уп» Я. (Хп)У' В силу (3.38) для любого правила остановки τ из клас- са Ж правил остановки последовательности наблюдений У1г . . . . . . .» Yn Μ?(Ιτ) = Μ?(Α-), (3.38) поэтому правомерна также запись этой задачи в виде <Уп1 q (AT )>. Проводя аналогию с обычной задачей с N вариантами — <УП, q (Хп)У, можно сказать, что в задаче с коцечной памятью абсо- лютные ранги принимают «случайные значения» Аъ . . ., An, в то время как в обычной задаче эти значения есть 1, . .., N. Эта ана- логия даже более полная -— а именно, задача <УП, q (Хп)> экви- валентна задаче <УП, q (Xn)> с функцией потерь q (i) = Mq (At). Чтобы доказать этот факт, мы сначала изложим основные свойства «случайных рангов» Ai в следующей лемме. Лемма 3.7. Для любых i и к: D M > Ъ 2) Ai не зависит от (Хх, . . ., XN, Уь . . ., У^); 3) Р {Ai+1 -At=k} = (i- i/N)(i/N)k-i. Доказательство. 1) Ранг всякого варианта из {blt... . . ., bjv} среди b1? . . ., bjy (в частности, и ι-το по качеству среди bi> · · ·> bjv) не меньше его ранга среди всех вариантов на (0, 1). 2) Наилучший вариант среди всех на (0, 1) будет также наилучшим на интервале своего появления (т. е. на соответствующем £fn)t поэтому A! = 1. Предположим, что утверждение справедливо для некоторого i > 1, тогда на множестве {Ai = /} равенство Ai+1 = = к имеет место в том и только в том случае, если Г7+1, . .., Т^г попадают на те интервалы, которые содержат какие-нибудь из 7\, . . ., Tj, a 2\ ни на один из этих интервалов не_ попадает. По- скольку указанное событие не зависит от Хъ . . ., XN (перестанов- ка интервалов С/±, . . ., On приводит к тем же распределениям)^ Р {^i+i = к I Xv · · · » Xn) = fr-i _ __ = Σ V{Ai+1 = k\I{A=j}, *lf..., Χν>Ρ {Ai=/|^ ..., Χν}= 3=1 fc-l = Σ V{Au.1 = k\Ai = j}J>{Ai = k} = J>{Au.1 = k}, ;=ι и, следовательно, Al+1 не зависит от Х^ . . ., Х^· Независимость от Ух, . . ., У# есть следствие того, что (Ух, . . ., Yn) есть функция от (ΧΙ,^ . ., Х^Мкак и для обычных рангов Уп и Хп : Уп есть число Хх, . . ., Хп, не больших Хп). 3) Повторяя предыдущее 107
рассуждение, получаем P{^i+i-Ai=A:|Ai = 7} = P{Ai+i=7 + ^|Ai = 7} = поэтому оо P{Ai+1 — Ai = k}= 2 P{Ai«-Ai = A;|Ai=:/,}P{Ai = 7} = = S(i- un) (i/N)*-i p {^=л = (i - */ло (да-1 (в силу Ai ^ i)· Лемма доказана. Теперь мы докажем основное утверждение относительно зада- чи с конечной памятью. Лемма 3.8. Задачи <Yn, q (XJ> и <УП, q (Xn)>, где q (i) =* = Mq (Ai), являются эквивалентными. Доказательство. В силу (3.38) и п. 2) леммы 3.7 имеем для любого правила остановки τ ΕΞ Зй Мд (Χτ) = Mg (А^) = M (M (g (Α^) |4lf..., Α„)) = JV N = Μ(Σ? (40 P{Xx = n\Av..., A„})= S Mg (A„)P{ Jt=«}= n=l n=l = Σ q(n)J>{Xx = n} = Mq(XT). η=>ι Кроме того, случайный вектор (Хъ . . ., XV) с равной вероят- ностью принимает любое из N\ возможных значений^ (эти значе- ния — перестановки), поэтому векторы (Хъ . . ., XN, Ух, . . ., У/у) и (Хь . . ., XN, Уъ . . ., YN) имеют одинаковое распределение. Следовательно, одно и то же правило может рассматриваться при- менительно к любой из задач <УП, q (Xn)> и <УП, q(Xn)}, при этом оно дает одинаковые средние потери. Лемма доказана. Как следствие получаем, что в задаче с конечной памятью оптимально правило остановки ?v = min{n|ÇnJ(Fn)<i;n7+1}, где Qn (0 определяется формулой (3.3) через q (i) вместо q (i)% a v% — формулой (3.2) через Q% (i) вместо Qn (О» τΝ — пороговое правило. Поскольку Ai :> i, то q (i) = Mq (Ai) > q (i). Следовательно, для всех п vS<v%. (3.39) Если функция потерь ограничена, то функция потерь q (·) также ограничена. Исключая тривиальный случай q (1) = q (00), 108
заметим, что при η/Ν -> t e= 10, 1) г;^ отделено от q (оо), т. е. lim supzJn <g(oo). (3.40) n/N-+oo Чтобы убедиться в этом, достаточно взять любое правло τ ;> п из класса 9Я, дающее отделенную от нуля вероятность выбора наилучшего из вариантов bv . .,., b#, например, пороговое пра- вило из классической задачи ( min{&>max(n, —)|Ffe = l}, ( 1, если это множество пусто. 3.3.5. Перейдем к задаче с полной памятью <F~n, q (X)n>. В этой задаче решение о выборе варианта Ьп, лучшего на С/п =* =((n — l)/iV, η/Ν], определяется рангомТп. Обозначим 9R класс всех правил остановки τ в этой задаче, т. е. принимающих значе- ния 1, . . ., N и измеримых относительно σ-алгебр fyx, SF2/N1 · · · . . ., $Ρν где $Fn/isr порождается вектором Z {n/N) и содержит всю информацию относительно результатов сравнения всех вариантовя поступивших к моменту ^= η/Ν. Случайная вел:ичина Yn, согласно своему определению, изме- рима относительно σ-алгебры fSit (см. п. 3.2.3), где s = п — i/N9 t = η/Ν, поэтому она не зависит от $f8 и, следовательно,; все Υ\ι · · ·» Yn независимы. Согласно (3.23) на множестве {1Гп = к} M(q(Xn)\fn!N) = Rk(n/N)t где Rj, (·) определяется формулой (3.24). Из независимости Yu ... . . ., Yn и последней формулы следует/ что в задаче с полной памятью (и частичным возвратом) имеет место случай независимых наблюдений. Применение метода обратной индукции позволяет доказать оптимальность правила остановки ^ = min {п | v%+1 > r (n/N)}, (3.41) где цена продолжения является решением рекуррентного уравне- ния 5п = M min (!&!■ Щ {n/N)), V%+1 = оо. (3.42) Событие {Υη = к} происходит в том и только в том случаев если Ьп имеет ранг к среди всех вариантов на (0, n/N], a все лучшие bn варианты из поступивших к моменту t = η/Ν вариантов не попадают на Jn. Следовательно, п \ п J 109
Мы можем, следовательно, записать уравнение (3.42) как *-Σ·Η»-ΓΓ-"(*(τ).»ι4 fc=l с граничным условием *-|>т(«-тГ· fr=l Функция Rk (·) не возрастает, а £„ строго возрастает по ге (исключая тривиальный случай постоянной q (·)), поэтому из (3.41) следует, что оптимальное правило остановки в задаче с полной памятью является пороговым, т. е. задано некоторым набором порогов (аъ d2, . . .), аналогично задаче <УП, q (Xn)>. В задаче с полной памятью мы при решении вопроса о выборе очередного варианта bn располагаем большей информацией, чем в задаче с конечной памятью, поэтому f D®i и» следовательно, для любого п ï%^v%. (3.43) Кроме того, всякое правило остановки τ ΕΞ 3R(n-i)/N можно использовать для выбора одного [из вариантов Ъъ . . ., b^y, счи- тая, что выбирается вариант b^, к = п, . . ., N, если τ ΕΞ Cfjc Поскольку Ьк — наилучший вариант на J^, то указанный способ выбора не увеличивает средние потери правила τ, поэтому %η<ν((η-1)/Ν), (3.44) т. е. в задаче с полной памятью средние потери меньше, чем в задаче <Yt, q (X*)>> что обусловлено, конечно же, расширением класса стратегий выбора. 3.3.6. Анализ ранговых задач наилучшего выбора сильно зат- рудняет то обстоятельство, что в общем случае функция потерь не ограничена. Если q (оо) < оо, то исследование всех предельных соотношений значительно упрощается, так как функция потерь слабо дифференцирует варианты с большими рангами, и если сле- дить только за вариантами с рангами (относительными, абсолют- ными и любыми другими), меньшими достаточно большого числа* скажем М, то это средних потерь почти не увеличивает по срав- нению с оптимальным способом выбора. Еще проще исследова- ние предельных соотношений для таких функций потерь, которые совсем не различают вариантов с достаточно большими рангами^ поэтому естественно сначала доказывать предельные переходы в задачах с наиболее простыми функциями потерь, а затем аппрок- симировать более сложные функции потерь. Так, назовем усеченной функцией потерь (по отношению к ис- 110
ходной функции потерь q (·)) функцию потерь ( q (i), если i<^M; gMii)==\q(M), если i>M. (3'45> По определению, q (M) = q (oo) < со. Все переменные, которые имеют смысл правил остановки, порогов или средних потерь и относятся к усеченной функции потерьг будем снабжать допол- нительным нижним индексом: как то δΜ/£, ι>μ, Rmi* (*)» ум(0 и τ· π· Следующее утверждение относится к задачам с бесконечным числом вариантов (Yt, q (Xt)} и (Yu qM (Χ*)>· Лемма 3.9. 1) Для любой функции потерь q (·) и t ΕΞ (02 1) vM(t) | v(t), в частности, vm f v\ 2) ес/ш ι; < со, то эта сходимость равномер- ная на любом интервале (О, s), s < 1; 3) если q (со) < со, то схо- димость равномерная на всем [О, 1]. Доказательство. При любом M правило остановки Тм, определяемое через #м(')> является оптимальным в задаче (У и qM (Xt)), так как νΜ < 2μ(°°) = Я (M) < со и, следовательно, справедлива теорема 3.5. Несколько модифицируя доказательство этой теоремы, можно показать, что в классе SK*, правил остановки τ > £, оптимальным является правило τ^, заданное порогами (t,.. . , t, 8Mk, ом, fe+i».. .)' гДе$м& — ближайший к t порог из полу- интервала (£, 1], и б^м = δ^, м+ι = . . . = 1. Воспользовавшись в случае необходимости выбором подпоследовательности Mi, для которой одноименные пороги сходятся, мы можем считать, что для любого к существует предел ак = lim 6Мк. Пусть τ30 — предель- М-*эо ное правило остановки, заданное порогами (t,..., t, ак, ak+v...), где ак есть наименьшее o&j ^ t. Покажем, что при фиксированном L MqL (τΜ) -* MqL (τ~), M -> oo. (3.46) Действительно, при каждом ε существует лишь конечное число порогов аь скажем /', меньших 1 — ε. На множестве {τ°° < 1 — — ε} правила τ00 и %м не совпадают только в том случае, если на одном из отрезков вида [ inf ômi, sup àmi], î = l,...,; τη>Μ τη≥-Μ появляется вариант с относительным рангом не выше /. Посколь- ку указанные отрезки лежат справа от t, то вероятность несовпа- дения τΜ с τ°° на {τ30 <^ 1 — ε} при M -*· со бесконечно мала,: так как длины этих отрезков стремятся к нулю, а число их ко- нечно. Что касается интервала (1 — ε, ε], то в задаче с функцией потерь 2l(·)» потери вообще любого правила остановки τ на множестве {τ > 1 — ε} близки (по вероятности) к q (L)f так как 111
вероятность попадания одного из вариантов с абсолютном рангом не больше L на (1 — ε, ε) равна 1 — (1 — e)L, a при выборе любого другого варианта потери (в задаче (Yt, qL (X*)>) равны q (L). Остается заметить, что в силу уже использованных аргу- ментов при M ->■ оо Ρ{τΜ>1-ε}->Ρ{τ~>1 — ε}, и положить ε -> 0. Это доказывает (3.46). Теперь для M > L Щм (ΧτΜ) > Щь (ΧτΜ) ~> Щь (Χτοο), M -> оо, а по теореме о монотонной сходимости при L -> оо Шдь(Х^) Î Μ?(Χτ∞), так как чем больше L, тем больше qL (i), i = 1, 2, . . .. Этот пре- дел не меньше v (Ζ), так как τ°° ΕΞ 50?^. Следовательно, lim vM (t) = lim MqM (X% ) > v (t). M-*oo M-*co M Обратное неравенство очевидно, поэтому vM (t) j v (t). Теперь 2) следует из монотонности и непрерывности (теоре- ма 3.4) v (·) при г;<оо, а 3) — из неравенства v (t) <ζ q (оо). Теорема доказана. 3.3.7. Наша ближайшая задача состоит в доказательстве предельных соотношений для усеченной функции потерь. На протяжении всего раздела мы считаем параметр усечения M фик- сированным. Затем мы обобщим полученные результаты на задачи с произвольными функциями потерь. Сразу же отбросим тривиаль- ный случай q (1) = q (оо), когда все правила остановки дают одинаковые средние потери. Лемма 3.10. Для любого M = 1, 2, . . . при N ->- оо sup | Рмп — vM ({п — i)/N) | -> 0. п Доказательство. Пусть f — правило остановки из класса 9R (т. е. в задаче <Y„, Ям (Хп)У с полной памятью и частич- ным возвратом) такое, что τ ^ п и средние потери этого правила составляют νιΜη, т. е. Как следует из п. 3.3.5, τ = max (п, fN), где τΝ определено в (3.41) (мы подразумеваем наличие индекса M y всех рассматри- ваемых правил остановки и порогов). Кроме того, v^m строга возрастает по m и не превосходит q (M), a RMk (t) = q (M) при к ;> M. Следовательно, при N > M правило τ задается поро- гами (n,. .. , n, rifc,. . . , dM, N, iV,...), 112
где dk равно наименьшему di > n, а полный набор (<2Ь d2, . . .) определяет оптимальное правило τΝ. Сказанное означает,что для любого т^ п, если Ут > М, то Ч Ф т. Поставим в соответствие правилу τ правило остановки τ ΕΞ £= SR(n__i)/jv (в задаче с бесконечным числом вариантов (Yu q (Xf)>), определяя τ порогами ((л - 1)/W,. . . , (η — l)/iV, dk/N,.. ., dM/IV, 1,1,.. .), ^————-к, ' (обратный прием использовался для доказательства (3.44)). По определению {τ = m) = {τ Œ Jm = ((m — i)/N, m/N]}, т. e. τ и τ всегда выбирают вариант с одного и того же полуинтер- вала (напомним, что f = m означает выбор варианта bm, лучшего» на С/т)- Кроме того, в силу (3.44) MqM (Щ = vin ^vM{n- i/N) < MqM (Xx). (3.47) Покажем, что для любого ε > 0 и всех достаточно больших N Щм (Χτ) < MqM (X=) + ε. (3.48> Для всех m = η, . . ., N — 1, если правила τ и Î выбирают раз- личные варианты с Jm, то по крайней мере два из M лучших на (О, m/N] вариантов попадают на 21т, вероятность чего равна (м\ _L Исключение составляет £/n, но если τ = N и τ = 1, то потери обоих правил равны q (M); в случае же, когда τ = Ν, τ < 1 в выбранные варианты различны, имеет место вышеуказанное со- бытие. Следовательно, MqM (Χτ) - MqM (Щ < q (M) P {τ φ ï} = = g(M)^ P{T#f,T = n}<ï(M)(f) £^, (3.49> где под "τ ^= τ" понимается выбор различных вариантов. Покажем* что правая часть в (3.49) стремится к нулю при N -> оо. Для этого достаточно доказать, что <^->οο, так как n > <2Х, a ряд ΣΙ/ττι* сходится. Действительно, по определению, порог dx — это такое &, начиная с которого в задаче с полной памятью выбор относи- тельно лучшего варианта, т. е. с рангом Yk = 1, становится более выгодным, нежели продолжение наблюдений, поэтому из (3.40) получаем Rmi {dJN) < O%M < vSm. (3.50} Предположение об ограниченности аг приводит к противоречию! m
так как тогда мы из (3.40) и (3.50) имеем при N -+ оо (так как (Ъ + iy/N^O) limsup RMl (dx/N) < lim sup ναΜ < q (oo) = q (M), N N в то время как fr=i Итак, (3.48) доказано. Поскольку τ е= $i(n-i)/iv» то (3.48) дает при больших N и всех vM(n — i/N)^V&n + e. Остается сравнить это неравенство с (3.47), положить N ->■ оо иг наконец, ε ->· 0. Лемма доказана. . Следующее утверждение обосновывает асимптотическую экви- валентность основной задачи <Fn, qM (Xn)> и задачи с конечной памятью <УП, дм (Хп)> для усеченных функций потерь. Лемма 3.11. Для любого M = 1, 2, . . . при N ->■ оо sup | Умп — г;мп | ~> 0. п Доказательство. В силу (3.39) vmu^vmu· (3.51) Пусть τ — правило остановки в задаче (Уп, qM (Xn)>, которое предписывает пропуск первых п — 1 вариантов и имеет потери^ равные v^n. Это же правило будет рассматриваться применитель- но и к задаче <Fn, qM (Xn)>. Равенство qM (Хх) = qM (Хх) = ? (^τ) имеет место, если происходит одно из двух следующих событий: В = {ХХ>М), С = {ХТ<М, Хх^%). В самом деле,, в случае В потери τ в обеих задачах равны q (M), а в случае С равенство очевидно. Таким образом, эти потери могут различаться только в том случае, если Ai > i для некото- рого i < M. По лемме 3.7 ^ М-1 М<? (Χτ) - Щ (Хх) < q (M) P { V (Ai > 0) = г=1 M-i M~l ^q(M)(l-P{A(Ai = i)}) = q(M)[l- Π (l —Tsr))j Поскольку ранги Хп и Fn имеют то же совместное распреде- 114
ление, что и Хп и Υη, то VMn = Щм (Χτ)> а поскольку VMn < Щм (Хи)> то получается оценка М-1 »JL-i>M«<?(M)(l- П (l--U)-»°> ^-^оо. 4 г=1 V ' Вместе с (3.51) это доказывает лемму. Для усеченных функций потерь следующий результат является основным. Лемма 3.12. Для любого M = 1, 2, . . . при iV-> оо SUp | VMn — VM (П/Ю I -> 0. η Доказательство. В ходе доказательства леммы 3.6 была получена оценка равномерная по всем η ΕΞ t^Ve, iV (1 — ε)]. Покажем, что она рав- номерна на более широком промежутке n ΕΞ (0, N (1 — ε)). Для этого заметим, что vM (t) постоянна на (0, δΜ1), и отношение dM1/N также отделено от нуля при N -> оо, что следует из опреде- ления (3.7), отделенное™ z;mi от q (M) и равенства lim Ç^i (1) = 0· η/Ν-* ∞ Теперь заметим, что в (3.27) не более M слагаемых, каждое иа которых не больше q (M), поэтому на всем [0, 1] производная v (t) оценивается сверху числом Mq (Μ)/δΜν Следовательно, , ,ι , IniV \ / η \ ^JtjMJ*»-. (3.53) ômi VN Следующие утверждения относятся к задачам (Уи qM (Х*)> и (Ym Чм (^η)>- Вероятность появления одного из вариантов с абсолютным рангом не больше M в какой-нибудь момент t ΕΞ (1 — — ε, 1] (n Œ (N (1 — ε), N]) равна 1 — (1 — ε)Μ (стремится^ к 1 — — (1 — ε)Μ). Следовательно, lim sup J vM (-£-) - vM (-£-) I < q (M) (1 - ε)Μ. (3.54) ΤΓ>ι-β Из (3.52) и (3.53) получаем при всех η < iV (1 — ε) ^„<,м(^) + 0(-^). (3.55) 11S
Из неравенств (3.43) и лемм 3.10 и 3.11 получаем Vm ( "Jv" ) — vMn = ( vm ( 7ν" ) — **мп) + (рмп — ймп) + + {Ли - vL·) < (vm (ητ) - ^Йя) + A - V%n) -> 0, N —>οο, причем эта сходимость равномерная по п. Вместе с (3.54) и (3.55) это доказывает лемму. Заметим, что в доказательствах лемм 3.10 и 3.11 оценки ско- рости сходимости имели порядок 1/Ν, и только лемма 3.6 давала оценку порядка (IriNyYN. Каков же истинный порядок сходимо- сти ι/щ к νΜ? Доказательство лехммы 3.12 дает оценку О ((In N)/ ]fN)· Обратимся, однако, к классической задаче и увидим, что она дает основание для предположения о порядке О (1/N). Это дейст- вительно так для всех усеченных функций потерь, а именно: Муцци [64] показал, что vm - !$ι < см (? (М) - q (1)) AT*, где константа см зависит только от М\ но уже для ограниченных функций потерь имеется только оценка [64] N ^ / / \ /л\\ I ln/V , а (оо) — g(c2ln/V) \ ν-ъ <c1(g(oo)-g(i))(Tr+gtg(io)rg(1) }), где константы сг и с2 не зависят от преобразований функций по- терь вида q (·) -> aq (·) + b, a > 0. 3.3.8. Наконец, мы можем доказать следующую важную тео- рему. Теорема 3.6. Для любой функции потерь q (·) и t £= [0,1] 1) lim v% = v(t), n/N—t 2) если v < оо,; то для любого ε > 0 lim sup ■г—(τ)|-°· 3) если q (оо) < оо, то в 2) можно положить ε = 0. Доказательство. По леммам 3.9 и 3.11 имеем y(t)= lim yM(i) = lim lim 4n^ lim liminf Умп =liiiiinf y^, a обратное неравенство составляет содержание леммы 3.6. Свой- ства равномерной сходимости следуют теперь из монотонности v„ по п и непрерывности у(·) при у<оо на любом отрезке [0> 1 — ε], а в случае ограниченной функции потерь — на всем [0t 1]€ причем v (1) = q (оо). Теорема доказана. Вот наиболее важные следствия. 116
Следствие. 1) ν? ->· ν (0), TV-^oo; 2) если R± (t) <^ oo для всех i G (0, 1] и ν < oo, /no d^/iV -> ôfe, длявсехк = 1,2,...; 3) если Ri (t) < oo для всех t е= (0, 1] u у = оо, nw d^/TV ->· 0, к -1,2,... Доказательство. Первое утверждение очевидно. Далее, если ι; < оо, то ν (·) непрерывна на [0,1]. Сходимость всех Л^ (·) равномерная на любом отрезке [ε, 1], если R1 (t) < oo при i G (0, 1]. В последнем случае нетрудно равномерно оценить разность Qn (к) — R^ (n/N) и получить 2). Наконец, в условиях 3) отношение d^/N не может оставаться отделенным от 0, так как при η/Ν > ε функция ожидаемых потерь Q„ (к) ->■ Rk (n/N) ив следовательно, ограничена, в то время как ν„ ->οο. Следствие доказано. Еще при рассмотрении классической задачи в п. 2.1 мы опре- делили асимптотически оптимальное правило остановки как пос- ледовательность правил остановки τΧ, τ2, . . . в задачах с N = it 2, . . . вариантами, для которой вероятность удачного выбора стремится к е"1. При этом было показано, что асимптотически оп- тимальным является пороговое правило с порогом d, если d/N —> -> е'1. Аналогично назовем последовательность правил τΝ в задаче <УП, q (Хп)> с N вариантами асимптотически оптимальным пра- вилом, если при N -> оо Mq(XXN)-*limv? = v Ν-*∞ (заметим, что при ν = оо это условие более слабое, нежели условие сходимости к нулю разности средних потерь оптимального пра- вила и τΝ). Обобщением утверждения об асимптотической оптималь- ности в классической задаче является следующая теорема. Теорема 3.7. Если функция потерь ограничена, то для асимптотической оптимальности порогового правила τ#, заданного зависящими от N порогами (dv d2, . . . ), необходимо и достаточ- но выполнение условий lim dk/N = ôfc, k = 1, 2,... . Доказательство. Детали нижеследующего рассуж- дения легко восстанавливаются. Сначала докажем достаточность. Будем представлять себе, что варианты в задаче <УП, q (Xn)> появляются в моменты i/N, 2/Nt . . ., 1. Потери любого правила как в задаче (Yn, q (Хп)>, так и в задаче (Yt, q (Х*)> на участке t > 1 — ε близки (по вероятности) к q (oo), когда мало ε. На участке îg(0, 1 — ε] имеется лишь конечное число, ска- жем М, порогов, поэтому здесь нас интересуют лишь варианты с относительными рангами не выше М. Моменты появления ва- риантов с относительным рангом к в задаче (Yn, q (Хп)> ПРИ N ->■ оо могут рассматриваться как моменты скачков пуассонов- 117
ского процесса переменной интенсивности 1/t, причем процессы, отвечающие различным к, в пределе независимы. Но точно таким же является и процесс появления таких вариантов в задаче <У<? q (Х*)>> что по существу и утверждалось в лемме 3.5. Из условий сходимости порогов теперь следует, что имеется сходимость по распределению ^τ^Λτ/ν<Ν<ι-ε)) —*" Y τ*Ι {х*<Щ1-£}' N -> оо. Из равномерной по п сходимости ρ» до _як (.£.), ν->∞, получаем M (Q?s (YXN) I{rN<mi-m) -> M {RYxif (τ*) /,*<«,). Остается заметить, что Р {τΝ > N (1 — ε)} ->- Ρ {τ* ^> 1 — ε} и устремить ε к нулю. Перейдем к необходимости. Выберем такую подпоследователь- ность значений iV, чтобы зависящие от N пороги аъ d2, . . . давали сходящуюся последовательность отношений dk/N -> Хк. Повто- ряя предыдущее рассуждение, докажем, что средние потери τΝ стремятся к средним потерям правила с порогами (λ1? λ2, . . .) в задаче с бесконечным числом вариантов. Если хотя бы одно λ^ не равно δ^, то это правило дает потери больше ν (см. следующий п. 3.4.). Теорема доказана. Этот результат теряет смысл при ν = оо и не обобщается на случай, когда ν < оо, но функция потерь не ограничена, так как в последнем случае важен уже порядок сходимости отношений dk/N к порогам δ^. Замечание к доказательству. В основу вероят- ностной модели задачи с бесконечным числом вариантов (Yt, q (Xt)} можно непосредственно положить предельный процесс от- носительных рангов. Делается это так. Пусть на (0, 1) имеется счетное число независимых пуассоновских процессов интенсив- ности 1/t каждый. Занумеруем их числами 1, 2, . . . и положим Yt = к, если t — момент скачка к-то процесса. Чтобы определить абсолютный ранг, сначала введем текущий ранг (варианта, посту- пившего в момент t, среди всех вариантов на (0, s]) двумя условия- ми: Yt) t = Yt\ Ytt s+δ = Yt, s + li если на [s, s + Δ] произошел ровно один скачок одного из процессов с номерами 1, 2, . . ., Yt, s» где t <; s. Процесс Ytt s при фиксированном t является марковским и изменяется в сторону больших значений, причем р {у,, х=к | Yt=i)=(*-/) е (i - tf-\ т. e. Yf i < оо (п. h.), что и позволяет положить Xt = Yt, ι· 118
3.4. Пороговые правила остановки и исследование уравнения для цены продолжения в задаче с бесконечным числом вариантов 3.4.1. По существу все основные результаты в ранговых задачах наилучшего выбора, рассматриваемых в этой главе, со- стоят в доказательстве оптимальности или асимптотической опти- мальности в классах пороговых правил остановки. Например, в задаче с бесконечным числом вариантов, которая является пр - дельной формой классической задачи наилучшего выбора, поро- говое правило f πηη{*|*>λ, Yt = l} λ (1, если это множество пусто, приводит к средним потерям / (λ) = 1 + λ In λ, а оптимальное правило τ* соответствует порогу δΧ = е'1, который является точ- кой минимума / (·). Обобщение этого факта на произвольные функции потерь содержится в нижеследующей теореме, относя- щейся к задаче <Yt, q №)>· Пусть τ — пороговое правило остановки, т. е. } 1, если это множество пусто, где Хг <J λ2 <ζ . . . , λ^ -> 1. Положим / (λΧ, λ2, . . . ) = Щ (Χτ) = МДГт (х). Теорема 3.8. Пусть Rt ft) <^ oo при всех t ЕЕ (0г l]t тогда: 1) если λΧ = 0, то f (λΧ, λ2, . . . ) = q (oo); 2) если λ1 > 0 и f (λν λ2, . . .) = oo, mo f (μΧ, . . ., μ^, Xk+U λ^+2 . . .) = οο при любых ku0≤ζiμ1^!...≤ζ!μk^l λ&+1; 3) если/ (λ1? λ2, . . . ) < οο, то f (μΧ, . . ., μ^, λ^+1, λ^+2, . . . ) равномерно ограничено при фиксированном к и μι ;> ε > 0Σ где г — произвольно; 4) если f (klf λ2, . . .,) < oo, то функция îk ft) = / ft» ···>£> λ^+1, λ&+2» . ..) ï ' непрерывна на (О, λ&+11 и удовлетворяет дифференциальному уравнению к Ы')=-]-£|(Ы*)-ЗД); г=1 оо к ^fe+1 к ∞ 5) /(λΧ,λ2,...)=^(n^i) $ ^Хзд^ + (П^)?(~); 119
6) V (t) = / (t, . . ., t, Ôfc+1, Ôfc+2, . .. . ) При Ôfc_! < t < ôfe, δ0 = 0 — в частности, ν = ν (0) = f (δΧ, δ2, . . . ); 7) ôk является корнем уравнения fk (t) = Rk (t), если v < со и Aj = Oj, l ^> /CJ οο ft: с» 8) f(h,λ2 )< S (λ^ Πλ,)Rk(lk) + (Π λ,)g(oo). fr=l i=i i=l Доказательство. 1) Интенсивность потока относи- тельно лучших вариантов равна i/t, поэтому почти наверное лю- бая окрестность 0 такой вариант содержит. Поскольку Bx (t) j J # (ex)) при i I 0, то при λΧ J О потери # (Χτ) сходятся по ве- роятности к q (oo). 2)—3) Средние потери τ складываются из средних потерь при остановке до момента t = λ^+1 и средних потерь при остановке после этого момента. Первое слагаемое конечно в силу равномер- ной сходимости Ri (·), i = 1, . . ., к на [Xk, Xk+1], которая, в свон> очередь, вытекает из сходимости Rx (·) на всем единичном ин- тервале. Второе слагаемое есть λ λ Р {τ > λ*+1} M? (X,) = 1·;· k f (t,. . . , t, λΛ+ι, λ*+2, . . .) λ*+ι ■ £ ' так как на множестве {τ ^ λ^+1} это правило совпадает с незави- сящим от прошлого течения процесса до момента t = λ^+1 прави- лом τ' с порогами (i, . . ., t, λ^+1, λ^+2, . . . ). То же относится и к правилу с порогами (μ17 . . ., μ^, Xk+l, Àfe+2, . . . ), поэтому оба правила одновременно дают конечные или бесконечные средние потери, если только μ1 > 0. 4) Следствием 3) является равномерная ограниченность /^ (·) на [λλ., λκ+1]. Далее, при [s, t] CZ [λ^., Xk+1] имеем Ш/* (*)НШНМ (*γσ (σ) /,σ<,> - h (t)), (3.56> где σ — первый момент появления на Is, t) варианта, относитель- ный ранг которого не превосходит к (определен в лемме 3.5). Правая часть (3.56) стремится к нулю при s f £ или t l s, так как вероятность появления требуемого варианта имеет порядок о (t — s), a функция под знаком математического ожидания конеч- на. Это доказывает непрерывность /*.(·)· Далее следует применить аргументы доказательства теоремы 3.4, которое здесь упрощается из-за того, что не нужно рассматривать момент появления луч- шего на [s, t) варианта (обозначаемого ранее Θ). 5) На полуинтервале [λ^, Хк+1) правило τ останавливается на первом попавшемся варианте с относительным рангом не больше кг если только выбор не был произведен до момента t = Хк, и такой вариант действительно появляется. Если х = t ΕΞ [λ^, λκ+1), то Yt с равной вероятностью принимает любое из значений 1, . . .,& (лемма 3.5), причем если Υτ = к, то ожидаемые потери равны Rk (τ), а интенсивность потока таких вариантов составляет kit. 120
Остается заметить, что при τ = 1 потери составляют q (со), а веро- ятность остановки в момент t = 1 равна указанному бесконеч- ному произведению. Эту формулу можно получить также предель- ным переходом из (3.11). 6)—7) Прямые следствия теоремы 3.5. 8) При остановке на [λ^, λ^+1) наибольшие ожидаемые потери составляют Rk (Хк) ввиду двоякой монотонности Ri (·) (по г и t). Теорехма доказана. Несколько слов о значении этой теоремы. Во-первых, измене- ние конечного числа порогов не может дать качественный скачок средних потерь, лишь бы пороги были отделены от нуля. Во-вто- рых, формула 5), несмотря на свой малопривлекательный вид, дает решение основного уравнения (3.27) на [ôfc, ôfe+1] — стоит ТОЛЬКО ПОЛОЖИТЬ λΧ = . . . = λ^ = ty λ/£+1 = ôfc+1, λκ+2 = ôfc+2, · · · · Наконец, 8) дает оценку у, поэтому если подобрать пороги та- кими, чтобы правая часть была конечной, то и будет показано, что V < оо. Оставшуюся часть раздела мы посвятим исследованию условий, при которых ν <С оо, а также условиям единственности решения уравнения для цены продолжения. 3.4.2. Теперь мы переходим к одному из наиболее интересных результатов, относящихся к ранговым задачам: для функций по- терь полиномиального роста минимальные средние потери в за- даче с бесконечным числом вариантов являются конечными. В свете предыдущего параграфа можно также сказать, что эти по- тери в задаче с конечным числом вариантов остаются ограничен- ными (хотя и возрастают) при неограниченном увеличении числа вариантов. Нетрудно понять, что любой полином от к степени m представ- ляется в виде Ч)+Ч'Л+-+<Г). поэтому конечность ν достаточно проверить только для функций потерь вида q (к) = к {к + 1) . . . (к + т). (3.57) Такие полиномы хороши те:м, что функции ожидаемых потерь вы- глядят особенно просто, а именно: оо г=к к(к + 1) . . .(к + т Y([+™\ti+m{i_t)i-K = tm+i ZmJb\k-\-m] v ' i=k k(k + l)...(k + m) tm+i (3.58) 121
где справедливость последнего перехода обусловливается тем, что под знаком суммы стоит полный набор вероятностей отрицательно биномиального распределения. Теорема 3.9. Для функций потерь полиномиального роста у< оо. Доказательство. Пусть q (·) имеет вид (3.57). Мы только усилим неравенство 8) из предыдущей теоремы, если за· меним в нем все Êk (kk) на Rk (λ^, а это в силу (3.58) дает оценку °° к оо fe=l i=i i=l -Ê(tf n M t<t+'';~,t+''+(n *■)«<">■ fr=l i==l l i=l Таким образом, конечность v будет доказана, если мы подберем пороги λΧ,λ2, . . . так, чтобы выполнялись следующие три условия λι < λ2 < . . . < 1, (3.59> оо Πλ4 = 0, (3.60) г=1 Σ К π λ.) fc(fc+1^(fc+m) < <». (3.61) fc=l i=i 1 Положим по определению к ^ S lî = k(k+i)...(k + m+i)(k + m + 2) ' (3·62) Поскольку ряд оо ΥΠ 1 ^j (h + m + 1) (к + m + 2) fr=4 сходится, то подстановка (3.62) в (3.61) приводит к сходящемуся ряду, т. е. (3.61) при таких λ^ выполняется. Обратимся к условию (3.60). Разделив (3.62) на такое же вы- ражение, но с увеличенным на единицу кх получим (λ*+1Α*)* = 1 + {m + 3)/Л. (3.63) Легко проверить, что (3.60) равносильно расходимости произведе- ния что, очевидно, выполняется ввиду (3.63). 122
Остается разобраться с (3.59). Монотонность порогов видна из (3.63), нужно только добиться выполнения условия λ^+1 ^ 1, которое равносильно условию или, переходя к логарифмам и подставляя (3.63), £-Hf+^)<i· Сходимость этого ряда позволяет взять λΧ достаточно малым, но ненулевым, чтобы неравенство выполнялось, и, следовательно, выполнялось (3.59). Теорема доказана. Грубость оценок, использованных в доказательстве, позволяет предположить, что у<ооив значительно более широком классе функций потерь, однако рассчитывать на конечность во всех слу- чаях не приходится, что подтверждается следующей теоремой и ее следствием. Теорема 3.10. Если ряд А;2 fr=i (3.64) расходится, то v = со. Доказательство. Будем рассуждать от противного и покажем, что конечность υ влечет сходимость (3.64) при неогра- ниченной функции потерь (если q (со) < со, то такое утверждение тривиально). Действительно, пусть у<со, тогда поскольку τ* < 1 почти наверное, имеем при к -*· оо в пороговых значениях t = ôfc υ (8к) Р {τ* > δλ.) = M (Ry^ (τ*) Ι<τ*>Μ) - 0, (3.65) так как ôfc f1. По определению порогов ôft и порогового прави- ла τ* и v (Ьк) = Rk (δΗ) < q (к) *i поэтому (3.65) при логарифмировании дает при к -> оо 1"fc;/"1 | = lng(A:)+Vln6i — Aln6fc-> — оо. k ι i=l Последнее позволяет взять m настолько большим, чтобы при 123
всех к > m выполнялось неравенство к lng(Ar)<Alnôk— S lnôi- i=l Теперь для всех M >m имеем M M , s M 2^ Α(Λ—1) ^Zj Л —1 Zi Zj fc(A:-l) г fc=m fr=m fc=?n i=i M , . M M /c(/c —1) fr=m \=\ k=max (i, m) M m—1 ??i—1 = -ТГ У lnôfr 7 7T- V Ιηδ^<^ ; ГГ" У lnôfr. Λ/ /4i K (m — 1) i/^ ff ^ (/тг — 1) ^^ * fr=i fr=i /f=i Самое последнее выражение не зависит от Л/, поэтому ряд (3.64) сходится. Теорема доказана. Следствие. Если i?x (t) = оо хотя бьг при одном значении t €Ξ (0, 1), то ν = оо. Доказательство. Если оо #ι(0=Σ f(l —^(Ο=∞. г=1 ТО И оо S (l_i)*g(i) = oo, i=l поэтому из сходимости геометрической прогрессии с знаменате- лем γ\ — t следует, что q (i) > (1 — i)~i/2 Для бесконечнога числа значений t. Выберем такую подпоследовательность г1? i2» · · ·» для которой выполняется указанное неравенство^ и кроме того* in+1 > 2in. По монотонности q (·) получаем ■>ΕΣ-^>-^-<>ΙΧι-ιΗ оо гП+1 lin g (/г) 71=1 ' Следствие доказано. 3.4.3. Таким образом, условие конечности минимальных сред- них потерь может выполняться только когда /?х (t) конечно при любом t ΕΞ (0, 1]. В последнем случае все Rk (t) также конечны, и вопрос о нахождении цены продолжения ν (·) в задаче с беско- нечным числом вариантов сводится к изучению решений опреде- ленного вида дифференциального уравнения оо no=4-Z(/(i)_jR*(i))+- (3·66) к=1 124
Вообще говоря, неотрицательное решение (3.66) может быть од- ного из следующих типов: тип I - / (t) s / (0); тип П-/(0)</(1)<оо; тип III — / {t) < оо при любых t е= Ю, 1) и lim / (t) = сю; Mi тип IV — / (t) < оо при любых t e [0, T), T < 1 и / (*) =оо при t > Т, но, как следует из теоремы 3.2, тип IV не имеет отношения к задаче наилучшего выбора, т. е. цена продолжения является ре- шением типа I, II или III. Кроме того, в случае v < оо и q (оо) < <; оо цена продолжения может быть решением типа I только в тривиальном случае постоянной функции потерь, и мы его исклю- чим из рассмотрения. Если функция потерь ограничена, то цена продолжения одно- значно определяется уравнением (3.66) вместе с граничным ус- ловием v (1) = q (оо) < оо (это следует из теоремы существова- ния и единственности решения обыкновенного дифференциального уравнения [25]), т. е. v (·) имеет тип II. Если функция потерь не ограничена, то ситуация существенна усложняется, так как если v < оо, то цена продолжения является решением типа III, и мы имеем дело с граничным условием v (1) = = q (оо) = оо, и условия общей теоремы о единственности реше- ния не выполняются. Тем не менее, v (·) всегда можно выделить, из всех решений типа III, а именно: справедлива следующая тео- рема. Теорема 3.11. Если q (оо) = оо, то v < оо тогда и толь- ко тогда, когда уравнение (3.66) имеет решения типа III, причем v (·) является минимальным решением такого типа. Доказательство. Если v < оо, то по теореме 3.4 v (·) является решением типа III. Из теоремы единственности следует, что если / (·) и g(-)~ два решения (3.66), и / (t0) = g (t0) < оо при каком-нибудь t0, то / (t) < g (t) во всех точках, где g (t) < оо. Пусть gc (·) — реше- ние типа II страничным условием gc (1) = с. Ясно, что gc (t) при. фиксированном t монотонно возрастает по с, положим goo (t) = = lim g (t). Если существуют решения типа III, то g^ (·) явля- С->сс ется наименьшим решением такого типа. Остается показать, что если функция gœ (·) имеет тип III, то v < оо и gcc (t) = v (t). Заметим, что если зафиксировать ко- нечное граничное условие и увеличивать функцию потерь, то со- ответствующее решение (3.66) опускается, т. е. становится более пологим. Пусть с = q (M), тогда gc(t) > vM (t), тдеим (·) — цена продолжения в задаче <Yt, q^ (Xt)} с усеченной функцией потерь. По теореме 3.9 vM (t) j v (t) при M ->■ оо, поэтому v < оо и v (t) = lim vM (t) = limgc (t) = g^ (t). M-HX C->ΟΟ Теорема доказана. 125
По-видимому, условие v < со эквивалентно единственности решения типа III, хотя в полной мере доказательство этого факта неизвестно. Далее мы еще вернемся к этому вопросу, а теперь докажем справедливость этой гипотезы для функций потерь поли- номиального роста. Т е о р е м а 3.12. Для функций потерь, растущих не быстрее некоторого полиномаг цена продолжения является единственным решением типа III. Доказательство. Если уравнение (3.66) имеет реше- ния типа III, то наибольшее такое решение является инфимумом решений типа IV. Утверждение теоремы будет доказано, если мы представим υ в виде предела некоторой последовательности хи х2. . ., которая дает начальные условия / (0) = хк решениям / (·) типа IV. Рассмотрим дифференциальное уравнение сю *'{t) = "Г Σ{g {t) - R« т+> 0 < Τ < 1. (3.67) fr-i получающееся из (3.66) простой заменой времени. Всякому реше- нию типа III этого уравнения отвечает решение типа IV уравне- ния (3.66) —/ (£/Т) = g (£), которое имеет то же начальное значе- ние и уходит в бесконечность при t = Т. Возьмем произвольную последовательность Тх < Т2 < . . ., Tj f 1 и рассмотрим семей- ство задач (Yt, qT. (X*)>, в которых функции потерь определяются как qTi(k) = Rk(Ti), а при остановке в момент t ;> Тг потери бесконечны. Задача *(Xti Ят- (Xt)y имеет довольно наглядную интерпретацию: мы хо- тим остановиться до момента Tj, и если мы выбираем вариант с рангом к среди всех вариантов, поступивших к этому моменту, то наши потери зависят от усредненных результатов сравнений выбранного варианта с остальными вариантами на [Tj, 1] (срав- ните с задачей с конечной памятью и частичным возвратом, рас- сматривавшейся в п. 3.3.4). Поскольку оо RA^i) = ^kz\)^(T0^(i-t)}-^ то повторяя доказательство теоремы 3.4, мы видим, что цена продолжения в задаче (Yf, ?τ· (Xt)} является решением уравнения (3.67), если только существует правило остановки τ, для которого MRX (Tj) < оо. Покажем, что для функций потерь полиномиаль- ного роста такое правило действительно существует. Ясно, что можно ограничиться полиномами вида (3.57). В силу (3.58) для 126
таких функций потерь R, (ЗГ4) = А (А + 1). . . (А + /тг)/ТГ+1. (3.68) Возьмем теперь правило остановки τ с порогами (λ^ι, λ2Το . . .)> где λΧ, λ2, . . . определены в теореме 3.9. В силу (3.68) и (3.61) имеем оо MRxT (Т4) < ]Г Bfc (λ*Τ{) Ρ {λ»Τ, < τ < λ*+1Τ;> < оо < ^ В, (λΧΤ,) Ρ {λ*Τ, < τ < λ*+1Τ{} = /C=l fr=l j=i v x i' так как τ < Тг· почти наверное. Повторяя рассуждение теоремы 3.2, мы видихм, что цена продолжения в задаче <Yt, q% (Х*)> имеет тип IV и Tj — точка ухода в бесконечность. Пусть Tt = Tit*, т. е. %i задано порогами (TéÔj, ТД, . . . )г тогда по теореме о монотонной сходимости при i ->- оо ΜΛΖτ.(Τ,) J М?(Хт*) = г;, так как Rk (Т;) j g (A). Это доказывает, что г; является пределом хг, х2, . . ., соответ- ствующим минимальным средним потерям в задачах (Yf, 2т · №)>· Единственность следует из этого факта и теоремы 3.11. Теорема доказана. 3.4.4. До сих пор мы не занимались вопросами явного вычис- ления v и порогов ox, δ2, . . ., и знаем ответ только для классиче- ской задачи. Подобный вопрос в задаче с конечным числом ва- риантов конструктивно решается методом обратной индукции и в принципе цена и пороги могут быть найдены предельным пере- ходом ν^ -> ν, dk/N ->■ ôk. Этот путь ьычислительно неосущест- вим уже для относительно простых функций потерь. Другой возможный подход состоит в попытке аналитического решения уравнения для цены продолжения, но даже для ограниченных функций потерь это требует значительных усилий, так как если функция потерь не является усеченной, то цена продолжения за- дается различными аналитическими выражениями на каждом из интервалов (ôfe, ôfc+1), число которых бесконечно. Но и для усеченных функций потерь qM (·) решение потребует склейки различных выражений на M интервалах. По-видимому, единст- венный приемлемый способ состоит в рекуррентном выражении меньших порогов через большие, что вместе с условием ôfr f 1 может привести к аналитическому нахождению цены и порогов. Пусть v < оо, тогда на интервале (ôfc, ôfe+1) цена продолжения 127
является решением дифференциального уравнения к "'(ο=τ-Σ^-*'^ (3·69) г=>1 причем ν (бк) = Rk (ôj, y (ôfc+1) = Rk+1 (ôk+1). (3.70) Нетрудно проверить, что при к ^ 2 i=l У г=1 поэтому (3.69) при к ^ 2 эквивалентно уравнению интегрирование которого дает i=l Выражая постоянную интегрирования через второе из граничных «условий (3.70) и подставляя в полученную формулу первое усло- вие (3.70), мы приходим к рекуррентному выражению порога 6к через δΛ+1 Я» (Ьк) = G, (ôfc+1), (3.71) где к ^ 2 и fr-i Я*(') = -^£(ЗД-ВД)> (3·72) г=1 fr-1 Gk (*) = -jr ]T, (**« (0 - *i (0). (3.73) i=l Действуя аналогично на интервале (δ1? δ2), получаем Нх (δΧ) = = G1 (δ2), где οο Их (t) = -f *ι W - Σ"Г 5i <1 - «)'· (3·74) i=i <?i w=^i (<) + 4- № w - Λι о)· (3·75) 5i=is?(&). fr=»l Функции Нк (·) и Gk (·) определены корректно, так как условие ι; < с» гарантирует сходимость всех R4 (·) (следствие теоремы 3.10). 128
83*..wr Sz 63...fiKif Рис. 1 Рис. 2 Л е м м а 3.13. Функции Hk (·) и Gk (·) обладают следующими свойствами: 1) Нк (t) > 0, Gk (t) > 0; 2) tf^tXMO; 3) Я, (t) < Gk (t) < #m (t); 4) Я; (i) = - (k - 1) Як+1 (t), ft > 2; 5) G; (t)< _ (ft _ 1) Нш (t), ft>2. Доказательство непосредственно следует из определении (3.72)—(3.75). Таким образом, пороги 6к являются решениями рекуррентного уравнения (3.71) с «граничным условием» àk | 1. Между уравне- нием (3.71) и решениями дифференциального уравнения (3.66) имеется простая связь. Пусть /?ι(·) имеет радиус сходимости 1 вокруг точки t = 1, тогда фун- кции Нк (·) и Gk (·) корректно определены безотносительно к ус- ловию v < оо. Эти функции строго убывают, исключая случай усе- ченной функции потерь см (·)» когда строго убывают Нк (·) и &к (*)Д = 1» · · ·» M (a только они нас и интересуют). Сказанное оз- начает, что для каждого х ΕΞ (0, 1) существует единственное решение x' уравнения Нк (х) == Gk (х'), причем в силу леммы 3.13 х' > х. Следовательно, пара (Нк, Gk) оп- ределяет дифференцируемое ото- бражение Ц)к : (0, 1) -> R. Пусть xl ЕВ (0, 1), положим по Л опре- Рис. 3J , g 5 Заказ Л* 3752 129
делению х2 = φΧ (х1), х3 = φ2 (х2), ... и т. д., последовательность х1, х2. .. удобно представлять себе как движущуюся вправо точку. Для выделения цены продолжения из множества всех решений уравнения (3.66) нам не хватает знания одного-единственного значения, если функцця потерь не ограничена. Каждое решение / (·) уравнения (3.66) определяет некоторую последовательность х1, х2, . . . как множество корней уравнений / (t) = Rk (t) и, ра- зумеется, эта последовательность совпадает с х1, cpiix1), φ2 (x2), · · · Но верно и обратное — всякая такая последовательность соответ- ствует некоторому решению (3.66). Таким образом, имеется взаим- но однозначное соответствие между последовательностями х1, х2,. и решениями (3.66). Последовательность порогов δΧ, б2, . . . также является после- довательностью вида х1, х2, . . м но обладает особым свойством. Если функция потерь является усеченной на значении q (M), то δΧ — единственная точка, которая приходит в 1 за M шагов: всякая точка х1 < δΧ в 1 вообще не приходит, а всякая точка х1 > δΧ (из единичного интервала) приходит в 1 за меньшее число шагов (рис. 1), и это — характеристическое свойство цены продол- жения. Если q (oo) <оои функция потерь не является усеченной, то δΧ приходит в 1 за бесконечное число шагов, все х1 < б1 в 1 не приходят, а все Xi > Ьг достигают 1 за конечное число шагов (рис. 2). Самый сложный случай — когда функция потерь не ограни- чена. Если все решения имеют тип IV, то ни одна точка не дости- гает 1 (рис. 3). Если существует решение типа III, то по теореме 3.11 v < оо и, следовательно, δΧ достигает 1 за бесконечное число шагов, а все более правые точки достигают 1 за конечное число ша- гов. Что же касается точек х' < δΧ, то в последнем случае мы знаем только, что они не достигают 1 при функциях потерь, рас- тущих не быстрее полинома (теорема 3.11). Ясно, что всякая точка, приходящая в 1 за бесконечное число шагов, определяет решение типа III, если q (оо) = оо. Это озна- чает, что единственность такой точки равнозначна единственности решения типа III. Более того,- если такой точки нет, то ν = оо, и все решения имеют тип IV. Исследование единственности может быть, таким образом, сведено к изучению локальных свойств <pfe в окрестности 1. Кажется вполне правдоподобным, что искомая точка всегда единственна, если она существует, т. е. пороги δΧ, δ2, ... однозначно определяются уравнением (3.71) и условием ôfr ->■1. По-видимому, лемма 3.13 указывает на то, что никакая точка «не догоняет» δΧ, но строгое доказательство нам неизвестно. 3.4.5. Разберем некоторые примеры. Пример 1. Классическая задача наилучшего выбора. В этой задаче .Ri (t) = 1 — i, Rk (t) == 1 при к ^> 1, поэтому Нг (t) = — In t — 1, С?! (t) = —In t, 130
а поскольку δ2 = 1, то δΧ есть корень уравнения (3.71), т. е. #ι (δι) = - In δΧ - 1 = - 1ηδ2 = Gx (δ2), откуда δι = е~1 и ν = Rx (δΧ) = 1 — <Γ1. Пример 2. Задача Гусейн-Заде с г = 2. Функция потерь имеет вид О, при к <ζ 2, (О, при А<2, ?a(*)={lf при А>2. Имеем Bi (*) = (1 - О2, B2 (*) = 1 - *2, #* (0 = 1 при /с > 2,, поэтому δ3 = 1, Ях (t) = 2i - 2 In t - 2, Я2 (t) = 2/i - __ 4j Gi (i) = —2 In t, G2 (t) = lit — 1. Следовательно, δ2 является корнем уравнения Я2 (δ2) = 2/δ2 - 2 = 1 = G2 (δ3), откуда δ2 = 2/3, и δΧ является корнем уравнения Ηλ (ôj) = 2δΧ - 2 In ôx — 2 = -2 In (2/3) = Gt (δΧ), откуда δΧ ^ 0,35 и ν = Bi^) ^ 0,43. Это означает, что вероят- ность выбора одного из двух лучших вариантов приблизительно равна 1 — ν я? 0,57 (ср. с классической задачей). Пример 3. Экспоненциальная функция потерь: q (к) = = ек. Ряд Sing (к) _ γι J_ А;2 ~~ 2-J к i=i i=i расходится, поэтому по теореме 3.10 потери бесконечны. П р и м е р 4. Задача о среднем ранге: q (к) = к. По теоремам 3.9 и 3.12 ν < оо и пороги однозначно определяются из условий Вк (fi*) = Gk (ôk+1), 6k î 1. По формуле (3.58) Bfc (i) = ft/^ под- становка в (3.72)—(3.75) дает Я1(') = 4г-*-+ GxW = -|-i2 + ^-, ff m_ fc(*-l) 1 r /,y. . (fc-l)(* + 2) 1 .^„ диЧ 2—7ТГ' ^w — 2 7ТГ' Λ^ζ· Поскольку g /я ч fe(fc-l) 1 _,. (fc-l)(fc + 2) 1 _г /Л ч то ôfc/ôs+1 = (1 + 2//c)-1/(ft+1> и, следовательно, оо δ* = Π(1 + 2/Ι)-ι/<*«>. 5* 131
В частности, оо δ1 = Π(1 + 2/ι)-1^+1), г=1 откуда цена равна с» ν = Цг (ох) = I/O! = П (1 + г/*)1"*"* « 3,87. г=1 Поразительной особенностью этого результата является малость величины средних потерь: в терминах задачи с конечным числом вариантов это означает, что средний ранг выбранного варианта при оптимальном способе выбора не превосходит 3.87, каким бы большим ни было общее число вариантов N. Для сравнения ука- жем, что если использовать правила остановки с фиксированным (одновременно для всех Ν) числом порогов (например, правило с единственным порогом di ~N/e), то потери будут расти линейно с ростом числа вариантов. 3.5. Задача Гусейн-Заде 3.5.1. Рассмотрим ранговую задачу наилучшего выбора с функ- цией потерь * {О, если к<;г, 1, если *>г. Число г отражает требовательность к выбору или, если угодно, разборчивость — чем больше г, тем большее число вариантов ква- лифицируется как «лучшие», причем все остальные варианты яв- ляются одинаково нежелательными. Будем называть «абсолютно лучшими» те варианты, абсолютный ранг которых не превосходит г, в противоположность «относительно лучшим» вариантам, имеющим относительный ранг не выше г. Ясно, что задача минимизации средних потерь эквивалентна максимизации вероятности выбора одного из абсолютно лучших вариантов. В этом параграфе нас будет интересовать асимптотическое по- ведение оптимального правила и минимальных средних потерь в задаче с бесконечным числом вариантов, когда г неограничено возрастает. Все результаты имеют прямое отношение и к задаче с конечным числом вариантов N и описывают некоторые асимпто- тические свойства, когда N ж г определенным образом стремятся к бесконечности. Интуитивно ясно, что чем большее число вариантов мы призна- ем лучшими, тем с большей вероятностью удается выбрать один * Эта функция потерь является усеченной на значении qr (г + 1) = q (оо), но г не является параметром усечения некоторой единой функции потерь, так как qr (·) и дг+1 (·) —усечения различных функций. 132
из них. Это понятно и с житейской точки зрения — чем меньше запросы, тем проще их удовлетворить. По-видимому, также ясно, что средние потери при оптимальном способе выбора стремятся к нулю с ростом г, однако заранее трудно представить себе поря- док малости этих потерь. Чтобы получить хотя бы грубую оценку, рассмотрим правила остановки τλ, определяемые единственным порогом λ, 0 < λ < 1. Всякое правило такого типа есть следующее предписание: «про- пустить все варианты до момента λ, а затем остановиться на первом же относительно лучшем варианте (если такой вообще появится)». Словесно это предписание совпадает с рассматривавшимися ранее пороговыми правилами, но теперь мы в слово «лучший» вклады- ваем другой смысл. Правило τλ предписывает остановку на интервале (£, t + Δ£), λ < t < 1, если на интервале (λ, t) не появилось ни одного от- носительно лучшего варианта, а на (t, t + At) такой вариант имеется. Поскольку абсолютно лучшие варианты также и относи- тельно лучшие, то вероятность выбора абсолютно лучшего вари- анта при остановке на" (£, t + At) равна вероятности того, что (t, t + At) содержит хотя бы один абсолютно лучший вариант, и все г лучших к моменту t вариантов появились до момента λ. Пер- вое из этих событий определяется относительными рангами по- ступивших до момента t вариантов, а второе — относительными рангами остальных вариантов, поэтому события независимы и Р {Χτλ < г, τλ Œ (t, t + At)} = r (X/t)r At + o (At), а интегрирование в пределах от t = λ до t = 1 дает величину средних потерь Mîr (Хч) = 1 - Р {Хч < г} = 1 - j^-il - Г). (3.76) Отсюда нетрудно найти оптимальное значение порога λ< = ,Ο-)1^ (3.77) и средние потери Mgr(Xx,*) = l-(-f)1/(r-1). (3.78) Последняя формула показывает, что минимальные средние по- тери стремятся к нулю с ростом г, и оценивает их величиной порядка г"1 In г. Далее будет показано, что действительная ско- рость убывания значительно более быстрая, а именно экспонен- циальная. Из этого факта будет следовать, что при больших г оп- тимальное правило предписывает остановку почти сразу же после некоторого момента δ*, не зависящего от г. Правила остановки, используемые при оценивании минимальных средних потерь, та- ковы: «пропустить все варианты до момента λ, а затем остановиться на первом варианте с относительным рангом не выше аг». 13Э
3.5.2. В соответствии с нашими прежними обозначениями, пусть vr (0 — цена продолжения, ôrl, . . ., δΓΓ — пороги (все остальные пороги равны 1), определяющие оптимальное правило т*. Мы сме- ним обозначение только для потерь, ожидаемых при остановке в момент t на варианте с относительным рангом к (прежнее обо- значение — Rk (£)), полагая оо fc—1 ^(A.«)=^(i-1i)?'(i)ilk(1-i)Wt=EC)i,(1~i)^· Кроме того, удобно описывать оптимальное правило остановки с помощью непрерывной кусочно-линейной функции αΓ(·) как min{t\Yt <rar(i)}, 11, если это множество пусто, где Ik/г у если t — 6rk\ О, если * = 0; 1, если £ = 1, и на каждом интервале (6rk, огк+1) эта функция линейна. Урав- нение (3.27) записывается в виде vr(t)= S Ы*)-ЯГ(М), М1) = 0, (3.79) k=a а порог 8гк является единственным корнем уравнения Rr (kx t) = = vr (t). В частности, vr = vr (0) = (1 — ôrl)r. (3.80) Напомним также, что на интервале (ôrfe, ôrfe+1) цена продолже- ния больше Rr (к, t), но меньше Rr (к + 1, £), что равносильно двойному неравенству Rr ([rar (*)], f) < y, (f) < Rr ([rar (t)] + 1, t), (3.81) где [·] —целая часть. Далее нам потребуются неравенства [ f, при 0<*<1, »'«> >| <!-<)'. при β,,<<<!, <3·82) первое из которых очевидно (tr равно вероятности появления всех г абсолютно лучших вариантов до момента t), а второе следует из монотонности vr (·) и (3.80). Еще нам понадобится такое соотно- шение при 0 <^ a ^ t lim (Rr ([or], W = (-L)^!^)1-", (3.83) которое может быть получено из формулы Стирлинга. 134
Лемма 3.14. Для всех г — 1,2, ... vr ^> 2~г. Доказательство. Предположим, что вариант с абсо- лютным рангом 1 появляется до момента ôrl, тогда оптимальное правило %г может выбрать только один из г — 1 оставшихся аб- солютно лучших вариантов. Но результаты сравнения всех вари- антов по порядку просмотра, исключая вариант с абсолютным ран- гом 1, не зависят от момента появления указанного варианта, по- этому средние потери τ* при нашем предположении не меньше *V-i (δΓι), т. е. vr > δ,ιιν-Χ (ôri) > 6riVr-!. (3.84) Покажем теперь по индукции, что δΓ1 < 1/2 при всех г. Для г = 1 это так: δη = е'1 < 1/2. Пусть ôrl < 1/2 при некотором г^ 1, тогда из (3.80) и (3.84) получаем (1 - δΓ+ι,!)'+1 > δΓ+1)1 (1 - ôrl)r > ôr+1)12-. Левая часть последнего неравенства монотонно убывает по δΓ+1>1, а правая — монотонно возрастает, причем равенство имеется только в точке 1/2. Следовательно, δΓ+1> х < 1/2. Коль скоро ôrl < 1/2 при всех г, то итерируя (3.84), полу- чаем утверждение леммы. Лемма доказана. Лемма 3.15. Для всех t ΕΞ (0, 1) "-,-» <* <'»'" < ifcM ("· HT (τ^Γ)· Доказательство. Пусть X — абсолютный ранг вари- анта, имеющего ранг [аг] среди всех вариантов, появившихся к моменту t. Рассмотрим правило остановки τ = min {s < t\Y8 *ζ ^ аг} (где min ф = 1). Если [аг] < X <Г г + 1, то, во-первых, τ < 1 в силу того, что (£, 1) содержит по крайней мере вариант с абсолютным рангом не больше [аг], и, во-вторых, Χτ <ζ г, так как Хх < X. Если же X ^> г + 1, то нетрудно видеть, что услов- ная вероятность выбора одного из г абсолютно лучших вари- антов не больше г/(г + 1). Следовательно, Р {X = [аг]} + Р {X > г + 1} > Μ?Ρ (Χτ) > >P{X = [ar]}+7iTP{X>r+l}. После подстановки в это неравенство Р {X = [аг]} = *[<*'!, Р {X > г + 1} = i?r+1 ([аг], *), и извлечения корней г-ж степени, из (3.83) при г -> оо получаем нужное выражение. Лемма доказана. Эти леммы показывают, что vr убывает экспоненциально. Из (3.80) следует, что порог δΓ1 отделен от нуля и единицы, так как 1 — infmax(W—Т(4—*-Та) <liminfôrl<limsupôrl< ο<α<ι<ι \ \ α / \ 1 — а / / т т 135
3.5.3. Перейдем к нахождению асимптотической формы оптималь- ного правила остановки и величины минимальных средних потерь. Теорема 3.13. При г -> сю справедливы следующие соотно- шения: 1) δΓ1-*δ*; 2) ar (t) -> α (£)» где а (·) является решением дифференциаль- ного уравнения ct'(t\ = (1-а (*»/(!-*) а W ln(i(l-a(l))/(l-i))a(<)) На интервале (δ*, 1); а (t) = 0 η/ж i ^ б* и а (1) = 1; 3) f (1 —δ*), при *<δ*, (»r W)1/r ~* [ (i/a (^)α(<) ((! _ ущ _ а (^)))1-ос(0 Лрц i > δ*, 4) τ* сходится по вероятности к δ*. Доказательство. Сделаем в (3.79) подстановку ёг (0 = (уг (0)1/г> чтобы получить уравнение ë'r (*) = -jf [r*r (*)] g г (*)] (1 - К (t)), (3.85) где lrar(*)] γι Rr (*. 0 l M') = 2j Лг([гагр)Г,<) [га, (I)] ' и gr (1) = 1. Используя свойства биномиального распределенияЛ можно показать, что hr (t) ->· О при r-> сх>, если ar (t) имеет предел. Семейство функций gr (·) равномерно ограничено (так как О ^ gr (£) <^ 1) и равностепенно непрерывно в силу того, что порог ôrl отделен от нуля и, следовательно, правая часть (3.85) не превосходит 1/inf ôrl. По теореме Арцела [19] можно выделить равномерно сходящуюся подпоследовательность gr. (·)* предел которой обозначим g(·)· Эта предельная функция постоянна на некотором отрезке [0, δ*], равна 1 — δ* при t = δ*, и в силу (3.82) g (t) > max (t, 1 — t) при t > δ*. Выражение m&r монотонно возрастает от 1 —t до 1, когда а увеличивается от О до t. Следовательно, можно положить на [δ*, 1] g®=[-ïW) (т=Щ1 · (3·86) Из (3.83) и (3.81) вытекает, что в каждой точке t e= (ОД) после- довательность <хг. (t) сходится к a (t), поэтому теорема об ограни- ченной сходимости позволяет заключить, что g'(t)=±a(t)g(t), g(l) = l. (3.87) 136
Это уравнение однозначно определяет g (·), поэтому для всей по- следовательности gx (·), g2 (·), ... имеется равномерная сходимость к * (·)· Утверждения 1) и 3) уже доказаны, а 2) получается путем подстановки (3.86) и (3.87). Докажем 4). Из 2) следует, что любой порог ôr?f стремится к δ* при г-> оо. Возьмем произвольное ε и зафиксируем к. При боль- ших г все пороги ôrl, . . ., ôrfc попадают в 2е-окрестность δ** Таблица 7 г »г an г "г ôrl 1 0,6321 0,3679 8 0,0476 0,3166 2 0,4264 0,3470 9 0,0334 0,3146 3 0,2918 0,3367 10 0,0235 0,3129 4 0,2013 0,3302 15 0,0041 0,3068 5 0,1397 0,3255 20 0,0007 0,3031 6 0,0973 0,3219 -v 25 0,0001 10,3008 7 0,0679 0,3190 a Ôrl отделен от δ* + 2ε по крайней мерена ε. Оптимальное правило останавливается до момента δ* + 2ε во всяком случае тогда, когда по крайней мере один из вариантов с абсолютным рангом не больше к попадает на интервал (ôrl, δ* + 2ε) длины не меньше ε. Вероятность последнего события равна 1 — (1 — г)к -> 1 при к -»- оо. По произволу ε имеем сходимость τ* к δ* по вероятности. Теорема доказана. Численное значение.предельного порога δ* составляет прибли- зительно 0,283. Значения ôrl и цены vr для некоторых г приведены в табл. 7. 3.6. Задача с памятью единичного объема 3.6.1. Одним из основных допущений в ранговых задачах наи- лучшего выбора является предположение о возможности срав~ нения каждого варианта со всеми ему предшествующими. Иначе говоря, в процессе выбора мы помним качественные характери- стики всех просмотренных вариантов. Если условиться измерять объем памяти числом вариантов, с которыми допустимо сравнв' ние, то можно также сказать, что требуемый в каждый момент объем памяти равен числу просмотренных вариантов. Во многих практических ситуациях имеются серьезные огра* ничения на объем памяти, поэтому эффективность ранговых про~ цедур выбора при большом числе вариантов будет обоснована лишь в том случае, если мы сможем указать классы правил, ко- торые основываются только на результатах сравнения наблюдае* мого варианта с небольшим числом предшествующих вариантов, и вместе с тем дают достаточно низкие средние потери. Посмотрим на примере классической задачи, к чему может при- вести идея ограничения объема памяти. На первый взгляд кажется 137
довольно разумным требование о возможности сравнения очеред- ного варианта лишь с некоторым фиксированным числом, ска- жем m, непосредственно предшествующих ему вариантов. Однако после некоторого размышления становится ясно, что когда общее число вариантов возрастает, a m неизменно, то вероятность удач- ного выбора стремится к нулю даже если разрешить возврат к лю- бому из пропущенных вариантов. Ситуация очень напоминает «белый шум» — хотя мы и располагаем весьма обширной информа- цией, все равно это ничего не дает из-за того, что информация «размыта» по всему ряду наблюдений. Порочным, таким образом, оказывается исходное предположение о непрерывном и, что самое главное, неуправляемом обновлении памяти. Следовательно, об- новление памяти нельзя пускать на самотек, т. е. мы сами должны решать, какой вариант запоминать стоит, а какой — нет. Кон- цепция управляемой памяти применительно к классической за- даче приводит к возможности использования оптимального поро- гового правила. Действительно, до порогового момента следует запоминать варианты, лучшие находящихся в памяти, а после этого момента следует остановиться на первом же варианте, луч- шем всех находящихся в памяти, при этом требуемый объем па- мяти равен единице. Оказывается, что управляя памятью единичного объема, можно добиться замечательных результатов и в задачах с функцией по- терь общего вида, а именно: даже для функций потерь полиномиального роста сделать средние потери ограниченными при N -> οο (N — число вари- антов), в задаче Гусейн-Заде сделать средние потери «почти экспонен- циально» стремящимися к нулю при г ->- оо равномерно по N. 3.6.2. Предположим, что объем имеющейся в нашем распоря- жении памяти равен единице. Просматривая последовательно варианты, в каждый момент можно сравнить очередной вариант с находящимся в памяти и, в зависимости исключительно от ре- зультата этого сравнения, предпринять одно из трех действий: выбрать, пропустить или запомнить. Если очередной вариант выбран, то на этом процесс выбора заканчивается. Если этот вариант пропущен, то информация о нем полностью утрачивает- ся, и выбор его в дальнейшем невозможен. Если же очередной ва- риант запоминается, то выбор его в дальнейшем невозможен, и пол- ностью утрачивается информация о варианте, ранее находившем- ся в памяти. В такой постановке любое допустимое правило τ удобно пред- ставлять как последовательность предписаний одного из девяти типов: 1) (+/ —)η = (пропустить/запомнить), 2) (+/—)п = (пропустить/пропустить), 3) (+/—)η = (пропустить/выбрать), 4) (+/—)п = (запомнить/запомнить), 5) (+/—)η = (запомнить/пропустить), 138
6) (+/—)η = (запомнить/выбрать), 7) (+/ —)η = (выбрать/запомнить), 8) (+/—)η = (выбрать/пропустить), 9) (+/—-)η = (выбрать/выбрать), где п = 1, . . ., N. Если n-й вариант оказался лучше находяще- гося в памяти, то τ предписывает первое из действий, отвечаю- щих (+/—)п, а если хуже — то второе. Так, если (+/—)6 = (про- пустить/запомнить), то τ предписывает пропустить 5-й вариант, если он оказывается лучше находящегося в памяти, и запомнить — в противном случае (разумеется, это имеет смысл только если пер- вые 4 варианта оказались невыбранными). Всякое допустимое правило в рассматриваемой задаче являет- ся обычным правилом остановки в том смысле, что {τ = η} ΕΞ fn = = 3d (Уа · · ·» ^п)' поэтому может показаться, что сужение клас- са правил упрощает задачу минимизации средних потерь. В дей- ствительности все обстоит как раз наоборот, так как мы лиша- емся важнейшего в задачах оптимальной остановки инструмента— метода обратной индукции. Вот логика обратной индукции: срав- ним потери от остановки на n-ом шаге, ожидаемые при условии проведенных наблюдений, с потерями от оптимального продол- жения, ожидаемыми при условии проведенных наблюдений. . ., т. е. оптимальное действие на n-ом шаге определяется как функция от проведенных наблюдений, и так от n — N до п = 1. Теперь же такое рассуждение неприемлемо, так как для того чтобы принять какое-нибудь решение на n-ом шаге, нужно сначала разобраться с действиями на предыдущих шагах — ведь именно они опре- деляют «проведенные наблюдения». Говоря более точно, мы отка- зались от принципа накопления информации, формализуемого условием рассмотрения класса всех правил, измеримых относи- тельно неубывающего семейства σ-алгебр (дело вкуса — считать, что у нас нет какой-то информации, или же она есть, но ей нельзя воспользоваться). Положение становится очень тяжелым, и един- ственный выход состоит в дальнейшем сужении класса допусти- мых правил, чтобы сделать его доступным анализу. При более пристальном рассмотрении становится ясно, что с точки зрения минимизации средних потерь можно безо всякого ущерба отказаться от предписаний типа 2), 3), 6) и 9). Кроме того, первый вариант целесообразно запомнить (если N ^> 1), а послед- ний вариант всегда выбирается. Остается 5 возможных предпи- саний и 5^"2 возможных правил, но и этот класс оказывается слиш- ком большим. Далее мы ограничимся предписаниями трех типов — 4), 5) и 8). 3.6.3. В классической задаче оптимальное правило выгля- дит так: Г (запомнить/пропустить), если и = 1, . . . , tf*— 1, 71 \ (выбрать/пропустить), если n^d*. Смысл дополнительного введения предписания (запомнить/запом- 139
нить) следующий: если в процессе выбора слишком долго не по- даются варианты, лучшие находящегося в памяти, то запомнен- ный вариант слишком хорош, т. е. выгоднее утратить всю накопленную информацию, обновив память, нежели рисковать добраться до последнего варианта. Пусть q (·) — произвольная функция потерь, и τΝ (q) — оп- тимальное правило в классе правил с предписаниями типа 4), 5) и 8) (число таких правил конечно, поэтому оптимальное пра- вило существует). Положим Ъ1 равным наименьшему n, для ко- торого τΝ (q) на n-м шаге есть (+/—)η = (запомнить/запомнить). В момент Ьх происходит обновление памяти, и оптимальное про- должение должно совпадать с оптимальным правилом в задаче ъ N — Ьх вариантами, но уже другой функцией потерь ?(i) = Mç(4), где Ai — абсолютный ранг варианта, имеющего ранг i среди последних N — Ьх вариантов. Доказательство этого факта по- вторяет выкладки в лемме 3.8 (относящейся к задаче с конечной памятью и частичным возвратом, которая служила промежуточ- ным звеном между ранговой задачей и ее предельной формой). До момента Ьх имеются две возможности — (+/—)η = (за- помнить/пропустить) и (+/—)η = (выбрать/пропустить). Полагая vn (я) равным цене класса правил, предписывающих (запомнить/ /пропустить) при к = 1, . . ., п, мы путем обратной индукции убеж- даемся в справедливости соотношения υζ (q) = M min (в** (q), Ç^), n = bt -1,..., 1, (3.88) где <=Σ'<<ζΙΜΙ) есть величина потерь, ожидаемых при выборе на n-м шаге относи- тельно лучшего варианта. Найдется п<лЪ1 такое, что (?η+1 < < yn+i (я)> так как в противном случае оптимальное правило не использовало бы никакой информации о первых Ьх — 1 вариан- тах, что невозможно. Из монотонности v% (q) и Qn (по ri) следует выполнение указанного неравенства при всех п >> alt где аг < Ь. Следовательно, tN (q) есть совокупность предписаний {(запомнить/пропустить), если и = 1,. . . , αι — 1, (выбрать/пропустить), если п = аи . . . , Ъг — 1, (запомнить/запомнить), если п = &ι, ь после момента Ьх это правило совпадает с %N~bi (q). Порог Ьг находится из равенства ν£ (q) = ι>Γ"*1 (q)- Приведенное рассуждение дает алгоритм нахождения опти- мального правила путем редукции к задаче с меньшим числом ва- 140
риантов. Правило τ^ (q) оказывается при этом заданным набором порогов аг < bi < а2 < b2 < ... < N и предписывает запо- минать вариант, лучший находящегося в памяти, в моменты, промежуточные между Ък и а&+1, выбирать такой вариант между flfc+i и bfc+i» а в моменты bx, b2, ... обновлять память. Слегка модифицируя доказательства лемм 3.2 и 3.6, нетрудно показать, что минимальные средние потери v± (q) не убывают по N я в пределе не превосходят минимальные средние потери в ана- логичной задаче с бесконечным числом вариантов, к которой мы теперь и переходим. 3.6.4. Аналогами правила τΝ (q) в задаче с бесконечным числом вариантов являются правила, заданные порогами at < βΧ < α2 < < β2 < ... <1· Рассмотрим функцию потерь q(k) = k(k + 1) ... (к + m). При выборе в момент t £= («и βι) варианта, лучшего находяще- гося в памяти, ожидаемые потери составляют #!(*) = (m+ 1)!/рт+1, (3.89) так как У* = 1. В момент t = βΧ задача становится эквивалентна исходной в силу того, что замена временного параметра t w» (t - β^/<ι - βθ приводит к функции потерь Ri ((* - βι)/(1 - βι)) = (1 - βι)™+1#ι (i - βι), отличающейся от (3.89) лишь постоянным множителем. Это же рассуждение применимо и к остальным порогам β2, β3, . . .» по- этому оптимальные значения порогов αΧ, βΧ, α2, β2, ... (если они существуют) должны удовлетворять соотношениям βι = (β*« - βΛ)/(1 - β*), «ι = (ok+1 - β*)/(1 - β*)· (3.90) Пусть τ — произвольное правило, заданное порогами, удовлет- воряющими (3.90). Событие {х > βΧ} равносильно попаданию наилучшего на (0, βΧ) варианта на интервал (0, ах), что происхо- дит с вероятностью р = а^х. Следовательно, Ρ{τ>β*> = ρ*-*0, Λ->οο, т. е. τ < 1 почти наверное. Полагая β0 = 0, выпишем явное выра- жение для величины средних потерь. Имеем оо Mg(X,) = 5]| J ?(Хт)**Р = /f=o {βΛ<τ<β^+1> -(Σ(ιγ3^ργ)1) S .w*· fe=0 ν Κ1/ ιτ<βι> Следовательно, средние потери τ конечны в том и только в том 141
случае/ если р < (1 — βι)™+1. Далее J q(Xx)é№=\R1(t)dFx® = al(m+l)l\ ^ = (τ<βι) αι ^ α™+2 β™+2 j (m (m+ 2) Окончательно получаем Мо (X ) - <т +*>' (р"1""1 - ρ) <1 - PO"1''1 ^ x) m+ 2 β^ι((1_βι)»»+1_ρ) ■(m+ 1)1 m+l -f- 2) β^ m+2 ')· (3.91) Оптимальные значения порогов существуют тогда и только тогда, когда (3.91) имеет максимум при р < (1 — βι)™+1, но, во всяком случае, при выполнении этого неравенства средние потери конечны. Таблица 8 N *Γω N «fto) 3 1,667 20 3,867 4 1,875 50 5,114 5 2,100 100 5,885 6 2,333 250 6,599 7 2,476 500 6,932 8 2,625 1000 7,138 9 2,778 10 2,933 Найдем оптимальные значения р и $г для задачи о среднем ран- ге, соответствующей m = 0. Формула (3.91) принимает вид ._ (ρ-*-ρ)(1-Ρι) Μ?(Χτ) = 2β1(1-βι-ρ) Минимум этого выражения достигается при р ^ 0,296, равном положительному корню уравнения х3 + х2 + x — 1=0, βΧ = = рЧ* ζζζ 0,456. При этих значениях средние потери составляют 1/cxi ^ 7,413 (ср. с примером 4 из п. 3.2.4). Минимальные средние потери в задаче о среднем ранге при конечных N приведены в табл. 8. 3.6.5. Рассмотрим задачу Гусейн-Заде с бесконечным числом вариантов (см. п. 3.5). Вместо того чтобы искать оптимальное пра- вило, положим pfc = k/i, к = 0, . . ., i — 1, где i = i (r) опреде- лим позднее. Положим ак = β^ + p/i, где р = р (г) также еще подлежит определению. Пусть τ — правило остановки, заданное порогами аъ β1? . . .. Имеем г βι Mqr (Χτ) = pi + £ р* jj Rt (t) dFx (t) < pi + (1 - p*) (1 - p/i)' < fc=0 αι <pi + (l-p/i)r. Теперь положим i = r~8/2, p = г-3/» и оценим цену класса правил с единичным объемом памяти величиной порядка О (ехр (—г1"8)).
Глава 4 ЗАДАЧИ С НЕКЛАССИЧЕСКОЙ СТРУКТУРОЙ ПРЕДПОЧТЕНИЙ 4.1. Ранговая задача с конечным числом вариантов 4.1.1. Рассмотрим следующее обобщение основной задачи из предыдущей главы. Предположим, что имеется m независимых критериев, по которым сравниваются поступающие в моменты 1, . . ., N варианты. В момент п можно сравнить очередной вари- ант по каждому из критериев со всеми предыдущими вариантами и, в зависимости от всех проведенных к этому моменту сравне- ний, выбрать или пропустить. Если вариант выбирается, то потери являются функцией вектора абсолютных рангов. Требуется так остановить процесс выбора, чтобы средние потери были мини- мальны. По-видимому, разборчивая невеста сочтет эту постановку осо- бенно актуальной, поскольку ее идеал должен удовлетворять це- нному ряду требований. К сожалению, здесь мы вынуждены разоча- ровать нашу невесту — как будет следовать из результатов этой главы, если и удастся остановиться на варианте, который ока- жется достаточно хорош по одному из критериев, то он с боль- шой вероятностью окажется плох по всем остальным критериям (во всяком случае, если критерии независимы). Пусть Хп = (Хп, . . ., Xn) — вектор абсолютных рангов n-ro по порядку просмотра варианта по m критериям. Предполагаетсях что матрица /y1 у1 \ / Λ1· · -ΛΝ\ \ γΤΠ γΙΥΙ I \Λι · · -Aiv/ с равной вероятностью принимает все {N\)m возможных значений. Отсюда следует, что абсолютные ранги по различным критериям независимы. При появлении n-ro варианта наблюдается вектор его относительных рангов Υη = (Υη, . . ., Υ™)ι все относитель- ные ранги Yln, I = 1, . . ., m; n = 1, . . ., N независимы и для всех к = 1, . . ., п Р {Yln = к} = Un.) Положим fn = 3è (Yi, . . ., Yiv), и будем рассматривать класс {#~п}-измеримых правил остановки. Пусть q (·) — неотрицательная функция потерь, определен- ная на множестве положительных целочисленных векторов i = = (i1, . . ., im) и обладающая свойством монотонности: i >- j =Ф 143
=^ Я (i) > Q (j)> гДе мы полагаем i >- j 4=» fl > /' для всех Ζ = ; def = 1, . . ., m. Для каждого правила остановки τ средние потери составляют; Mq (Χτ)? поэтому обозначим рассматриваемую задачу <Yn, q (Xn)>. В целом мы будем следовать ходу рассуждений гл. 3, отве- чающей случаю m = 1. Сначала мы проясним некоторые каче- ственные свойства оптимального правила остановки, а затем пе- рейдем к изучению асимптотик. 4.1.2. Определим функцию ожидаемых при остановке в момент п потерь как Ç^(Yn) = M(g(Xn)[Yn). (4.1) Применение метода обратной индукции доказывает оптималь- ность правила остановки τ" = min {п | Q% (Yn) < ^+1} (4.2) и приводит к обычному рекуррентному уравнению для цены продолжения νζ = M min (ι&μ Q% (Υη)), 4+ι = ∞, (4.3) причем Mq(XxN) = v?. (4.4) Поскольку теперь мы имеем дело с векторами, то удобно ввести такие обозначения: ег = (0, . . ., 1,0,.. ., 0), I = 1, . . ., т, 1 = ï ' = (1, . . ., 1). Таким образом, ех, . . ., ет — это стандартный ба- зис /тг-мерного пространства, al — сумма базисных векторов. Лемма 4.1. Для любых ni )» k и п = 1, . . ., N «?<ч-СГ S *»П (Î:|) СГЙ; («) v ' (JV-n)i+k>i>k i=i v ' ч ' (JV-n)i+k>i>k + !)/{* n + 1 OS (к) = Σ <&г (к + .) П (" + 1)^^;-(-^ , (4.6) 1=1 где суммирование производится по всем т-компонентным булевским векторам ε, г1 = 0 \/ 1; i>-j-*·<?« (i)>·<?« (j); (4-7) <?n,i(k)<<?£(k). (4.8) Доказательство. Из доказательства леммы 3.1 и не- зависимости критериев получаем p{xn=iiYn=k}=Q"mn(^:;)(!zi'o· что вместе с (4.1) дает (4.5). 144
Если относительный ранг n-ro варианта равен il, то его ранг среди первых п + 1 вариантов равен либо il, либо il + 1. Пер- вое событие осуществляется с вероятностью (п + 1 — il)/{n +1)> а второе — с дополнительной вероятностью. Отсюда по формуле полных вероятностей получаем (4.6). Неравенство (4.7) равносильно m неравенствам çSfaX^a + e,), (4.9) которые будем доказывать индукцией по нижнему индексу от боль- ших значений к меньшим. Справедливость дервого шага вытекает из монотонности функции потерь: ÇSr(i) = î(i)<?(i + eI)=ÇJÎ(i+eI). Пусть (4.9) выполняется при нижнем индексе п + 1 ^ N. Из (4.6) получаем "-*1 УУ ri I г I -чП(» + 1)/{е* = !>-(-1)8** , ' ε'=ο fc=2 ' = τΓ+Ι 2j '' ' ') ~~ λ + 1 2-1 '" ' "' "^ я + l 2-J ^ ' "' ~^" ε1=ο ε1=ο εΧ=ι ε»=ι По предположению индукции ^(ι + βΧ + ε>>ρ^<ι+ε), следовательно, каждое слагаемое четвертой суммы не меньше аналогичного слагаемого второй суммы, получающегося заменой ε1 на 0. Следовательно, ^^ι+^>^+^Σ(...)+^ΓΣ(...)>^(ι). ε*=0 84e=i Аналогичное рассуждение справедливо и для I = 2, . . ., т, что доказывает (4.7). Формула (4.6) представляет Q„ (k) в виде выпуклой комбина- ции Qn (к) = S λε<?η+ι (к + ε), S λβ = 1, λε > 0, 145
а в силу (4.7) С^+1(к + 8)]>С^+1(к), откуда вытекает (4.8). Лемма доказана. Цена продолжения^ не убывает по нижнему индексу, поэтому полагая d% = min {п | Q% (k) < I;**), (4.10) мы из (4.8) можем заключить, что (4.2) эквивалентно τΝ =-min {п | п > d^}, (4Л4) где dY — случайная величина, равная к на множестве {Υη = к}. Таким образом, внешне оптимальное правило (4.11) не отли- чается от оптимального правила в однокритериальной задаче (ср. (3.8)), но отличие имеется, и оно существенно. Пороги в мно- гокритериальной задаче лишь частично упорядочены. Нера- венство (4.7) доказывает импликацию и в общем случае выполняются только эти неравенства, что при- водит к значительным трудностям при явном вычислении порогов и цены продолжения. При m ^> 1 оптимальное правило удобнее выражать в терми- нах остановочных множеств r^ = {k|ni^k,^(k)<^+1}, т. е. множеств тех значений относительных рангов n-ro вариантаг при которых следует останавливаться. В этих терминах T* = min{n|YnŒr£}, и минимальные средние потери (4.4) задаются формулой М, (ΧτΝ) = £ »- "П (l - ^Д-) £ QS (i). (4.12) Внешне эта формула выглядит более компактно, нежели (3.11), но найти пороги путем минимизации (4.12) можно только для совсем простых функций потерь, а в общем случае мы имеем дело с Ν™ целочисленными переменными. Как и в задаче с одним критерием, минимальные средние по- тери могут только увеличиться с ростом числа вариантов. Дока- зательство этого факта отличается от случая m = 1 (лемма 3.2), так как прежний способ «вложения» задачи с меньшим числом ва- риантов в задачу с большим числом вариантов не обобщается на случай m > 1. 146
Лемма 4.2. Для любых N = 1, 2, ... Доказательство. Рассмотрим задачу с JV + 1 вари- антами. Можно считать, что τ^+1 > 1, так как при выборе первого варианта средние потери равны v^tl > yf+1· Следовательно, Tiv+i принимает значения 2, . . ., N + 1. Пусть Xnfl —вектор рангов (п + 1)-го варианта среди всех вариантов, исключая самый первый, п = 1, . . , N. Аналогично, пусть Yn+1 — вектор рангов (п + 1)-го варианта среди первых (п + 1) вариантов, исключая самый первый, п = 1, . . ., N. Поскольку Хп+1 >- Χη+ι, то Но переменные (Y2, . . ., Yiv+i, X2, . . ., Xrv+i) имеют то же совме- стное распределение, что и (Yx, . . ., Y^, X1? . . ., Xn), и не зави- сят от абсолютных рангов первого варианта. Следовательно, τΝ+ι может рассматриваться как рандомизированное правило остановки в задаче с N вариантами, и по теореме 1.11 Μ^Χ'^Ο>Μ<ζ<Χ^). Лемма доказана. В многокритериальной задаче <Yn, q (Xn)> имеется m классов правил остановки, основанных на наблюдении относительных ран- гов только по какому-нибудь одному из критериев, но в общем случае ни один из этих классов оптимальное правило xN не содер- жит. 4.2. Предельные соотношения 4.2.1. Между многокритериальной задачей <Yn, q (Хп)> и ее предельной формой имеется менее полная аналогия, нежели в^случае одного критерия. Главное отличие состоит в том, что в пре- дельной задаче наблюдаемые случайные величины являются ска- лярными, в то время как в задаче <Yn, q (Xn)> они векторные. На интуитивном уровне причины этого несоответствия можно объяс- нить примерно так. Когда N -> оо, то с бесконечно малой вероят- ностью существуют варианты, имеющие ограниченные абсолют- ные ранги хотя бы по двум критериям, поэтому множество всех вариантов разбивается на два подмножества: в первое подмноже- ство входят варианты, имеющие бесконечно большие ранги по всем критериям, а второе подмножество состоит из вариантов, имеющих конечный ранг по одному из критериев и бесконечно большой по всем остальным. Первое подмножество нас не инте- ресует, так как выбор его элементов приводит к потерям, близким к максимально возможным. Второе подмножество само разби- вается на m подмножеств, которые будем называть группами, так 147
что варианты в Ζ-й группе имеют конечный ранг по Ζ-му критерию. Если мы выбираем вариант из Ζ-й группы с абсолютным рангом по Ζ-му критерию равным к, то потери близки к ql (&) = g(oo, . . ., оо, к, оо, . .., оо). dei ^ Следовательно, асимптотически мы имеем дело не с одним множе- ством вариантов, сравниваемых по нескольким критериям, a cm равномерно перемешанными группами, причем варианты из одной группы сравниваются только между собой, так как потери от ос- тальных сравнений не зависят. В определенном смысле можно ска- зать, что многокритериальная предельная задача есть результат взаимодействия m однокритериальных задач (Yt, ql (X*)>» по- этому мы обозначим ее (Υ\ ql (X|)>m. Сформулируем задачу <FÎ, ql (Х\)}т. Пусть имеется m не- зависимых последовательностей независимых равномерно распре- деленных на единичном интервале случайных величин Т' = = (Т[, Т\, ...). По каждому вектору Т1 определим Z1 (Z), Xt и Υ\ так, как это делалось в п. 3.2.2. Введем неубывающее семейство σ-алгебр rt = S(Z1(Z),...,Zm(i)) и будем рассматривать класс 3R правил остановки τ таких, что Ο<τ<Ι, {т<*>еУ«,*<1, тбп U {1}. Случайная величина Т1п интерпретируется как момент появления п-го по качеству варианта из Ζ-й группы, под событием {τ = = Τ\) подразумевается выбор правилом τ этого варианта, а под событием {τ = 1} подразумевается пропуск всех вариантов. При выборе вариантов из Ζ-й группы потери определяются функцией потерь ql (·), причем q1 (оо) = ... = qm (оо) и таковы потери при τ = 1. Средние потери правила τ определяются как m Д M (f (4) Ι{ν£{Τ1Λ))) + Я1 (оо) P {τ = 1}, инфимум средних потерь обозначим v. Модификации рассуждений п. 3.2 столь незначительны, что все утверждения, относящиеся к задаче <Y*, ql (Xt)ym мы сфор- мулируем без доказательства. Прежде всего, цена класса правил остановки τ ^> t достигается за счет правил, не зависящих от ft, обозначим эту цену v (t). Теорема 4.1. Если v < оо, то v (·) непрерывна на [О, 1) и является решением дифференциального уравнения m оо v' w=-г Σ Σ(у {t) -Rl"(i))+* (4ЛЗ) i=l fc=l 148
Ri (t) = Vql (i) (' ~ |) tk (1 - f)«. (4.14) Определим порог δ& как корень уравнения /?& (t) = v (t). Ясно, что δ[ ^ δ[ ^ . . ., и в общем случае между порогами из различных групп могут выполняться любые неравенства или равенство. Теорема4.2. Если v < оо, то правило остановки min{tŒ{Tln}\t^blYi}, 1, если это множество пусто, является оптимальным. Если хотя бы в одной из однокритериальных задач <Y*, ql (Х\)У минимальные средние потери конечны, то и ν <, ∞, так как мы можем следить только за вариантами из 1-й группы. Таким обра- зом, конечность v может иметь место даже когда некоторые из ql (·) тождественно равны оо. 4.2.2. Задача (Yt, ql (Xt)}m имеет конечный аналог, который обозначим <УП, ql (Xn)>m, но он не совпадает с <Yn, q (Xn)>. Сформулируем расслоенную задачу (Yln, ql (Xn)>m. Пусть имеет- ся m групп по N вариантов в каждой. Варианты из одной группы можно сравнить друг с другом, а варианты из различных групп сравнивать нельзя. Все mN вариантов появляются в случайном порядке так, что (mN)\ возможных перестановок равновероятны. При выборе варианта из 1-й группы потери определяются только результатами его сравнения с другими вариантами из 1-й группы. Требуется найти правило остановки, минимизирующее средние потери. Пусть Ylu . . ., Υ1ν и Х[ . . ., ΧιΝ те же, что и в п. 4.1.1 случай- ные величины, но по-другому интерпретируемые: Υιη и Х1п есть, соответственно, относительный и абсолютный ранг тг-го по по- рядку просмотра варианта из 1-й группы. Схема наблюдений отно- сительных рангов в задаче <Fn, ql (Xn))m естественно связывается со случайным блужданием по т-мерной целочисленной решетке. Представим себе частицу, которая начав с точки 01 = (0, . . . ♦ . ., 0) за mN шагов перескакивает в точку Ni. На каждом шаге час- тица перескакивает по одному из положительных направлений с вероятностями п / .\ N — п1 Р (и, п + в,) m.V_.(ai+. ..+ит) точки п в точку n -f гта из 1-й группы тельного ранга Υηι.Λ· Вероятности переходов выбраны так, чтобы при этом скачок из точки n в точку n + е^ соответствует появлению (и1 + 1) -го варианта из 1-й группы и наблюдению его относи- 149
все т групп вариантов были равномерно перемешаны. Нетрудно видеть, что все траектории частицы с началом в 01 и концом в ffl равновероятны и что между порядками появления вариантов (с точностью до нумерации вариантов внутри групп) и траектория- ми имеется взаимнооднозначное соответствие. В принципе задача <Fn, ql (Xn)>m сводится к обычной (де- терминированной) схеме наблюдений, но при этом независимость наблюдений теряется. Назовем точки, по которым блуждает части- ца, этапами. На этапе п может наблюдаться одна из случайных величин Yn4 . . -, Y™m, и если остановка производится на Υιζ% то ожидаемые потери составляют Q^i (Z, Υιι), где N-n+k <?·'<">= S '«СОCr;)/C)· <«5> Оптимальное правило можно найти с помощью простого обоб- щения метода обратной индукции, однако мы на этом не будем задерживаться в связи с тем, что от задачи (Yn, ql (Xn)>w нам по· требуются только два неравенства. Пусть 3Ri — класс правил остановки, не выбирающих гг — 1 первых вариантов из первой группы, . . ., im — 1 первых вариан- тов из т-ж группы, и Ю\ — его цена. Если j >- i, то $?j (Z $?ь поэтому w;f ;> w;f. Интересно отметить такое отличие от задач с детерминиро- ванной схемой независимых наблюдений: w^ не является ценой в задаче с начальным этапом j. Лемма 4.3. Для всех п = 1, . . ., N и& > M min (!£$„> i, Ç« (1, Υ\), . - -, Qn (m, Y™)). Доказательство. Пусть τ — произвольное правила остановки из класса 9Jîni. Если τ останавливается на одном из значений Υη, . . ., F™, то ожидаемые потери не меньше min <?* (Z, Yln). Предположим, что τ не останавливается ни на одном из Fn, . . ., Υ™> тогда на каждом множестве {Fn = г/1, . . ., F™ = ут) правило τ можно рассматривать как правило остановки из класса 9К(п+1)ь т· е. ожидаемые потери при пропуске Yn, . . ., Y™ всегда не меньше ι#(η+ι)ι· Лемма доказана. Заметим, что в случае m = 1 эта лемма превращается в равен- ство, которое является уравнением обратной индукции. Следующая лемма показывает, что в многокритериальной за- даче потери меньше, чем в расслоенной. Лемма 4.4. Для всех п = I, . . ., N Vn <H?ni. 150
Доказательство. Из (4.5) и (4.15) получаем <#(k)< min Q%(l,W). (4.16) Имеем vn+i = w>(Iv+i)i = ∞. Пусть нужное} неравенство справед- ливо при некотором η ^ 2, ..., iV + 1, тогда v%+1 < wfn+1)U и из леммы 4.3, (4.16) и (4.3) получаем! !# = M min (i&lf <?£ ( Yn)) < M min (<+1)1, ρ? ( Yn)) < < M min (wNn+1)U Q% (1, Yn), ...,Q%(m, Y™)) < и£ . Индуктивный переход завершает доказательство. Лемма 4.5. При всех t ΕΞ [0, 1) lim sup w£i <>(£). N Доказательство. Рассмотрим рандомизированную модификацию задачи <Fn, ql (Хгп)>т, в которой моменты появле- ния всех mN вариантов случайны, и осуществим вложение в за- дачу (Yt, ql (Xt)my так, как это делалось в п. 3.3.2. Положим Nlt равным числу вариантов из 1-й группы, появившихся к момен" ту i и имеющих абсолютный ранг не больше N. На множестве {N} = п1, . . ., NT = пт) цена продолжения в рандомизирован- ной задаче (Yln, ql (Xln)ym равна Wn, где n = (n1, . . ., пт) и и% — цена продолжения в задаче <Fn, ql (Xn)>m с начальным этапом п. Следовательно, uSl{Nl = n\...,Nr = nm}^v(t)I{N} = n1,...,Nr = nm). Опуская детали, набросаем схему оставшейся части доказатель- ства. Во-первых, следует воспользоваться оценкой вероятностей больших уклонений (3.36) примерно так, как это делалось в лем- ме 3.6. Далее, следует перейти к новым координатам, разложив случайное блуждание на две составляющие — детерминированное движение вдоль главной диагонали куба и «настоящее» блужда- ние в гиперплоскости, перпендикулярной диагонали, с тем чтобы показать, что уклонение траектории от диагонали имеет порядок YN. Наконец, используя оценку приращений и^ через одно- критериальные цены продолжений, показать, что в масштабе YN цены этапов непрерывны и u^i ~ Wni при nlN -> t. Лемма доказана. 4.2.3. В этом разделе будет доказана сходимость цен продол- жений в многокритериальных задачах с усеченной функцией по- терь. Промежуточные модели, которые вводились в п. 3.3.3, не имеют многокритериальных аналогов, и это вынуждает нас обра- титься к аналитическому методу. 151
Представим множество всех целочисленных положительных век- торов i e= Rm как объединение попарно непересекающихся множеств Uм = {i| все компоненты i больше М), Wm = {i| найдутся две компоненты i не больше М}, Vm = {i I только 1-я компонента i не больше М}, I = 1, . . ., гл. Пусть JN CZ Rm — целочисленная решетка куба со стороной [1, N]. Легко видеть, что card JN = ΛΓ, card (JN f] UM) = {N — M)m, card (JN f]VlM) = M(N- M)«-i, (4.17) card (JN П WM) = Nn — (N — M)m — mN (N —M)m'x = = 0(Nm-2). Положим по определению qlM{i) = q[M S ч + щ), дм(*)·· [ qlM{il), если îœV1m, Ζ = Ι, ..., m; q (i), если i Œ WM\ { q (Mi), если i e UMi и назовем функцию потерь qM (·) усеченной (по отношению к ис- ходной q (·)). На множестве ТУМ усеченная функция потерь совпа- дает с исходной, на множестве UM она постоянна и равна своему наибольшему значению, а на каждом из множеств VM зависит только от i1. Все переменные, относящиеся к усеченной функции потерь, будут снабжаться дополнительным нижним индексом. Определим Смп (^ &) как функцию ожидаемых потерь в одно- критериальной задаче <Fn, qlM (Хп)>, т. е. N-n+k «.м- ga<o(::;)(:::}/C). («в)· причем в этой сумме не более M различных значений qlM (i). Если k Œ V1m, то функция ожидаемых потерь в задаче <Fn, qM (Хп)У равна <?м„(к) = <?^п(/,П (4Л9) а если k e= Um, to <Йп(к)=д(М1). (4.20) Из (4.19) и (4.20) следует, что многие из порогов (4.10), опре- деляющих оптимальное правило Тм, совпадают, а именно: если к Œ UM, то аш = Ν, а если к Œ VlM, то амк= ам&к1), def т. е. пороги с одинаковыми к совпадают. Как мы увидим далее, от 152
остальных порогов средние потери асимптотически не зависят, лишь бы эти пороги имели порядок N. Положим оо Я?т® = ^м{к){к1\) ^i1-')"· (4·21) Лемма 4.6. Для всех I = 1, . . ., m и к = 1, 2, . . . sup | Си» (h к) - Rlm (-J-) | = О (-£) . Доказательство. Представим (4.18) и (4.21) в виде М-1 . *.(*) - σa m(;:!)в-) (1 -^г+«л«ю. (4.22) М—1 <Й«М = £ fli, (О (»IÎ) (ГГ1) / (!) + Р?м (M), (4.23) l /M где сумма всех коэффициентов при дм (·) равна 1, и 11=0, если к1<С,к2. Отношение ( __.)/( ) является произведением i сом- ножителей вида (п — ^)/(Ν — к2) или (iV — n — &i)/(W — &2)> поэтому найдется положительное число с такое, что при всех i ^ ^ к <ζ M и N ^> M верно неравенство к:г;ю-и-гс-*г <г — Следовательно, все коэффициенты в (4.22) и (4.23) различаются на величину порядка О (UN). Лемма доказана. Следующая лемма утверждает, что оптимальное правило при- нимает только значения порядка N. Лемма 4.7. Если хотя бы при одном I = 1, . . ., m не выпол- няется равенство glM (M) = дм (1), то существует δ ^> 0 такое, что τΜ > Νδ при всех TV = 1, 2, .... Доказательство. В силу (4.11), Тм Ξ> й, ь поэтому достаточно показать, что отношение djîf, iA/V отделено от нуля при всех N. Поскольку дм (i) ^ дм (i*)» то vmu не превосходит цену продолжения в однокритериальной задаче (Yln, дм (Хп)У- Но в этой задаче цена продолжения равномерно отделена от дм (М) = = g (Mi) при ηΙΝ < 1/2, и значит, то же верно и для Vmu- По лемме 4.6 QMn(l)-*q(M\), n/W->0, 153
поэтому соотношение dN lim inf_%l = 0 N /V вместе с (4.10) приводит к тому, что vm\ ->ç (Mi), т. е. к противо- речию. Лемма доказана. Пусть vM (·) — решение на [0, 1] дифференциального уравне- ния m M v'M (t) = 4" Σ Σ (*>м (0 - #м* (*))+ (4.24) Ζ=Ι fr=l с граничным условием νΜ (1) = ? (M 1). (4.25) Следующий результат для усеченных функций потерь является основным. Лемма 4.8. Справедливо соотношение sup | νΜ (η/Ν) — ν&η\-0 (l/Ν). η Доказательство. Все вводимые далее константы поло- жительны. Представим (4.3), используя равновероятность всех значений вектора относительных рангов, в виде разностного уравнения *>м, η+ι - !& п = 4г £, (4, η+ι - <?мп (к))+ (4.26) keJn с граничным условием = ^Г £?м(к). (4.27) kŒJ* Согласно лемме 4.7, в оценке разности достаточно ограничиться значениями η ^> Νδ. Положим en=\vM(n/N)-vZn\. (4.28) Из определения усеченной функции потерь, (4.17), (4.25) и (4.27) получаем в»=лРй£(?м(к)~?(ЛП))=л^ Σ (···)+ jn +ir Σ (···)+^Σ Σ' (•••Х'ж· Теперь мы хотим рекуррентно оценить εη через 8п+1. Сначала заметим, что правая часть (4.24), рассматриваемая как функция 154
переменных t и vM, в прямоугольнике [δ, 1] X [0, q (M 1)] огра- ничена и имеет ограниченные частные производные, причем эти производные имеют не более тМ линий разрыва, поэтому най- дется константа с2 такая, что Следовательно, из (4.26) и (4. 28) вытекает, что * ^ с* _L 17, / ГС + 1 \ ,' / п + ! \ ! ,ν I с2 гп <^ "/va* "г | vm у N J — vM y—τν~ J "/y— Mn i 7v2 + i I / и+1 N jv ' /n + l\ 1 . "*" I Vm [ N ) ~ Vm* n+1 — Vm X N ) "Ж + + 4г£(...)+|<-^ + вп+1+|,м(^±^)^г + + 4τΣ(···)+|· Jn Из (4.24) получаем m M ^(ν)τ=7+τΣΣ(4^)""^(^))+· Кроме того, при η^> Νδ из (4.17), (4.19) и (4.20) следует, что τ-Σ<-·>*-^ Σ<-··>*+7- Σ <···>*+ Jn JnwM JnnwM m ^Σ Σ, <···>*- m M £, Σ (4, n+i - Qm, n« (i, &))+ + 0 (т}г) . '=1 ^пПУм m M _ („-Ai)™-1 RM Используя оценку леммы 4.8, получаем требуемую рекурсию εη<^Ι-+ (f- + l) εη+1· - (4.29) Последовательное применение (4.29) от больших значений к меньшим дает ч<(1+*Г"«»+* Σ('+τ)*< fe=0 с4 \tf 155
Из доказанного выше неравенства en < cJN теперь при N -> оо получается оценка верная для всех п <^ N. Лемма доказана. Приведем некоторые следствия. Поскольку вероятность суще- ствования варианта с относительным рангом Υη ΕΞ Wm при п ]> ^> Ш бесконечно мала, то пороги d$k, k ΕΞ Wm можно заменить на любые другие, например, dMk = N. Из (4.10), леммы 4.6 и лем- мы 4.8 следует, что -jy- ам (^ &) — > ом/с» где пороги Ом/с определяют оптимальное правило в предельной за- даче (теорема 4.2). Следовательно, существует асимптотически оптимальное правило остановки, определяемое всего только тМ порогами, например, [ΝδιΜΚ], где [·] —целая часть. Замечание. Усечение q (·) и определение qM (·)» или оп- ределение ql (·) и затем усечение, приводят к различным функ- циям потерь. В первом случае мы получаем q (M, . . ., i, . . ., M), где i <^ M, a во втором случае — q (оо, ...,£,..., оо). 4.2.4. Следующая теорема является основным асимптотическим результатом в задаче <УП, q (Xn)y. Теорема 4.3. Для любой функции потерь q (-) и tŒ Ю, Î] 1) limv% = v(t); n/N-t 2) если v < оо, то для любого ε ]> 0 lim sup \vn — v (n/N) | = 0; JV->οο n>2V(l—ε) 3) если функция потерь ограничена, то в 2) можно положить ε = 0. Доказательство. Для усеченных функций потерь утверждение следут из теоремы 4.1 и леммы 4.8. Пусть %м —оптимальное правило в классе правил τ ^ t в за- даче (Yt, qlM (Х1)Ут. Это правило задано конечным набором поро- гов. Выберем такую подпоследовательность значений М, чтобы одноименные пороги сходились. Далее воспользуемся аргумен- тами леммы 3.9, чтобы доказать сходимость vM (t) f v (t). Поскольку усечение не увеличивает потерь, то vMn ^ yn, и вме- сте со сходимостью VMn -*~vM (t) t v (t) это доказывает неравенство lim inlvn ^v(t). n/N-+t 156
Докажем обратное неравенство. Из лемм 4.4 и 4.5 получаем lim sup Vn <^ lim SUP wn\ ≤ζ v (t). n/N-*t n/N-*t Это доказывает 1). Утверждения 2) и 3) вытекают из монотонности v^ no п и непрерывности v (·) при ι; < οο. Теорема доказана. Заметим, что более слабый результат: ν^ ->у можно получить из лемм 4.2 и 4.8. 4.3. Случай равноценных критериев и некоторые примеры 4.3.1. Анализ многокритериальных ранговых задач сильна затрудняет отсутствие линейной упорядоченности порогов. Кро- ме тривиального случая, когда функция потерь зависит только от одного из абсолютных рангов, существует еще один случай, в ко- тором имеется линейное упорядочение порогов. Скажем, что имеет место случай равноценных критериев, если для любой перестановки зчисел 1, . . ., m и любых i = (г1, . . ., im) q(i\ ...,f") = 2(;s;(i), ...,ит))# В этом случае «допредельные» пороги α,ζ упорядочены лишь ча- стичного вот пороги b[ упорядочены уже линейно, поскольку имеется равенство <?1 W = ... =<T(k) (4.30) и, следовательно, δ£ = ... = δΓ. Равенство (4.30) естественно назвать случаем асимптотически равноценных критериев. Это понятие более общее, нежели рав- ноценность. В этом параграфе будут рассматриваться только функ- ции потерь, удовлетворяющие (4.30), поэтому у всех переменных, связанных с функцией потерь, верхний индекс будет опущен. Основное уравнение (4.13) принимает вид *'(*) = т-£,И*)-Д*(*))+. На интервале (ôj, бг+1) имеется лишь i слагаемых, т. е. ^ = ^-^^><*) (4.31) и два граничных условия v (00 = Л, (ô4),i; (ôi+1) = Bi+1 (Ôi+1). 157
Поскольку (4.31) равносильно 4 ' fc=l то v(t)=tmiSi(t) + ctm\ где ι г - х ι Из граничных условий получаем два соотношения (ÔO^^i (δ4) H- с (ôi)"»* = Л4 (δ4), (bi+1)mi St (Ô1+1) + с (ôi+1)™ = Ri+i (bi+1), откуда #{(δ{) = 6{(δ{+1), (4.32) где Щ (t) = Si (t) - AW , β{ (t) = -^Si (t) (t - Ri+1 (*))«*. Если δΜ = 1, то (4.32) позволяет рекуррентно вычислять пороги, отправляясь от i = M — 1. 4.3.2. Пусть функция потерь имеет вид {О, если найдется il = 1,1 = 1, ..., m, 1, в остальных случаях. Ясно, что минимизация средних потерь эквивалентна максимиза- ции вероятности остановки на варианте, наилучшем хотя бы по одному из критериев. Пусть р (к) равно числу единиц среди Л1, ... . . ., кт. Функция ожидаемых потерь в задаче <Yn, q (Xn)> имеет вид поэтому пороги d± зависят только от р (к). Положим bf = d^, если р (к) = Ζ. Оптимальное правило представляется в виде min {п | п > Ьр(уп)} IV, если это множество пусто, однако при N -> оо существенным оказывается только порог bx . Поскольку условие равноценности критериев выполнено, то {4.31) на [ох, 1] превращается в уравнение (v(t)/tmY =m/tm, v(l) = 1, 158
v(t) = поэтому 1— —^(i — Г), если i>(l/mp-D, 1 — (l/m)i/<"»-i>f t < (l/m)i/(w-D, в силу того, что Bx (£) = 1 — £ и δΧ = (Ι/ττι)1/*™-1). Таким образом, b^/iV -* δΧ и вероятность выбора варианта* лучшего хотя бы по одному из критериев, асимптотически равна (i/m)1^171"1^. Асимптотически оптимальным оказывается простое пороговое правило: «пропустить приблизительно iV (Ι/ττι)1^™"1) вари- антов, а затем остановиться на первом же варианте, который яв- ляется относительно лучшим хотя бы по одному из критериев»* Таблица 9 N 2 0,750 4 0,724 6 0,642 8 0,610 10 0,586 20 0,544 30 0,529 40 0,522 Следует сравнить этот результат с формулами (3.77) и (3.78), относящимися к задаче Гусейн-Заде. Числа m и г играют одина- ковую роль — в обоих случаях это число вариантов, которые нас устраивают больше всего (с учетом того, что при R -* оо вариант, лучший сразу по двум критериям, существует с бесконечно малой вероятностью). Однако здесь имеется и существенное различие: в задаче Гусейн-Заде число (l/r)1^""1) дает лишь грубую оценку снизу вероятности остановки на одном из г лучших вариантов (как мы видели в п. 3.5 при г -* оо эта вероятность с экспоненци- альной скоростью стремится к 1), а в рассматриваемой задаче большего достигнуть нельзя. Число (l/r)1^"1) еще появится в более общем контексте. В табл. 9 приведены численные значения оптимальной вероят- ности остановки на варианте, наилучшем хотя бы по одному из критериев, при m = 2 и конечных N. 4.3.3. Рассмотрим функцию потерь g (i) = min (i1, . . ., im). Таким образом, потери равны наименьшему абсолютному рангу выбранного варианта. В этом случае Rk (t) = k/t, поэтому прямое вычисление (4.32) приводит к соотношению 2 (mi + 1) \-i/(mi+i) »*+1 ~\ ^Hmi-m+2)) что вместе с Ьк \ 1 дает -П( 1 2(ш +1) \-i/(mi+i) i (mi — m + 2) Минимальные средние потери v находятся из уравнения #i (δι) = ν (δΧ) = l/ôb 159*
откуда „ —П (\ 4- 2(mt+l) U/ftnU-i) ^—11 (A t" wm^m . 2) / i=al Мы получили обобщение формул примера 4 из п. 3.3.4. Замечание. В обоих примерах v (t) ->. 1 при m -* оо. Воз- никает вопрос — а имеют ли ранговые задачи предельные формы по числу критериев? Рассмотрим «задачу с N вариантами и бес- конечным числом критериев». Модельное пространство для этого имеется вполне подходящее — это счетное число экземпляров еди- ничного отрезка, на каждый из которых бросается по N точек, символизирующих ранжирование по соответствующему критерию. Теперь,если потери определяются сравнениями лишь по конечно- му числу критериев, то ничего нового не получается. Если же потери определяются «полным» вектором абсолютных рангов, то задача становится тривиальной, поскольку все интересующие нас события являются «хвостовыми» и, следовательно, по закону Кол- могорова имеют вероятность 0 или 1. То же самое относится и к пре- дельному переходу <У{, q (X[)>m -*<Υ{, ql (Χ\)}∞. 4.4. Остановка на парето-оптимальном варианте 4.4.1. В оставшейся части книги будут рассматриваться толь- ко задачи максимизации вероятностей определенных событий, по- этому мы возвращаемся к терминологии первой главы —эффект выбора будем описывать термином «выигрыш». Проанализируем те предположения, которые приводят в одно- критериальных задачах к определению выигрышей монотонной функцией абсолютного ранга выбранного варианта. Вот эти пред- положения: 1) эффект выбора зависит только от сравнения вариантов, из которых выбор может быть сделан; 2) эффект выбора тем выше, чем лучше выбранный вариант. Если все варианты можно линейно упорядочить по качеству (например, путем измерения или числовой оценки), то набор аб- солютных рангов (Хх, . . ., Xjy) содержит всю информацию о срав- нениях вариантов. Пусть τ — способ выбора (правило остановки), предположение!) приводит к тому, что при τ = η эффект выбора зависит только от (Хп; Х1? . . ., Xn), а поскольку (опять в силу 1)) эффект не зависит от порядка появления вариантов, то сущест- венной оказывается только пара (Χη; Ν). Если число обследуемых вариантов фиксировано заранее, то эффект зависит только от аб- солютного ранга выбранного варианта. Таким образом, пред- положение 1) позволяет в качестве исхода одного полного про- смотра рассматривать одно из чисел 1, . . ., N. Предположение 2) приводит к тому, что исход i является более желательным, нежели исход /, если i < /. Всякое правило остановки порождает некото- рое распределение вероятностей на множестве исходов {1,. . ., N}% 160
и при определенных предположениях о структуре предпочтений на множестве распределений, согласно теории ожидаемой полез- ности фон Неймана—Моргенштерна, существует такая монотонная функция q (i), что эффект выбора описывается средним значением Mq (Хт). Теперь посмотрим, к чему приводят предположения 1) и 2), когда варианты сравниваются по нескольким, скажем т, крите- риям. Всю информацию о сравнениях вариантов опять-таки содер- жит набор векторных абсолютных рангов, поэтому эффект выбора опять должен зависеть только от (Хп; Х1? . . ., Хп). Пусть m = 2, тогда устранение произвола в порядке появления вариантов при- водит к паре ( Xn; ( ;1# _; ) ] » где векторы абсолютных рангов упорядочены по величине абсолютного ранга по первому критерию. Таким образом, множество возможных исходов значительно уве- личивается, и теория ожидаемой полезности предлагает описывать эффект выбора средним значением Щ (Χτ; (ii. · · · > în)) некоторой функции. Предположение 2) приводит к условию моно- тонности: если Хг= (к, ik), Xs = (n, in), и Xs >~ Xr, то q (Xr; (ilf..., iN)) > q (Xs; (iv ..., iN)). Если число критериев больше двух, то функция выигрыша долж- на зависеть уже от нескольких перестановок. Так, при m = 3 мы приходим к зависимости вида ««::::£))· Тот случай, когда функция выигрыша зависит только от Xns соответствует предположению: 1') эффект выбора зависит только от сравнения выбранного варианта со всеми остальными, из которых выбор может быть сделан, которое в случае одного критерия равносильно 1). В трех предыдущих параграфах была построена достаточно полная асимп- тотическая теория для зависимости q (Xn), соответствующей 1'), когда наблюдению подлежат только результаты сравнения про- смотренных вариантов, выражаемые последовательностью отно- сительных рангов. Решающим обстоятельством здесь оказалось то, что в задаче остановки имеет место случай независимых на- блюдений: относительные ранги Y1?. . ., Υ/ν независимы, и ожидае- мый при выборе п-го варианта выигрыш M(g(Xn)|Y1,...,Yn) = ^(Yn) зависит только от Yn. Введение зависимости выигрыша от сравнения всех вариантов сильно усложняет задачу, так как в общем случае ожидаемый вы- игрыш зависит от всех наблюденных относительных рангов. По- \26 Заказ м 3752 161
строение единой асимптотической теории для всех видов зависи- мостей здесь не представляется возможным в связи с тем, что (безотносительно к задачам остановки) асимптотические распре- деления многих довольно простых функций от перестановки (тем более — от нескольких перестановок) в настоящее время не- известны. Мы рассмотрим только один вид зависимости, который есте- ственно возникает в контексте многокритериальной оптимизации. 4.4.2. Пусть N вариантов сравниваются между собой по двум независимым критериям, т. е. все значения пары строк Χι · · · xn\ равновероятны. Мы будем обращаться с векторами абсолютных рангов как с элементами множеств, подразумевая под этим, что Хп — это и есть «сам вариант». Скажем, что η-й вариант является парето-оптимальным среди всех N вариантов (обозначается Xn Œ С^ {Хи . . ., Xjv}), если для любого i = 14 . . ., N Xn >- Xi =ф Хп = Xi· Таким образом, вариант парето-оптимален, если никакой другой вариант не улучшает его сразу по обоим критериям (напомнимг что чем меньше ранги, тем лучше вариант). Аналогично определяется парето-оптимальность в любом под- множестве множества bN вариантов, т. е. для любого подмножест- ва {пг, . . ., пк) С {1, . . -i N}. Следующий результат хорошо известен в многокритериальной оптимизации. Лемма 4.9. Для любого Af = 1, 2,.. ., и m = 2 N M card С& (Xv ..., Xjv) = V— · η-=1 Доказательство. Упорядочив варианты по первому критерии^ мы получим с равными вероятностями любую из пере- становок /1...*\ vi · · · W " Определим Υν как ранг in среди /х, . . ., in, случайные величины Y и · · ·ι Υν обладают обычными свойствами относительных ран- гов. В следующем рассуждении под n-м вариантом понимается пара (гг, in). Первый вариант всегда является парето-оптимальнымг поскольку он наилучший по первому критерию. Второй вариант может быть улучшен только первым вариантом (все остальные ху- же его по первому критерию), причем это не происходит только если i2 < i1% т. е. Уа = 1· Третий вариант может быть улучшен 162
только первым или вторым, поскольку все остальные хуже его по первому критерию. Указанное событие не осуществляется толь- ко в случае Υ3 = 1. Продолжая в том же духе, мы видим, что п-тк вариант является парето-оптимальным тогда и только тогда, когда Υη = 1. Следо- вательно, N N McardCHXi XJV}=M(Ji/iyn=1>) = 5]j-lr. π=ι η=>Ι Лемма доказана. Из леммы вытекает, что при большом числе вариантов среднее число парето-оптимальных вариантов имеет порядок In N (дис- персия также имеет порядок In N). 4.4*3. Обратимся к задаче остановки. Пусть τ — произвольное правило остановки, измеримое относительно σ-алгебр fn = = 33 (Ylt . . ., Yn), n = 1, . . ., N. Положим выигрыш равным 1, если выбранный вариант Χτ оказывается парето-оптимаНЬным сре- ди всех N вариантов, и 0 — в противном случае. Ясно, что такая структура выигрышей удовлетворяет условиям 1) и 2) в начале параграфа; Средний выигрыш равен вероятности Ρ{ΧτΕΞθ{Χι, ...,Х*}} выбора парето-оптимального варианта. Мы хотим найти оптималь- ное правило τ^ и максимальный средний выигрыш νΝ. Определим функцию ожидаемого на п-и шаге выигрыша Q% = V{XnŒC&{Xv ... ,XN}\fn} Покажем, что событие {Хп €= С&> {Xn >... t Хп}} является наблюдаемым, т. е. принадлежит §п. Для этого следует выразить его через Y1?. . ., Υη, но явно сделать это довольно слож- но, поэтому введем текущий ранг Yn, k η-το варианта в момент & >= и, полагая Yln,n равным числу членов последовательности Xi, . . ., Х[, не превосходящих Xn, I = 1,2 (с этим понятием мы уже встречались в доказательстве леммы 2.1 ив замечании в конце п. 3.3). Ясно, что Υ„, „ = Υ„, Υη. Ν = Χη, Υη, nfl У- Yn, n и наборы (Υ1( п , . , ., Υ„,η) и (Υ1? . . ., Yn) находятся во взаимо- однозначном соответствии. В этих терминах Xn £r C&> {Xi,..., Χη} ^> Υη> η = C&> {Yl4 n, ... , ^ n, n}> (4.33) поэтому можно сказать, что текущие ранги в момент п играют ту же роль, что и абсолютные ранги, но в отличие от последних яв- ляются наблюдаемыми. Следовательно, на η-ом шаге можно опре- делить, какие из вариантов являются парето-оптимальными в уже наблюденной совокупности. По аналогии с классическим случаем, назовем вариант относительно лучшим, если *п,п^ ^*Р { М, п» · · · » * п, и}· 6* 163
Y».! (4.35) Если n-й вариант не является относительно лучшим, то в силу очевидной импликации Хп ф С& {Х1?..., Хп} =ф Х„ çé С& {Х1?..., Х^} он не может оказаться парето-оптимальным среди всех N вариан- тов. Продолжая аналогию в терминологии, назовем вариант Хп Е С^ {Хь . . ., Xn) абсолютно лучшим («абсолютный» — не значит «единственный»). Итак, если вариант не является отно- сительно лучшим, то он не может оказаться абсолютно лучшим, поэтому ожидаемый при выборе n-ro варианта выигрыш в атом случае равен 0. Рассмотрим теперь случай, когда n-й вариант является отно- сительно лучшим и найдем Q% в этом случае. Для этого введем марковскую цепь трансформаций текущего ранга Y п ~ * ?г, п —* Yn, n+l —►·..—»' Υ?ι, N = Χ?ι· (4.34) На каждом шаге к = 1, . . ., N может осуществиться одна из че- тырех возможностей * Yn, к ► Yn, к + *1 ► Yn, к + ^2 ► Yn.*+1 с такими вероятностями переходов: /»»«*./). ('. Λ) — С1—tÎtX1 — ттт) · ^№/).(' + ι./)) = τπ-(ι-τ;τ)· Р* №./).(«./+ i»-(i-xîtÎtÎt · PtdUlhV + l'l + iV-bU-uli. Самая нижняя стрелка в (4.35) отвечает появлению в момент к варианта, лучшего чем n-й вариант, сразу по двум критериям. Сле- довательно, ни один из вариантов Хп+ъ . · ·, Xiv не улучшает Хп по обоим критериям, если в (4.34) нет ни одного перехода по ниж- ней стрелке. Нетрудно понять, что все траектории (4.34) с фикси- рованным началом и концом равновероятны. Действительно, пусть Yn = (£, /), Хп = (i + 51? / + 52), тогда среди вариантов Хп+1 , . . ., Xjv имеется sx вариантов, лучших Хп по первому кри- терию, и s2 вариантов, лучших Хп по второму критерию, причем моменты появления этих st вариантов перестановочны и не зави- сят от (также перестановочных) моментов появления указанных s2 вариантов. Переход по нижней трелке ни сразу не осуществится, если первые $х вариантов и вторые s2 появляются в различные мо- 164
менты. Отсюда следует, что вероятность события {Xn ΕΞ С&> {Х^ ..., Xn}} при условии ΥΛ = (г, /) задается формулой /я-1Ч /»-1\ где последний сомножитель — триномиальный коэффициент. Итак, доказано, что <?» = gn ( Y„) / {Xn S С, {Хх,..., Xn)} (4.36) (еще раз подчеркнем, что в силу (4.23) событие в фигурных скобках наблюдаемо). Совокупность последовательных наборов текущих рангов (Yi, „, . . ., Υη,'η) образует неоднородную марковскую цепь, переходные вероятности которой легко пересчитываются через рас- пределение относительных рангов. Выигрыш при остановке в ка- ком-либо состоянии определяется формулой (4.36). Поскольку чис- ло шагов конечно, то оптимальное правило может быть в принци- пе найдено методом обратной индукции. Таблица 10 IV νΝ 2 0/750 3 0,750 4 0,741 5 0,730 б 0,720 7 0,725 8 0,727 9 0,726 Результаты вычислений vN на компьютере представлены в табл. 10. Оптимальное правило описать трудно, так как никакой очевидной закономерности в строении остановочных множеств нет. При больших N даже компьютер не помогает, так как фа- зовое пространство цепи велико. Так, наборы текущих рангов (У1|П,. . ., Yw, п) принимают по (п\) 2 значений; упорядочение на- блюденных вариантов по первому критерию (очевидно, не влияющее на (4.36)) редуцирует фазовое пространство до ~ N\ состояний. Наконец, можно не рассматривать те состояния, в которых (4.36) равно нулю, т. е. построить марковскую цепь, связанную исклю- чительно с относительно лучшими вариантами (так мы и делали в первой главе), это приведет к числу состояний порядка 2N, но уже к сложным переходным вероятностям. Оставив попытки точного решения задачи, мы найдем удиви- тельно простое асимптотически оптимальное правило остановки. Основной результат следующий: при N -* оо сколь угодно близ- кая к 1 вероятность остановки на парето-оптимальном варианте может быть достигнута за счет пороговых правил — «пропустить фиксированную часть вариантов, а затем остановиться на первом же относительно лучшем варианте (если такой вообще появится)». 165
4.4.4. Назовем правило остановки min {n^lX^CWXx,...,^}}, τ<* = 1 .г (4.37) l iV, если это множество пусто х ' пороговым с порогом d. Прежде всего, это действительно правило остановки, так как событие {Хп е= С&> {Х1? . . ., Хп}) принадлежит σ-алгебре fn. Определим К (d, N) как число вариантов с номерами d, . . ., N по порядку просмотра, не улучшаемых первыми d — 1 варианта- ми; L (d, N) — как число вариантов с номерами d, . . ,, iV, Парето- оптимальных среди всех N вариантов. Формально, К (d, IV) = card {Хп | n > d, Χη = C^ {Хц. . ., Χ^, Χη}}, L (d, IV) = card {X,, | n > d, Xn Œ C* {Xi,..., Xjv}}. Следующая лемма, выражающая вероятность удачного выбора по- роговым правилом через эти случайные величины, является основ- ной. Лемма 4.10. Для любого d = 1, . . ., N L(d,N) Р {XTd 6= С&> {Хъ ...» Xjv}} = \ К (d, IV) {K(dt'N)>0} dV. Доказательство. Рассмотрим событие {L (d, N) = = I, К (d, N) = ft}. Пусть индексы {гь . . ., ik} CZ {d, . . ., n} таковы, что ix < . . . < I* и Xir <= C^> {Xx,..., XdHL, Xir}, r = 1,..., ft. (4.38) Покажем, что xd = ile Пусть d < n < ii, тогда Xn ξΕ £#° {Xl» · · · » Xd-1» Xn)' по определению парето-оптимальностиэто означает, что найдется р < d — 1 такое, что Хп >- Хр, поэтому Хп ф С&> {Хх, . . ., Хп}, и, следовательно, xd ф п. Таким образом, варианты с номерами d, . . ., гг — 1 правилом xd пропускаются. С другой стороны, со- отношение Xi >- Χη при n = d, . . ., ii — 1 выполняться не мо- жет в силу транзитивности частичного порядка >-, так как в про- тивном случае мы имели бы Хг >- Хр, что противоречит (4.38). Пусть индексы {/Ι, . . ., /г} таковы, что /ι < . . · < /ι и \js Œ C&> {Xi,... ι Xjv}, s = 1,. . ., /. Из импликации Xn ΕΞ CV {Xi,..., Xjv} =Φ Xn S C^ {Xi,... > Xd-i» Xn} вытекает, что {/Ι, . . ., ji) CZ 0ι, . . ., ^}, причем соотношение XTd S £#> {Xi,..., Xjv} равносильно равенству /х = iv Случайные величины Х<ь . . ·, Xjv перестановочны, и событие {L (d, N) = lx К (d, N) = A:} инва- 166
риантно относительно перестановок, поэтому V{X*dŒC*{Xv ... ,XN}\L(d,N) = l,K(d, N) = k) =* »Ρ</ι-*ι> = 4-· Лемма доказана. Теперь- мы хотим оценить снизу стоящий в лемме интеграл. Из неравенства L (d, N) ^ К (d, N) и неравенства Коши-Буня- ковского [19] получаем Г Hd,N) dV^ P /Ь(^^)\2 {K(d,N)>0} {K(d,JV)>OÏ (M(L(tf,iV)J{Ar(tf,JY)>0}))« _ (ML(rf,/V))2 ^ Μ(£2μ,/V)/{#(<*, лт)>0}) ~ мл:2(с/,лг) · Положим ап = ^ {Xn £Ξ С^ {Χι, ..., Xjv}}f Xn = ^ {Xn S C#> {Χυ,.,, Xd-ii Χη}}· Легко видеть, что n=d n*=d Из перестановочностиXd, . . ., Xjv вытекает, что все %п одинаково распределены, и аналогично, все %п одинаково распределены. Следовательно, №{d,N) = (N — d + l)Mxd=* = (N — d + l)P{XdŒC&{Xv...,XN)}=* . N-*+i M card С* {Xi,..., X*}. (4.39) Аналогично, M£(d,A0 = (/V — d + i)V{XdŒC&{Xv ... ,Xd)}== œ ΛΓ-rf + l Mcard^{Xi,... ,Xd}. (4.40) Далее, MK* (d, tf) = (N — d + 1)(N — d)M (x^+1) + (/V - d) MX'd = = (N — d+l)(N — d)P{(XdSC^{Xlf...,Xd})A Λ (Xdfi S C^ {Xlf.. ., Xd-i, Xd+i))} + H ~— M card C&> {Xv ·.., Xd}· Рассмотрим событие {(Xd S C^ {Xi,..., Xd}) Λ (Xdfi S C* {Xp ..., Xd-υ Xd+i})}. Пусть Yd, d+i = î, ^d+i, d+i = / и для определенности i < /. Посколь- 167
ку d-й вариант лучше (d + 1)-го по первому критерию, постольку соотношение Xd >- Xd+i места не имеет и, следовательно, Xd ç== Œ. С&> {Xi, . . ., Xd+i}. Если Xd+i ΕΞ C&> {Xd, Xd+ih то ранг (d + 1)-го варианта по второму критерию среди вариантов, теку- щий ранг которых (на (d + 1)-м шаге) по первому критерию не превосходит ;, равен 1. Ранг d-ro варианта по второму критерию среди вариантов, текущий ранг которых (на (d + 1)-м шаге) по первому критерию не превосходит i, также равен 1. Условная вероятность этого события равна i/ij. Рассмотрим другой случай — Xd+i > Х</. В этом случае ранг (d + 1)-го варианта по второму критерию среди вариантов, теку- щий ранг которых по первому критерию не превосходит у, равен 2. Аналогичный ранг d-ro варианта равен 1. Условная вероятность этого события равна 1/(/ (/ — 1)). Следовательно, Р {(Xd œ с& {Хх,..., xd)) A(xd+1 е с*{Хх,..., Xd_!, xd+J})} « 2 VW 1 , i + d(d + i) £j\i] ' /(/-1) i, j~l 1 d+l d+l d-j-1 d(d+i) i=l i=l j=i Теперь из (4.39), (4.40) и леммы 4.9 получаем »=1 MK2(d,N) = i=l i=*i i=i + d (d + 1) d ■Σ4 Пусть N и d стремятся к бесконечности, но так2 что d/;V ~> δ < 1, тогда воспользовавшись аппроксимациями d-f-l d Σ4—ΤΓ· £+~lnii + c· получаем ML (d, ЛГ) — N~d In iV, MA:2 (d, N) ~ (-^^)2 In2 d и, следовательно, (ML (d, /V))2 d2 In2 /V «2 ma:2(î/, /v) ~ /v2 inad ""* ° * 168
Это доказывает, что ] im Р {XTd Œ С& {Хх, .. . , X*}} > δ2. По произволу δ, можно выбрать такую последовательность d (TV), чтобы вероятность остановки на парето-оптимальном варианте стремилась к 1 при N —> оо. 4.4.5. Таким образом, класс пороговых правил остановки ока- зывается асимптотически оптимальным по отношению к любому более широкому классу. Это обстоятельство принципиально отли- чает эту задачу от всех рассматривавшихся ранее — переход к пра- вилам с «полной информацией» в однокритериальных задачах увеличивает выигрыш. В случае большего числа критериев, m > 2, можно следить за сравнениями вариантов только по каким-нибудь двум заранее фиксированным критериям, так как вариант, являющийся парето- оптимальным по двум критериям, является парето-оптимальным по всем. По-видимому, асимптотически оптимальными оказывают- ся также пороговые правила относительно всех критериев (т. е. «пропустить часть и остановиться на относительно лучшем по всем критериям»), однако, наш способ доказательства на случай т^> 2 прямо не обобщается. Еще на некоторые обстоятельства следует обратить внимание. Доля пропускаемых оптимальным пороговым правилом вариантов стремится к 1, в отличие, например, от классической задачи. Оп- тимальная вероятность удачного выбора с ростом N не может мо- нотонно убывать, так как ее предел равен 1. Задача остановки на парето-оптимальном варианте не имеет нетривиальной предельной формы, поскольку все ожидаемые вы- игрыши в предельной задаче должны быть тождественно равными 1. Разумеется, это не исключает возможности выделения «глав- ной части» сходимости, но в любом случае это эффект «второго порядка». Этим подтверждается выдвинутый в начале п. 4.4 те- зис об отсутствии единообразного описания предельных форм задач наилучшего выбора для зависимостей (выигрыша от сравне- ний вариантов) общего вида. Тривиальное обобщение пороговых правил: «пропустить часть, а затем выбрать первые г относительно лучших вариантов» приводит к возможности со сколь угодно близкой к 1 вероятностью при больших N выбирать любое наперед заданное число г парето- оптимальных вариантов. 7 Заказ M 3752 169
4.5. Пороговые правила остановки 4.5.1. Приведем сводку некоторых полученных ранее резуль- татов о пороговых правилах остановки. Здесь N — число вариан- тов, d* — оптимальное значение порога, φ^ (d) — вероятность удачного выбора пороговым правилом τ^: 1) классическая задача — d*/N —> е"1, φΝ (d*) —> г"1, 2) задача Гусейн-Заде - d*/N-+ (l/r)1^-1), φ* (d*)-> (l/rp/O-D, 3) задача выбора варианта, наилучшего хотя бы по одному из m критериев (см. п. 4.3) — d*/#-* (i/m)1^-», φΝ (d*) ~> (l/m)1*™-», 4) задача остановки на парето-оптимальном варианте (m = = 2) - d*/N -+ 1, φ* (d*) -> 1. В задачах 2) и 3) числа одни и те же, хотя m и г имеют разный смысл, 1) получается путем формального предельного перехода при г —> 1, а 4) получается при г —> оо. Однотипность результатов го- ворит о существовании какой-то достаточно общей схемы. Эти задачи имеют одинаковую содержательную постановку: в процессе просмотра N вариантов требуется остановиться на луч- шем в каком-то смысле варианте. Все они возникают в контексте ранговых моделей. Однако, хотя в содержательной постановке термин «вариант» присутствует, при формальном рассмотрении «сам вариант» остается «за кадром», так как вся информация о нем исчерпывается абсолютным рангом. Неудобство этой схемы мы наиболее остро почувствовали в предыдущем разделе когда с век- торными абсолютными рангами пришлось обращаться так, как будто это были элементы некоторого множества. Далее множество обследуемых вариантов будет рассматриваться как выборка из ге- неральной совокупности, и будет формализовано понятие «лучший» вариант, что даст возможность сформулировать задачу остановки на лучшем варианте и получить некоторые общие результаты о пороговых правилах. 4.5.2. Пусть (Si, А) — некоторое измеримое пространство, все одноэлементные подмножества которого принадлежат А. Бу- дем называть (Si, А) пространством вариантов, а элементы a Œ 91— вариантами. Предположим, что A 1? . . .,Ajv — последовательность случайных элементов со значениями в (9i, A), определенных на некотором вероятностном пространстве (Ω, f, Р). На совместное распределение A!, . . ., AN наложим единственное требование пере- становочности: для всех BiŒ А, . . ., В я ΕΞ А и любой пере- становки (it, . . ., iN) Р {Д (An е вп)) = р {/\ (Ап œ вп)}. 71=1 71=1 Реализации Αλ = а1у . . ., An = aiv будем интерпретировать как последовательность наблюдаемых в моменты 1, . . ., TV вариантов. Заметим, что возможность рассмотрения одного и того же варианта в различные моменты не исключается. Условие перестановочности означает, что ознакомление с вариантами происходит в случай- ном порядке. 170
Рассматриваемые далее конечные множества являются реа- лизациями всех или некоторых из A 1?. . .,Ajy. При этом допускает- ся, что некоторые из элементов множеств могут совпадать. Обозна- чение {а1? . . ., ап} означает, что порядок элементов является несу- щественным в том смысле, что для любой перестановки {аъ . . . . . ., ап) = {ain . . ., a,in}. Перейдем к формализации понятия «лучший вариант». Пусть задана последовательность с1, . . .,cN отображений сп: 3tn -*Dn, которые ставят в соответствие каждому упорядоченному набору (ai, . . ., ап) n-компонентный булевский вектор ε = (ε1, . . ., εη), таких, что для любого ε <ΕΞ Dn его прообраз принадлежит Л ® . . . (х) Л (см. сно · ; п 13.3), и для любой перестановки п сп(а1, . . . ,αη) = (ε1, . . . ,гп)^сп(ак,. . . ,α4η) = (ε4 . . . , e<"). Положим С = (с1, . . ., cN) и назовем С функцией выбора. Если сп (аъ . . ., ап) = (ε1, . . ., εη) и efc = 1, то назовем вариант afc лучшим в множестве {ах, . . ., ап) (обозначается ап ΕΞ С {а1? . . . . ., ап}). Легко видеть, что если at является лучшим в множестве {аг, . . . . . ., ап), то из а% = dj и условия перестановочности следует, что dj также является лучшим. Пусть τ — правило остановки, измеримое относительно σ-ал- гебр 3d (Ai, . . ., An), п = 1, . . ., N, число Р {AT е С {A1? . . . . . ., An}) есть вероятность остановки на лучшем варианте. Назовем вариант An относительно лучшим, если Ап ΕΞ ΕΞ С {Ai, . . ., An}, и абсолютно лучшим, если 4nEf {Ai, . · . ..., Aiv}· Правило остановки f min{n>rf|AnŒC,{A1, ...,An}}, ^d= ΛΓ (4.41) { Ix, если это множество пусто называется пороговым с порогом d. По определению, Td пропус- кает A!, . . ., Ad-i и останавливается на первом же относительно лучшем варианте, если только такой существует. Вероятность ос- тановки на лучшем варианте обозначим φ^ (d). Мы хотим оценить максимальное значение φ^ (d), т. е. эффективность класса порого- вых правил остановки. Здесь приходится сделать терминологическое отступление. В литературе по принятию решений (теории игр, последователь- ном анализе, статистике, многокритериальной оптимизации, тео- рии коллективного выбора и в некоторых других областях) тер- мин «выбор» используется в трех совершенно различных смыслах, и мы с этим уже столкнулись. Под «выбором» может пониматься выборка (извлечение из какой-то совокупности), стратегия (на- пример, правило остановки), функция выбора (принцип оптималь- ности). Например, «выбор без возвращения» в зависимости от кон- текста может означать как извлечение без помещения на прежнее место, так и задачу остановки без возврата к отвергнутым вариаи- 7* 171
там. Английские термины: соответственно, sampling, selection^ choice. Далее мы будем говорить «выборка», «правило остановки», «функция выбора». Приведем примеры задач остановки на лучшем варианте. Пример 1. Классическая задача. Здесь имеются дискрет- ная и непрерывная модели. В дискретной модели % состоит иа конечного числа элементов и линейно упорядочено, (Al7 ... . . ., An) — равновозможная выборка без возвращения, С (В) состоит из единственного элемента, имеющего единичный ранг в В. В непрерывной модели 9Î = R, А = 3d, (Ai, . . ., An) — неза- висимые реализации случайной величины А с непрерывной функ- цией распределения Fa, С (В) состоит из максимальной точки в В. Непрерывность F A вместе с теоремой Фубини гарантируют невоз- можность совпадений вариантов. Пример 2. Просмотр с повторениями. Дискретная модель такова: 31 линейно упорядочено и конечно, (A1? . . ., An) — рав- новозможная выборка с возвращением, С (В) — наименьшие эле- менты в В, В силу линейной упорядоченности Si, С (В) есть по- вторение одного элемента. Возможны некоторые модификации этой схемы, лишь бы сохранялась перестановочность вариантов Ai, . · ., AN. Непрерывную модель правильнее назвать континуальной: A!, . . ., Ajv независимы, и Fa может иметь разрывы. Пример 3. Остановка на варианте, наилучшем хотя бы по одному из критериев. В дискретной модели пространство вари- антов есть прямое произведение 91 = 9ÎX X ... X 9Îm выбороч- ных пространств, каждое из которых конечно и линейно упоря- дочено, (Ai, . . ., AN) представляет собой m независимых безвоз- вратных выборок (Ai, . . ., Aw), которые естественно ранжируются, причем ранги символизируют сравнение по m критериям. Лучшие варианты — это те, которые имеют единичный ранг хотя бы па одному из критериев. В непрерывной модели St = Rm, Л — борелевские подмножества, (Ai, . . ., Ajy) — независимые реа- лизации случайной величины A с функцией распределения m FA(x1^..,xm)=U F,{x% 1=1 где Ft — непрерывные одномерные функции распределения. Координаты точки интерпретируются как оценки по m независи- мым критериям, С (В) состоит из вариантов, имеющих максималь- ную оценку хотя бы по одному из критериев. В общей теории вы- бора такое С называется совокупно-экстремальной функцией вы- бора. Пример 4. Задача Гусейн-Заде. Непрерывная и дискрет- ная модели те же, что и в примере 1, С (В) состоит из вариантов, имеющих абсолютный ранг не выше г. 172
Пример 5. Выбор по Парето. Непрерывная и дискретная додели те же, что и в примере 3, С (Б) состоит из вариантов, не улучшаемых сразу по всем критериям. Пример 6. Частичный порядок. В дискретной модели 31 конечно и частично упорядочено, элементы St изображаются в виде ориентированного транзитивного графа: а и Ъ соединяются стрелкой с началом в а, если а >- b. Лучшие варианты α ΕΞ С (Б) — это те, которые не соединены стрелкой с концом в а и началом в другой точке из В. Такая функция выбора называется графо- доминантной. Наблюдения (At, . . ., Ajv) — перестановочная вы- борка из 5Î. Непрерывная модель та же, что и в примере 3, в Rm задав выпуклый конус К, С (Б) состоит из тех вариантов, для которых (а + К) П В = {а}. Число примеров легко увеличивается, но эти являются для нас основными. 4.5.3. Эффективность пороговых правил будет оцениваться не для Есех функций выбора, а для некоторых классов. Необходимость ограничений обусловливается тем, что между мно- жеством абсолютно лучших вариантов и относительно лучшими вариантами должна существовать какая-то связь, которая дала бы весомые гарантии того, что относительно лучший вариант с достаточно большой вероятностью оказывается абсолютна лучшим. Говорят, что функция выбора обладает свойством наследо- вания, если для любого множества {аг, . . ., ап+1} (Z 3f и любого п аг^С {аг, . . ., ап+1} =Ф аг Œ С {а1? . . ., ап}, (4.42} свойством отбрасывания, если αλ ф.С{ах, .. ., αη+1} =>С{αν . . . ,ап+1} = С{а19 . . . , αη}. (4.43) Свойство наследования означает, что если вариант является луч- шим в большей совокупности, то он остается лучшим и в меньшей совокупности. Свойство отбрасывания означает, что от удаления вариантов, которые не являются лучшими, множество лучших вариантов не изменяется. В приведенных выше примерах функции выбора этими свой- ствами обладают, т. е. ограничения (4.42) и (4.43) не очень жесткие. Из (4.42) вытекает, что всякий абсолютно лучший вариант является также и относительно лучшим, т. е. для любого п = 1,... .. ., N 4еС{4..о4}^4еС{4..о4Ь (4.44) В следующем рассуждении индекс п может принимать значе- ния а,..., N. Назовем вариант An претендентом, если An ΕΞ ΕΞ С {A!, . . ., Ad-ii An}· Выясним, какое существует взаимоот- ношение между претендентами, абсолютно лучшими и относи- тельно лучшими вариантами. Если выполняется (4.43), то и 173
абсолютно лучшие и относительно лучшие варианты являются претендентами. Покажем, что если выполнены условия (4.42) и (4.43), то первый по порядку просмотра претендент является относительно лучшим вариантом. Действительно, пусть An — первый претендент. Поскольку он первый, то варианты An, . . ., An-i претендентами не являются, т. е. A* ÇÉ С {Ai,. . . , Ad_v Afr}, к = d,. . ., η — 1. Из (4.42) вытекает, что Ак ξΕ С {A1? . . ., An}, a из (4.43) полу- чаем, последовательно отбрасывая Ad, . . ., An-i, что С {Ax,..., An} = C{Av . .., Ad_!, An}, но An принадлежит С {Аг, . . ., Ad-ъ An}» поэтому он является относительно лучшим. Из определения (4.41) теперь вытекает, что при выполнении (4.42) и (4.43) пороговое правило xd останавливается на первом же претенденте, если такой вообще существует. Положим К (d, N) равным числу претендентов, L (d, N) — равным числу абсо- лютно лучших вариантов с номерами d, . . ., N. Повторяя рас- суждение в лемме 4.10, получаем следующее утверждение. Теорема 4.4. Если функция выбора С обладает свойства- ми наследования и отбрасывания, то для всех d = 1, . . ., N {K(d,N)>0) Пример. Классическая задача. Напомним, что все вари- анты различны, поэтому L (d, N) может принимать только зна- чения 0 или 1. Событие {К (df N) = k) происходит тогда и толь- ко тогда, когда лучший из вариантов Аг, . . ., Ad-i имеет абсо- лютный ранг к + 1, а варианты с абсолютными рангами меньше к + 1 попадают в последние (N — d + 1) вариантов. Следова- тельно, JV-1 где ( \ J = 0, если i < /. Сравнивая со старой формулой (2.11), мы получаем комбинаторное тождество. Ясно видно различие между претендентами и относительно лучшими вариантами. Пусть N = 3, d = 2 и перестановка из абсолютных рангов есть (3 2 1), тогда претенденты — это A2 и A3, a относительно лучший вариант с номером больше (d — 1) — только A2. Производить вычисления с помощью теоремы 4.4 очень трудно. Явное нахождение совместного распределения L {d, N) и К (d, N) уже в задаче Гусейн-Заде доставляет много хлопот, поэтому хотелось бы иметь какую-нибудь формулу типа (2.11), чтобы легко 174
находить асимптотики. Такая формула действительно сущест- вует. Лемма 4.11. Если функция выбора С обладает свойствами наследования и отбрасывания, и для некоторых г ^ m M card С {A!, . . ., An} = г, card С {Ai, . . ., An} <^ m для всех п — 1, . . ., TV, то для всех d = m + 1, . . ., TV справедливо неравенство пс=а Доказательство. Рассмотрим пороговое правило т^. Если вариант An является абсолютно лучшим и п ^ d, то в силу (4.44) имеем xd ^ n. Следовательно, {An Œ С {Ai, . . ., Aiv}, xd = η) = {An е С {Ai, . . , . . ., Arv}, Td> n — 1}. Отсюда получается такое выражение φ* (α) = Ρ {ATdŒC {Аъ . . . , ΑΝ}} = N = Σ Р{\еС{4! 4},тй=л} = η=d iV = Σ P{An^C{Ax, ...,Ajv},Td>n— 1} = n=d iV m = Σ Σ P{A„eC{A1,...,AN},Td>« —1, n=d fr=0 card С {Ai, . . . ,^.^ = Α:}. Поскольку Td останавливается на первом (после Ad-i) от- носительно лучшем варианте, то событие {xd ^> η — 1} означает, что среди Ad, . . ., An-i нет относительно лучших вариантов. По свойству наследования получаем Ai ф С {Ai, . . . , An-i}, i = d, . . . , η — 1, а поочередное отбрасывание этих вариантов дает С {A!,.. ., An_x} = С {Ai,. . . , Ad.J с {Ai,. . ., Ad-ib Обратно, пусть все лучшие в {Ab . . ., An-i} варианты содер- жатся в {A1? . . ., Ad-i}, тогда по свойству отбрасывания С {Al7 . . ., Ai) d {Ai, . . ·, Ad-i}, поэтому варианты Ad, . . . . . ., An-i не являются относительно лучшими и xd их пропускает. Таким образом, доказано совпадение событий {xd>n- l} = {C{Ai,..., An-iXZiAi,. . . , Ad-i». (4.45) 175
Разложим событие {An Œ С {Λν .. . , ΑΝ}, card С {Αν . . . , An-1} = Щ яа несовместные события S (ii, ...,У = (ЛЕС {Ai,. . . , Aiv}, С {Ai, . . . , An^} = = {Aii> ...» Aifc}}» где ii < . . . < ik и {«!, . . ., ik} с {1, . . ., п - 1}. Из (4.45) следует, что событие {An Œ С {Ai, .. ., AN}, rd > η — 1, card С {Ai, . . ., 4.J = к) является объединением тех S (i1? . . ., ik), для которых {^, . . . . ., i/f} С {1, . . ., d — 1}. По перестановочности Ab . . ., Л]у получаем (случай к = О не исключается) 2V m <Р* (Td) = £ ]И Р {Ап е С {Al ..., AN}, n=ad fr=o (V) card С {Ах, ..., A„_x} = A} -*-—^ > С) JV m >YiYiP{AnŒC{A1,...,AN), n=i fc=0 С-') «ardС(Л ^„_J = k) )K*_ / = m N n=d = P{A„eEC{A1,...,AJV}}£^-1]/( -τΣ<':1)/!":1) /г —1 m n=>d Лемма доказана. Условия леммы не являются независимыми. Так, из условий McardC {Ai, . . ., A2v} = г, cardC{Ai, . . ., An} < m и свойства наследования при г ≤^η <^ N вытекает, что г ^ т. Если вместо введенных ограничений на число лучших вариантов наложить более сильное — card С {Ab . . ., An} = г при всех п = г, . . ., Ν, то тем же способом мы получим N n=>d 176
т. е. равенство достигается (в частности, в задаче Гусейн-Заде)* Положим N J n=d x Следующая лемма описывает два аналитических свойства этой функции. Лемма 4.12. Пусть dr равно наименьшему d, доставляю- щему максимум ψΓ (d), тогда lira ^ = Urn ^l(d?) = \\r) l/r(r-l) . . , если r^> 1, если r=i. Доказательство. Воспользуемся вероятностной ин- терпретацией ψ^ (d) как φΝ (d) в задаче Гусейн-Заде и в класси- ческой задаче. Рассмотрим задачу остановки на одном из г лучших вариантов, в которой наблюдаемыми случайными величинами являются индикаторы Zn=I{Yn<r], τι=Ι,.. . ,ΛΓ, т. е. про каждый вариант в момент его появления известно только, является он относительно лучшим или нет, а сам относительный ранг ненаблюдаем. Из независимости относительных рангов вы- текает независимость Zu . . ., Ζ/γ. Положим Qn равным ожидае- мому выигрышу. Легко видеть, что ^ = F{Xn<r|Z1,...,ZiV} = P{Xn<r|Zn} = -^-Zn. Следовательно, имеет место случай независимых наблюдений, и обычное рассуждение доказывает оптимальность порогового правила. Теперь вложим задачу с N вариантами в аналогичную задачу с N + 1 вариантами (см. лемму 3.2) и получим, что в за- даче с N + 1 вариантами выигрыш не больше. Это доказывает монотонность. Вторая часть есть следствие (3.78) и известных результатов в классической задаче. Лемма доказана. Следующая теорема дает искомую оценку эффективности класса пороговых правил остановки, d* — оптимальное значение- порога. Теорема 4.5. Если функция выбора обладает свойствами наследования и отбрасывания и для некоторых г <[ m McardC{A!, . . ., An} = г, 177
card C {Ai, . . ., An} ^ m для всех п = 1, . . ., N, то ( r I 1 \l/(m-i) — — » еслитЪ>1, φΝ (d*) > \ m \ m I l e"1, если m = r = l. Доказательство. По лемме 4.11 ψΝ (d) > —i|)^(d), оста· ется воспользоваться леммой 4.12 и заметить, что неравенство строгое, поскольку ψ™ (d) принимает только рациональные зна- чения, а предельное значение максимума по d иррационально. Теорема доказана. Некоторые значения (i/m)l^m"1^) приведены в табл. 11, при m —► со имеется монотонная сходимость к 1 со скоростью порядка (In m)/m. Таблица 11 m (lm)i/(m-i) m (l/m)1^™-1* 2 0,500 10 0,774 3 0,577 20 0,854 4 0,630 30 0,889 5 0,669 40 0,910 6 0,699 50 0,923 7 0,723 100 0,955 8 0,743 9 0,760 4. Вернемся к нашим примерам. Примеры 1и 4. В классической задаче и в задаче Гу- сейн-Заде условия теоремы 4.5 выполнены в наиболее чистом виде, поскольку г — m при N ^ г и, более того, card С {Ax, . ·. . . ., An} = г при п ^ г, т. е. число лучших вариантов неизмен- но. Оценка асимптотически точна (по Ν). Пример 2. Просмотр с повторениями. Предположим, что имеется несколько, скажем 10, вариантов, которые строго ран- жированы по качеству. Теперь отдублируем наилучший вариант 3 раза, а второй по качеству — 5 раз, и предположим, что мы вперемешку наблюдаем получившиеся 18 вариантов с целью оста- новиться на одном из дублей наилучшего, причем в процессе про- смотра можно только сравнивать уже поступившие варианты. Класс пороговых правил оценивает вероятность успеха как 3/5 (1/5)1/* ж 0,40. Более общая схема: пусть наилучший вариант дублируется г раз, а все остальные — m !> г, тогда наша оценка остается вер- ной, поскольку получающаяся функция выбора обладает свой- ствами наследования и отбрасывания. В действительности такая схема эквивалентна некоторой графодоминантной функции вы- бора, для которой граф частичного порядка разложен на «этажи» и стрелки идут с любого верхнего этажа в любую вершину более нижнего. Номер этажа — это аналог абсолютного ранга (этажи^ нумеруются сверху вниз). Получающаяся картина примерно изображена на рис. 4, где двойные стрелки означают, что любая 178
верхняя вершина лучше любой нижней, а вершины на одном этаже одинаково хороши. Пример 3. Совокупно-экстремальный выбор. Здесь m есть число критериев, условия теоремы 4.5 выполняются асимп- тотически при N —> оо, в том смысле, что при d ~-> оо вероятность появления на временном промежутке [d, N] варианта, относи- тельно лучшего хотя бы по паре критериев, имеет порядок N \ —§-—> 0 (обратите внимание на то, что Сможет не иметь порядок п=d N). Таким образом, число лучших вариантов асимптотически совпадает с числом критериев почти на всем периоде наблюдения, поэтому О О класс пороговых правил имеет цену, II асимптотически равную (l/m)1^™-1). х х Пример 5. Выбор по Парето. n^ Условия теоремы не выполняются, ^ так как С (В) может как состоять О О U U U из одного варианта, так и совпа- дать с В. Тем не менее, результат \ / п. 4.4.4 сравниваемый с теоремой 4.5 NK указывает на то, что множество аб- q солютно лучших вариантов не силь- и но «растворяется» среди лучших к моменту n, когда п имеет поря- ^ΝΙκ док N. Прежде чем перейти к следую- ОООООООО щему примеру, укажем на то, что рис 4 ни выбор по Гусейн-Заде, ни со- вокупно-экстремальный, нельзя за- дать схемой выбора максимальных вершин графа, т. е. графо- доминантной функцией выбора. Дело в том, что графодоминант- ные функции выбора обладают так называемым свойством согла- сованности: С (Bi) П С (В2) С С (BiU B2). Действительно, если в вершину а не входит ни одной стрелки в подграфе Βλ и то же в B2, то и в их объединении нет варианта, соединенного с а стрел- кой с концом в а. Для выбора по Гусейн-Заде это свойство не выполняется: если а имеет ранг 2 в Вг и ранг 2 в B2, то отсюда не следует, что и в объединении он имеет ранг 2. Значит, при г = 2 вариант а является лучшим как в Въ так и в B2, a в их объеди- нении лучшим не является. Аналогично, для совокупно-экстремального выбора: а может быть лучшим по первому критерию в Вг, по второму — в В2, а в их объединении может ни одним из этих свойств не обладать. То же самое относится и к схеме выбора с повторениями, когда мы признаем лучшими в В вариантами те варианты, которые в разбиении В по этажам лежат на нескольких, скажем к ^> 1, верхних этажах. Пример 6. Частичный порядок (дискретная модель). 179
f(i*)>t/z f(d*)>i/4 f(d*)>i/vj r"(d*)>i(i]~o,n Рис. 5 Пусть 9t — ориентированный транзитивный граф с N верши- нами, С (В) — максимальные вершины подграфа B. Для про- стоты предположим, что все варианты из 91 наблюдаются, т. е. (Ai, . . ., An) — равновозможная бесновторная перестановка элементов 9Î. Шириной графа называется максимальное число несравнимых вершин, пусть оно равно т, тогда card С (В) <; т, если элементы В различны. Пусть г — число максимальных вершин в 91. Эти самые г и m и есть указанные в теореме 4.5 числа. На рис. 5 изображены графы, для которых оценка теоремы 4.5 имеется в «чистом виде», а на рис. 6 изображены графы, для которых справедливы очевидные асимптотические обобщения (стрелки направлены сверху вниз, изображаются только тран- зитивные остовы). Пример 7. Обобщенный выбор по Гусейн-Заде. Предпо- ложим, что имеется m независимых критериев, и лучшими счита- ются варианты, имеющие или ранг не больше гг по первому крите- рию, или ранг не больше г2 по второму критерию, . . ., или ранг не больше гт по m-му критерию. Полагая г — гх + . . . + гт ах используя те же, что и в примере 3, аргументы, получаем оцен- ку (1/г)1/(г-1>. Пример 8. Предположим, что все варианты линейно упо- рядочены, как в классической задаче. Пусть г и m, г <; т, про- извольны, С {al7 . . ., ап} состоит из вариантов, имеющих ранг Л80
Ν/η*\^0-1 fin f(d*)-~f/2 i,j,k- lim wN(d*)>1/y[J Рис. 6 не выше /n, если n <^ TV, и не выше г, если п = N. Легко прове- ряется, что эта функция выбора обладает свойством наследования и не обладает свойством отбрасывания, и ψΝ (d) = — tym(d). Этот пример показывает, что общий случай сильно отличается от задачи Гусейн-Заде и классической в следующем смысле. Пусть Zn = / {An е С {Аи . . ., An}} п = 1, . . ., N. В задаче Гусейн-Заде и в классической задаче наблюдение Y\,. . . . . ., Υν дает ненамного больший эффект по сравнению с наблю- дением только Zl7 . . ., Z/v (в классической задаче вообще не дает). Вместе с тем, в примере 8, когда m и г велики, но г/тпмало, на- блюдение относительных рангов дает почти единичную вероят- ность успеха, а наблюдение Zu . . ., Zn — бесконечно малую. Случайные величины Zb . . ., Zn при наиболее интересных функциях выбора (например, для выбора по Парето) не являются независимыми, но если они независимы, то некоторое пороговое 181
правило является оптимальным в классе правил, основанных на наблюдении Ζ1? . . ., ΖΝ. Этот факт вытекает из того, что для всех функций выбора, обладающих свойствами наследования средняя доля лучших вариантов не возрастает с ростом числа вариантов. Действительно, в силу (4.42), положив card С {Ai,. . . . . ., An} = #η, имеем -jqïf = Ρ {AiŒ с {Ai,..., An+1}} < мя <P{AieC{Ai,...,An}}=^-. Ожидаемый выигрыш равен (по независимости) Qn=f{AnŒC {Ai,. . . , AN} I Zlf . . . , Ζη) = -P{AnŒC{Ai,...,AiV}|Zn} = ^r-M^Zn. Следовательно, имеет место случай независимых наблюдений (в задаче остановки стохастической последовательности {Q%, ÎB (Zi, . . ., Zn)}), и обычное рассуждение вместе с указанным неравенством доказывает оптимальность некоторого порогового правила. Можно также сказать, что моменты появления относи- тельно лучших вариантов образуют марковскую цепь (в общем случае это не так), в задаче остановки которой имеет место моно- тонный случай. В заключение отметим, что теорема 4.4 верна и для случайного числа вариантов, т. е. когда имеется бесконечная последователь- ность Ai, A2, . . ., из которых наблюдаются Аъ . . ., Ajv, где N — случайно и не зависит от Ai, A2, . . .. Теорема 4.5 также легко обобщается. 4.6. Остановка на недоминируемом варианте. Задача с полной информацией 4.6.1. Оценка оптимального значения порога для функций выбора общего вида представляет очень сложную задачу, поэтому естественно попытаться найти какой-нибудь другой класс правил остановки, который был бы вычислительно более приемлем· Однако, указать другой столь же универсальный класс трудно, поскольку непонятно, в каком виде можно было бы учитывать множественные взаимовлияния вариантов, которые, собственно, и определяют множество лучших вариантов. Ситуация значи- тельно упрощается, если функция выбора является графодоми- нантной, в силу того, что множество лучших вариантов опреде- ляется путем парных сравнений. В этом параграфе рассматри- ваются только графодоминантные функции выбора. Обратимся к классическому случаю. В п. 2.4 рассматривалась следующая задача. Пусть Ai, . . ., An — независимые случайные величины с одинаковым непрерывным распределением F. Пред- 182
полагая.распределение известным, и А±, . . ., ^ — наблюдае- мыми, требуется остановиться на наибольшем значении А . . ., Ау. Оказалось, что оптимальным является правило, которое предписывает остановку на первом же относительном максимуме Ап = max {Ai, . . ., An}, для которого 1 — F (An) < αΝ_η, где алг-п = c/(N — η) + о (i/(N — n)). Таким образом, нужно остановиться на варианте, который не хуже своих предшествен- ников и с достаточно высокой вероятностью не хуже будущих вариантов. Мы распространим эту идею на достаточно широкий класс парных сравнений. Пример. Парето-оптимальность. Пусть 91 = R2, вари- анты A!, . . ., AJV являются независимыми, равномерно распре- деленными в единичном квадрате случайными величинами. Реа- лизация An = ап = (хп, Уп) интерпретируется как оценка ка- чества дг-го по порядку просмотра варианта по двум независимым критериям. Скажем, что at лучше α7·, если хг· ^> х7· и yt ^> ι/7·. Множество С&> {αλ, . . ., а^} есть совокупность неулучшаемых в множестве {аг, . . ., а^} вариантов. Для каждого правила оста- новки τ, основанного на наблюдении A1? A2, . . ., Р {Ατ ΕΞ С&> {Ai, . . 4 . ., Aw}} есть вероятность остановки на Парето-оптимальном. варианте. Если вариант не является относительно лучшим, то он не может оказаться и абсолютно лучшим, поэтому выигрыш, ожидаемый при остановке на n-ом варианте равен Q%=V{An(=C*{Al9...,AN}\Al,...9An} = = ((1 - xn) (1 - уп))*-Ч {An Œ С& {Ax, . . . , An}}. Отсюда немедленно следует, что всю существенную информацию содержат оценки вариантов из множества С&> {Аъ . . ., An}. С относительно лучшими вариантами можно связать однородную марковскую цепь, одним состоянием которой являются оценки вариантов из С&> {A1? . . ., An}, оценка непосредственно наблюдае- мого относительно лучшего варианта и его порядковый номер. Графически состояние можно представить лесенкой, изображен- ной на рис. 7, где кружками помечены оценки относительно луч- ших вариантов, звездочкой помечен непосредственно наблюдае- мый относительно лучший вариант, а площадь заштрихованной области определяет вероятность того, что относительно лучший вариант окажется абсолютно лучшим. Покажем, что монотонный случай места не имеет. Действитель- но, из соображений непрерывности на верхней стороне квадрата найдется такая точка а, что при Ах = а ^остановка на Аг является более выгодной, нежели остановка на следующем относительно лучшем варианте. С другой стороны, вариант A2 может оказать- ся относительно лучшим и попасть в область, заштрихованную на рис. 8 настолько малую, что выигрыш при остановке на A2 будет на порядок меньше выигрыша при остановке на Ai, поэтому импликация g (z) > Tg (z) => g {z) ^ Tg (z'), при переходе из состояния z в z', места не имеет. Формализация не представляет трудности. 183
I "' '■ l J t 4 lilÉ Рис. 7 Рис. 8 Далее вводится класс правил τα, являющихся моментами первого попадания Аи A2, . . . в область (1 — х)(1 — у) < а. Будет показано, что этот класс дает сколь угодно близкую к 1 вероятность остановки на парето-оптимальном варианте, когда число вариантов велико. 4.6.2. Предположим, что Аи . . ., AN являются независимыми, одинаково распределенными случайными элементами со значе- ниями в некотором фазовом пространстве (9f, Л). Пусть на 9Î задано бинарное отношение Я (Z 91 X 9Î, которое является ^-из- меримым, т. е. JlÇEiAf& Л, ъ обладает свойствами иррефлек- сивности и транзитивности: ~] (аЯа), аЯЪ, ЪЯс =£ аЯс для всех a, b, с е= 5t. Определим графодоминантную функцию выбора, полагая для всех (alf . . ., ап) е 9(п, п = 1, 2, . . ., С& {аг, . . . • · ·» ап) равным множеству тех ак Œ {аи . . ., ап}, для которых ни для одного at £= {^i, . . ., αη} не выполняется соотношение Если aJ#b, то мы говорим «а лучше b». Введем в рассмотрение функцию, определенную на Ч, Ваг^ (а) = Р {A2J#A! | A! = α} и ее функцию распределения Θ (а) = Р {Ваг^ (Аг) < а}. Ясно, что Ваг^(-) может принимать значение только из отрезка [0, 1]. Кроме того, θ (α) > а. Действительно, по транзитивности из ЬЯа вытекает Ваг^ (b) ^ Ваг^ (а). Рассмотрим однопараметрический класс правил остановки min{n|Bar^(An)<a}, N, если это множество пусто, и положим φ* (а) = Р {А%а е С# {Аи . . ., ΑΝ}}. Следующая теорема дает асимптотическую оценку эффективности этого класса. Теорема 4.6. Если 1 · θ (а) lim sup —^-^ ==r α->Ο α 184
то lim sup φ^ (α) ^ JV-»oo a 1 e ' (-^, 1 1, если r== 1; гс/ш r> 1; если, г = сю. Доказательство. Рассмотрим сначала случай 1 <^ < г < оо. Распределение момента первого попадания A1? A2, . . . в множество {Ваг^ (Ап) <С а} является геометрическим, поэтому из монотонности Bar^(-) получаем φ^Μ = ρ^ε^^ 4Н = = ^ Р {An e C^ {Ai,..., AN}, xa = n} = 71=1 =Σ(1 _ θ (α))η_1 S (1 _ Ваг^ (Л1))^п dp > η=ι {Bar^(Ai)<a} JV > θ (α) V (1 — θ (α))"-1 (1 — α)*~" = η=1 JV = θ (α) (1 - θ (α)) (1 - «)* Σ V- У = (1 — α)71 η=ι ν ' -ew(i-e(«»("-^-4-'W) '-(i-.)» Полагая α = -τ-. —у- при N —> οο получаем lim sup φ* (α) > (l/r)1^-». JV->οο α При г = 1 аналогично получаем е-1. Наконец, при г = оо сле- дует взять α таким, чтобы N имело порядок (αθ (а))~Ч*. Теорема доказана. 4.6.3. Пример 1. Парето-оптимальность. Пусть Ab . . . . . ., An — независимые случайные величины со значениями в 3f = Rm, имеющие непрерывную функцию распределения m F(x) = I[Fi(x% где х = (х1, . . ., хт). Поскольку отношение Парето З5 инвариант- но относительно монотонных преобразований Rm, то можно без ограничения общности считать F равномерным распределением в единичном кубе. Чтобы указать на зависимость от т, введем дополнительный верхний индекс. Ясно, что θ1 (α) = а. Дока- 185
экем по индукции формулу m—1 0m(a) = a S (In 1/07*! · i=0 Поскольку Ваг^ (х) = (1 — х1) ... (1 — хт), то получаем 1 а 9т (а) = J ... [ dx1... dxm = [ θ™-* (а/х1) dx1 + \' dx1 = m а О П х?<а, яг>о г=1 1 т—2 1 т—2 ,· f а Г1 (1пх/а)г , . Г V^ (In ar/α) j „ , ч , а г=о m·—i = аХ (In 1/а)* il i=0 Вычисление отношения 9m (а)/а при m ^> 1 дает m—1 т θ'"(α) \Π (In 1/а)г Следовательно, при TV—► оо по теореме 4.6 класс правил τα дает сколь угодно близкую к 1 вероятность остановки на парето- оптимальном варианте. Пример 2. Пусть 5t = Rm, Ax, . . ., An — независимые, равномерно распределенные в шаре единичного радиуса случай- ные величины, К — выпуклый телесный конус. Положим аЯЪ, если а — b ΕΞ К \ {0}. Пользуясь теоремой 4.6, нетрудно пока- зать, что оптимальная вероятность остановки на недоминируемом варианте сколь угодно близка к 1, когда N —■> оо.
ЛИТЕРАТУРА 1. Айзерман M. А., Малишевский А. В. Некоторые аспекты общей теорик выбора лучших вариантов: Препр. Ин-та проблем управления АН СССР. М., 1980. 2. Аркин В. if., Пресман Э. Л., Сонин И. М. Оптимальный выбор в усло- виях неполноты информации.— Экономика и матем. методы, 1975, т. 11, № 3. 3. Березовский Б. А., Борзенко В. И., Кемпнер Л. М. Бинарные отноше- ния в многокритериальной оптимизации. М.: Наука, 1981. 4. Блекуэлл Д., Гиршик М. А. Теория игр и статистических решений. М.: Изд-во иностр. лит., 1958. 5. Березовский Б. А., Генинсон Б. А., Рубчинский А. А. Задача об опти- мальной остановке на частично упорядоченных объектах.— АиТ, 1980 г № 11. 6. Березовский Б. А., Гнедин А. В. Теория выбора и задача об оптималь- ной остановке на лучшем объекте.— АиТ, 1981, № 9. 7. Брейман Л. Задачи о правилах остановки.— В кн.: Прикладная комби- наторная математика. М.: Мир, 1968. 8. Валъд А. Последовательный анализ. М.: Физматгиз, 1960. 9. Гнеденко Б. В. Курс теории вероятностей. М.: Физматгиз, 1961. 10. Гнедин А. В. Многокритериальная задача об оптимальной остановке процесса выбора.— АиТ, 1981, № 7. 11. Гнедин А. В. Эффективная остановка на парето-оптимальном вариан- те.— АиТ, 1983, № 3. 12. Гусейн-Заде С. М. Задача выбора и оптимальное правило остановки по- следовательности независимых испытаний.— Теория вероятностей и ее применения, 1966, т. 11, № 3. 13. Де Гроот М. Оптимальные статистические решения. М.: Мир, 1974. 14. Дынкин Е. Б. Оптимальный выбор момента остановки марковского про- цесса.- ДАН СССР, 1963, т. 150, № 2. 15. Дынкин Е. Б., Юшкевич A.A. Теоремы и задачи о процессах Маркова. М.: Наука, 1967. 16. Иванин В. М. Об одной оценке математического ожидания числа элемен- тов множества Парето.— Кибернетика, 1975, № 3. 17. Закс Ш. Теория статистических выводов. М.: Мир, 1975. 18. Кован Р., Забжик Е. Задача об оптимальном выборе, связанная с пуас- соновским процессом.— Теория вероятностей и ее применения, 1978, т. 23, № 3. 19. Колмогоров А. Н., Фомин С. В. Элементы теории функций и функцио- нального анализа. М.: Наука, 1976. 20. Липцер Р. Ш., Ширяев А. Н. Статистика случайных процессов. М.: Наука, 1974. 21. Миркин Б. Г. Проблема группового выбора. М.: Наука, 1974. 22. Мостеллер Ф. Пятьдесят занимательных вероятностных задач с реше- ниями. М.: Наука, 1975. 23. Фон Нейман Дж., Моргенштерн О. Теория игр и экономическое поведе- ние. М.: Наука, 1970. 24. Николаев М. Л. Об одном обобщении задачи наилучшего выбора.— Тео- рия вероятностей и ее применения, 1977, т. 22, № 1. 25. Петровский И. Г. Лекции по теории обыкновенных дифференциальных уравнений М.: Наука, 1970. 187
26. Пресман Э. Л., Сонин И. М. Игровые задачи оптимальной остановки» Существование и единственность точек равновесия.— В кн.: Вероят- ностные проблемы управления в экономике. М.: Наука, 1977. 27. Пресман Э. Л., Сонин И. М. Задача наилучшего выбора при случай- ном числе объектов.— Теория вероятностей и ее применения 1972 т. 17, № 4. 28. Пресман Э. Л., Сонин И. М. Точки равновесия в обобщенной игровой задаче наилучшего выбора.— Теория вероятностей и ее применения 1975, т. 20, № 4. 29. Роббинс Г., Сигмунд Д., Чао И. Теория оптимальных правил останов- ки. М.: Наука, 1977. 30. Сонин И. М. Игровые задачи, связанные с наилучшим выбором.— Ки- бернетика, 1976, № 2. 31. Справочник по специальным функциям. М.: Наука, 1979. 32. Феллер В. Введение в теорию вероятностей и ее приложения. М.: Мир. 1964, т. I; 1967, т. 2. 33. Шоломов Л, А, Обзор оценочных результатов в теории выбора.— Изв. АН СССР. ТК, 1983, № 1. 34. Ширяев А. П. Вероятность. М.: Наука, 1980. 35. Ширяев А, П. Статистический последовательный анализ. М.: Наука, 1969. 36. Abdel-Hamid А. /?., Bather J, A,, Trustrum G. В. The secretary prob- lem with an unknown number of candidates.— J. Appl. Probab., 1982, vol. 19, N 3, p. 619—630. 37. Вarndorff-Nielsen 0., Sobel M. On the distribution of the number of ad- missible points in a vector random sample.— Теория вероятностей и ее применения, 1966, т. 11, вып. 4. 38. Campbell G. The maximum of a sequence with prior information.— Purdue Univ. Dep. Statist. Mimeograph Ser., 1977, N 435. 39. Campbell G. The secretary problem with the Dirichlet process.— Inst. Math. Statist. Bull., 1978, vol. 7, p. 290 (abstr.). 40. Campbell G., Samuels S. Choosing the best of the current crop. — Adv. Appl. Probab., 1981, vol. 13, N 3, p. 510—532. 41. Cayley A. Mathematical problems and their solutions. Problem № 4528.— Educ. Times, 1874—1875, vol. 27, p. 189, 237. 42. Chernoff H. Rational selection of decision functions.— Econometrica, 1954, vol. 22, N 3. 43. Chow Y. S., Moriguti £., Robbins #., Samuels S. Optimum selection based on relative rank (the «secretary problem»).— Isr. J. Math., 1964, vol. 2, N 1, p. 81—90. 44. Corbin R. The secretary problem as a model of choice.— J. Math. Psychol., 1980, vol. 1, N 1, p. 1-29. 45. Frank Л., Samuels S. On an optimal stopping problem of Gusein—Zade.— Stochast. Process and Appl., 1980, vol. 10, N 3, p. 299—311. 46. Gardner M. Mathematicalj games.— Sei. Amer., 1960, vol. 202, N 1, p. 150-156; N 3, p. 172—182. 47. Gaver D. P. Random record models.— J. Appl. Probab., 1976, vol. 13, N 3, p. 538-547. 48. Gianini J. The infinite secretary problem as the limit of the finite prob- lem.— Ann. Probab., 1977, vol. 5, N 4, p. 636—644. 49. Gianini /., Samuels S. The infinite secretary problem.— Ann. Probab., 1976, vol. 4, N 3, p. 418-432. 50. Gianini-Pettitt /. Optimal selection based on relative ranks with a random number of individuals.— Adv. Appl. Probab., 1979, vol. 11, p. 720—736. 51. Gilbert /., Mosteller F. Recognizing the maximum of a sequence.— J. Amer. Statist. Assoc, 1966, vol. 61, N 313, p. 35—73. 52. Glasser K. The d-choice secretary problem.— Cent. Nav. Anal. Profess. Pap., 1979, N 253. 53. Grant P. Secretary problems with inspection cost as a game.— Metrica, 1982, vol. 29, N 2, p. 87—93. 188
54. Haggstrom G. Optimal sequential procedures when mojre than one stop is required.-Ann. Math. Statist., 1967, vol. 38, N 6, p. 1618-1626. 55. Haggstrom G Optimal stopping and experimental design.- Ann. Math. Statist., 1966, vol. 37, N 1, p. 7—29. 56. Henke M. Expectations and variances of stopping variables in sequential selection processes.— J. Appl. Probab., 1973, vol. 10, N 4, p 786—806 57. Henke M Sequential^ Auhswahl problème bei Unsicherheit. Meisenheim- Anton Hain Verl., 1970. 58. Irle A. On the best choice problem with random population size — Ztschr Oper. Res. A., 1980, vol. 24, N 5, p. 177—190. 59. Kurano M., Yasuda M., Nakagami J. Multi-variate stopping problem with a majority rule.— J. Oper. Res. Soc. Jap., 1980, vol. 23, N 3, p. 205— 223. 60. Lindley D. Dynamic programming and decision theory.— Appl. Statist , 1961, vol. 10, N 1, p. 39—52. 61. Lorentzen T. Towards a more realistic formulation of the secretary prob- lem.— Purdue Univ. Dep. Statist. Mimeograph Ser., 1977, N 427. 62. Lorentzen T. Generalizing the secretary problem.— Adv. Appl. Probab., 1979, vol. 11, p. 384—396. 63. Lorentzen T. Optimal stopping with sampling cost: The secretary prob- lem.— Ann. Probab., 1981, vol. 9, N 1, p. 167 — 172. 64. Mucci A. Differential equations and optimal choice problems.— Ann. Statist., 1973, vol. 1, N 1, p. 104—113. 65. Mucci A. On a class of secretary problems.— Ann. Proab., 1973, vol. 1, N 3, p. 417-427. 66. Petruccelli J. Best-choice problems involving uncertainty of selection and recall of observations.— J. Appl. Probab., 1981, vol. 18, N 2. 67. Petruccelli J. Full-information best-choice problems with recall of obser- vations and uncertainty of selection depending on the observation.— Adv. Appl. Probab., 1982, vol. 14, N 2. 68. Petruccelli'J. On a best-choice problem with partial information.— Ann. Statist., 1980, vol. 8, p. 1171 — 1174. 69. Rasmussen W. A generalized choice problem,— J. Optim. Theory and Appl., 1975, vol. 15, N 3, p. 311—325. 70. Rasmussen W., Pliska S. Choosing the maximum from a sequence with a discount function.— Appl. Math, and Optim., 1976, vol. 2, p. 279—289. 71. Rasmussen W., Robbins H. The candidate problem with unknown popula- tion size.— J. Appl. Probab., 1975, vol. 12, N 4, p. 692—701. 72. Rubin H. The «secretary» problem.— Ann. Math. Statist., 1966, vol. 37, N 2, p. 544 (abstr.). 73. Rubin #., Samuels S. The finite-memory secretary problem.— Ann. Probab., 1977, vol. 5, N 4, p. 627—635. 74. Sakaguchi M. Dowry problems and OLA policies.— Repts Statist. Appl. Res. Union Jap. Sei. and Eng., 1978, vol. 25, p. 124—128. 75. Sakaguchi M. A note on the dowry problem.— Repts Statist. Appl. Res. Union Jap. Sei. and Eng., 1973, vol. 20, N 1, p. 11 — 17. 76. Sakaguchi M. A generalized secretary problem with uncertain employ- ment.—Math. Jap., 1978, vol.23, p. 647-653. 77. Sakaguchi M. Non-zero-sum games related to the secretary problem.— J. Oper. Res. Soc. Jap., 1980, vol. 23, N 3, p. 287-293. 78. Sakaguchi M. Optimal stopping problems for randomly arriving offers.— Math. Jap., 1976, vol. 21, p. 201-217. 79. Sakaguchi M., Tamaki M. Optimal stopping problems associated with a nonhomogeneous Markov process.— Math. Jap., 1980, vol. 25, N 6. 80. Samuels S. On explicit formula for limiting optimal success probabi- lity in the full information best-choice problem.— Purdue Univ. Dep. Statist. Mimeograph Ser., 1989. 81. Samuels S. Minimax stopping rules when the underlying distribution is uniform.— J. Amer. Statist. Assoc, 1981, vol. 76, p. 188—197. 82. Schmitz I. Minimax strategies for discounted «secretary problems».— Oper. Res .-Verfahren, 1980, vol.30, N 1, p. 77—86. 189
83 Sen A. K. Collective choice and social welfare. Edinburgh: Oliver and Boyd, 1970. 84. Smith M. A secretary problem with uncertain employment.— J. Appl. Probab., 1975, vol. 12, N 3, p. 620—624. 85. Smith M., Deely J. A secretary problem with finite memory.— J. Amer. Statist. Assoc, 1975, vol. 70, p. 357—361. 86. Snell J. Application of martingale system theorems.— Trans. Amer. Math. Soc, 1955, vol. 73, N 2, p. 293—512. 87. Stadje W. Efficient stopping of a random series of partially ordered points,— Lect. Notes Econ. and Math. Syst., 1980, vol. 177, p. 430—447. 88. Stewart T. The secretary problem with unknown number of options.— Oper. Res., 1981, vol. 29, N 1. 89. Stewart T. Optimal selection from a random sequence with learning of the underlying distribution.— J. Amer. Statist. Assoc, 1978, vol. 73, N 364, p. 775-780. 90. Stewart T. Optimal selection from a random sequence with observation errors.— Nav. Res. Log. Quart., 1981, vol. 28, N 3, p. 393—406. 91. Tamaki M. Recognizing both the maximum and the second maximum of a sequence.— J. Appl. Probab., 1979, vol. 16, N 4, p. 803—812. 92. Tamaki M. OLA policy and the best-choice problem with random number of objects.— Math. Jap., 1979, vol. 24, p. 451—457. 93. Tamaki M. A secretary problem with double choices.— J. Oper. Res. Soc. Jap., 1979, vol. 22, p. 257—265. 94. Tamaki M. A secretary problem with ucertain employment when backward solicitation is permitted.— Math. Jap., 1979, vol. 24, p. 439—450. 95. Vanderbey R. The optimal choice of a subset of population.— Math. Oper Res., 1980, vol. 5, N 4, p. 481—486. 96. Yang M. Recognizing the maximum of a random sequence based on rela- tive rank with backward solicitation.— J. Appl. Probab., 1974, vol. 11, N 3, p. 504-512.
БИБЛИОГРАФИЧЕСКИЙ КОММЕНТАРИЙ Глава 1. Задача оптимальной остановки 1.1. Основания теории вероятностей излагаются в книгах Феллера [32], Ширяева [34], Гнеденко [9]. 1.2. Исторически первая задача оптимальной остановки была предложе- на А. Кэли [41] более ста лет назад. Формулировка Кэли приводится в книге Дынкина и Юшкевича [15]. Систематическое изучение задач оптимальной остановки началось зна- чительно позднее и было связано с пионерными работами А. Вальда по по- следовательному анализу и статистическим решающим функциям [8]. Общая постановка задачи оптимальной остановки случайных процессов с дискрет- ным временем была сформулирована в работе Снелла [86]. Изложение общей теории можно найти в4 монографиях Роббинса, Сигмунда и Чао [29] и Де Гро- ота [13]. 1.3. Изучение задачи остановки марковского случайного процесса было начато в работе Дынкина [14]. Результаты исследований в этом направлении подытожены в монографии Ширяева [35]. Для первоначального знакомства можно порекомендовать вводную работу Бреймана [7]. 1.4. Задача с несколькими возможностями остановки была поставлена и изучена в работе Хаггстрема [54]. Глава 2. Выбор наилучшего варианта 2.1. Неизвестно, кто является автором классической задачи. Ф. Мостел- лер утверждает [51], что узнал о ней в 1955 году от Э. Глисона, который, в свою очередь, слышал о ней от кого-то другого. В начале 60-х годов задача быстро стала популярной и появилась под различными названиями в не- скольких журналах в разделах головоломок (см., например, [46]). Вот, по- видимому, неполный список статей и монографий, в которых эта задача со- держится: Дынкин и Юшкевич [15], Де Гроот [13], Джилберт и Мостеллер 151], Линдли [60], Ширяев [35], Мостеллер [22], Роббинс, Сигмунд и Чао [29]. 2.2. Задача со случайным числом вариантов впервые была изучена в ра- боте Пресмана и Сонина [27], результаты этой работы изложены также в [2]. Впоследствии эта задача изучалась и другими авторами: Расмуссен и Роб- бинс [71], Тамаки [92], Ирле [58], Расмуссен [69]. Ирле [58], ссылаясь на неопубликованную работу Раше, использовал новый метод нахождения оптимальных правил в общей задаче остановки, мо- дифицирующий хорошо известный в динамическом программировании метод последовательных приближений Ховарда и не требующий редукции к мар- ковскому случаю. Наше изложение следует Пресману и Сонину, с той лишь разницей, что большее внимание уделяется асимптотической оптимальности в классе поро- 191
говых правил, в то время как Пресман и Сонин аппроксимируют уравнение g (я) = Tg(z). 2.3. Эта задача изучалась Кованом и Забжиком [18], которым мы и сле- дуем с некоторыми упрощениями и добавлением предельного соотношения v —* ё~х (отсюда можно вывести, что хт1т —» е — 1). Пороговое правило, для которого вероятность успеха стремится к е"1, было указано Гавером [47]. 2.4. Решение задачи с полной информацией было получено в работе Джил- берта и Мостеллера [51], но монотонность критических значений уп осталась формально необоснованной. Точная формула для предела vN получена Самуэльсом [80]. Сакагучи [74] получил результаты Джилберта и Мостеллера иным способом. 2.5. Задача с полной информацией и пуассоновскими моментами наблю- дений изучалась Сакагучи в работе [78], в которой было найдено оптимальное правило. Сакагучи выписывает дифференциальное уравнение для частной производной цены продолжения по времени, но решения не приводит. Фор- мула (2.46), полученная другим способом, есть решение уравнения Сакагучи. 2.6. Задача выбора наилучшего варианта с нескольких попыток была эвристически решена Джилбертом и Мостеллером [51]. Решение было фор- мально обосновано в уже упоминавшейся работе Хаггстрема [54] и другим способом — в работах Сакагучи [75] и Тамаки [93]. В предлагаемом изложе- нии идея метода Джилберта и Мостеллера рекуррентного вычисления пре- дельных значений порогов используется в контексте системы дифференциаль- ных уравнений для цен продолжения в предельной задаче. Формальное обо- снование предельного перехода легко получается методами следующей главы. 2.7. Байесовская постановка задачи с частичной информацией предло- жена в работе Стюарта [89]. Стюарт рассматривал семейство равномерных рас- пределений на отрезке с двумя неизвестными концами, давая им двустороннее распределение Парето. Доказательство минимаксности порогового правила из классической задачи в указанном классе распределений содержится в ра- боте Самуэльса [81]. В предлагаемом изложении рассматривается семейство равномерных рас- пределений с одним неизвестным концом и односторонним распределением Парето. Это приводит к тем же результатам, но несколько проще. Упоминаемый принцип инвариантности для конечных групп доказан в монографии Блекуэлла и Гиршика [4] (для общих задач статистических ре- шений), и для задач оценки, но уже произвольных локально компактных групп — в монографии Закса [17]. Заметим, что прямое использование прин- ципа инвариантности приводит к рандомизированным правилам, поэтому возможность перехода к нерандомизированным инвариантным правилам тре- бует особого обоснования, которое в рассматриваемом случае удается прове- сти именно благодаря работе Стюарта. 2.8. Упомянем также некоторые другие постановки. В недавней работе [36] число вариантов N рассматривается как неизвест- ный статистический параметр. Под правилом остановки понимается бесконеч- ный вектор (pi, p2i · · ·)> который предписывает с вероятностью рп остановку, если первый относительно лучший вариант имеет номер п. Приводится кри- 192
«герий допустимости правила остановки и некоторые обобщения результатов Пресмана и Сонина [27]. В работе Хенке [56] приводятся рекуррентные формулы для математиче · €ких ожиданий и дисперсий оптимальных процедур последовательного выбора (в частности, правил остановки). Задачи с вероятностными ограничениями на доступность пропущенных вариантов изучались Смитом [84], Янгом [96], Петручелли [66, 67], Сакагучи [76], Тамаки [94]. Задачи со случайными моментами наблюдений (и неизвестным априори числом вариантов — иначе это просто рандомизация) изучались Сакагучи и Тамаки [79] и Стюартом [88]. Плата за наблюдения или дисконтированный выигрыш вводится в рабо- тах Сакагучи и Тамаки [79], Сакагучи [78], Расмуссена и Плиски [70], Гран- та [53]. Игровые задачи наилучшего выбора изучались в цикле работ Аркина, Пресмана и Сонипа [2, 26, 28, 30], основные результаты здесь связаны с до- казательством оптимальности или асимптотической оптимальности некото- рого набора пороговых правил остановки (в смысле равновесия по Нэшу). В работе Сакагучи [77] несколько более подробно изучен частный случай за- дачи с двумя игроками. Другие игровые постановки изучались Джилбертом и Мостеллером [51], Грантом [53], Курано, Иосида и Накагами [59]. Вероят- ностные модели во многих игровых постановках совпадают с многокрите- риальными ранговыми моделями, изучаемыми в главе 4. Задачи выбора с нескольких попыток нескольких лучших вариантов изу- чались в работах Николаева [24] (аналогичные результаты получены Тамаки {91]), Глассера [52], Вандербея [95]. Значительное внимание в литературе уделено задачам с частичной ин- формацией. Петручелли [68] нашел достаточные условия, которым должно удовлетворять семейство распределений, чтобы минимаксная вероятность ус- пеха была асимптотически равна 0,58... из задачи с полной информацией (се- мейство всех нормальных распределений этим условиям удовлетворяет). Петручелли нашел также наилучшее инвариантное правило (следовательно, минимаксное) для семейства равномерных распределений на отрезке единич- ной длины с неизвестным центром, вероятность успеха в этом случае асимпто- тически равна 0,44... В работе Кэмпбела и Самуэльса [40] априорная информация представ- лена в виде «опытной выборки». Пусть общее число вариантов равно M + N, но выбрать требуется вариант, который является наилучшим среди послед- них N, в предположении, что наблюдению подлежат только относительные ранги. Оказывается, что когда М/(М + JV) -* i, то оптимальная вероятность удачного выбора стремится к р (t), где р (·) — некоторая непрерывная моно- тонная на [0, 1] функция, причем/? (0) = е-1, а р (1) = 0,58... из задачи с пол- ной информацией. Другие постановки задачи с частичной информацией рассматривались в работах [38, 39]. 193
Глава 3. Ранговые задачи наилучшего выбора 3.1. Впервые ранговая задача с неклассической функцией потерь рас- сматривалась в работе Линдли [60] (задача минимизации среднего ранга). Изложение настоящего раздела в основном следует работам Муцци [64, 65]. 3.2. Идея использования рандомизации для постановки задачи с бес- конечным числом вариантов принадлежит Рабину [72] и реализована в важ- ной работе Джианини и Самуэльса [49], которой мы и следуем с незначитель- ными изменениями. 3.3. Предельные соотношения в частных случаях изучались Линдли [60], Чао, Моригути, Роббинсом и Самуэльсом [43], Джилбертом и Мостелле- ром [51], Гусейн-Заде [12]. Аппроксимация цены продолжения реше- нием дифференциального уравнения в общем случае была получена Муцци [64, 65} аналитическими методами. Вероятностное доказательство сходимости минимальных средних потерь vN | υ принадлежит Джианини [48]. В целом предлагаемое изложение следует работе Джианини, отличие заключается в том, что доказывается более сильный результат о сходимостд цен продол- жений. Идея использования теоремы о вероятностях больших уклонений в сходной ситуации предложена Кэмпбелом и Самуэльсом [40]. 3.4. Конечность v для всех функций потерь полиномиального роста до- казана Муцци [65], им также получено рекуррентное уравнение для порогов. Качественное исследование основного дифференциального уравнения было проведено Джианини и Самуэльсом [49]. 3.5. Задача Гусейна-Заде впервые изучалась в работе [12] и в частном елучае г = 2 — в работе Джилберта и Мостеллера [51]. Асимптотические ре- зультаты, изложенные здесь, получены Франком и Самуэльсом [45]. 3.6. Наиболее существенные результаты получены в работе Рабина и Самуэльса [73]. 3.7. Другие постановки. Задача минимизации среднего ранга при слу- чайном числе вариантов изучалась Джианини-Петит [50]. Корбин [44] рас- сматривал вероятностные ограничения на возможность возврата. Хенке [57] изучал задачу выбора нескольких вариантов, в которой минимизировалась сумма рангов. В трех работах Лоренцена [61-63] изучались задачи, в которых потери определяются не только абсолютным рангом выбранного варианта, но и моментом выбора. Аналогичная минимаксная постановка изучалась Шмицем [82]. Задача с конечной памятью, в которой можно сравнивать п-й вариант только с m предыдущими, рассматривалась Смитом и Дили [85]. Задача с ошибками наблюдений изучалась Стюартом [90]. Глава 4. Задачи с неклассической структурой] предпочтений Первые многокритериальные постановки предложены независимо Стадье [87] и Березовским, Генинсоном и Рубчинским [5]. 4.1-4.2. Обобщение результатов Муцци, Джианини и Самуэльса на много- критериальные задачи получено авторами. Схема частичного упорядочения этапов наблюдений близка к работе Хаггстрема [55]. 4.3. Задача максимизации вероятности остановки на варианте, наилуч- шем хотя бы по одному из критериев, изучалась в работе [10]. 194
4.4. Теория ожидаемой полезности была создана в фундаментальной монографии фон Неймана и Моргенштерна [23]. Вероятностные характеристики числа парето-оптимальных вариантов составили предмет изучения многих авторов [37, 16, 3]. Численные результаты и некоторые примеры в задаче остановки на па- рето-оптимальном варианте приводятся в [5]. Асимптотическая оптимальность пороговых правил доказана в работе [11]. 4.5. Функции выбора до недавнего времени изучались в основном в кон- тексте коллективного выбора (см., например, монографии Сена [83] и Миркина [21]). Условия наследования и отбрасывания рассматривались Черновым [42] и Айзерманом и Малишевским [1]. Современное состояние области оценочных результатов в теории выбора отражено в обзоре Шоломова [33]. Постановка задачи и оценка эффективности класса пороговых правил приведены в [6]. 4.6. Излагаемые результаты получены совместно с 10. М. Барышнико- вым.
СОДЕРЖАНИЕ Введение 3 Глава 1. Задача оптимальной остановки 11 1.1. Предварительные сведения из теории вероятностей 11 1.2. Задача оптимальной остановки 1$ 1.3. Оптимальная остановка марковских случайных последователь- ностей 24 1.4. Задача с двумя возможностями остановки 29 Глава 2. Выбор наилучшего варианта 34 2.1. Классическая задача наилучшего выбора 34 2.2. Задача наилучшего выбора при случайном числе вариантов ... 39 2.3. Задача наилучшего выбора, связанная с пуассоновским процес- сом. Случай ранговой информации 49 2.4. Задача с полной информацией 55 2.5. Задача наилучшего выбора, связанная с пуассоновским процес- сом. Случай полной информации 60 2.6. Выбор с несколькими попытками 65 2.7. Задача с частичной информацией 72 Глава 3. Ранговые задачи наилучшего выбора 81 3.1. Задача с конечным числом вариантов 81 3.2. Задача с бесконечным числом вариантов 87 3.3. Предельные соотношения в задаче с конечным числом вариантов 102 3.4. Пороговые правила остановки и исследование уравнения для цены продолжения в задаче с бесконечным числом вариантов 119 3.5. Задача Гусейн-Заде 132 3.6. Задача с памятью единичного объема 137 Глава 4. Задачи с неклассической структурой предпочтений 143 4.1. Ранговая задача с конечным числом вариантов 143 4.2. Предельные соотношения 147 4.3. Случай равноценных критериев и некоторые примеры 157 4.4. Остановка на парето-оптимальном варианте 160 4.5. Пороговые правила остановки 170 4.6. Остановка на недоминируемом варианте. Случай полной инфор- мации 182 Литература 187 Библиографический комментарий 191
Борис Абрамович Березовский, Александр Васильевич Гнедин ЗАДАЧА НАИЛУЧШЕГО ВЫБОРА Утверждено к печати Ордена Ленина Институтом проблем управления Академии наук СССР Редактор H. H. Бирюкова Редактор издательства А. А. Боровая Художник И. В. Козик Художественный редактор H. H. Власик Технический редактор С. Г. Тихомирова Корректоры Н. И. Казарика, Л. В. Лукичева ИБ № 27877 Сдано в набор 25.01.84. Подписано к печати 10.05.84. Т-05588. Формат 60x90Vi· Бумага типографская № 2 Гарнитура обыкновенная новая Печать высокая. Усл. печ. л. 12 5 Усл. кр. отт. 12,75. Уч.-изд. л. 12,4. Тираж 3300 экз. Тип. зак. 3752 Цена 1 р. 30 к. Издательство «Наука» 117864 ГСП-7, Москва В-485, Профсоюзная ул., 90 2-я иипографгя издательства «Наука» 121099, Москва, Г-99, Шубинский пер., 10
οι В ИЗДАТЕЛЬСТВЕ «НАУКА» ВЫХОДЯТ КНИГИ: МОДЕЛИ ИНФОРМАЦИОННЫХ СЕТЕЙ В сборнике исследуются модели систем передачи информа- ции с повторными вызовами (с предварительным обслужива- нием, комплектом мест для ожидания, неблокирующими по- вреждениями и др.). Предлагаются методы расчета таких си- стем. Рассматриваются вопросы применения теории массового обслуживания для анализа сетей передачи данных и отдель- ных элементов и узлов системы. Используются структуры си- стемы распределения информации и их надежность. Для специалистов по технической кибернетике и сетям связи. В. Г. Горский ПЛАНИРОВАНИЕ КИНЕТИЧЕСКИХ ЭКСПЕРИМЕНТОВ Книга посвящена планированию экспериментов при изу- чении кинетики химической реакций. Рассматриваются прин- ципы составления, преобразования и решения уравнений хи- мической кинетики. Анализируются особенности статистиче- ской обработки экспериментальных данных при построении кинетических моделей. Приводятся планы экспериментов, обеспечивающие получение наиболее точных моделей. Длзя специалистов по АСУ ТП и АСНИ, физхимиков, изу- чающих кинетику химических реакций.
ПАКЕТЫ ПРИКЛАДНЫХ ПРОГРАММ: СИСТЕМНОЕ НАПОЛНЕНИЕ Статьи сборника посвящены разработке проблемно-ориен- тированного программного обеспечения вычислительных ма- шин — пакетов прикладных программ. Рассматриваются вопро- сы системного и функционального наполнения пакетов, предла- гаются инструментальные системы, предназначенные для из- готовления пакетов программ, описываются конкретные па- кеты, ориентированные на решение задач математической фи- зики. Для инженеров и программистов, интересующихся вопроса- ми программного обеспечения сложных расчетов. СИНТЕЗ УПРАВЛЯЮЩИХ УСТРОЙСТВ В ОДНОРОДНЫХ СРЕДАХ Рассматриваются методы логического синтеза управляющих устройств. Обсуждаются различные типы однородных сред. а также особенности комбинированных схем и автоматов с па- мятью, вопросы надежности и временной декомпозиции управ- ляющих устройств при их реализации на основе однородных сред и многофункциональных логических модулей. Для научных и инженернотехнических работников, зани- мающихся разработкой устройств и систем логического управ- ления.
Для получения книг почтой эаказы просим направлять по адресу: 117192, Москва, Мичуринский проспект, 12, магазин «Книга — почтой» Центральной конторы «Академкнига»; 197345 Ленинград, Петрозавод- ская ул., 7, магазин «Книга — почтой» Северо-Западной конторы «Академкнига» или в ближайший магазин «Академкнига», имеющий отдел «Книга — почтой». 480091 Алма-Ата, ул. Фурманова, 91/97 ( «Книга — почтой» ) ; 370005 Баку, ул. Джапаридзе, 13 ( «Книга — почтой» ) ; 320093 Днепропетровск, проспект Гагарина, 24 («Книга — почтой»); 734001 Душанбе, проспект Лени- на, 95 ( «Книга — поч- той»); 375002 Ереван, ул. Туманяна, 31; 664033 Иркутск, ул. Лермонтова, 289; 420043 Казань, ул. Достоевского, 53; 252030 Киев, ул. Ленина, 42; 252030 Киев, ул. Пирогова, 2; 252142 Киев, проспект Вернадско- го, 79; 252030 Киев, ул. Пирогова, 4 ( «Книга — почтой» ) ; 277012 Кишинев, проспект Лени- на, 148 («Книга —поч- той»); 343900 Краматорск Донецкой обл., ул. Марата, 1; 660049 Красноярск, проспект Ми- ра, 84; 443002 Куйбышев, проспект Лени- на, 2 («Книга — почтой»); 191104 Ленинград, Литейный про- спект, 57; 199164 Ленинград, Таможенный пер., 2; 196034 Ленинград, В/О, 9 линия, 16; 220012 Минск, Ленинский про- спект, 72 («Книга —поч- той»); 103009 Москва, ул. Горького, 19а; 117312 Москва, ул. Вавилова, 55/7; 630076 Новосибирск, Красный про- спект, 51; 630090 Новосибирск, Академгоро- док, Морской проспект, 22 («Книга — почтой»); 142292 Пущино, Московская обл., MP, «В», 1; 620151 Свердловск, ул. Мамина- Сибиряка, 137 («Книга — почтой»); 700029 Ташкент, ул. Ленина, 73; 700100 Ташкент, ул. Шота Руста- вели, 43; 700187 Ташкент, ул. Дружбы на- родов, 6 («Книга — поч- той»); 634050 Томск, наб. реки Ушайки, 18; 450059 Уфа, ул. Р. Зорге, 10 ( «Книга — почтой» ) ; 450025 Уфа, ул. Коммунистиче- ская, 49; 720001 Фрунзе, бульвар Дзержин- ского, 42 («Книга —поч- той»), 310078 Харьков, ул. Чернышев- ского, 87 («Книга —поч- той»).