Текст
                    Дж.Трауб
Г. Васильковский
Х.Вожьняковский
Информация,
неопределённость,
сложность
i к
Издательство «Мир»


Информация, неопределённость, сложность
INFORMATION, UNCERTAINTY, COMPLEXITY Joseph Frederick Traub Departments of Computer Science and Mathematics Columbia University New York, New York G. W. Wasilkowski Institute of Informatics University of Warsaw Warsaw, Poland Henryk Wozniakowski Institute of Informatics University of Warsaw Warsaw, Poland Department of Computer Science Columbia University New York, New York Addison-Wesley Publishing Company Advanced Book Program/World Science Division Reading, Massachusetts London » Amsterdam • Don Mills, Ontario • Sydney • Tokyo
Дж.Трауб Г. Васильковский Х.Вожьняковский Информация, неопределённость, сложность Перевод с английского О. Р. Чуян под редакцией А. Г. Сухарева Москва «Мир» 1988
ББК 22.12 Т65 УДК 510.5 Трауб Дж., Васильковский Г., Вожьняковский X. Т65 Информация, неопределённость, сложность: Пер. < англ. — М.: Мир, 1988.— 184 с., ил. ISBN 5-03-000991-4 Монография известных специалистов (США, ПНР), знакомых читателям по переводам книг: Трауб Дж., Вожьняковский X. Общая теория оптимальны? алгоритмов (М.: Мир, 1983) и Трауб Дж. Итерационные методы решения урав¬ нений (М.: Мир, 1985). Новая книга является продолжением предыдущих В ней рассмотрены способы учёта неопределённости в случае, когда прост¬ ранство решений не снабжено ни нормой, ни метрикой. Значительное месте в книге отведено практическим приложениям методов. Для специалистов по численным методам, по математическому обеспече¬ нию ЭВМ, аспирантов и студентов университетов. ББК 22.12 Редакция литературы по математическим наукам ISBN 5-03-000991-4 (русск.) Copyright © 1983 by Addison-Weslej ISBN 0-201-07890-2 .(англ.). Publishing Company, Inc © перевод на русский язык с исправлениями, «Мир» 1988
От редактора перевода Нашему читателю знакомы книги Дж. Трауба «Итерацион¬ ные методы решения уравнений» (М.: Мир, 1985) и Дж. Трау¬ ба и X. Вожьняковского «Общая теория оптимальных алго¬ ритмов» (М.: Мир, 1983). Их логическим продолжением и развитием является настоящая монография. Она раздвигает рамки общей теории оптимальных алгоритмов, позволяя единообразно изучать более широкий круг задач. Это дости¬ гается за счёт предложенного авторами способа учёта не¬ определённости, не требующего задания ни нормы, ни мет¬ рики в пространстве решений. Важное значение имеет также распространение общей теории на случай неточно вы¬ числяемой информации о задаче. Значительное место в книге занимает глава, посвящён¬ ная приложениям. Здесь представлены принадлежащие раз¬ ным авторам результаты из самых разнообразных областей прикладной математики и информатики. Все эти результаты изложены на языке общей теории и несомненно будут инте¬ ресны читателю. Обратим внимание на одну терминологическую особен¬ ность книги. Обычно в литературе по вычислительной мате¬ матике и оптимизации алгоритмом называют численный ме¬ тод получения информации о задаче и построения на основе полученной информации приближения к её решению. В дан¬ ной же работе, как и в «Общей теории оптимальных алго¬ ритмов», термин «алгоритм» относится лишь к методу по¬ строения приближения, хотя и процесс вычисления инфор¬ мации тоже может носить алгоритмический характер. Для понимания материала не требуется знаний, выходя¬ щих за рамки стандартных университетских курсов, однако требуется достаточно высокая культура логического мышле¬ ния. Отметим, что книга написана независимо от предыду¬ щих работ авторов и вполне пригодна для первоначального ознакомления с предметом. Перевод книги осуществлялся в тесном контакте с авто¬ рами, за что мы выражаем им искреннюю благодарность. Л. Сухарев
Предисловие к русскому изданию В книге «Общая теория оптимальных алгоритмов» мы изу¬ чали модель наихудшего случая, предполагая, что инфор¬ мация точна, а неопределённость решения измеряется при помощи нормы. В данной книге по-прежнему рассматрива¬ ется модель наихудшего случая, но допускается, что инфор¬ мация может быть приближённой. Как правило, в резуль¬ тате физических измерений и машинных вычислений полу¬ чается именно приближённая информация. Мы показываем, как можно измерять неопределённость решения, не вводя нормы. Это дает возможность охватить более широкий круг задач. В последнее время получены также некоторые резуль¬ таты, касающиеся усреднённых, вероятностных и асимптоти¬ ческих моделей. Часть из них опубликована в первых номе¬ рах нового журнала Journal of Complexity, издаваемого из¬ дательством Academic Press. Мы планируем написать ещё одну монографию, в которой будет проведено подробное сравнение всех этих моделей. Как увидит читатель, в этой книге используется термин «теория е-сложности». Однако за время, прошедшее с мо¬ мента выхода английского издания (1983 г.), мы пришли к выводу, что полнее отражает суть дела название «теория информационной сложности» (information-based complexity). Теория информационной сложности изучает сложность задач, решаемых на основе неполной, неточной или платной информации. Задачи такого типа возникают в самых разных областях — в математике, информатике, естественных нау¬ ках, технике, статистике. На базе неполной и/или неточной информации невоз¬ можно найти точное решение, поэтому мы вынуждены ми¬ риться с наличием неопределённости. Цель теории информа¬ ционной сложности— дать единый подход к исследованию оптимальных алгоритмов и их сложности для задач, в ко¬ торых используется неполная, неточная или платная инфор¬ мация, и применить общую теорию к конкретным задачам из разных областей.
Предисловие к русскому изданию 7 Как связана теория информационной сложности с дру¬ гими исследованиями по сложности вычислений? Обычно в задачах комбинаторной оптимизации (таких как задача линейного программирования или задача коммивояжёра) информация считается полной, точной и бесплатной — пред¬ положения прямо противоположные. Если справедлива гипотеза о том, что классы NP и Р различны, то многие важные задачи невозможно решить за время, полиномиально зависящее от объёма входных данных. Труднорешаемые задачи изучаются и в теории ин¬ формационной сложности. В этой теории размерность часто играет ту же роль, что объём входных данных — в NP-пол- ных задачах. Нам хочется выразить признательность редактору пере¬ вода А. Сухареву и переводчице О. Чуян. Мы очень рады выходу в свет русского издания нашей книги. Нью-Йорк июль 1986 Дж. Ф. Трауб Г. В. Васильковский X. Вожьняковский
С благодарностью посвящаем эту книгу Ирэне Вожьняковской, Мими и Лео Траубам,- Анне Васильковской Предисловие Мы развиваем общую теорию, на основе которой можно строить оптимальные алгоритмы и изучать их сложность для любых задач, у которых имеется приближённое реше¬ ние. Эту науку мы решили назвать теорией е-сложности, по¬ тому что неопределённость приближённого решения обычно характеризуется параметром е. Это — вторая монография, посвящённая теории е-сложности. В первой, носящей назва¬ ние «Общая теория оптимальных алгоритмов»', неопреде¬ лённость измерялась с помощью нормы. Этот способ подхо¬ дит для рассмотрения «непрерывных» задач. В данной книге вводится более общая мера неопределённости и строится единая теория, охватывающая как непрерывные, так и дис¬ кретные задачи. Нам доставляет большое удовольствие поблагодарить всех за оказанную помощь. К. Мишелли и К. Сикорский прочли всю рукопись и предложили много улучшений. А. Вершульц помогал готовить рукопись к печати. Ряд по¬ лезных советов дал X. Кунг. Мы признательны Н. Брасс- филд и М. Форри, блестяще и в сжатые сроки перепечатав¬ шим очень трудный текст, и К. Кэлавей, которая вносила в рукопись все изменения и дополнения. Нам хочется также выразить благодарность Национальному научному фонду, субсидировавшему наши исследования, а Дж. Ф. Трауб от¬ дельно благодарит за поддержку Агентство перспективных исследований. Дж. Ф. Трауб Г. В. Васильковский X, Вожьняковский 1 См. Traub, Wozniakowski [80а]. В дальнейшем эта монография со» кращенно именуется ОТОА. — Прим, ред.
Обзор содержания книги В этой книге мы строим общую математическую теорию оп¬ тимального уменьшения неопределённости. Нас интересуют два основных вопроса: 1. Можно ли уменьшить неопределённость до заданного уровня? 2. Сколько это будет стоить? На практике обычно приходится довольствоваться при¬ ближённым решением задачи и мириться с элементом не¬ определённости в решении. Как правило, точно решаются только задачи с конечным числом входных и выходных дан¬ ных, допускающих конечное представление. Но в реальных условиях даже эти задачи решаются иногда лишь прибли¬ жённо. Именно этим объясняется наш интерес к проблеме оптимального уменьшения неопределённости. Мы ставим перед собой две цели. Во-первых, разработать общую систему понятий, которая позволит формулировать и решать вопросы, связанные с неопределённостью. Основ¬ ных понятий потребуется совсем немного, но с их помощью можно будет получить весьма сильные результаты (см. § 1.2). Столь общие понятия оптимального алгоритма и оптималь¬ ной информации вводятся здесь впервые. Во-вторых, мы хотим построить оптимальные или почти оптимальные алгоритмы решения ряда прикладных задач. Здесь можно выделить два этапа. Первый этап состоит в том, чтобы разработать чёткую систему правил, которая обеспечит выбор эффективного алгоритма для произвольной задачи, а второй в том, чтобы построить по этим правилам алгоритм решения конкретной задачи. Этот подход хорош тем, что одни и те же правила можно с успехом применять в самых разных ситуациях. Таковы, например, наши реко¬ мендации по использованию центральных, внутренних и ин¬ терполяционных алгоритмов. На втором этапе многое зави¬ сит от самой задачи и могут возникнуть большие техниче¬ ские трудности. На наш взгляд, ко всем вопросам оптимальности и слож¬ ности алгоритмов можно подойти с единой точки зрения
10 Обзор содержания книги и существующий сейчас разрыв между дискретными и непре¬ рывными алгоритмами можно ликвидировать. В ОТОА мы оценивали неопределённость с помощью нормы. Для непре¬ рывных задач это вполне подходящий способ. В этой книге осуществлён синтез дискретного и непрерывного случаев. При этом мы имеем дело с абстрактными множествами, ко¬ торые могут быть как дискретными, так и непрерывными, и показываем, как можно оценивать неопределённость, не вводя ни нормы, ни метрики. В книге приводится множество примеров, демонстрирующих, как успешно работает наша теория и в дискретном, и в непрерывном случае. Кроме того, мы осуществляем еще один синтез — синтез задач поиска точного и приближенного решения. Мы харак¬ теризуем неопределённость неотрицательным числом е. По¬ ложительные значения е соответствуют приближённому ре¬ шению, а нуль — точному, и нет необходимости рассматри¬ вать эти два случая по отдельности. Нашей общей теории мы дали название теория е-слож- ности. Раньше при изучении вопросов оптимальности и сложности для непрерывных задач и положительных е мы пользовались термином «аналитическая сложность», но это название вызывает ассоциации с математическим анализом. Поэтому мы сохраняем его для непрерывных задач, а в об¬ щем случае используем термин «е-сложность». Неопределённость можно оценивать разными способами. Вот три из них: 1. Модель наихудшего случая: значение некоторого кри¬ терия всегда меньше е. 2. Модель среднего случая: значение некоторого усред¬ нённого критерия меньше е. 3. Вероятностная модель: значение некоторого критерия меньше е с определённой вероятностью. В настоящей монографии рассматривается почти исклю¬ чительно модель наихудшего случая. Модель среднего слу¬ чая и вероятностную модель мы планируем рассмотреть в последующих публикациях. Можно выделить две причины, по которым ограничива¬ ются приближённым решением: либо задачу невозможно ре¬ шить точно, либо точное решение не нужно. Обсудим эти причины. Невозможность получить точное решение может объяс¬ няться тем, что: 1) информация неполная, 2) информация не точная, а лишь приближенная, 3) , ограничен класс допустимых алгоритмов,
Обзор содержания книги 11 Остановимся подробнее на каждом из этих случаев. Неполнота информации означает, что некоторые несовпа¬ дающие между собой элементы задачи нельзя различить, располагая только этой информацией. Приближённая информация может появиться в резуль¬ тате многих причин, к которым, в частности, относятся: a) ошибки ЭВМ, b) ошибки при передаче данных, c) ограниченная точность представления и обработки чисел, d) дезинформация со стороны «противника», e) ограничения на точность измерений (либо связанные с возможностями приборов, либо неустранимые, на¬ пример обусловленные принципом неопределённости Гейзенберга). Большинство реальных задач приходится решать, распола¬ гая лишь неполной или приближённой информацией. На основе такой информации нельзя решить задачу сколь угодно точно даже с помощью «идеального» алгоритма (если понимать под идеальным алгоритмом любое преобра¬ зование информации). Даже для этого чрезвычайно широ¬ кого класса алгоритмов иногда удаётся доказать невозмож¬ ность достижения заданной точности е. Таким образом, для получения некоторых отрицательных результатов достаточно самого общего представления об алгоритме. Если же инфор¬ мация в принципе позволяет решить задачу с точностью е может оказаться, что необходимо (или желательно) сузить класс используемых алгоритмов. Всякое сужение класса алгоритмов может привести лишь к увеличению неопределённости. Мы рассмотрим два класса алгоритмов: реализуемые и допустимые алгоритмы. Разница между ними объясняется в гл. 5. Можно указать и другие классы алгоритмов: алгоритмы, реализуемые на машине Тьюринга, алгоритмы, решающие задачу за полиномиальное время, прямые алгоритмы, устойчивые алгоритмы, алгоритмы, задаваемые вычислимыми функциями, алгоритмы, задаваемые линейными функциями. Мы ставим много новых вопросов и предлагаем по-но¬ вому взглянуть на информацию, алгоритмы и сложность. Нам приходится извиниться перед читателями: новые поня¬ тия и проблемы требуют и новой терминологии, поэтому в данном обзоре мы использовали ряд специальных терми¬ нов, не объясняя их значения. В основном тексте будут даны строгие и весьма общие определения. Отметим, что, и
12 Обзор содержания книги ссылаясь на результаты других авторов, мы обычно будем пользоваться не их терминологией, а своей. Теоретические разработки иллюстрируются в книге мно¬ гочисленными примерами. Последняя глава целиком посвя¬ щена приложениям, но это лишь небольшая часть всех воз¬ можных приложений. Вот наши главные примеры: бинарный поиск, интегрирование, аппроксимация операторов со значениями в нормирован¬ ном линейном пространстве, поиск нулей многочлена, равномерная аппроксимация, деление. Многие из этих задач рассматриваются на протяжении всей книги, а первые три изучаются особенно пристально. Задачи бинарного поиска и интегрирования мы выбрали потому, что это типичные и довольно простые примеры двух основных типов задач — дискретных и непрерывных. Задача аппрок¬ симации операторов со значениями в нормированном линей¬ ном пространстве, которую мы в дальнейшем для краткости именуем НЛП-задачей, подробно разбиралась в ОТОА, и мы хотим на её примере показать, как наши прежние резуль¬ таты укладываются в рамки более общей теории. В последней главе обсуждаются также следующие при¬ ложения: алгебраическая теория кодирования, распределённые вычисления, непрерывный бинарный поиск, упаковка в контейнеры, нелинейные уравнения, линейные уравнения, защита баз данных, булевы функции, теория информации, теория принятия решений. В дополнении G изучается задача поточечной аппрокси¬ мации. Поскольку НЛП-задача охватывается нашей общей теорией, все приложения, о которых шла речь в ОТОА (в том числе приложения к задачам оптимизации, аппроксима¬ ции и к дифференциальным уравнениям в частных произ¬ водных), тоже могут служить примерами применения этой теории. Центральную роль в нашей теории играет понятие ин¬ формации в сочетании с понятием реализуемого алгоритма. Точные нижние оценки погрешности решения выражаются через радиусы информации. В первых трёх главах последо¬
Обзор содержания книги 13 вательно вводятся три различных радиуса информации (для точной информации, для приближённой информации и для класса реализуемых алгоритмов). Здесь уместно привести абзац из «Обзора содержания» ОТОА; Общность и сила нашей теории проистекают из того, что центральная роль отведена информации. Применение принципа соперничества, основанного на рассмотрении используемой алгоритмом информации, даёт весьма об¬ щие теоремы об оценках сложности снизу. Помимо того что понятие информации приводит к большой общности, оно в то же время позволяет достичь замечательной про¬ стоты. В многочисленных ранних работах оптимальные алгоритмы получали при различных специальных предпо¬ ложениях о классе алгоритмов и классе элементов за¬ дачи. Предположения эти зачастую непроверяемы. Наши результаты зависят лишь от используемой информации и некоторых вполне поддающихся проверке свойств задан¬ ного класса элементов задачи. Они не зависят от струк¬ туры алгоритма — только от используемой алгоритмом информации. Поскольку информация играет у нас столь важную роль, возникает вопрос: как связана наша теория с теорией ин¬ формации? В этой книге мы ограничимся всего лишь одним примером применения нашей модели к задачам теории ин¬ формации (см. § 6.9). Возможно, в тех вероятностных поста¬ новках, которыми мы собираемся заняться в будущем, тео¬ рия информации будет играть более заметную роль. В нашей теории рассматриваются две математические модели. Назовём их для удобства моделями аир. Централь¬ ный вопрос для модели а — можно ли решить задачу с точ¬ ностью е, а для модели р — сколько это будет стоить. В мо¬ дели а основные понятия, связанные с оптимальностью (та¬ кие как «оптимальный по точности алгоритм», «оптимальная информация»), вводятся независимо от модели вычислитель¬ ного процесса. Модель р — это объединение модели а и не¬ которых дополнительных понятий, необходимых для опреде¬ ления сложности. Здесь основное понятие, связанное с опти¬ мальностью,— это «сложность задачи». Первые четыре главы посвящены модели а, и только в гл. 5 мы впервые обра¬ щаемся к модели вычислительного процесса. У такого по¬ строения книги есть ряд преимуществ. Во-первых, не выходя за рамки модели а, можно получить ряд отрицательных ре¬ зультатов, например доказать результат о принципиальной невозможности решения данной задачи с точностью е. Сила этих результатов как раз в том, что они не зависят от мо¬ дели вычислений. Во-вторых, для того, чтобы оценить слож¬
14 Обзор содержания книги ность задачи, необходимо построить оптимальный по точно¬ сти алгоритм, использующий оптимальную информацию. Несколько слов о структуре книги. В гл. 1 и 2 рассмат¬ риваются точная и приближённая информация, а в гл. 3 вводятся реализуемые алгоритмы, использующие прибли¬ жённую информацию. Поскольку точная информация — част¬ ный случай приближённой, все результаты гл. 1 можно получить как следствия результатов гл. 2. Аналогично резуль¬ таты двух первых глав вытекают из более общих результа¬ тов гл. 3. Мы могли бы начать книгу прямо с гл. 3, но не сделали этого, чтобы облегчить читателю восприятие мате¬ риала. Кроме того, если, скажем, читателя интересует лишь случай точной информации, он может прочесть только о нём, не вдаваясь в сложности, связанные с рассмотрением общего случая. Первые три главы построены по одной и той же схеме, чтобы сделать аналогию между соответствующими теоремами более явной. Для того чтобы не отвлекать читателя от основной линии изложения, мы вынесли часть результатов из основного тек¬ ста в дополнения. Эти результаты либо не очень важны для построения теории, либо технически более сложны. Опишем систему ссылок, принятую в книге. В каждом' параграфе своя нумерация теорем, формул, замечаний ит. д. Если нужно сослаться на материал из текущей главы, номер главы не указывается, а при ссылках на материал из другой главы указывается и номер главы *. Книга построена так, что её можно читать, не обращаясь к другим источникам и, в частности, к ОТОА. Изученная в ОТОА НЛП-задача становится здесь просто одним из при¬ меров. Тем не менее, если читатель всерьез интересуется именно этой задачей, ему полезнее прочесть ОТОА. Для чи¬ тателя, знакомого с ОТОА, ниже предлагается список обоб¬ щений по сравнению с ОТОА. Подчеркнем, что НЛП-поста- новка иногда позволяет получить более сильные результаты, чем те, которые удаётся установить в общем случае. (Хотя многие теоремы из ОТОА можно доказать и в рамках общей постановки, мы ограничимся результатами о нижних и верх¬ них оценках, оптимальной информации и оптимальных алго¬ ритмах.) 1. В ОТОА такие понятия, как радиус информации и по¬ грешность алгоритма, вводились с помощью нормы, в этой же книге норма не используется. 2. В ОТОА все операторы, с помощью которых опреде¬ лялись алгоритмы, информация и т. д., были заданы на пространствах, несущих ту или иную структуру 1 Явно или в виде (первой цифры) номера параграфа. — Прим, перев.
Обзор содержания книги 15 (обычно на линейных пространствах), здесь же опера¬ торы задаются на множествах произвольной природы. 3. В ОТОА рассматривались только непрерывные задачи, здесь же, благодаря обобщениям 1 и 2, мы можем оди¬ наково успешно заниматься как непрерывными, так и дискретными задачами. 4. В ОТОА элемент решения S(f) был элементом нор¬ мированного линейного пространства, здесь же он представляет собой множество. Для некоторых задач это весьма существенно (см., например, п. 2 § 6.6). 5. В ОТОА параметр е определялся независимо от опе¬ ратора решения S, здесь же е входит в определение S. 6. Хотя формально случай полной информации в ОТОА и рассматривался, принцип противодействия вырож¬ дался при этом в тривиальный и неопределённость возникала лишь при использовании неполной инфор¬ мации. Здесь же и в случае полной информации мож¬ но построить содержательную теорию. 7. В ОТОА не рассматривался случай приближённой ин¬ формации. 8. В ОТОА не рассматривалось понятие реализуемого алгоритма. Кратко перечислим результаты, полученные в моногра¬ фии (более подробный обзор можно найти во введении к каждой главе). Глава 1. Формализуются основные понятия. На основе принципа противодействия даются точные нижние и верх¬ ние оценки локальной и глобальной погрешностей алгорит¬ ма для случая точной информации. Строятся алгоритмы с минимальной локальной и глобальной погрешностями. Формулируются задачи бинарного поиска, интегрирования и НЛП-задача. Эти примеры будут использоваться на про¬ тяжении всей книги для иллюстрации основных понятий. Глава 2. Вводится понятие приближённой информации. Строятся оптимальные алгоритмы и даются точные нижние оценки погрешностей алгоритмов для случая приближённой информации. Глава 3. В первых двух главах использовалось чрезвы¬ чайно общее понятие алгоритма. В этой главе вводится по¬ нятие реализуемого алгоритма, строятся оптимальные реа¬ лизуемые алгоритмы и даются точные нижние оценки их погрешностей для случая приближённой информации. Глава 4. В первых трёх главах информация считалась фиксированной. Теперь информация варьируется, и ставится вопрос о её оптимальности. Формулируются условия, при которых неадаптивная информация так же (или почти так же) эффективна, как адаптивная,
16 Обзор содержания книги Глава 5. Результаты первых четырёх глав были получе¬ ны независимо от модели вычислительного процесса. В этой главе описывается наша модель вычислений (в основном совпадающая с моделью из ОТОА) и приводятся примеры, иллюстрирующие основные понятия теории сложности. Глава 6. Здесь основные понятия иллюстрируются разно¬ образными примерами практического применения теории. В первых трёх примерах (алгебраическая теория кодирова¬ ния, распределённые вычисления, непрерывный бинарный поиск) рассматривается оптимальная информация без учёта сложности. В трёх следующих примерах (упаковка в контей¬ неры, нелинейные уравнения, линейные уравнения) иссле¬ дуется сложность задачи. Кроме того, рассматриваются воп¬ росы защиты баз данных, теории информации и теории принятия решений, причём в двух последних примерах ис¬ пользуется модель среднего случая. Дополнение А. В НЛП-задаче погрешность интерполя¬ ционного алгоритма превосходит погрешность центрального алгоритма не более чем вдвое. В общем случае их погреш¬ ности могут отличаться сколь угодно сильно. В данном до¬ полнении исследуется связь между этими погрешностями. Дополнение В. Вводится понятие внутреннего алгоритма и доказывается, что внутренние алгоритмы почти сильно оптимальны. Дополнение С. В НЛП-задаче диаметр информации пре¬ восходит радиус не более чем вдвое. В этом дополнении вводится обобщённое понятие диаметра информации и ис¬ следуется его связь с радиусом информации при некоторых предположениях регулярности. Дополнение D. Вводится понятие недетерминированного алгоритма и даются точные оценки его возможностей. Дополнение Е. Обобщается линейная НЛП-задача, по¬ дробно изучавшаяся в ОТОА. Обнаруживается неожиданная связь между радиусами информации в обобщённой задаче и в задаче из ОТОА. Дополнение F. До сих пор погрешность всюду оценива¬ лась вещественным числом е. В данном дополнении некото¬ рые из полученных результатов обобщаются на случай, ко¬ гда е представляет собой элемент частично упорядоченного множества. Дополнение G. Полученные в дополнении F критерии ис¬ пользуются для поиска оптимальной информации и опти¬ мальных алгоритмов в задаче поточечной аппроксимации. Дополнение Н. Дополнительно приводится ещё несколько результатов о нижних оценках погрешностей реализуемых алгоритмов,
Глава 1 Точная информация 1.1. Введение В этой главе вводятся фундаментальные понятия оператора решения S, информационного оператора N (определённых на некотором множество F) и идеального алгоритма ср. Пусть нужно решить задачу с погрешностью, не превосхо¬ дящей е (е>0). Мы не будем вводить ни норму, ни мет¬ рику, а примем вместо этого два предположения относи¬ тельно S. Под алгоритмом ср мы понимаем любой оператор, опре¬ делённый на множестве N(F)-, другими словами, информа¬ ция N служит входным параметром для ср. Такого рода алгоритмы называют идеальными. Идеальные алгоритмы представляют интерес по двум причинам: 1. Даже для столь общего определения алгоритма уда¬ ётся получить некоторые отрицательные результаты. Например, мы установим, при каких условиях ни один идеальный алгоритм не позволяет достичь точности е. 2. Хотя для проведения вычислений, вообще говоря, го¬ дятся лишь «реализуемые» алгоритмы (см. гл. 3), в некоторых важных случаях можно использовать и идеальные алгоритмы. В данной главе информация считается точной. В гл. 2 мы рассмотрим случай приближённой информации. Инфор¬ мации в нашей теории отводится центральная роль. Зная только S, F и N, можно найти так называемый радиус ин¬ формации. Это точная нижняя грань погрешностей алгорит¬ мов вычисления S, использующих информацию N. Переход с языка алгоритмов на язык информации сильно упрощает дело. Изучаются также и верхние оценки. Мы вводим понятие центрального алгоритма. Центральные алгоритмы обладают очень сильным свойством оптимальности. Далее, мы рас¬ сматриваем интерполяционные алгоритмы. Часто интерполя¬ ционный алгоритм построить «проще», чем центральный. Если описывать неопределённость с помощью нормы, то по¬ грешность интерполяционного алгоритма превосходит по¬ грешность оптимального алгоритма не более чем вдвое, од¬ нако в общем случае это свойство не сохраняется. Свой¬ ства интерполяционных и внутренних алгоритмов, а также
18 Гл. I. Точная информация понятие диаметра информации обсуждаются в дополнениях А—С. Для иллюстрации основных понятий в этой главе при¬ водятся три примера, которые будут использоваться на про¬ тяжении всей книги. Первый, сравнительно простой пример — бинарный поиск—иллюстрирует применение наших резуль¬ татов к типичной дискретной задаче. Второй—интегрирова¬ ние— служит той же цели применительно к непрерывным задачам. Третий пример показывает, что НЛП-задача (мо¬ дель с нормированным линейным пространством), изучав¬ шаяся в ОТОА, включается в рамки данной теории в каче¬ стве частного случая. Кратко перечислим результаты главы. В § 1.2 вводятся фундаментальные понятия оператора решения S, информа¬ ционного оператора и е-приближения. Формулируются два основных предположения относительно S, которые по¬ зволяют изучать е-погрешность без привлечения нормиро¬ ванных пространств. Описываются примеры бинарного по¬ иска и интегрирования. В § 1.3 даются определения алгоритма и класса идеаль¬ ных алгоритмов. Далее, приводится определение радиуса информации r(N) и доказывается основная теорема (теоре¬ ма 3.1) о том, что для модели наихудшего случая r(/V) служит точной нижней гранью погрешностей идеальных алго¬ ритмов, использующих информацию N. Следовательно, не¬ возможно решить задачу с точностью е, если радиус инфор¬ мации больше е (следствие 3.1). Рассматривается случай описания неопределённости с помощью нормы. В заключительном параграфе исследуются верхние оцен¬ ки. Даётся определение центрального алгоритма и доказыва¬ ется, что алгоритм сильно оптимален тогда и только тогда, когда он централен. Кратко обсуждаются интерполяционные и внутренние алгоритмы, а также понятие диаметра инфор¬ мации. 1.2. Основные определения Пусть заданы два множества F и G. Будем обозначать через 2° класс всех подмножеств множества G. Рассмотрим опе¬ ратор S:FXR+-^2O, (2.1) где R+ = [0, +°о). Предположим, что оператор S обладает следующими двумя свойствами: S (А 0)^0 VfeF, (Ps. 1) djcsa, б2) (ps.2) для любых 61, 62 €= R+ И f е F,
1.2. Основные определения 19 Таким образом, множество S(f, 6) расширяется с увели¬ чением 6 и S(f, 0) непусто. Эти два предположения позволят нам дать определение погрешности, не вводя нормы на мно¬ жестве G. Будем называть S оператором решения, f^F— элементом задачи, a g^S(f,O) (где f F)—элементом ре¬ шения. Пусть задано число е 0. Величина е будет служить мерой допустимой погрешности. Назовём элемент х е G, удов¬ летворяющий условию xeS(f,e), (2.2) ^-приближением. Заметим, что в качестве е-приближения можно взять произвольный элемент х е G, для которого вы¬ полнено (2.2). Пр имер 2.1. Пусть F = {f: f- R->R, функция f непрерывна и имеет хотя бы один (вещественный) нуль), G = R, S(f, e) = {xeG: |/(х) |<е). Если f имеет ровно один нуль, то S(f, 0) будет одноточечным множеством, а при любом е>0 множество S(f,е) не одно¬ точечно. Если же у функции f несколько нулей, то для всех е^О множество S(f, е) содержит более одной точки. Несмотря на всю свою простоту, этот пример выходит за рамки описанного в ОТОА способа определения погрешно¬ сти (см. замечание 2.2). □ Замечание 2.1. Посмотрим, насколько сильные ограничения мы наложили на S. Первое предположение означает, что то, что мы ищем, существует. Второе предположение состоит в том, что чем меньше допустимая погрешность, тем уже множество элементов, удовлетворяющих нашему критерию (б интерпретируется как мера допустимой погрешности). Оба эти предположения, по сути дела, не ограничивают общ¬ ности. □ Замечание 2.2. Как уже говорилось, нам не потребуется вводить норму на множестве G. Какого же рода структура задается предположениями (Ps.l) и (Ps.2)? Вершульц (Wer- schulz [83]) показал, что это, грубо говоря, семейство псев¬ дометрик на G. Более того, он показал, что необходимо рассматривать именно семейство псевдометрик: естественно возникают интересные задачи (см. п. 2 § 6.6), которые не удаётся формализовать с использованием сдной-единственной псевдометрики. □ Замечание 2.3. В качестве меры допустимой погрешности мы берём вещественное число е. Предположение о вещественности
20 Гл. 1. Точная информация е упрощает задачу и, что ещё важнее, обычно отвечает за¬ просам практики. Но можно рассмотреть и более общий случай, когда е считается элементом частично упорядочен¬ ного множества. В дополнении F показывается что большин¬ ство наших результатов допускает обобщение на случай час¬ тично упорядоченного множества. В дополнении G изучается задача поточечной аппроксимации, для которой в качестве е естественно брать вещественную функцию. □ Пусть нужно найти е-приближение для произвольного f е F. Подойдём к этой задаче так. Предположим, что в об¬ щем случае элемент f нам неизвестен, но мы располагаем некоторой информацией N (f) о нём, где N-.F-+H (2.3) — информационный оператор (или, короче, информация), а И— образ множества F. Зная N(/), мы хотим найти е-при ближение к f. Покажем, как при заданных S и А; ответить на два вопроса: 1. Можно ли найти е-приближение? 2. Каков оптимальный алгоритм вычисления е-прибли- жения? В гл. 2 мы рассмотрим случай приближённой информации. Замечание 2.4. Совокупная информация о задаче состоит из оператора решения S, множеств F и G и информационного оператора N. Но так как на протяжении всей книги 3, F и G фиксированы, мы говорим о самом операторе N как об информации. □ Проиллюстрируем нашу модель двумя примерами. Пример. Бинарный поиск. Пусть F = (1, 2, ..., т) и G = {1,2, ...}. Определим S(f,е) как множество целых чисел, отличающихся от f не более чем на ет: S(f, e) = {geG: Предположения (Ps.l) и (Ps-2) выполнены. Пусть Ti, i = = 1 п, — заданные подмножества в F. Пусть, далее, Н={0,1}п и N(f) = [Q(f, Л). .... Q(/, т„)], где ( 1, если f <= Т,, W-Mo, если Г,. Требуется определить неизвестное число f с точностью ет, зная только для каждого i = 1, ..., п, принадлежит ли оно множеству Ti. Эта задача называется задачей бинарного
1.3. Нижние оценки 21 поиска, так как функция Q принимает лишь два различных значения. Выбор множеств Т, должен минимизировать число вопросов п, достаточное для построения е-приближения. В гл. 2 мы вернёмся к этой задаче, но уже в предположении, что на k вопросов могут быть получены неверные ответы (см. также Rivest et al. [80]), Анализ этого примера будет продолжен в § 1.4. □ Пример. Интегрирование. Пусть F = {f: f- [0, 1] —► R, функция f абсолютно непрерывна, G = R, S(f, e) = he R: I f' (0 I 1 почти всюду), т. e. S(f,e) — это множество чисел, служащих е-приближе- ниями для указанного интеграла от функции f. Предположе¬ ния (Ps i) и (Ps-2) выполнены. Пусть Н = R" и N(f) — [f(Xi) f(xn)], т. е. нам из¬ вестны значения функции в п точках хг. Зная N(f), мы ищем приближенное значение интеграла от функции f (см. ОТОА, где интегрирование фигурирует как одно из многочисленных приложений). Мы продолжим анализ этого примера в § 1.4. □ 1.3. Нижние оценки Рассмотрим множество V(N,f) = {J^F-.N(f) = N(f)} (3.1) всех элементов f, неотличимых от элемента f с помощью ин¬ формации N. Зная только N(f), нельзя сказать, какое из множеств feV(N,f), даст нужное приближение. Ясно, что выбрать элемент х, принадлежащий всем множе¬ ствам S(f, е) одновременно, можно, только если их пересе¬ чение непусто. Если же это не так, «противник» всегда смо¬ жет избрать S(f,e), которому х не принадлежит. Этот прин¬ цип противодействия схематично показан на рис. 1.1. Информационный оператор N называется полным, когда он устанавливает взаимно-однозначное соответствие между F и Н, и неполным в противном случае. Иными словами, N является полным, если для любого f из F множество V(N, f) одноточечно, и неполным, если для некоторого f множество V(N,f) содержит более одного элемента. Заме¬ тим, что в случае полной информации принцип противодей¬ ствия вырождается: так как V(N,f)—одноточечное множе¬
22 Гл. 1. Точная информация ство, мы можем указать е-приближение для любого е 0. Пусть A(N,f,s) = П S(J, е). (3.2) На рис. 1.1 множество A(N, f,e) зачернено. Из предположе¬ ния (Ps.2) вытекает, что б^б^ЖАГ, f, 6t)cA(N, f, б2). Рассмотрим величину r (N, f) = inf {6: A (N, f, б) 0), (3.3) причем договоримся, что inf0 = +oo. Отметим, что r(N,f) зависит от S, и, вообще говоря, следовало бы писать г (N, f, S). Но так как оператор S фиксирован, будем просто писать r(N,f). Назовем r(N,f) локальным радиусом информации. Грубо говоря, r(N,f)—это наименьшее 6, при котором ещё существует элемент, принадлежащий множествам S(f, 6) для всех f, неотличимых от f с помощью информации N. Да¬ лее, определим (глобальный) радиус информации как г (N) = sup г (N, f) (= inf {б: А (АГ, f, б) 0 Vf s F}). (3.4) fsF Заметим, что радиус информации зависит от S и вообще его надо было бы обозначать через r(N,S), но так как опера¬ тор S фиксирован, можно писать просто r(N). Поясним на примере, почему имеет смысл называть r(N,f) и r(N) ра¬ диусами.
1.3. Нижние оценки 23 5(f, в) = { A(N, , 6) = Пример. НЛП-задача. Покажем, как случай нормированного линейного пространства, изучавшийся в ОТОА, вписывается в рамки теории, разработанной в этой книге (см. также до¬ полнение Е, где рассматривается обобщение линейной НЛП-задачи). Пусть F — подмножество некоторого линейного простран¬ ства над полем вещественных или комплексных чисел и G — нормированное линейное пространство над тем же полем. Рассмотрим оператор S: F->-G. Отметим, что область опре¬ деления и множество значений у него не те же самые, что у оператора S, о котором шла речь до сих пор, — мы на время возвращаемся к обозначениям из ОТОА. Надеемся, что это не приведёт к путанице. Определим S(f, е) формулой (g (= G: || S (/) — g || < е} при е > О, (5(f)) при е = 0. Таким образом, S(f,e)—шар радиуса е с центром S(f). За¬ метим, что S(f, 0)—одноточечное множество. Очевидно, что предположения (Ps.l) и (Rs.2) выполнены. Итак, е-прибли- жение (е > 0) — это элемент х, для которого ||S(f)— х||< е. В данном случае П {g- 115(f) — g||<6) при б > 0, f<=V(N, f) A {5(f)} при 6 = 0. Поэтому r(N,f)= inf sup ||5(f) — g II, geO feV(W, f) грубо говоря, представляет собой радиус минимального шара, содержащего S(V(N,f)). Аналогично г (М) —радиус множества S(V(N, f)) в наихудшем случае. Мы вернёмся к этому примеру в § 1.4. □ Приведем ещё один пример, иллюстрирующий понятие радиуса информации. Пример 3.1. Пусть требуется определить минимальный объём информации, необходимой для точного решения некоторой задачи. Тогда нужно положить е = 0. Например, будем ис¬ кать минимальное число вопросов, которое позволяет точно указать элемент f по результатам бинарного поиска (см. Abelson [80], Rabin [72], Rivest, Vuillemin [76], Yao [79J, а также гл. 6). Покажем, как эта задача укладывается В нашу модель,
24 Гл. 1. Точная информация Пусть заданы множества F и G и оператор 3: F->G. Положим S(f, в) = {3(f)} Ve>0. Таким образом, S(f, в) не зависит от е, и для каждого f существует единственное е-приближение х — S(f). Предположения (Ps-1) и (Ps-2), очевидно, выполнены. Пусть число W задано. Тогда A (N, f, 6) = {S (f)} V6 0 в том и только в том случае, если S(f) = S(f) Vf е V (N, f), т. е. если множество S(V(N, f)) одноточечно. В противном случае А (Af, f, 6) = 0 V6 0. Следовательно, если S (7 (N, f)) одноточечно, в противном случае, а значит, 0, если S (7 (jV, f)) одноточечно при + °° в противном случае. всех f е F, Задача сводится к определению «минимального количества» информации, при котором r(N) обращается в нуль. □ Для того чтобы найти решение (2.2), воспользуемся ал¬ горитмом ср, т. е. оператором Ф: Af(F)->G. (3.5) Обозначим через Ф(М) класс всех алгоритмов, использую¬ щих информацию N. Будем называть Ф(М) классом идеаль¬ ных алгоритмов. Как мы увидим, даже для этого чрезвычайно общего определения алгоритма можно получить некоторые резуль¬ таты отрицательного характера, что подчеркивает силу этих отрицательных результатов. Для практических вычислений класс рассматриваемых алгоритмов приходится, вообще го¬ воря, сужать до класса «реализуемых» алгоритмов. Но в некоторых важных случаях алгоритмы, «оптимальные» среди всех идеальных, оказываются и оптимальными реализуемыми алгоритмами (см. гл. 3 и 6). Замечание 3.1. Еще раз подчеркнём (см. замечание 2.4), что алгоритм ф использует совокупную информацию, включаю¬ щую оператор решения S, множества F и G и информацион¬ ный оператор N. Следовало бы обозначать его через <p(N (f); S, F, G,N), но, поскольку S, F, G и N фиксированы, можно писать просто ф(7У(/)). □ Замечание 3.2. Здесь мы предполагаем, что ф(М(^))—эле¬ мент множества G. В дополнении D изучается более общий
1.3. Нижние оценки 25 случай, когда <f(N(f)) может быть подмножеством в G, со¬ стоящим из k элементов. Если k > 1, то алгоритм ср назы¬ вается недетерминированным. В дополнении D обсуждается вопрос о том, может ли недетерминированность облегчить поиск е-приближения. □ Теперь дадим определения локальной и глобальной по¬ грешностей алгоритма. Отметим, что для этого не требуется Рис, 1.2. вводить норму на G. Локальной погрешностью алгоритма <р из Ф(/У) назовём величину е (<р, TV, f) = inf (6: Ф (N (f)) е= A (N, f, 6)}, (3.6) а его глобальной погрешностью (или просто погрешностью) — величину е(Ф, А0 = зире(ф, N, f)(=inf{6: ф (N (/)) e=S (f, d)Vfe=F}). (3.7) Грубо говоря, локальная погрешность — это наименьшее 6, при котором элемент ф (?/(/)) принадлежит S(f,8) для всех f, не отличимых от f с помощью информации N. На рис. 1.2, где б > е(ф, N, f), область A(N,f,8) зачернена. Более или менее ясно, что локальный и глобальный ра¬ диусы информации — это точные нижние оценки локальных и глобальных погрешностей идеальных алгоритмов. Дока¬ жем это формально.
26 Гл. 1. Точная информация ТЕОРЕМА 3.1. inf е(ф, N, f) = r(N, f) Vf<=F, (3.8) феФ (N) inf e (<p, N) = r (N). □ (3.9) ф€Ф (ЛГ) Доказательство. Пусть feF и фЕФ(;\!). Без ограничения общности можно считать, что а = е(<р, N,f) < -f-oo. Из (3.6) вытекает, что A (N, f, а + 6) 0 V6 > 0. Тогда из (3.3) сле¬ дует, что r(N, f) ^а-|-б, а так как б произвольно, то е(ф, N, f). Поскольку это верно для любого алгоритма ф, r(N, F)< inf е(ф, N, f). (3.10) феФ (N) Для доказательства равенства (3.8) зафиксируем произволь¬ ное положительное б и заметим, что A(2V, f, r(N, + Определим алгоритм фв так, чтобы (f6(iV(f))G/l(iV, f, r(N, f) + 6)- Тогда е(Фв, Af, f)<r(N, f) + d. (3.11) Отсюда в силу произвольности б следует, что inf е(ф, N, f)^r(N, f). феФ (А) Это неравенство в сочетании с (3.10) даёт (3.8). Равенство (3.9) сразу следует из (3.8) и (3.11). Теорема доказана. □ Теорема 3.1 позволяет получить ответ на вопрос, при ка¬ ких условиях мы в состоянии решить задачу поиска е-при- ближения. Следствие 3.1. Информация N позволяет найти е-приближе- ние для произвольного f е F тогда и только тогда, когда выполняется одно из условий: (i) r(N)<e; (ii) r(Af) = e, и инфимум в (3.9) достигается на некото¬ ром алгоритме ф, для которого достижим инфимум в (3.7), т. е. ф (АГ (/)) e=S(f,e (ф, Af)) V/ е F. □ Доказательство. Предположим, что для любого f е F мож¬ но найти е-приближение. Это означает, что существует алго¬ ритм ф, для которого е) \ffaF. Следовательно, е(ф, N) е. Так как из (3.9) вытекает, что r(N) е(ф, Af), одно из условий (i) и (ii) выполняется. Пусть теперь выполнено (i). Тогда найдется алгоритм ф, для которого е(ф, ДО<6, и ф(А^(/)) будет е-приближением для произвольного f^F. Если же выполнено (ii), рассмот¬ рим алгоритм ф, реализующий инфимум в (3.9). Для него
1.4. Верхние оценки 27 e(cp,W) == r(N), и cp(N(f)) даёт е-приближение для произ¬ вольного f е F. Доказательство завершено. □ Замечание 3.3. Напомним, что е — величина допустимой по¬ грешности. Радиус г (А)— это количественная мера неопре¬ делённости. Он зависит от объёма совокупной информации. Если r(N)>e, то невозможно понизить неопределённость до е, она всегда будет не меньше г (А/). □ Замечание 3.4. Пусть N — нулевой оператор, N = 0. Если нам известны только оператор решения S и множества F и G, то погрешность приближения составит г(0). Часто г(0)=оо (см. ОТОА). Сравнение г(0) и r(W) показывает, насколько существенно информация N уменьшает неопреде¬ ленность. □ В § 1.4 мы найдём локальные и глобальные радиусы информации для двух задач, сформулированных в § 1.2. 1.4. Верхние оценки В § 1.3 было доказано, что локальный и глобальный ра¬ диусы информации дают точные нижние оценки локальных и глобальных погрешностей идеальных алгоритмов. В этом параграфе мы найдем алгоритмы, обеспечивающие мини¬ мальную или близкую к минимальной локальную и гло¬ бальную погрешность. Назовём алгоритм <р из Ф(А) сильно оптимальным по точности, если е(Ф, N, f) = r(N, f) Vft=F, (4.1) и оптимальным по точности, если е(<р, N) = r(N). (4.2) Ясно, что сильно оптимальный алгоритм будет и просто оптимальным; обратное, вообще говоря, неверно. Конечно, оптимальность и сильная оптимальность зависят от конкрет¬ ного выбора N. Чтобы построить сильно оптимальный алго¬ ритм, заметим, что в силу (3.3) множество A (N,f, r(N, f) +6)' непусто при любом положительном 6. Предположим, най¬ дётся элемент c(f), удовлетворяющий условию c(f)t=A(N,f,r(N,f) + d)V6>0. (4.3) Назовём такой элемент c(f) центром f, а алгоритм <f>°(N(f)) = c(f) (4.4) — центральным алгоритмом.
28 Гл. 1. Точная информация ТЕОРЕМА 4.1. Алгоритм сильно оптимален по точности в том и только в том случае, если он централен. □ Доказательство. Пусть алгоритм ср сильно оптимален. Тогда, в силу (3.6) и (4.1), f, r(N, П + 6) V<5 > 0. Ввиду (4.3) это означает, что <р(АД/))—центр f. Таким об¬ разом, ср — центральный алгоритм. Пусть теперь алгоритм ф централен. Из (4.3) и (3.6) следует, что е(ф, N, f)^r(N, f). Из утверждения (3.8) тео¬ ремы 3.1 вытекает, что е(ф, УД) = r(N,f), т. е. алгоритм ф сильно оптимален по точности. Теорема доказана. □ Приведём пример, иллюстрирующий понятие централь¬ ного алгоритма. Пример. НЛП-задача (продолжение). В данном случае эле¬ мент c(f) удовлетворяет условию sup ||S(F) — c(f)|| = inf sup |}S(/j — x||. fsV(JV, f) x<=GfeV(N, f) На языке теории аппроксимации это означает, что c\f)~ центр множества S(V(N,f)). Таким образом, только что введенное понятие центрального алгоритма совпадает с тем, которое было введено в ОТОА специально для случая нор¬ мированного линейного пространства. Заметим, что центр множества А вполне может не существовать, или не быть единственным, или не принадлежать А. Мы ещё вернёмся к этому примеру в гл. 3. □ Центральные алгоритмы обладают очень сильным свой¬ ством минимизации локальной погрешности для любого эле¬ мента f. Даже если радиус информации r(N) велик, может оказаться, что благодаря каким-то приятным особенностям f радиус r(N,f) намного меньше r(/V). В этом случае цен¬ тральный алгоритм сумеет извлечь выгоду из благоприятной ситуации и найдёт приближение с локальной погрешностью е(фС,М f) = r(N, Более глубокий анализ связей между центральными ал¬ горитмами и радиусом информации дан в дополнении Н. Здесь же мы только проиллюстрируем их двумя примерами. Пример. Бинарный поиск (продолжение). Пусть т = рп для некоторого целого р. Сейчас мы хотим всего лишь про¬ иллюстрировать наши понятия, поэтому определим множе¬ ства Т, не оптимальным образом, а попроще. (Выбор мно¬ жеств Ti, минимизирующий необходимое число вопросов,
1.4. Верхние оценки 29 обсуждается в гл. 4 и 6.) Возьмём Tt = {(i— 1)р+ 1 (< — 1)р + р}, 1 = 1, ..., га. Тогда М(/:) = [0, .... 0,1,0, .... 0], с единицей на /-м месте, где / = /(/)= Г//р1 • Из (3.1) и (3.2) следует, что V(N,f)=TjH A(N, f, d) = {f2 — a, f2 — a + 1, ..., f, + a} f]G, где a = [б/nJ, fi = (j— 1) p + 1, f2 = (/ — 1)P + P- Поэтому r(M) = r(M, f) = если p чётно, 1 1 -z -z—, если p нечетно. 2я2.'?г r Рассмотрим два алгоритма: «MW (f)) = (/—1)р +7 + (& — 1), -ели р чётно, (/ — 1)Р + Р 1 . если р нечётно, k = 1, 2. Для них ^(Фа, N, f) = r(N, Гр, значит, алгоритмы <рА центральны. Найти е-приближение можно тогда и только тогда, когда если р чётно, если р нечётно. 1 Мы вернемся к этому примеру в гл. 2. □ Пример. Интегрирование (продолжение). Пусть для просто¬ ты га 2 и точки Xi образуют равномерную сетку: х, = (t— — 1)/(га— 1), i = 1, .... га. Введем 1 2ra ’ 1 i=l га, и рассмотрим две функции: , Г f{xl)-x + xl ' W I f(x/+i) + x — х1+1 ( f (Х,) + X — X, при xz^x^aiz, при ®/<х<хг+1, при xt х zh при Zt х х;+1.
30 Гл. 1. Точная информация Эти функции принадлежат V(N,f) и удовлетворяют условию г (X) < f (х) < f+ (X) Vx е [0, 1] VF е V (У, /). Следовательно, i i i a = f~ (x) dx j F (x) dx «С b = f+ (x) dx. oo о Таким образом, A(N, f, = -Ц^- + б--Цр-] = = [6 - d, a + 6] (мы полагаем [c,d] = 0, если c>d). Отсюда видно, что 1 г (N, f) = ± (b - а) = 1 J [/+ (х) - Г (X)] dx. о Максимальное значение r(N,f) принимает при f(Xj) = O, т. е. где f е V(A\ 0). Алгоритм t Ф (N (f)) = j (6 + а) = | J [/=+ (х) + Г (х)}] ,dx - о обеспечивает точность е(ср, N, f) = r\N, f). Это единственный центральный алгоритм. Мы продолжим анализ этого при¬ мера в гл. 2. □ Для случая нормированного линейного пространства мож¬ но ввести ещё один класс алгоритмов, обладающих свой¬ ством, близким к сильной оптимальности. Это класс интер¬ поляционных алгоритмов, определяемых следующим обра¬ зом: выбираем элемент f^F, неотличимый от f с помощью информации W, так, чтобы значение S(f) вычислялось «по¬ проще», и полагаем (N (f)) = S(f). Интерполяционные ал¬ горитмы широко применяются в тех случаях, когда погреш¬ ность определяется при помощи нормы (см. ОТОА). Самое важное свойство интерполяционного алгоритма <р' в нормированном линейном пространстве состоит в том, что е(ф7, ЛГ, f)<diam(2V, f)<2r(W( f) Vf<=F, (4.5) где diam (#,/) = sup l|S(fi) — S(f2)ll (4.6) fl.fceW f)
1.4. Верхние оценки 31 — локальный диаметр информации. Это свойство близко к сильной оптимальности. В то же время интерполяционный алгоритм ср', как правило, гораздо проще центрального. Можно ли расширить понятие интерполяционного алго¬ ритма на рассматриваемый в этой книге общий случай? И будет ли тогда по-прежнему выполняться (4.5)? Мы дадим естественное обобщение понятия интерполяционного алго¬ ритма, но, как увидим, (4.5) при этом может не выполняться. Отношение локальной погрешности интерполяционного алго¬ ритма к локальному радиусу может оказаться неограничен¬ ным сверху. Впрочем, для некоторых операторов S (см. дополнение А) интерполяционные алгоритмы обладают свойством, аналогичным (4.5). Именно в этом случае они и представляют интерес. Поскольку интерполяционные алгоритмы не всегда сильно оптимальны, в дополнении В мы рассмотрим ещё один класс алгоритмов — класс внутренних алгоритмов — и покажем, что эти алгоритмы всегда близки к сильно оптимальным. Там же мы проанализируем связи между классами централь¬ ных, интерполяционных и внутренних алгоритмов. Локальный диаметр информации который в слу¬ чае линейного нормированного пространства определяется выражением (4.6), найти гораздо проще, чем радиус инфор¬ мации. Кроме того, знать d(N,f) часто бывает и достаточно, так как r(N, f)^d(N, f)<2r(M, f). (4.7) Можно ли обобщить понятие диаметра информации на слу¬ чай нашей общей постановки задачи и останется ли при этом в силе (4.7)? Этот вопрос разбирается в дополнении С. Оказывается, правое неравенство (4.7) верно всегда, а ле¬ вое— только тогда, когда S удовлетворяет некоторым усло¬ виям «регулярности». Анализ интерполяционных и внутренних алгоритмов и диаметра информации технически довольно сложен. Мы вы¬ носим его в дополнения А—С, чтобы не затруднять чита¬ телю восприятие главных идей книги.
Глава 2 Приближённая информация 2.1. Введение Предположим, что мы располагаем лишь приближённой ин¬ формацией Мр, где р — мера погрешности информации. Зна¬ чение р = 0 соответствует точной информации; в этом случае все определения и результаты сводятся к соответствующим определениям и результатам гл. 1. В реальных задачах информация часто оказывается при¬ ближённой. Вот некоторые источники погрешности: 1. Конфликтная ситуация: противник намеренно искажает информацию. 2. Случайные ошибки, возникающие при машинной обра¬ ботке и передаче информации. 3. Ошибки, связанные с представлением чисел с конечной точностью. Многие примеры в этой книге связаны с использованием приближённой информации. К их числу относятся: 1. Бинарный поиск, при котором допускается k неверных ответов (§ 2.2). 2. Вычисление интеграла по приближённым значениям подынтегральной функции (§ 2.2). 3. Передача сообщения по каналу с шумами (§ 6.2). 4. Непрерывный бинарный поиск, при котором допуска¬ ется k неверных ответов (§ 6.4). 5. Система линейных уравнений, матрица которой задана с конечной точностью (пп. 2 и 3 § 6.7). Случай приближенной информации изучался в работах Марчука и Осипенко [75], Мишелли и Ривлина (Micchelli [75], Micchelli, Rivlin [77]). Кратко перечислим результаты этой главы. В § 2.2 вво¬ дятся основные понятия приближённого информационного оператора 7VP и оператора информационной ошибки Е. Фор¬ мулируются два предположения относительно Е, позволяю¬ щие обойтись без привлечения нормы. Рассматриваются за¬ дачи бинарного поиска, при котором допускается k неверных ответов, и вычисления интеграла по приближенным значе-
2.2. Приближённая информация 33 ниям подынтегральной функции. В §§ 2.3 и 2.4 результаты соответствующих параграфов гл. 1 обобщаются на случай приближённой информации. 2.2. Приближённая информация Пусть N: F—>■ И— информационный оператор. В этой главе мы будем считать, что точное значение N(f) нам недоступно. Мы располагаем лишь значением Np(f), дающим прибли¬ жённую информацию об элементе f. Дадим строгое опреде¬ ление приближённой информации. Рассмотрим оператор E:HXR+->2H. (2.1) Предположим, что оператор Е обладает двумя свойствами: E(h, 0) = {А} yfh<=H, (Р£. 1) 6, < 62 => Е (А, 6,) <= Е (А, 62) (Рв. 2) для любых бь82е R+ и Ае Я. Эти свойства аналогичны свойствам (Ps.l) и (Ps.2) опе¬ ратора решения S. Разница только в том, что множество £(А, 0) предполагается одноточечным, а множество S(f, 0) предполагалось непустым. Множество E(N(f),8) представ¬ ляет собой приближённую информацию об f, а неотрицатель¬ ный параметр 6 служит мерой её погрешности. При 6 = 0 множество E(N(f), 0) = {N(f)} дает точную информацию. Будем называть Е оператором информационной ошибки. Теперь рассмотрим оператор Np: F-+H, удовлетворяющий условию Mp(f)e£(M(D, р) VfeF (2.2) при некотором фиксированном р 0. Будем считать, что нам дано значение Np(f), т. е. приближённая информация об f, где р служит мерой погрешности приближения. Заметим, что No(f) = N(f); этот случай рассматривался в гл. 1. Назовём Np приближённым информационным оператором. Проиллю¬ стрируем нашу модель двумя примерами. Пример. Бинарный поиск (продолжение). Напомним, что = Л), .... Q(f, Тп)], где Q(f, Ti)— ответ на вопрос, принадлежит ли f множе¬ ству Ti. Предположим, что некоторые ответы могут быть ошибочными, но число неверных ответов не превышает А, А п. Это означает, что вектор AMD = 0/1, У2, ■ ■уп]<=Н = {0, 1)п 2 Зак. 645
34 Гл. 2. Приближённая информация отличается от N(f) не более чем k компонентами. Для пары векторов х,у е Н определим расстояние Хэмминга между ними формулой ham (х, у) =■- card [z: х£- у{}. Таким образом, расстояние Хэмминга между двумя векто¬ рами— это число их несовпадающих компонент. Положим E(h, 6) = {g<=H: ham(h, g)<6). Очевидно, предположения (P£. 1) и (Ре.2) выполнены. Тогда Nk(f)^E(N(f), k), т. е. условие (2.2) выполняется при р = k (см. Rivest et al. [80]). Мы вернёмся к этому примеру в § 2.3. □ Пример. Интегрирование (продолжение). В этой задаче W) = [f(M), .... Нх„)]. Предположим, что вместо точных значений /(хг) нам заданы значения у, = yi(f), для которых If (М-)-г/zKpdt/zl + n). (2.3) где р и г) неотрицательны. Если |у,|3> т], то относительная погрешность приближения значений f(xi) значениями yi составляет примерно р, а если |z/,| <С т|, то абсолютная по¬ грешность приближения примерно равна рг|. Таким образом, (2.3) дает комбинированную оценку относительной и абсо¬ лютной погрешностей приближения f(x,j значениями yt. По¬ ложим Е(h, 6) = {g<= R": | ht — |<6(|gt | + т])}. Очевидно, предположения (Ре. 1) и (Ре-2) выполнены и Л^р(/=) = [г/1 (/), .... yn(f)]^E(N(f), р). Мы продолжим анализ этого примера в § 2.3. □ 2.3. Нижние оценки Пусть Np — приближённый информационный оператор. Рас¬ смотрим V(Np, = Mp(De£(W), р)} (3.1) — множество элементов f, для которых Np(f) может служить приближённой информацией. Согласно (2.2), f^V(Np,f), и в силу определения (3.1) гл. 1 V (N, о = V (Мо, f)<=V (Мр, f) V/ е= F. (3.2) Зная только NP(f), невозможно сказать, какое из множеств S(f, е), J е V(Np,f), даст нам е-приближение. Как и в § 1,3,
2.3. Нижние оценки 35 (3.3) (3.4) Из (3.2) (3.5) указать е-приближение можно в том и только в том случае, когда пересечение множеств S (f, е) непусто. Пусть A(Np,f,6) = П S(f, б). f) Назовём r(Np, f) = inf{6: A(NP, f, б)^= 0} локальным радиусом приближённой информации. следует, что (см. определение (3.2) гл. 1) A(Np, f, 6)<=Д(ДГО, /, 6) = A(N, f, б), r(Np, f)>r(N0, f) = r(N, f) Vfe=F. Определим (глобальный) радиус приближённой информации как г (Np) = sup г [Np, f) (= inf {6: A (Np, f, 6) 0 Vf <= F}). (3.6) fe F Из (3.5) следует, что (см. определение (3.4) гл. 1) r(^)>r(Af0) = r(Af). (3.7) Будем называть приближенный информационный опера¬ тор IV р полным, если множество V (Afp, f) одноточечно при всех f из F, и неполным, если для некоторого / из F множе¬ ство V(Np,f) не одноточечно. Заметим, что если точный ин¬ формационный оператор N неполон, то Np тоже неполон, так как V(N, f)a V(Np,f). Если же W полон, то Np может ока¬ заться как полным (см. § 6.2), так и неполным. Разумеется, если оператор Np полон, то г(Ур) = 0. Покажем, что r(/Vp, f) и r(Np) дают точные нижние оценки локальных и глобальных погрешностей алгоритмов, исполь¬ зующих приближенную информацию Np. Под алгоритмом теперь подразумевается оператор Ф: Np(F)—>G. (3.8) Пусть Ф(/Ур)—множество всех алгоритмов, использующих Np. Будем называть <t>(Np) классом идеальных алгоритмов. Позже, в гл. 3 и 6, мы займёмся изучением «реализуемых» алгоритмов. Как и в гл. 1, назовём е (ф, Np,f) = inf {б: ф (Np (/)) е А (Ур, /, б)} (3.9) локальной погрешностью алгоритма ф, а е(ф, Afp) = sup е (ф, N р, f) (=inf{6: ф(АГр (/))<= A(NP, f, б) VfsF}) (3.10) —[глобальной) погрешностью алгоритма ф, 2*
36 Гл. 2. Приближённая информация ТЕОРЕМА 3.1. inf е(Ф, Ур, f) = r(Np, Г) Vf<=F, (3.11) <p<=®(Wp) inf e(qp, ЛГр)==г(ЛГр). □ (3.12) ч>еф(лгр) Доказательство мы опустим, так как оно аналогично до¬ казательству теоремы 3.1 гл. 1. Из теоремы 3.1 настоящей главы непосредственно вытекает Следствие 3.1. Приближенная информация Np позволяет найти е-приближение для произвольного f&F тогда и только тогда, когда выполняется одно из условий: (i) г(Л/р)<е; (ii) r(Np) = e., и инфимум в (3.12) достигается на неко¬ тором алгоритме <р, для которого достижим инфимум в (3.10), т. е. <р (ЛГР (f)) е= A (Np, f, е (ф, Ур)) Vf е F. □ Множество E(N(f),p) состоит из элементов, дающих при¬ ближённую информацию об f, и каждый элемент этого мно¬ жества может выступать в качестве Np(f). Как правило, не¬ возможно предугадать, какому именно элементу • из E(N(f),p) окажется равным Np(f). Поэтому представляет интерес оценка радиуса произвольной приближённой инфор¬ мации из £(W(f),p), а не конкретной информации Np(f)'. Обозначим через b локальный радиус наихудшей прибли¬ жённой информации: sup r(N f). Np- Wp(f)e.B(W(f),p) Величина b зависит от W, S и E(N(f), p). Чтобы подчеркнуть эту зависимость, будем писать r(Np,B> f)*=b = sup r(N f). (3.13) Ур-: Np(PaE(N (f),P) Замечание 3.1. Если супремум в (3.13) реализуется, то Np,e обозначает «наихудший приближённый информационный опе¬ ратор». Если же супремум не реализуется, то такого опера¬ тора не существует, но тем не менее удобно использовать в формулах символ Np, е- □ Очевидно, что г (No, в, f) — r(N0, f) = r(N, Г), (3.14) Pi<P2^r(NPl.B, fXr^t, f) Vf<=F. (3.15) Назовём (3.16)
2.3. Нижние оценки 37 (глобальным) радиусом наихудшей приближённой информа¬ ции. Из (3.14) и (3.15) следует, что r(Na,E) = r(NQ) = r(N), (3.17) Pl<p2=>r(AfP1.£)<r(JVp2,£). (3.18) Значит, r(Np, £) — неубывающая функция от р. При фиксиро¬ ванном р r(M)<r(AfP)<r(fVP.B) (3.19) для любого приближенного информационного оператора Np. Оказывается, обе оценки в (3.19) точны, т. е. для некоторого приближенного информационного оператора Мр может вы¬ полняться равенство г(Np) = r(N), а для некоторого другого приближенного информационного оператора Np— равенство r(Nр) = г (Nр Е). Может получиться и так, что для какой-то приближенной информации Мр радиус r(Np) существенна меньше, чем r( Np, Е). Покажем, что r(Np,Elf) и r(Np,E) дают точные нижние оценки локальных и глобальных погрешностей алгоритмов, использующих произвольную заданную информацию Np(f) из £(A4D,P)- Возьмём алгоритм <р: E(N(F), р)-*■(?. (3.20) Мы хотим, чтобы <p(Np(f)) при любой информации Np(f)^ е E(jV(f), р) можно было рассматривать как е-приближение для каждого J, для которого А/р (/')«= E(N(f), р). Назовём ве¬ личину е (<р, МР. е, f) = sup е (ф, Np, f) Np-. Np(f)<=E(N (f), p) (= sup inf{6:V(Np(f))^A(Np,f,i>)}) (3.21) Np-.Np(f)sE(N(f),(f) локальной погрешностью алгоритма ф, а величину е (ф, Np, Е) = sup е (ф, Np, Е, f) (= sup е (ф, Np)) (8.22) feF Np его (глобальной) погрешностью. Пусть Ф(NP, Е)—класс иде¬ альных алгоритмов, т. е. множество всех алгоритмов ф, удов¬ летворяющих (3.20). ТЕОРЕМА 3.2. inf е (ф, Np, E,f) = r (Np, е, f) W e= F, (3.23) 1>e®(JVp, £) inf е(ф, Np,E) = r(Np.E). □ (3.24) феф (Np, E)
38 Гл. 2. Приближённая информация Доказательство аналогично доказательству теоремы 3.1 гл. 1, поэтому мы опустим его. Из теоремы 3.2 легко получить Следствие 3.2. Алгоритм построения е-приближения для про¬ извольного f^F по любой информации из класса существует тогда и только тогда, когда выполняется одно из условий: (i) r(Np, £)<е; (ii) rR, £) = s и в (3.13) или в (3.16) супремум не до¬ стигается; (iii) r(Wp, £) = е, и супремумы в (3.13) и (3.16) дости¬ гаются на некотором Np, удовлетворяющем условию (ii) следствия 3.1. □ В заключение этого параграфа вычислим радиусы прибли¬ жённой информации для двух задач. Пример. Бинарный поиск (продолжение). Сохраним все определения и обозначения гл. 1. Для простоты будем счи¬ тать, что k = р = 1 и р чётно. Сначала рассмотрим прибли¬ жённый информационный оператор №(f) = [o 1 0], / = /(/) VfeF. j Вектор, для которого расстояние Хэмминга от N\(f) равно единице, не может давать верную информацию N(f), так как у N (f) единица должна стоять ровно в одной позиции. Отсю¬ да заключаем, что информация WJ (f) верна. Тогда V (Af[, f) = откуда следует, что r(W|)-rW. = Пусть теперь в качестве приближённого информационного оператора выступает = [0 1, 1, .... 0] VfeF, i i + 1 где j = Ц/р}^{1, t'+ 1}. Тогда /) = л игж и г (АГ|) = /•(#*, f) = 2r(JV) = ±. Наконец, рассмотрим приближенную информацию ^(f) = [0, .... 0] VfeF,
2.3. Нижние оценки 39 Так как любая верная информация отличается от на еди¬ ницу, все элементы F неразличимы. Поэтому V f^ = F, и г(^) = г(М|, 0=1/2. Отсюда следует, что r(M1>£) = r(M1>£, f)=l/2. Таким образом, радиус наихудшей приближённой информа¬ ции не зависит от п. Сколько бы вопросов мы ни задавали, приближённая информация не позволяет решить задачу с точ¬ ностью е<1/2. Подчеркнём, что это — свойство информа¬ ционного оператора 2V; в гл. 6 мы приведём пример информа¬ ционного оператора, «нечувствительного» к искажению ин¬ формации. Этот пример показывает, что нижняя и верхняя оценки (3.19) радиуса приближенной информации точны и что г(Мр,е) может существенно отличаться от г(Мр) для неко¬ торых операторов Л?р. Мы вернёмся к этому примеру в § 2.4. □ Пример. Интегрирование (продолжение). Пусть А'р — при¬ ближенный информационный оператор с ре (0,1), и пусть f(x)= а, ае R+. Тогда f е F. Пусть Np(f) = [a а]. Рассмотрим 7(х) = а(1 +р)+ РЛ- Тогда ЛГр(/)е£(М(/~), р). I Поскольку [f (х) — f (х)] dx = р (а + л) и а произвольно, то о r(Mp,£) = r(Mp) = r(Mp, f) = + oo. Следовательно, приближённая информация Np не позволяет найти е-приближение ни для какого е. Заметим, что если бы речь шла об относительной погрешности N(f), то и е-прибли¬ жение следовало бы определять через относительную по¬ грешность: Ш е) = | £e=R: g-jjf(x)rfx <e(|f| + л)|- Можно убедиться, что в этом случае радиус любой прибли¬ женной информации jVp, р < 1, конечен. Мы продолжим ана¬ лиз этого примера в гл. 4. □
40 Гл. 2. Приближённая информация 2.4. Верхние оценки Так же как в § 1.4, построим алгоритмы с наименьшими локальной и глобальной погрешностями. Пусть Np— прибли¬ жённый информационный оператор. Алгоритм ср<=Ф(Л/р) на¬ зовём сильно оптимальным по точности, если е(ф, Np,f) = r(Np, f) Vf<=F, (4.1) и оптимальным по точности, если е(ф, Ap) = r(JVp). (4.2) Таким образом, мы определяем оптимальность и сильную оптимальность алгоритма для конкретного Np. При р = 0 определения (4.1) и (4.2) совпадают с определениями (4.1) и (4.2) гл. 1. Теперь обобщим понятие центрального алгоритма (см. ра¬ венство (4.4) гл. 1). Отметим, что из (3.4) вытекает непу- стота множества A (Np, f, r(Np, f) + 6) при любом положи¬ тельном 6. Предположим, что существует элемент с (f) е A (Np, f, г (N р, f) + 6) Vd > 0. (4.3) Назовём c(f) центром f, а алгоритм tfWp(f)) = c(f) (4.4) — центральным алгоритмом. ТЕОРЕМА 4.1. Алгоритм сильно оптимален по точности тогда и только тогда, когда он централен. □ Доказательство мы опустим, так как оно аналогично дока¬ зательству теоремы 4.1 гл. 1. Теперь займемся алгоритмами с наименьшими локальной и глобальной погрешностями в классе Ф(АР1е). Назовём ал¬ горитм фЕФ(Л''Р] Е) сильно оптимальным по точности в наи¬ худшем случае, если е (Ф, NP. B,f) = r (NP, е, f) Vf e F, (4.5) и оптимальным no точности в наихудшем случае, если е(ф, Np,E) = r(Np,E). (4.6) Выясним связь между свойствами сильной оптимальности и центральности алгоритмов. ТЕОРЕМА 4.2. (i) Если алгоритм ср централен для каждого приближён¬ ного информационного оператора Np, то он сильно оп¬ тимален по точности в наихудшем случае.
2.4. Верхние оценки 41 (ii) Предположим, что оператор JV* реализует супремум в (3.13) для всех f е F: Np(f) E(N(f), р), Vf<=F. Если ф сильно оптимален по точности в наихудшем случае, то <р централен для ЛГ. (iii) Если ср оптимален по точности для каждого прибли¬ женного информационного оператора Np, то <р опти¬ мален по точности в наихудшем случае. (iv) Предположим, что оператор Np реализует супремум в (3.16): У; (f) е= Е (N (П, Р) V/ <= F, г (AQ = г (ЛГр. Е). Если <р оптимален по точности в наихудшем случае, то <р оптимален по точности для N*. □ Доказательство, (i) Если алгоритм ср централен для Np, то е(Ф, N р, f) = r(Np, f) VAfp Vfe=F. Из (3.13) и (3.21) получаем r(NP.E,f)= sup r(Wp, f) Wp(f)eE(A(f), p) = sup e (<p, Np, f) Np(f)<=E{N (f), p) = e(qp, Wp.£, f) Vf<=F. Это показывает, что алгоритм <р сильно оптимален по точ¬ ности в наихудшем случае. (ii) Если алгоритм ср сильно оптимален в наихудшем слу¬ чае, то е(Ф, Np.e, f) = r(Np.E, f) = r(Np, f). В силу (3.21), е(Ф, Np, Ур£, f). Так как, ввиду (3 11), е(ф, Np, f), мы заключаем, что е(ф, Wp, f) = r(N'p, f) Vf<=F, т. e. алгоритм ф сильно оптимален по точности для JV*. (iii) Если ф оптимален по точности для каждого Np, то е(Ф, ATp) = r(Afp) VNp. Взяв супремум по всем Np, получим, в силу (3.22) и (3.16), е(ф, WP, e) = r(/Vp, е),
42 Гл. 2. Приближённая информация что и означает оптимальность алгоритма <р по точности в наи¬ худшем случае. (iv) Если ф оптимален по точности в наихудшем случае, то Ввиду (3.22), е(<р, ^)<е(Ф, AZp,B). Так как, в силу (3.12), е(ф, ЛГ‘)>г(М‘), мы заключаем, что ф, АГ) = г т. е. алгоритм ф оптимален по точности для N*p. □ Приведём пример, иллюстрирующий понятие центрального алгоритма. Пример. Бинарный поиск (продолжение). Пусть, как и в § 2.3, #}(/) = [0, .... 1 0]. / Так как информация N\ верна, алгоритмы To(^i(f)) = (/-1)p + P/2 + (a-1). «=1, 2> центральны для У}. Теперь рассмотрим оператор ад=[о 1, 1 0]. i i + 1 Легко убедиться, что алгоритмы <Ра(ЛГ1(/)) = г> + (а— а=1,2, центральны для /Vf. Пусть, наконец, ЛГ?(П = [О, •••• 01- Алгоритмы Фа(^(/)) = "г/2 + (а-1)- 0=1.2, центральны для N3. Мы вернёмся к этому примеру в гл. 4. □ В дополнениях А и В рассматриваются классы интерполя¬ ционных и внутренних алгоритмов, использующих прибли¬ женную информацию. В дополнении Н продолжается изуче¬ ние связи между центральными алгоритмами и радиусом приближенной информации.
Глава 3 Реализуемые алгоритмы 3.1. Введение В двух первых главах использовалось чрезвычайно общее по¬ нятие алгоритма. Мы считали (идеальным) алгоритмом лю¬ бой оператор, заданный на множестве Np(F)- Такой подход позволяет при минимальных ограничениях оценить снизу по¬ грешность решения задачи для произвольного алгоритма. Но на практике мы обычно имеем дело с более узким классом алгоритмов. Формализуя эту ситуацию, введём понятие реа¬ лизуемого алгоритма. Интуитивно ясно, что любое сужение класса алгоритмов может лишь увеличить погрешность. В гл. 5 мы обсудим близкое понятие допустимого алгоритма. Вот некоторые классы реализуемых алгоритмов, возни¬ кающие при решении практических задач: 1. Линейные функции входных данных. 2. Прямые алгоритмы. 3. Полиномиальные или рациональные функции с коэффи¬ циентами, зависящими от полученной информации, Ниже мы рассмотрим много примеров применения реали¬ зуемых алгоритмов. Вот некоторые из них: 1. Алгоритмы поиска нулей многочлена, использующие только арифметические операции или же арифме¬ тические операции и операцию извлечения корня (§ 3.2). 2. Алгоритмы равномерной аппроксимации, использующие операции +, —, * (§ 3.2). 3. Алгоритмы деления, использующие операции -ф, —, * (§ 5.4). 4. Прямые алгоритмы упаковки в контейнеры (§ 6.5). Кратко перечислим результаты этой главы. В § 3.2 дается определение класса реализуемых алгоритмов. Для иллюстра¬ ции этого понятия разбираются задача поиска нулей много¬ члена и задача равномерной аппроксимации. В §§ 3.3, 3.4 ре¬ зультаты соответствующих параграфов гл. 2 модифицируются для случая реализуемых алгоритмов.
44 Гл. 3. Реализуемые алгоритмы 3.2. Реализуемые алгоритмы Рассмотрим приближённый информационный оператор /Ур: F-+H. Напомним, что Ф(МР)—класс идеальных алгоритмов <р: Л'р (/•')-> G, использующих информацию Мр. Часто бывает необходимо наложить на <р какие-то ограничения, чтобы га¬ рантировать возможность вычисления ф (Л/р (/)) и/или другие полезные свойства алгоритма <р. Пусть R— некоторое подмножество класса Ф(А/Р). Назо¬ вём R классом реализуемых алгоритмов и будем говорить о каждом его элементе <р е R как о реализуемом алгоритме. Приведём два примера, иллюстрирующих это понятие. Пример. Нули многочлена. Пусть Р—множество всех много¬ членов степени п. Положим G = .С: и S(f, e) = {aeG: ?(а) = 0). Включение x<=S(f, е) означает, что х — нуль функции f. Пусть р = 0 и H = N(F), где N(f) = [a0, аь .... ап], если f(x) = а0 + О1Х + ... +апхп, ап=£0. Зафиксируем целое чис¬ ло k 2 и определим класс R\ формулой R^ = {<р: для вычисления <р(а0, ап) требуется не более k арифметических операций V (а0, .... ап) <= Н}. Все алгоритмы <р из Ri — рациональные функции, а стоимость вычисления <р(а0, .... ап) не превышает стоимости k ариф¬ метических операций. Введем ещё один класс реализуемых алгоритмов: /?2 = {ф: для вычисления qp(а0, •••, aj требуется не более k арифметических операций или операций извлечения корня V(a0, .... ап)<=Н}, т. е. в дополнение к арифметическим операциям мы разре¬ шаем извлечение корней. Мы вернемся к этому примеру в § 3.3. □ Пример. Равномерная аппроксимация. Возьмем в качестве G пространство С([0, 1]) непрерывных вещественных функций, определенных на отрезке [0, 1], с нормой || f || = max | / (х) |. xs |0. 1| Положим F = {/eG: UfllC 1}, S(Л e) = {g <= G: || f — g||<e|. Пусть = H = G, £(A, p) = te<=G; l|g-/z|Kpj.
3.3. Нижние оценки 43 Тогда ||Wp(f) — f||< р. Выберем Я = {<р: ф(Л)ел„ VA <= Wp (Е)}, где Лп — множество всех многочленов степени не выше п, т. е. будем считать реализуемыми только алгоритмы вида <p(/Vp(f))(x) = a0 + oiX 4- ... +апхп, al = ai(Np(f)), i = Q, .... п. Так в рамках нашей модели формулируется задача равно¬ мерной аппроксимации. Мы продолжим разбор этого примера в § 3.3. □ 3.3. Нижние оценки Займёмся модификацией результатов глав 1 и 2 для класса R реализуемых алгоритмов. Как всегда, будем искать е-прибли- жение, т. е. элемент х из множества A(Np,f,s) = П S(f,e). f) Потребуем, чтобы элемент х получался в результате приме¬ нения некоторого реализуемого алгоритма <р: х = <р(Мр(^)). Пусти h — Np(f) и Q(A) = {<p(ft): <₽<=/?} (3.1) — множество результатов применения к h всех реализуемых алгоритмов. Тогда х должен принадлежать множеству A (Np, f, е) П Q (А). Поэтому очевидно, что е-приближение мож¬ но построить в том и только в том случае, если множество A (Np, f, е)П Q(h) непусто. Если же A (Np,f, е)А QW = 0, «противник» всегда сумеет выбрать множество S(j, е), не содержащее х. Обобщим понятие локального радиуса на случай реали¬ зуемых алгоритмов. Назовём локальным радиусом прибли¬ жённой информации (для R) величину Г (R, Np, f) = inf (б: A (Np, f. 6) Л Q(Np (/)) 0}. (3.2) Отметим, что r (R, Np, П>г(Ф (Np), tfp, f) = r (Np, f), (3.3) причём если Q (Np (f)) = G, to r(R, Np, f) = r(Np, f). (3.4) Теперь обобщим понятия (глобального) радиуса для R. Для заданного б рассмотрим множество ф (б) = (ф е Ф (АГр): Ф (Np (/)) е= A (Np, f, б) f] Q (Np (/)) Vf е F} (3.5)
46 Гл. 3. Реализуемые алгоритмы всех алгоритмов из Ф(АР) со значениями в A(Np,f,6) Отметим, что Ф(б) не обязано быть подмноже¬ ством R. Назовём (глобальным) радиусом приближённой информации (для R) минимальное значение б, для которого множество Ф(б) содержит хотя бы один алгоритм из R. точ¬ нее говоря, величину г (R, Np) = inf (б: Ф (б) n R¥= 0}. (3.6) Заметим, что, в силу (3.2), inf {б: Ф (б) 0} = sup г (R, Np, f). f^F Значит, r(R, Np)>supr(R, Np, f). (3.7) p fef Для класса идеальных алгоритмов этому неравенству соот¬ ветствуют равенства (3.4) гл. 1 и (3.6) гл. 2. Приведем при¬ мер, когда в (3.7) имеет место строгое неравенство. Пример. Нули многочлена (продолжение). Вычислим радиу¬ сы r(Ri,N) и r(Rt,N,f), i = l, 2. Для начала заметим, что Q(h)=G для обоих Ri. Действительно, возьмём произволь¬ ный элемент g G и рассмотрим алгоритм <р(а0 an) = g- Вычисление ф не требует вообще никаких операций, поэтому Ф е Ri и g <= Q(h). Следовательно, Q(ft) = G, r(Rt, N, f) = 0 VfeF, т. e. для каждого f существует реализуемый алгоритм ф с по¬ грешностью е(ф, f) = 0. Подчеркнем, что ф зависит от f. Пусть феФ(б). Тогда ф(а0, ..., ап) — нуль многочлена f(x) = ао + aix + ... + апхп. В то же время, если ф е Ri, для вычисления ф требуется не более k арифметических опе¬ раций, k 2. Поэтому множество Ф(б)("|/?1 непусто тогда и только тогда, когда п = 1, т. е. О при п = 1, + оо в противном случае. В случае применения алгоритмов из класса R2 мы можем ещё извлекать корни. Из теоремы Абеля известно, что такой набор операций позволяет найти нуль произвольного много¬ члена степени не выше 4. Поэтому если допустимое общее число k арифметических операций и извлечений корня доста¬ точно велико, то О при п^4, 4-оо в противном случав.
3.3. Нижние оценки 47 Итак, мы показали, что в данном случае левая часть не¬ равенства (3.7) может обращаться в бесконечность, правая же равна нулю. □ Сформулируем теперь условия, при которых в (3.7) имеет место равенство. Рассмотрим множество алгоритмов Ф (ЛГр): Ф (ЛГр (/)) е Q (Np (f)) Vf s F}. (3.8) Очевидно, Rcz R. Лемма 3.1. Если R = R, to r(R, //p) = sup r (7?, Np, f). □ (3.9) f^F Доказательство. Положим a = sup r (R, N f). f^F Если a =-|-oo, то из (3.7) следует (3.9). Будем считать, что а < +оо. Пусть б > а. В силу (3.2) множество A(NP, f,6) f]Q(Np(f)) непусто для любого f. Пусть х = x(Np(f)) — какой- нибудь элемент этого множества. Рассмотрим алгоритм ф(А^р(Л) = х(Ур (f)) Vf^F. Ясно, что ср eR и <реФ(6). Так как R = R, множество Ф(б)ПР непусто при любом б > а. Следовательно, г (R, Np) и из (3.7) вытекает (3.9). □ Приведём пример совпадения множеств R и R. Пример 3.1. Выберем некоторое подмножество Q множе¬ ства G и будем считать все алгоритмы из класса R = {y. VAeTVp(F)} реализуемыми. Убедимся, что R = R. Пусть h = Np(f). Сна¬ чала покажем, что Q(/i) = Q. Зафиксируем какой-либо эле¬ мент q е Q и рассмотрим алгоритм ф(а) = q Va^Np(F). Ясно, что (ре/? и q^Q(h). Значит, QcQ(ft) в силу про¬ извольности q. Так как Q(/i)cQ по определению Q(h), мно¬ жества Q и Q(/i) совпадают. Из включения <р е R вытекает, что ф(h)Е Q(h) = Q, т. е. <р е R и R C.R. Значит, R = R. Отметим, что если Q = О, то R = R = Ф(УР). Разумеется, г (R, А?р)>г(ФШ, Ур) = г (Ур) = sup г (7Vp, f), feF что согласуется с результатами глав 1 и 2. □ Покажем, как находятся радиусы информации в задаче равномерной аппроксимации и в НЛП-задаче. Пример. Равномерная аппроксимация (продолжение). Вы¬ числим радиус r(R,Np,f) для класса R = лп алгоритмов со
48 Гл. 3. Реализуемые алгоритмы значениями из множества лп- Заметим, что V (Np, = И F — Л/р (f) II Р) ~ шаР радиуса р с центром в точке Np(f). Пусть dist(ji„, Np(f)) = inf ||Np(f)-gll = l|Np(f)-2||, где гел„. Возьмем б = р + dist(nn, Np(f)). Для всех f из V(NP, f) iiF-^ii<iiF-^p(f)ii+Hp(f)-zii<6, z^A(Np> f, б)= П (g: llF-gll<6}. fev(yp, f) Поскольку Q(Np(f)) = лп Vf^F, выполнено неравенство r(R, Np, f) б. Пусть ||Np(f)—z||> 0. Возьмём 1=^0 (f) + || (f)_z|| (Nf> <F) — 2)- Ясно, что J <= V (Np, f). Для произвольного gen, где gi e лп- Следовательно, r(R, Np, f) 6. Теперь предположим, что Np(f) = z. Очевидно, найдётся элемент fi (= F, для которого dist(fi, лп)= 1. Очевидно, ||fi|| = 1. Возьмём f = Np(f) + pfi. Ясно что fe К(^р>F) и |Jf -gll>P Vgenn. Следовательно, r(R, Np,f)^ p. Объединяя рассмотренные слу¬ чаи, получаем г (JR, NP, f) = р + dist (л„, Np(f)). Теперь найдем радиус r(R, Np). Полагая Q = nn в при¬ мере 3.1 и применяя лемму 3.1, заключаем, что г (R, Nр) = р 4- sup dist (л„, Np (/)). f^F Поскольку ||f||^ 1, выполнены неравенства ||Np(f)||^ 1 + р и dist(n„, NP(f)) 1 + Р- Поэтому r(R, ЛГр)<1+2р. Заметим, что для любого g е лп Hp(/)-gll<llf-gl|-||^p(f)-f||>dist(nn> /)-р. Выберем такой элемент f, для которого dist(nn, /)= 1. Тогда dist (л„, Np (/)):> max (1— р, 0). Отсюда следует, что max(l, p)<r(/?, NpX 1 4-2р Уп,
3.3. Нижние оценки 49 Эти оценки точны: полагая Np(f)= cf, где с=1 — р для р 1 и с = 0 для р 1, получим равенство слева, а пола¬ гая Np(f) = (l + p)f, получим равенство справа. Немного погодя мы продолжим рассмотрение этого примера. Пример. НЛП-задача (продолжение). Пусть Q — некоторое подмножество в G_ и P = {q>: q)(/i)eQ V/ieiVp(F)}. Тогда Q(/i)=Q и R = R. Для произвольных подмножеств Р\, Р2 множества G положим dist (Рь Р2) = inf inf || a — b ||, сер; i) = P; diam(Pi) = sup ||ai—а2||. Cl11 Аг Pl Лемма 3.2. Пусть p = 0. Для P = S(V(N, f)) max (dist (P, Q), diam (P)/2) < r (R, N, f) < dist (P, Q) + diam (P), (3.10) r (R, N,f) = c (dist (P, Q) + diam (P)), (3.11) где c e [1/3, 1]. □ Доказательство. В данном случае r = r(P, N, f) = inf{6: A(N, f, 6)AQ#= 0}. где A(N,f,t>) = П {g- —g\\<6} при 6>0. feW f) Предположим, что радиус г конечен, и возьмём 6 > г. Тогда найдётся элемент g множества Q, для которого dist(P, QKI|S(f)-g||< 6 Vf<=V(jV, f). (3.12) Если fi, f2 e V(N, f), to II5 (Л) - S (f2) ||< || S (f,) - g || +1| S (f2) - g || < 2d. (3.13) Устремив 6 к г в неравенствах (3.12) и (3.13) и взяв в (3.13) супремум по fi и f2, получим max (dist (Р, Q), diam (Р)/2) «С г. Тем самым для случая конечного г левое из неравенств (3.10) доказано. Если же г — + оо, то оно тривиально. Докажем теперь правое неравенство (3.10) . Пусть г] > 0, Возьмём ge Q и S(f)^P, для которых l|S(f) — glK dist (Р, Q) + n.
50 Гл. 3. Реализуемые алгоритмы Пусть fi е V(N, f). Тогда l|S(A)-glKI|5(fi)-S(f)|| + l|5(f)-g|| diam (Р) + dist (Р, Q) + rj, g е A (N, f, diam (Р) + dist (Р, Q) + п) П Q- Поэтому, В силу произвольности Т|, г dist (Р, Q) + diam (Р). Неравенства (3.10) доказаны. Для доказательства равенства (3.11) достаточно заметить, что любые неотрицательные чис¬ ла а, b удовлетворяют неравенству (а + 6)/3 max (а, Ь/2). □ Мы продолжим анализ этого примера в § 4.3. Покажем, что радиусы r(R,Np,f) и r(R,N) служат точ¬ ными нижними оценками локальных и глобальных погрешно¬ стей алгоритмов из класса R. Напомним, что локальная и глобальная погрешности алгоритма определяются выраже¬ ниями (3.9) и (3.10) гл. 2. ТЕОРЕМА 3.1. Ы е (<р, Np, f) = г (R, Np, f) Vf <= F, (3.14) inf е(ф, Mp)=r(P, Mp). □ (3.15) Доказательство. Пусть f^F, h = Np(f) и ф — реализуемый алгоритм. В силу (3.1), ф(Л)^ Q(/i). Не теряя общности, можно считать, что а = е(ф, Np, f) <Z + °о. Согласно опреде¬ лению (3.9) гл. 2,ф(/г) е A(jVp, f, а 4-6) V6 > 0. Значит, мно¬ жество A (Np,f, а 4- 6)П Q(h) непусто, и из (3.2) следует, что г = r(R, Np, f) е(ф, Np, f). Поскольку алгоритм ф был вы¬ бран произвольно, мы заключаем, что г inf (е(ф, Np, f): фе=Р}. Убедимся, что на самом деле здесь имеет место равенство. Без потери общности можно предположить, что г < + оо. Зафиксируем произвольное положительное число 6 и заме¬ тим, что множество A (Np, f, г + 6)fl Q(/i) непусто в силу (3.2). Пусть а (А) — элемент этого множества. Из (3.1) следует су¬ ществование такого алгоритма ф е R, что ф(/г) = а(й)еА(Ур, f, г + 6)ПQ(h). Значит, е(ф, Np,f)г + 6; следовательно, ввиду произволь¬ ности 6, inf {е(ф, Np, f): <f^R}^r. Равенство (3.14) дока¬ зано.
3.3. Нижние оценки 51 Теперь докажем (3.15). Зафиксируем произвольный реа¬ лизуемый алгоритм ср. Без потери общности можно принять что е(ф, Мр)<+оо. Тогда <f(h)^Q(h), h = Np(f) и ф(/г) е A (Np, f, б) V/ е F для любого б > е(ф, Np). Значит, феФ(б)П^ и, в силу (3.6), r(R,Np)<.6. Переходя к пре¬ делу при б->-е(ф, Np), получаем r(R, Np) e(q>, Np). Так как это неравенство выполняется для всех реализуемых алгорит¬ мов, то r(R, Np) sC inf{е(ф, Np): ф е R}. Установим обратное неравенство. Достаточно рассмотреть случай конечного r(R,Np). Возьмем д r(R,Np). Тогда Ф (6) Г) 2? =/= 0, т. е. существует такой реализуемый алгоритм ф, что ф (Np (f)) t= A (Np, f, б) Vf e F. Значит, е(ф, 7VP) < б. Перейдя к пределу при 8->r(R,Np), получим неравенство inf(e^> Np): ф е r(R, Np). Тем самым равенство (3.15) доказано. □ Из теоремы 3.1 непосредственно вытекает Следствие 3.1. Реализуемый алгоритм построения е-прибли- жения для произвольного f е F по информации Np существует тогда и только тогда, когда выполняется одно из условий: (1) r(R,Np)<e; (ii) r(R, Np) = e и инфимум в (3.15) достигается на неко¬ тором алгоритме ф, для которого достижим инфимум в формуле (3.10) гл. 2. Как и в § 2.3, поставим вопрос о радиусе приближённой информации из класса E(N(f),p), не конкретизируя оператор Np. Для простоты будем считать, что множество NP(F) оди¬ наково для всех операторов Np: NP(F) = Hi. Тогда класс R реализуемых алгоритмов ф: Np(F) = Hl-^G можно рассмат¬ ривать как подмножество множества Ф(УР) при произволь¬ ном Np. Назовём величину r(R,Np,E,f)= sup r(R,Np,f) (3.16) локальным радиусом наихудшей приближенной информации (для R). Очевидно, что Г (R, АГр, E,f)>r (Ф (Np. Е), Np, E,f) = r (Np, Е, f), (3.17) Р1 <р2 =>г (R, Np„ E,f)<r (R, Np„ e, f). (3.18) Назовём величину (3.19)
52 Гл. 3. Реализуемые алгоритмы (глобальным) радиусом наихудшей приближенной информа¬ ции (для R). Очевидно, что Г (R, Np, Е) > Г (Ф (Np, Е), Np, £) = г (Np, Е), (3.20) Р1 < р2 => г (R, Л/Р1, £) < г (R, Л/р„ £). (3.21) При фиксированном р г (/?, N) = г (R, Л/о> Е) < г (R, Л/р) < г (R, Np, Е) (3.22) для любого приближённого информационного оператора Np. Покажем на примере, как вычисляется глобальный радиус информации. Пример. Равномерная аппроксимация (продолжение). По¬ скольку r(R, Np) 1 + 2р, причем эта оценка точна, r(R, NP,E) — 1 + 2р Vn. Анализ примера будет продолжен в § 3.4. □ Убедимся, что радиусы r(R, Np, Е, f) и r(R, Np, £) дают точ¬ ные нижние оценки локальных и глобальных погрешностей реализуемых алгоритмов (напомним, что эти погрешности определяются формулами (3.21) и (3.22) гл. 2). ТЕОРЕМА 3.2. inf е (ф, Л/р, Е, f) = г (R, Л/р, Е, f) V/ е F, (3.23) феД inf е (Ф, Л/р, £) = г (/?, Л/р, £). □ (3.24) феД Доказательство этой теоремы аналогично доказательству теоремы 3.1, и мы его опустим. Из теоремы 3.2 вытекает Следствие 3.2. Реализуемый алгоритм построения е-прибли- жения для произвольного f е F по любой информации из класса Е(ЛЦ/),р) существует тогда и только тогда, когда вы¬ полняется одно из условий: (i) r(R,Np, £)< е; (ii) r (R, Np, £)_= е и в (3.19) или в (3.16) супремум не достигается; (iii) r(R, Np, £)= е, и супремумы в (3.19) и (3.16) дости¬ гаются на некотором Np, удовлетворяющем условию (ii) следствия 3.1. В гл. 6 будет описано ещё несколько классов реализуе¬ мых алгоритмов.
3.4. Верхние оценки 53 3.4. Верхние оценки Как и прежде, займёмся построением алгоритмов с мини¬ мальными локальными и глобальными погрешностями. Реа¬ лизуемый алгоритм ср назовём сильно оптимальным по точ¬ ности (для R), если е(Ф, Np,f) = r(R, Np, f) Vfe=F, (4.1) и оптимальным по точности (для R), если в(Ф, Np) = r(R, Np). (4.2) Мы определили оптимальность и сильную оптимальность по отношению к конкретным Np и R. Заметим, что если Q(Np(f)) = G VfeF и R = R, то определения (4.1) и (4.2) совпадают с определениями (4.1) и (4.2) гл. 2. Введем, как и раньше, понятие центрального алгоритма. Прежде всего заметим, что множество A(Np, f, r(R, Np, f) + ^)OQ(Np(f)) непусто при любом положительном 6 и любом f из F. Если для каждого f е F найдётся элемент c(f)^A(Np, f, г (R, N р, f) + 6)(]Q(Np(f)) V6 > О, (4.3) то будем называть c(f) центром f в Q(Np(f)), а алгоритм Фс(ЛГр(/)) = е(/) (4.4) — центральным алгоритмом. Отметим, что алгоритм фе не обязан быть реализуемым. ТЕОРЕМА 4.1. Если алгоритм сильно оптимален по точности, то он централен. Если центральный алгоритм принадлежит R, то он сильно оптимален по точности. □ Доказательство мы опустим за его очевидностью. Приведём пример центрального алгоритма. Пример. Равномерная аппроксимация (продолжение). Пусть Рп = Pn(Np(f))— многочлен, наилучшим образом аппроксими¬ рующий информацию Мр(/): inf ll^p(D-gll = IIWp(f)-pJI. Известно, что рп всегда существует и единствен, Поэтому, очевидно, рп — единственный центр /вл„, а ф(Л'р(/)) = Ря
54 Гл. 3. Реализуемые алгоритмы — единственный центральный алгоритм, и так как <р реали¬ зуем, то он сильно оптимален по точности. □ Теперь поговорим об оптимальных реализуемых алгорит¬ мах, использующих приближённую информацию из класса Е(У(/),р). Назовём реализуемый алгоритм <р сильно опти¬ мальным по точности в наихудшем случае (для R), если е (ф, Afp, E,f) = r (R, Np, E, f) V/= e F, (4.5) и оптимальным no точности в наихудшем случае (для R), если е(Ф, Np<E) = r(R, NPt Е). (4.6) С использованием теоремы 4.2 гл. 2 легко доказывается ТЕОРЕМА 4.2. (i) Если реализуемый алгоритм ср централен для каж¬ дого приближенного информационного оператора Np, то он сильно оптимален по точности в наихудшем случае. (ii) Предположим, что супремум в (3.16) достигается на некотором операторе А* для всех f е F: N; (f) ^E(N (f), p), r (R, N*p, f) = r (R, Np. E, f) Vf €= F. Если алгоритм <p сильно оптимален по точности в наи¬ худшем случае, то он реализуем и является централь¬ ным для N*p. (iii) Если реализуемый алгоритм ср оптимален по точ¬ ности для каждого приближённого информацион¬ ного оператора Np< то он оптимален по точности в наихудшем случае. (iv) Предположим, что супремум в (3.19) достигается на некотором операторе Np: /v; (f) <=E(N (f), p) V/ <= F, r (R, AQ = r (R, Np. £). Если алгоритм ср оптимален по точности в наихуд¬ шем случае, то он реализуем и является оптималь¬ ным по точности для А/*. □ В дополнении Н мы продолжим изучение связи между центральными реализуемыми алгоритмами и радиусом при¬ ближенной информации для R, а в дополнении А рассмот¬ рим класс реализуемых интерполяционных алгоритмов, ис¬ пользующих приближённую информацию.
Глава 4 Оптимальная информация 4.1. Введение До сих пор мы считали информационный оператор W фикси¬ рованным. Теперь предположим, что можно варьировать N, и поставим вопрос о выборе «оптимальной» информации. Для изучения оптимальной информации надо ввести единицу ин¬ формации. Мы будем называть ее простейшим информацион¬ ным оператором. В случае когда N состоит из п простейших информационных операторов, будем говорить, что кардиналь¬ ность N равна п. Если выбор простейших информационных операторов осу¬ ществляется независимо, то информация называется неадап¬ тивной, а если последовательно, с учётом уже полученных результатов, — адаптивной. Важно знать, когда адаптивная информация оказывается более эффективной, чем неадаптив¬ ная. Отметим, что в случае параллельных вычислений с по¬ мощью п процессоров неадаптивную информацию кардиналь¬ ности п можно получить за одну единицу времени, для полу¬ чения же адаптивной информации той же кардинальности требуется п единиц времени. Итак, «сильнее» ли адаптивная информация? Мы сформу¬ лируем два очень общих условия, при которых ответ на этот вопрос отрицателен. Разумеется, для многих задач адаптив¬ ная информация гораздо эффективнее, чем неадаптивная. Примеры таких задач можно найти в гл. 6 (§ 6.6, п. 1), а также в ОТОА (ч. А, гл. 8). Дадим краткий обзор результатов данной главы. В § 4.2 вводятся фундаментальные понятия простейшего информа¬ ционного оператора, кардинальности информации, адаптивной и неадаптивной информации, n-й оптимальной информации и е-кардинальности. Доказано, что для задач интегрирования и бинарного поиска неадаптивная информация столь же эф¬ фективна, как и адаптивная. В § 4.3 формулируются два достаточно общих условия, при которых адаптивность не приносит выигрыша (теоремы 3.1 и 3.2). Показано, что даёт одна из этих теорем в при¬ менении к нашей линейной задаче ^(задаче аппроксимации
56 Гл. 4. Оптимальная информация операторов со значениями в нормированном линейном про¬ странстве). В заключительном параграфе результаты § 4.3 распространяются на случай приближенной информации. 4.2. Оптимальная точная информация Пусть заданы множество Hi и некоторый класс ^(ЯД (точ¬ ных) информационных операторов (7: F-+H{. (2.1) Будем называть элементы из ''У (Hi) простейшими информа¬ ционными операторами. Зафиксируем целое число п, поло¬ жим Н = H’i и определим (точный) информационный опера¬ тор N: F^-H как оператор вида М)=[ад),.... ад)1, (2.2) где Ui^W(Hi). Таким образом, Я состоит из п простейших информационных операторов. Назовём число п кардиналь¬ ностью оператора N (запись: n = card (АО). Чтобы явно ука¬ зать кардинальность данного информационного оператора, мы будем иногда писать N = Nn- Операторы Ui в (2.2) выбираются одновременно, т. е. вы¬ бор Ut+i не зависит от выбора первых i простейших инфор¬ мационных операторов. Поэтому будем называть информа¬ цию N неадаптивной *. Факт неадаптивности информации N мы будем иногда записывать так: N = Нп0П. Далее, назовем адаптивной информацией набор данных Na(f) = [Ui(f), U2(h yi), .... Un(f-, уi, .... //„_,)], (2.3) где yi = Ut(f-, yx, ..., yt_i), Z=l, 2, ..., n—1, (2.4) и Ut(-; yi, yt_i)^^(Hi). Будем называть число n кардинальностью информации Na (запись: п = card(№)). Если имеет кардинальность п, мы будем иногда писать Na = Я®. Адаптивная информация № состоит из п простейших ин¬ формационных операторов, причём (7,- можно выбирать в за¬ висимости от уже вычисленных значений yi, ..., y(_i, I — = 1 п. В случае когда ни один из операторов Ui не зависит от г/i, ..., yt_i, адаптивная информация вырожда¬ ется в неадаптивную. 1 В оригинале nonadaptive. Отсюда индекс поп ниже, — Прим, первз.
4.2. Оптимальная точная информация 57 Приведем два примера, иллюстрирующих понятия адап¬ тивной и неадаптивной информации. Пример. Бинарный поиск (продолжение). Пусть Н\ = {0,1}, a 4r(//i) состоит из операторов вида f^T, t/(f) = Q(A Л = { д’ если если f&T, где Т = T(U) cz F, т. е. из «вопросов» о принадлежности f различным подмножествам множества F. Пусть, далее, = Л), Q(f, тп)1 Так же как и в § 1.4, положим 7\ = {(i—1)р+1 (г — 1)р + р}, p = tnln. В данном случае Ui(f) = Q(f, Л), т. е. информация N неадап¬ тивна. Теперь рассмотрим наш первый пример адаптивного ин¬ формационного оператора. В его основе лежит идея бисек¬ ции. Пусть Т\ — первая половина множества F. Если Т\ со¬ держит /, то берём в качестве Т2 первую половину Т\, в противном случае — первую половину /?\7’1, и т. д. Такая адаптивная информация интуитивно представляется опти¬ мальной, и ниже в этом параграфе мы докажем, что она, дей¬ ствительно, оптимальна. Дадим строгое описание информационного оператора би¬ секции. Для простоты возьмём m = 2s, s п, и положим ^=={^+1 ki + 2s-‘}, где k0 = 0 и _ ( kt, если Q(f, Т?) = 1, Z+1 I ki + 2S_Z, если Q(/, Т?) = 0. При этом To—F, множества Ть содержат по 2S_Z элементов и f <= Tbi или f е {ki + 2S_1 + 1, ..., kt + 2 * 2S~‘}, i = 1, ..., n. Выбор множества Tbl+i зависит от уже полученной ин¬ формации Q(f, Q(f, Tty. Чтобы представить оператор № (/) = [<?(/> Г?) Q{f,Tbn)] (2.5) в форме (2.3), достаточно положить = Q (/, 7’V) и Ut(f; z/j = ^). Следовательно, №“ удовлетво¬ ряет определению адаптивной информации. В этом пара¬ графе мы ещё вернемся к задаче бинарного поиска. □
58 Гл. 4. Оптимальная информация Пример. Интегрирование (продолжение). Пусть Hi = R, a состоит из операторов вычисления значения функции в некоторой точке отрезка [0, 1] U(f) — f(x), x = x(U)e=[0, 1]. Пусть, далее, ^(f) = [f(x1) /(*„)]. Если взять Xi=\i—1)/(м—1), как и в § 1.4, то, полагая = f(xi), можно представить Af(f) в форме (2.2), т. е. в этом случае информация N неадаптивна. Если же выбор Xi зависит от ранее вычисленных значений f(xi), ..., f(xt-i), т. е. xt = Xi(f(Xi) f(xt_i)) const, то информация N адаптивна. Немного погодя мы продолжим рассмотрение этой задачи. □ Введем класс неадаптивных информационных операторов кардинальности не выше п: Ч поп (п) = {ЛГП0П: card (Wnon) < п} (2.6) и класс адаптивных информационных операторов кардиналь¬ ности не выше п: Та («) = {№: card (№)<«}. (2.7) Очевидно, что 4fnon(n)cz Та(а). Подчеркнём, что оба класса, Ч,поп(п) и ЧГа(п), зависят от выбора множества ЧГ(Я1) про¬ стейших информационных операторов. В гл. 3 мы рассматривали класс реализуемых алгоритмов 7?с:Ф(Л0. Заметим, что R зависит от N, поскольку R со¬ стоит из операторов <р, определённых на N(F). Раз мы те¬ перь считаем, что N можно варьировать, то нужно говорить о классе R = R(N) реализуемых алгоритмов, использующих информацию N. В связи с этим будем через r(R(N),N) обо¬ значать радиус информации N для класса R(N) реализуемых алгоритмов, N eT’fn). Назовём величины rnon(R, п)= inf r(R(N), N), n <= тпоп (n) ^2 8) ra(R, ri) = inf r(R(N),N) N e4'a(n) соответственно п-м минимальным радиусом неадаптивной и п-м минимальным радиусом адаптивной информации (juinR). Символ R в (2.8) не обозначает какой-то конкретный класс
4.2. Оптимальная точная информация 59 реализуемых алгоритмов, а просто указывает на то, что речь идёт о реализуемых алгоритмах. Информационный оператор N назовём n-й оптимальной неадаптивной (соотв. адаптивной) информацией (для R), если N «= Тпоп (п) (соотв. N е= (п)), (2.9) r(R(N), N) — rnon(R, п) (соотв. г (/? (AQ, Af) = га (/?, п)). (2.10) Очевидно, что ra (R, п) rnon(R, п). Радиус n-й оптимальной информации минимален среди всех информационных опера¬ торов кардинальности не выше п. Ещё раз подчеркнём, что n-й минимальный радиус и п-я оптимальная информация за¬ висят от выбора множества простейших информационных операторов. В случае когда R (N) — Ф (N) VN, мы опускаем в (2.8) и (2.10) букву R и пишем просто гпоп(п), га(п). При какой минимальной кардинальности информации можно найти е-приближение? Из (2.8) видно, что для этого радиус rnon(R, п) (соотв. ra(R, п)) не должен превосхо¬ дить е. Назовем величину /пП0П(R, е) = min{n: rnon(R, п)<е) ... (соотв. m3(R, e) = min{n: r3(R, n)^e}) ' ^-кардинальностью неадаптивной (соотв. адаптивной) ин¬ формации (для R). В случае когда R (АО = Ф (У) VjV, мы опускаем в (2.11) букву R и пишем просто пгпоп(е) или пга(е). Итак, е-кардинальность — это наименьшая кардиналь¬ ность, при которой n-й минимальный радиус информации не превосходит е. Заметим, что е-кардинальность—невозра¬ стающая функция от е. Очевидно, mnon(R, е) m3(R, е). Бу¬ дем называть 0-кардинальность кардинальным числом. Замечание 2.1. В следствии 3.1 гл. 3 утверждается, что если г (R (N), N) = е, то е-приближение можно найти только в случае достижимости соответствующих инфимумов. Анало¬ гично если гпоп(Р, шпоп(е)) = е (соотв. r3(R, ша(е)) = е), то е-приближение можно найти только в том случае, когда инфимум в (2.8) достигается на некотором N и существует алгоритм ф, использующий информацию N и доставляющий инфимум в формуле (3.15) гл. 3 при р = 0: е(ф, Af) = *=r(R(N),N). □ Рассмотрим примеры, иллюстрирующие введенные поня¬ тия. Пример. Бинарный поиск (продолжение). Пусть для просто¬ ты пг = 2а. Возьмём произвольный адаптивный информаци¬ онный оператор кардинальности п: = г») Q(f,Tn)], n^s
60 Гл. 4. Оптимальная информация (подмножества Т\, .Тп множества F выбираются после¬ довательно). Заметим, что Na(f) может принимать не бо¬ лее 2п различных значений и U V(№, f) = F. Na (f) е Н Следовательно, можно найти f, для которого множество V(Na,f) содержит как минимум 2S_" элементов. Если п < s, найдётся такой элемент gs V(Na,f), что I f - g I > 2s_n_1. Поэтому r (R (№), ЛГа) > г (Ф (№), №) = г (ЛГа) > { 2 при п < s, при п = S. (2.12) Теперь убедимся, что оценки (2.12) точны, т. е. существует информационный оператор N, для которого r(Af) = 2_',_1 при п < s и r(N) = Q при n = s. Рассмотрим адаптивную инфор¬ мацию (2.5). Зная №(/), можно установить, какому из двух множеств Тп, {&„+ 2s~n+ 1, .... kn+ 2• 2S_"} принадле¬ жит f. Значит, при при п < s, ti = s. Это доказывает, что № представляет собой n-ю оптимальную адаптивную информацию (для Чга(/г) мальный радиус равен I. 0 при и Ф(№)), а n-й мини* n<s, n — s. Отсюда сразу вытекает, что е-кардинальность равна tna (е) = min (s, Hog (1/2е)1) (здесь и всюду далее log обозначает логарифм по основа¬ нию 2). Будет ли адаптивная информация «сильнее» неадаптивной для задачи бинарного поиска? Сейчас мы построим неадап¬ тивный информационный оператор №оп кардинальности п с радиусом г(дГ0П) = га(ц) и тем самым дадим отрицательный ответ на этот вопрос. Возьмём Tt = {g <= F; (s-i)-H двоичный разряд числа g— 1 равен 0}.
4.2. Оптимальная точная информация 61 Например, для s = 4 f = т0: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1« тт. 1 2 3 4 5 6 7 8 ТТ. 1 2 3 4 9 10 11 12 ТТ 1 2 5 6 9 10 13 14 ТТ. 1 3 5 7 9 11 J3 15 Положим Wnon(f) = [Q(f> Г1) Q(f, Тп)]. Зная Nnor>(f), можно определить п старших разрядов в дво¬ ичной записи /; следовательно, множество V(Nnon,f) состоит из 2s~n элементов и г (ДГПОП) == га (п). Это означает, что неадаптивный информационный опера¬ тор JVnon оптимален среди всех адаптивных информационных операторов кардинальности не выше п. В § 4.3 мы сформули¬ руем условие, при котором неадаптивная информация столь же эффективна, как и адаптивная, и увидим, что за¬ дача бинарного поиска удовлетворяет этому условию. Заметим, что если вычисления можно проводить парал¬ лельно, то время получения n-й оптимальной адаптивной ин¬ формации пропорционально п, тогда как время получения n-й оптимальной неадаптивной информации от п не зависит (пока не превышает числа процессоров). Таким образом, ло¬ кальные радиусы Na(f) и Nnon(f) одинаковы, затраты же времени на решение задач сильно различаются. Для бинарного поиска мы легко нашли оптимальную ин¬ формацию, но часто задача построения оптимальной адап¬ тивной информации оказывается очень сложной, а в некото¬ рых случаях она вообще не решена (см. ОТОА). □ Пример. Интегрирование (продолжение). Пусть Na(f) = [f(xi) f(х„)] — произвольная адаптивная информация, Xi = Xi(f(Xi), f(xi-i)). Положим f = О, Zi = Xi(0, .... 0) и рассмотрим неадаптивную информацию wnon (/) = №),..., f(2n)j. Ясно, что №(0) = Апоп(0), и поэтому Г (№, 0) = г (ЛГП0П, 0). В § 1.4 мы установили, что г(ЛГп) = г0уп°", о).
62 Гл. 4. Оптимальная информация Найдем г(№10п, 0). Без ограничения общности можно счи¬ тать, что точки zi упорядочены по возрастанию: 0 Z\ ... ... <zn<l. Рассмотрим функции [+ и f~, заданные фор¬ мулами Г(х)=< X — Zi -(*-zZ+i) 4 x-zn ( -(X-Z,) при 0^x^zb при zz<x<(zz + zz+1)/2, при (zz + zz+1)/2<x<zi+I, при z„^x^l, f-(x) = -f(x). На рис. 4.1 приведены графики этих функций. Очевидно, что г (X) < f (х) < f+ (X) Vx е= [0, 1] V/ €= V (tfnon, 0) (ср. с § 1.4) . Отсюда следует, что г(ЛГ0П, $ = \f+(x)dx о =тК+(1-гЭ1+4Е г=1 Положим h{ = zt+i — z{, i — Q, .... п; h — (h0, /г„); zo = O zn+i = 1. Тогда 1 n-1 Jf+(x)dx = g(A):=4^ + T^ + zZ h" 0 i = l min Лд+ ... +Л„-1
4.3. Адаптивность в сравнении с неадаптивностью 63 Минимум функции g достигается только при гж = -^“’ » = 0, ...» л-1. Следовательно, для любой адаптивной информации № г(Г)>г(Г, o) = r(A/non)>1Jr. В то же время неадаптивный информационный оператор '(i-) '(тг1)] имеет радиус ,(W“) = r(W“. 0)-i. Это доказывает, что неадаптивный информационный опера¬ тор Апоп оптимален среди всех адаптивных информацион¬ ных операторов кардинальности не выше п. Таким образом, в задаче интегрирования введение адаптивности ничего не даёт. В § 4.3 мы покажем, что этим свойством обладает це¬ лый класс линейных задач (см. также ОТОА). Разбор дан¬ ного примера будет продолжен в дополнении А. □ В двух только что приведённых примерах неадаптивная информация оказалась столь же эффективной, как и адап¬ тивная. Между тем для многих задач адаптивная информа¬ ция гораздо эффективней (см. ОТОА, ч. А, гл. 8 и § 6.6). 4.3. Адаптивность в сравнении с неадаптивностью В § 4.2 было показано, что для задач бинарного поиска и интегрирования адаптивность не приносит выигрыша. Как мы сейчас увидим, это представители двух классов задач, для которых адаптивная информация не эффективнее не¬ адаптивной, т. е. ra(R, п) = rnon(R, п). Начнём с класса, к которому относится задача бинарного поиска. Для заданного множества Hi обозначим через Т(Я1) класс всех операторов U: F-+Hi. Тогда класс про¬ стейших информационных операторов T(//i) оказывается подмножеством (не обязательно собственным) класса Т(Hi). Для задачи бинарного поиска /Л ={0,1}, а Т(Я1)—это множество вопросов о принадлежности f произвольным под¬ множествам множества F, т. е. W (Hi) = W (Н i). Докажем, что при выполнении этого условия неадаптивная информа¬ ция всегда столь же эффективна, как и адаптивная.
64 Гл. 4. Оптимальная информация ТЕОРЕМА 3.1. Пусть ЧДЯ,) = Ф (Я1), т. е. класс простей¬ ших информационных операторов содержит все операто¬ ры U: F-+H1. Тогда для любого адаптивного информационного опера¬ тора № кардинальности п найдётся неадаптивный информа¬ ционный оператор Япоп той же кардинальности, для которого дга(/) = ЯП0П(/) V/eF, (3.1) и, следовательно, ra (R, п) = rnon (R, п) и ma(R, e) = mnon(F, е), (3.2) т. е. адаптивность не приносит выигрыша. □ Доказательство. Возьмём любой адаптивный информацион¬ ный оператор Л^а(/) = [ЯД/), U2(f-, У1), un(f-, у{ уп_х)], yt = Ui(f', уI, ..., у<-1). Запишем его в виде №(/) = [ЯД/), ЯД/; ЯД/)) Я„(/; ЯД/), ..., Я„_Д/; ...))] и рассмотрим операторы ^Д/) = ^! (/), ^2(/) = я2(/; t/ДЛ), UMf) = tU/; яд/), .... я„_д/:...)). Все эти операторы Wr. F^H{ принадлежат классу ЧДЯД и, значит, принадлежат ЧДЯ1). Построим неадаптивный ин¬ формационный оператор Nnon по формуле ^П0П(/) = [ГД/) Г„(/)]. Очевидно, Яа(/) = ЯП0П(/) Vfs=F, что и доказывает (3.1). Равенства (3.2) вытекают непосред¬ ственно из (3.1). □ Итак, пока ЧДЯ1) = ЧД/Л), разницы между адаптивными и неадаптивными информационными операторами нет. Адап¬ тивность может принести выигрыш лишь при условии ¥(Я1)^'Ф(Я1). Обсудим предположение ЧГ(Я1) = ЧГ(Я1). Во многих слу¬ чаях было бы слишком смело считать все операторы про¬ стейшими. Кроме того, «стоимость» вычисления простейших информационных операторов может быть неодинаковой (см. гл. 5), и в результате адаптивная информация № может
4.3. Адаптивность в сравнении с неадаптивностью 65 оказаться намного дешевле соответствующей неадаптивной информации Nnon из (3.1). Например, стоимость вычисления Ui(j; у\, ..., i/z-i) может быть существенно меньше стои¬ мости вычисления операторов Wi(f), определённых при дока¬ зательстве теоремы 3.1. Замечание 3.1. Рассмотрим отображение U~\(zi, ..., zt) = {f s= F: Ui(f) = Zi, (f; zh zt_i) = zj. определённое для (zj, Zt) e H\, i=l n. Строго го¬ воря, U?' не является обратным к оператору Ut, но по сути дела это обозначение вполне уместно. Отметим, что множе¬ ство t/t_1(zi, ..., Zi) может быть пустым. Множества U?1 (zi, ..., zi) образуют разбиение множества F-. (z{, ..., z|) ¥= (z! z?) z})nt/F’(z? z?) = 0, U U7x(z\ z\) = F, Vz<=[l, n]. (2i "i Для всякого f^F существует единственный набор (zi, ... ..., г,), такой что f^U7'(zi, ..., z,). Покажем по индукции, что Wi(f) = z{ Vie=[l,n]. Пусть i= 1. Тогда f^U~l(zi) в том и только в том случае, если Ui(f) = Zi. Так как Wi(f) = Ui(f), это равносильно тому, что ITi(f) = Zi. Теперь предположим, что Wj(f) = Zi для / = 1, ..., i— 1. Тогда из условия f <= t/f1 (zb ..zi) следует, что Ui(f> zlt .... zt_i) = Zi, где z^Uttf-, u^f),.... t//_.(f;...)), /=i »-i. Но по определению Wt(f) = U{(f-, zb .... zz_1) = z/, что и завершает индукцию. □ Перейдём теперь ко второму классу задач, для которого неадаптивная информация столь же эффективна, как и адап¬ тивная. К этому классу принадлежит, например, задача ин¬ тегрирования. Напомним, что для неё множество простей¬ ших информационных операторов состоит из операторов вы¬ числения значений функции в отдельных точках отрезка, т. е. Hi = R, 'T(Wi)—класс линейных функционалов специального 3 Зак. 64Ь
66 Гл. 4. Оптимальная информация вида U(f) = f(x), где х = x(U) е [0,_1]. Конечно, в данном случае Т (Нд =И= Д' (Нд (множество Ф (Нд содержит, напри¬ мер, нелинейные функционалы). Теорема 3.1 здесь неприме¬ нима, но тем не менее адаптивность не приносит выигрыша. В чем тут дело? Вспомним, что для каждого адаптивного информационного оператора Na мы строили неадаптивный информационный оператор Nnon, полагая //,■ = 0, и доказы¬ вали, что r(Na, f) = r(Nnon, f) = r(Nnon) при f = 0. Проведём аналогичное построение в общем случае. Для простоты предположим, что 7?(№ = Ф(Л0 V№ Возьмём про¬ извольный адаптивный информационный оператор N* (f) = [t/j (Г), и 2 (f; уд, .... и n(f-, у,, уп_д1, (3.3) где yi = Ui{f‘, У\, .... У1~д- Для фиксированного f* из F по¬ ложим У\ = Ut (Г’> У\ У/-1)> Z=1 «-h и рассмотрим неадаптивный информационный оператор A^on(f)=[M)> и2ф у\) y'v ■■■’ ^-.)Ь (3.4) Оператор Л^"*оп получается из Na, если зафиксировать значе¬ ния уд отвечающие элементу f*. Кардинальность и «струк¬ тура» оператора Л^"*0" такие же, как у №. Когда информа¬ ция yV"*on столь же эффективна, как и №? Иными словами, когда радиусы /Vf»on и № совпадают или сравнимы? Для от¬ вета на этот вопрос введём понятие с-сложности. Элемент f назовём с-сложным для N, если для некоторого с > 0 r(N, f)>cr(N). (3.5) Отметим, что с 1, причём если с близко к 1, то локальный радиус r(N,f) близок к радиусу информации. При с=1 из (3.5) следует, что f реализует супремум в формуле (3.4) гл. 1. ТЕОРЕМА 3.2. Пусть операторы № и №оп определены ра¬ венствами (3.3) и (3.4). Если элемент /* является с-сложным А Г ПОП для Np , то г(^.оп)<4г(№), □ (3.6) Доказательство. Заметим, что А^а (/*) = Д^"«оп (/*); значит, V(№, f) = v(N™n, Г) и г(№, Г) = г «.оп, К). Поэтому, в силу (3.5), rW.“)C-P W, r)-jr(№, Г)<Тг(Л/*). чем и доказано (3.6). □
4.3. Адаптивность в сравнении с неадаптивностью 67 Теорема 3.2 позволяет найти с, анализируя лишь неадап¬ тивную информацию .¥"«оп, у которой структура гораздо про¬ ще, чем у адаптивной информации. Если с не зависит от N™n (или, ещё лучше, если с — 1 для всех Л7*оп), можно сделать вывод, что адаптивность не приносит выигрыша. Точнее говоря, справедливо Следствие 3.1. Пусть существует такое се [0,1], что для каждого № е Та (га) можно найти элемент f*, с-сложный для N^n. Тогда га(n)<гпоп(га) <уга(га), _ (о.7) пга (е) гагпоп (е) ша (се.). □ Доказательство. Левые неравенства (3.7) всегда верны. Пе¬ реходя в (3.6) к инфимуму по №еТа(п), получим rnon (га)< inf г < 1 га (п). Правые неравенства (3.7) легко следуют из этих неравенств и определений zna(e) и mnon(e). □ Отметим, что при с = 1 неравенства (3.7) переходят» в равенства. Приведем пример, в котором с =1/2. Пример. НЛП-задача (продолжение). Пусть F — уравнове¬ шенное выпуклое подмножество линейного пространства, т. е. ft=F=> — f(=F, ft, f2^F^tft + (l-t)f2^F V/<=[0, 1]. Пусть, далее, G — нормированное линейное пространство и S: F-+-G— линейный оператор: S tttft + Ш = itS (ft) + t2S (f2) Vft, f2 e Ft Vit, t2 e R. Так же как в § 1.3, положим {g<=G: ||S (Л — gll<e) при е > О, (S(f)} при е = 0. S(f, е) = { Пусть Н\=£и—поле комплексных чисел и yV(Ht) — класс линейных функционалов U. Тогда адаптивные информацион¬ ные операторы из Ta(ra) имеют вид №(/) = КЛ(Л, U2(f-, yt) un(f; yt Уд-О], где yt = Ui(f', У\ yi-\) и Ut(--, yit , у,_i)— линейные функционалы. Возьмем f* = 0. В силу линейности (7;(-; у{,
68 Гл. 4. Оптимальная информация • ••> l/i-i) имеем у* = 0, и (3.4) принимает вид <°n (f) = [U\ (f), U2(f-, 0), .... Un(f; 0, ..., 0)]. (3.8) Отметим, что MJ011—линейный оператор. Пусть fb f2<=V Тогда h = — f2 e ker Af™" и Л/2 e F. Следовательно, diam (S (V (№on, /))) < 2 sup || Sh || = ЛекегЛФ0ПЛР = diam (S (V (MT, 0))). (3.9) Из этой оценки и леммы 3.2 гл. 3 вытекает, что г (№on) < diam (S (V (№°п, О))) < 2r «10П, 0), т. е. неравенство (3.5) выполняется при с =1/2. Итак, до¬ казана ТЕОРЕМА 3.3. Если F— выпуклое уравновешенное подмно¬ жество линейного пространства, G—нормированное линей¬ ное пространство, оператор S линеен и класс простейших ин¬ формационных операторов состоит из линейных функциона¬ лов, то адаптивная информация не более чем в два раза эффективнее неадаптивной: гпоп(п)<2га(п). □ Эта теорема была доказана Бахваловым [71]. Другое ее доказательство дали Гэл и Мишелли (Gal, Micchelli [80])‘. В ОТОА также можно найти доказательство этой теоремы и, кроме того, многочисленные примеры выполнения равен¬ ства гпоп (п) = га (и). Один из этих примеров — задача инте¬ грирования, которую мы рассматриваем на всём протяже¬ нии настоящей книги. Анализ линейной задачи будет продол¬ жен в § 4.4. 4.4. Оптимальная приближённая информация В этом параграфе мы обобщим понятие оптимальности информации на случай использования приближённой инфор¬ мации. Пусть Е— оператор информационной ошибки, опре¬ делённый в гл. 2. Возьмём точный информационный опера¬ тор N вида (2.3) и рассмотрим приближённый информацион¬ ный оператор Np: F—^H: Np(f)<=E(N(f), р) V/eF. 1 Фактически в указанных работах доказаны более сильные утвер¬ ждения. — Прим, ред,
4.4. Оптимальная приближённая информация 69 Пусть R(NP, е)—некоторый класс реализуемых алгорит¬ мов, использующих информацию Np. Напомним, что радиус r(R(Np, Е), Np, Е) определяется формулой (3.19) гл. 3. Назо¬ вём величину rnon (R, п, р) = inf г (R (Np, Е), Np, Б) Weyoon(B) (соотв. г3 (R, п, р) = inf г (R (Np, Б), Np, в)) N <= <Fa (л) п-м минимальным радиусом неадаптивной (соотв. адаптив¬ ной) приближённой информации (для р, R). Здесь опять символ R указывает не на конкретный класс, а на сам факт применения реализуемых алгоритмов. Оператор N будем называть п-й оптимальной неадаптив¬ ной (соотв. адаптивной) приближённой информацией (для р, R), если N е ЧгП0П (п) (соотв. N s Ч'3 (п)) (4.2) и Г (R (Np, Е), Np, е) = Гпоп (R, п, р) (соотв. г (R (Np, Е), Np, Е) = г3 (R, п, р)). (4.3) При р = 0 эти определения совпадают с определениями (2.8) — (2.10), так как No, е'= N. Подчеркнём, что n-й опти¬ мальной приближённой информацией мы называем точную информацию, минимизирующую радиусы приближённых ин¬ формационных операторов заданной кардинальности. По аналогии с (2.11) назовём величину mnon (R, р, e) = min(n: rnon(R, р, п)^е) (4 4) (соотв. ш3 (R, р, e) = min(n: г3 (R, р, п)^е}) ^-кардинальностью неадаптивной (соотв. адаптивной) при¬ ближённой информации (для р, R). В случае когда R(Np,e) для всех N совпадает с классом идеальных алгоритмов, мы опускаем символ R в формулах (4.1) — (4.4). Как и в § 4.2, 0-кардинальность будем называть просто кардинальным чис¬ лом. Разумеется, все эти понятия зависят от выбора мно¬ жества простейших информационных операторов. Поговорим об n-х минимальных радиусах адаптивной и неадаптивной приближённой информации. Из теоремы 3.1 следует, что если У(Нх) = Т(Н}), то для каждого адаптив¬ ного оператора N3 можно найти равный ему неадаптивный оператор Мпоп, и, значит, ЧГпоп(п) = ЧГа(п). Очевидно, в этом случае соответствующие множества E(Nnon(f),p) uE(N3(f),p) тоже совпадают. Отсюда сразу получаем
70 Гл. 4. Оптимальная информация Следствие 4.1. Если ¥ (Hi) = T (Hi), то rnon(7?, р, n) = ra(R, р, п), mr'on(R, р, e) = ma(R, р, е). □ Дадим обобщение теоремы 3.2 на случай приближённой информации. По аналогии с (3.5) элемент f называется с-сложным для N, Е, р, если r(Hp>E, f)>cr(NPtE). (4.5) ТЕОРЕМА 4.1. Пусть операторы № и Nnon определены фор¬ мулами (3.3) и (3.4). Если элемент f* является с-сложным для N™n, Е, р, то г«г)<|г(№,Е). П (4.6) Доказательство. Поскольку Na (f*) = Н™п(Г), выполняется ра¬ венство Е (№(П, р) = £(Аф0П(Г). р). и, следовательно, Г (<пр. в)<4Г в, Г)=±г (^. в, Г)<±г □ Из теоремы 4.1 вытекает Следствие 4.2. Если существует такое с ^(0,1], что для каждого оператора №е'1|’а(п) можно найти элемент /*, с-сложный для 2У".ОП, Е, р, то tna(p, e)^mnon(p, е)^та(р, се). □ Доказательство мы опустим, так как оно в основном со¬ впадает с доказательством следствия 3.1. Приведем пример, иллюстрирующий теорему 4.1 и след¬ ствие 4.2. Пример. НЛП-задача (продолжение). Пусть Н — нормиро¬ ванное линейное пространство и E(h, p) = {ge=H-. ||A — gi;<p) — шар радиуса р с центром h. Рассмотрим приближённую информацию Np(f) (l|WP(f) — N(f) ||^ р). Так же как и в § 4.3, будем считать, что множество F выпукло и уравнове¬ шенно, о'ператор S линеен и класс ЧГ(Д1) состоит из линей¬ ных функционалов. Тогда А —линейный информационный
4.4. Оптимальная приближённая информация 71 оператор. Мишелям и Ривлин (Micchelli, Rivlin [77]) дока- r(Np,E) = c~' sup {||S/i||: h^F, ||W<p}, (4.8) где ce[l/2, 1]. Как легко убедиться, при f — О r(NPtB, 0)>cr(Mp,£). (4.9) Сравним адаптивный оператор № вида (3.3) и неадаптивный оператор вида (3.4) для f* = 0. Так как оператор Nf°n линеен, из (4.8) и (4.9) следует, что элемент f* является с-сложным для N, Е, р, причём с 1/2. Значит, в данном случае адаптивная приближённая информация максимум в два раза эффективнее неадаптивной. Мы вернемся к этому примеру в дополнении А.
Глава 5 Сложность 5.1. Введение В первых четырёх главах мы не принимали в расчёт кон¬ кретную модель вычислительного процесса, а значит, и слож¬ ность используемых алгоритмов. Как уже отмечалось, такой подход позволяет получить некоторые очень общие резуль¬ таты. В этой главе мы конкретизируем модель вычислений и введём различные понятия сложности. Центральным здесь будет понятие сложности задачи-, это минимальная стоимость построения е-приближения. Одна из составных частей модели вычислений — набор простейших операций. Алгоритмы, состоящие из конечного числа простейших операций, назовём допустимыми. В § 5.5 мы рассмотрим соотношения между основными классами ал¬ горитмов — идеальными, реализуемыми и допустимыми алго¬ ритмами. Скажем пару слов о связи понятия допустимого алго¬ ритма с понятием алгоритма из соответствующих разделов теоретической информатики. Для конкретности возьмём ма¬ шину Тьюринга. Наша модель вычислительного процесса совпадает с моделью машины Тьюринга, а класс допусти¬ мых алгоритмов составляют все алгоритмы, которые мож¬ но реализовать на машине Тьюринга за конечное число шагов. Дадим краткий обзор результатов главы. В § 5.2 описы¬ вается наша модель вычислений. Она в сущности та же, что и в ОТОА, но для удобства читателя мы повторяем здесь её описание. В основу модели положены понятия простей¬ шей операции, допустимой информации и допустимого алго¬ ритма. В § 5.3 определяются различные понятия сложности. Основные понятия этого параграфа — сложность задачи и оптимальный по сложности алгоритм. В первых двух пунк¬ тах § 5.4 показывается, как зависит сложность от принятой модели вычислений и как можно понизить сложность за счёт проведения предварительных вычислений. В третьем пункте исследуется связь между понятиями сложности и е-энтропии для дискретных информационных операторов. В заключи¬ тельном параграфе главы обсуждаются соотношения между классами идеальных, реализуемых и допустимых алгоритмов.
5.2. Модель вычислений 73 5.2. Модель вычислений Вкратце опишем модель вычислительного процесса. Нам нужно указать множество простейших операций, допустимую информацию и допустимые алгоритмы. (i) Пусть р — простейшая операция. Простейшими можно назвать, например, арифметические операции, операции срав¬ нения, вычисления максимума из п чисел, арифметического корня, интеграла, линейного или нелинейного функционала. Обозначим сложность операции р через сошр(р) и будем считать эту величину конечной. Выбор множества Р про¬ стейших операций и определение их сложности — это состав¬ ная часть постановки задачи. (ii) Пусть Мр — приближённый информационный опера¬ тор. Назовём его допустимым по отношению к Р, если суще¬ ствует программа вычисления Np (/) V/ е F, состоящая из конечного числа простейших операций. Если это, скажем, операции рь ..., pk, то k comp (Np (f)) = £ comp (p;). 1 = 1 Назовём число comp(<Vp(f)) информационной сложностью оператора Np(f). (iii) Пусть алгоритм ф использует допустимую информа¬ цию ЛАР. Для того чтобы найти <p(Wp(f)), надо (a) вычислить у = Np(f), (b) вычислить ф(у). Сложность вычисления у уже определена в (ii). Назовём алгоритм ср допустимым по отношению к Р, если существует программа вычисления ф(р) для y = Np(f) Vf е F, состоя¬ щая из конечного числа простейших операций. Если это опе¬ рация pi <7/, то / comp (ф (у)) = comp (qt). i = l Назовём число comp(ф(у)) комбинаторной сложностью ал¬ горитма ф(у). Замечание 2.1. Отметим, что идеальные и реализуемые алго¬ ритмы не всегда оказываются допустимыми. Класс идеаль¬ ных алгоритмов содержит классы реализуемых и допустимых алгоритмов. □ Замечание 2.2. В качестве простейших операций часто выби¬ рают четыре арифметические операции над вещественными
74 Гл. 5. Сложность числами, считая при этом, что сложность каждой из них рав¬ на единице. Предполагается, что мы можем точно и с еди¬ ничными затратами выполнять сложение, вычитание, умно¬ жение и деление двух вещественных чисел. Это, конечно, абстракция, но очень полезная; она широко применяется в алгебраической теории сложности, например в известной задаче об умножении матриц. На практике почти всегда проводят вычисления с пла¬ вающей точкой. Так можно получить только приближённые результаты, и при этом встаёт вопрос об устойчивости алго¬ ритмов. Но в том, что касается сложности, модель «с пла¬ вающей точкой» мало отличается от «точной». Мы, как пра¬ вило, будем работать с «точной» моделью, чтобы не решать дополнительных проблем (более подробно этот вопрос обсуж¬ дается в работе Трауба и Вожьняковского (Traub, Woznia- kowski [82]). □ 5.3. Понятия сложности Пусть Np—допустимый информационный оператор, aR(Np)— класс реализуемых алгоритмов, причём r(R(Np),Np)^ г. Следствие 3.1 гл. 3 утверждает, что информация No по¬ зволяет найти е-приближение (если при r(R(Np), Np)= е выполнено условие (ii) этого следствия). Рассмотрим под¬ множество R(Np,e) множества R(NP), содержащее допусти¬ мые алгоритмы ф, у которых погрешность е(ф, Np) не превы¬ шает в. Отметим, что r(R(Np), Мр)>е=>/?(Мр, е)=0. Назовём величину comp (ф) = sup (comp (Np (f)) + comp (ф (Np (f)))) (3.1) f sF сложностью алгоритма ф. Определим е-сложность (для R(Np)) как comp (R (Мр), Np, в) = inf {comp (ф): ф <= R (Np, в)}, (3.2) полагая inf 0 =* + оо. Будем называть алгоритм фос из R(Np,e) оптимальным по сложности (для R (Np)), если comp (фос) = comp (R (Мр), Np, в). (3.3) Пусть Т—класс допустимых приближённых информацион¬ ных операторов. Назовём величину comp (R, Т, в) = inf comp (R (AL), Np, в) (3.4) Nn e 4r
5.4. Примеры и замечания 75 ъ-сложностью в классе 'Г (для R). Иногда будем говорить об е-сложности в классе Т как о сложности задачи. Назовём алгоритм <рос оптимальным, по сложности в клас¬ се Т (для R), если comp (<рос) = comp (R, Т, е), (3.5) причём <рос использует приближённую информацию Np из Y и принадлежит R(NP). Как всегда, в случае /?(МР) = Ф(МР) мы опускаем во всех формулах символ R(NP). Значение е-сложности при е = 0 назовем просто сложностью, и в этом случае будем опускать символ е. Так, например, сотр(Мр) означает то же самое, что и сотр(Ф(Ур), Мр, 0). 5.4. Примеры и замечания Этот параграф состоит из трех пунктов. В п. 1 мы продемон¬ стрируем зависимость е-сложности от выбора множества простейших операций. Взяв в качестве примера задачу де¬ ления, мы докажем, что если считать простейшими три ариф¬ метические операции (сложение, вычитание, умножение), то е-сложность близка к log log(l/e). В п. 2 мы покажем, как е-сложность связана с е-кардинальностью. В п. 3 мы выяс¬ ним, как е-сложность и е-кардинальность связаны с е-энтро- пией для дискретных информационных операторов. 1. Как уже говорилось, сложность существенно зависит от вы¬ бора множества Р простейших операций. Может получиться так, что для одного множества простейших операций е-слож¬ ность велика, а для другого мала. Рассмотрим, например, задачу деления. Пример 4.1. Пусть F = [—1, 1], G = R и нужно аппроксими¬ ровать оператор 3(f)— причём S(f,e) = (ge G: |S(f) — g|«С e}. Пусть N(f) = f и p = 0. Очевидно, r(N) = 0. Возьмём такое множество про¬ стейших операций: Р = Рг = {+, *} и будем считать сложность каждой операции равной единице. При этом допустимыми окажутся алгоритмы <р, полиноми¬ ально зависящие от f. Поэтому определим класс реализуемых алгоритмов Ri =Ri(jV) как класс многочленов: Ri = (да: w — многочлен}.
76 Гл. 5. Сложность Отметим, что r(Ri,N) = 0, поскольку непрерывную функ¬ цию S (?) можно с любой точностью равномерно аппроксими¬ ровать многочленом. Класс Ri(N, е) допустимых алгоритмов представляет собой подмножество в Rlt состоящее из много¬ членов, которые аппроксимируют S(f) с погрешностью, не алго- через Тогда большей е. Рассмотрим какой-нибудь допустимый ритм ф; это многочлен степени, скажем, п. Обозначим множество всех многочленов степени не выше п. е(Ф, N) = sup | S(f) — ф(/)| fsF >£„(/):= inf sup | S (?) - w (f) |. w e nn Jef Известно (см., например, Ахиезер [65]), что Наименьшее значение п, при котором Ея(()^е, равно Значит, если <р — многочлен степени п и е(<р, А) е, то п п*. Заметим, что для вычисления cp(f) необходимо вы¬ полнить как минимум Г logn"| операций умножения (см. Bo¬ rodin, Munro [75, theorem 2.4.7]), поэтому сложность лю¬ бого алгоритма ф из Ri(N, е) удовлетворяет неравенству comp (<р) < flog n*l = log log (1 /в) (1 + о (1)). (4.1) Существует ли допустимый алгоритм, сложность которого близка к log log(l/e)? Оказывается, да. Действительно, рас¬ смотрим итерационный метод Ньютона решения нелинейного уравнения. Для уравнения 1/х— (3 — /) = 0 ньютоновы ите¬ рации образуют следующую последовательность {х,}; х0=1/3, хг+1 = хД2 —хДЗ —f)), i = 0, 1 (4.2) Легко убедиться, что xi+i 3 — f — 3) 3-f) = Kf-3)x0+l]2,+1-1(x0-T^T). Поскольку | ([— 3)*о + 11 1/3, выполняется неравенство
5.4. Примеры и замечания 77 Следовательно, | х, — 1/(3 — f) | е при i > k = Hog (log (l/(2e))/log 3)1 = log logy (1 + о (1)). Возьмём алгоритм <p(f) = xs, (4.3) Он допустим, и e(q>, 7V)^e. Сложность <р равна стоимости выполнения k итераций (4.2). Величину 3 — f достаточно вычислить один раз, поэтому для проведения каждой итера¬ ции потребуются одна операция вычитания и две операции умножения. Значит, comp (<р) = 36 + 1 = 3 log log у (1 + о (1)). (4.4) На основании (4.1) и (4.4) заключаем, что comp (/?b W, е) = © (log log у), (4.5) т. е. алгоритм (4.3) почти оптимален по сложности. Итак, если выбрать в качестве множества простейших операций Pit то е-сложность задачи деления близка к loglog(l/e). При стремлении е к нулю е-сложность стремится к бесконечности, но весьма медленно. Теперь выберем другое множество простейших операций: Р2 = {+, *, /}, по-прежнему считая сложность каждой операции равной единице. Пусть класс R2 = R2(N) состоит из всех рациональ¬ ных функций. Тогда алгоритм T(f) = S(f) = y^y сложности 2 входит в число допустимых алгоритмов. Оче« видно, что он оптимален по сложности и comp(T?2. N, е) = 2 Ve>0. (4.6) Этот пример показывает, что е-сложность существенно зави¬ сит от выбора множества простейших операций. □ 2. Выясним, как связаны понятия сложности и информации. Для простоты рассмотрим случай, когда р = 0. Возьмем ин формационный оператор вида кф = ШГ), и2(П, им
78 Гл. 5. Сложность где Ut — простейшие информационные операторы. Если comp ((Л) = Ci, i = 1 п, то comp (N) = псх. (4.7) Равенство (4.7) показывает, как информационная сложность зависит от кардинальности информации. Во многих случаях предположение comp(Ui) = const вполне соответствует ре¬ альности (см. ОТОА). Иногда можно понизить комбинаторную сложность ал¬ горитма ф(Лг(/)) за счет проведения предварительных вы¬ числений. Приведём пример, поясняющий эту идею. Пример 4.2. Пусть алгоритм ф имеет вид 4>(Af(f)) = Ef/((^(, 4-1 где Ut(f)—комплексные числа, a g{— некоторые элементы из G. Такие алгоритмы называются линейными. В ОТОА можно найти множество примеров оптимальных по точности линейных алгоритмов. Элементы gt не зависят от f, но, воз¬ можно, зависят от N и S. Их можно найти заранее, и тогда для вычисления ф(Л((/)) потребуется только п операций ум¬ ножения и п—1 операций сложения. Если сложение и ум¬ ножение входят в число простейших операций единичной сложности, то комбинаторная сложность comp (ср (ЛЦ/))) не превосходит 2п—1. Как правило, константа Cj из (4.7) много больше единицы, следовательно, comp (ф (W (f))) < comp (N (f)). □ Пример 4.2 показывает, что в некоторых случаях comp (ф (А (/)))< comp (N(f)) и, значит, comp (ф) « comp (2V, е) ~ пс1Ф (4.8) При этом алгоритм ф почти оптимален по сложности, а е-сложность линейно зависит от кардинальности информа¬ ции N. Пусть Т—класс всех адаптивных информационных опе¬ раторов конечной кардинальности. Если (4.8) выполняется для любых N,. то е-сложность в классе Т тесно связана с е-кардинальностью та(е): comp (Т, е) « т3 (е) (4.9) Если алгоритм ф удовлетворяет (4.8) для та(е)-й оптималь¬ ной информации, то он почти оптимален по сложности в классе Т. В ОТОА можно найти много примеров практиче¬ ских задач, для которых выполнены соотношения (4.8) и (4.9).
6.4. Примеры и замечания 79 Подчеркнём, что указанная связь между е-сложностью и е-кардинальностью имеет место лишь при условии одина¬ ковой сложности простейших информационных операторов. Если это условие нарушено, минимальная кардинальность информации не гарантирует минимальной (или близкой к минимальной) сложности. Примеры таких задач приводятся в статье Traub, Wozniakowski [80 с. § 6], а также в работе Micchelli, Miranker [75], которая обсуждается в ОТОА (ч. А, с. 195—198). з. • В НЛП-задаче понятие сложности тесно связано с понятием е-энтропии (см. ОТОА). Выявим на примере задачи р-знач- ного поиска существование аналогичной связи для дискрет¬ ных информационных операторов. Пример 4.3. Пусть S, F, G определены так же, как в задаче бинарного поиска, множество Н,. состоит из р элементов (р>1) и класс простейших информационных операторов содержит все операторы U: Предположим, что comp (77) = с, V77. (4.10) Тогда для каждого допустимого информационного оператора N = [U1, ..., Un] comp (TV) = С]/г. Замечание 4.1. Отметим, что N (?) —вектор с п компонентами и каждая компонента может принимать р различных значе¬ ний. Двоичная запись N(f) содержит nTlogpl битов, поэтому можно взять С] = flog pl. □ Какова е-сложность задачи S? Чтобы ответить на этот во¬ прос, введем понятие е-энтропии. Для любых f е F и g е G положим dist0(f, g) = inf [б: g<=S(f, б)}, J(g, &) = {? ^ F: distG(A g)<6) (={feK geS(/, 6 + t]) Vr| > 0}). Множество J (g, б) можно рассматривать как «шар» радиуса б с центром в точке g. Пусть А'с 7. Назовем s-энтропией X ве¬ личину /7(е, X) = logA, (4,11) где k = min (/: 3g1( .... g/sG: X^^J(Si, e)J.
80 Гл. 5. Сложность Число k — это наименьшее количество шаров радиуса не больше е, которыми можно покрыть множество X. Положим X) = inf {в: 3gh .... gk^G~. ХсиЦё1, е)}. (4.12) ТЕОРЕМА 4.1. r"°"(n) = ra («)==#-'(/. (4.13) /nnon(e) = ma(e)==|’^|Z)_1. П (4.14) Доказательство. Из теоремы 3.1 гл. 4 мы уже знаем, что rnon(/i)' = ra(n) и znnon(e) = ma(e). Для доказательства вторых равенств в (4.13) и (4.14) по¬ кажем сначала, что г3 (п) Н~} (рп, F). Рассмотрим N = [171 Un] • Не ограничивая общности, можно считать, что радиус r(N) конечен. Для любого b > r(N) найдется ал¬ горитм <р е Ф(А1) с погрешностью е (<р, W) < Ь. Пусть gk} = U {ф(А1(/))}. feF Поскольку Н\ состоит из р элементов, множество N(F) со¬ держит не более рп элементов. Значит, k рп и WeF 3Ze=[l, k]: distG(f, gl)<b. k Но отсюда вытекает, что F c: [J J(gh b) и, следовательно, z=i H~l(pn, F)^b. Поскольку b можно выбрать сколь угодно близким к г (АГ)1, а информационный оператор N произволен, га{п)^Н~\рп, F\ (4.15) Теперь докажем противоположное неравенство. Возьмем а > Н-1 (рп, F). Тогда найдутся такие элементы git ..., gk е G, рп, что ^<= U /(<?»> а). i=i Пусть Р — взаимно-однозначное отображение в Н". Рассмотрим информационный оператор N(f) = Pgt {git • • •, gk} (4.16) и алгоритм 4(N(f)) = p-'N(f) = g(, (4.17)
5.5. Три класса алгоритмов 81 где элемент g, определяется условием f<=J(gi, а), а если та¬ ких элементов несколько, то берётся любой из них. Ясно, что г (А) е(ср, A) sC а. Поскольку а можно выбрать сколь угодно близким к Н~ЧРП, F), ra(n)^H-l(pn, F). Это неравенство в сочетании с (4.15) доказывает (4.13). Из (4.13) следует, что ma(e) = min{n: Н~х (рп, F) е}. В силу (4.12) ma (е) = min { п: 3g{ V8> OF cz 6 + s)} = min {n: log pn^H (e, F)} = [ ] • Теорема полностью доказана. □ Заметим, что (4.16) — это n-я оптимальная информация, а (4.17) — элементы gt с их образами при взаимно-однознач¬ ном отображении Pgi = N(f), то комбинаторная сложность алгоритма ср окажется равной нулю. В этом случае справед¬ ливо Следствие 4.1. Информационный оператор (4.16) оптимален среди всех информационных операторов кардинальности не выше п, алгоритм ср вида (4.17) оптимален по точности и по сложности в классе Та(п), и comp (<р) = comp (та, е) = c{tn (е) = сх [ . □ 5.5. Три класса алгоритмов Сделаем несколько замечаний о трёх классах алгоритмов Ф(Л'р), R(NP) и R(Np,e). Алгоритмы каждого из этих клас¬ сов используют приближённую информацию Np. Класс идеальных алгоритмов Ф(АР) включает в себя все алгоритмы, использующие информацию Np, независимо от выбранной модели вычислительного процесса. Мерой погреш¬ ности для этого класса служит радиус информации r(Np). При г(Ар)>е приближённая информация Np не позволяет построить е-приближение, какая бы модель вычислений ни выбиралась. Класс реализуемых алгоритмов R(NP) представляет собой подмножество (обычно собственное) множества идеальных алгоритмов. Этот класс тоже можно рассматривать незави¬ симо от модели процесса вычислений. Он содержит алго¬
82 Гл. 5. Сложность ритмы определённой «структуры», например линейные, поли¬ номиальные, рациональные, устойчивые, прямые. Мерой по¬ грешности для этого класса служит радиус г(7?(Мр), Мр), ко¬ торый всегда не меньше r(Np). Если r(R(Np), Мр) > е, то это означает, что информация Np не позволяет найти е-прибли¬ жение с помощью реализуемых алгоритмов. Класс допустимых алгоритмов R(NP, е) представляет со¬ бой подмножество множества R(NP). Этот класс существенно зависит от выбора модели процесса вычислений; он состоит из алгоритмов, позволяющих найти е-приближение с конеч¬ ными затратами. Подчеркнем, что реализуемый алгоритм не всегда оказывается допустимым и не всегда гарантирует по¬ строение е-приближения, поэтому в общем случае R(NP, е) — собственное подмножество в R(NP) даже при е = 4~оо. Возможно и совпадение всех трёх указанных классов. Для этого достаточно положить /?(МР)=Ф(МР) и специальным образом выбрать модель вычислений, а именно включить все операторы ср: NP(F)->G в набор простейших операций. Тогда каждый идеальный алгоритм окажется реализуемым, а каж¬ дый реализуемый — допустимым. Специальным выбором R можно добиться совпадения классов R(NP) и R(NP, +°о) для произвольной модели вы¬ числений. Действительно, если положить ЖЛГр) = {ф: <p(2Vp(f)) вычисляется с конечными затратами V/ е= F}, то любой реализуемый алгоритм будет допустимым, но при этом утратится независимость класса R(NP) от модели вы¬ числительного процесса.
Глава 6 Приложения 6.1. Введение Можно привести множество примеров применения общей тео¬ рии оптимальных алгоритмов к дискретным и непрерывным задачам. Наш выбор приложений довольно произволен, есть и другие интересные возможности. Мы ожидаем, что появится еще немало сообщений о новых практических применениях этой теории. Описываемые ниже приложения совершенно независимы, читатель может выбрать то, что ему ближе. В первых трёх приложениях изучается только оптималь¬ ная информация, а вопрос о сложности не затрагивается. В трёх последующих рассматриваются и оптимальная инфор¬ мация, и сложность. Последние четыре параграфа главы разбиты на пункты, и в начале каждого из этих параграфов приводится его крат¬ кое содержание. Отметим, что в § 6.8 можно найти три при¬ мера построения информационных операторов нулевого ра¬ диуса (защита баз данных, булевские функции, линейные уравнения). В этой книге мы всюду ограничиваемся оценкой эфектив- ности алгоритмов в наихудшем случае. Единственное исклю¬ чение составляет § 6.9, в котором обсуждаются типичные за¬ дачи теории информации и теории принятия решений с усред¬ нённым критерием. Мы хотим показать, как можно включить теорию информации и теорию принятия решений в рамки на¬ шей модели. В будущем мы собираемся серьёзно заняться вероятностными задачами. 6.2. Алгебраическая теория кодирования Пусть нужно передать по каналу с шумами некоторое сооб¬ щение— двоичную цифровую последовательность f = [fi Л={0, !}• Наша задача — ввести дополнительные кон¬ трольные биты, которые позволят обнаружить искажения ин¬ формации и восстановить точный текст сообщения. Дадим строгую математическую формулировку этой задачи.
84 Гл. 6. Приложения Пусть F = G = {0, 1}*. Положим 5(Де) = Ш Ve>0, (2.1) Возьмем Н ={0, 1}р, где р — некоторое положительное целое число, и рассмотрим точный информационный оператор вида W) = [£i(D, £Р(Л], (2.2) gi: F->{0, 1}. Функции gi кодируют f. Радиус такой информа¬ ции равен Г °> rW = t+oo если множество S (V (N, /)) одноточечно, в противном случае, где S(V(N, /)) = (f е F: = (см. пример 3.2 гл. 1). Множество S(V(N, ))) будет одноточечным только в том случае, если отображение У взаимнооднозначно. Для этого необходимо выполнение условия card (iV (F) ) = card F = 2к. Поскольку N(F)c.H и card(//) = 2₽, равенство r(N) нулю возможно лишь при p^k. (2.3) Введем оператор информационной ошибки E(h, p) = {ge Н: ham (Л, g)<p), (2.4) где ham(/i, g) — число несовпадающих компонент векторов It и g. Пусть Np — приближенный информационный оператор. Поставим задачу поиска точного информационного оператора N вида (2.2) наименьшей возможной кардинальности р, для которого г(Мр, е) = 0. Найдя решение, мы сумеем восстано¬ вить точное сообщение f по искажённой информации Np(f). Для простоты возьмем р= 1, т. е. будем считать, что не¬ верно может быть передан только один бит. Существует об¬ ширная литература, где можно найти и решение проблемы для общего случая, и разбор множества родственных задач (см., например, Berlecamp [68]). Пусть Hi = {О, 1} и Т(Д1)—класс всех функций g'.F-+H\. Как было доказано в гл. 4, в этом случае неадаптивная ин¬ формация не менее эффективна, чем адаптивная, поэтому бу¬ дем рассматривать лишь неадаптивные операторы вида (2.2). Предположим, что радиус приближённой информации Ni равен нулю: r(Ni, е) = 0. Тогда f однозначно восстанавли¬ вается по Л/1 (f)£(Л7^(f), 1). Вектор Ni(f) принимает одно из р + 1 значений: он может быть равен N(f) или ^(/)+[0, .... 1 0], Z=1 р, i где знак «+» означает сложение по модулю 2, т. е. 0 + 0 = 1 + 1 = 0, 1 + 0 = 0 + 1 = 1. Таким образом, одному эле¬
6.2. Алгебраическая теория кодирования 85 менту [ соответствует р -ф 1 различных элементов. Поскольку f может принимать 2* значений, 2s < card (АГ, (F)) < 2р р + 1 "" р + 1 Полагая р = k + s, где через s обозначено общее число до¬ полнительных контрольных битов, получим fe + s+l<2s. (2.5) Построим информационный оператор N кардинальности k + s, для которого г(Л\ £)=0, а величина s минимальна. Пусть gi(f) = fi, i=l. (2.6) Чтобы определить gk+i(f), gk+s(f), рассмотрим матрицу К = [ЯЬ /] (2.7) размера sX Р, где I — единичная матрица размера sXs, а элементы матрицы Ki размера s X k принимают значения О или 1, причём все столбцы матрицы К попарно различны и не равны нулю. Такая матрица существует в том и только в том случае, если выполняется условие р 2s—1, или, что то же самое, условие (2.5). Положим ' gk+dtY -fi- • • -gk+stf) . _h. (2.8) Функции gk+i линейны, и К [А fk, gk+i(f)> gk+s(f)]T = KN(f)T = O. Линейный код, заданный матрицей К, называется кодом Хэм¬ минга. Покажем, что для информационного оператора задан¬ ного равенствами (2.6) и (2.8), мы имеем г(М, д) = 0. Дей¬ ствительно, если M(f)—приближённая информация, то Nx (f) = N (f) + [0 1 О] — N (f) + е{ или (f) = JV (f). i Пусть у = (f)T. Тогда y = 0 или y = Ke], т. e. у совпа¬ дает с i-м столбцом матрицы К. Поскольку все столбцы К попарно различны и не равны нулю, значение у показывает, какой именно бит передан неверно. А именно, если у = 0, то Ai(f)=Ni(f) и первые k компонент N(f) содержат сообщение f. Если же у совпадает с i-м столбцом матрицы К, то это зна¬ чит, что i-й бит передан с ошибкой, т. е. N(f) = — et и
86 Гл. 6. Приложения сообщение f можно прочесть в первых k позициях N(f). В лю¬ бом случае нам точно известно f, следовательно, r(Ni, е) = 0. Какова же минимальная кардинальность р = k + s, при которой г (N\, е) = 0? Из (2.5) следует, что минимальное число контрольных битов s(k) равно наименьшему значению s, для которого k + s + 1 2s. Легко убедиться, что s(l) = 2, з(2) = 3и s(fe) = riog261 + a V&>3, где а =0 или 1. Итак, доказана ТЕОРЕМА 2.1. Кардинальное число задачи алгебраического кодирования (2.1) равно ma (1, 0) =- mnon (1, 0) = min (s: k + s + 1 2s} [log^]. Информационный оператор N, заданный выражениями (2.2), (2.6) и (2.8) (код Хэмминга), оптимален среди приближен¬ ных информационных операторов кардинальности т(1,0). □ 6.3. Распределённые вычисления Посмотрим, как можно с помощью нашей модели решить за¬ дачу о распределённых вычислениях. Здесь мы будем в основ¬ ном опираться на результаты Эйбелсона (Abelson [80]). Близ¬ кие вопросы рассматривались также в работах Abelson [78], Gentleman [78], Thompson [80] и Yao [79]. Пусть нужно вычислить значение гладкой функции, зави¬ сящей от большого числа аргументов. Предположим, что аргументы разбиты на несколько попарно непересекающихся подмножеств и на каждое такое подмножество приходится отдельный процессор. Процессоры могут вычислять значения некоторых функций от своих входных данных и передавать результаты другим процессорам. Задача заключается в том, чтобы найти или оценить снизу объём передаваемой инфор¬ мации — количество величин, которыми должны обменяться процессоры для вычисления значения гладкой функции. Сформулируем задачу в наших терминах. Пусть F = X X Y, где X ст Rn и 7cRm- открытые множества. Не ограничивая общности, можно принять, что п^.т. Пусть S: F->R (3.1) принадлежит классу С2 (дважды непрерывно дифференцируе¬ мых функций). Положим S(f, e) = {S(f)), f = (x,y) = F. (3.2) Возьмём Н\ = R и определим класс 4r(R) простейших ин¬ формационных операторов как подмножество класса С2, со¬
6.3. Распределённые вычисления 87 стоящее из функций U: F -> R вида U(f) = U(x, y) = h(x) или U(f) = U(x, y) = g(y), где h и g— гладкие функции. Другими словами, будем счи¬ тать простейшими информационными операторами все глад¬ кие функционалы (не обязательно линейные), зависящие лишь от х или лишь от у, т. е. только от части входных данных. Какова минимальная кардинальность адаптивной инфор¬ мации, достаточная для решения задачи? Или, что то же са¬ мое, чему равно кардинальное число, если положить R р = 0? (Эти вопросы эквивалентны, так как мно¬ жество (3.2) не зависит от е.) Рассмотрим, например, тождественный информационный оператор N = I: N (f) == f = 1 > • • • 1 %пг Уъ • • • > Ут]- Алгоритм <p(A(f)) = <p(f)= S(f) нулевого радиуса принадле¬ жит классу R = Ф(М). Значит, кардинальное число удовлет¬ воряет неравенству ma(0)^n + m. (3.3) Если процессор, отвечающий группе аргументов х, передаст все величины х,- процессору, отвечающему аргументам у, то второй процессор сможет, располагая значениями х и у, вы¬ числить S(f). При этом первый процессор должен передать второму п чисел, т. е. общий объем передаваемой информа¬ ции равен t — card(Z) — т — п. Можно ли обойтись пересыл¬ кой меньшего количества значений? В работе Abelson [80] доказана следующая теорема. Пусть № — адаптивный информационный оператор, для которого r(№,fi) = O, если fi лежит в некоторой окрестности f. Обо¬ значим через t(Na) объём передаваемой информации, соот¬ ветствующий использованию №(fi), а через rank (/) —ранг п%т матрицы Гессе М = (d2S(f)/dXidyj). Тогда card (№)>/(Ма)> rank (f). (3.4) Из (3.3) и (3.4) следует, что rank (f) тя (0) tn + п Vf s F. (3.5) Смысл теоремы Эйбелсона состоит в том, что во многих прак¬ тических задачах rank(f) = n и card (№) = /(№) +т, следовательно, та (0) = т п.
88 Гл. 6. Приложения Если rank — то для вычисления значения гладкой функции необходима вся информация. В этом случае можно просто передавать все величины х(-. Пусть, например, п = т и ( = 1 Тогда rank(f) = n и приходится передавать все п аргументов. В заключение поясним, чем вызвано требование гладкости простейших информационных операторов. Без этого ограни¬ чения задача становится тривиальной, потому что с помощью одного негладкого нелинейного функционала можно передать любое количество значений, т. е. объём передаваемой инфор¬ мации всегда равен единице. 6.4. Непрерывный бинарный поиск В этом параграфе мы построим оптимальную приближённую информацию для задачи непрерывного бинарного поиска. На¬ помним, что задача бинарного поиска в дискретном случае уже не раз служила нам для иллюстрации теоретических ре¬ зультатов. Мы опираемся в основном на работу Rivest, Meyer, Kleitman, Winklmann, Spencer [80]. Пусть F=(0, 1], G = 2F — класс всех подмножеств мно¬ жества F и ц — мера Лебега на R. Положим S(f, Б) = {ЛеС: fe=A, ц(Л)<е}, (4.1) т. е. будем считать е-приближением всякое содержащее f множество, мера которого не превосходит е. Пусть Н\ ={0, 1} и класс простейших информационных операторов ЧД/Л) со¬ стоит из операторов U вида при при f^T, f&T, (4.2) где T=T{U)—измеримое множество. Для заданного целого неотрицательного числа k введём оператор информационной ошибки Е (Л, k) = {g е /7": ham (h, g) k}. Найдем n-ю оптимальную приближенную информацию, n-й минимальный радиус и е-кардинальность для класса идеаль¬ ных алгоритмов. Рассмотрим информационный оператор N вида N(f) = lQ(f, cj Q(f,^)] (n>6), (4.3)
6.4. Непрерывный бинарный поиск 89 где Q(f, с) = [1 "Р" '«• (. О в противном случае. Числа с, принадлежат F, и выбор с, зависит от предыдущих ответов Q([,ci), ..., Q(f, c;_i), т. е. N — адаптивная инфор¬ мация. Возьмём Ci = 1/2. Если числа Сь .... с,-! уже опре¬ делены, то положим q = п — i + 1 и рассмотрим Лд = (До, Л',..„ А*), где А1 — подмножество в F, которое содержит f в том и только том случае, если среди предыдущих ответов было ровно / неверных. (Заметим, что An = (F, 0, .... 0).) Сле¬ дуя указанным выше авторам, введем обозначения (□н;мп+•••+□• Пусть Т — измеримое подмножество в R. Зная Aq, определим 4-.=(4-p •••> иАя-1)> NA (N ДО N Ak Ч Л<7-1 ( Лд-1> 1)' где v^°q-i = А°(]Т, NA°q_x = A°q\T, и для / = 1 k и^-1 = И/чпг)и(л^1-г)1 "Л'_1 = (Л/-Т)и(Л/-1ПГ). Выберем число с, так, чтобы для множества Т = (0, с,] вы¬ полнялось соотношение w(q— 1, vAq_x) = w(q — 1, Л,Л<7_1). Существование такого с* следует из данных выше опреде¬ лений. ТЕОРЕМА 4.1. (Rivest et al. [80]). Оператор (4.3) задает n-ю оптимальную адаптивную приближенную информацию
90 Гл. 6. Приложения (для у¥а(п) и А), и r(Nk>B) = ra(n, k) = ((")) 2~"> tn*(k, e) = min|n: ^”^2_n<e j « log + k log log y. □ Отсюда видно, что если k мало по сравнению с п, то иска¬ жение информации не слишком сильно увеличивает погреш¬ ность. Заметим, что приближённая информация N(f) опреде- k ляет множество А = |J AL содержащее f. Нетрудно убедить- /=о ся, что А — объединение попарно непересекающихся интер¬ валов. В работе Rivest et al. [80] можно найти дальнейшие результаты, касающиеся дискретного и непрерывного случаев, а также их связи с задачей поиска наименьшего корня для набора монотонных функций. В дополнении А мы снова вер¬ немся к задаче дискретного бинарного поиска. 6.5. Упаковка в контейнеры Пусть заданы последовательность f — [fb ..., /„] веществен¬ ных чисел, f, e[a, 1], где а — малая положительная вели¬ чина, и последовательность контейнеров BINi, BIN2, ... . Вместимость каждого контейнера равна единице, а число их не превышает п. Требуется «упаковать» числа fi в контей¬ неры таким образом, чтобы сумма чисел в каждом контей¬ нере не превосходила единицы, а общее количество исполь¬ зованных контейнеров было минимальным (см., например, Garey, Johnson [79], Johnson [74], Yao [80]. Формализуем постановку задачи. Пусть F = [a, 1]п и все возможные упаковки f имеют вид Ш = [М). .... (5.1) где номер контейнера, в который помещено Д, и Z Л<1 (5.2) для b = kj(f), j= 1, ..., п. Неравенство (5.2) гарантирует, что сумма чисел в Ь-м контейнере не превышает единицы. Пусть G — множество всех векторов k (/), удовлетворяющих (5.1) и (5.2). Введем норму \\k(f)\\= max (5.3) 1 < i < n Если в последовательности занятых контейнеров нет пропу¬ сков, то общее число контейнеров, использованных для упа-
6.5. Упаковка в контейнеры 91 ковки, равно ||&(f)||. Для заданного f определим упаковку k4f) = [k\(f) минимизирующую количество занятых контейнеров: II k* (f) ||= min ||Ш11. k (f) e О Из (5.2) следует, что i-1 (5.4) (5.5) значит, || (f) || стремится к бесконечности с ростом п. По¬ ложим S(M) = {g(f)eG: + (5.6) т. е. будем считать е-приближением любую допустимую упа¬ ковку, при которой число использованных контейнеров пре¬ восходит оптимальное не более чем в 1 + е. Возьмем N(f) = f р == 0. Так как информация N полна, то r(Af) = 0. Включим в класс простейших операций Р четыре арифме¬ тических операции и операцию сравнения и припишем им всем единичную сложность. Как е-сложность задачи упа¬ ковки зависит от п? Известно, что эта задача NP-полна, по¬ этому очень вероятно, что при е = 0 ее сложность зависит от п экспоненциально. Но для достаточно больших е существуют алгоритмы построения е-приближения, сложность которых зависит от п как многочлен невысокой степени. Опишем неко¬ торые из известных алгоритмов. Рассмотрим следующие два класса реализуемых алгорит¬ мов. В первый класс R включим все идеальные алгоритмы, т. е. положим 7? = Ф(А0. Иногда Ф(М) называют классом непрямых алгоритмов. Класс Ri прямых алгоритмов опреде¬ лим так: 7?1 = {ф: qp(f) = [qp,(f), .... <p„(f)]eG, qpz(f) зависит лишь от ft}. (5.7) Прямой алгоритм <р последовательно обрабатывает числа fh fn и помещает fi в некоторый контейнер до того, как станут известны значения fl+i, ..., fn. В работе Yao [80] по¬ казано, что r(Rt, А^)>у[1 + °(1)] ПРИ (5-8) Следовательно, прямые алгоритмы не позволяют найти е-при- ближение при » < 1/2 и достаточно больших п.
92 Гл. 6. Приложения В то же время существуют алгоритмы невысокой слож¬ ности, позволяющие найти е-приближение при больших е. Например, прямой алгоритм FF (Fist Fit — первый подходя¬ щий) последовательно помещает каждое из чисел f, в контей¬ нер с минимальным номером, содержимое которого не пре¬ вышает 1 — fj. Известно, что e(FF, jV) = -L[i+o(i)] при га->оо, (5.9) comp (FF) = 0 (n log п). В работе Yao [80] предложен прямой алгоритм RFF, улучшающий оценку (5.9): e(RFF, А0 = ^-[1 + о(1)] при п->оо, 3 (5.10) comp (RFF) = 0 (n log n). Из (5.10) можно получить верхнюю оценку е-сложности за¬ дачи упаковки в контейнеры при е > 2/3 и больших п: сотр(/?ь У, е) = О (n log п). (5.11) Точное значение comp(Ri,W, е) неизвестно ни при е > 2/3, ни при е е [1/2, 2/3]. Теперь рассмотрим непрямой алгоритм FFD (First Fit Decreasing — первый подходящий по убыванию) из класса Ф(М), который сначала упорядочивает числа fa, ..., fn по убыванию, а затем работает как FF. Известно, что e(FFD, У) = |[1 + о(1)] при п->оо, (5.12) comp (FFD) = 0 (п log п). (5.13) Из (5.12) и (5.13) следует, что если е > 2/9 и п достаточно велико, то comp (А/, е) = О (п log п). Точное значение comp(W, е) неизвестно ни при е > 2/9, ни при е 2/9. В работе Уао [80] предложен алгоритм RFFD, погрешность которого не превышает 2/9 — 6 для некоторого положительного б. Ещё раз подчеркнём, что при е = 0 задача упаковки в кон¬ тейнеры NP-полна и её сложность зависит от п, скорее всего, экспоненциально. Функция е-сложности ведет себя крайне не¬ регулярно: при средних значениях е она представляет собой полином низкой степени, а при е = 0, по всей видимости, пре¬ вращается в экспоненту. Существуют и другие задачи такого типа, например задача коммивояжера. Читатель может найти материал на эту тему в книге Garey, Johnson [79].
6.6. Нелинейные уравнения 93 6.6. Нелинейные уравнения В данном параграфе мы поговорим о приближённом решении скалярного или векторного нелинейного уравнения f(x) = O, рассмотрим несколько классов функций f и два различных критерия оценки погрешности. Первый критерий позволяет найти элемент х, близкий к точному решению а, /(а) = 0, а второй — элемент х с малым значением ||f(x)||. Мы сравним эффективность адаптивной и неадаптивной информаций и по¬ кажем, что ответ на вопрос о том, будет ли адаптивная ин¬ формация сильнее неадаптивной, существенно зависит от выбора класса функций f. 1. Бисекция В этом пункте мы докажем оптимальность бисекционного алгоритма для приближённого решения нелинейного скаляр¬ ного уравнения. Пусть F = {f: [a, 6]->R, функция f непрерывна, f(a)^O, f(x) = O ровно в одной точке х). (6.1) Возьмём G=[a, Ь] и [xsG: |х-Г’(0)| <е} (Г1 (0)} при е > 0, при е = 0. (6.2) Положим Н\ = R и включим в класс простейших информа¬ ционных операторов ЧГ(Я1) все линейные вещественные функ¬ ционалы U. Сначала рассмотрим класс 4fnon(n) неадаптивных инфор¬ мационных операторов кардинальности не выше п. Положим мП0ПШ = [/(х1),..., f(x„)j, (6.3) где Xt = a-\-i{b — a)/(n + l), i = l n. В ОТО А дока¬ зано, что в предположении /? = Ф (А/), р = 0 информацион¬ ный оператор Апоп оптимален по точности в классе ЧГпоп(м) и (6.4) Из (6.4) сразу получается значение е-кардинальности: тП0П(е) = Ь-Ц^ J- (6.5) Найдем е-сложность, считая, что множество простейших операций Р включает в себя вычисление значений функции f (сложность вычисления каждого значения равна с), опера¬
94 Гл. 6. Приложения Ф(ЛГП (/)) = { цию сравнения и четыре арифметические операции (все—• единичной сложности). Положим 4rnon= jj ТП0П(п). П = 1 Построим оптимальный по сложности алгоритм вида (6.3). Определим индекс / = j(Nnoa) условием Ж/)<0 и f(x/+i)>0 (хо = a, xn+i = Ь) и рассмотрим алгоритм (х; + х/+1)/2, если f (Xj) f (x/+i) =/= О, xh если f (xt) — 0 (i = j или i = j + 1). Алгоритм ф сильно оптимален по точности и имеет комбина¬ торную сложность порядка log п. Далее, <р почти оптимален по сложности в классе Д’"011, и comp (ЧгП0П, в) = comp (<р) [1 + о (1)] = [с + о (1)] |_ J, “(6.6) т. е. е-сложность в классе неадаптивной информации ведет себя при е 0 как 1/е. Теперь рассмотрим класс W’ = J (д) адаптивных информационных операторов конечной карди¬ нальности. Положим N* (Г) = 1Ж), .... Ж)1. (6.7) где у, определяются рекурсивно следующим образом. Пусть а0 = а и Ьо = Ь. Обозначим через [а/, Ь/] интервал, в кото¬ ром содержатся нули функций из F, совпадающих с / в точ¬ ках Z/1 У1, j = 1, .... i— 1. Тогда t/i = (flf-i + 6;-i)/2, где at если f (yt) > 0, если ЖХ 0, ( bt-i, если f (у{) < 0, I yt, если Ж)>0. Алгоритм бисекции фь использует адаптивную информа¬ цию № и задаётся формулой (D) 2 (6.8)
6.6. Нелинейные уравнения 95 Известно, что алгоритм (6.8) сильно оптимален по точности и е (<рь) = г (№) = (6 - а) 2~(п+1). Заметим, что радиус г(№) существенно меньше n-го мини¬ мального радиуса неадаптивной информации (6.4), т. е. адап¬ тивная информация в данном случае намного сильнее неа¬ даптивной. В ОТОА мы высказали гипотезу, что информационный опе¬ ратор (6.7) оптимален по точности в классе ЧГа(п): ra(n)= inf г (А) = г (№) = (& — а) 2_<га+1)- N <= Ф'а (л) Правильность этой догадки была доказана Сикорским (Si¬ korski [82]). (Информация (6.7) оптимальна в *Fa(n) и в том случае, если f— бесконечно дифференцируемая функция с простым нулём.) Теперь легко убедиться, что ma (e)==|_log-^^ J (ср. с формулой (6.5) для неадаптивной информации). Найдём е-сложность задачи для того же множества Р про¬ стейших операций, что и в неадаптивном случае. Комбина¬ торная сложность алгоритма <рь (в случае когда ап и Ьп уже известны) равна 2. Поскольку информационная сложность № при n = ma(e) составляет (щ + 3)/иа(е)—1, то comp (фь) = (с, + 3) |_ logj + 1. Так как № представляет собой п-к> оптимальную информа¬ цию, то comp (Ч^, в) = (q + а{) |_ log J + а2, (6.9) где 01 е [0,3] иа2е [О, 1]. Число Ci обычно достаточно ве¬ лико, поэтому алгоритм бисекции почти оптимален по слож¬ ности в классе Т3. Из (6.6) и (6.9) вытекает, что comp (Ч'поп, в) = 0 0-), comp (Та, в) = 0 (log у). Отсюда видны преимущества использования адаптивной ин¬ формации при решении нелинейных уравнений. 2. Уравнения с липшицевыми функциями В этом пункте мы приводим недавние результаты Сикорского (Sikorski [84]), который рассматривал такую задачу. Пусть
96 Гл. 6. Приложения G=[0,l]d и f: G->R*. Предположим, что уравнение f(x) = O (6.10) имеет решение и что функция f удовлетворяет условию Лип¬ шица с некоторой заданной константой К, т. е. И/М-ШИСКИх-п (6.11) где ||х|| = max | xt |. I < i < d Будем искать вектор х с малой невязкой ||/(х)||. Точнее, на¬ зовём е-приближением (к нулю функции f) любой вектор х, для которого II f (X) II < е. (6.12) Без ограничения общности можно считать, что k = 1. В са¬ мом деле, функция g(x)= max |f/(x)| 1 < i < к удовлетворяет условию (6.11) с той же константой К, что и f, равна нулю в тех же точках, и множества е-приближений для g и f совпадают. Итак, положим k = 1 и рассмотрим класс F = {f: G->R, f удовлетворяет условию (6.11), уравнение f(x) = 0 имеет решение). (6.13) Оператор решения задаётся формулой S(f,e) = {xeG: |f(x)|<e). (6.14) Заметим, что при е = 0 множество S (/, 0) совпадает с мно¬ жеством решений уравнения /(х) = 0 и не обязательно одно¬ точечно. Пусть Hi — R и ¥(//1)—класс простейших информацион¬ ных операторов вида G(/) = f(x), (6.15) где x = x(1/)eG (т. е. одно вычисление значения функции считается простейшей операцией). Построим n-й оптималь¬ ный информационный оператор (для /? = Ф(7У) и р = 0). Сначала предположим, что п можно представить в виде n = A4d—1 (6.16) при некотором целом М > 1. Рассмотрим множество I = {xsG: х = [^Д .... (6.17)
6.6. Нелинейные уравнения 97 где /1 = 1, 2, М, i = l, 2, ..., d. Множество X состоит из Md = п + 1 элементов. Обозначим эти элементы через х\, ..., хп+'. Для фиксированного ie[l,n+l] введём ин¬ формационный оператор w-»(fi=p(x;) f«+1) /«„)]. (6.18) Ясно, что .Vnone'lfnon(n). Сикорский доказал, что для каж¬ дого i оператор Nn0Ti оптимален в классе ЧГа(«) всех адаптив¬ ных информационных операторов кардинальности не выше пи г(Гоп) = гпоп(«) = га(«) = ^-. (6.19) (Больше того, он доказал, что оператор (6.18) почти оптима¬ лен, если множество простейших информационных операторов составляют произвольные линейные функционалы.) Следова¬ тельно, в данном случае (в отличие от задачи из предыду¬ щего пункта) использование адаптивных алгоритмов выиг¬ рыша не приносит. Выберем номер k, для которого | f «) | = min {| f (xj): /e[l,n+l], / i}. Построим алгоритм если |/(x*)| > K/(2M), в противном случае. (6.20) Алгоритм <р оптимален по точности, но не сильно оптимален. Пусть множество простейших операций включает в себя вычисление значений функции f (сложность вычисления каж¬ дого значения равна с), операцию сравнения двух чисел и четыре арифметические операции (все — единичной слож¬ ности). Поскольку для вычисления ср требуется только п опе¬ раций сравнения, комбинаторная сложность алгоритма <р равна п. Сикорский построил и сильно оптимальный по точ¬ ности алгоритм, но комбинаторная сложность этого послед¬ него по всей вероятности экспоненциальна. В общем случае (когда п не представимо в виде (6.16)) Сикорский доказал, что та (8) = Шпоп (е) [J + 0 (1)] = Ц + 0 (1)Ь (6.21) comp (Т3, е) = comp (чгП0П, е) [1 + о (1)] =(с+1)(4)"[1+°(1)ь где Фа = U (п), Ч'поп = U ^П0П («). п=1 л—I 4 Зак, 645
98 Гл. 6. Приложения Так как comp (ф) = comp (Ч'поп, е) [1 + о (1)], алгоритм q> почти оптимален по сложности и в классе ЧГпоп, и в классе Т3. Из (6.21) видно, что е-сложность в классах Т3 и T"0" практически одинакова и пропорциональна e_d. Этот пример демонстрирует зависимость е-сложности от размерности. Сравним для d = 1 результаты пунктов 1 и 2. Если ис¬ пользовать неадаптивные информационные операторы, то е-сложность для классов (6.1) и (6.13) оказывается примерно одинаковой, т. е. факт перемены знака, имеющий место для функции из класса (6.1), — такая же «сильная» априорная информация, как липшицевость функций из класса (6.13). Если же использовать адаптивную информацию, то е-слож¬ ность для класса (6.1) существенно меньше, чем для класса (6.13). В этом случае смена знака — гораздо более сильная априорная информация, чем липшицевость. Более детальное исследование вопроса можно найти в указанной работе Сикорского. При d = 1 эта задача рассмат¬ ривалась Сухаревым [76]. 3. Полиномиальные уравнения В этом пункте мы приводим недавние результаты Васильков¬ ского (Wasilkowski [83]), который рассмотрел следующую задачу. Пусть G = С и задано некоторое комплексное число хо^ G, а класс F\ состоит из всех многочленов с комплекс¬ ными коэффициентами, не имеющих кратных корней. Обозна¬ чим через S(f) множество всех корней многочлена f и опре¬ делим расстояние от х0 до S(f) формулой dist (х0, S (f)) = min (I х0 — а |: а <= S (f)}. Рассмотрим для заданного положительного вещественного числа L класс F = F (х0, L)={f<= F,-. dist (х0, S (/)) < L}. (6.22) Будем считать е-приближением любой элемент множества S(f, е) = {х <= G: dist(х, S(f))<edist(х0, S(/))}. (6.23) Предположим, что 0 в < 1 (иначе x06=S(f, е)). Возьмём адаптивный информационный оператор N* вида Nn (f) = [L, (f), L2 (f-, у,) Ln (f- уь..., yn_J\, (6.24) где yi = Li(f', yi, yi_\) и Li линейно зависит от своего первого аргумента, Васильковский доказал, что для R —
6.7. Линейные уравнения 99 Ф(М) и р = О г (Л^п) = 4-оо уп. (6.25) Значит, сколько бы линейных функционалов мы ни вычис¬ ляли, найти е-приближение не удастся. Подчеркнём, что (6.25) выполняется для сколь угодно малых L и сколь угодно близких к единице е. Это весьма неожиданный результат, ведь почти все алгоритмы, которые применяются на прак¬ тике, используют именно информацию вида (6.24). Из (6.25) следует, что при любой разумной модели вычислений е-слож¬ ность рассматриваемой задачи бесконечна. На основании (6.25) можно сделать вывод, что класс многочленов без кратных корней с комплексными коэффи¬ циентами чересчур широк и его нужно сузить, чтобы радиус информации оказался конечным. Троян (Trojan [80]) дока¬ зал, что если вместо комплексных коэффициентов разрешить только рациональные, то ситуация меняется. А именно, пусть Fo — подмножество многочленов из F с рациональными коэф¬ фициентами, и пусть = (6.26) т. е. вся информация состоит лишь из одного значения функ¬ ции. Тогда V (N, f) = {f е Fo: f (л) = f (л)} = {/}, т. е. множество V(N,f) одноточечно и г(М)=О. В самом деле, если f(n) = f(n), то (f — f)(n) = O и, значит, f — f = О, так как число л трансцендентно. Правда, при этом класс идеальных алгоритмов оказывается слишком широким, и, для того чтобы можно было практически найти е-приближение, нужно ещё определить подклассы реализуемых и допустимых алгоритмов. Разумеется, если в (6.26) заменить л любым другим транс¬ цендентным числом, радиус информации останется нулевым. 6.7. Линейные уравнения В этом параграфе обсуждается задача приближённого реше¬ ния линейных уравнений Ах = Ь. В п. 1 мы рассмотрим не¬ полную информацию, которая часто используется для реше¬ ния больших линейных систем; при этом будем считать, что вычисления проводятся с бесконечной точностью. Мы увидим, какой большой силой обладает алгоритм минимальной не¬ вязки (вариант метода сопряжённых градиентов). Оказы¬ вается, алгоритм минимальной невязки завершает работу максимум на один шаг позже оптимального алгоритма, даже 4*
100 Гл. 6. Приложения если этот последний заранее знает все собственные значения матрицы А (см. замечание 7.1). В п. 2 мы рассмотрим пол¬ ную приближённую информацию в предположении, что вы¬ числения проводятся с фиксированной точностью, и выясним, как некоторые важные понятия, касающиеся округления, свя¬ заны с радиусом приближённой информации. В последнем пункте мы рассмотрим полную информацию в рамках модели вычислений с переменной точностью. Для всех моделей вы¬ числений будем обращать внимание на зависимость е-слож- ности от размерности линейной системы. 1. Большие линейные системы В этом пункте мы рассмотрим задачу приближённого реше¬ ния больших линейных систем с помощью информации, кото¬ рая обычно используется в итерационных алгоритмах. Изло¬ жение основано на работе Traub, Wozniakowski [80b]. Пусть F — некоторое подмножество класса невырожден¬ ных вещественных п X n-матриц, G = Rn с нормой |]х|| = V(х, х) и задан вектор b е R" с ||6|| = 1. Назовём е-приближением любой элемент множества SG4,b) = UsG: A<=F, (7.1) т. е. любой вектор g, для которого значение невязки ||Xg— 6|[ не превосходит е. Рассмотрим информационный оператор Nк(А) = [b, АЬ, ..., АкЬ]. (7.2) Нас интересуют: радиус информации Nk; использующие эту информацию аргоритмы, имеющие погрешность, сравнимую с г (Nit)', и минимальное значение k, при котором r(Nk)^z. Будем считать, что R = Ф (Nk) и р = 0. Напомним определение алгоритма минимальной невязки ф£г. Выберем коэффициенты с*, ... , c*k, для которых р-с]Х5- ... = ... — сАХ*6||, ci (7.3) и построим алгоритм ФГ {Nk И)) = <&+...+ с*кАк~Ч>. (7.4) Если X е У (Nk, X), то Х'£> = АЧ> при i = 1, ..., k и, значит. ХфГ(^(Х)) = ХфГ(^(Х))« Следовательно, локальная погрешность алгоритма ф^г равна е(ф- Х) = |Хф-(А^(Х))-4 (7.5)
6.7. Линейные уравнения 101 Зная Nk(A), можно вычислить е(у™г, Л). Если k — n, то е (у™, А) = 0. Назовём класс F ортогонально-инвариантным, если Ae=F=>QAQTeF (7.6) для произвольной ортогональной матрицы Q. Для ортого¬ нально-инвариантного класса F, согласно теореме 4.1 из ра¬ боты Traub, Wozniakowski [80b], е(ф^р Л)<е(Ф^, Л) \fAsF, (7.7) т. е. локальный радиус r(Nk,A) ограничен снизу локальной погрешностью алгоритма минимальной невязки Ф^[р исполь¬ зующего информацию Nk+l. Оценки (7.7) точны: соответ¬ ствующим выбором матрицы А и ортогонально-инвариантного класса F можно добиться как того, чтобы r(Nk, Д) = е(ф££ь Д), так и того, чтобы r(Nk, Д) = е(ф£1Г, Д). Пусть k(A)—наименьшее целое число, для которого r(Nk,A)^s, и k(F) = шах{&(Д): Де^}. Назовём k(A) оптимальным индексом матрицы A, a k(F) — оптимальным индексом класса F. Аналогично пусть k($mr, Д)—минималь¬ ное целое число, для которого е(ф^г, Д)^е, и А(фтг) = тах{£ (ф'”г, Д): Де/7]. Из (7.7) следует, что k (Д) = k {$mr, Д) + ah k(F) = k (<pmr) + a2, (7.8) где a/ = 0 или —1 (i = l,2). Таким образом, число шагов алгоритма минимальной невязки превосходит число шагов сильно оптимального по точности алгоритма не более чем на единицу. Алгоритм минимальной невязки весьма эффекти¬ вен, хотя и не является сильно оптимальным. Замечание 7.1. Подчеркнём, что алгоритм минимальной не¬ вязки обладает свойством (7.8) для произвольного ортого¬ нально-инвариантного класса матриц. Проиллюстрируем этот момент следующим примером. Предположим, мы знаем все собственные значения матрицы А и хотим выяснить, какой из алгоритмов приближённого решения системы Ах = b стоит выбрать. Самое удивительное, что по-прежнему надо приме¬ нять алгоритм минимальной невязки (хотя он вовсе не ис¬ пользует собственных значений А). В самом деле, собствен¬ ные значения всех матриц из класса F = {Д: A — QAQ\ матрица Q ортогональна) совпадают с собственными значениями матрицы А. Поскольку класс F ортогонально-инвариантен, (7.8) гарантирует, что число шагов, требующееся для выполнения алгоритма мини¬
102 Гл. 6. Приложения мальной невязки, превысит необходимое не более чем на еди¬ ницу. Этот пример показывает, что знание собственных значе¬ ний матрицы не помогает найти приближённое решение ли¬ нейной системы. □ Для некоторых конкретных ортогонально-инвариантных классов известны точные значения r(^k) и e(qp^r). Возьмём, например, класс F\ симметричных положительно-определён¬ ных матриц с числом обусловленности cond(A) = ||A||||A-4|, не превосходящим заданной константы М 1: F = Fi = {A: А = Ат > 0, cond (Л) < М}- (7.9) При k < п _ е(ф£г) = 2<7*(1+<72ft), где ?= р (7.Ю) и * (Л) = 01 +min (n, | 1п 1 + - 62 /1П 1+1), (7.11) где 01 = 0 или —1. Для больших М и малых е k (Л) = 01 + min (n, In4 [1 + о (1)]) • (7.12) Для класса F2 = {A: А = Ат, cond(А)<М} (7.13) симметричных (не обязательно положительно-определенных) матриц с числом обусловленности, не превосходящим М, вы¬ полняются равенства 2o'-^2J М 1 е(фГ) = 1 + g2u/2J. где <7 = — , (7.14) и k (F2) = о2 + min (n, 21_ In -+ ~ е2 /1п 4=1* _| + з) • (7.15) где о2 — 0 или —1. При больших М и малых е fe(F2) = fl2 + min(n, М1п|[1 +о(1)]). (7.16) Из сравнения (7.16) и (7.12) видно, как положительная опре¬ деленность матриц уменьшает оптимальный индекс класса. Если п настолько велико, что минимум в (7.15) реализуется вторым аргументом, то k (Г2) 2VM[l + o(l)]. (7.17)
6.7. Линейные уравнения 103 Какова же сложность этой задачи? Пусть множество про¬ стейших операций включает в себя операцию умножения мат¬ рицы на вектор (сложности сп), операцию сравнения двух чисел и арифметические операции (все — сложности 1). (За¬ метим, что для разреженных матриц А сложность операции умножения матрицы на вектор правильнее будет считать не пропорциональной п, а постоянной.) Комбинаторная слож¬ ность алгоритма минимальной невязки для классов Fi и Кг пропорциональна nk. Учитывая (7.7) и (7.8), можно сделать вывод, что алгоритм минимальной невязки почти оптимален по сложности в классе Т ={М, .... Nk}: comp (Т, е) « comp « cnk (F^, (7.18) i= 1, 2, где k(Fi) определяется равенствами (7.11) и (7.15). Более детальный анализ задачи, а также конкретные ре¬ зультаты для различных ортогонально-инвариантных классов и различных определений е-приближения можно найти в ука¬ занной выше работе Трауба и Вожьняковского. 2. Фиксированная точность В этом пункте мы изучим задачу решения линейных систем с использованием приближенной информации и покажем, что основные понятия анализа погрешностей (такие как число обусловленности и устойчивость алгоритма) тесно связаны с радиусом приближённой информации. Выберем модель пред¬ ставления чисел с плавающей точкой с фиксированной точ¬ ностью. В следующем пункте мы рассмотрим представление чисел с переменной точностью. Пусть G = R" с нормой ||х|| = ^(х, х), и пусть заданы вектор b е R" с ||b||= 1 и класс F — {A: Л — вещественная «X «-матрица, соп<1(Д)^Л1}. (7.19) Назовём е-приближением любой вектор, аппроксимирующий точное решение системы Ах = b с относительной погреш¬ ностью, не превосходящей е: S (Л, 6) = {ge G: - A~'b | < е || g ||}- (7.20) Это уже не тот критерий точности аппроксимации, которым мы пользовались в п. 1. Пусть N(A) = A — полная информа¬ ция. Введём оператор информационной ошибки £(Л,р) = {В: ||В —Л||Ср||В||}. (7.21) Найдём радиус г(Урж.) при малых р. Возьмём приближен¬ ный информационный оператор Np и положим С = МР(Л),
104 Гл. 6. Приложения Чтобы гарантировать невырожденность С, примем предполо жение 1 -Р (7.22) При этом 1/(АГр, Д) = {ДеГ; ||С - А ||<р||С||). Нетрудно убедиться, что если Cxi = b и Ах2 = Ь, то II *1 — *2 IK Р cond (С) (1 + О (р)) || Xi ||. Поскольку оценка (7.23) точна, то r(Np, X) = pcond(7VpG4))(l + O(p)) = pcond (Д) (1 + О (р)). Из (7.24) и (7.19) следует, что г(Мр,в) = рМ(Ц-О(р)), (7.23) (7.24) (7.25) т. е. найти е-приближение можно в том и только том случае, если рЛГ(1 4- О(р))^ е. Радиус наихудшей приближённой информации линейно зависит от константы, ограничивающей число обусловленности. Построим алгоритм Ф(М₽(Д)) = Мр(Д)-,6. (7.26) Можно показать, что ср почти сильно оптимален по точности для Мр, почти сильно оптимален в наихудшем случае и е(<р) = г(Мр, в)(1 + О(Р)). (7.27) Теперь найдём е-сложность рассматриваемой задачи. Бу¬ дем считать, что множество простейших операций Р совпа¬ дает с множеством flp арифметических операций над числами с плавающей точкой1, выполняемых с относительной точ¬ ностью р. Тогда для произвольных вещественных чисел а и b с плавающей точкой (7.28) где т] = г)(а, Ь, □), |т]|^Р> а символ □ обозначает какую- либо из четырёх арифметических операций (мы отвлекаемся здесь от возможности переполнения). Припишем всем про¬ стейшим операциям единичную сложность. При этих предпо¬ ложениях алгоритм (7.26) становится недопустимым, так как он требует точного решения линейных уравнений. Но если решать систему Np(A)x = b с помощью какого-нибудь устой¬ 1 В оригинале floating point arithmetic, отсюда fl. — Прим, перев.
6.7. Линейные уравнения 105 чивого алгоритма <р, то в результате получится вектор у с плавающей точкой, для которого ||у - ^ (Я)-1 &|К ср cond (tfp (Я)) (1 + О (р)) || у |Ь причем с = с(<р, п) зависит лишь от самого алгоритма ср и размерности системы. Для большинства устойчивых алгорит¬ мов, особенно для тех, которые итеративно уточняют реше¬ ние, с(ф, п) зависит от п как полином низкой степени. Сле¬ довательно, каждый устойчивый алгоритм почти сильно опти¬ мален по точности. Какова сложность задачи решения линейных уравнений? (Напомним, что под сложностью мы договорились понимать 0-сложность.) При р = 0, т. е. в случае точных вычислений, сложность пропорциональна наилучшее известное значе¬ ние р приблизительно равно 2.49. Точное значение сложности пока неизвестно. Теперь предположим, что р >0 и применяется арифме¬ тика с плавающей точкой. Какова минимальная сложность устойчивого алгоритма, дающего результат с относительной погрешностью порядка рУИ? Сложность известных алгоритмов пропорциональна п3. Вопрос о том, может ли быть устойчи¬ вым алгоритм сложности р < 3, пока остаётся открытым. Миллер (Miller [75]) ввёл для задачи перемножения мат¬ риц понятие сильно устойчивого алгоритма и доказал, что сложность любого такого алгоритма пропорциональна п3. Пе¬ ремножение матриц и решение линейных систем — родствен¬ ные задачи, поэтому естественно предположить, что слож¬ ность устойчивых алгоритмов, использующих арифметику с плавающей точкой для решения линейных систем, тоже про¬ порциональна п3. 3. Переменная точность Пусть обозначения F, G, А, N имеют тот же смысл, что и в п. 2. Рассмотрим вычисления с плавающей точкой перемен¬ ной точности, при которых сложность простейших операций зависит от длины мантиссы. Другими словами, включим в множество простейших операций Р все арифметические опе¬ рации над занимающими t битов мантиссами, причём будем считать, что t может принимать любые конечные значения. Пусть стоимость перемножения и сложения двух мантисс длины t составляют m(t) и a(t) соответственно (алгоритмы умножения и сложения мантисс не обязательно должны быть оптимальными). При условии что стоимость операций умно-
106 Гл. 6. Приложения жения и сложения мантисс слагается из затрат на операции над отдельными битами, lim tn (t) = lim а (/) = + 00• t-^oo i-»0O Функцию a(t) можно считать линейной по t. Минимальное значение m(t) пока неизвестно. Лучший из известных алго¬ ритмов перемножения двух /-значных чисел принадлежит Шёнхаге и Штрассену (Schonhage, Strassen [71]). Для этого алгоритма т (/) — 0 (/ log t log log t). Напомним, что через R(N,e) мы обозначаем класс допу¬ стимых алгоритмов с погрешностью, не превосходящей е. Все известные устойчивые алгоритмы допустимы. Поскольку число обусловленности любой матрицы А из F ограничено константой М, выбор достаточно большого t позволит вся¬ кому устойчивому алгоритму ср найти е-приближение. Значит, множество R(N, в) непусто и е-сложность сотр(М, е) ко¬ нечна. Чему же равна е-сложность и пропорциональна ли она п3? Келбасиньский (Kietbasinski [81]) построил итерацион¬ ный алгоритм ф поиска е-приближения, использующий вы¬ числения с переменной точностью и имеющий сложность comp (ф) = 0 [п2т (с + т) + (7.29) где c = logAJ, т = log (1/е), v = min (п, 2т/с), m(/) = 0(/a). Из (7.29) вытекает, что если о > 1, т. е. алгоритм умно¬ жения не оптимален, то при малых е comp (ф) = 0 (п2т [log (1/е)]). (7.30) Сложность алгоритма Келбасиньского линейно зависит от п2 и линейно же — от стоимости умножения чисел, представлен¬ ных с той точностью, которую диктует величина е. Очень вероятно, что е-сложность задачи тоже имеет вид (7.30), т. е. алгоритм Келбасиньского почти оптимален по сложности. Далее, из (7.29) следует, что если о = 1, т. е. алгоритм умножения оптимален, то для малых е comp (ф) = 0(п2/п [log (1/е)] logn). (7.31) Мы видим, что сложность алгоритма в данном случае про¬ порциональна не п3, а п2 log п. И здесь тоже выглядит прав¬ доподобным предположение, что алгоритм ф близок к опти¬ мальному по сложности, 1 -.съ 1—
6.8. Некоторые другие приложения 107 Ту же самую задачу рассмотрел Бояньчик (Bojanczyk [84]) в рамках модели параллельных вычислений с перемен¬ ной точностью. На основе итерационного метода Ньютона Бояньчик построил алгоритм <р, использующий 0(п3) процес¬ соров. Сложность этого алгоритма <р составляет comp (ф) = 0 (т (с + т) 4- а (с + т) log п), (7.32) где x = log(l/e), c = logAL Из (7.32) вытекает, что если a(t) = o(m(t)) при больших t, то для малых в comp (ф) = 0(т [log (1/е)]), (7.33) Сложность алгоритма Бояньчика не зависит от размерности задачи и, грубо говоря, равна стоимости одного умножения, выполненного с той точностью, которую диктует величина е. Можно предположить, что е-сложность тоже имеет вид (7.32) или (7.33). Сравнение алгоритмов Келбасиньского и Бояньчика пока¬ зывает, как е-сложность системы линейных уравнений зави¬ сит от выбора модели вычислений (см. также работу Traub, Wozniakowski [82], в которой обсуждается зависимость слож¬ ности задач линейного программирования от выбора модели вычислений). 6.8. Некоторые другие приложения Можно привести ещё много примеров практического примене¬ ния общей теории оптимальных алгоритмов. В этом параг¬ рафе мы опишем три примера построения информационных операторов нулевого радиуса. 1. Защита баз данных Рассмотрим последовательность f = [fi, .... fm] положитель¬ ных целых чисел Д. Следуя Добкину, Джоунзу и Липтону (Dobkin, Jones, Lipton [79]), назовём f базой данных. Таким образом, т обозначает количество величин, хранящихся в базе данных. Предположим, что пользователю открыт до¬ ступ к некоторым статистическим характеристикам этих дан¬ ных, но не к самим значениям ft. Допустим, разрешается де¬ лать запросы о средних значениях любых k величин из Д при¬ чём два разных запроса могут «перекрываться» лишь на одну позицию. Если существует последовательность допустимых запросов, которая позволяет найти какое-то из значений Д, то мы называем базу данных f частично доступной. Можно ли, посылая запросы указанного вида, определить какое-то из значений Д? Этот и более общие вопросы защиты
108 Гл. 6. Приложения баз данных исследовали Добкин, Джоунз и Липтон в своей работе. Кроме того, материал на эту тему можно найти в ра¬ ботах De Millo, Dobkin, Lipton [78] и Denning, Denning, Schwartz [79]. Сформулируем задачу в нашей терминологии. Пусть N — множество положительных целых чисел. Возьмем F = Nm = {/: /=[/, fm], fzeN}, G = N. Для произвольного f из F положим S(M) = {A fm} Ve>0. Таким образом, если xeS(‘, е), то х = ft для некоторого i е [1, т], и знание такого х означает частичную доступность базы данных. Определим класс допустимых информационных операто¬ ров. Пусть А — подмножество множества {1, ..., т}, содер¬ жащее k элементов, k т, и Is А ■—среднее арифметическое соответствующих k величин из базы данных. Информационный оператор АГп(/) = [С/л,(Л С/л„(Л] (8.2) будем называть допустимым, если Ai Ап — состоящие из k элементов подмножества множества {1, ..., т}, для кото¬ рых пересечения А/ |"|Л/ при i =/= / содержат не более чем по одному элементу. База данных частично доступна, если r(Nn) = 0. Встаёт вопрос: как задать множества At Ап, чтобы радиус ин¬ формации (8.2) был равен нулю? Ответ на этот вопрос дан в указанной выше работе Доб¬ кина, Джоунза и Липтона. Пусть n=2k — 1 и k? — А4-1 т. Положим At = {^(/-1)4-1, k(i- 1)4-2 k(i-l) + k}, i=l, .... k — 1, (8.3) Ak-i+i = {I, i 4- k, i’4- 2&, .... i 4~ (k — 2) k, k2 — k 4- 1}, i— 1, .... k. Все множества Ai состоят из k элементов, и пересечения Л( П^4/ при i j либо пусты, либо состоят из одного эле¬
6.8. Некоторые другие приложения 109 мента, поэтому отвечающий им информационный оператор (8.2) допустим. Построим алгоритм k fe-i ф (Afn (f)) = Е uAk_x+l (f) - E uAi (f). Из (8.1) и (8.3) следует, что fe-i k Значит, <р(Л'’„(Ше5(/, 0) и е(<р)= r(Nn) = 0, т. е. база дан¬ ных f частично доступна, если организовать запросы в соот¬ ветствии с (8.3), — зная средние арифметические наборов из k элементов, можно найти значение отдельного элемента f,. Подчеркнём, что это верно при любых k, для которых k?— k + 1 т. Поскольку n = 2k — 1, база данных оказывается частично доступной уже при достаточно низкой кардиналь¬ ности информации. Аналогичный результат получится, если разрешить за¬ просы вида Ua (f) = fp, где fp — медиана множества {f,:ieA}, или UA(f) = fi для некоторого (даже случайно выбранного!) номера i из А. Возможны и другие подходы к вопросу о защите баз дан¬ ных при сборе статистической информации; один из них пред¬ лагается в работе Traub, Wozniakowski, Yemini [81]. 2. Булевы функции Как мы отмечали в примере 3.1 гл. 1, часто возникает вопрос, какое минимальное количество информации позволит найти точное решение. Ответ на этот вопрос даёт кардинальное число, т. е. наименьшая кардинальность информации нуле¬ вого радиуса. Вслед за Ривестом и Вюйемэном (Rivest, Vuillemin [76]) возьмём булеву функцию Р: {0, l}d->{0, 1}. Будем вычислять Р(f), f = [fb ..., fd], перемещаясь по «дереву решений», т. е. последовательно рассматривая различные компоненты f. Ри- вест и Вюйемэн исследовали вопрос, каким минимальным числом компонент f можно обойтись при вычислении P(f). Сформулируем эту задачу в нашей терминологии. Пусть F = {0, l)d, G = {0, 1} и 5 (f.e) = {?(/)} Ve>0.
по Гл. 6. Приложения Возьмем Н\ ={0,1}, и рассмотрим класс простей ших информационных операторов Т (//,) = {£/„ ..., Ud}. Информационный оператор Nn, состоящий из п простейших операторов, имеет вид Nn (f) = [fa(l)> •••> fa(n)], где о —некоторая перестановка чисел 1, d. Заметим, что в случае, когда выбор a(i) зависит от fa(2), fa(i-t), информация Nn адаптивна. Если считать все идеальные алгоритмы реализуемыми (R = Ф(Л0), то кардинальное число /па(0) равно минималь¬ ному значению п, при котором можно построить информа¬ ционный оператор Nn радиуса г (Nn) = 0. Очевидно, ma(0)^d. Ривест и Вюйемэн показывают, что для большинства бу¬ левых функций ma(0) = d. В частности, если функция Р тран- зитивна и Р(0)=/=Р(1), a d есть степень простого числа, то zna(0)= d. Значит, для того чтобы гарантировать вычисление P(f) при произвольном f из F, необходимо найти все ком¬ поненты f. 3 Линейные уравнения Приведем ещё один пример определения кардинального чис¬ ла. Рассмотрим систему линейных уравнений Ах = Ь, где А — невырожденная вещественная т X m-матрица, b — веществен¬ ный m-мерный вектор (т. е. т X 1 -матрица). Следуя Рабину (Rabin [72]), предположим, что для любого /n-мерного век¬ тора v мы умеем вычислять величины aTv — bit где at — это i-я строка матрицы A, aTv— скалярное произведение векто¬ ров а, и b, a bt — это i-я компонента вектора Ь. Рабин выяс¬ няет, какое минимальное количество таких вычислений («те¬ стов») позволяет точно решить систему Ах — Ь. Сформулируем эту задачу в нашей терминологии. Пусть F = {f — (Д, Ь): А — вещественная tn X т-матрица, b — вещественный /n-мерный вектор}, G = Rm, S(f,e) = {X-1/)} уе>0. Возьмём = R, U (f) = U (f-, i, v) = aTv — bt и рассмотрим класс простейших информационных операторов W(/71) = {G(.;i, V): is[l, m]}.
6.9. Модель среднего случая 111 Информационный оператор Nn, состоящий из п простейших операторов, имеет вид ЛМП = [£ЛМь V.) £/(/;/„, v„)J. Для получения адаптивной информации Nn можно выбирать t'/, V/ в зависимости от .... U(f; i/-i, v/_i). Каково минимальное значение п, для которого существует оператор 7V„ радиуса г(ЛЦ = 0? Очевидно, что если п = т(т + 1), то с помощью наших тестов можно найти все компоненты А и b и точно решить систему Ах = Ь. Значит, для класса идеальных алгоритмов та (0) m(m + 1). Точна ли эта оценка? Оказывается, нет. Рабин приводит при¬ мер алгоритма (аналогичного гауссову алгоритму исключе¬ ния), использующего n = m(m-(-3)/2 тестов. Следовательно, та (0) т (т + 3)/2. А эта оценка — точна? В общем случае вопрос пока остаётся открытым, но Рабин доказал, что она точна, если для вычис¬ ления Nn разрешается применять лишь рациональные опера¬ ции. 6.9. Модель среднего случая: теория информации и теория принятия решений Чтобы продемонстрировать общность нашего подхода, пока¬ жем, как в его рамках можно формулировать задачи теории информации и теории принятия решений. Если применять к таким задачам модель наихудшего случая, они потеряют всю свою специфику, поэтому сделаем для них исключение и по¬ работаем с моделью среднего случая. Этот параграф — «за¬ лётная ласточка» из нашей следующей книги, которая будет посвящена изучению различных вероятностных моделей. В ней мы собираемся более основательно заняться теорией инфор¬ мации и теорией принятия решений. Для задач теории информации мы введем понятие сред¬ него кардинального числа .и докажем, что оно отличается от энтропии Шеннона не более чем на единицу. Подчеркнём важность понятия среднего кардинального числа для модели среднего случая. В наших дальнейших публикациях мы зай¬ мёмся изучением этого понятия. В теории принятия решений, как и во многих других об¬ ластях, весьма большое значение имеет понятие состояния. Множество всех состояний играет здесь примерно такую же роль, как множество всех интегрируемых функций в теории
112 Гл. 6. Приложения интегрирования. С точки зрения общей теории состояние и интегрируемая функция представляют собой два примера элемента задачи. Сейчас мы разберём одну задачу теории информации, а затем — одну задачу теории принятия решений. 1. Теория информации В ОТОА (с. 185—187) и в п. 3 § 5.4 была продемонстриро¬ вана связь между е-кардинальностью и е-энтропией для мо¬ дели наихудшего случая. Сейчас мы приведём пример из тео¬ рии информации, который показывает, что для модели сред¬ него случая среднее кардинальное число отличается от энтро¬ пии Шеннона не более чем на единицу. Замечание 9.1. Теорию информации точнее было бы назвать математической теорией сообщений. Основополагающая ра¬ бота Шеннона (Shannon [48]) именно так и озаглавлена. Хэмминг (Hamming [80]) даёт этой дисциплине такое опре¬ деление: «общая математическая теория представления сим¬ волов произвольного происхождения при помощи заданного алфавита». □ Пусть F = G ={fi, f2, ..., fn}, где ft — некоторые сим¬ волы, п 2, и S(f, е) = {f}, feF. Мы хотим представить сим¬ волы fi с помощью двоичных цифр таким образом, чтобы среднее число использованных двоичных цифр было мини¬ мальным. Точнее, пусть .... ёМ (9.1) где g,(f)(={0, 1} и k = k(f), т. е. АД/)—результат кодирова¬ ния символа f. Если отображение N взаимно-однозначно, то T(M(f)) = f (9.2) — корректно определенный алгоритм декодирования f. Оче¬ видно, е (<р) = г (W) = 0 в том и только в том случае, если N взаимно-однозначно. Будем считать, что отображение N взаимно-однозначно. Поскольку общее число наших символов равно п, найдётся символ f, для которого A(f)^ log и. Для модели наихудшего случая кардинальность оператора У равна card W = max k (f), f<=F поэтому card N log n. Рассмотрим класс T взаимно-однозначных информацион¬ ных операторов вида (9.1). Нетрудно убедиться, что карди¬
6.9. Модель среднего случая ИЗ нальное число /п(0) для модели наихудшего случая пг(0) = min {card (N): N e T, N взаимно-однозначно} равно m (0) = flog nl. Обсудим теперь модель среднего случая. Предположим, что символ fi встречается с вероятностью рг(/,). Определим среднюю кардинальность оператора N формулой сагб'р(^)=£рг(Ш(Л) (9.3) /=1 и среднее кардинальное число — формулой /пср (0) = min (cardcp (У): s’P, У взаимно-однозначно}. По теореме Шеннона о кодировании в отсутствие помех "icp (0) = а — Z pr (ft) log рг (f,), (9.4) i=i где ае[0, 1], т. е. энтропия отличается от среднего карди¬ нального числа не более чем на единицу. Среднее кардиналь¬ ное число может оказаться существенно меньше, чем карди¬ нальное число для модели наихудшего случая. Теперь покажем, что для некоторого специально выбран¬ ного множества простейших операций среднее и наихудшее кардинальные числа совпадают со средней сложностью и сложностью для модели наихудшего случая соответственно. Возьмем в качестве множества простейших операций Р={р1,Р2,рз}, где pi: F->{0, 1}, рх (f) = 0, p2(f)=l Vf^F, comp (pi) = comp (p2) = 1, a p3— произвольное отображение вида p3: [0, l]”1-*-/7 (для некоторого m), удовлетворяющее условию comp (р3) = 0. Простейшие операции р1 и р2 служат для кодирования символа f, причём оператор N(f) вида (9.1) состоит из k(f) этих операций; следовательно, сошр(АЦ/)) = Ш (9.5) Простейшая операция р3 — это декодирующая операция ну¬ левой сложности. Если отображение N взаимно-однозначно, то алгоритм ср вида (9.2) допустим и comp (ф (У (f))) = k(f). Поскольку найдётся f, для которого k (f) Rog nl, слож¬ ность алгоритма ф для модели наихудшего случая (см. опре¬ деление (3.1) гл. 5) удовлетворяет неравенству comp (ф) > flog п\.
114 Гл. 6. Приложения Отсюда вытекает следующая оценка сложности произволь¬ ного взаимно-однозначного оператора N: comp (N) flog п\ (так как комбинаторная сложность равна нулю). Легко про¬ верить, что для класса Т comp (ЧО = т (0) = Hog п\. (9.6) Теперь рассмотрим модель среднего случая. Назовём ве¬ личину compc₽ (N) = сотрс₽ (ср) — £ pr (f;) comp (<p (М (fг))) i = l средней сложностью алгоритма (9.2), использующего инфор¬ мацию (9.1). Среднюю сложность для класса Т определим как сотрср(Ч;)= min сотрср(М). .VeV Из (9.5), (9.3) и теоремы Шеннона о кодировании в отсут¬ ствие помех следует, что сотрсР (Чг) = тср (0) = а — У, рг (/г) log pr (fz). i-1 Средняя сложность и среднее кардинальное число равны между собой и отличаются от энтропии не более чем на еди¬ ницу. Некоторые близкие результаты относительно средней сложности и среднего кардинального числа для случая при¬ ближённой информации можно найти, например, в работе Pearl [76]. 2. Теория принятия решений Покажем, как формулируются в нашей терминологии задачи из теории принятия решений. Возьмём пример из работы Маршака и Рэднера (Marschak, Radner [72]). Рассмотрим тройку (F, G, w), составленную из множеств F и G и задан¬ ной функции w. Fy^G—r'R. Множество F будем называть множеством состояний, а данный элемент f этого множе¬ ства — природой, окружающей средой или внешним миром. Множество G будем считать множеством возможных дей¬ ствий. Функцию w назовём общей функцией платежа, а ве¬ личину w(f,g) будем рассматривать как доход, который мы получим, если предпримем действие g при состоянии окру¬ жающей среды f. Для простоты предположим, что оба мцо-
6.9. Модель среднего случая 115 жества F и G конечны. Пусть на множестве F={fi, /л} введена некоторая вероятностная мера pr: F->[0, 1]. При использовании информационного оператора ДО F-+H (информационной структуры) и алгоритма ср: N(F)-+G (стратегии) ожидаемый доход составит Щ<р):= £w(ft,4>(N(ft)))pr(ft). (9.7) i=i Наилучшей стратегией ср* назовём алгоритм, который макси¬ мизирует ожидаемый доход (при заданной информации N): Q (ф‘) = sup Q (<р). (9.8) <ре Ф (W) Теперь покажем, как сформулировать задачу поиска наи¬ лучшей стратегии в нашей терминологии. Положим w(f) = max w(f, g) и рассмотрим оператор решения S (f, е) = (g е G: w (f) — w (f, g) < s). Пусть ср — алгоритм, использующий информацию N. Тогда inf {6: (р (N (f)) <= S (f, 6)} = w (f) - w (f, (p (Af (/))), и погрешность ср (для модели наихудшего случая) опреде¬ ляется как е (<р, N):= inf (6: <р (N (f)) e S (f, б) V/ <= F) = max {w (f) — w(f, <p(iV (/)))}, (9.9) Определим среднюю погрешность алгоритма <р как (<р, N) = t {w (f{) - w (fh <p (AT (f z)))} pr (Л) f = ! = iw(fi)pr(fi) — Q((p). (9.10) i = l Назовём средним радиусом информации инфимум средних погрешностей всех алгоритмов, использующих информацию N: rcp(N) = inf еср (<р, iV). (9.11) ф еФ (/V) Тогда rw(N)= £ w(fi)pT(fi)— sup Q (<p). (9.12) i — I феФ (N) Наилучшей стратегией будет алгоритм, средняя погрешность которого равна среднему радиусу информации.
118 Гл. 6. Приложения Маршак и Рэднер установили (Marschak, Radner [72, р. 52]), что наилучшая стратегия максимизирует ожидаемый доход для всех N (ft). В нашей терминологии это означает, что каждый оптимальный по точности алгоритм сильно опти¬ мален. В планируемой книге мы покажем, что в рамках мо¬ дели среднего случая этот результат верен всегда. Другими словами, различие между оптимальными по точности и силь¬ но оптимальными алгоритмами, имеющее место для модели наихудшего случая, при переходе к модели среднего случая пропадает,
Дополнение А Интерполяционные алгоритмы В задаче аппроксимации операторов со значениями в норми¬ рованном линейном пространстве (которую мы для краткости называем НЛП-задачей) важную роль играют интерполя¬ ционные алгоритмы. Интерполяционные алгоритмы можно в этом случае построить следующим образом: выбираем ка¬ кой-либо элемент f, неотличимый от f при использовании информации N = для которого легко вычис¬ ляется S(f), и полагаем ф/(М(/)) = S(f). Так определённые интерполяционные алгоритмы обладают тремя ценными свойствами: 1. Справедлива оценка е^1, N, f)^2r(N, f) Vf е F, т. е. алгоритмы <р; почти сильно оптимальны. 2. Концептуально интерполяционные алгоритмы очень просты. 3. Часто построить интерполяционный алгоритм намного легче, чем центральный. В этом дополнении мы дадим естественное обобщение по¬ нятия интерполяционного алгоритма. В общем случае интер¬ поляционные алгоритмы уже не будут близки к сильно опти¬ мальным. Фактически отношение локальной погрешности ин¬ терполяционного алгоритма к локальному радиусу может оказаться сколь угодно большим. Мы выясним, для каких операторов S интерполяционные алгоритмы достаточно эф¬ фективны. Пусть Ар— приближенный информационный оператор, а R = R(NP)— класс реализуемых алгоритмов. Зная NP(f), можно выбрать из множества V(Np,f) такой элемент /, для которого множество S(f, б)П Q(WP(f)) ПРИ некотором неотри¬ цательном 6 непусто, и положить q>'(Np(f)) равным любому элементу из S(f,8)[}Q(Np(f)). Более точно, примем следую¬ щее определение: Алгоритм ср' называется ^-интерполяционным, если для каждого f^F найдётся такой элемент J^V(Np,f), для ко¬ торого д)Л<ЖРШ). (А.1)
118 Дополнение А При этом О-интерполяционный алгоритм называется просто интерполяционным. Очевидно, что если 61 б2, то ^-интерпо¬ ляционный алгоритм будет и б2-интерполяционным. Приве¬ дём пример, иллюстрирующий введённое понятие. Пример. НЛП-задача (продолжение). Пусть /? = Ф(А), р = 0 и <р' — некоторый б-интерполяционный алгоритм. Это означает, что ф'(А(/)) = S(f), если 6 = 0, а при б>0 || ф' (А (f)) - s (?)II < б, где f е V (A, f). Таким образом, при 6 = 0 определение (А.1) совпадает с оп¬ ределением интерполяционного алгоритма для случая норми¬ рованного линейного пространства (см. ОТОА, с. 22). Оценим локальную погрешность алгоритма <р'. Имеем е(ф/, A, /) = sup || S(g) — ф/ (А (/)) || gel' (N. f) <II<P'(W))-S(DII+ sup ||S(f)-S(g)|| g e V (N, f) <6 + diam(t/ (f)); здесь diam( 17(f)) —диаметр множества U(f)= S(V(N, f)). Поскольку диаметр любого множества не превосходит его удвоенного радиуса, то е(Ф', А, f)<d + 2r(A, f). Отсюда видно, что если б мало по сравнению с r(N,f), то ло¬ кальная погрешность произвольного б-интерполяционного алгоритма сравнима с минимальной возможной погреш¬ ностью. □ Пусть ф — реализуемый алгоритм с конечной погреш¬ ностью е = е(ф, Ар). Тогда ф(Ар(Л)еА(Ар,Ле + п)П<Жр(/)) Vt) > 0 VfeF. Возьмём б > е. Полагая г) = б — е, получим Ф (Ар (f)) е S (?, б) Л Q (Ар (f)) Vf е V (Ар, f). Мы доказали Следствие А.1. Всякий алгоритм ф из R является б-интерпо- ляционным для любого б>е(ф, Ар). В частности, всякий центральный алгоритм из А будет б-интерполяционным для любого б > r(R, Ар). □ Как известно, центральные алгоритмы из /? = Ф(А) силь¬ но оптимальны. Таким образом, следствие А.1—это утверж¬ дение о существовании сильно оптимального б-интерполя¬ ционного алгоритма для любого б >• г(Ар), А так ли это при
Интерполяционные алгоритмы 119 б<=Дг(МР)? Мы докажем, что в общем случае это не так: если б не превосходит радиуса информации, погрешность всех б-интерполяционных алгоритмов оказывается бесконечной. Более точно, верна ТЕОРЕМА А.1. Для любого числа d^[l,+oo] можно подо¬ брать такие операторы 5 и N, что для произвольных Е, Np и произвольного б-интерполяционного алгоритма <р; с б r(Np)= 1 будут выполнены соотношения (i) r(A/p,f) = r(Mp)=l VfeF, (ii) e(qp/, Мр, f) = d \fff=F. О Доказательство. Пусть /7 = {0, 2} и G = R. Положим |а — 6 |, если | а — b |<1, d в противном случае и рассмотрим оператор решения 5(Л0) = Ш, 5(f, е) = (х: ц(Лх)<е) (е > 0). В этом случае ( {/} При 8 = 0, S(A е) = < (f — е, / + е) при [f — 1, f + 1] при 0 < е < 1, 1 <e^d, v(— оо, 4- оо) при d <е < + оо. Возьмём = Тогда V(NP, f)= F и A (Np, f, б) = 5 (О, б) П 5(2, б), поскольку Np (f) e E (N (f), p) = E (0, p) = E (M (f), p) Vf e F. Следовательно, A (Np, f, 6) = 0 при 6^1 и 1 e A (Np, f, 1 + S) V6 > 0. Значит, r (Np, f) = inf {6: A (Mp, f, 6) 0} = 1 Vf e F, чем и доказано утверждение (i). Пусть <р' — произвольный б-интерполяционный алгоритм с б 1. Тогда <р'(Мр(/))е S(f,6), где f = 0 или 2. Не огра¬ ничивая общности, можно считать, что f = 0. Тогда 5(0,0) = {0} и 5(0, б) = (—б, б) при бе (0, 1]. Поскольку S(2, т)) с[1,3] при г) d, для любого т] d выполнено 5(0,6) П5(2, т]) = 0. Таким образом, <р'(^р(Л) Ф $ (2, г)) и, следовательно, е(<р/, Np, f) d Vf <= F. Отсюда вытекает, что ©(qp7, Мр, f) d Vf е F, так как <pl (Мр (f)) е R = 5 (2, d + б) V6 > 0. Тем самым доказано утверждение (ii). □ Замечание А.1. В задаче, описанной при доказательстве тео¬ ремы А.1, существует единственный центральный алгоритм,
120 Дополнение А В самом деле, раз r(Np, f)— 1 и 1 е A(Np, f, 1 + 6) V6 > 0, центральным оказывается алгоритм (pc(Np(f)) = 1. Отметим, что при 6=C+(NP) алгорит <рс уже не будет б-интерполяцион- ным, а потому утверждение следствия А.1 неулучшаемо. □ Теорема А.1 утверждает, что если 8^r(Np), то б-интер- поляционные алгоритмы, вообще говоря, не оптимальны по точности. Из следствия А.1 вытекает, что для R = <D(NP) оценка б r(Np) оказывается точной. Естественно возникает вопрос, для каких задач S все б-интерполяционные алгоритмы (с 6^r(R, Np)) почти силь¬ но оптимальны по точности. Очевидно, класс таких задач 5 не пуст, так как в него попадает задача аппроксимации опе¬ ратора со значениями в нормированном линейном простран¬ стве при R = Ф(А) и р = 0. Заметим, что для такого опера¬ тора S множество S (f, б) при стремлении б к бесконечности стремится к G при любом f. Мы увидим, что в общем случае это свойство переходит в утверждение о поведении S(f, б) как функции от б. Напомним, что A(Np,f,i])= П ? е V (Wp, f) Введём B(Np,f) = U S(f,O). (А.2) F е V(Wp, f) Для любого f е F и любого неотрицательного б положим Л(/,б)= sup [inf (т): S(f,6)nQ(^P(f))cA(Mp,An)} f e V (Np, f) - inf ft: S (f, 0) П Q (Np (f)) c= A (Np, f, q)}], (A.3) .B(Np,f)nQ(Np(f))^A(N0,f, n)} inf (q: 0^Q(Np(f))(]A(No,f, t))} ’ причём условимся, что + oo — oo = 0, oo/oo — 0/0 — 1. Грубо говоря, h(f,d} — это разность между наименьшим -qi, при ко¬ тором S(J, б)П Q(Np(f)) принадлежит A(NP, f, гц), и наимень¬ шим т|2> при котором S(f, 0)n Q(Np(f)) принадлежит A(NP, f, г]2) для наихудшего f из V(NP, f). Разумеется, тц q2, т. е. h (f, 6)^0 и h(f, 0) = 0. Величина d(f), грубо говоря, равна отношению наименьшего q3, при котором B(Np,f) f}Q(NP(f)) содержится в A(NP, f, т]з), к наименьшему т|4, при котором Q(NP (/))(] A (Np, f, т]4) непусто. Заметим, что наи¬ меньшее такое г)4 равно r(R,Np,f). Очевидно, что т]з^=г]1, т. е. d(f)^l. Все эти величины характеризуют скорость стремления множества /1 (Np, f, т|) к заданному множеству. Теперь мы можем доказать следующую теорему:
Интерполяционные алгоритмы 121 ТЕОРЕМА А.2. Пусть Ф'(6)—класс всех б-интерполяцион- ных алгоритмов. Тогда max (A (f, б), d(f)r(R, Ар, f))< sup e(V, Np, f) <h(f, 6) + d (f) r (R, Ap, f) V/ s= F, (A.5) если считать, что 4-00-0 = 4-00 • □ Доказательство. Прежде всего заметим, что если r(R,Np,f) = 4-00, то, по теореме 3.1 гл. 3, е(qp, Ар, f) = 4-<» V<p, и утверждение (А.5) тривиально. Поэтому можно считать, что r{R, Np, f) < 4-°°- Докажем сначала правое неравенство (А.5). Пусть ф'— некоторый б-интерполяционный алгоритм. Тогда ф'(М>,/X е S(J,6)nQ(Np(f)) при каком-то J е V(Ар, f) и е&, Ар, f) = inf{n: ф' (Ар (f)) е А (Ар, f, п)} < inf (П: S (f, б) R Q (Ар (f)) cz А (Ар, f, П)} < sup inf {П: S (f, б) П Q (Ар (f)) с= А (Ар, f, П)} fsV(Ap, f) — inf (П: S(L O)OQ(Ap(f))cA(Ap, f, n)} 4- sup inf{n:S(f,O)nQ(Ap(f))czA(Ap,f,ti)} f) = h(f, 6) 4- inf {n: В(Np, f)(]Q(Ap (/))сЛ(А0, f, t])} = *(f, 6) + d(f)r(R, Ap, f). Поскольку это верно для произвольного алгоритма ф', пра¬ вое неравенство (А.5) доказано. Теперь докажем левое. Предположим сперва, что h(f,8) и d(f) конечны. Пусть а — положительное вещественное чис¬ ло. Выберем такой элемент fi из V(Np,f), для которого b - inf (П: S (Л, 0) Г) Q (Ар (/)) с A (Np, f, т])} > h (f, б) - а/2, (А.6) где b = inf (П: $(А, 6) П Q (Ар (/)) с А (Ар, f, П)}. Допустим, что b = 4-00. Тогда inf {П: S (Л, 0) n Q (Ар (f)) <= А (Ар, f, П)} = + «> и, значит, d(f)= 4-°°, чт0 противоречит предположению о ко¬ нечности d(f). Следовательно, b < +оо. Теперь заметим, что b = sup inf (п: х 6= А (Ар, f, т])}, XsS(ft, 6)QQ(N0 (f))
122 Дополнение А и выберем из S(fb б) Л Q(Np(f)) такой элемент Xi, для кото¬ рого inf {n: *1 е A (Np, f, г])} > b — а/2. (А.7) Положим Ф1 (Np (Z)) = *i- Алгоритм ф! будет б-интерполяционным, и в силу (А.7) и (А.6) для него е (Ф1, NP, f)^b-a/2^h (f, б) - а. (А.8) Поскольку это верно при любом а, зир{е(ф/, Ар, f): ф'е= Ф7 (б)} > Л (f, 6). Далее, заметим, что величина d (f)r(R, Np, f) = inf(n: B(Ap, f) Л Q (Np (/))<= A (Ap, f, n)} = sup inf (n: S (f, 0) f| Q (Ap (/)) cz A (Np, f, rj)} f) конечна. Выберем такой элемент f2 из V(Np,f), для которого inf (n: S (f2, 0) П Q (Np (/)) <= A (Ap, f, t])} >d(f)r(R, Np, f) — a/2, (A.9) и такой элемент x2 из S(f2, 0)f| Q(Np(f))> для которого inf {тр х2 е A (Np, f, n)} > inf {Л: S (f2, 0) П Q (Np (f)) <= A (Np, f, n)} - a/2. (A. 10) Тогда алгоритм ф2(Ар(^))= x2 будет интерполяционным (а значит, и б-интерполяционным), и в силу (А.10) и (А.9) е (ф2, Np, f) > d (f) г (R, Np, f) — a. Так как это верно для любого а, supW, Np, f): ф'еФ'(б)}></(/)г(Я, Np, f), чем левое неравенство (А.5) и доказано. Для завершения доказательства теоремы предположим, что хотя бы одна из величин h(f, б) и d(f) бесконечна. Если h(f, б)=+°о, то, подбирая соответствующие ft из V(Np,f)' и%1 из S(fi, б)П Q(Ар(f)), можно сделать inf{тр х{ е A(NP, f,т])} сколь угодно большим. Тогда алгоритм ф1(АР(/)) = Х\ будет б-интерполяционным, а его локальная погрешность — сколь угодно большой. Следовательно, зир{е(ф/, Np, f): ф'еф'(б)} = +оо. Аналогично если d(f) = -f-oo, то, подбирая соответ¬ ствующие f2 из V(Np,f) и х2 из S(f2, 0)П Q(Np(f)), можно сде¬ лать inf {гр х2 е A (NP,f, г))} сколь угодно большим, Тогда
Интерполяционные алгоритмы 123 алгоритм (f2(Np(f)) = Х2 будет б-интерполяционным, а по¬ грешность e(<p2,Np,f) — сколь угодно большой. Значит, sup{e(<p', Np, f): е Ф'(б)} = +°°> чем и завершается дока¬ зательство теоремы. □ Теорема А.2 утверждает, что локальная погрешность б-интерполяционного алгоритма в основном зависит от сум¬ мы h(f, б)+ d(f)r(R, Np, f). Заметим, что h(f, 0) = 0, откуда вытекает Следствие А.2. sup е (<р, Np, f) = d (f) г (R, Np, f) Vf<=F. О ф e (0) Из теоремы A.l видно, что d(f) может быть любым чис¬ лом из интервала [1,+оо]. Для задачи аппроксимации опе¬ ратора со значениями в нормированном линейном простран¬ стве при R = Ф(?У) и р = 0 выполняется неравенство d(f) 2. Завершим настоящее дополнение двумя примерами. Пример. Бинарный поиск (продолжение). Найдём h(f, б) и d(f) для /?=Ф(А) и р = 0. Будем использовать обозначе¬ ния гл. 1. Нужно найти наименьшее т], при котором S(f,6) <=A(N, f, и), т. е. (F — |dmj f + |6/nJ) с {f2 — LqmJ, .. •, Л + Ln^J}• Это число равно _ p — 1 + [dmj ** m для наихудшего f, следовательно, Поскольку B(f)=V(N,f), наименьшее значение т], при ко¬ тором V(N, f) <= A (N, f, q), равно (p— l)/m. Значит, для про¬ извольного f e F d(f) — \ 2(p — l)/p, 2, ^0, если p чётно, если p нечётно и ^3, если р = 1. Отметим, что если р = 2, то d(/)=l; следовательно, любой интерполяционный алгоритм будет центральным. □ Пример. Интегрирование (продолжение). Как и в предыду¬ щем примере, будем искать h(j, б) и d(f) для /? = Ф(ДГ) и
124 Дополнение А р = 0. В обозначениях гл. 1 включение S(J, 6) <=A(N, f, т]) означает, что 1 [с — б, с + б] с: [6 — т), а + т|], где с = f (/) dt. о Таким образом, наименьшее значение г| равно -q = max (б — с 4- б, с — а + б). Следовательно, h(f, б) = б VfeF. Так как B(f) = [a, б], минимальное т], при котором [а, Ь\ cz A (N, f, я), равно Ь — а, и поэтому d(f) = 2 VfeF. □
Дополнение В Внутренние алгоритмы В начале дополнения А мы сформулировали три полезных свойства интерполяционных алгоритмов аппроксимации опе¬ раторов со значениями в нормированном линейном простран¬ стве. Первое из них близко к свойству сильной оптимально¬ сти. Как было показано, в общем случае оно не сохраняется. Теперь мы введём понятие внутреннего алгоритма и убе¬ димся, что внутренние алгоритмы всегда обладают свойством, близким к сильной оптимальности. Однако понятие внутрен¬ него алгоритма сложнее, чем понятие интерполяционного алгоритма, и внутренние алгоритмы труднее строить. Для простоты ограничимся анализом класса идеальных алгорит¬ мов. Кроме того, мы вводим в этом дополнении понятие алго¬ ритма средней точки и показываем, что каждый алгоритм средней точки сильно оптимален. Внутренние алгоритмы играют важную роль в вероятно¬ стных моделях, которым мы планируем посвятить следующие публикации. Так как в общем случае пространство G не предпола¬ гается нормированным, расстояние между его элементами не определено. Начнём с того, что введём два функционала, ко¬ торые можно трактовать как обобщённые расстояния. А имен¬ но, для данной задачи S определим функционалы distG: F X R+ и dist:f'X^->R+ формулами dist0(f, g) = inf{6: g^S(f, 6)}, (B.l) dist (A, A) = inf {dist0(fi, g) + dist0 (f2, g)} geO (= inf {d, + 62: S (A, 6J П S (A, 62) 0}). (B.2) Функционал disto (f, g) «измеряет расстояние» между элемен¬ тами множеств F и G, а функционал dist (А, А)— расстояние между элементами множества F. Заметим, что dist (A, А) < 2 inf {б: S (А. б) f| S (f2, б) ¥= 0}. (В.З)
126 Дополнение В Пусть А — некоторое подмножество множества F. Тогда S(A 0)= и S(f, 0) f^A будет подмножеством множества G. Для краткости введем обозначение S(A) :=S(A, 0). Точку m^G назовём внутрен¬ ней точкой множества 5(A), если найдётся отображение Р\ А—^А, для которого distG (А /п) + distG (Р (A, m) = dist (А Р (А) V/ е А. (В.4) Если, кроме того, dist0(A /п) = dist0 (Р (A, tn) Vf <= A, (B.5) будем называть m средней точкой множества 5(A). Подчерк¬ нём, что понятия внутренней и средней точек зависят от обоих множеств А и 5(A). Предположим, что Np— приближённый информационный оператор и у множества S(V(NP, f)) при каждом f^F есть внутренняя точка m(f). Тогда алгоритм ф(ур (A)=m(f) v/ep (в.б) называется внутренним алгоритмом (а если т(А при всех / является средней точкой множества S(V(NP, А)—алгорит¬ мом средней точки). Замечание В.1. Поясним, почему мы выбрали такое название. Рассмотрим для заданного А с F conv5(A) = (ge=G: 3fh f2t=A: distG(A, g) + dist0 (A, g) = dist(A, f2))- Будем называть множество 5(A) выпуклым, если 5(А) = conv5(A). Для многих задач conv5(A) представляет собой выпуклую оболочку 5(A) и наше определение выпуклости совпадает с классическим определением. Так обстоит дело, например, в задачах аппроксимации оператора со значениями в линейном пространстве со строго выпуклой нормой. (Норма ||-|| называется строго выпуклой, если из того, что llgi + g2|| =11^111 + 11^211 и g2+=0, следует, что gi = tg2 для некоторого t е IR+.) Таким образом, conv 5 (А) —обобщение понятия вы¬ пуклой оболочки множества 5(A). Нетрудно убедиться, что каждая внутренняя точка m мно¬ жества S(A) принадлежит conv5(A), причём если 5(A) вы¬ пукло, то meS(A). Этим оправдывается выбор названия. Если в случае линейного пространства со строго выпук¬ лой нормой у множества 5(A) есть средняя точка т, то 5(A)
Внутренние алгоритмы 127 симметрично относительно т (т. е. из того, что ^eS(X), следует, что и 2т— g е S (А)). Таким образом, средняя точ¬ ка, действительно, лежит «посредине» множества S(A). □ Приведем несколько примеров, иллюстрирующих понятия алгоритма средней точки и внутреннего алгоритма. Пример. Бинарный поиск (продолжение). В данном случае S(A) = А, так как F cz G. Легко убедиться, что distG (f, g) = inf {6: \f — g |<bm} = -^~g| и dist (A, f2) = ^d. Пусть p = 0 и N(f) = [Q(f; Ti), .... Q(f;Tn)J. Возьмём se V(N, f). Полагая £(/)== а, получаем dist0 (f, a) 4- dist0 (a, a) = dist (f, a) VjeV (N, f), т. e. каждый элемент а из V(N, f) является внутренним. Пусть <p; — интерполяционный алгоритм. Тогда <р'(^(/)). е Следовательно, ф'— внутренний алгоритм и f)<2r(tf, f). А можно ли построить для этой задачи алгоритм средней точки? Это возможно в том и только в том случае, если мно¬ жество V(N,f) симметрично, т. е. если из f е V(N,f) следует 2с — f<=V(N',f) для некоторого c = c(f)eE Предположим, что такое с(/) существует. Тогда формула <p(N(f)) = с([) задает алгоритм средней точки. При этом е(Ф, N, f) = r(N, f), так что алгоритм <р централен. □ Для задачи бинарного поиска каждый внутренний алго¬ ритм почти сильно оптимален и каждый алгоритм средней точки централен. Докажем, что это верно и в общем случае, ТЕОРЕМА В.1. Пусть <р — внутренний алгоритм. Тогда е(Ф, Np, f)<2r(Afp, f) Vf^F. (В.7) Если же ф — алгоритм средней точки, то *(Ф> f) — r(Np, f) Vt^F, (В.8) т. e, ф централен, □
128 Дополнение В Доказательство. Пусть f е F и cp(NP(f)) = т, где т— внут¬ ренняя точка множества S(V(MP, f)). Тогда e(<p, Np, f)= sup inf {6: tn <= S (f, 6)) f) = sup dist0 (f, m) f^V(Wp. f) c sup (dist0 (f, tn) + dist0 (P (f), m)} ^V(NP- f) = sup dist (f, P(F)). f=V(Wp. f) Из (В.З) следует, что dist(f, P(f)) sC 2r(7Vp, f), откуда e(q>, Np,f)^2r(Np,f). Тем самым (В. 7) доказано. Пусть теперь <р — алгоритм средней точки. Тогда для лю¬ бого J из V(Np, f) dist0(f, m) = ydist(f, P(F))<r(Wp, f), следовательно, e (<p, Np, f)^ r (Np, f). Поскольку e (qp, Np, f)' г(М>, f), равенство (В.8) доказано. □ Теорема В.1 утверждает, что внутренние алгоритмы (если они существуют) почти сильно оптимальны, а алгоритмы средней точки (если они существуют) центральны. Теперь выясним, как связаны между собой внутренние и интерполяционные алгоритмы. В замечании В.1 было пока¬ зано, что если множество S(V(7VP, f)) выпукло, то для лю¬ бого внутреннего алгоритма <р мы имеем <p(2Vp(f))e S(V(NP, f)). Значит, алгоритм <р будет также и интерполя¬ ционным: (p^&'(Np). Докажем, что для регулярных задач S справедливо и об¬ ратное утверждение. Задача S называется регулярной, если для всех fi, f S(A, 0)cS(f2, dist(f1; f2) + d) V6 > 0. (B.9) ТЕОРЕМА B.2. Пусть 2VP— приближённый информационный оператор. Тогда (i) если множество S(V(XP,/)) выпукло при любом fе F, то каждый внутренний алгоритм будет интер¬ поляционным; (ii) если задача S регулярна, то каждый интерполяцион¬ ный алгоритм будет внутренним. □ Доказательство. Утверждение (i) уже доказано. Докажем (ii), Пусть феФ'^р). Тогда для каждого f^F найдётся
Внутренние алгоритмы 129 f* е V(Np,f), для которого <Pz(Afp(f)) = ge=S(f, 0). Покажем, что g— внутренняя точка множества S(V(Np,f), Пусть P(F)^/’ Vfs=V(Afp,/). Тогда dist0 (f, g) + distG (P (f)> g) *= dist0 (F, g) Vf&V (Afp, f). (B.10) В силу (В.9), dist0 (F, g) = inf {6: g e S (F, d)} < dist (F, П = dist (F. P (F)). Таким образом, dist0 (F, g) + dist0 (P (F), g) < dist (ft P (F)). Поскольку dist0 (Л, g) + dist0 (f2, g) > dist (ft, f2) f2&F VgsG, выполняется равенство dist0 (F, g) + dista (P (F), g) = dist (F, P (F)) VF s V (Np, f). Это означает, что g = <p'(Np(f))—внутренняя точка множе¬ ства S(V(Np,f)), и, следовательно, <pz — внутренний алго¬ ритм. Теорема полностью доказана. □ Теорема В.2 говорит, что для регулярных задач все ин¬ терполяционные алгоритмы будут также и внутренними, а значит, почти сильно оптимальными. Концептуальная про¬ стота интерполяционных алгоритмов делает это утверждение очень полезным. В заключение приведём два примера, иллюстрирующих понятие регулярности. Пример. НЛП-задача (продолжение). В данной задаче S(f, 6) = {geG: HS(f)-gH<6). Далее, dist0(f, g) = IIS (f) — g II, dist (A, f2) = ||S(f,)-S(f2)||. Для любых fb f2 <= F и 6 > 0 S (A, 0) = {S (fi)) c {g e G: || S (f2) - g || < || S (f,) - S (f2) || + 6} = S(f2, dist (fb f2) + d). Следовательно, эта задача регулярна. >/,5 Зак. 34*
130 Дополнение В Заметим, что задача останется регулярной и в случае, если снабдить пространство G не нормой, а метрикой ц и взять S(f, 6) = {geG: p(S(f), g)<6). □ Пример. Нелинейные уравнения. Пусть F— класс скалярных функций f: [0, 1]->R, имеющих единственный нуль a = a(f). Задача состоит в том, чтобы приближённо вычислить a(f), т. е. G = R и S (f, е) = {х g= G: | х — а |< е, где f (а) = 0}. Заметим, что множество S (/, 0) одноточечно: S (ДО) = {a(f)} VfeF. (B.ll) Задача S регулярна. В самом деле, для любых fi, f2 е F disttfj, f2) = l«(A) — a(f2)l> и, следовательно, a(A)eS(f2, dist(fh f2) + S) Vd > 0, откуда и вытекает регулярность S. Предположение о единственности нуля функции суще¬ ственно для регулярности задачи. Действительно, допустим, что у функции f из F может быть несколько нулей. Возьмём fi(x) = x(x—1) и f2(x) = x—1/3. Для этих функций S(f„O) = {O,I), S(f2, 0) = {1/3}, т. е. dist(fi, f2)= 1/3. В то же время S(f2, dist (Л, f2) + d) = [-d, 2/3 + 6], и, значит, S(fi, 0)?t S(/2, dist(fi,/2)+6) при бе (0,1/3). Та¬ ким образом, в данном случае задача S не регулярна. □
Дополнение С Диаметр информации Мы уже рассматривали диаметр информации для задачи аппроксимации операторов со значениями в нормированном линейном пространстве и убедились, что это очень полезное понятие. Диаметр информации превосходит радиус информа¬ ции не более чем вдвое, и вычислять его часто намного проще (см. ОТОА). Мы определили диаметр d(N) информа¬ ции М как d (М) = sup diam S (7 (М, f)), (С. 1) fsF где diam 5 (У (М, D)= sup || S (f,) - S (f 2) || ft. f) — диаметр множества S(V(N,f)). Так как radA^diamA ^2radA для любого подмножества А пространства G, то r(M)<d(M)<2r(M). (С.2) Погрешность произвольного интерполяционного алгоритма <р' е ФДМ) удовлетворяет неравенству е(ф', M)<d(JV). (С.З) Можно ли обобщить понятие диаметра информации на об¬ щий случай, сохранив его ценные свойства — относительную простоту вычисления и неравенства (С.2) и (С.З)? Оказывается, можно, если S — регулярная задача. В конце настоящего дополнения мы докажем, что требование регуляр¬ ности при этом существенно. Воспользуемся обозначениями из дополнения В. Пусть А <= F и S(A) = S(A, 0)= U S(f, 0). fe4 Назовём диаметром множества S(A) величину diamS(A)= sup dist (flt fi, 7a5’
132 Дополнение С Пусть Np — приближённый информационный оператор. Назо¬ вём величину d(Np, f) = diamS(V(jVp, f)) (С.4) локальным диаметром оператора Np, а величину d (Np) = sup d (Np, f) fsF — его глобальным диаметром. Для того чтобы найти соотношение между диаметрами и радиусами информации, заметим, что r(Np,f) = radS(V(Np,f)), (С.5) где radS(A) = inf sup dist0 (f, g)(=inf{d: f| S(f, d)=/= 0}) jeGfed fed — радиус множества S(A), A c F. Теперь мы готовы дока¬ зать следующую лемму: Лемма С.1. Пусть А с F. Тогда diamS(4X2radSG4). (С.6) Если задача S регулярна (см. (В.9)), то rad S (Л) < diam S(A). □ (С.7) Доказательство. Предположим, что радиус r = radS(A) ко¬ нечен. Положим 6 = г + г], где г] > 0. Возьмём произвольные fi, f2 из А. Тогда S(fi, 6)П S (f2, 6)=# 0, и, следовательно, dist(fb f2) = inf (6[ + 62: S(fi, di)[\S(f2, d2) #= 0}<2S. Таким образом, diamS(A) 2(r + tj). Отсюда ввиду произ¬ вольности т] вытекает неравенство (С.6). Докажем (С.7). Не уменьшая общности, можно предпо¬ ложить, что диаметр d = diamS(A) конечен. Положим 6 = d + т), где -и > 0. Возьмём произвольное fi из А. Тогда dist(fi, f) < 6 для любого f А. Из регулярности 5 следует, что S(fi,O)<=S(f,d), поэтому П S(f, б)^= 0. feA Значит, rad S(A) 6 = d + г|. Ввиду произвольности т] от¬ сюда вытекает неравенство radS(A)^d, которое и завер¬ шает доказательство леммы. □ Нетрудно убедиться, что усилить неравенства (С.6) и (С.7) нельзя: существуют задача S и множества Аь А2, для
Диаметр информации 133 которых diam S (Aj) = 2 radS (Д) и rad S(A2) = diam S(A2). Действительно, возьмём F = G = {1, 2, 3} и S(Z, 6) = {£<=G: |Z-£|<d}, ZeF. Как легко видеть, задача S регулярна. Рассмотрим множе¬ ства Л] = F и А2 = {1, 2}. Для них diam S(X]) — 2 = 2 rad S (Л[) и rad S(A2) = 1 — diam S(A2). Теперь покажем, что выполнение неравенства (С.7) су¬ щественно зависит от регулярности S. А именно, приведём пример нерегулярной задачи S и множества А с F, для ко¬ торых radS(A) = 4-оо и diamS(A) = O. Возьмём F = G = {1, 2, 3} и зададим S так: S(l, 6) — (1, 2}, S(2, б) = {2, 3}, S(3, d) = (1, 3}. Эта задача нерегулярна, поскольку S(l, 0) = {1, 2}<£S(3, б)= {1, 3} VS>0. Для А = F S(l, O)AS(/, 0)=/= 0 VZ, /sF. Следовательно, diamS(A) = O. Теперь заметим, что S(l, d)AS(2, 6)AS(3, d)=0 V6eR+, значит, rad S(A) = 4-°°. Из леммы C.l сразу следует ТЕОРЕМА С.1. Пусть — приближённый информационный оператор. Тогда d(Np, /)<2r(AZp, f) Vfe=F, d(AZp)<2r(AZp). Если задача S регулярна, то f)^d(Np, f) Vf^F и r(AZp)<d(AZp). □ (C.9) Неравенства (С.8) и (C.9) служат обобщением неравенств (С.2). Из теоремы С.1 видно, что в регулярных задачах диа¬ метр информации тесно связан с радиусом информации. Для частного случая задачи аппроксимации операторов со значениями в нормированном линейном пространстве до¬ казано, что локальная погрешность произвольного интерполя¬ ционного алгоритма не превосходит d(Np,f). Покажем, что этим свойством обладают все регулярные задачи, Сначала установим этот факт для внутренних алгоритмов,
134 Дополнение С ЛЕММА С.2. Для всякого внутреннего алгоритма е(ф> Ур, f)^d(Np, f) Vft=F.U Доказательство. Пусть f е F и т = <p(Afp(D)—внутренняя точка множества S(V(Np, f)). Тогда е(ф, N р, f)= sup dist0(fbm)< sup dist (fb P (/,)). f,^v(wp. f) f,sW Поскольку V(Np,f), выполняется неравенство е(ф, Atp, sup dist(fb f2) fv f2^V(Np- f) = diamS(V (Np, f)) — d (Np, f). Теорема доказана. □ В силу теоремы В.2, для регулярных задач все интерполя¬ ционные алгоритмы будут также и внутренними. Поэтому из леммы С.2 сразу вытекает ТЕОРЕМА С.2. Пусть Np— приближённый информационный оператор. Если задача S регулярна, то для любого интерпо¬ ляционного алгоритма <р' е Ф7(АР) е (ф', АГр, f) < d (N р, f) VfeF.Q (C. 10) Покажем, что регулярность задачи S существенна для справедливости (С. 10). Рассмотрим приведенный выше при¬ мер, в котором diamS(F) = 0 и rad S(F) = +00- Возьмём WsO. Тогда S(V(^f))==G = F и d(N,f) = O. В то же время е(ф, N, f)>r(N, f) = radS(F) = +оо для любого алгоритма <р. Следовательно, в данном случае е(Ф, N, f)= + oo, a d(N, f) = 0.
Дополнение D Недетерминированные алгоритмы В этом дополнении мы введем понятие недетерминирован¬ ного алгоритма и получим точные оценки эффективности та¬ ких алгоритмов. Сначала мы дадим определение недетерми¬ нированного алгоритма в рамках нашего подхода, а затем проведём сравнение с аналогичным понятием, которое ис¬ пользуется в теории NP-полноты. До сих пор нами рассматривались алгоритмы, значения которых — это элементы множества G. Если для простоты предположить, что N — точный информационный оператор, и если <р — использующий его алгоритм, то значением q>(jV(f)) служит некоторый элемент из G. В случае, когда <p^(f))ES(f>8) Vfe=V(A7,/), (D.l) этот элемент cp(A'(f)) рассматривался как е-приближение. Теперь обобщим понятие алгоритма — допустим в качестве значений ф(ДД/)) подмножества множества G, содержащие не более k элементов: card (<р (N (f)))< k Vf(=F, (D.2) где k — фиксированное целое число. При этом условие (D.1) модифицируем следующим образом: будем говорить, что алгоритм ф позволяет найти е-приближение, если для каж¬ дого f из V(N,f) найдётся элемент множества при¬ надлежащий S(f, е), т. е. если Ф (N (f)) А 5 (f, е) #= 0 Vf <= V (N, f). (D.3) При k> 1 будем называть такой алгоритм {k-) недетермини¬ рованным, потому что он не указывает одного конкретного элемента, который служил бы решением. Сейчас мы обсудим знаменитую проблему совпадения классов Р и NP и сопоставим её с нашим подходом. Будем следовать работе Garey, Johnson [79]. Для формального об¬ суждения вопроса потребовалось бы ввести детерминирован¬ ные и недетерминированные машины Тьюринга, поэтому огра¬ ничимся неформальным изложением,
136 Дополнение D Всякий недетерминированный алгоритм распадается на два этапа — «догадку» и «проверку». Догадка не детерминиро¬ вана, а проверка занимает детерминированное полиномиаль¬ ное время. На оба этапа вместе требуется недетерминирован¬ ное полиномиальное время. Класс задач, на решение которых уходит недетерминированное полиномиальное время, обозна¬ чается через NP, а класс задач, которые можно решить за детерминированное полиномиальное время, — через Р. Цен¬ тральный вопрос теории NP-полноты состоит в том, совпа¬ дают или не совпадают эти два класса. Есть веские основа¬ ния предполагать, что решение наиболее сложных задач из класса NP (так называемых NP-полных задач) требует де¬ терминированного экспоненциального времени и, значит, классы Р и NP различны. Теперь сопоставим это с нашим пониманием недетермини¬ рованности. Догадке здесь соответствует предположение, что множество <р(ЛЦ/)) может содержать k элементов, а про¬ верке— условие (D.3). Новые моменты заключаются в сле¬ дующем: 1. Поскольку нам хочется разобраться, как связаны не¬ детерминированность и информация, мы не станем ограничиваться классом реализуемых алгоритмов (т. е. тех алгоритмов, которые можно реализовать с по¬ мощью машины Тфюринга). 2. В общем случае мы не приписываем (D.3) никакой стоимости и, следовательно, никаких результатов отно¬ сительно сложности не будет. (Тем не менее в некото¬ рых конкретных случаях с помощью наших результа¬ тов можно получить и оценки сложности.) 3. Мы очень точно опишем характер связи недетерминиро¬ ванности с кардинальностью и радиусом информации (см. следствие D.2 и леммы D.2, D.3). Например, из лемм D.2, D.3 следует, что, с одной стороны, существуют линейные задачи, для которых £-недетерминирован- мость ничего не даёт, а с другой — существуют линей¬ ные задачи, для которых ^-недетерминированность уменьшает радиус информации не менее чем в k раз. Дадим определение k-недетерминированного локального радиуса rk(N,f) точной информации N (при 1). Разобьём множество V(N,f) = {J^F: N(f) = N(f)} на k подмножеств V(AU) = ViU ... (D.4) таким образом, чтобы минимизировать наименьшее б, при котором П (f> й) непусто для всех I. Это минимальное
Недетерминированные алгоритмы 137 значение 6 и есть rk(N, f). Точнее, назовём величину гк(К, /)= inf{б: 3/, Vk. V (N, 0 = 7^ ... UVb Л S(f, б)=/= 0, Z=1 Й) (D.5) i*yt J k-недетерминированным локальным радиусом информации (или, короче, й-локальным радиусом). Далее, назовём вели¬ чину rk(N) = suprk(N,f) (D.6) fsF k-недетерминированным глобальным радиусом информации (или, короче, й-глобальным радиусом). Очевидно, гк (N) < (N) < ri (Ю = r(N) Vfc > 1 V2V. Покажем, что й-локальный и ^-глобальный радиусы дают точные нижние оценки локальной и глобальной погрешностей ^-недетерминированных алгоритмов. Локальной погрешностью k-недетерминированного алгоритма ср будем называть вели¬ чину е (ср, АГ, f) = inf [6: ср (W (/)) П 5 (f, S) ¥= 0 Vf е V (N, f)}, (D.7) а глобальной погрешностью — величину е (ф, Af) = sup е (ф, А/, f). (D.8) feF Обозначим через Ф*(А0 класс всех ^-недетерминирован- ных алгоритмов. ТЕОРЕМА D.I. inf е (ф, N, f) = rk (N, f) V/ е F, (D.9) феФ4(«) inf е(ф, N) — rk(N). □ (D.10) <реФ^(А) Доказательство. Возьмём ф из Ф*(А^). Без ограничения общно¬ сти можно считать, что погрешность е(ф, N,f) конечна. Пусть б > е (ср, N, f). Тогда Ф^ОЛЖб)^ 0 VfeV(N.f). Пусть А={%1, ..., хр}—множество всех элементов х:еф(Л;(^)), которые при некотором fe содержатся 6 Зак. 646
138 Дополнение D в S(|, 6). Так как ф— алгоритм ^-недетерминированный, то р k. Рассмотрим множества Vt = {J<=V(N, f): Xl<E=S(f, S)}, Z= 1, .... p, Vp+i = Vp, 1=1, k — p. Множества Vi непусты, I/(AU) = 7iU ... 1Ж и П S(f,S)^0. fs vt Из (D.5) следует, что rk(N, f)^6. Устремляя 6 к е(ф,У, f), получаем неравенство rk (N, f) e (<p, N, f). Отсюда в силу произвольности <р вытекает, что inf {е(Ф, М, Г): Ф <= Ф* (М)} > rk (N, f). Докажем обратное неравенство. Без потери общности можно принять, что радиус rk(N,f) конечен. Возьмём 6>rk(N,f). Из (D.5) следует, что найдутся множества Vi, .... Vk, для которых У(М,/) = ^и ... uv4 И n S(f, 6)^=0, Пусть Xi S n 5 (f, 6), f s Определим ^-недетерминированный алгоритм ф6 формулой Фб(^(Л) = {^1 хк}. Ясно, что <P8(W))nS(M)^= 0 Vfey(AU) и, значит, е(ф6,У, f)^6. Устремляя 6 к rk(N,f), получаем infе(ф6, У, f)^rk(N, f). Тем самым равенство (D.9) доказано. Равенство (D.10) легко следует из (D.9). □ В гл. 5 мы определили е-энтропию H(s, X) множества X с: F как Д(е, X) = log2 k, где k — минимальное число ша¬ ров радиуса не больше е, полностью покрывающих множе¬ ство X (см. § 5.4). Под шаром мы понимаем множество Hg, 6) = {f^F: dist0(f, = {f<=F: ge=S(f, d + n) Vt] > 0}. Обозначим через H~] (k, X) инфимум значений е, для кото¬ рых log2 k /?(е, X). Выясним, как локальный и глобальный k недетерминированные радиусы связаны с е-энтропией.
Недетерминированные алгоритмы 139 Лемма D.I. rk (N, = (k, V (N, /)) V/ e Л (D. 11) rk (N) = sup H~l (k, V (N, f)). □ (D. 12) feF Доказательство. Пусть a = H~l(k, V(N, f)). Возьмём <pe Ф»(Ю- Тогда Ф (# (f)) = {xb xk) и V (M, f) cz U J (xit e (<p, N)). i=i Таким образом, a^e(cp, N). Переходя в этом неравенстве к инфимуму по ср, получим а rk(N, f). Докажем противоположное неравенство. Достаточно рас¬ смотреть случай а < +°°- Возьмём б > а. По определению Н~1 найдутся элементы g\, gk, для которых V(N, /)<= U J(gh б). 1 = 1 Следовательно, алгоритм ) = {gi, ..., gk} принадле¬ жит ФДТУ) и Ф(М))ПЖ б + п)=^ 0 VfelZ(^f) Vn>0. Значит, е(ср, Af, f) б. Устремляя б к я, получаем rk(N, f) а. Тем самым доказано (D.11), a (D.12) легко следует из (D.11). Теперь займемся проблемой оптимальности информации в недетерминированном случае. Пусть, как и в гл. 4, Т(/7|)— класс простейших точных информационных операторов U: ЧГП0П(п)— класс всех неадаптивных информацион¬ ных операторов кардинальности не выше п, а ЧГа(п)— соот¬ ветствующий ему класс адаптивных информационных опера¬ торов. Будем называть величины г^оп(м)= inf rk(N) и га(/г) = inf rk (N) (D.I3) п-ми минимальными k-недетерминированными радиусами со¬ ответственно неадаптивной и адаптивной информации, а ве¬ личины mnkon(e) = min {п: rjon(n)<e} и (е) = min [n: ra (n)<e} (D. 14) k — недетерминированными е-кардинальностями соответствен¬ но неадаптивной и адаптивной информации. Посмотрим, как связаны между собой минимальные ра¬ диусы информации в недетерминированном (/г>1) ив де¬ терминированном (/г = 1) случаях. 6*
140 Дополнение D Для начала рассмотрим дискретные информационные опе¬ раторы. А именно, как и в п. 3 § 5.4, предположим, что мно¬ жество Н\ состоит из р элементов, р> 1, и y¥(Hi) = y¥(Hi), т. е. в класс простейших информационных операторов вхо¬ дят все отображения (обобщенные вопросы) U: Обоб¬ щением теоремы 4.1 гл. 5 служит ТЕОРЕМА D.2. rnkonW = rak(n) = H~\kpn, F\ (D.15) mgon (е) = mak (е) = max ([ - log ], о). □ (D.16) Доказательство. В силу теоремы 3.1 гл. 4, из равенства Чг(//1) = Ф(Д1) следует совпадение классов адаптивных и неадаптивных информационных операторов, так что г£0П(п) = га(п) и т™п(п) = та(п). Пусть = ..., Un] и Га(Л/)<4-оо. Докажем, что а = Н~} (kpn, F)s^ rk(N). Пусть г| > 0. Рассмотрим алгоритм Ф е Фа (N), для которого е (ф, N) < rk (TV) + q. Поскольку мно¬ жество N(F) содержит не более рп различных элементов, а множество ф(А(/)) — не более k различных элементов, то U {<p(W))} = {gi> •••> £/}, где j^kpn. feF Заметим,, что ф (N (f)) f] S (f, гк (N) + я) ¥= 0 V/ е F, откуда U I(gt, rft(A0 + n). i-1 Значит, а rk(N)-(- г\. Так как г| может принимать сколь угодно малые значения, а N — произвольный информацион¬ ный оператор из ЧГа(п), из этого неравенств вытекает, что а < inf {rk (IV): N е Wa (п)}. При доказательстве противоположного неравенства можно предположить, что а конечно. Возьмём такие элементы gi, ..., gp I = kpn, для которых I F а J (g,, а + б) при некотором б > 0. (-1 Положим Ai = {£(*-1)Л+1> gd-1) РП• Пусть P-какое-нибудь взаимно-однозначное отображение множества АрП) в Н"- Рассмотрим информационный
Недетерминированные алгоритмы 141 оператор N(f) = PA{, где f<= U J(g,a + &). (D.17) g^A( Ясно, что N еЧГпоп(м). Положим Ф(У(П) = р-1У(/) = А/, (D.18) Алгоритм <р принадлежит ФДМ) и Ф(Л^(П)П5(А а + п)¥= 0 VfeF Vn>6. Следовательно, г* (Л') e(cp, N) а + 5- Ввиду произволь¬ ности 6 выполняется неравенство inf {rA (А): N sTa (п)} а, и тем самым (D.15) доказано. Для доказательства (D.16) заметим, что п — минималь¬ ное неотрицательное число, для которого log kpn Н(е, F)'. Значит, п [Д(е, F)— log k\ /logр, откуда и следует (D.16). Теорема доказана. □ Из доказательства теоремы D.2 вытекает Следствие D.I. Информационный оператор (D.17) оптимален среди всех информационных операторов кардинальности не выше п, а алгоритм (D.18) оптимален по точности, т. е,. rk(N) = r*(n), е(ф, #) = /•*(#). □ Теорема D.2 позволяет сравнить возможности детерми¬ нированных и недетерминированных алгоритмов. В силу (DJ5) и (D.16), Га (п + С — 1) (п) Га (п + с), max (ma (е) — с, 0) m|(e) max (ma (е) — с + 1, 0), (D.19) где с = Hog £/log /?]. Это значит, что, используя оптималь¬ ную информацию кардинальности п -ф с— 1 или п + с, можно решить задачу с такой же точностью, как если бы использо¬ валась оптимальная информация кардинальности п и приме¬ нялся ^-недетерминированный алгоритм. Следствие D.2. Применение ^-недетерминированного алго¬ ритма позволяет сэкономить самое большее riog£/log//| вы¬ числений значений простейших информационных операто¬ ров. □ Теперь рассмотрим задачу аппроксимации оператора со значениями в нормированном линейном пространстве. Напом¬ ним ситуацию: S: Fi-*-F2, N: Fi-+F3, Т: F1-+F4 — линейные операторы, Fi и F3 — линейные пространства, F2 и F4— нор¬ мированные линейные пространства, F = (f^Fc. ||7’fll 1}.
142 Дополнение D Пусть Ф (N (f)) = U1(N (f)), • •., gk (N (f))J VZ <= F. Тогда, как сразу вытекает из (D.3), е(ф, Af) = sup min IIS/ - gi (N(f)) ||. (D.20) fsF1<i< k Лемма D.2. ±r(N)^rk(N)^r(N). (D.21) Доказательство. Достаточно показать, что rk(N) r(Af)/(2&). Напомним, что r(AO = csup{||Sft||: Ле= kerW, ||Г/г||< 1} для некоторого с е [1, 2]. Возьмём ф е (М) и h s ker N Q F. Для них <р (JV (й)) = <р (0) = {gt, ..., gft}. Так как c/i е ker <V Q F при се (—1, 1], най¬ дётся g(c)ecp(0), для которого ||g(c)—cSft|K е(ф). Поло¬ жим c = Ci = —1 + 2(/й, j = 0, ..., k. Поскольку существует k + 1 различных Ct и не более k различных g(c), найдётся элемент g е <р (0), для которого || g — CtSh |К е (ф), ||g — C;S/i|K>(T) при некоторых i и /, i j. Тогда 2е (ф) > || g — ctSh || +1| g — C/Sh || > || c;SA — ctSh || >||SA||min|c,-c/| = 2||Sft||/A. i + f Переходя к супремуму no ft s ker N f| F, получаем неравен¬ ство e(cp) r(jV)/(2/e). Ввиду произвольности й-недетермини- рованного алгоритма ф отсюда следует, что r(Af)/(2£). Лемма доказана. □ Покажем, что правая оценка (D.21) неулучшаема, а ле¬ вая неулучшаема с точностью до коэффициента, значение ко¬ торого не превосходит двух. Чтобы доказать, что левая оцен¬ ка почти точна в указанном смысле, рассмотрим веществен¬ ный линейный функционал S. Для него множество S(V(N, /)) представляет собой некоторый интервал [а, 6], и погрешность алгоритма q>(N(f)) = {a + h(2i + 1): i = 0, 1, ..., k- 1, h = (b - a)!(2k)} составляет e(q>, N, f) = (b— a) /(2k). Поскольку r(N,f) = (b — a)/2, из (D.21) вытекает, что ±r(N)^rk(N)<±r(N).
Недетерминированные алгоритмы 143 Чтобы убедиться в существовании задачи, для которой rk(N) = r(N), докажем одну вспомогательную лемму. Будем называть (k + 1) -мерным шаром в F2 всякое множество вида Ца, c) = {ge A: ||g — о||<с}, ae=F2, c«=R+, где1 Д = 1т(£1 z*+i), a zt — линейно-независимые эле¬ менты пространства F2. Лемма D.3. Пусть (k + 1)-мерный шар J(а, с) в пространстве F2 удовлетворяет условию J (a, с) с: S (ker 2V f| F). (D.22) Тогда rk(N)>c. □ (D.23) Доказательство. Пусть ср — произвольный алгоритм из Ф*(Л0 и ср(О)= {gi, ..., gk}. Напомним, что fe-поперечник. Колмого¬ рова (см., например, Корнейчук [76] или Lorentz [66]) для + 1)-мерного шара радиуса с равен с, т. е. dk(J(a, с), F2):=inf sup inf ||g — x|| = c, A g s 1 (a, c) x <= A где A — линейное подпространство в F2, размерность кото¬ рого не превосходит k. В частности, найдется элемент g шара )(а, с), для которого Ня—ЛII>с V* е Ип(Я1, ..яД Зна¬ чит, Ня — Я>11 с, i= 1 k. Заметим, что из (D.22) вы¬ текает равенство g = Sfo для некоторого /o^kerAfflF. В силу (D.20) е(<р, N)^ min l|Sfo — II > 1 < i < k Из (D.10) ввиду произвольности ср следует, что r*(Af)^c. Неравенство (D.23) доказано. □ Рассмотрим простой пример. Пусть S и Т — тождествен¬ ные операторы, т. е. Sf = Tf = f Vf, и Fi = F2 = F4. Тогда S(kerAfnF) представляет собой р-мерный шар с центром О и радиусом 1, где p = dimkerjV. Отметим, что если N — ко¬ нечномерный линейный оператор и dimfj = 4-00, то р = +оо. Если р^1 и е(<р, 2V)= r(Af)= 1, то алгоритм ср(?/(/)) = О оптимален по точности. Таким образом, при k + 1 р имеем по лемме D.3 rk(N) = r(N)=l. В заключение этого дополнения покажем, что в некоторых случаях ^-недетерминированный алгоритм аппроксимации оператора со значениями в нормированном линейном про- Ниже lin обозначает линейную оболочку. — Прим. ред.
144 Дополнение D странстве можно заменить детерминированным алгоритмом, который дополнительно требует вычисления k значений ли¬ нейных функционалов и решает задачу не менее точно. Пусть F2 — гильбертово пространство. В силу (D.20) II k е (<р, ЛГ) > min II Sf - gl (N (f)) || > min Sf - £ i ci || Z = 1 = Sf-YASf, zl)zl , i = l где ff=F, iin (gi(W(0 У,---, g4W)))<= linUb ■••. £*)', a Zi, ..., Zk — ортонормированные векторы. Рассмотрим инфор¬ мационный оператор AUf) = [W), (5Л Zi), .... (Sf, zk)]. Это линейный адаптивный оператор, так как г, = z,(Af(f)), и card (NJ card (N) + k. Погрешность детерминированного алгоритма Ф1 (АД, (/)) = S (5/, zz)zz удовлетворяет неравенству е(Ф1, У,)<е(ф, N). (D.24) Поскольку такое построение можно провести для произволь¬ ного ^-недетерминированного алгоритма, мы доказали Следствие D.3. В случае когда F% — гильбертово простран¬ ство, применение ^-недетерминированного алгоритма позво¬ ляет сэкономить максимум k вычислений линейных функцио¬ налов. □ Сравним п-е минимальные радиусы адаптивной и неадап¬ тивной линейной информации. Из следствия D.3 и теоремы 3.3 гл. 4 вытекает, что если Fi — гильбертово пространство, то - га (п г а (rt) гпоп (п) < гпоп (га) < 2га (га) < 2га (га — k). В частности, a. lim rnon (га) = а2 lim rnk°n (п) = lim га (га) = limrа (га), п п п п где аг е [1/2, 1] и aj/a2 е [1,2]. Оба эти результата объеди¬ няет
Недетерминированные алгоритмы 145 Следствие D.4. Пусть F2— гильбертово пространство. С точ¬ ностью до указанных выше постоянных сц и а2: (i) адаптивные алгоритмы не приносят выигрыша по сравнению с неадаптивными как в детерминирован¬ ном, так и в недетерминированном случае; (ii) недетерминированность не оказывает влияния на пре¬ дельные значения минимальных радиусов инфор¬ мации; (iii) если в детерминированном случае задача не обла¬ дает свойством сходимости (т. е. limnra(n) > 0), то она не обладает этим свойством и в недетерминиро¬ ванном случае. □
Дополнение Е Обобщённая линейная НЛП-задача В ОТОА мы изучали линейную НЛП-задачу — особый тип задачи аппроксимации оператора со значениями в нормиро¬ ванном линейном пространстве. Эта задача ставится так: задаются линейные операторы S: /д—*-F2, N- Fi-+F3, Т: Fi—>~Fi, где Fi и Е3— линейные пространства, a F2 и Л — нормированные линейные пространства, и рассматриваются множества F = {f^Fl: ||77||< 1}, g 6= F2: || g — S (f) || < e} {S(D} при e > 0, при e = 0. (E.l) (E.2) Для того чтобы подчеркнуть роль операторов S и Т, ра¬ диус информации обозначается не через r(7V), а через r(N,S, Т). По теореме С.1 г (N, S, Т) = cd (N, S, Т), с е= [1/2, 1], (Е.З) где диаметр информации d(N,S, Т) определяется как d (АГ, S, Т) = inf {д, + б2: S (fIt П S (f2, б2) 0 \fflt f2^F, N(fl) = N(f2)}. (Е.4) Нетрудно убедиться, что d (N, S, Г) = sup sup l|S(A) —SOI = 2 sup || Sh ||. f s F fl, fl e V (iV, f) fceker.V II Th || < 1 (E.5) В некоторых практических задачах бывает очень сложно проверить, выполняется ли неравенство ||Щ|^ 1. Далее, иногда приходится вводить вместо (Е.2) другой критерий точности решения (как, например, в случае, когда нужно ре¬ шить задачу с малой относительной погрешностью, т. е. найти элемент g, для которого ||g — S(f)|| < e(||S(f) || +r]), где т] — малая неотрицательная величина). В иных случаях целесо¬ образно рассматривать все /'eFi; тогда не нужно налагать ограничений на ||Tf\\, а в качестве критерия точности решения можно взять ||g — S(/)||/max(||77||, 1) < е,
Обобщённая линейная НЛП-задача 147 В этом дополнении мы рассмотрим следующее обобщение задачи (Е.1), (Е.2). Зафиксируем некоторую функцию р: R+->R+. (Е.6) Положим F — F[ и определим оператор решения Si формулой ( {g<^F2: || g — S(f)l'p(linil) <е} при е > О, при е = 0. <Е'7> Так же как и в задаче S, будем обозначать радиус и диа¬ метр информации через r(N, Si, Т) и d(N, Si, Т). Как мы сейчас увидим, радиусы и диаметры информации в задачах S и Si связаны довольно неожиданным образом. Сначала вычислим диаметр информации для задачи S,. Лемма Е.1. d (Af, Sb Т) = sup || S (А - A) || min {p (|| Tf, ||), p (|| Tf21|)}. □ fi, f2 e Fi /У(Л-Ь)=0 (E.8) ДОКАЗАТЕЛЬСТВО. НаПОМНИМ, ЧТО d(N, SitT)= inf {6! + 62: Si (A, 6t) n s, (A. 62) =/= 0 VA, /2eFh AAA ~ AW}. Покажем, что для любых положительных Si и 62 5i (А» ("] S, (А, б2) =и= 0 ОII s (А - fz) II < р (Ц ||) + Р (II г/2||) ’ если условиться, что 6;/0=+оо. В самом деле, если Si (fl, Si) Г) Si (А, 62,) =# 0, то найдется элемент g из Е2, для ко¬ торого II5(А) -g||р(\\Tf, ||) < Si, ||S(А) -gIIР(IIТАII) < б2- Следовательно, -WIKBSlM-gll + llslf,)-+ p7iikii>- Предположим, что справедливо неравенство в правой части (Е.9). Если р(||Tf2II) = 0, возьмём g~Sfit если же р(||Tfx||) = О, возьмём g = Sf2. Тогда g g= Sj (A, 6J f] Si (A, 62) и, значит, 61) Л 51 (A, 62) непусто. Если Sft = Sf2, то g = sf1eSi(f1, sons!(A, 62). Остаётся разобрать случай, когда р (||Tft\\) #= 0 при 1= 1,2 и S(fi —/2)=?^0. Положим g = /S(A + (l-A5(A).
148 Дополнение Е где г = 62(1-х)/р(ИМ)1|5(А-/2)11. а х — корень уравнения Л о (f f \ ц Д| (1 х) | ^2 (1 х) Г2Л1— р (iiTf.ll) + р(||ГМ|) • Заметим, что х е (0, 1) и t < 1. Имеем i IISIW —gll= <IIS(Zi — Wil = pjirf.i)' < P(iirf.ii) • ||S(W_g||_(,-()|1S(f,_f!)|| = lL^<_n^iT. Следовательно, g e Si(fi, 6i)f) Si(f2, 62), и утверждение (E.9) доказано. Таким образом, d (N, s„ г) - - int { S, + бг: IIS (f, - ы II < Vf„ f2^Flt ЛГ(Л — f2) = o}. Нетрудно проверить, что inf {6[ + 62: а < 6i/6 + 62/с} = a min (6, с) при любых неотрицательных а, b и с. Для завершения дока- зательства достаточно в этом равенстве положить а = ||S(Л — f2)II, 6 = р(||Г/1||), с = р(||Г/2||). □ Теперь мы готовы к тому, чтобы доказать следующую тео¬ рему: ТЕОРЕМА Е.1. Если sup {р(х): х 0} < + °°> то r(N, Sh T) = cd(N, Slt T), се [1/2, 1]. (Е.10) Если ker Т f] ker N cz ker S, то d (N, SUT) = sup xp (x) d(N, S, T) (E. 11) x>0 (мы считаем, что 0 • oo = 0). □ Доказательство. Поскольку по теореме С.1 rx = г (N, Sb Г) > dJ2 = d (tf, Sb П/2, достаточно показать, что п db Предположим, что d\ < +оо. Возьмём f е Fi и положим а = sup {р( || 7? ||): f^V(N, /)}. Так как функция р равномерно ограничена, величина а ко¬ нечна. Для произвольного фиксированного г) е(0, 1) выберем
Обобщённая линейная НЛП-задача 149 такой элемент fi е что р(||771Н) а(1 — д). Ясно, что Р(ИЛ1)< и ИШ-Шр(11Ш) = ||S(f1-F)||min(p(n)> P^Z"-) Поскольку min (p(linil), p(™- )< l-i) 1 -1) лемма E.l даёт lls(f1)-s(F)iip(iinil)<r^r Следовательно, S(A)e p S^f, leYVf, f) Vf<=V(N, f). d, A 1 — П J ’ Так как это включение выполняется для любого f, можно за¬ ключить, что Г1 di/(I—г]). Устремив г) к нулю, получим неравенство r\ di. Тем самым мы доказали (Е.10). Теперь докажем (Е.11). Зафиксируем произвольные fi и f2, для которых N(fi — fi) = O, и положим х = max (|| 7711|, ЦТ/гИ)- Тогда h = fa — f2 ker N и ||77t|K 2х. Возьмём 6 = IIS (Л - f2) || min (р (|| Tf! ||), р (|| Tf21|)). (Е. 12) Если х — 0, то ft е ker Т, и из предположения кег Т f] кег N ckerS вытекает, что 6 =||S/i||p(O) = O. Если же х=й=0, то в силу (Е.5) 6<2[s Л) |хр(х)<(2||Sh||)хр(х) 1|ТЛЦ<1 < sup хр (х) d (N, S, Т). х > О Так как это верно для любых fa и f2, для которых N(fa-fa) = 0, из (Е.8) следует, что d(N, Su 7')<supxp(x)d(Aft, S, Г). X>0 При доказательстве противоположного неравенства можно без потери общности считать, что d = d(N, S, Т) > 0. Тогда ker Т П кег N <= ker S и, в силу (Е.5), Т ф 0. Зафиксируем произвольное г] > 0 и возьмём элемент h е кег N, для кото¬ рого [|7’й||= 1 и 2||S/i||> d — i], если диаметр d конечен, или же 2Ц5Л||> г), если d — -фоо. Рассмотрим fa = xh, fi — —xh, где xeR+. Очевидно, N_(fa — fa) — Q и величина б, опреде¬
150 Дополнение Е ленная формулой (Е.12), равна 2||S/i||xp(x). Если d < + оо,то dt = d(N, Sh T)>fi>(d-T))xp(x). Если же d = +<x>, то di >т]хр(х). Поскольку т] и х произ¬ вольны, di dxp(x) и di d sup хр (х). Теорема доказана. □ х>0 Замечание Е.1. Обсудим предположения теоремы Е.1. Первое предположение (a=sup{p(x): xj>0}<4-oo) использова¬ лось при доказательстве неравенства r\ d\. В случае а = +оо можно доказать то же самое неравенство, сделав некоторые дополнительные предположения относительно нормы в пространстве F4. Предоставим это читателю. Второе предположение (ker F (~| ker N сд ker S) — это необ¬ ходимое условие конечности диаметра d(N,S,T). Легко про¬ верить, что если ker Т (1 ker N ф ker S, то d(N, S, Т)= + <х> и ( + оо при р(0) =+ О или при р 0 и Т 0, d(N, Si, Т) = s п _ ( 0 в остальных случаях. □ Чтобы проиллюстрировать теорему Е.1, рассмотрим три конкретные функции р. Пример Е.1. Пусть ( 1 при X 1, р(х) | Q ПрИ х > 1. Тогда St(f, e) = S(f, е) Vf: || Tf || < I, и наша обобщённая ли¬ нейная задача совпадает с линейной задачей (Е.2). В этом случае, в силу (Е.11) и замечания Е.1, d(N,Si,T) = d(N,S,T). □ Пример Е.2. Пусть л > °« Тогда в качестве е-приближений будут фигурировать те эле¬ менты g, для которых || g - S (f) || < в (Ц Tf || + п), е>0. При Т = S мы получим решение с относительной погреш¬ ностью, не превосходящей е. Здесь, как и в предыдущем при¬ мере, d(N, SbT) = d(N, S, T), □ Пример Е.З. Пусть р (Х) = е(1-х2)/2. Тогда в роли е-приближений оказываются элементы g, для которых ||g-S(f)l|e-«W/2< « , 6>о. уе
Обобщённая линейная НЛП-задача 151 При этом близость g и S(f) обеспечена только в том случае, если величина ||7')|| сравнительно мала. Этот пример очень важен для модели среднего случая: там с помощью весовой функции e_l|rf||2/2 задаётся вероятностная мера на Fi. Заметим, что sup хр(х) — 1, следовательно, d(N, 5Ь Т) — d(N, S, Т). □ Теперь посмотрим, как связаны между собой погрешности решения задач S и Si. Пусть N — линейный информационный оператор, a ф: —алгоритм решения задачи S. По¬ грешность алгоритма ср составляет e(q>, А7) = sup ||S(f)-?(A7(f))||. (Е.13) цгцк i Погрешность решения задачи Si с помощью алгоритма ерь N(Fl)-^F2 равна е(Ф1, N) — sup ||S(D -Ф1 (A7(f))||p(||77||). (E.14) Предположим, что ф— однородный алгоритм, т. е. (p(N(cf)) = cq>(N(f)). Тогда можно построить его однородное расши¬ рение ф1 на всё множество N(F\): Ф(У(П), если || 77IIС 1, если || 771| >1. (Е.15) Лемма Е.2. Пусть ер — однородный алгоритм, a <pi — его одно¬ родное расширение (Е.15). Если <?(ф, Л7) <+оо, то е(ф1; A7) = supxp(x)efa, Л7) ' (Е.16) х>0 (мы считаем, что 0-оо = 0). □ Доказательство. В силу (Е.14) е(фь /V) = supp(x)( sup || S (f) — ф! (N (f)) ||). x>0 l|Tf||=x Если е(ф, N)< + <x>, то ф(N(f)) = S(f) VfekerT. Сначала предположим, что 7 = 0. Тогда е(фь (V) = е(ф, AQ — 0, так что (Е.16) выполнено. Пусть теперь Т ф 0. Тогда в силу ОДНОРОДНОСТИ ф1 е(ф y) = supxp(x) ( sup *>o v ||г(~ Ol=i v 7 v v 7'117 Из (Е.15) и (Е.13) следует, что е (Ф1 У) = sup хр (х) ( sup || S (/) — ф (Л7 (f)) ||) = sup хр (х) е (ф, N). х>0 IITfll-I х>0 Лемма доказана. □
152 Дополнение Е Из теоремы Е.1 и леммы Е.2 сразу вытекает Лемма Е.З. Пусть sup{p(x): х 0}< 4-оо и r(N, S, T) = ±d(N, S, Т)< + <х>. (Е.17) Если существует оптимальный по точности однородный алго¬ ритм <р решения задачи S, то его расширение <рь заданное формулой (Е.15), будет оптимальным по точности однород¬ ным алгоритмом решения задачи Si, и r(N, S„ T) = supxp(x)r(N, S, Г). □ (E.18) x>0 Доказательство. Пусть a = sup{xp(x): х>0}. Из того что r(N, S, Т)= d(N, S, Т)/2 < +°о, следует, что ker Гf] кег А/ czkerS. Последовательно используя (Е.11), (Е.10) и (Е.16), получаем ar(N, S, T) = ad(N, S, T)/2 = d(N, Su Т)/2<г(АГ, Sb T) <e((pb N) = ae(q>, N) = ar(N, S, T). Равенство (E.18) доказано. □ Условиям леммы Е.З удовлетворяет, например, линейная задача, в которой Е4 — гильбертово пространство, Af(f) = [АД/), ..., Ln(f)], где Li, .... Ln — линейные функционалы, и множество 7(ker?V) замкнуто. В этом случае можно вы¬ брать такие элементы g\, gn из F\, что алгоритм <p(^(f))=E^(f)Sg< (Е.19) i = l будет сильно оптимален поточности и г(N, S, Т)= d(N,S, Т)/2. При этом расширение <pi алгоритма ср тоже линейно и запи¬ сывается в том же виде (Е.19). Этот факт очень полезен при изучении моделей среднего случая. Кратко обсудим вопрос об оптимальной информации для задачи Si. Если выполняются предположения теоремы Е.1 и величина supxp(x) конечна, то в силу (Е.11) диаметр инфор- х>0 мации в задаче Si пропорционален диаметру информации в задаче S. Значит, если диаметр информации Nn с card(Afn) < п минимален для задачи S, то диаметр этой информации будет минимальным и для задачи Sb Поскольку диаметр информа¬ ции превосходит радиус информации не более чем вдвое, каждый п-й оптимальный информационный оператор задачи S будет почти оптимальным n-м информационным операто¬
Обобщённая линейная НЛП-задача 153 ром для задачи Si, и наоборот. Если — гильбертово про¬ странство, то r(N, S,T) = ±d(N, S, Т) и r(N, T) = ±d(N, Sh T) Vn, а значит, оптимальные информационные операторы для задач S и Si совпадают. Резюмируем: Следствие ЕЛ. Оптимальные информационные операторы для задач S и Si практически совпадают, а в случае, когда F4 — гильбертово пространство, они совпадают в точности. □
Дополнение F Обобщённая мера погрешности До сих пор мы считали, что мерой погрешности решения задачи служит неотрицательное вещественное число е. В этом дополнении мы обобщим некоторые из полученных резуль¬ татов на случай, когда е — элемент частично упорядоченного множества. В частности, е может быть вектором. Такое обоб¬ щение стоит провести по двум причинам: 1. Некоторые важные задачи не укладываются в рамки модели, допускающей в качестве меры погрешности только вещественные числа. 2. Наши основные объекты F, G, S, N — это абстрактные множества и операторы. Единство стиля требует, чтобы и е тоже было элементом абстрактного множества. При проведении доказательств мы использовали из свойств вещественных чисел лишь свойства упорядоченности и суще¬ ствования точной нижней грани. Поэтому нет ничего удиви¬ тельного в том, что многие из полученных результатов легко поддаются обобщению. Для простоты будем рассматривать только идеальные алгоритмы и точную информацию. В допол¬ нении G мы покажем, как эта теория применяется к задаче поточечной аппроксимации. Итак, пусть е — элемент некоторого частично упорядочен¬ ного множества Д (с отношением порядка ^). Для про¬ стоты будем считать, что для любого подмножества Д1 мно¬ жества Д существует inf Др Напомним, что через inf Д[ обо¬ значается единственный элемент множества Д, удовлетворяю¬ щий условиям: inf Д1<6 УбеДь 61 е Д и 6^6 V6 е Д[ inf Др Таким образом, inf Д] — это наибольшая нижняя грань мно¬ жества Др Пусть 0 = inf Д, т. е. 0^6 V6 е Д. Так же как и в гл. 1, оператор решения S — это отобра¬ жение (F.1) S: FXA->2a,
Обобщённая мера погрешности 155 где F и G — некоторые фиксированные множества. Предпо¬ ложим, что оператор S обладает двумя свойствами: S (А 0)^=0 Vfe=F, (F.2) 61<62^S(f, б2) (F.3) для всех 61, бг е А и f е F. Заметим, что предположения (F.2) и (F.3) выглядят точно так же, как предположения (Р$* 1) и (Ps-2) из гл. 1, только символ имеет теперь дру¬ гой смысл. Пусть N: F-+- Н— (точный) информационный оператор. Напомним, что для произвольного f е F V(N, = N(f) = N(f)}, A(N, f, 6)= П 5(/,6). FeK(V, f) Назовём величину r (AF, f) = inf (6 <= A: A (N, f, б) Ф 0} (F.4) локальным, радиусом информации, а величину r(AO = inf{de=A: A(W, f, б)=у*= 0 Vf e= F} (F.5) — {глобальным) радиусом информации (ср. с определениями (3.3) и (3.4) гл. 1). Заметим, что r(AF, f)^.r(N) Vf <=F. Далее, если A(N, f, r(N, /))=/= 0 Vf^F и б из А удовлетворяет условию г (N, f)^6 Vf (= F, то A (N, f,6)^=<Z)4f^Fw., зна¬ чит, г (N) б. Отсюда следует, что г (Af) = sup r(N, f). fsF Пусть ср: N(F)^G — (идеальный) алгоритм. Назовём е (ср, N, f) = inf (б е А: ср (N (f)) е А (А/, f, б)} (F.6) локальной погрешностью алгоритма ср, а е (ф, N) = inf (б е А: ф (У (/)) е A (N, f, б) Vf 6= F} (F.7) — его (глобальной погрешностью (ср. с определениями (3.6), (3.7) гл. 1). Заметим, что е(ф, AF, /)^е(ф, N) Vf е F, и если A {N, f, е (ф, N, /)) =# 0 V/ (= F, то е(ф, Л9 = зир{е(ф, АГ, f): f<=F}. Теперь мы можем доказать утверждение, которое обобщает теорему 3.1 гл. 1. ТЕОРЕМА F.I. inf е(ф, N, f) = r(N, f) Vfe=F, ф е Ф ((V) inf е(ф, N) = r(N), <реФ(Л1) (F.8) (F.9) 7*
156 Дополнение F где через Ф(М) по-прежнему обозначается класс всех алго¬ ритмов, использующих информацию N. □ Доказательство. Сначала покажем, что e(q>, N,f)^ r(N,f)'. Если <p(N(f))f=A(N,f,8), то A(N,f,8)^=0 и r(N,f)^8. Так как это верно для всех таких б, то r(N, f) е(<р, N,f). В силу произвольности ф r(N, а := inf {е(ф, N, f)-. ф«=Ф(У)}. Теперь возьмем такое б, для которого A(N,f, б)=/= 0, т. е. су¬ ществует элемент g <= A (N, f,8). Полагая <p(N(f)) = g, полу¬ чим алгоритм, удовлетворяющий неравенству е(ф, N, f) б; значит, оХ б. В силу произвольности б выполняется неравен¬ ство a^r(N,f). Следовательно, a = r(N,f), и (F.8) дока¬ зано. Доказательство равенства (F.9) мы опустим, поскольку оно проводится совершенно аналогично. □ Предположим, что A(N,f,r(N,f))^0 Vf<=F. (F.10) Назовём алгоритм фе центральным, если ^(N(f))^A(N, f, r(N, f)) Vfe=F. Из теоремы F.l и равенства (F.6) вытекает следующее утвер¬ ждение, обобщающее теорему 4.1 гл. 1: Следствие F.I. Всякий центральный алгоритм фс сильно опти¬ мален по точности, т. е. e(tf,N,f) = r(N,f) Vf^F, е(ф°, N) = r(N). □ Теперь можно проверить, позволяет ли информация N при заданноме из Д найтие-приближение,т. е. элемент xeS(/, е). Следствие F.2. Если выполнено (F.10), то информация N по¬ зволяет найти е-приближение для любого f е F тогда и толь¬ ко тогда, когда r(N) е. □ Доказательство. Пусть существует алгоритм ф, который ис¬ пользует информацию N и находит е-приближение для про¬ извольного / е F, т. е. ф(2У (/)) е S (f, е) Yf<=F. Тогда ф (W(f)) е A(N, f, е) V/ е Ей, значит, е(ф, W)<6. В силу (F.9), г(У)<е. Обратно, предположим, что r(N)^.e. Рассмотрим какой- нибудь центральный алгоритм фс. Для него ф^Л^))^ A (N, f, г (N, f)). Поскольку г (N, f)^. г (2VX е, то фе (N (f)) е S
Обобщённая мера погрешности 157 (f, е) Vf е F, т. е. алгоритм <рс находит е-приближение для всех f из F. Следствие полностью доказано. □ В заключение вкратце обсудим проблему оптимальности информации. В гл. 4 для того, чтобы сравнить два информа¬ ционных оператора одинаковой кардинальности А^ и N2, мы сравнивали их радиусы r(N\) и г(N2) и, если оказывалось, что г(М)^ r(N2), отдавали предпочтение оператору Afi. Здесь такой подход неприменим, потому что радиусы r(Ni) и г (N2) в общем случае не сравнимы: может случиться так, что ни одно из двух неравенств r(N\) г (N2) и r(N2)^r(Ni) не имеет места. Кроме того, хотя определения (2.8) — (2.10) гл. 4 и допу¬ скают формальное обобщение, может оказаться, что не суще¬ ствует информационного оператора кардинальности не выше п, радиус которого равен n-му минимальному радиусу (или хотя бы близок к нему). Как увидит читатель, именно так обстоит дело с задачей поточечной аппроксимации из допол¬ нения G. Поэтому мы вообще не будем рассматривать п-ю оптимальную информацию, а вместо этого обобщим понятие е-кардинальности (см. определение (2.11) гл. 4). Определим классы ^"“"(п) и ЧГа(п) так же, как в гл. 4, и назовём вели¬ чины т ™ (е) = min {tv. N е= Tnon (п), г (У) < е}, т3 (е) = min {п: еГ (п), г (AZ) < е) (F’1 ^-кардинальностями соответственно неадаптивной и адаптив¬ ной информации. Таким образом, mnon(e)— это минимальная кардинальность неадаптивного информационного оператора, радиус которого не превосходит е. Если справедливо (F.10), то можно сказать, что mnon(e) — это минимальное число про¬ стейших операций, позволяющее найти е-приближение.
Дополнение G Поточечная аппроксимация Используя полученные в предыдущем дополнении результаты для случая частично упорядоченных е (мер погрешности), поставим и решим ряд вопросов, касающихся оптимальной информации и оптимальных алгоритмов для задачи поточеч¬ ной аппроксимации. Этот материал примыкает к материалу гл. 6, но мы помещаем его здесь, поскольку он иллюстрирует теорию, развитую в дополнении F. В двух словах, задача поточечной аппроксимации заклю¬ чается в том, чтобы на основании информации ЛД)) построить функцию g(x), которая отклоняется от неизвестной функции f(x) не более чем на е(х). Допустимая погрешность е(х) мо¬ жет меняться от точки к точке, отсюда и термин «поточечная аппроксимация». Для простоты будем считать, что функция f дифференци¬ руема, a N(f)— набор её значений. Можно рассмотреть и другие варианты задачи, например взять класс г раз диффе¬ ренцируемых функций f или информационный оператор N(f)\ состоящий из набора значений произвольных линейных функ¬ ционалов. Поставим два вопроса: 1. Каково минимальное количество вычислений значений f, позволяющее найти е-приближение и как оптималь¬ ным образом выбрать точки вычисления функции? 3. Как построить алгоритм поиска е-приближения, исполь¬ зующий минимальное количество вычислений и имею¬ щий сложность, близкую к оптимальной? Мы дадим полный ответ на первый вопрос и опишем эле¬ гантный геометрический метод определения оптимальных то¬ чек вычисления функции. Что касается второго вопроса, то мы построим оптимальный по точности алгоритм линейной комбинаторной сложности, использующий оптимальную ин¬ формацию. Сложность такого алгоритма, очевидно, близка к оптимальной. Для специально выбранных функций е(х) мы введём кри¬ терии абсолютной и относительной точности и покажем, что достижение заданной абсолютной точности требует в экспо*
Поточечна*! аппроксимация 159 ненциальное число раз больше вычислений f, чем достижение заданной относительной точности (при этом количество вы¬ числений f рассматривается как функция длины отрезка, на котором определена функция f). Пусть Д ={6: [0, b]—- R+}— множество всех неотрицатель¬ ных функций на отрезке [0, b], b > 0. Будем писать 61 62, если 61(x)^d2(x) Vx <= [0, д]. Для произвольного подмноже¬ ства Д] множества Д определим inf Д1 формулой (inf Aj)(x) = inf (б(х): SeAJ Vx е [0, Z>], (G.l) где второй «inf» обозначает обычный инфимум множества неотрицательных чисел. Положим F = G — {f: f: [0, -> R, f — абсолютно непрерывная функция, |f'(x)|<l почти всюду}. (G.2) Для е е Д и f е F определим оператор решения формулой S(f, e) = (geG: |f(x)-g(x)|<e(x) Vx е [0, 6]} (G.3) т. е. будем считать е-приближением функции f такое прибли¬ жение, погрешность которого ни в одной точке хе[0, Ь] не превосходит е(х). Это и есть задача поточечной аппрокси¬ мации. Замечание G.I. Способы выбора е. Если g служит е-прибли¬ жением, то f(x) = g(x) всюду, где е(х) = 0, т. е. g интерполи¬ рует f в тех точках, где е обращается в нуль. Если е(х)= е, то ||f —g||<e, где ||f|| = sup{|f (х) |: хе[0, 6]}. При таком способе выбора е-приближения абсолютная погрешность не превышает е. Если же е(х) = а\Х + а2, где Я] и а2— малые неотрицательные величины, то при малых х абсолютная по¬ грешность |f(x)—g(x) I не превосходит а2, а при больших х относительная погрешность |f(x)—g (х) | /х не превосходит Яь т. е. е представляет собой комбинацию абсолютной и от¬ носительной погрешностей. □ Замечание G.2. Связь с равномерной аппроксимацией. Задачу поточечной аппроксимации можно рассматривать как обобще¬ ние задачи равномерной аппроксимации, в которой требуется найти такую функцию g, что Ilf —gll^e для некоторой нормы и заданного неотрицательного числа е. Положим d (f) = sup {I f (x) |/e (x): x e [0, b]}, условившись, что 0/0 = 0. Функция g будет е-приближением тогда и только тогда, когда d(f — g) 1. Если min е(х) > 0, х s [0, 61 то d — норма типа sup-нормы с весовой функцией 1/е. В этом
160 Дополнение G случае наша задача поточечной аппроксимации сводится к задаче равномерной аппроксимации с весовой функцией. Если же min е(х) = 0, то d определено не для всех f из F и та- X е [0, i] кое сведение не удаётся. □ Пусть W) = tf(x„), (G.4) где 0 х„ < xn-i < ... <_ Xi b. Это неадаптивный инфор¬ мационный оператор. Найдём для него локальный и глобаль¬ ный радиусы информации и построим центральный алгоритм. Введём обозначения: ... __xi + x;+i ■ Wi 1- . — х‘ t ~ f (xt) 0 х хп, xi+i^x^.wit wt ^.x^.xlt xi ^x^.b, 0 s^X^Xn, Xz+i<X<Zz, zt ^.x^.xt, Xi <x<&. имеем f). (G.5) Функции f- и f+ принадлежат множеству V(N,f). Их гра¬ фики представлены на рис. G.I. Рассмотрим алгоритм ф‘ (N (/)) W = 4 [/+ (X) + г (X)]. (G.6) Сложность вычисления ф+(2У(/))(х) пропорциональна стои¬ мости вычисления п значений функции и выполнения п ариф¬ метических операций. Следовательно, сложность алгоритма Ф* линейно зависит от п. В силу (G.5) | f (х) - ф‘ (N (/)) (х) | < е* (х; N (f)) := | [f+ (х) - Г (х)] Vft=V(N,f). (G.7) 1=1 п — 1, и положим / Г(Х)=< ч f (хп) + х — х„ f(X/+i) — x + xz+1 f (xt) + x — xz f (Xi) - x + Xj f (x„) — x + x„ f (x<+i) + x — xz+1 f (xz) — X + xz f(Xi) + X - xt 2 при при при при при при при при Так же как и в задаче интегрирования, Г(х)<Нх)<Г(х) Vxe[0, 6]
Поточечная аппроксимация 161 График функции е* (•; ЛГ(/)) представлен на рис. G.2. Дока жем следующий результат: Лемма G.I. Алгоритм ср* централен и г (A, f) = e(<p*, N, = N (f)), (G.8) r(N) = r(N, 0)=е’(-; 0). □ (G.9) Доказательство. Сначала покажем, что г (N, f) = N, f) = Возьмем 6, для которого A (N, f, б) ф 0. Пусть g е A(N, f, б). Так как f~, f+ е V(N, f), то IГ (х) — g WI < 6 (х) и | f+ (x) — g (x) | < 6 (x) Vx s[0, 6]. Следовательно, 8* (X, N (f)) = (x) - g (X) - [Г (x) - g (X)]} < 6 (x) Vx e [0, 6].
162 Дополнение G В силу произвольности 6, е* (•; N(f)) r(N, f) . Из неравен¬ ства (G.7) вытекает, что л е" (•; N (/))). Значит, е(ф*, N, f) е* (•; N{f)). На основании равенства (F.8) заключаем, что r(N, f) = e(<p’, У, /) = е’(-; W))- Этим доказаны равенства (G.8) и центральность алгоритма <р*. Для доказательства (G.9) достаточно заметить, что e*(-;W(f))^e*(-;0). □ Итак, ф* — центральный алгоритм, а его сложность ли¬ нейно зависит от п. Следовательно, ф — почти оптимальный по сложности алгоритм, использующий информацию Заметим, что для этой вадачи выполнено предположение (F.10) и, значит, найти е-приближение можно в том и только в том случае, если е(х; 0)<e(x) Vx<=[0, 6]. (G.10) График функции е*(-; 0) изображен на рис. G.3. Теперь найдём е-кардинальность, т. е. минимальное число точек xh для которого е*(х; 0)<e(x) Vx е [0, 6]. Нам будет удобнее рассмотреть более широкую область определения функций е, считая, что е(х)=е(0) при х < 0. Для простоты предположим также, что функции е непрерывны. Построим рекуррентно две числовые последовательности, {х,} и {у,}. Положим у\ = Ь. Пусть для некоторого z 1 число yt уже определено. Тогда мы полагаем хг = тах {х — е(х): х е (—оо, z/,.)}, (G.H) а в качестве yi+\ берем минимальное число, для которого е(х)>х/-х Vx е= xj. (G.12)
Поточечная аппроксимация 168 Опишем геометрически способ построения {х,} и {у,} (см. рис. G.4). Число X]—это максимальное из значений хь при которых у прямой х — есть общая точка с графиком функ¬ ции е(х). (Таким образом, е(х)^х— Х[ и е(х)>х— а при а > Х[, следовательно, Xi = тах{х— е(х): х Ь}.) Чтобы по¬ строить точку у2, мы проводим прямую Xi — х до пересече- Для того чтобы найти точки х2 и Уз, проводим аналогичные построения, заменив точку Ь точкой у2, и т. д. Данное определение точек х, и у, корректно благодаря предположению о непрерывности е. Отметим, что Vi и что Xi — минимальное число, для которого е(х)>х — Xi Vxe=(— оо, у{), a yi+i — корень уравнения е(х) = х,— х. При этом, если е(х,) = 0, а левая производная е'(х,-— 0) существует и .больше — 1, ТО I//+1 = Xi. Из (G.11) следует, что х{ yt — е (у^, а из (G. 12) —что е(г/Д = xi-i — У1- Следовательно, yt С xt + s (xj = xt + хг_[ — yh а значит, ^<(^ + ^_,)/2. (0.13) Кроме того, = = (G.14) Действительно, пусть yt = х,-. Тогда, в силу (G.11), е(у,) = О- В силу (G.12), e(x)>xi_1—х при х (= [у,-, x^J; полагая в
164 Дополнение О этом неравенстве х = z/z, получаем 0 х^ — yt. Следова¬ тельно, Xj-1 = tji = Xi. Положим n* = n(e) = max{Z: yt > 0}, (G.15) условившись, что n* = n(e)=+oo, если yt > 0 Vz. Подчерк¬ нём, что п* и в самом деле может быть равным бесконечности. Действительно, из (G.11) и (G.12) вытекает, что если е^О, то yi = xt = b Vi. Далее, п* = +оо, если существует неотри¬ цательное число х* < Ь, для которого е(х*) = 0 и е'(х*)< 1. На минуту предположим, что л* конечно, и рассмотрим информационный оператор (f) = [f (max (x„., 0)), f (xn._0, ..., f (x,)]. (G. 16) Отметим, что xn*-\ yn* > 0, т. e. значения f нужно вычис¬ лять в неотрицательных точках. Поскольку все х, определены независимо от f, перед нами неадаптивный информационный оператор кардинальности п*. Справедлив следующий резуль¬ тат: Лемма G.2. Если п* = п (е) конечно, то г (ЛГ„«) е. □ Доказательство. Пусть хе[хь Ь]. Из леммы G.1 и (G.11) следует, что г (Nn*) (х) = х — х{ и х^х — е(х). Значит, г (Nn*) (х) е (х). Пусть теперь х е [xz, Xj.J, где xz > 0. Тогда yt > 0 и z^n*. Если x^.yt, то, в соответствии с (G.13), х^(хг + xz_!)/2 и г(Nn*)(x) — х — Xi. В силу (G.11), хг^х — — е(х) и, значит, г (Nn*) (х) е (х). Если же xs[z/,, xz_]J, то r(^»)(x)^xz_, — х. Так как e(x)^xz_1 —х в силу (G. 12), то г (Ж>)(х)^е(х). Наконец, рассмотрим отрезок [xz+I, xj при xz+1^0 и хг > 0. Предположим, что z/z+i^0. Тогда z = п. Для хе е [0, х„*], ввиду (G.12), г (ЛГ„») (х) = хга* — х =<е(х). Теперь предположим, что у1+х > 0. Тогда n* = z’+l. Поскольку f (0) нам известно, г(ДГп*)(х) = х при х е [0, уп*\. Значит, в силу (G.11), г (Wn«) (х) х — хл> < е (х). Если х е [z/n*, хге*-1], то r(ATn*)(x)<x„._i —х<е(х) в соответствии с (G.12). Доказа¬ тельство закончено. □ Покажем, что число п(е) равно е-кардинальности. Пусть ЧГпоп(л)—класс всех неадаптивных информационных опера¬ торов вида AA(f) = 7(«i) f Ы, где Д1, ..., ап [0, Ь], а Та (п)— класс таких же операторов, для которых точки оь ..., ап выбираются адаптивно. Сей¬ час мы докажем основной результат этого дополнения.
Поточечная аппроксимация 166 ТЕОРЕМА G.I. mnon (е) = та (е) = п (е). □ (G.17) Доказательство. Пусть N е 4м (п), т. е. N (f) = [f (д^ f (д„)], где a2 = a2(f (aj)), an = an(f(al)), и r (N) е. Если f = 0, то вычисления будут проводиться в точках д1( а2(0), ..., д„(0, ..., 0). Рассмотрим перестанов¬ ку а*, ...» д* чисел др д2(0), ап(0 0), для которой Ь>д^> ... >д*>0. Докажем от противного, что д‘е [хр 6]. Пусть д*<хр Из (G.11) следует, что х1 = х* — г(х*) для некоторого х" е (—<х>,Ь), причём х1^х*, так как е(х*)^0. Из равенства (G.8) вытекает, что г(М, 0)(х*) — х" — а*. Значит, r(N, 0)(х’) > х* — xt — е (х*), что противоречит предположению г(А0^ е. Следовательно, а* е [х1( 6]. Теперь покажем, что на любом отрезке [xz, x^J, х;^0, найдётся точка cj е [хр xz_J. Предположим обратное: для некоторого j выполняются неравенства а*{ < х{ и xl_l<d,{_l (при этом положим д*+1 — — оо). Мы знаем, что х( = х* — е (х*), где х* е [х„ yt] с: [xb X/-J. На основании (G.8) заключаем, что г(М, 0)(х*) = min (х* — а), — х*). Отметим, что х* — д* > х* — xt = е (х‘). В силу (G.13), х* у. (Ху + х^^/г. Значит, х/_1 — х*^х‘ —х; и д}_! — х* > х(._[ — х* х* — х; = е (х‘). Но тогда r(N, 0) (х*) > е(х*), а это противоречит нашему предположению. Поэтому найдётся точка д, <= [хр х/_1]. Пусть & = sup{z: £> = х0>х1> ... >х;:>0) — общее число отрезков [x,, x/_i], на которые разбит отрезок [0, . Подчеркнём, что k может быть и бесконечным! По¬ скольку каждый отрезок [х/, Xz_i] содержит хотя бы одну из точек д* д', можно заключить, что п k. Предположим, что k = +°о. Это значит, что положитель¬ ных у, бесконечно много, и п(е) = +оо. Так как условие г е выполняется лишь при п = +оо, адаптивного ин¬ формационного оператора конечной кардинальности с радиу¬ сом, не превосходящим е, не существует. Следовательно, mnon(e)= ma(e)_ _|_OOj чем и доказано (G.17) для случая бесконечного k.
166 Дополнение G Пусть теперь k конечно. Рассмотрим тогда xk+i. Имеются две возможности; либо x*+i > 0, либо x*+i = xk. Сначала предположим, что xA+i > 0. Из (G.14) следует, что тогда У к > 0 и п(е), «(e)—1, если если У'р.+\ Ук+\ > 0- Если yk+i 0, то п k = п(е) и, так как оператор W про¬ изволен, та(е)^ п(е). Если yk+i > 0, то, как мы сейчас убе¬ димся, [0, хй]. Действительно, пусть а”п > xk. Тогда r(N> 0)(Ук+1) = а’п — yk+l> xk — yk+i = &(yk+l), что противоречит нашему предположению. Итак, а*<=[0, xfe] и, значит, п k + 1 = п(е). Следовательно, и в данном слу¬ чае тоже ma (е) п (е). Теперь рассмотрим случай, когда хк+1 = xk. Тогда yk+i = хк a xk+i = yk+t==xk^i^: Из (G.12) следует, что е(х*) = 0 и существует положительное 61, для которого е(х)<Хй— х при хе [хк — 61, хк). Пусть хк > 0. Тогда п(е)=+оо. Покажем, что в этом случае г(М) не может быть =Ce. Действительно, если r(N, 0) е, то r(N, 0) (хА) = 0 и по лемме G.1 должно существовать положительное 62, для которого r(N, 0) (х) = х*— х при xe[xj — 62, хА]. Выбирая х из [х* — min(61,62). xk], видим, что r (N, 0) (х) > е(х). Следовательно, тп°п _ та и оо. Пусть теперь хк = 0. Тогда, в силу (G.14), k = n(e) и nl>n(e). Поскольку оператор N произволен, тг (е) п (е). Итак, мы показали, что при /г(е)=+оо выполняется ра¬ венство (G.17), а при конечном /г(е)—неравенство /иа(е)^ п(е). Согласно лемме G.2, mnon(e) п(е), что и завершает доказательство теоремы. □ Теорема G.1 утверждает, что для того, чтобы найти е-при- ближение, необходимо вычислить п(е) значений функции. Если п(е) конечно, то е-приближение можно найти с по¬ мощью центрального почти оптимального по сложности алго¬ ритма ф*, использующего информацию (G.16). Подчеркнём, что (G.16) — неадаптивный информационный оператор, и, сле¬ довательно, применение адаптивных алгоритмов поточечной аппроксимации выигрыша не приносит. Резюмируем: Следствие G.I. (i) Для получения е-приближения необходимо вычис¬ лить «(е) значений функции.
Поточечная аппроксимация 167 (ii) Если п(е) конечно, то е-приближение можно найти с помощью алгоритма (G.6), использующего неадап¬ тивную информацию (G.16). Затраты этого алгоритма пропорциональны стоимости вычисления /г(е) значе¬ ний функции и стоимости выполнения п(е) арифме¬ тических операций. Алгоритм (G.6) централен и почти оптимален по сложности в классе ЧГа(п). (iii) Применение адаптивных алгоритмов поточечной ап¬ проксимации выигрыша не приносит. □ Приведём два примера, показывающих, как устроены на¬ боры точек х, и чему равна е-кардинальность. Пример G.I. Пусть е(х) = е, е > 0. Функция g будет е-при- ближением в том случае, если ||/ — g|| е, где || f || — sup | f (х) |. х <= [0, 6] В силу (G.11) и (G.12), Х1 = У1 — е> Уи-[=х1 е> следовательно, xt — b — (2z — 1)е, — b — (2z — 2)е Vz^l, откуда 4- Отметим, что /г(е) линейно зависитототрезка длины [0, &]. □ Пример G.2. Пусть s(x) = сцх + а2, где at и а2 — малые поло¬ жительные величины. Функция g будет е-приближением, если 1 f (х) — g (х) I < aix + «2 Vx е [0, &]. Пусть at < 1. Ввиду (G.l 1) и (G.12) Х{ = (1 — (1+ai)z/z+i=*z—«2- Введём обозначение q =(1—ez1)/(l + ai). Тогда xi = qxt-\ “ = б?‘_'х1 “TH1 г’>2> х( = (1 — а{}Ь — а2. Аналогично можно показать, что У1 = У1~'Ь - -^-(1 Отсюда следует, что log [агУсцЬ + а2)1 ' log q (G.19)
168 Дополнение G Посмотрим, что даёт формула (G.19) при различных значе¬ ниях а\, а2 и Ь. 1. Пусть а2 и Ь фиксированы, at стремится к нулю. Тогда е(х)«а2 и п(е)« &/(2а2), что соответствует (G.18) при е = а2. 2. Пусть а\ и Ь фиксированы, а2 стремится к нулю. Тогда е(х) « а\х и п(е)-*-4-оо. Этот факт согласуется со сде¬ ланным нами сразу после (G.15) замечанием, что если е(0) = 0 и е/(0)< 1, то е-кардинальность равна беско¬ нечности (х* = 0). 3. Пусть а\ и а2 фиксированы, Ь стремится к бесконеч¬ ности. Тогда е(х)= aix 4- а2 и п(е) « log Ь log(l/<7) ’ т. е. необходимое количество вычислений значений функции пропорционально логарифму длины отрезка, а не самой длине, как в (G.18). □
Дополнение Н Дальнейшие результаты о нижних оценках В этом дополнении приводится ряд дополнительных резуль¬ татов, касающихся нижних оценок локальных радиусов ин¬ формации и погрешностей алгоритмов. Мы выясним, как влияет на радиус приближённой информации требование реа¬ лизуемости алгоритмов, т. е. их принадлежности классу R = R(NP). Для этого введем «расстояние» между множе¬ ствами S(f, г|) и Q(MP(f)) и покажем, что оно служит ниж¬ ней оценкой радиуса приближённой информации. Пусть Np— приближённый информационный оператор, а R = R(NP)—некоторый класс реализуемых алгоритмов. На¬ помним, что локальным радиусом информации называется величина r(R, Np, f) = inf{6: П S(f, 6)Л<Жр(/))#=0). МТр' f) При б > r(R, Np, f) пересечение S(f, б)П Q(Np(f)) непусто. Параметр б характеризует расстояние между множествами S(f,6) и Q(Np(f)). Назовём функцию dist (7?, Л f) = inf{T]: S(f, n) A Q (Np (/))=/= 0} (Н.1) локальным расстоянием, а функцию dist (7?, Np, f)= sup dist (7?, f, f) f^V(Wp. f) (=inf(n: S(f, n)AQ(^P(f))^ 0 Vf^V(Np, f)}) (H.2) — глобальным расстоянием. Для задачи аппроксимации оператора со значениями в нормированном линейном пространстве dist (/?, f, f) = inf {|| S (f) - x ||: x <= Q (Np (f))} — это обычное расстояние от S(f) до множества Q(Np(f)), поэтому мы и назвали dist(7?, f, f) и dist (7?, Np, f) расстоя¬ ниями. Введённые понятия иллюстрирует рис. Н.1. На этом рисунке Л и f2 — элементы из V(Np,f), a dist,; = dist (7?, ft, f), 7 = 1,2.
170 Дополнение Н Лемма Н.1. r(R, Np, f)>max(r(Wp, f), dist (R, Np, f)). □ (H.3) Доказательство. Поскольку r(R, Np, r(Np, f) для любого R, достаточно убедиться, что r(R, Np, f) > dist(R, Np, f). Пусть т| < dist(R, Np, f). Тогда в силу (H.2) существует t е V(Np,f), для которого пересечение S(f, ц)П Q(Np(f)) пусто. Следовательно, r\ r(R, Np,f), откуда dist(R, Np, f) r(R, Np,f). Тем самым (Н.З) доказано. □ Лемма Н.1 говорит, что локальный радиус приближённой информации (для класса R) ограничен снизу локальным ра¬ диусом приближённой информации и глобальным расстоя¬ нием. Для задачи аппроксимации оператора со значениями в нормированном линейном пространстве при р = 0 имеем по лемме 3.2 гл. 3 г (R, N, f) < 2r (JV, f) + dist (R, N, f). (H.4) Покажем, что в общем случае никакая линейная комбинация r(Np,f) и dist(R, Np, f) не мажорирует локальный радиус r(R,Np,f). Для этого приведем пример, в котором r(R,Np,f) = 4-00, a r(Np, f) и dist (R, Np, f) конечны. Лемма Н.2. Существует задача, в которой r(Np,f)' и dist(R, Np, f) конечны, a r(R, Np,f)= + оо. □ Доказательство. Рассмотрим сформулированную в ходе до¬ казательства теоремы А.1 задачу с d = +оо. Пусть F ={0, 2} и R = (<р: ср (Л) е F VA). Тогда Q(h)= F. Так как f <= S(f, т|) Vr|>0, то пересечение S(f, т|) П Q(Np(f)) непусто, значит.
Дальнейшие результаты о нижних оценках 171 dist(/?, Np, f) = 0. Вспомним, что r(Np, f)== I. В то же время 5(0, 6) Л 5(2, д) Л Q(WP(/))<=[-1, +1] Л [1, 3] Л {0, 2} = 0, следовательно, r(R, Np, f) = -фоо. Лемма доказана. □ Есть два случая, в которых неравенство (Н.З) переходит в равенство. Если R = Ф(М),то dist (У?, Np, f) = 0 и r(R, Np, f) = r(Np,f). Если Np — полная информация, т. е. множество V(Np,f) одноточечно и r(Np, /) = 0, то r(R,Np,f) = dist (/?, Np, f). Для удобства ссылок зафиксируем эти два на¬ блюдения в виде отдельного утверждения: Следствие Н.1. Если R = Ф(МР) или информация Np полна, то r(R, Np, f) = шах (г (Мр, f), dist(/?, Np, f)). □ (H.5) Теперь оценим снизу погрешность реализуемого алгоритма ср, использующего приближённую информацию Np. Для задан¬ ного элемента у q>(Np(F)) рассмотрим его прообраз Ф-1 (*/) = {Мр (П- (Np (f)) = у} (Н.6) и множество W(<f,y)= U V(Np,f) (Н.7) Wp(f)s<p '(У) всех элементов f, для которых у служит 6-приближением, т. е. принадлежит S(f, 6), где 6 > е(<р). Множества (Н.6) и (Н.7) схематично показаны на рис. Н.2, на котором i = 1,2 и Nptf^y-Hy).
172 Дополнение Н Чтобы оценить е(ср) снизу, введём по аналогии с (Н.1) и (Н.2) функцию локального расстояния для алгоритма <р dist (7?, <р, j/) = inf{T): S(fh n) fl Q (Np (f i)) ¥= 0 VA <= ЯЧФ, !/)} (Н.8) и функцию глобального расстояния для ср dist (R, ф) = sup {dist (7?, ф, у): у = ф (7Vp (/)), f е F}. (Н.9) Лемма Н.З. Если ф е R = R (Np), то е(ф)>тах(г (7Vp), dist (7?, ф)). □ (Н.10) Доказательство. Поскольку е(ф) r(R, Np) r(Np), доста¬ точно убедиться, что е(ф)^ dist (7?, ф). Пусть т] < dist (7?, ф). Тогда найдётся элемент у = ф (Np (/)),/ е F, для которого S(fi, n)fl Q(^p(fi))¥= 0 при некотором /i U7(ф, у). Следо¬ вательно, е(ф, Так как е(ф) е(ф, /1), а т] может быть сколь угодно близким к dist (Я, ф), из этого неравен¬ ства вытекает, что е(ф) dist (7?, ф). Лемма доказана. □ Покажем, что в общем случае погрешность нельзя оценить сверху через r(Np) и dist(7?, ф). Лемма Н.4. Существует алгоритм ф е R = R (Мр), для кото¬ рого е(ф)= +оо, в то время как величины г(7Ур) и dist(7?, ф) конечны. □ Доказательство. Рассмотрим задачу, о которой шла речь в ходе доказательства леммы Н.2. Пусть ф — интерполяцион¬ ный алгоритм. Тогда, по теореме А.1, е(ф)=+°°- Заметим, что №(ф, у) = F. Так как Q (/i) — F, то S (f, 6) П F = {{} V6 О и, следовательно, dist (7?, ф) = 0. Для завершения доказатель¬ ства достаточно вспомнить, что г(7Ур) = 1. □ Пусть ф — центральный реализуемый алгоритм. Есть два случая, в которых неравенство (Н.10) переходит в равенство. Если 7? = Ф(7УР), то dist(7?, ф) = 0 и е(ф) = r(Np). Если 7УР — полная информация, то г(7Ур) = 0 и, поскольку ф — централь¬ ный алгоритм, е (ф, f) = inf {б: S (f, б) Л Q (7Ур (/)) 0} < dist (R, Ф, у), тле y = NP(f) и feW^y). Отсюда и из (Н.10) вытекает, что е(ф) = dist (7?, ф). Для удобства ссылок зафиксируем эти наблюдения в виде отдельного утверждения: Следствие Н.2. Пусть ф — центральный алгоритм, ф е R ==> R(NP). Если R = <b(Np) или Np — полная информация, то е(ф) = шах(г (7Vp), dist (7?, ф)). □
Литература Abelson Н. [78] Towards a theory of local and global in computation, J. Theoret. Comptr. Sci. 6 (1978), 41—67. [80] Lower bounds on information transfer in distributed computations, J. As¬ soc. Comput. Mach. 27 (1980), 384—392. Berlekamp E. R. [68] Algebraic Coding Theory, McGraw-Hill, New York, 1968. [Имеется пе¬ ревод: Берлекэмп Э. Алгебраическая теория кодирования. — М.: Мир, 1971.] Bojanczyk А. [84] Complexity of solving linear systems in different models of computa¬ tion, SIAM J. Numer. Anal. 21 (1984), 591—603. Borodin A., Munro I. [75] The Computational Complexity of Algebraic and Numeric Problems, American Elsevier, New York, 1975. De Millo R. A., Dobkin D., Lipton R. J. [78] Even data bases that lie can be compromised, IEEE Trans, on Software Engineering SE-4 (1978), 73—75. Denning D. E., Denning P. J., Schwartz M. D. [79] The tracker: a threat to statistical database security, ACM Trans, on Database Systems 4 (1979), 76—96. Dobkin D., Jones A. K., Lipton R. J. [79] Secure databases: Protection against user influence, ACM Trans, on Da¬ tabase Systems 4 (1979), 97—106. Gal S., Micchelli A. C. [80] Optimal sequential and non-sequential procedures for evaluating a functional, App. Anal. 10 (1980), 105—120. Garey M. R., Johnson D. S. [79] Computers and Intractability, W. H. Freeman, San Francisco, Califor¬ nia, 1979. [Имеется перевод: Гэри M., Джонсон Д. Вычислительные машины и труднорешаемые задачи. — М.: Мир, 1982.] Gentleman W. Н. [78] Some complexity results for matrix multiplication on parallel proces¬ sors, J. Assoc. Comput. Mach. 25 (1978), 112—115. Hamming R. W. [80] Coding and Information Theory, Prentice-Hall, Englewood Cliffs, New Jersey, 1980. Johnson D. S. [74] Fast algorithms for bin packing, J. Comptr. Syst. Sci. 8 (1974), 272— 314. Kielbasinski A. [81] Interative refinement for linear systems in variable-precision arithme¬ tic, BIT 21 (1981), 97—103. Lorentz G. G. [66] Approximation of Functions, Holt, New York, 1966.
174 Литература Marschak J., Radner R. [72] Economic Theory of Teams, Cowles Foundation for Research in Eco¬ nomics, Monograph no. 22, Yale University Press, New Haven, 1972. Micchelli C. A. [75] Optimal estimation of linear functionals, IBM Research Rep. 5729 (1975). Micchelli C. A., Miranker W. L. [75] High order search methods for finding roots, J. Assoc. Comput. Mach. 22 (1979), 51—60. Micchelli C. A., Rivlin T. J. [77] A survey of optimal recovery, in Optimal Estimation in: Approximation Theory (C. A. Micchelli and T. J. Rivlin, eds.), 1—54, Plenum Press, New York, 1977. Miller, Webb [75] Computational complexity and numerical stability, SIAM J. Comput. 4 (1975), 97—107. Pearl J. [76] Theoretical bounds on the complexity of inexact computations, IEEE Trans. Inform. Theory, IT-22 (1976), 580—586. Rabin M. O. [72] Solving linear equations by means of scalar products, in: Complexity of Computer Computations (R. E. Miller and J. W. Thatcher, eds.), 11—20, Plenum Press, New York, 1972. Rivest R. L., Meyer A. R., Kleitman D. J., Winklmann K., Spencer J. [80] Coping with errors in binary search procedures, J. Comptr. Syst. Sci. 20 (1980), 396—404. Rivest R. L., Vuillemin J. [76] On recognizing graph properties from adjacency matrices, Theoret. Comptr. Sci. 3 (1976), 371—384. Schonhage A., Strassen V. [71] Schnelle Multiplikation grosser Zahlen, Comput. 7 (1971), 281—292. Shannon С. E. [48] A mathematical theory of computations, Bell Syst. Tech. J. 27 (1948), 379—423, 623—656. Sikorski K. [82] Bisection is optimal, Numer. Math. 40 (1982), 111—117. [84] Optimal solution of nonlinear equations satisfying a Lipschitz condi¬ tion, Numer. Math. 43 (1984), 225—240. Thompson C. D. [80] A Complexity Theory of VLSI, Dissertation, Carnegie-Mellon Univ. (1980). Traub J. F., Wozniakowski H. [80a] A General Theory of Optimal Algorithms, Academic Press, New York, 1980. [Имеется перевод: Трауб Дж., Вожьняковский X. Общая тео¬ рия оптимальных алгоритмов. — М.: Мир, 1983.] [80b] On the Optimal Solution of Large Linear Systems, Dept, of Compu¬ ter Science Rep. Columbia Univ. (1980). [80c] Convergence and complexity of interpolatory — Newton iteration in a Banach space, Comp, and Maths, with Appls. 6 (1980), 385—400. [82] Complexity of linear programming, O. R. Letters 1 (1982), 59—62. Traub J. F., Wozniakowski H., Yemini Y. [81] Statistical Security of a Statistical Data Base, Dept, of Computer Scien¬ ce Rep., Columbia Univ. (1981). Trojan J. M. [80] Оптимальные итерационные методы решения нелинейных уравнений.— Диссертация (на польском), — Институт информатики при Варшав¬ ском университете, 1980.
Литература 175 Wasilkowski G. W. [83] Any Iteration for Polinomial Equations Using Linear Information lias Infinite Complexity, Th. Comp. Sci. 22 (1983), 195—208. Werschulz A. G. [83] Measuring uncertainty without a norm, Aequationes Mathematicae 26 (1983), 74—82. Yao A. C. [79] Some complexity questions related to distributive computing, Proc. 11th Ann. ACM Symp. on Theory of Computing, Atlanta, Georgia (1979), 209—213. [80] New algorithms for bin packing, J. Assoc. Comput. Mach. 27 (1980), 207—227. Ахиезер H. И. [65] Лекции по теории аппроксимации. — M.: Наука, 1965. Бахвалов Н. С. [71] Об оптимальности линейных методов приближения операторов на выпуклых классах функций. — Журнал вычисл. матем. и матем. физ., 1971, 11, с. 1014—1018. Корнейчук Н. П. [76] Экстремальные задачи теории приближения. — М.: Наука, 1976. Марчук А. Г., Осипенко К. Ю. [75] Наилучшее приближение функций, заданных с погрешностью в ко¬ нечном числе точек. — Мат. заметки, 1975, 17, с. 359—368. Сухарев А. Г. [76] Оптимальный поиск корня функции, удовлетворяющей условию Лип¬ шица.—Журнал вычисл. матем. и матем. физ., 1976, 16, с. 20—29.
Именной указатель Ахиезер Н. И. 76, 175 Бахвалов Н. С. 68, 175 Бояньчик (A. Bojanczyk) 107, 173 Брассфилд (N. К- Brassfield) 8 Васильковская (Anna Wasilkow- ska) 8 Васильковский (G. W. Wasilkow- ski) 7, 8, 98, 175 Вершульц (A. G. Werschulz) 8, 19, 175 Вожьняковская (Irena Wozniakow- ska) 8 Вожьняковский (H. Wozniakow- ski) 5, 7, 8, 74, 79, 100, 101, 103, 107, 109, 174 Вюйемэн (J. Vuillemin) 23, 109, 110, 174 Гэл (S. Gal) 68, 173 Джоунз (A. K. Jones) 107, 108, 173 Добкин (D. Dobkin) 107, 108, 173 Келбасиньский (A. Kielbasinski) 106, 107, 173 Колмогоров A. H. 143 Корнейчук H. П. 143, 175 Кунг (H. T. Kung) 8 Кэлавей (К- Calaway) 8 Липтон (R. J. Lipton) 107, 108, 173 Марчук А. Г. 32, 175 Маршак (J. Marschak) 114, 116, 174 Миллер (W. Miller) 105, 174 Мишелли (C. A. Micchelli) 8, 32, 68, 71, 79, 173, 174 Осипенко К. Ю. 32, 175 Рабин (М. О. Rabin) 23, НО, 111, 174 Ривест (R. L. Rivest) 21, 23, 88— 90, 109, 110, 174 Ривлин (Т. J. Rivlin) 32, 71, 174 Рэднер (R. Radner) 114, 116, 174 Сикорский (К. Sikorski) 8, 95, 97, 98, 174 Сухарев А. Г. 5, 7, 98, 175 Трауб Дж. (J. F. Traub) 5, 7, 8, 74, 79, 100, 101, 103, 107, 109, 174 Трауб Л. (L. Traub) 8 Трауб М. (Mimi Traub) 8 Троян (J. М. Trojan) 99, 174 Форри (М. С. Forry) 8 Хэмминг (R. W. Hamming) 112, 173 Чуян О. Р. 7 Шеннон (С. Е. Shannon) 112,174 Шёнхаге (A. Schonhage) 106, 174 Штрассен (V. Strassen) 106, 174 Эйбелсон (Н. Abelson) 23, 86, 87, 173
Именной указатель 177 Авторы, упоминаемые лишь в латинской транскрипции Berlekamp Е. R 84, 173 Borodin А. 76, 173 De Millo R. А. 108, 173 Denning D. E. 108, 173 Denning P. J. 108, 173 Garey M. R. 90, 92, 135, 173 Gentleman W. H. 86, 173 Johnson D. S. 90, 92, 135, 173 Kleitman D. J. 21, 88—90, 174 Lorentz G. G, 143, 173 Meyer A. R. 21, 88—90, 174 Miranker W. L. 79, 174 Pearl J. 114, 174 Schwartz M. D. 108, 173 Spencer J. 21, 88—90, 174 Thompson C. D. 86, 174 Winklmann K. 21, 88—90, 174 Yao A. C. 23, 86, 90—92, 175 Yemini Y. 109, 174
Предметный указатель адаптивная информация 55, 56 оптимальная п-я 59, 69 алгоритм 17, 24, 35 — бисекционный 93 — Бояньчика 107 — внутренний 31, 126 — допустимый 72, 73 — идеальный 11, 17, 24, 35, 37 — интерполяционный 30, 118 — Келбасиньского 106 — линейный 78 — минимальной невязки 100 — недетерминированный 25, 135 — непрямой 91 — оптимальный по сложности 74 в классе Y 75 точности 27, 40, 53 в наихудшем случае 40, 54 для R 54 для R 53 — прямой 91 — реализуемый 44 — сильно оптимальный по точно¬ сти 27, 40, 53 в наихудшем слу¬ чае 40, 54 для R 54 для R 53 устойчивый 105 — средней точки 126 — устойчивый 104—105 — центральный 27, 40, 53, 156 — Шёнхаге—Штрассена 106 — FF 92 — FFD 92 — ^-недетерминированный 135 — RFF 92 — RFFD 92 — б-интерполяционный 117 алгоритма погрешность см. по¬ грешность алгоритма база данных 107 — — частично доступная 107 бинарный поиск 20—21 непрерывный 88 бисекция 57, 93 Бояньчика алгоритм 107 вероятностная модель 10 внутренний алгоритм 31, 126 внутренняя точка 126 выпуклое множество 126 глобальная погрешность алгоритма 25, 35, 37 ^-недетерминированного ал¬ горитма 137 глобальное расстояние 169, 172 глобальный радиус информации 22, 155 наихудшей приближённой информации 37, 52 для R 52 приближённой информации 35, 46 для R 46 декодирование 112 диаметр информации 131 глобальный 132 локальный 31, 132 — множества 131 допустимый алгоритм 72, 73 — информационный оператор 73 задача бинарного поиска 20 — интегрирования 21 — непрерывного бинарного пои¬ ска 88 — поточечной аппроксимации 159 — равномерной аппроксимации 159 — регулярная 128 — NP-полная 136 — р-значного поиска 79 задачи элемент 19 защита баз данных 108
Предметный указатель 179 идеальный алгоритм 11, 17, 24, 35, 37 интерполяционный алгоритм 30, 118 информации диаметр см. диаметр информации — радиус см. радиус информации — теория 112 информационная сложность 73 информационной ошибки оператор 33 информационный оператор 20 (см. также информация) допустимый 73 приближённый 68 простейший 55, 56 точный 68 информация 20 (см. также инфор¬ мационный оператор) — адаптивная 55, 56 оптимальная п-я 59, 69 — неадаптивная 55, 56 оптимальная п-я 59, 69 — неполная 21 — оптимальная приближённая 68 — полная 21 — совокупная 20 кардинальное число 59, 69 среднее 113 кардинальность 55, 56, 59, 69 — средняя 113 Келбасиньского алгоритм 106 класс адаптивных информацион¬ ных операторов кардинальности не выше п 58 — внутренних алгоритмов 31 — допустимых алгоритмов 82 — идеальных алгоритмов 24, 35, 37, 81 использующих информа¬ цию 44 — интерполяционных алгоритмов 30 — неадаптивных информацион¬ ных операторов кардинальности не выше п 58 — ортогонально-инвариантный 101 — простейших информационных операторов 63 — реализуемых алгоритмов 44, 81 — NP 136 — Р 136 код Хэмминга 85 кодирование 112 Холмогорова ^-поперечник 143 комбинаторная сложность 73 линейный алгоритм 78 локальная погрешность алгоритма 25, 35, 37, 155 — — ^-недетерминированного ал¬ горитма 137 локальное расстояние 169, 172 локальный диаметр информации 31 — радиус информации 22, 155 ^-недетерминированный 137 наихудшей приближённой информации 36, 51 для /? 51 приближённой информации 35, 45 для R 45 минимальной невязки алгоритм 100 минимальный л-й радиус адаптив¬ ной информации 58, 69 неадаптивной информа¬ ции 58, 69 модель вероятностная 10 — наихудшего случая 10 — среднего случая 10 — а 13 — Р 13 наихудшего случая модель 10 наихудшей приближённой инфор¬ мации радиус глобальный 37, 52 для R 52 локальный 36, 51 для R 51 наихудший приближённый инфор¬ мационный оператор 36 неадаптивная информация 55, 56 оптимальная п-я 59, 69 недетерминированный алгоритм 25, 135 неполная информация 21- неполный информационный опера¬ тор 21, 35 непрерывный бинарный поиск 88 непрямой алгоритм 91 НЛП-задача 12, 18 — линейная 146 обобщённая 146 оператор информационной ошибки 33 — информационный 20
180 Предметный указатель — решения 19 операция простейшая 73 оптимальная п-я информация 59 оптимальный индекс класса 101 матрицы 101 — по сложности алгоритм 74 в классе Т 75 точности алгоритм 27, 40, 53 в наихудшем случае 40 для R 53 ортогонально-инвариантный класс 101 ОТОА 8 погрешность алгоритма глобаль¬ ная 25, 35, 37, 155 локальная 25, 35, 155 средняя 115 полная информация 21 полный информационный оператор 21, 35 приближённая информация 33 приближённой информации ра¬ диус см. радиус приближённой информации приближённый информационный оператор 33 наихудший 36 неполный 35 полный 35 принцип противодействия 21 простейшая операция 73 простейший информационный опе¬ ратор 55, 56 противник 21 противодействия принцип 21 прямой алгоритм 91 радиус адаптивной информации n-й минимальный 58, 69 — информации глобальный 22, 155 локальный 22, 155 средний 115 й-глобальный 137 й-локальный 137 й-недетерминированный гло¬ бальный 137 локальный 137 n-й минимальный 139 — множества 132 — наихудшей приближённой ин¬ формации 37, 52 для R 52 — неадаптивной информации п-й минимальный 58, 69 —* приближённой информации гло¬ бальный 35, 46 для R 46 локальный 35 — n-й минимальный 58, 69, 139 расстояние глобальное 169, 172 — локальное 169, 172 — Хэмминга 34 реализуемый алгоритм 44 регулярная задача 128 решения оператор 19 — элемент 19 сильно оптимальный по точности алгоритм 27, 40, 53 в наихудшем случае 40, 54 для R 53 — устойчивый алгоритм 105 сложность 75 — алгоритма 74 — задачи 72, 75 — информационная 73 — комбинаторная 73 — средняя 114 совокупная информация 20 среднего случая модель 10 среднее кардинальное число 113 средней точки алгоритм 126 средний радиус информации 115 средняя кардинальность 113 — погрешность алгоритма 115 — сложность алгоритма 114 для класса Ф1 114 — точка 126 строго выпуклое множество 126 теорема Шеннона о кодировании в отсутствие помех 113 — Эйбелсона 87 теория информации 112 тест 110 устойчивый алгоритм 104—105 Хэмминга код 85 — расстояние 34 центр 27, 40, 53 центральный алгоритм 27, 40, 53, 156 частично доступная база данных 107 число обусловленности 102
Предметный указатель 181 шар 138 — й-мерный 143 Шеннона теорема о кодировании в отсутствие помех 113 Шёнхаге — Штрассена алгоритм 106 Эйбелсона теорема 87 элемент задачи 19 — решения 19 — с-сложный 66, 70 с-сложность 66, 70 й-глобальный радиус информации 137 й-локальный радиус инбормации 137 й-мерный шар 143 ^-недетерминированная е-карди- нальность 139 ^-недетерминированный алгоритм — радиус информации 136 n-й минимальный 139 й-поперечник Колмогорова 143 n-й минимальный радиус инфор¬ мации 58, 69 й-недетерминирован- ный 139 n-я оптимальная информация 59, 69 NP-полная задача 136 р-значный поиск 79 е-кардинальность 59 — адаптивной информации 69, 157 — неадаптивной информации 69, 157 — й-недетерминированная 139 е-приближение 19 е-сложность 10, 74 — в классе Т 75 е-энтропия 79 б-интерполяционный алгоритм 117
Оглавление От редактора перевода .... 5 Предисловие к русскому изданию . 6 Предисловие 8 Обзор содержания книги 9 Глава 1. Точная информация 17 1.1. Введение 17 1.2. Основные определения 18 1.3. Нижние оценки 21 1.4. Верхние оценки 27 Глава 2. Приближённая информация 32 2.1. Введение 32- 2.2. Приближённая информация 33 2.3. Нижние оценки 34 2.4. Верхние оценки 40 Глава 3. Реализуемые алгоритмы 43 3.1. Введение 43 3.2. Реализуемые алгоритмы 44 3.3. Нижние оценки 45 3.4. Верхние оценки 53 Глава 4. Оптимальная информация 55 4.1. Введение 55 4.2. Оптимальная точная информация 56 4.3. Адаптивность в сравнении с неадаптивностью 63 4.4. Оптимальная приближённая информация 68 Глава 5. Сложность 72 5.1. Введение 72 5.2. Модель вычислений 73 5.3. Понятия сложности 74 5.4. Примеры и замечания 75 1 75 2 77 3 79 5.5. Три класса алгоритмов 81 Глава 6. Приложения 83 6.1. Введение 83 6.2. Алгебраическая теория кодирования 83
Оглавление 183 6.3. Распределённые вычисления . 86 6.4. Непрерывный бинарный поиск 88 6.5. Упаковка в контейнеры 90 6.6. Нелинейные уравнения 93 1. Бисекция .93 2. Уравнения с липшицевыми функциями 95 3. Полиномиальные уравнения 98 6.7. Линейные уравнения 99 1. Большие линейные системы 100 2. Фиксированная точность 103 3. Переменная точность 105 6.8. Некоторые другие приложения 107 1. Защита баз данных 107 2. Булевы функции 109 3. Линейные уравнения ПО 6.9. Модель среднего случая: теория информации и теория принятия решений 111 1. Теория информации 112 2. Теория принятия решений 114 Дополнение А. Интерполяционные алгоритмы 117 Дополнение В. Внутренние алгоритмы 125 Дополнение С. Диаметр информации 131 Дополнение D. Недетерминированные алгоритмы 135 Дополнение Е. Обобщённая линейная НЛП-задача 146 Дополнение F. Обобщённая мера погрешности 154 Дополнение G. Поточечная аппроксимация 158 Дополнение Н. Дальнейшие результаты о нижних оценках . . . .169 Литература 173 Именной указатель 176 Предметный указатель 178
Научное издание Джозеф Фредрик Трауб, Г. В. Васильковский, Хенрик Вожьняковский ИНФОРМАЦИЯ, НЕОПРЕДЕЛЕННОСТЬ, СЛОЖНОСТЬ Заведующий редакцией доктор фиэ.-мат. наук профессор | Б. В. Шабат7) Зам. зав. редакцией А. С. Попов Ст. научи, редактор В. И. Авербух Мл. научн. редактор Л. А. Королёва Художник О. С. Василькова Художественный редактор В. И. Шаповалов Технический редактор Л. X. Абдулла Корректор М. А. Смирнов ИБ № 6175 Сдано в набор 27.05.87. Подписано к печати 16.02.88. Формат 60 X 90'Ав. Бумага кн.-журн. Печать высокая. Гарнитура литературная. Объем 5,75 бум. л. Усл. печ. л. 11,50. Усл. кр.-отт. 11,88. Уч.-изд. л. 9,37. Изд. Ms 1/5163. Тираж 8000 экз. Зак. 645. Цена 1 р. 50 к. Издательство «Мир» 129820, ГСП, Москва 1-й Рижский пер., 2, Ленинградская типография № 2 головное предприятие ордена Трудового Красного Знамени Ленинградского объединения «Техническая книга» им. Евгении Соколовой Союзполиграф- прома при Государственном комитете СССР по делам изда¬ тельств, полиграфии и книжной торговли. 198052, г. Ленинград, Л-52, Измайловский проспект, 29.
I p. SO к. Нашему читателю уже знакомы книги Дж. Трауба «Итерационные методы решения уравнений» (М.: Мир, 1985) и Дж. Трауба и X. Вожьняковского «Общая тео¬ рия оптимальных алгоритмов» (М.: Мир, 1983). Их ло¬ гическим продолжением и развитием является настоя¬ щая монография. Она раздвигает рамки общей теории оптимальных алгоритмов, позволяя единообразно изу¬ чать более широкий круг задач. Это достигается за счёт предложенного авторами способа учёта неопределён¬ ности, не требующего задания ни нормы, ни метрики в пространстве решений. Из предисловия редактора перевода В этой книге мы строим общую математическую теорию оптимального уменьшения неопределённости. Мы ставим перед собой две задачи. Во-первых, разра¬ ботать общую систему понятий, которая позволит фор¬ мулировать и решать вопросы, связанные с неопреде¬ лённостью. ... Во-вторых, мы хотим построить опти¬ мальные или почти оптимальные алгоритмы решения ряда прикладных задач. Из «Обзора содержания книги» ISBN 5—03—000991—4 (русск.) ISBN 0—201—07890—2 (англ.)