Текст
                    АНДРЕЙ НИКОЛАЕВИЧ
КОЛМОГОРОВ
60-е годы


А.Н.КОЛМОГОРОВ ТЕОРИЯ ИНФОРМАЦИИ и ТЕОРИЯ АЛГОРИТМОВ Ответственный редактор академик Ю.В.ПРОХОРОВ МОСКВА «НАУКА» 1987
УДК 519.72 + 510.5 КолмогоровА. Н. Теория информации и теория алгоритмов.— М.: Наука, 1987.-304 с. В настоящую третью книгу избранных трудов академика А. Н. Колмого- Колмогорова включены работы по те ории информации и теории алгоритмов.^ их приложениям к различным областям знания. Комментарии специалистов дают представление о развитии работ А. Н. Колмогорова и современном состоя- состоянии рассматриваемых в них проблем. Редакционная коллегия: Н. Н. БОГОЛЮБОВ (главный редактор), С. М. НИКОЛЬСКИЙ, А. М. ОБУХОВ, Ю. В. ПРОХОРОВ, В. М. ТИХОМИРОВ, А. Н. ШИРЯЕВ Составитель А. Н. ШИРЯЕВ Рецензенты: С. И. АДЯН, Ю. И. МАНИН Андрей Николаевич Колмогоров ТЕОРИЯ ИНФОРМАЦИИ И ТЕОРИЯ АЛГОРИТМОВ Утверждено к печати Отделением катематики Академии наук СССР Редактор В. И. Битюцков. Редактор издателютва Н. Н. Левнова. Художник Л. С. Эрман. Художественный редактор С. А. Литвак. Технический редактор 3. Б. Павлюк. Корректоры Л. В. Лукичева, И. А. Талалай ИБ № 35678 Сдано в набор 29.0S.86. Подписано к печати 24.02.67. Т-С6114. Формат 60x90»/" Бумага книжно-журнальная. Гарнитура обыкновенная новая. Печать высокая Усл. печ. л. 19,12. Усл. кр. отг. 20,12. Уч.-изд. л. 18,9. Тираж 5700 эка. Тип. зак. 3258 Цена 1 р. 60 к. Ордена Трудового Красного Знамени издательство «Наука» 117864, ГСП-7, Москва, B-4S5, Профсоюзная ул., 90 2-я типография издательства «Наука» 121099, Москва, Г-В9, Шубинский пер., 6 1501000000-085 К 042@2V87— И4-87-П © Издательство «Наука», 1987 г.
ОТ РЕДАКЦИИ В соответствии с постановлением Президиума АН СССР первая книга избранных трудов академика А. Н. Колмогорова «Математика и механика» (М.: Нау- Наука) вышла в свет в 1985 г., вторая книга «Теория вероят- вероятностей и математическая статистика» (М.: Наука) — в 1986 г. В настоящую третью книгу включены труды А. Н. Колмогорова по теории информации и теории алгоритмов. Кроме того, в книгу помещены найденные недавно в архивах автора его студенческий «Доклад ма- математическому кружку о квадрильяже» и вторая часть его работы «Об операциях над множествами» (ее первая часть опубликована в первой книге избранных трудов). Подготовка третьей книги избранных трудов А. Н. Колмогорова осуществлена Ю. В. Прохоровым и А. Н. Ширяевым.
ПРИВЕТСТВИЕ А.Н.КОЛМОГОРОВУ ОТ МОСКОВСКОГО МАТЕМАТИЧЕСКОГО ОБЩЕСТВА* Дорогой Андрей Николаевич! Правление Московского математического общества, члены Об- Общества сердечно поздравляют Вас с 80-летним юбилеем. Вся Ваша научная Жизнь самым тесным образом связана с Московским ма- математическим обществом. Вы впервые выступили на заседании Об- Общества 8 октября 1922 г. с «Примером ряда Фурье—Лебега, расхо- расходящегося почти всюду», сделавшего Вас, тогда 19-летнего студен- студента, сразу известным всему математическому миру. Начиная с этого момента, Вы выступали на заседаниях Общества с большими док- докладами на самые разнообразные темы 98 раз. Список Ваших выступлений поражает своей широтой. Доста- Достаточно перечислить лишь названия некоторых Ваших докладов: «О всюду расходящемся ряде Фурье» A6.11.1926); «Об одной общей схеме теории вероятностей» B0.03.1928); «Новая интерпретация интуиционистской логики» A8.12.1928); «О геометрических идеях Plucker'a и Klein'a» A1.12.1932); «Цепи Маркова и обратимость законов природы» E.01.1935); «Статистическая теория кристаллизации застывших металлов» A6.02.1937); «Современные вопросы теоретико-множественной геометрии» B2.12.1938); «Стационарные последовательности элементов гильбертова про- пространства» D.06.1939); «О двух видах аксиоматического метода» A8.03 и 1.04.1941)} «О мерах, инвариантных по отношению к группе преобразова- преобразований» A6.04.1941); «Унитарные представления унитарных групп» B.02.1944); «Математическая теория турбулентности» C.10.1944); «Строение полных метрических алгебр Буля» (9.12.1947); «Наилучшее приближение комплексных функций» B4.02.1948); «О некоторых математических задачах, связанных с контролем производства» (9.01.1951); «Двузначные функции двузначных переменных и применение их к релейно-контактным схемам» B7.11.1951); «О спектрах динамических систем на торе» C0.09.1952); «О почти периодических движениях твердого тела вокруг не- неподвижной точки» B6.05.1953); «Оценки минимального числа элементов е-сетей в различных функциональных классах и их применение к вопросу о иредстави- • УМН, 1983, т. 38, вып. 4, с. 3—5.
Приветствие А. Н. Колмогорову от Московского математического о-ва 5 мости функций нескольких переменных суперпозициями функций меньшего числа переменных» B7.04.1954); «О некоторых асимптотических характеристиках вполне огра- ограниченного метрического пространства» E.06.1956); «Равномерные предельные теоремы для сумм независимых сла- слагаемых» A8.12.1956); «Малые знаменатели в задачах механики и анализа» A3.01. 1956); «Что такое информация» D.06.1961); «Самоконструирующиеся аппараты» B1.11.1961); «Вычислимые функции и основания теории информации и тео- теории вероятностей» A9.11.1963); «Эксперимент и математическая теория в изучении турбулент- турбулентности» A8.05.1965); «Статистическая гидродинамика океана» B4.02.1970); «Сложность задания и сложность построения математических объектов» B3.11.1971); «О статистических решениях уравнений Навье—Стокса» A8.01. 1978). Вы не раз выступали с обзорными докладами, которые послу- послужили источником идей дальнейших исследований: «Меры и распределения вероятностей в функциональных прост- пространствах» C0.11.1948); «Решенные и нерешенные задачи, связанные с 13-й проблемой Гильберта» A7.05.1960); «Математические методы исследования русского стиха» B7.12. 1960); «О равномерных предельных теоремах для сумм независимых переменных» B6.03.1963); «Сложность алгоритмов и объективное определение случайно- случайности» A6.04.1974). Андрей Николаевич, Вы были инициатором и докладчиком многочисленных заседаний Общества, посвященных обсуждению проектов статей, подготовленных для «Большой Советской Энци- Энциклопедии». В 1938 г. A0 марта) было проведено заседание, посвя- посвященное обсуждению Вашей знаменитой энциклопедической статьи «Математика». И еще несколько раз Вы выступали с проектами Ваших статей для «Большой Советской Энциклопедии»: «Аксио- «Аксиома», «Бесконечно малая» A8 и 19.10.1949) и др. С большим интересом проходили заседания Общества с Ваши- Вашими докладами: «Развитие в СССР математических методов познания природы» A0.11.1937); «О критике Остроградского на работы Лобачевского» B9.09. 1948); «Развитие математики в советскую эпоху» B3.12.1949); «Элементы математики Николая Бурбаки» B9.05.1956);
0 Приветствие А. Н. Колмогорову от Московскою математического о-ва «О некоторых чертах современного этапа развития математи- математики» B1.04.1959); «Из опыта работы» B5.04.1963); «О Международном математическом конгрессе в Амстердаме» B8.09.1954); «О научной командировке во Францию, ГДР и Польшу» B8.02, 1956). Вы всегда придавали большое значение обсуждению широкой математической общественностью вопросов школьного образова- образования. 22 и 28 ноября 1937 г. было проведено заседание Общества, по- посвященное обсуждению составленного Вами и П. С. Александро- Александровым плана нового учебника элементарной алгебры. Вами сделаны следующие доклады: «О проекте программы по математике для средней школы» C.03.1946); «О проекте программ для средней школы» A7.02.1948); «О факультативных занятиях по математике в средней школе в 1967/68 учебных годах» A4.02.1967). Дорогой Андрей Николаевич, Вы — член Математического об- общества с 1 февраля 1930 г., почетный член — с 28 апреля 1953 г,, сейчас Вы — президент нашего Общества, и можно смело сказать, что вместе с П. С. Александровым Вы определили лицо современ- современного Московского математического общества. Ваш юбилей — это праздник для всех нас. Примите, дорогой Андрей Николаевич, наши чувства глубокого к Вам уважения и преклонения перед Вами. Доброго Вам здоровья и радостей! Правление Московского математического общества
АНДРЕЙ НИКОЛАЕВИЧ КОЛМОГОРОВ* (К восьмидесятилетию со дня рождения) Н. Н. Боголюбов, Б. В. Гнеденко, С. Л. Соболев 25 апреля 1983 г. исполнилось восемьдесят лет со дня рождения Андрея Николаевича Колмогорова. В приветствии Отделения ма- математики АН СССР, Московского математического общества и ре- редакционной коллегии журнала «Успехи математических наук» к семидесятипятилетнему юбилею Андрея Николаевича было сказано: «Вы внесли выдающийся вклад в развитие современной математики и ее приложений. Ваши фундаментальные исследова- исследования определили лицо многих областей математики XX в. Теория тригонометрических рядов, теория меры, теория множеств, теория интеграла, конструктивная логика, топология, теория приближе- приближений, теория вероятностей, теория случайных процессов, теория информации, математическая статистика, динамические системы, конечные автоматы, теория алгоритмов, математическая лингвис- лингвистика, теория турбулентности, небесная механика, дифференциаль- дифференциальные уравнения, 13-я проблема Гильберта, теория стрельбы, при- приложение математики к проблемам биологии, геологии, кристалли- кристаллизации металлов — вот неполный перечень областей математики, ее приложений, которые Вы обогатили своими глубокими идеями. Вы всегда придавали большое значение приложениям математики и ее связям с другими науками. Исключительная широта Ваших научных интересов, дар педагога всегда привлекали к Вам талант- талантливую молодежь. Вами создана всемирно известная научная шко- школа. Представители этой школы успешно работают в самых различ- различных областях математики и других естественных наук» х. В приветствии к семидесятилетнему юбилею Андрея Николае- Николаевича от Президиума АН СССР, в частности, отмечалось: «Большой вклад в распространение математических знаний Вы внесли, воз- возглавляя Отдел математики в «Большой Советской Энциклопедии». Вы создали большую научную школу, из которой вышли многие крупные ученые. Вы принимаете активное участие в деятельности Отделения математики Академии наук СССР. Общеизвестны Ваши заслуги в деле развития высшего образования в нашей стране...» 2. А. Н. Колмогоров родился в Тамбове. Его отец был агрономом. Мать Андрея Николаевича скончалась при его рождении. Заботы * УМН, 1983, т. 38, вып. 4, с. 11—23. 1 УМН, 1978, т. 33, вып. 2, с. 212—213. 2 УМН, 1973, т. 28, вып. 5, с. 3.
8 Н. Н. Боголюбов, Б. В. Гнеденко, С. Л. Соболев по уходу за ребенком взяла на себя сестра матери Вера Яковлевна, независимая женщина, обладавшая высокими общественными идеа- идеалами. Эти идеалы она передала племяннику, воспитав в нем чув- чувство ответственности, самостоятельность суждений, нетерпимость к безделию и плохо выполненному поручению, стремление пони- понимать, а не только запоминать. Он рано начал работать и перед по- поступлением в Московский университет некоторое время служил проводником на железной дороге. Осенью 1920 г. Андрей Николаевич поступил в Московский университет, но определил себя как математика не сразу. Долгое время наряду с математикой он увлекался русской историей, при- принимал активное участие в семинаре профессора С. В. Бахрушина. Им было выполнено серьезное научное исследование по писцовым книгам XV—XVI вв. о земельных отношениях в древнем Новгоро- Новгороде. Известно, что Андрей Николаевич высказывал в 20-х годах ги- гипотезу о путях заселения верховьев Пинеги и что эта гипотеза Колмогорова нашла подтверждение в ходе организованной в эти места экспедиции П. С. Кузнецова. Интересы А. Н. Колмогорова в области гуманитарных наук с новой силой и новыми возможностями вспыхнули в 60-е годы, когда Андрей Николаевич уделил много сил и внимания вопросам стихосложения и применению к изучению стиха математических методов; он писал статьи, привлекал к работе молодежь, участво- участвовал в научных конференциях и выступал с докладами на эти темы. Систематическая работа началась в 1960 г., когда А. Н. Колмого- Колмогоров осуществил свой давний замысел и развернул на кафедре тео- теории вероятностей и в только что им созданной проблемной стати- статистической лаборатории исследования по математическим методам в языкознании. Эти исследования сразу вызвали широкий интерес и доверие среди специалистов в области языка и литературы. И уже в 1961 г. на IV Всесоюзном математическом съезде в Ленин- Ленинграде и затем на совещании в Горьком, посвященном применению математических методов в изучении языка художественных произ- произведений, молодые сотрудники Андрея Николаевича докладывали первые результаты по вероятностным методам стиховедения и определению энтропии русской речи путем вероятностного экспе- эксперимента. Но вернемся к юношеским годам Андрея Николаевича. Боль- Большое влияние на формирование А. Н. Колмогорова как математика оказал семинар В. В. Степанова по тригонометрическим рядам. На семинаре перед участниками возникали нерешенные вопросы, ответы на которые казались насущными. В 1922 г., после того как А. Н. Колмогоровым была выполне- выполнена его первая самостоятельная работа (о порядке величины коэф- коэффициентов Фурье), он стал учеником Н. Н. Лузина. С участия в семинаре В. В. Степанова и последовавших затем занятий под руководством Н. Н. Лузина начался первый твор-
Андрей Николаевич Колмогоров ческий период в жизни Колмогорова-математика. Этот период был характерен тем, что постановки задач и направленность мысли Колмогорова находились в русле основных устремлений Москов- Московской математической школы того времени. В частности, под влиянием работ М. Я. Суслина, Н. Н. Лу- Лузина и П. С. Александрова у А. Н. Колмогорова возникло жела- желание разработать общую теорию операций над множествами. Уже весной 1922 г. А. Н. Колмогоров завершил большое исследование по теории операций над множествами. Им был введен очень широ- широкий класс операций над множествами — бя-операции. По не за- зависящим от автора причинам эта работа была опубликована лишь в 1928 г. Она привлекла внимание исследователей, и зало- заложенная в ней идея развивалась в дальнейшем рядом ученых — Л. В. Канторовичем, А. А. Ляпуновым и другими. В июне 1922 г. А. Н. Колмогоров построил пример ряда Фурье—Лебега, расходящегося почти всюду, вслед за тем — ряда Фурье—Лебега, расходящегося в каждой точке. Оба эти примера были для специалистов полной неожиданностью и произ- произвели огромное впечатление. В теорию функций действительного» переменного вошел крупный исследователь. Интерес к теории ря- рядов Фурье и теории ортогональных функций Андрей Николаевич; сохранил на всю жизнь, время от времени возвращаясь к задачам из этой области исследований и передавая молодежи ряд вопросов для разработки. В теории функций А. Н. Колмогорова интересовали все основ- основные проблемы — вопросы дифференцирования, интегрирования,, теории меры, теории приближения функций и т. д. В каждый и» изученных им вопросов он вносил элемент существенной новизны. К 1924 г. относится возникновение интереса у А. Н. Колмо- Колмогорова к теории вероятностей — к той области науки, в которой его авторитет особенно велик. Первый шаг в этой новой для нег» области исследований был сделан совместно с А. Я. Хинчиным. Им удалось найти необходимые и достаточные условия сходимости рядов, члены которых являются взаимно независимыми случай- случайными величинами. Значение этой работы не исчерпывается тем, что в ней было получено полное решение важной задачи; в ней были созданы основы метода, который затем многократно и успешно использовался для решения весьма разнообразных попросов. В 1928 г. А. Н. Колмогорову удалось указать необхо- необходимые и достаточные условия для закона больших чисел — задача^ в решение которой значительный вклад внесли П. Л. Чебышев в А. А. Марков (старший). Через год появилась большая работа, п которой был доказан закон повторного логарифма для сумм независимых случайных величин при весьма широких условиях, наложенных на слагаемые. За несколько лет перед этим закон повторного логарифма был открыт А. Я. Хинчиным сначала для схемы Бернулли, а затем перенесен на схему Пуассона. В том ж&
10 Н. Н. Боголюбов, Б. В. Гнеденко, С. Л. Соболев году был получен замечательный результат — широкие условия применимости усиленного закона больших чисел. Несколько позд- позднее эти условия послужили А. Н. Колмогорову основой для получения необходимого и достаточного условия для усиленного закона больших чисел в случае одинаково распределенных неза- независимых слагаемых. Это условие исключительно просто — сущест- существование конечного математического ожидания у слагаемых. Вновь следует подчеркнуть, что во всех названных работах важны не только окончательные результаты, но и методы, кото- которые впоследствии вошли в арсенал, используемый современной теорией вероятностей. В частности, было доказано знаменитое «неравенство Колмогорова», обобщающее классическое «неравен- «неравенство Чебышева». Специального упоминания заслуживает небольшая заметка Андрея Николаевича «Общая теория меры и исчисление вероят- вероятностей», в которой был предложен первый набросок аксиоматики теории вероятностей, основанный на базе теории меры и теории функций действительного переменного. Сам по себе этот подход не был абсолютно нов (поскольку был намечен Э. Борелем и А. Ломницким), но именно у А. Н. Колмогорова он получил за- завершение в виде получивших всеобщее признание простых и четких математических формулировок. Э. Борель еще в 1909 г. высказал общие соображения о важности теории меры для по- построения фундамента теории вероятностей. В 1923 г. эти общие идеи получили развитие в большой статье А. Ломницкого, а в 1929 г. стали предметом изучения А. Н. Колмогорова. Через четыре года в 1933 г. первичная идея Э. Бореля приняла окон- окончательную форму в классической монографии А. Н. Колмогорова «Основные понятия теории вероятностей», изданной на немецком языке в издательстве Шпрингера. Через четыре года она появилась в русском переводе и вскоре же стала библиографической редко- редкостью (в 1974 г. вышло второе русское издание). Эта монография не только определила новый этап в развитии теории вероятностей как математической науки, но и дала необходимые основополагаю- основополагающие данные для построения теории случайных процессов. В 1931 г. вышла замечательная работа А. Н. Колмогорова «Аналитические методы в теории вероятностей». В ней были зало- заложены основы современной теории марковских случайных процес- процессов и вскрыты глубокие связи теории вероятностей с теорией диф- дифференциальных уравнений, как обыкновенных, так и в частных производных второго порядка. Отрывочные результаты, связываю- связывающие задачи теории цепей Маркова и марковские блуждания на прямой с уравнениями параболического типа, были получены дав- давно еще Лапласом, а позднее Фоккером и Планком. Но это были лишь примеры. Настоящую теорию марковских процессов, или, кпк говорил А. Н. Колмогоров, процессов без последействия, за- ложил Андрей Николаевич в этой работе. В ней были получены
Андрей Николаевич Колмогоров 11 как прямые, так и обратные уравнения. Появилась новая область математики с многочисленными выходами в практику. Она была подхвачена представителями физики и биологии, химии и инже- инженерного дела и быстро превратилась в одно из самых мощных математических орудий современного естествознания. Большое впечатление произвела статья «Математика», написан- написанная А. Н. Колмогоровым для 2-го издания «Большой Советской Энциклопедии». В этой своей работе А. Н. Колмогоров в сжатой форме и на принципиальной основе проследил историческое раз- развитие математики, указал узловые моменты этого развития и пред- предложил для него оригинальную схему периодизации. Жаль, что эта статья не была у нас издана отдельной книгой (вероятно, это еще не поздно сделать; статьи А. Н. Колмогорова для БСЭ вообще заслуживают специального внимания и издания). Но и без этого статья «Математика» оказала серьезное влияние на направление исследований в области истории математики. И не только в нашей стране. Кстати сказать, в ГДР отдельное издание этой работы было осуществлено. Мысль А. Н. Колмогорова работала в самых разнообразных направлениях, выдвигая новые проблемы и давая решение прин- принципиальных вопросов. За десятилетие, непосредственно предшест- предшествующее Великой Отечественной войне, им было опубликовано бо- более шестидесяти работ, которые относились к теории вероятностей, проективной геометрии, математической статистике, теории функ- функций действительного переменного, топологии, математической логике, математической биологии, философии и истории матема- математики. Среди работ этого десятилетия были такие, которые закла- закладывали фундамент новых направлений математической мысли в теории вероятностей, в топологии, в теории приближения функ- функций. Именно в этот период А. Н. Колмогоров ввел в топологию понятие верхнего граничного, или V-оператора, одновременно с американским математиком Александером и независимо от него. С помощью этого оператора он построил теорию когомологиче- когомологических групп (как тогда говорили, V-групп) первоначально для комп- комплексов, а затем для любых бикомпактных пространств. Понятие когомологической группы оказалось весьма удобным и очень сильным средством для исследования многочисленных вопросов топологии, в том числе связанных с изучением непрерывных отоб- отображений. На этой базе им было построено понятие когомологиче- когомологического кольца — одного из важных топологических понятий. Не- Необходимо указать также исключительно общую формулировку за- закона двойственности, относящегося к замкнутым множествам, расположенным в любых локально бикомпактных вполне регуляр- регулярных топологических пространствах, удовлетворяющих лишь усло- условию ацикличности в тех размерностях, о которых идет речь в са- самой формулировке результата.
12 Н. Н. Боголюбов, Б. В. Гнеденко, С. JT.t Соболев Тогда же им был построен пример открытого отображения компакта на компакт большей размерности. В теории вероятностей за этот же срок была создана моногра- монография «Основные понятия теории вероятностей», дано представление безгранично делимых распределений, найдено предельное распре- распределение для максимума уклонения эмпирического распределения от истинного (критерий Колмогорова), построена теория цепей Маркова со счетным множеством состояний, найдена связь между геометрией гильбертова пространства и рядом задач теории ста- стационарных последовательностей. В конце 30-х годов внимание А. Н. Колмогорова все более и более стала привлекать механика турбулентности, т. е. законо- закономерности тех часто встречающихся на практике течений жидкости и газа, которые сопровождаются беспорядочными пульсациями скорости, давления и других гидродинамических величин. Кор- Корректное математическое описание таких течений неизбежно долж- должно быть статистическим и опираться на общее понятие случайной функции, как это было разъяснено еще в 1939 г. в первой заметке М. Д. Миллионщикова — первого представителя колмогоровской школы в теории турбулентности. Строгий статистический подход систематически использовался и самим А. Н. Колмогоровым; именно в работах А. Н. Колмогорова и его учеников теория тур- турбулентности приобрела четкое математическое оформление в виде прикладной главы теории меры в функциональных пространствах. Однако основные работы Андрея Николаевича по механике турбу- турбулентности, появившиеся в 1941 г., имели совсем не формально-ма- формально-математический, а отчетливо физический характер. В основе этих работ лежало глубокое проникновение в самую суть процессов, характерное для той крайне сложной нелинейной физической си- системы с очень большим числом степеней свободы, какой является развитое турбулентное течение; именно глубокая физическая ин- интуиция помогла А. Н. Колмогорову выявить в этих процессах наличие очень тонкого «локального самоподобия» (понятие, позже сыгравшее большую роль во многих разделах теоретической фи- физики) и вывести отсюда фундаментальные количественные соотно- соотношения, имеющие характер новых законов природы. Среди таких законов — знаменитый колмогоровский «закон двух третей», об- обладающий, как это и свойственно фундаментальным законам при- природы, величественной простотой: во всяком развитом турбулент- турбулентном течении средний квадрат разности скоростей в двух точках, находящихся на (не слишком малом и не слишком большом) рас- расстоянии г, пропорционален га/». Ко времени появления первых работ А. Н. Колмогорова экс- экспериментальные данные, позволяющие проверить предсказанные им количественные законы, отсутствовали; позже, однако, эти за- законы многократно сопоставлялись с данными измерений как в при- природных средах (атмосфера, океан), так и на разнообразных лабо-
Андрей Николаевич Колмогоров 13 раторных установках и всегда оказывались выполняющимися с высокой степенью точности. (А. Н. Колмогоров делал и качест- качественные предсказания; так, он предсказал подтвержденную экспе- экспериментом слоистую структуру океана: эффект, известный под на- названием «блины».)В 1961 —1962 гг. А. Н. Колмогоров еще раз воз- возвратился к результатам своих старых исследований по механике турбулентности и показал, что, отказавшись от одного принимав- принимавшегося им ранее предположения, кажущегося вполне естествен- естественным, можно получить небольшие уточнения открытых им раньше законов, весьма трудно обнаруживаемые на опыте из-за своей ма- малости, но тем не менее в самое последнее время также надежно подтвержденные рядом экспериментов. Возвращение к прежней тематике характерно для творчества А. Н. Колмогорова в целом: он может лишь открывать для себя новые и новые области, но не может покидать их окончательно. Эта черта особенно заметна в послевоенный период, когда Андрей Николаевич снова возвращается и к турбулентности, и к функциям действительного переменного (в связи с 13-й проблемой Гильбер- Гильберта), и к логическим основам математики (в применении к геометрии, теории вероятностей, теории информации). При том что Андрей Ни- Николаевич занимается необычайно широким спектром тем (здесь и классическая механика, и эргодическая теория, и теория функ- функций, и теория информации, и теория алгоритмов), этот спектр непрерывен, его темы, на первый взгляд отдаленные, оказываются связанными между собой совершенно неожиданными, найденными А. Н. Колмогоровым связями. Число работ по каждой теме обыч- обычно невелико, но все они фундаментальны — и не только по силе результата, но и по влиянию на все дальнейшее развитие соответ- соответствующей области науки. Для иллюстрации сказанного достаточно обратиться к рабо- работам Андрея Николаевича по теории динамических систем, в кото- которых сказалось все своеобразие его дарования. Этих работ немного, но они значительны тем, что в них открыты новые стороны теории, на которых выросли целые большие направления. Работы эти распадаются на два цикла, один из которых произошел из задач классической механики, а другой — из проблематики теории ин- информации. Работы первого цикла посвящены общей теории гамильтоно- вых систем и относятся к краткому двухлетнему периоду 1953— 1954 гг. По итогам этих работ А. Н. Колмогоров сделал большой обзорный доклад на Международном математическом конгрессе в Амстердаме в 1954 г. Задача об эволюции орбит в проблеме трех и более тел восходит к Ньютону и Лапласу; в случае малых масс планет эта задача является частным случаем задачи о поведении квазипериодических движений гамильтоновых систем при малом изменении функции Гамильтона. Именно эту последнюю задачу Пуанкаре назвал «основной проблемой динамики». В работах
14 Н. Н. Боголюбов, Б. В. Гпеденко, С. Л. Соболев А. Н. Колмогорова эта проблема оказалась решенной для боль- большинства начальных условий в случае общего положения. Прило- Приложение теории Колмогорова к различным конкретным задачам да- дало возможность впоследствии решить множество проблем, десяти- десятилетиями ждавших своего решения. Например, из теоремы А. Н. Колмогорова вытекает устойчивость движения астероида в плоской ограниченной круговой задаче трех тел и устойчивость быстрого вращения тяжелого несимметричного твердого тела. Теорема Колмогорова применяется также при изучении магнит- магнитных силовых линий, что имеет большое значение в физике плазмы. Исключительно плодотворным оказался сам метод получения этих результатов. Впоследствии этот метод был усовершенство- усовершенствован учеником Андрея Николаевича В. И. Арнольдом и Ю. Мозе- ром и ныне вошел в обиход под названием теории КАМ (т.е. теор- рии Колмогорова—Арнольда—Мозера). Работы А. Н. Колмогорова и В. И. Арнольда по теории воз- возмущений гамильтоновых систем были отмечены Ленинской пре- премией 1965 г. Второй цикл работ по динамическим системам заключался в применении к эргодической теории этих систем идей теории инфор- информации. К теории информации интересы Андрея Николаевича обращают- обращаются с 1955 г. Для распространения и популяризации в нашей стра- стране этой теории он сделал исключительно много. В июне 1956 г. он (совместно с И. М. Гельфандом и А. М. Ягломом) выступает на эту тему на третьем Всесоюзном математическом съезде в Мос- Москве, а в октябре 1956 г. делает доклад перед Общим собранием Ака- Академии наук СССР. Напряженное сосредоточение мысли на идеях шенноновской теории информации приводит А. Н. Колмогорова к совершенно неожиданному и смелому синтезу этих идей сперва с развитыми им же в ЗО-е годы идеями теории приближения, а за- затем с идеями теории алгоритмов. Об алгоритмической теории ин- информации мы скажем позже, а сейчас отметим плодотворность введения информационных (а именно энтропийных) характерис- характеристик в изучение и метрических пространств, и динамических систем. В работах 1955—1956 гг. А. Н. Колмогоров вводит понятие е-энтропии множества в метрическом пространстве и тем самым получает средство оценки «метрической массивности» функцио- функциональных классов и пространств. Используя это понятие, Андрей Николаевич дал энтропийную трактовку замечательных резуль- результатов А. Г, Витушкина о непредставимости функций п переменных гладкости г с помощью суперпозиции функций т переменных гладкости I, если га/г ]> т/1. Дело в том, что е-энтропия какого-ли- какого-либо класса функций — это, грубо говоря, количество информации, позволяющее указать функцию этого класса с точностью е. Как показал А. Н. Колмогоров, 8-энтропия естественных классов г
Андреи Николаевич Колмогоров 15 раз дифференцируемых функций п переменных растет как s~nlr (необходимое количество информации тем больше, чем больше независимых переменных, и тем меньше, чем выше гладкость, при- причем существенно именно отношение размерности к гладкости). Отсюда сразу следует теорема Витушкина: ведь количество инфор- информации, необходимое для задания суперпозиции, не может превос- превосходить (по порядку величины) количество информации, достаточ- достаточное для задания составляющих суперпозицию функций меньшего числа переменных. Эти исследования побудили А. Н. Колмогорова обратиться не- непосредственно к 13-й проблеме Гильберта, состоящей в том, что- чтобы доказать для некоторой непрерывной функции трех переменных невозможность ее представления в виде суперпозиции непрерыв- непрерывных функций двух переменных. А. Н. Колмогоров пришел в956 г. к крайне неожиданному результату: каждая непрерывная функция любого числа переменных представима в виде суперпозиции непре- непрерывных функций трех переменных. Сама же проблема Гильберта оказалась редуцированной к некоторой задаче о представлении функций, заданных на универсальных деревьях трехмерного про- пространства. Эта последняя задача была решена В. И. Арнольдом в работе, выполненной пОд руководством А. Н. Колмогорова в 1957 г., причем решена с получением ответа, опровергающего ги- гипотезу Гильберта: каждая непрерывная функция трех переменных оказалась представима как суперпозиция непрерывных функций двух переменных. В том же году А. Н. Колмогоров сделал решаю- решающий шаг, показав, что непрерывная функция любого числа пере- переменных представима в виде суперпозиции непрерывных функций одного переменного и сложения. Очень большой резонанс имело введение энтропийных харак- характеристик в теорию динамических систем. Такое введение было осу- осуществлено в небольшой заметке Андрея Николаевича «Новый мет- метрический инвариант транзитивных динамических систем и авто- автоморфизмов пространств Лебега» — заметке, открывшей второй цикл работ по динамическим системам и сыгравшей исключитель- исключительную роль в развитии эргодической теории динамических систем. Дело в том, что существовавшие к тому времени метрические (т. е. не зависящие ни от каких структур, кроме меры) инварианты (спектр, перемешивание) не позволяли различить метрически даже такие системы, как простейшие' (т. е. с двумя исходами) авто- автоморфизмы Бернулли с различными вероятностями р. Заметка А. Н. Колмогорова решила этот классический вопрос: системы с разными р оказались, как и следовало ожидать, неизоморфными. Успех был обеспечен введением совершенно нового метрического инварианта, навеянного теорией информации,— энтропии динами- динамической системы. Эта заметка открыла длинный ряд исследований у нас в стране и за рубежом, завершившийся в последние годы тео- теоремами Орнстейна, утверждающими, что для достаточно быстро
16 Н. И. Боголюбов, В. В. Гнеденхо, С. Л. Соболев перемешивающихся динамических систем инвариант Колмогорова полностью определяет системы с точностью до метрического изо- изоморфизма (так что, например, автоморфизмы Бернулли с равны- равными энтропиями метрически изоморфны). Другое важное понятие, введенное в той же работе А. Н. Колмогорова,— понятие квази- квазирегулярной или, как теперь принято говорить, /^-системы («К» — в честь А. Н. Колмогорова). Это понятие играет очень важную роль при анализе классических динамических систем с сильными свойствами стохастичности. Появление таких свойств у динамиче- динамических систем объясняется их внутренней динамической неустой- неустойчивостью, и принятый путь анализа этих свойств состоит в обнару- обнаружении того, что рассматриваемая система является /^-системой. Нет сомнений, что широта проникновения идей эргодической тео- теории в задачи физики, биологии, химии имеет одним из своих ис- источников именно эту работу А. Н. Колмогорова. В 1958—1959 гг. Андрей Николаевич объединил в одном семи- семинаре исследования по эргодической теории динамических систем и по гидродинамической неустойчивости. Программа этого семи- семинара предусматривала построение, хотя бы в простейших модель- модельных примерах, эргодической теории движений жидкости, устанав- устанавливающейся после потери устойчивости ламинарным течением. Это программа применения идей эргодической теории к явлениям типа турбулентности оказала большое влияние на все последую- последующие работы в этом направлении. Если в 50-е годы усилия А. Н. Колмогорова направлены на использование понятий теории информации в других областях математики, то в 60-е годы он предпринимает реконструкцию самой теории информации — реконструкцию на алгоритмической основе. В двух основополагающих статьях, опубликованных в 1965 и 1969 гг. в журнале «Проблемы передачи информации», Андрей Николаевич создает новую область математики — алго- алгоритмическую теорию информации. Центральным в этой теории является понятие сложности конечного объекта при фиксирован- фиксированном (алгоритмическом) способе его описания; эта сложность опре- определяется вполне естественно — как минимальный объем описания. Теорема Колмогорова устанавливает, что среди всевозможных алгоритмических способов описания существуют оптимальные — те, для которых сложности описываемых объектов оказываются сравнительно небольшими; хотя оптимальный способ и неедин- неединствен, для заданных двух оптимальных способов соответствующие им сложности отличаются не более чем на аддитивную константу. Как всегда у А. Н. Колмогорова, новые понятия оказывались од- одновременно естественными, неожиданными и простыми. В рамках этих идей стало возможным, в частности, определить понятие ин- индивидуальной случайной последовательности (что недоступно клас- классической теории вероятностей): случайной следует признать вся- всякую пш лодоинтолышсть, у которой сложность (при оптимальном
Андреи Николаевич Колмогороь 1' способе описания) ее начального отрезка растет достаточно быстро с увеличением длины отрезка. С 1980 г. Андрей Николаевич заведует кафедрой математиче- математической логики механико-математического факультета МГУ. Матема- Математическая логика (в широком смысле, включающем и теорию ал- алгоритмов, и основания математики) — это ранняя и поздняя его любовь. Еще в 1925 г. А. Н. Колмогоров опубликовал в «Мате- «Математическом сборнике» работу о законе исключенного третьего^ навсегда вошедшую в золотой фонд работ по математической логике. Это была первая отечественная публикация по математиче- математической логике, содержащая математические результаты (к тому же очень значительйые), и первое в мире систематическое исследо- исследование интуиционистской логики (логики, не признающей закона исключенного третьего). В этой работе, в частности, впервые по- появились так называемые погружающие операции, посредством ко- которых одни логические исчисления погружаются в другие. С по- помощью одной из таких операций (исторически первой, известной теперь под названием «операции Колмогорова») в рассматриваемой работе было осуществлено погружение классической логики в ин- интуиционистскую, чем было доказано, что применение закона исключенного третьего само по себе не может привести к противо- противоречию. А в 1932 г. Андрей Николаевич опубликовал вторую ра- работу по интуиционистской логике, в которой для этой логики была впервые предложена семантика, свободная от философских уста- установок интуиционизма. Именно эта работа дала возможность трактовать интуиционистскую логику как конструктивную ло- логику. В 1952 г. А. Н. Колмогоров предлагает наиболее общее опре- определение конструктивного объекта и наиболее общее определение алгоритма. Значимость этих определений раскрывается в полной мере лишь сейчас. В 1954 г. он формулирует начальные понятия теории нумераций. В 1972 г. по инициативе Андрея Николаевича на механико- математическом факультете МГУ впервые вводится обязательный курс математической логики. А. Н. Колмогоров создает действую- действующую и поныне программу и первым читает этот курс. И здесь мы подходим к одной из самых характерных черт био- биографии А. Н. Колмогорова: всю жизнь Андрей Николаевич не только развивал науку, но и учил молодежь. Педагогическая деятельность А. Н. Колмогорова началась в 1922 г., когда он стал учителем опытно-показательной школы Наркомпроса РСФСР. В ней он проработал до 1925 г. Эта деятель- деятельность его увлекала, и он навсегда остался в душе и в жизни учи- учителем и воспитателем, В 1931 г. Андрей Николаевич стал профес- профессором МГУ, а с 1933 по 1939 г. был также директором НИИ мате- математики Московского государственного университета. Много сил и инициативы вложил он в то, чтобы Институт математики универ-
18 Н. Н. Боголюбов, Б. В. Гнеденко, С. Л. Соболев ситета стал одним из ведущих научных учреждений страны. Особое внимание при этом он уделял подготовке молодых ученых, старательно и с большим успехом отыскивая талантливых, увле- увлеченных наукой молодых людей среди студентов и стажеров. Одним из учеников А. Н. Колмогорова стал пришедший на его семинар М. Д. Миллионщиков (впоследствии вице-президент АН СССР), ранее занимавшийся непосредственно практической работой. Он проходил далее аспирантуру под руководством Андрея Николае- Николаевича, а в 1938 г. поступил по его рекомендации в Институт теоре- теоретической геофизики АН СССР, возглавлявшийся в то время О. Ю. Шмидтом. Один из авторов вспоминает семинар по теории вероятностей 1934 г., которым руководили А. Н. Колмогоров и А. Я. Хинчин. Характер проведения семинара, на котором остро обсуждались доклады, выдвигались гипотезы, вносились предложения, пред- предлагались иные, чем у докладчика, решения, производил огромное впечатление. Аспирантами Андрея Николаевича в ту пору были А. И. Маль- Мальцев, С. М. Никольский, Б. В. Гнеденко, И. М. Гельфанд, Г. М. Бавли, И. Я. Верченко. Их специальностями были соот- соответственно математическая логика, функциональный анализ, теория вероятностей, снова функциональный анализ, теория ве- вероятностей, теория функций. Андрей Николаевич стремился создать аспирантский коллек- коллектив, находящийся в постоянном научном возбуждении, постоян- постоянном искании. И это ему удалось. Как директор НИИ математики, он систематически встречался со всеми аспирантами независимо от того, являлись ли они его учениками или нет, и выяснял, над чем работает аспирант, какие проблемы решает. И если оказы- оказывалось, что таких проблем у него нет, то предлагал подумать над той или иной задачей, которую тут же формулировал. Позднее он интересовался, как продвигается решение, и аспирант вовлекал- вовлекался в активную исследовательскую работу. Время аспирантуры для всех учеников А. Н. Колмогорова на всю жизнь останется неза- незабываемым периодом в жизни, вхождения в научные искания, раз- размышлений о назначении науки, формирования веры в неисчерпае- неисчерпаемость творческих сил человека. Одновременно Андрей Николае- Николаевич стремился развивать и общекультурные интересы, прежде всего к изобразительному искусству, архитектуре и литературе, а также к физической культуре (сам он был превосходным лыж- лыжником и пловцом, неутомимым ходоком). Неповторимая личность Андрея Николаевича, его многогран- многогранная эрудиция, разнообразие его научных устремлений, глубина его проникновения, в тему — все это служило для его учеников хотя и недосягаемым, но чрезвычайно влекущим примером. Совершенно незабываемы загородные прогулки, которые ор- организовывал Андрей Николаевич для аспирантов и студентов,
Андреи Николаевич Колмогоров, 19 приглашая на них по три—пять человек, вызвавших его интерес. Эти прогулки были заполнены беседами о проблемах математики и ее применений, об архитектурных достопримечательностях мест, по которым пролегал маршрут, о выдающихся событиях культур- культурной жизни. Но в первую очередь, конечно, были беседы о пробле- проблемах, которые предназначались для самостоятельной работы собе- собеседников. Андрей Николаевич умеет так поставить задачу, что она заинтересовывает собеседника, становится близкой ему, вызывает прилив желания решить ее. Поражает то умение, которое прояв- проявляет Андрей Николаевич, подбирая задачу по силам молодого человека и в то же время требуя от него полного напряжения сил. Вопросы Андрея Николаевича о том, что удалось сделать, застав- заставляли постоянно держать себя в напряжении и думать направлен- направленно. Ведь так неловко при встречах с ним было признаться, что ничего не удалось сделать, что ничего не можешь сказать нового. В этой индивидуальной работе проявлялся своеобразный и огром- огромный педагогический талант Андрея Николаевича — воспитателя творческой молодежи. Он заставлял работать, не принуждая; прививал веру в силу разума и в необходимость научного поиска. Во время прогулки каждый из участников по нескольку раз бесе- беседовал с Андреем Николаевичем, а он менял тему разговора, держа в руках все его нити. Многие прогулки заканчивались в Комаров- ке, где Андрей Николаевич и Павел Сергеевич Александров угощали все общество обедом. Участники прогулки, студенты и аспиранты, усталые и переполненные впечатлениями от бесед и от полученных математических идей, возвращались пешком на станцию, чтобы уехать в Москву. Переоценить воспитательное зна- значение этих прогулок невозможно. Перечисленные выше лица еще оставались аспирантами, а Андрей Николаевич уже искал среди студентов способных мо- молодых людей, готовых отдать свои силы науке. Так появились Г. Е. Шилов, М. К. Фаге, а также два аспиранта из Саратова А. М. Обухов и В. Н. Засухин (последний, защитив в 1941 г. кандидатскую диссертацию, погиб на фронте). Активное привле- привлечение к работе учеников не прекращалось и во время войны: л 1942 г. в аспирантуру МГУ к А. Н. Колмогорову поступил A. С. Монин (вскоре после этого ушедший на фронт и вернувший- вернувшийся в аспирантуру только в 1946 г.), а в 1943 г. в аспирантуру МИАН — А. М. Яглом. После войны Андрея Николаевича окружили новые молодые математики, которых он ввел в науку. Среди них Б. А. Севастья- Севастьянов, С. X. Сираждинов, М. С. Пинскер, Ю. В. Прохоров, Г. И. Баренблатт, Л. Н. Болыпев, Р. Л. Добрушин, Ю. Т. Мед- педев, В. С. Михалевич, В. А. Успенский, А. А. Боровков, B. М. Золотарев, В. М. Алексеев, Ю. К. Беляев, Л. Д. Мешал- кин, В. Д. Ерохин, Ю. А. Розанов, Я. Г. Синай, В. М. Тихоми- Тихомиров, А. Н. Ширяев, В. И. Арнольд, Л. А. Бассалыго, Ю. П. Оф-
20 Н. Н. Боголюбов, Б. В. Гнеденко, С. Л. Соболев ман. В более позднее время к этому списку учеников А. Н. Колмо- Колмогорова добавились А. В. Прохоров, М. В. Козлов, И. Г. Жур- бенко, А. М. Абрамов, А. В. Булинский, а также ряд зару- зарубежных математиков, в том числе известный шведский специалист П. Мартин-Лёф. Некоторые из учеников Андрея Николаевича были впоследст- впоследствии избраны в Академию наук СССР и Академии наук союзных республик. Это действительные члены АН СССР А. И. Мальцев (алгебра, математическая логика), М. Д. Миллионщиков (меха- (механика, прикладная физика), С. М. Никольский (теория функций), А. М. Обухов (физика атмосферы), Ю. В. Прохоров (теория ве- вероятностей); члены-корреспонденты АН СССР Л. Н. Болыпев (математическая статистика), А. А. Боровков (теория вероятно- вероятностей, математическая статистика), И. М. Гельфанд (функциональ- (функциональный анализ), А. С. Монин (океанология), действительные члены АН УССР Б. В. Гнеденко (теория вероятностей, история матема- математики). В. С. Михалевич (кибернетика), действительный член АН УзССР С. X. Сираждинов (теория вероятностей) 3. Какое раз- разнообразие специальностей! Последние приблизительно двадцать лет Андрей Николаевич в значительной мере посвятил проблемам средней школы. И, как во всем, он отдает этим исключительно важным для общества про- проблемам всего себя. Начнем с организации в Москве школы-интерната № 18, или, как принято говорить, колмогоровской школы. В первые же годы ее существования он не только читал лекции и проводил упраж- упражнения для школьников, но и писал для учащихся конспекты своих лекций. Помимо обязательных занятий, он выступал перед уча- учащимися с лекциями о музыке, искусстве, литературе. То, что идея школы-интерната верна, подтверждает вся ее дея- деятельность. Достаточно сказать, что среди учащихся школы 97 — 98 % успешно поступили в лучшие вузы страны; около 400 ее выпускников завершили или завершают обучение в аспирантуре Московского университета; свыше 250 ее питомцев защитили кан- кандидатские диссертации, А сейчас ряд ее воспитанников защитили и докторские диссертации. А ведь школа невелика — в ней всего 360 учащихся. Следует добавить, что учащиеся этой школы систе- систематически занимают призовые места на всесоюзных и международ- международных математических олимпиадах. Несомненно, что своими успеха- успехами школа в значительной мере обязана Андрею Николаевичу, его беззаветной преданности делу воспитания молодежи и раз- развития ее способностей. В 1964 г. А. Н. Колмогоров возглавил математическую секцию Комиссии АН СССР и АПН СССР по определению содержания 3 В 1984 г. действительными членами АН СССР избрани И. М. Гель- Гельфанд и В. С. Михалевич, членами-корреспондентами АН СССР — В. И. Ар- Арнольд и Б. А. Севастьянов.— Примеч. ред.
Андрей Николаевич Колмогоров 21 среднего образования. Разработанная этой Комиссией в 1965 — 1968 гг. новая программа для 6—8 и 9—10 классов была одобрена Отделением математики АН СССР и до сих пор является, несмотря на многие изменения, основой для дальнейшего совершенствова- совершенствования математического образования и базой для написания учеб- учебников. Сам Андрей Николаевич принял непосредственное участие в написании новых учебников для массовой средней школы. По написанному под его руководством учебному пособию «Алгебра и начала анализа, 9—10» занимаются во всех общеобразовательных школах Советского Союза. Пособие «Геометрия, 6—8» встретило достаточно резкую критику. В настоящее время оно заменяется другими учебниками. Но при создании этих новых учебников их идейное содержание в значительной мере формируется под воз- воздействием концепций, заложенных в учебном пособии, написанном под руководством А. Н. Колмогорова. Вскоре после избрания в 1939 г. действительным членом АН СССР Андрей Николаевич был избран академиком-секретарем физико-математического Отделения. Делам Отделения он отдался с присущей ему страстью. Огромная работа была осуществлена Андреем Николаевичем на посту заведующего редакцией «Издатель- «Издательства иностранной литературы» и редактора отдела математики в «Большой Советской Энциклопедии». На написанных им и вышедших под его редакцией энциклопедических статьях по мате- математике еще многие годы будут учиться энциклопедическому делу последующие авторы. С 1 декабря 1964 г. по 13 декабря 1966 г. и с 13 ноября 1973 г. А. Н. Колмогоров — президент Московского математического об- общества; с 1946 по 1954 г. и с 1983 г.— главный редактор «Успехов математических наук». Но центром деятельности А. Н. Колмогорова всегда был Мос- Московский университет, в котором он работает непрерывно с 1925 г. после окончания физико-математического факультета. В универ- университете он заведовал: с 1938 по 1966 г. основанной им кафедрой теории вероятностей, с 1966 по 1976 г.— основанной им межфа- межфакультетской лабораторией статистических методов, с 1976 по 1980 г.— основанной им кафедрой математической статистики, с 1980 г. по настоящее время — кафедрой математической логики. С 1951 по 1953 г. А. Н. Колмогоров — директор Института мате- математики и механики МГУ, а с 1954 по 1956 г. и с 1978 г. по настоя- настоящее время А. Н. Колмогоров заведует отделением математики ме- механико-математического факультета МГУ; на этом посту, как и ранее (возглавляя НИИ математики МГУ и РГнститут механики и математики МГУ), он; сделал чрезвычайно много для улучшения подготовки аспирантов математических специальностей. С 1954 по 1958 г. А. Н. Колмогоров — декан механико-математического факультета МГУ. Особого внимания заслуживает деятельность Андрея Николае-
22 Я. Н. Боголюбов, Б. В. Гнеденко, С. Д. Соболев вича по организации в Московском университете небольшого, но крайне необходимого подразделения — статистической лабора- лаборатории. Мысль о создании статистической лаборатории при кафед- кафедре теории вероятностей возникла у Андрея Николаевича в начале 1960 г. Он приступил к осуществлению этой идеи с того, что организовал для сотрудников кафедры рабочий семинар по реше- решению прикладных статистических задач, на котором сам прочитал ряд вводных лекций с демонстрацией примеров. При лаборатории удалось создать сектор вычислительных работ, оснащенный ЭВМ. Без хорошо организованной библиотеки, которая была бы снабже- снабжена основными журналами и систематически пополнялась моно- монографиями, невозможно плодотворно вести научные исследования. Для организации специализированной библиотеки статистической лаборатории Андрей Николаевич не только добился отпуска средств, но и передал значительную часть полученной им между- международной бальцановской премии на приобретение литературы. Статистическая лаборатория — не единственное подразделение Московского университета, да и не только университета, создан- созданное по инициативе Андрея Николаевича. Так по его предложению в 1946 г. в Институте теоретической геофизики АН СССР была создана маленькая лаборатория атмосферной турбулентности, из которой впоследствии выросла значительная часть Института фи- физики атмосферы. Забота о библиотеках, об издании математической литературы, о подготовке специалистов всех уровней, о создании новых ка- кафедр и лабораторий и о многом другом — все это проявление при- присущего Андрею Николаевичу чувства личной ответственности за судьбы науки и просвещения. Это чувство заставляло его при- принимать активное участие в формировании учебных планов и программ на всех ступенях математического образования. То же чувство побудило Андрея Николаевича решительно поддержать в свое время молодую кибернетику. Поддержка эта была сущест- существенной для признания научного статуса кибернетики не только в нашей стране, но и за рубежом. В приветствии к 80-летию А. Н. Колмогорова от Института кибернетики им. В. М. Глушкова АН УССР говорится: «В нашем институте всегда помнят о Вашем выдающемся вкладе в становление советской кибернетики. Ваши теории и научные идеи воплощены во многих кибернетических разработках. Многие из советских кибернетиков—Ваши ученики либо ученики Ваших учеников». Как известно, кибернетика про- прокладывала себе путь в борьбе с непризнанием. Подобной же была судьба генетики — и тут А. Н. Колмогоров также смело выступил в поддержку научной истины. В статье, опубликованной в 1940 г. в разделе «Генетика» Докладов АН СССР, он показал, что матери- материал, собранный последователями академика Т. Д. Лысенко, слу- служит, вопреки мнению этих последователей, новым подтверждением законов Менделя.
Андреи Николаевич Колмогоров 23 Чувство личной ответственности — один из компонентов высо- высокой нравственной позиции А. Н. Колмогорова в науке. Другими компонентами этой его позиции являются объективность, отсутст- отсутствие завышенной оценки своих учеников, готовность поддержать любые существенные достижения, скромность в вопросах приори- приоритета и авторства (фактически Андрей Николаевич соавтор многих работ своих учеников), отзывчивость и готовность помочь. Научные заслуги Андрея Николаевича высоко оценены в на- нашей стране и за ее пределами. Он награжден семью орденами Ленина, ему присвоено звание Героя Социалистического Труда, он — лауреат Ленинской и Государственной премий. Свыше двадцати научных организаций избрали Андрея Нико- Николаевича своим членом. Он является, в частности, членом Коро- Королевской Нидерландской академии наук A963), Лондонского ко- королевского общества A964), Национальной академии наук США A967), Парижской академии наук A968), Румынской академии наук A965), Академии естествоиспытателей «Леопольдина» A959),; Американской академии наук и искусств в Бостоне A959). Он почетный доктор Парижского, Стокгольмского и Варшавского университетов; избран почетным членом Московского, Индийского, Калькуттского математических обществ, Лондонского королев- королевского статистического общества, Международного статистического института, Американского общества метеорологов. В 1963 г. ему присуждена Международная бальцановская премия. (Одновремен- (Одновременно с А. Н. Колмогоровым, но по другим разделам премию фонда Бальцана получили папа Иоанн XXIII, историк С. Морисон„ биолог К. Фриш, композитор П. Хиндемит.) Андрей Николаевич Колмогоров занимает уникальное место в современной математике, да и в мировой науке в целом. По широте и разнообразию своих научных занятий он напоминает классиков естествознания прошлых веков. В каждой из областей, которыми занимался Андрей Николае- Николаевич, он достигал ее вершин. Его работы по праву можно назвать классическими; их влияние с ходом времени не только не убывает, но и постоянно усиливается. Для научного облика А. Н. Колмогорова характерно редкое соединение в одном лице черт абстрактного математика и естество- естествоиспытателя, теоретика и практика; от аксиоматики теории вероят- вероятностей он непосредственно переходит к статистическому контролю массовой продукции, от теоретической гидромеханики к личному участию в океанографических экспедициях. Вся жизнь Андрея Николаевича Колмогорова — это беспри- беспримерный подвиг во имя науки. А. Н. Колмогоров навсегда вошел в число великих русских ученых.
1 О ПОНЯТИИ АЛГОРИТМА* Мы отправляемся от следующих наглядных представлений об алгоритмах: 1) Алгоритм Г, примененный ко всякому «условию» («началь- («начальному состоянию») А из некоторого множества & (Г) («области применимости» алгоритма Г), дает «решение» («заключительное состояние») В. 2) Алгоритмический процесс расчленяется на отдельные шаги заранее ограниченной сложности; каждый шаг состоит в «непо- «непосредственной переработке» возникшего к этому шагу состояния S в состояние S* = Qr (S). 3) Процесс переработки А0 = А в А1 = QF (A°), А1 в А2 = = Qr (А1), А2 в А3 = йг (А2) и т. д. продолжается до тех пор,; пока либо не произойдет безрезультатная остановка (если опера- оператор Ир не определен для получившегося состояния), либо не по- появится сигнал о получении «решения». При этом не исключается возможность неограниченного продолжения процесса(если никогда не появится сигнал о решении).] 4) Непосредственная переработка S в 5* = йг (S) произво- производится лишь на основании информации о виде заранее ограничен- ограниченной «активной части» состояния S и затрагивает лишь эту актив- активную часть. Предполагается строгое определение, отображающее эти на- наглядные представления в точных математических терминах. Состояния изображаются топологическими комплексами спе- специального вида. Активная часть состояния образуется из всех эле- элементов комплекса, удаленных на расстояние не более заданного от некоторой начальной вершины. Оператор Qr задается конечным набором правил. Каждое из этих правил имеет вид Ut -*■ Wf; его применение состоит в том, что если активная часть комплекса S есть E/j, то, чтобы получить S* = Qr (S), следует Ut заменить на W}, оставив неизменным S \ Ut. Устанавливается эквивалентность между понятием алгоритма (в смысле предложенного определения) и понятием частично рекурсивной функции. * УМН, 1953, т. 8, вып. 4, с. 175-176.
2. К общему определению количества информации 25 2 К ОБЩЕМУ ОПРЕДЕЛЕНИЮ КОЛИЧЕСТВА ИНФОРМАЦИИ * Совместно с И. М. Гелъфандом и А. М. Ягломом Предлагаемые далее определения B), D) и свойства I — IV величины / (£, п) были даны в докладе А. Н. Колмогорова на совещании по теории вероятностей и математической статистике (Ленинград, июнь 1954 г,). Теорема 4 и теорема 5 о полунепрерыв- полунепрерывности / (|, ц) при слабой сходимости распределений были найде- найдены И. М. Гельфандом и А. М. Ягломом. После этого А. Н. Кол- Колмогоровым была предложена окончательная редакция заметки, в которой подчеркивается, что по существу переход от конечного случая к общему и вычисление и оценка количества информации при помощи предельных переходов совершенно тривиальны, если вести изложение в терминах нормированных булевых алгебр. Не представляло бы, конечно, большого труда сформулировать и более общие принципы предельного перехода непо п->оо, а по той или иной частичной упорядоченности. § 1. В этом параграфе система @ всех «случайных событий» А, В, С, . . . предполагается булевой алгеброй с операциями образования дополнительного элемента А', соединения A \J В и умножения АВ, единичным элементом е и нулевым элементом N. Рассматриваемые распределения вероятностей Р (А) являются определенными на © неотрицательными функциями, удовлетво- удовлетворяющими условию аддитивности Р (A \J В) = Р (А) + Р (В), если А В = N, и нормировки Р (е) = 1. Классическое понятие «испытания» естественно идентифициро- идентифицировать с понятием подалгебры алгебры @ (наглядно: подалгебра 5f состоит из всех событий, исход которых становится известным по- после совершения данного испытания). Если подалгебры i и 8 конечны, то «количество информации, содержащейся в результа- результатах испытания 3( относительно результатов испытания 33», мы определяем формулой Шеннона I («,«) = £ Р (Аф,) log p'ffh ■ A) i, i ii В общем случае естественно положить /(«,»)= sup /(MbSJi), B) где верхняя грань берется по всем конечным подалгебрам 3^ с: С51 и 8tC8. Символически можно записать определение B) ДАН СССР, 1956, т. 111, № 4, с. 745—748.
26 2. К общему определению количества информации в виде \] /^^ C) \ 91 В случае конечных Ч и 25 количество информации / (Ч, 25) действительно и неотрицательно. В общем случае, кроме действи- действительных неотрицательных значений /, может появиться еще только значение / = + оо. Сохраняются следующие хорошо известные для конечного случая свойства величины / ([?К] обозначает наименьшую подалгебру алгебры @, содержащую множество 3R): 1. / (Ч, 95) = / B3, Ч). 2. / (Ч, 25) = 0 в том и только в том случае, если системы событий Ч и 25 независимы. 3. Если [$! U aSi] и [4f2 U 252] независимы, то / A«1 U *в], l»i U »d) = / («1, »i) + / («в, Э5а)- 4. Если Sti с 31, то / (%г, 55)< / («, 95). Следующие теоремы почти очевидны, но в применениях к кон- конкретным случаям доставляют полезные методы вычисления и оцен- оценки количества информации при помощи предельных переходов. Теорема 1. Если алгебра ЦГХ сг % всюду плотна на алгебре % в смысле метрики р (А, В)=Р (АВ' U А'В), то I (*lf Щ=1 (*, 55). Теорема 2. mo для алгебры % = \J %n имеет место равенство п /(«, B)=lim/(«„,»). Теорема 3. Если последовательность распределений сходится на [% \J 25] к распределению Р, т. е. если lim P<n> (С) == п—во = Р (С) для С £Е [9t U 55]> т0 ^ЛЯ определенных в соответствии с A) и B) через распределения P<ll> м Р количеств информации /(") (^(j Щ и I (Ч, 25) имеет место неравенство {п) Пт Ы1{п)(Ч, в)>/(«, 55). § 2. Будем теперь считать, что основная булева алгебра © является а-алгеброй, а все рассматриваемые распределения Р (Л) будем предполагать а-аддитивными. Будем обозначать одной
2. К общему определению количества информации 27 буквой X «измеримое пространство», т. е. совокупность множества X и 0-алгебры S% некоторых его подмножеств с единицей X (в не- некоторое отклонение от терминологии [1], где S% может быть а-кольцом). «Случайным элементом» £ пространства X называется гомоморфное отображение I* (А) = В булевой алгебры Sx в булеву алгебру @. Наглядно £* (А) обозна- обозначает «событие, заключающееся в том, что % ЕЕ -4». При отображении |* алгебра Sx переходит в подалгебру алгеб- алгебры @, которую мы обозначим ©I = |* {Sx). Естественно положить по определению i а, п) = / (в6, еп). D) Обычным образом в соответствии с изложением в [11 определим измеримое пространство X X Y. Условие A,Ц)* (A xB) = t*(A)r\*(B)\ однозначно определяет гомоморфизм (|, ц)* булевой о-алгебры Sxxy в ©. Этот гомоморфизм служит определением пары (|, ц) случайных объектов £ и п в качестве нового случайного объекта — случайного элемента пространства X X Y. Формула 9>ъ(А) = Р (I* (А)) определяет меру в пространстве X, которая называется распреде» лением случайного объекта |. В соответствии с [1] определим, на- наконец, в пространстве X х Y меру Применяя к заданным на X X У двум мерам П и 5й (|, Г\) теорему Радона—Никодима, напишем равенство °F>t „К')-—\\ п (г и\ d Ф* г! Ф _[_ е (f\ С где мера S сингулярна относительно меры П. Теорема 4. Количество информации I (£, у\) может быть конечно лишь в случае S (С) = 0. В этом случае |)= \\а(х, y)loga(x, XY -■ J log а (я, y)dSP{l, т)). E) XXY
28 2. К общему определению количества информации Заметим еще, что для любого случайного элемента \ простран- пространства X и измеримого по Борелю отображения у = f (х) простран- пространства X в пространство Y случайный элемент х\ = / (£) простран- пространства Y определяется отображением У]* (А) = %*Г1 (А) алгебры Sy в алгебру @. Определяя обычным образом понятие математического ожидания М, можно формулу E) записать в виде 1A, n)=Mloge(|, Ц). F) Из свойств 1—4 величины / C1, 93) вытекают следующие свой- свойства величины / (£ ti): i. / а, Ц) = 1 ел, I). П. / (£, т|) = 0 в том и только в том случае, если £ и ц не- независимы. III. Если пары (^, Th) и (|2, т]2) незави-симы, то / (пъЫ, Ы Лг)) = I (Si. Л!) + / (S«. Л«). IV. Если Ъ,\ есть функция от g (в указанном выше смысле), то / (Ei, ti)< / (Е, л). Легко подобно паре (\, г\) определить последовательность Е = (Еь Ег> • • ч Еш • • •) в качестве случайного элемента простран- 00 втва X = X Хп. Из теорем 1 и 2 легко выводится, что при этом п=1 всегда I A,4) = Нт / ((Ei, Е2. • • ч ЕJ. Л)- П—>сэо Укажем в заключение еще на одно применение теоремы 3. Пусть X и Y — полные метрические пространства. Если за Sx и Sy принять алгебры их борелевских множеств, то пространства X и Y становятся в то же время измеримыми пространствами. В этой обстановке имеет место следующая Теорема 5. Если для случайных элементов Е €Е X, у] ^Y распределения SfiW (g, т]) слабо сходятся к распределению $> (Е, т)), то 5ля соответствующих количеств информации имеет место не- неравенство lim inf Для доказательства достаточно применить теорему 3 к алгеб- алгебрам Э( и 85, состоящим соответственно из событий £ £Е -4,11 ЕЕ 5, где Л и 5 суть множества непрерывности распределений 5^ и соответственно 3% (т. е. множества, для границ которых соответ-
2. К общему определению количества информации 29 ственно 5s! = 0 или $\, = 0), и заметить, что алгебра [91 \J 93] всюду плотна на ©хху в метрике, порождаемой предельным рас- распределением Р. 8 октября 1956 г. ЛИТЕРАТУРА 1. Халмош[ Д. Р. Теория меры. М.: Изд-во иностр. лит., 1953. 3 ТЕОРИЯ ПЕРЕДАЧИ ИНФОРМАЦИИ* I. ВОЗНИКНОВЕНИЕ ТЕОРИИ И ЕЕ СОДЕРЖАНИЕ Выступая второй раз перед Общим собранием нашей Академии, мне хочется начать с замечания, что тема моего сегодняшнего сооб- сообщения тесно связана с темой доклада «Статистическая теория коле- колебаний с непрерывным спектром», который я делал на Общем соб- собрании Академии в 1947 г.1 В самом деле, наиболее богатая содержа- содержанием и наиболее увлекательная с чисто математической стороны часть теории информации — теория стационарно работающих каналов связи, передающих непрерывные сообщения,— не могла бы быть создана без заранее разработанной теории стационарных случайных процессов и, в частности, без спектральной теории таких процессов. Интерес к разнообразным задачам передачи и хранения инфор- информации имеет большую давность. Давно, по существу, возникали вопросы об оценке «количества» информации. Вопрос о возмож- возможности введения универсальной числовой меры для количества информации особенно важен в случаях необходимости преобра- преобразования информации одного рода в информацию качественно другого рода. Типичной задачей на преобразование информации * В кн.: Сессия Академии наук СССР по научным проблемам автомати- автоматизации производства, 15—20 окт. 1956 г.: Пленар. заседания. М.: Изд-во АН СССР, 1957, с. 66—99. В конце статьи приводится выступление А. Н. Кол- Колмогорова при обсуждении доклада. 1 См. [1]. Более подробное изложение математической стороны вопро- вопросов, которым был посвящен этот мой доклад в 1947 г., выделено в статью 12]. Сейчас аналогичную роль играет глава II настоящей работы, воспроиз- воспроизводящая с небольшими изменениями доклад, прочитанный Б. В. Гнеденко от моего имени на симпозиуме по теории информации Американского инсти- института радиоинженеров (Массачусетсский технологический институт, сен- сентябрь 1956 г.) и основанный во многих частях на докладе, прочитанном мною совместно с И. М. Гельфандом и А. М. Ягломом на Всесоюзном мате- математическом съезде в июне 1956 г.
30 3. Теория передачи информации является задача табулирования непрерывных функций от не- непрерывно меняющихся аргументов. Если, например, функцию / (ж, у) от двух аргументов необходимо задать с точностью до е и известно, что ее приращение Д/ не превосходит по абсолютной величине е, когда I Ьх |< ех, | Ау |< гу, то заведомо достаточно табулировать функцию / с шагом ех по х и еу по у, т. е. задать приблизительно N ~ 1/ежеу ее значений. Если допустить, что | / | <J 1, то для фиксации одного значения функции достаточно приблизительно К ~ log,0 A/е) десятичных знаков. Таким образом^ если следовать намеченному сейчас плану, всего в таблицу придется ввести приблизительно NK ~ {\!гхгу) log10 A/е) десятичных знаков (не считая записи значений аргументов х и у, которая стандартна для всех функций /, подчиненных сделанным ограничениям). Общеизвестно, что такой примитивный подход к делу, особенно в случае функций нескольких переменных, при- привел бы к таблицам огромного объема и практически неосуществи- неосуществимым. На самом деле при табулировании достаточно «гладких» функций выбирают шаг таблицы по независимым переменным значительно большим, а для нахождения значений функции при промежуточных значениях аргумента прибегают к интерполирова- интерполированию с помощью разностей до какого-либо порядка (в случае таб- таблиц функций нескольких переменных часто до четвертого или шестого порядка). Кроме того, часто первые знаки / (х, у), пов- повторяющиеся для близких значений аргументов, не выписывают в каждой клеточке таблицы, соответствующей определенной паре значений (х, у), а выписывают, например, лишь в начале строки, состоящей из многих таких клеточек. При всей общеизвестности и давнем происхождении описанных приемов построения таблиц соответствующие общие теоретические исследования, которые должны выяснить минимальное количество информации, необходимое для фиксации с заданной точностью е произвольной функции f, подчиненной лишь тем или иным общим условиям, находятся еще в начальной стадии. Например, только
3. Теория передачи информации 31 недавно в моей заметке [3] была явно дана формула2 £\ A) указывающая порядок роста при е —*■ 0 количества информации, необходимого для фиксации заданной в ограниченной области функции п переменных с ограниченными производными первых р порядков и производными порядка р, удовлетворяющими условию Липшица степени а. Вполне понятно, что вопросы преобразования и хранения ин- информации имеют решающее значение при разработке конструкций и способов употребления современных вычислительных машин. Здесь «объем памяти» запоминающего устройства характеризуется числом удерживаемых этим устройством двоичных знаков @ или 1). Способ измерения количества информации при помощи сравне- сравнения любой информации с информацией в виде некоторого числа двоичных знаков стал сейчас стандартным в теории информации. Переходя к задачам из теории «каналов связи» в той ее форме, которая связана с работой телеграфных или телефонных линий и подобных им устройств, начнем с очень простой задачи о переда- передаче последовательности десятичных знаков ах, а2, . . ., ап, . . . B) при помощи последовательности двоичных знаков Ьх, Ь2, ...,£>„,... C) Допустим, что последовательность B) возникает во времени по од- одному знаку в единицу времени. Спрашивается, с какой скоростью надо передавать двоичные знаки последовательности C), если же- желать, чтобы восстановление по последовательности C) исходной последовательности B) осуществлялось без неограниченно воз- возрастающего со временем запоздания. Если изображать каждый знак ап отдельно двоичными знаками, то на один знак ап прихо- приходится тратить четыре двоичных знака (так как 2s = 8 < 10 и толь- только 24 = 16 > 10). Если передавать каждую пару («2n-i> a2n) зна- знаков последовательности B) группой двоичных знаков, то на нее придется тратить семь двоичных знаков (так как 26 = 64 < 100 и только 27 = 128 ^ 100), для передачи трех десятичных знаков достаточно тратить десять двоичных знаков (так как 29 < 1000, но 210 = 1024 ^ 1000) и т. д. Соответствующие этим системам пе- передачи скорости образования знаков последовательности C), т. е. соответствующее число двоичных знаков, которые необходимо в 3 Формулу эту можно назвать формулой А. Г. Витушкина, та» как в era работе [4] по другому поводу выяснена роль показателя nl{p -f- a)J и по су- существу содержится половина доказательства формулы A), а именно^доказа- тельство того факта, что порядок Нг {F1^ a) не может быть меньше указы- указываемого формулой A).
32 3. Теория передачи информации среднем передавать за единицу времени, равны vi =4; v2 = 7/2 = 3,5; v3 = 10/3 = 3,33 . . . Легко доказать, что возникающий таким образом ряд чисел схо- сходится к пределу v = log2 10 = 3,32 . . . Именно это v и является нижней гранью тех скоростей создания знаков последовательности C), при которых можно без системати- систематически возрастающего запоздания передавать последователь- последовательность B). Уже на этом нарочито наивном примере можно наблюдать мно- многие типичные явления, открытые современной теорией передачи информации в применении к значительно более общим видам кана- каналов связи. 1. Скорость создания информации, несмотря на разнородность ее качества, допускает разумное количественное измерение. В част- частности, мерой скорости создания информации при фиксировании в единицу времени в среднем v знаков, каждый из которых может принимать к значений, разумно считать число Я = v log2 к. (В нашем случае Н = log2 10 = 3,32 . . . для последовательности B) и Н' = v log2 2 = v для последовательности C) при создании v знаков в единицу вре- времени.) Для дальнейшего заметим, что в случае точно (без ошибок) ра- работающих каналов связи скорость выдаваемой ими информации разумно называть их «пропускной способностью». В нашем случае пропускная способность последовательности C), рассматриваемой как канал связи, равна С = ff' = v. В общем случае пропускная способность определяется несколько иначе, что будет позднее объяснено. После этого замечания сформулируем второй общий принцип. _ 2. Для возможности передачи возникающей со скоростью JET информации через канал связи с пропускной способностью С без систематически возрастающего запоздания необходимо условие Я< С. Наиболее существен, однако, третий принцип, содержание ко- которого в приводимой сейчас формулировке еще очень расплывчато, но в котором и заключается, пожалуй, наиболее существенное но-
3. Теория передачи информации 33 вое, внесенное в теорию передачи информации по каналам связи работами Шеннона. 3. Даже при значительной качественной разнородности инфор- информации, подлежащей передаче, и той информации, которую спосо- способен непосредственно воспринимать и выдавать канал связи, в слу- случае Д <С в принципе возможно производить передачу без систематически возрастающего запаздывания, если подлежащая передаче инфор- информация перед поступлением в канал связи надлежащим образом «кодируется», а после выхода из канала «декодируется». Однако, вообще говоря, при приближении И к С способы кодирования и де- декодирования неизбежно усложняются и возникает все большее и большее (при Н -*■ С) запаздывание передачи. Заметим, что_запаздывание, о котором идет речь в принципе 3, возрастает при Н -*■ С, но при постоянном источнике информации с Н < С может быть оценено некоторой величиной т, которая со- сохраняется при неограниченном продолжении работы канала. В виде следующего примера рассмотрим передачу текста, со- состоящего из букв русского алфавита. Так как различных букв в нашем алфавите 33, то можно формально образовать JV = 33" различных «текстов» длины п (т. е. последовательностей из п букв). Количество информации, содержащейся в указании одного опре- определенного такого текста, равно по предыдущему / = п log 33 (здесь и всюду далее мы употребляем логарифмы при основании 2, не оговаривая этого специально). Существование стенографии по- показывает, однако, что реальные языковые тексты можно переда- передавать значительно более кратким образом. Это вполне понятно: число N* «осмысленных» текстов из п букв, конечно, несравненно меньше N. Поэтому в принципе возможна система записи («идеаль- («идеальная» стенография), которая требовала бы для фиксации любого из этих N* осмысленных текстов лишь /* ~ log N* двоичных знаков. Полное использование этой принципиальной возможности «сжатия текста», конечно, лежит за пределами осу- осуществимого при помощи каких-либо систем стенографирования или кодирования текста, следующих достаточно простым формаль- формальным правилам: закономерности построения реального языкового текста вряд ли когда-либо будут полностью формализованы.
34 3. Теория передачи информации Мы обратим сейчас внимание лишь на одну особенность языко- языковых текстов: различные буквы встречаются в них с различной час- частотой. Если фиксировать числа вхождений в текст длины п каждой из букв аи а2, . . ., ак (естественно, что при этом «1 + П-2 + • • • + Щ = "), то число текстов длины п сократится до jj' п[ — вх! в,! . . . пк\ • Пользуясь так называемой формулой Стирлинга, которая нужна здесь даже лишь в ослабленной форме: log (п\) ~ п log п, легко подсчитать, что при больших П} I' = \ogN' « 2 Pi l°g p.-, i где Pi = ntln — частоты появления отдельных букв. Полученный результат можно выразить так: при употреблении отдельных букв с частота- частотами pi количество информации, передаваемой «на одну букву тек- текста», равно Я^-SPibgPi- D) i ' В случае равных частот Pi = Pi = ■ • • = Р* = Vk мы вновь получаем при любых других частотах Pi H<logk. Легко указать приемы кодирования, позволяющие передавать произвольный текст, в котором буквы ах, а2, . . ., а^ встречаются с частотами ръ рг, . . ., рк, затрачивая в среднем (при передаче достаточно длинных текстов) на одну букву число двоичных зна- знаков, сколь угодно мало отличающееся от Н, определенного по фор-
3. Теория передачи информации 35 муле D). Это еще одно проявление третьего из сформулированных выше принципов. Мы оставим, однако, теперь рассмотрение эле- элементарных примеров и перейдем к элементам общей теории. Формула D) допускает, кроме чисто статистической (в которой pt являются частоталш), вероятностную интерпретацию. Пусть со- совсем общим образом дано распределение вероятностей . Р {Б = *i} = Pi E) случайного объекта §. Если дано только это распределение, то в ответе на вопрос о том, какому из возможных значений Х-,, Х%, . . ., Хк равно в действительности |, остается некоторая неопределенность. Сообщая, что £ равно такому-то определенному xh мы устраняем эту неопределенность, т. е. сообщаем некоторую дополнительную информацию об объекте \. Мерой неопределенности распределения E) является его энтропия, выражающаяся уже знакомой нам фор- формулой D). Эта же формула выражает и количество информации, необходимое для устранения неопределенности в задании £ лишь распределением E), т. е. информации, содержащейся в указании точного значения |. Пусть теперь, далее, дано совместное распределение вероят- вероятностей р {I = *j, Ц = У А = Ри двух случайных объектов £ и т). Если т] = у} задано, то | получает условное распределение ■Р {£ = «I I Л = У А = Pnj- Количество информации, содержащееся в указании точного значе- значения £, если значение т] = у> уже известно, равно Н (I | Л = у}) = — S Pi\j log Pi\j, в среднем же оно равно | Т))= - SP {Г] = УА $рц, log p:b, j Естественно считать, что разность / (цЛ) = н ш - мя(Е 1л) (С) есть то количество информации относительно £, которое уже со- содержится в задании ц. Легко подсчитать, что Г (ц, |) можно запи- записать в виде
36 3. Теория передачи информации где | и т] играют совершенно одинаковую роль: количеств инфор- информации в г) относительно £ и количество информации в | относитель- относительно т] численно равны друг другу. Легко проверить, что всегда / (|, 6) = Н (I). (8) Теперь без труда определяются скорость передачи информа- информации через канал связи, работающий с ошибками, и пропускная способность таких каналов (пропускная способность определяется но-прежнему как верхняя грань возможной скорости передачи информации). Приведу еще один элементарный пример. Пусть «на входе» в канал подаются знаки т], равные 0 или 1, а на выходе по- получаются соответствующие знаки т)', причем Р (т1' = 0} = 1 — А, Р {*]' = 1} = А в случае ц = 0, Р {ц' = 0} = А, Р {т]' = 1} = 1 — А в случае ц = 1. Легко подсчитать, что верхняя грань С = sup / (т|,т|') = 1 + [A log А + A - A) log A - А)] (9) достигается в случае Р {г\ = 0} = Р {л = 1} = V2. По формуле (9) количество информации / (ц, ц'), передаваемое на- нашим каналом на одну букву, равно заведомо нулю, если А = V2. Это вполне понятно, так как с вероятностной точки зрения в этом случае знаки rj и г\' независимы. Максимальное значение пропуск- пропускной способности С = 1 получается при А = 0 и при А = 1. В случае А = 0 канал работает без ошибок: с вероятностью едини- единица т] = г]'. Хотя во втором случае с вероятностью единица т] =?^= ц'% т] легко восстанавливается по ц' ив этом случае: надо только вмес- вместо 0 читать 1 и наоборот. Во всех остальных случаях Когда Шеннон в конце 40-х годов предложил измерять коли- количество информации формулами D), F), G) и обнаружил, что и для каналов связи, работающих с ошибками, при довольно широких предположениях относительно источника информации и строения канала сохраняются сформулированные выше второй и третий принципы, то этим и были созданы основы современной теории ин- информации в виде дисциплины, способной к систематическому раз- развитию. Во всяком крупном открытии имеются элементы неожиданнос- неожиданности. Этим крупное открытие и отличается от постепенно накапливае- накапливаемых результатов текущей научной работы. Подчеркну здесь, в чем я усматриваю то качественно новое и неожиданное, что содержится уже в описанной элементарной части теории информации.
3. Теория передачи информации 37 1. По первоначальному замыслу «информация» не есть скаляр- скалярная величина. Различные виды информации могут быть чрезвы- чрезвычайно разнообразны. Можно было заранее ожидать, что можно предложить те или иные способы измерять «количество» информа- информации, но было неясно, существует ли среди этих способов какой-ли- какой-либо один, имеющий принципиальное преимущество перед другими, а главное было совершенно неясно, можно ли качественно различ- различные информации, для которых та или иная условная количествен- количественная мера одинакова, действительно считать эквивалентными в смысле трудности их передачи через каналы связи или их хра- хранения в запоминающих устрой- ствах. Оказалось, что такая «пра- «правильная» по преимуществу ме- мера количества информации су- & / к=Н/С ществует и позволяет решать до конца широкий класс задач, Рис- * в которых априори независи- независимость решения от более тонких качественных особенностей инфор- информации была совершенно неясна. 2. В случае каналов связи (или запоминающих устройств), работающих с ошибками, можно было опасаться, что достижение передачи с достаточно малой вероятностью ошибки е связано с очень большим уменьшением скорости передачи. Вопреки этим опасениям оказалось, что при условии Н < С сразу становится возможной передача информации со сколь угодно малой вероят- вероятностью ошибки. Для пояснения этого обстоятельства укажу на следующее. Пусть дан канал связи с пропускной способностью С. Рассмотрим задачу передачи по нему двоичных знаков, возникаю- возникающих в числе Н за единицу времени. Тогда достижимый с любым приближением минимум вероят- вероятности ошибки в передаче отдельного_знака является универсаль- универсальной функцией е (К) отношения К = Н 1С (изображенной на рис. 1). При К <; 1 она равна нулю, а при дальнейшем возрастании К начинает возрастать и при К ->■ оо стремится к половине (аналити- (аналитически при А" ^> 1 функция е (К) определяется из уравнения \1К = 1 + е log е + A - е) log A - е), е < V,. Таким образом, от значений, точно равных нулю при К<^. 1, наша функция при А" ^> 1 сразу переходит к возрастанию. _ Правда, как уже отмечалось ранее, при Н, близких к С, дости- достижение малой вероятности ошибки требует часто очень сложных правил кодирования информации и приводит к большому запазды- запаздыванию ее выдачи на выходе канала. Но именно эта большая сила сложных способов кодирования в смысле устранения ошибок и яв-
38 3. Теория передачи информации ляется принципиально важным выводом, к возможным примене- применениям которого мы еще вернемся. Обоснование предложенных Шенноном способов измерения ко- количества информации, т. е. формул D) и G), можно мыслить двоя- двояко. Прежде всего можно выдвинуть те или иные естественные ак- аксиоматические требования, которым мера количества информации должна удовлетворять. В применении к величине Н (|), т. е. в со- соответствии с формулой (8), к количеству информации, содержащей- содержащейся в указании случайного объекта | относительно самого этого объекта |, образцово ясное изложение такого подхода к задаче обоснования теории информации дано в работе А. Я. Хинчина [5]. Представляло бы некоторый интерес дать столь же естествен- естественную аксиоматику непосредственно более общего понятия количе- количества информации / (|, ц) в одном случайном объекте относительно другого случайного объекта. Дело в том (ср. главу II), что в не- непрерывном случае обычно Н (Ъ)шН (ц), взятые отдельно, бесконеч- бесконечны, и / (|, ц) не может вычисляться по формуле F). В качестве итога исследований аксиоматического направления можно считать выясненным, что никакой другой столь же естест- естественной скалярной сводной характеристики информации, содержа- содержащейся в одном случайном объекте | относительно другого случай- случайного объекта т), кроме/ (£,-т)), существовать не может. Однако так как «информация» по своей природе не обязана быть (и в действи- действительности не является!) скалярной величиной, то никакие аксио- аксиоматические исследования указанного направления не могут отве- ответить на вопрос о том, сколь полно характеризует величина / (|, ц) интересующую нас «информацию». Некоторый ответ на этот воп- вопрос, как уже можно было понять из предшествующего изложения, дают тооремы, обосновывающие второй и третий сформулирован- сформулированные выше общие принципы теории передачи информации. В силу этих теорем в весьма широком классе случаев приспособленность канала связи или запоминающего устройства к передаче или хра- хранению информации с достаточной полнотой характеризуется од- яим-единственным числом С (при расчете на единицу времени С), А приспособленность самой информации к передаче или хране- хранению — одним-единственным числом Н (или при расчете на едини- единицу времени Я). Качественное своеобразие информации оказывается при этом несущественным. Трудно переоценить значение такого рода результатов, если учесть широту применения в современной технике таких преобразований, как преобразование изображений, передаваемых в телевидении, в электрические колебания и обрат- обратно (в терминологии теории передачи информации это частный слу- случай «кодирования»,и «декодирования») и т. п. Вместе с тем надо понимать, что при всей увлекательности идей теории информации подобное стирание качественных особенностей информации имеет место только с известным приближением и при определенных ус- условиях. Эти условия в хорошо исследованных случаях, грубо го-
3. Теория передачи информации воря, состоят в накоплении большого количества однородной ин- информации, в действительной осуществимости сложных методов ко- кодирования и в безвредности возникающего при этом запаздывания выдачи информации. Кроме того, следует ясно представлять се- себе, что точное математическое обоснование реальности этих пред- представлений пока выполнено лишь при довольно ограниченных предположениях. При необычайном богатстве идей, данных в ра- работах самого Шеннона, изложение в них обычно крайне туманно» Лишь позднее в ряде работ чистых математиков для случая стацио- стационарно работающих каналов, передающих дискретные сигналы, «теоремы Шеннона» были доказаны безукоризненно и в достаточно общих предположениях. Наиболее законченный характер из работ этого направления имеет работа А. Я. Хинчина [6]. С значительно опережающим фундаментальные математически© исследования развитием теории информации, осуществляемым исг следователями более прикладного направления, советский чита- читатель может с достаточной полнотой познакомиться по книгам [7—9} (в [7] включен перевод основной работы Шеннона [10]). Существенные элементы теории информации для непрерывного случая, казалось бы более трудного, возникли до Шеннона. Лога- Логарифмическая мера количества информации, вполне аналогичная шенноновскому выражению Н (|), лежит в основе асимптотиче- асимптотических методов статистики, разработанных Фишером еще в 1921 — 1925 гг. (см, [11, гл. 32-33]) 3. Еще ближе непосредственно к работам Шеннона стоят резуль- результаты В. А. Котельникова [12], полученные еще в 1933 г. Здесь бы- была сформулирована фундаментальная идея спектральной теории передачи информации при помощи непрерывных сигналов, о кото- которой я говорю подробнее в главе II 4. . И. ПРИНЦИПЫ ПОСТРОЕНИЯ ТЕОРИИ В СЛУЧАЕ НЕПРЕРЫВНЫХ СООБЩЕНИЙ Роль энтропии случайного объекта £, способного принимать значения хх, х.2, . . ., хп с вероятностями ри р2, . . ., рп, 3 Общеизвестно и то обстоятельство, что выражение Н A) формально тождественно с выражением энтропии в физике. Это совпадение я считаю вполне достаточным для оправдания наименования величины Я (%) и в тео- теории информации «энтропией»: такие математические аналогии следует всег- всегда подчеркивать, так как сосредоточение на них внимания содействует про- прогрессу науки. Но было бы преувеличением считать, что физические теории, связанные с понятием энтропии, уже содержат в себе в готовом виде элемен- элементы теории информации: первое использование выражений типа энтропии в качестве меры количества информации, которое мне известно, находится в только что упомянутых работах Фишера. 4 Глава II настоящей работы содержит больше математических подроб- подробностей, чем устный доклад.
40 3. Теория передачи, информации в теории информации и теории передачи сообщений при помощи дискретных сигналов можно считать достаточно выясненной. Да- Далее я настаиваю на той идее, что основным понятием, допускаю- допускающим обобщение на совершенно произвольные непрерывные сооб- сообщения и сигналы, является не непосредственно понятие энтропии, а понятие количества информации / (|, ц) в случайном объекте £ относительно объекта г\. В дискретном случае эта величина кор- корректно вычисляется по известной формуле Шеннона б / (£, л) = Н ft) - М# ft | \). Для конечномерных распределений, обладающих плотностью, величина / (|, ц) по Шеннону определяется аналогичной формулой / (£, Л). = * (л) - Mfe ft | 6), где h ft) есть «дифференциальная энтропия» h ft) = — j РЛ (у) log р„ (г/) <fy, a h ft | |) — аналогичным образом определяемая условная диф- дифференциальная энтропия. Общеизвестно, что величина h (|) не име- имеет непосредственного реального истолкования и даже неинвариант- неинвариантна по отношению к преобразованиям координат в пространстве хи . . ., хп. Для бесконечномерных распределений аналога выра- выражения h (|), вообще говоря, не существует. В собственном смысле слова энтропия объекта | е непрерывным распределением всегда бесконечна. Если непрерывные сигналы не могут тем не менее служить для передачи неограниченно боль- большой информации, то только потому, что они всегда наблюдаются с ограниченной точностью. Естественно поэтому, задав точность наблюдения е, определить соответствующую ей «е-энтропию» Не (|) объекта |. Это и было сделано Шенноном под названием «скорости создания сообщений». Хоти выбор для этой величины нового названия и не меняет существа дела, я решаюсь предложить такое переименование, подчеркивающее более широкий интерес понятия и его глубокую аналогию с обыкновенной точной энтро- энтропией. Укажу заранее на то, что, как указывается в § 3, для е-энт- ропии сохраняется теорема об экстремальной роли нормального распределения (как в конечномерном, так и в бесконечномерном случае). Далее, в § 1, 2 я даю, не претендуя на безусловную новиз- новизну, абстрактную формулировку определения и основных свойств величины / (|, ц) и обзор основной проблематики теории передачи сообщений Шеннона. В § 3—6 излагаются некоторые конкретные результаты, полученные советскими математиками в самое послед- последнее время. Мне особенно хотелось бы подчеркнуть интерес исследо- 5 В кажущихся мне целесообразными обозначениях Н (ц | |) есть ус- условная энтропия ц при £ = аг, а М# (т) | £) — математическое ожидание этой условной энтропии при переменном |.
3. Теория передачи информации 41 ваний по асимптотическому поведению е-энтропйй: при е -*• 0.' Исследованные ранее случаи #£ (£) ~ п log A/е), Fe (I) ~ 2TF log A/е), где п — число измерений, a W — ширина полосы спектра, явля- являются лишь очень частными случаями могущих здесь встретиться закономерностей. Для понимания открывающихся перспектив может представлять интерес, изложенная в других терминах моя заметка [3]. § 1 КОЛИЧЕСТВО ИНФОРМАЦИИ В ОДНОМ СЛУЧАЙНОМ ОБЪЕКТЕ ОТНОСИТЕЛЬНО ДРУГОГО Пусть | и г\ являются случайными объектами с областями воз- возможных значений X и Y, Pi (А) = Р {i 6= А}, Р„ (В) = Р {т! е= В} — соответствующие распределения вероятностей и *м (С) = р «Е, ц) е С} — совместное распределение вероятностей объектов | и ц. По оп- определению количество информации в случайном объекте £ отно- относительно случайного объекта т\ дается формулой • A) Точный смысл этой формулы требует некоторых пояснений, а со- сообщаемые далее общие свойства величины / (|, т]) справедливы лишь при некоторых теоретико-множественного характера огра- ограничениях на распределения Р%, Рц и Р^, но здесь я не буду на этом останавливаться. Во всяком случае общая теория без боль- больших затруднений может быть изложена таким образом, что она бу- будет применима к случайным объектам £ и ц весьма общей природы (векторам, функциям, обобщенным функциям и т. п.). Определе- Определение A) можно считать принадлежащим Шеннону, хотя он и огра- ограничился случаем Рь (А) = J ^ (x) dx, Рц (В) = J р„ (у) dy, А В in (С) =)) Рщ (x, y)dxdy, с
42 3. Теория передачи информации когда A) переходит в Иногда бывает полезно представить распределение Р^ в виде B) с где функция S (С) сингулярна относительно произведения Ps. X Рп. Если сингулярная компонента iS отсутствует, то формула аг,ц = аA,ц) C) определяет однозначно с точностью до вероятности нуль случай- случайную величину <Х|, п. Иногда бывает полезна сформулированная И. М. Гельфандом и А. М. Ягломом [13] Теорема. Если S (X X Y) > 0, то I (|, ц). => оо. Если S (X X Y) = 0, то I (I, ц) = $ I а (х, у) log а (*, у) Р% (dx) P^dy) = X Y ■ ' Перечислим некоторые основные свойства величины / (£, ту). I. /(Б,л)=/(л, Б). 'II. / (|, т]) > 0; i"(|, т]) = 0 лишь в случае, если £ и т] неза- независимы. ' III. Если пары (li,%) и (|2, i]2) независимы, то .. Iiili. У, К. Лг)) = / (li. 4i) + I (li, la)- IV. /((|,Т1), Q>/(ti,S). . .'V. / ((Б, л). О = / (л. О в том и только том случае, если %, ц, t, есть марковская последо- последовательность, т. е. если условное распределение £ при фиксиро- фиксированных | и rj зависит только от г\. ■ , По поводу свойства IV полезно заметить следующее. В случае энтропии кроме оценок энтропии пары (|, ц) снизу На,ц)>НA), И{1,г\)>ЙA\).
3. Теория передачи информации 4S вытекающих из I п IV, имеется оценка сверху Н (I, Ti)< Я (Б) + Н (л). Для количества информации в £ относительно пары (|, ц) анало- аналогичной оценки не существует: из / (Б, о = о, / (л, о = о еще не вытекает, как можно показать на элементарных примерах, равенство ;,'... / ((?, ч), £) = 0. Для дальнейшего отметим специально случай, когда Б и ц являются случайными векторами 5 = (fell ■ • •> £m)> Ц = (in ■ • -5 In) = (Бтп+1. • • •, ?m+n) и величины Sli Sai • • м 5tn+n ' распределены нормально со вторыми центральными моментами : *« ^ м [(Б, - МБ*) (Б,^ М|,)]. Если детерминант С = I stj |, 1 < i, j < те + п, отличен от нуля, то, как было подсчитано И. М. Гельфандом и А. М. Ягломом, / (I, ц) = У, log (AB/C), E) где А = | stj |, 1 < i, j < т, В = | Su |, т < г, у < m + re. Часто целесообразнее, впрочем, другой подход к делу, примени*- мый без ограничения С^>0. Как известно [14], после надлежащего линейного преобразования координат в пространствах X и Y все вторые моменты stl, кроме тех, для которых i = / или / = = т + i, обратятся в нуль. При таком выборе координат /(Е, Л) = -7* log 2 [!-*■»&, %)Ь ■ F> где суммирование берется по тем к ^ min (m, п), :
44 3. Теория передачи информации для которых знаменатель в выражении коэффициента корреляции Г (lh; Цк) = Sir, m WVVt, k Sm+J{, m+Jr отличен от нуля. §2 АБСТРАКТНОЕ ИЗЛОЖЕНИЕ ОСНОВ ТЕОРИИ ШЕННОНА Шеннон рассматривает передачу сообщений по схеме где «передающее устройство» ti->-ti' характеризуется условным распределением Ллг, (В' | у) = Р К е= 5' | т, = у> «сигнала на выходе» г;' при заданном «сигнале на входе» г; и не- некоторыми ограничениями распределения Р* входного сигнала. Операции «кодирования» Б-л и «декодирования» л'-* Б' характеризуются условными распределениями Р„|. (В | х) = Р {ц G 5 | | = «}, Основная задача Шеннона заключается в следующем. Заданы пространства X, X', Y, Y' возможных значений «сообщений на входе» |, «сообщений на выходе» £', сигналов на входе ц и сигналов на выходе т)', заданы характеристики передающего устройства, т.ге. условные распределения Ртпл и класс V допустимых рас- распределений Рц входного сигнала; заданы, наконец, распределение сообщения на входе и «требования к точности передачи» где И7 — некоторый класс совместных распределений (С) - Р {A, БО е С}
3. Теория передачи информации 45 сообщения на входе и сообщения на выходе. Спрашивается: возможно ли, и в случае возможности — каким способом, задать правила кодирования и декодирования (т. е. условные распреде- распределения Priii и Р\'\ц') таким образом, что, вычисляя распределение Рц- по распределениям Р^, Рг\\ъ, Pr\-\r\, ^Viir B предположении, что последовательность I, ч, ч', V марковская, получим PlV S Wi Определим вместе с Шенноном «пропускную способность» передаю- передающего устройства формулой С = sup / Сч, т)') и введем величину Hw (I) = inf / (I, I'), ptr-w которую при расчете на единицу времени Шеннон называет «ско- «скоростью создания сообщений». Тогда из свойства V § 1 сразу вы- вытекает необходимое условие возможности передачи Hw Ш < С. G) Как уже отмечалось, несравненно глубже идея Шеннона о том, что в применении к длительной работе «каналов связи» условие G) является в некотором смысле и при некоторых весьма широких условиях и «почти достаточным». С математической точки зрения здесь дело идет о доказательстве предельных теорем следующего типа. Предполагается, что пространства X, X', Y, Y', распреде- распределения Р% и Рг|'|г|1 классы V и W, а следовательно, и величины С и Hw (|) зависят от параметра Т (играющего в применениях роль длительности работы передающего устройства). Требуется уста- установить при некоторых весьма общего характера предположениях^ что условие liminf—£—>1 . (8) достаточно для возможности передачи, удовлетворяющей постав- поставленным выше условиям, при достаточно больших Т. Естественно, что в такой постановке задача несколько расплывчата. Однако я умышленно избегнул здесь обращения к терминологии теории стационарных случайных процессов, так как можно получить в на- намеченном направлении не лишенные интереса результаты и без предположения стационарности [15].
46 3. Теория передачи информации Выводу предельных теорем указанного типа для дискретного случая посвящено много замечательных работ. Среди них особен- особенно следует отметить уже называвшуюся работу А. Я. Хинчина [6L Для общего непрерывного случая здесь собственно еще почти ничего не сделано. §3 ВЫЧИСЛЕНИЕ И ОЦЕНКА е-ЭНТРОПИИ В НЕКОТОРЫХ ЧАСТНЫХ СЛУЧАЯХ Если условие PlV S W выбрать в виде обязательности точного совпадения Б и |' Р {Б = Б'} = 1, то Hw (I) = Н (Б). В соответствии с этим кажется естественным назвать в общем случае Hw (?) «энтропией случайного объекта Б при точности вос- воспроизведения W». Предположим теперь, что пространство X' совпадает с X, т. е. исследуются способы приближенной передачи сообщения о поло- щении точки | Е: X при помощи указания точки £' того же прост- пространства X, и что в пространстве введено «расстояние» р (х, x')f удовлетворяющее обычным аксиомам «метрических пространств». Кажется естественным потребовать, чтобы Р {р (I, Г)< е} = 1 или чтобы Мр* (I, I') < 8^. (We) Эти два вида «е-энтропии» распределения Р| будем обозначать НКЦ)=Н1A), Яиге (Б) = Яв (Б). Что касается е-энтропии Н\ (£), то я хочу здесь лишь отметить некоторые оценки для Hl(X)=sup я2(Б), где верхняя грань берется по всем распределениям вероятностей Р| на пространстве X. При е = 0, как известно,
3. Теория передачи информации 47 где Nx есть число элементов множества X. При е > О log Ncx Be) < Hi (X) < log Л^ F), где Nx (в) и Nx (e) являются характеристиками пространства X, которые введены в моей заметке [3]. Асимптотические свойства при е -*- 0 функций Nx (e), изученные для ряда конкретных про- пространств X в [31, являются интересными аналогами излагаемых далее свойств асимптотического поведения функции Не (£). Обратимся теперь к е-энтропии Не (Q. Если X есть га-мерное евклидово пространство а то по крайней мере в случае достаточно гладкой функции pi (х) имеет место хорошо известная формула , Нг A) = п log A/6) + [h (I) - га log /2^1 + о A), (9) где k (I) = — ^ Pi (x) log p% (x) dxi dxi... dxn x — «дифференциальная энтропия», введенная уже в первых рабо- работах Шеннона. Таким образом, асимптотическое поведение Не (|) в случае достаточно гладких непрерывных распределений в га-мер- га-мерном пространстве определяется в первую очередь размерностью пространства и лишь в виде второго члена в выражение НЕ (£) входит дифференциальная энтропия h (£). Естественно ожидать, что для типичных распределений в беско- бесконечномерных пространствах рост Не (?) при е -> 0 будет сущест- существенно более быстрым. В виде простейшего примера рассмотрим случайную функцию Винера | (t), определенную для 0 < I «С 1 с нормально распределенными независимыми приращениями: АБ = l{t + Д*) - I (t), для которой . I @) = 0, МД£ = 0, М(Д|J = М. А. М. Яглом нашел, что в этом случае в метрике L2 Более общим образом для процесса Маркова диффузного типа на отрезке времени t0 ^ t ^. tx с =А (t,l(t)) At + о (At), J = B(t,l (t)) At + о (At) ' ■-■■•■■••:■■
48 3. Теория передачи информации можно при некоторых естественных допущениях получить фор- формулу где Для случая нормального распределения в га-мерном евклидо- евклидовом или в гильбертовом пространстве е-энтропия Не может быть вычислена точно; га-мерный вектор | после надлежащего ортого- ортогонального преобразования координат приобретает вид 5 = (Si) 621 ■ • •■> Sn)> где координаты £й взаимно независимы и распределены нормаль- нормально. При заданном е параметр 9 определяется из уравнения е* = 2 min (ва, D^) и в случае нормально распределенного I У. A2) Аппроксимирующий вектор I' = (£li ?2i • • •■> In) следует выбирать так, что при D£ft <J 92 Й = о, а при Dlk > В2 и векторы |к и Д^ взаимно независимы. Бесконечномерный случай ничем не отличается от конечномерного. Наконец, весьма существенно, что максимальное значение Не (I) для вектора | (га-мерного или бесконечномерного) при за- заданных вторых центральных моментах достигается в случае нор- нормального распределения. Этот результат может быть получен не- непосредственно или из следующего предложения М. С. Пинскера (ср. [16]): Теорема. Пусть заданы положительно определенная сим- симметричная матрица величин $ц, 0 <^ i, j <^ т -\- п, и распреде~ ление Pi вектора
3. Теория передачи информации 49 центральные вторые моменты которого равны Sij {при ] ^ т). Пусть условие W на совместное распределение Рц' векто- векторами вектора 2> • • •» ът+п) заключается в том, что центральные вторые моменты величин 61» Ь21 ■ ■ -1 Ът+п равны Sij (при О <^ г, /<^ т + п). Тогда A3) Обозначения в формуле A3) соответствуют изложению § 1. Из сопоставления со сказанным в § 1 видно, что неравенство A3) превращается в равенство в случае нормального распределе- распределения Р%. Принципы решения вариационных задач, возникающих при вычислении «скорости создания сообщений», были указаны доволь- довольно давно Шенноном. В [10] Шеннон и Уивер пишут: «К сожале- сожалению, эти формальные решения в частных случаях трудно числен- численно оценить, и поэтому ценность их представляется небольшой» 6. По существу, однако, многие задачи такого рода, как видно из сказанного выше, достаточно просты. Возможно, что медленное развитие исследований в этом направлении связано с недостаточ- недостаточным пониманием того обстоятельства, что в типичных случаях решения вариационных задач оказываются очень часто вырожден- вырожденными; например, в разобранной выше задаче вычисления Нв (|) для нормально распределенного вектора 1 в га-мерном случае вектор |' часто оказывается не га-мерным, а лишь ^-мерным с к < га, в бесконечномерном же случае вектор |' оказывается всегда конечномерным. §4 КОЛИЧЕСТВО ИНФОРМАЦИИ И СКОРОСТЬ СОЗДАНИЯ СООБЩЕНИЙ В СЛУЧАЕ СТАЦИОНАРНЫХ ПРОЦЕССОВ Рассмотрим два стационарных и стационарно связанных про- процесса £(*). *1@. — °°<t<oo. Будем обозначать через £г и г\Т отрезки процессов Ъ, и г\ за время 0 < t <С Т тя. через £_ и ц_ течение процессов £ и ц на отрицатель- отрицательной полуоси — оо < t <^ 0. Задать пару (£, г\) стационарно свя- связанных процессов £ и ц — это значит задать инвариантное по от- отношению к сдвигам вдоль оси t распределение вероятностей • См, рус. пер. [10, § 28, с. 79].
50 3. Теория передачи информации в пространстве пар функций {х (£), у (£)}. Если зафиксировать £_t то из распределения Р%г\ возникает условное распределение iVnli- (С \х_) = Р {(|г, л) S С | g_ = *-}•> При помощи этого распределения в соответствии с § 1 вычисляет- вычисляется условное количество информации / (It, r\\>). Если математическое ожидание конечно при каком-либо Т "> 0, то оно конечно и при всех других £>0 и Величину / (|, ц) естественно назвать «скоростью создания ин- информации о процессе ц при наблюдении процесса %». Если процесс £ С: полной точностью экстраполируется из прошлого в будущее, то 7 (I,- л) = о. ■ ■ . ; ' ■ . Так будет, в частности, если процесс | имеет ограниченный спектр. Вообще говоря, не обязательно имеет место равенство ОДнако при довольно широких условиях «регулярности» процес- процесса7 £ имеет место равенетво где /(I, ^^lim-yr/^r, г)т). Так как / AТ, цт) = / (Лг, 1т), то всегда I (I, Л) = / (Ч, 5) и, следовательно, в случае справедливости обоих равенств Г(%1 т0 = ^ (li Л) и ^СП' I) = I\ч, V) имеет место равенство A4). Пусть теперь W есть некоторый класс совместных распределений P\v ДВУХ стационарных и стационарно связанных процессов £ и |'. Естественно назвать величину -. Hw(t)= inf 1A',I) 7 Регулярность процесса здесь и далее обозначает, грубо говоря, что отрезки процесса, соответствующие двум достаточно удаленным друг от друга отрезкам оси t, почти независимы. В случае гауссовских процессов здесь применимо хорошо известное определение регулярности, введенное в моей работе [17]. ■.'■•'-
3. Теория передачи информации 51 «скоростью создания сообщений в процессе | при точности вос- воспроизведения W». При некоторых предположениях регулярности процесса | и для некоторых естественных типов условий W можно доказать, что где f §5 ВЫЧИСЛЕНИЕ И ОЦЕНКА КОЛИЧЕСТВА ИНФОРМАЦИИ 1 И СКОРОСТИ СОЗДАНИЯ СООБЩЕНИЙ ПО СПЕКТРУ Для случая, когда распределение Рщ нормально и хотя бы один из процессов £ или нерегулярен, имеет место предложенная М. С. Пинскером [18] формула^ +00 где a flli Дт), /т)Т) — спектральные плотности. В случае процессов с дискретным временем t для дифференциальной энтропии нор- нормального процесса на единицу времени Я©=Нт-5гМЬ,Ь 1т) Г—оо ' известно выражение 4-я Ъ (|) = log Bл У7) + 4г J log /ffi (X) ЙЯ. A6) —я Однако в случае непрерывного времени и неограниченного спектра никакого аналога выражения h (|) не существует и формула Пинскера требует самостоятельного вывода. Естественно характеризовать точность воспроизведения ста- стационарного процесса | при помощи стационарного и стационарно связанного с | процесса |' величиной о* = M.[g @-£' и в случае условия W вида
52 3. Теория передачи информации называть величину е-энтропией на единицу времени процесса чтэ а в предположении, скоростью создания сообщений в процессе | при средней точности передачи е. Из соответствующего предложения для конечномерных распределений (см. § 3) можно вывести, что при заданной спек- спектральной плотности /ц (к) величина Не (|) достигает максимума в_случае нормального процесса |. В нормальном случае величина йе (I) может быть легко вычислена по спектральной плотности Рис. 2 f , t —-pj - -Jt-W -Л О Л Д+W А hi (ty вполне аналогично тому, как это было объяснено в § 3 в применении к величине Не (£,) для n-мерных распределений. Параметр 0 определяется из уравнения A7) При помощи этого параметра величина Не (|) находится по фор- формуле Практический интерес представляют спектральные плотности вида (рис. 2), которые хорошо аппроксимируются функцией <р(к) = а2 при А < I к |< А + W, и в остальных случаях. Легко подсчитать, что в этом случае при не слишком малых 8 приближенно для нормального процесса В2 — eV2W, ffe W log BИЪ7еа). A9)
3. Теория передачи информации 53 Формула A9), конечно, есть не что иное, как хорошо известная формула Шеннона R = W log (Q/N). B0) Принципиальная новизна заключается здесь, однако, в том, что теперь мы видим, почему и в каких пределах (при не слишком малых е) эта формула может быть применима к процессам с неогра- неограниченным спектром, а таковы все реально интересующие нас в тео- теории передачи сообщений процессы. Записывая A9) в виде F8 (I) ~ 2W (log A/е) + log (а УЩ) B1) и сравнивая с (9), мы видим, что двойная ширина 2W используе- используемой полосы частот играет роль числа измерений. Эта идея экви- эквивалентности двойной ширины полосы частот числу измерений, приходящихся, в некотором смысле слова, на единицу времени, была, по-видимому, впервые высказана В. А. Котельниковым (см. [12]). В обоснование этой идеи Котельников указывал на то об- обстоятельство, что функция, спектр которой помещается в полосе ширины 2W, однозначно определяется значениями функции в точ- точках 2_ 1 1 2 к ' ••* — 2W ' ~ 2W ' ' 2W ' 2W ' '"" ' 2W ' ' "" Эта же аргументация сохранена и у Шеннона, использующего по- полученные таким образом представления и для вывода формулы B0). Так как функция с ограниченным спектром всегда сингулярна в смысле [17] и наблюдение такой функции вообще не связано со стационарным притоком новой информации, то смысл такого рода аргументации оставался не вполне ясным, так что приведенный здесь новый вывод приближенной формулы B1) представляется мне не лишенным интереса. При малых е для любой^ нормально распределенной регулярной случайной функции рост Н6 (£) с убыванием е происходит сущест- существенно быстрее, чем это получалось бы по формулеД21). В частности, если /ц (X) при % -*- оо имеет порядок Х~^, то Я8 (|) имеет поря- порядок Е-21®-1). §6 ВЫЧИСЛЕНИЕ И ОЦЕНКА ПРОПУСКНОЙ СПОСОБНОСТИ В НЕКОТОРЫХ ЧАСТНЫХ СЛУЧАЯХ Сначала рассмотрим случай, когда входной сигнал является m-мерным вектором Ц = (Т|х, . . ., Г]™), а выходной сигнал — n-мерным вектором Т|' = (ru, . . ., tj;).
54 3. Теория передачи информации Как уже говорилось, передающее устройство Ц—^ц' характери- характеризуется условным распределением вероятностей Рщ'\г\ и некоторы- некоторыми ограничениями на входной сигнал щ. Предположим, что зависну мость t]' от т) имеет характер линейной нормальной корреляции- т. е. что . г,' = ЛЧ + ?, B2> где оператор А линеен, а вектор £ независим от т\ и подчинен n-мерному гауссовскому расиределению. Что касается условий на входной сигнал, то допустим, что они имеют вид ч)<82, B3> где Q есть некоторая положительно определенная квадратичная форма от координат%,..., r\m. При помощи надлежащего выбора линейных преобразований координат в пространствах Y и Yr общий случай сводится к случаю, когда <?M = 2ri?, B4> а зависимость B2) записывается в виде 4i = atr\i + It, at Ф 0, при 1 < I < к, t]i = Сг при i > к, B5> где к = min (m, n). В сделанных предположениях пропускная способность, т. е. верхняя грань С количества информации / (г\, ц'), совместимая с наложенными условиями, легко находится. Она достигается, если г|г — взаимно независимые случайные гауссовские величины Dr^ = в2 - DC/of, если г < к и а|б2 > D£,, B6> Dr|j = 0 при остальных i, где константа 92, как легко видеть, однозначно определяется требованиями B6) и -e*. . (.27) i Соответствующее значение С = I (r\, r\f) есть (см. § 3) ^=4 Z >--?■• <28> Аналогично дело обстоит в случае стационарных линейных каналов связи с «гауссовскими шумами», т. е. в случае tj'(«) = ^(O+ £@> B9)
3. Теория передачи информации 55 где А — линейный оператор, а £ (t) — независимая от r\ (t) гаус- совская стационарная случайная функция. Как известно, соответ- соответствующие спектральные плотности связаны соотношением /w (Ь) = a2 (*) /*, (Л) + /к (Ь). C0) Условие, ограничивающее мощность входного канала, зададим £ форме . C1) Формальное решение задачи вполне аналогично решению рас- рассмотренной выше конечномерной задачи. Наибольшая пропуск- пропускная способность канала С достигается, если при а* (X) б2 > /к (X), /т (I) = 0 при а* {ц 92 < /ц (х). C2) Соответствующее значение / (т|, г|') по формуле A5) равно ~dL C3) Следует тут же заметить, что в практически интересных слу- случаях вычисленная по формулам C2) спектральная плотность/лл (X) обращается в нуль за пределами ограниченного участка оси Я и поэтому является спектральной плотностью сингулярного про- процесса. Процесс г|' (t) будет при этом (в естественном предположе- предположении регулярности процесса £ (t)) смешанным, т. е. состоять из суммы сингулярной компоненты Aj\ и регулярной компоненты £. Скорость 7 (ц', г|) создания информации о процессе ц при наблю- наблюдении процесса ц' в таком случае вовсе не выражается формулой 7(,г|', у\) = С, а равна нулю (см. § 5). При помощи некоторых дополнительных рассмотрений можно, однако, показать, что, вводя в виде входного сигнала Г| (t) регу- регулярные процессы, которые в принципе практически реализуемы и действительно несут возникающую во времени информацию, мож- можно получить скорость создания информации I (ц', х\) = / (ц, г\'), сколь угодно близкую к С. Это окончательно оправдывает форму- лу(ЗЗ). ЛИТЕРАТУРА 1. Колмогоров Л. Я. Статистическая теория колебаний с непрерывным / спектром.— В кщ.: Общее собрание Академии наук, посвященное трид- тридцатилетию Великой Октябрьской социалистической революции. М.; Л.: ' Изд-во АН СССР, 1948, с. 465—47Я. . 2. Колмогоров А. Н. Статистическая теория колебаний с непрерывным спектром.— В кн.: Юбилейный сборник, посвященный тридцатилетию
56 3. Теория передачи информации Великой Октябрьской социалистической революции. М.; Л.: Изд-во АН. СССР, 1947, т. 1, с. 242—252. 3. Колмогоров А. Н. О некоторых асимптотических характеристиках вполне ограниченных метрических пространств.— ДАН СССР, 1956, т. 108, № 3, с. 385—388. 4. Витушкин А. Г. К тринадцатой проблеме Гильберта.—ДАН СССР, 1954, т. 95, № 4, с. 701—704. 5. Хинчин А. Я. Понятие энтропии в теории вероятностей.— УМН, 1953, т. 8, вып. 3, с. 3—20. 6. Хинчин А. Я. Об основных теоремах теории информации.— УМН, 1956, т. 11, вып. 1, с. 17—75. 7. Теория передачи электрических сигналов при наличии помех: Сб. пер. М.: Изд-во иностр. лит., 1953. 8. Харкееич А. А. Очерки общей теории связи. М.: Гостехиздат, 1955. 9. Goldman S. Information theory. London: Constable and Co., 1953. 10. Shannon С. Е., Weaver W. The mathematical theory of communications. Urbana: Univ. 111. Press, 1949, p. 3—89. Рус. пер. в кн.: Теория передачи электрических сигналов при наличии помех. М.: Изд-во иностр. лит., 1953. 11. Крамер Г. Математические методы статистики. М.: Изд-во иностр. лит., 1948. 12. Котельников В. А. О пропускной способности «эфира» и проволоки В электросвязи.— В кн.: Матер, к I Всесоюз. съезду по вопросам техниче- технической реконструкции дела связи и развития слаботочной промышленно- промышленности. М., 1933. 13. Гельфанд И. М., Колмогоров А. Н., Яглом А. М. Количество информа- информации и энтропия для непрерывных распределений.— В кн.: Тр. III Все- Всесоюз. мат. съезда. М.: Изд-во АН СССР, 1958, т. 3, с. 300—320. 14. Обухов А. М. Нормальная корреляция векторов.— Уч. зап. МГУ, 1940, вып. 45, С. 73—92. 15. Розекблат-Рот М. Понятие энтропии в теории вероятностей и его при- применения в теории передачи по каналам связи.— В кн.: Тр. III Всесоюз. мат. съезда. М.: Изд-во АН СССР, 1956, т. 2, с. 132—133. 16. Пинскер М. С. Количество информации об одном стационарном случай- случайном процессе, содержащееся в другом стационарном случайном процессе. — В кн.: Тр. III Всесоюз. мат. съезда. М.: Изд-во АН СССР, 1956, т. 1, с. 125. 17. Колмогоров А. Н. Стационарные последовательности в гильбертовом пространстве.— Бюл. МГУ. Математика, 1941, т. 2, № 6, с. 1—40. 18. Пинскер М. С. Количество информации о гауссовском случайном стацио- стационарном процессе, содержащейся во втором процессе, стационарно с ним связанном.— ДАН СССР, 1954, т. 99, № 2, с. 213—216. ВЫСТУПЛЕНИЕ Разногласия между мной и А. А. Ляпуновым ло вопросу о ки- кибернетике имеют, мне кажется, более словесный характер. Несом- Несомненно, что математическая теория конечных алгоритмов с огра- ограниченной памятью и с полным учетом фактора времени (число ша- шагов до получения результата, различение между быстро и медлен- медленно действующей памятью и т. п.) должна стабилизироваться в виде самостоятельной и систематически развивающейся математиче- математической дисциплины. У нас некоторые товарищи, и в том числе А. А. Ляпунов, именно такую теорию, которая объединяет мате- математические вопросы, связанные с работой вычислительных машин и управляющих устройств дискретного действия, предлагают на-
3. Теория передачи информации 57 зывать кибернетикой. Однако слово кибернетика было введено в обращение Н. Винером, который придал ему несравненно более широкий смысл. Кибернетика по Винеру должна включать в себя весь математический аппарат теории управляющих устройств диск- дискретного или непрерывного действия. Это означает, что в кибернетику по Винеру входит значитель- значительная часть теории устойчивости для систем дифференциальных уравнений, классическая теория регулирования, теория случай- случайных процессов с их экстраполированием и фильтрацией, теория информации, теория игр с применениями к анализу операций, технические аспекты алгебры логики, теория программирования и еще многое другое. Легко понять, что как математическая дис- дисциплина кибернетика в понимании Винера лишена единства, и трудно себе представить продуктивную работу по подготовке специалиста, скажем аспиранта, по кибернетике в этом смысле. Если А. А. Ляпунову удастся сформулировать отчетливо програм- программу развития более узкой и обладающей единством методов дис- дисциплины, то, по моему мнению, ее лучше было бы не называть ки- кибернетикой. Я во многом согласен с выступлением В. С. Пугачева. Хочет- Хочется только отметить, что понятие е-энтропии по существу введено еще самим Шенноном под названием скорости создания сообщений. Предложенное мною переименование и подчеркивание основной роли этого понятия, мне кажется, не лишенным значения в смысле правильного направления дальнейших работ, но особой новизны здесь нет. Больше оригинального, по моему мнению, сделали совет- советские математики в отношении развития спектральных методов. Я думаю, что сделанное в этом направлении М. С. Пинскером и мною найдет достаточно интересное продолжение. Существенно полное математическое обоснование замечательной концепции В. А. Котельникова об эквивалентности широты полосы частот и числа степеней свободы на единицу времени.1 Несколько слов по вопросу о кадрах. Сейчас имеется большой недостаток в математиках, творчески владеющих вероятностными методами. В прикладных технических областях, быть может, толь- только специалисты по теории стрельбы имеют сложившиеся кадры исследователей с подобным творческим и активным владением ве- вероятностными методами. Ряд других традиционных применений теории вероятностей через математическую статистику в области экономики, медицины, сельского хозяйства и биологии уже дав- давно несколько захирел, не всегда обоснован. Статистические методы в вопросах массовой продукции у нас разрабатываются, но слиш- слишком маленькой группой исследователей. Сейчас в связи с возрос- возросшим интересом м теории информации, статистическим методам изучения регулирующих устройств, методу Монте-Карло в вычис- вычислительной технике и с рядом других новых запросов мы делаем в Московском университете попытку расширения подготовки мате-
58 3. Теория передачи информации матиков, способных работать по техническим применениям вероят- вероятностных методов. Из числа окончивших в МГУ аспирантуру недав- недавно начали работать по вопросам, связанным с теорией информации^ в научно-технических институтах М, С. Пинскер и Р. Л. Добру- шин. В 1957 г. мы можем дать около 20 окончивших университет с большой подготовкой по теории вероятностей, теории случай- случайных процессов и математической статистике. Хотя это еще студен-* ты, некоторые из них являются уже начинающими самостоятель- самостоятельными молодыми исследователями. В связи с выступлением Л. В. Канторовича о математических методах планирования я хочу отметить, что центр тяжести вопроса здесь не в применении скоростной вычислительной техники. Вы- Вычислительные машины в этом деле, конечно, окажутся полезными, но пока у нас не делается в этом интересном направлении и того, что было давно возможно на базе традиционной вычислительной техники. По вопросу о математических переводах я согласен с И. С. Бруком в том отношении, что для практического общения знание языков или употребление живых переводчиков вряд ли в обозримый срок будет заменено машинами. Но уже сейчас несом- несомненно, что работа над машинным переводом очень многое дает и конструкторам вычислительных машин и, что особенно интерес- интересно, лингвистам, которые в процессе этой работы принуждены уточ- уточнять формулируемые ими законы языка. Они здесь приобретают критерий практики, столь важный для развития теории: если дан- данная ими формулировка, скажем, правил расположения слов в ка- каком-либо языке достаточна для получения ври помощи машины хорошего литературного перевода, то получается действительная уверенность в том, что правила формулированы исчерпывающим образом. Здесь уже нельзя отделаться общими фразами и выдавать их за «законы», к чему в гуманитарных науках иногда имеют склонность. Но, уже в порядке шутки, позвольте здесь выразить надежду, что в следующем 1957 г. молодежь разных стран на юно- юношеском фестивале в Москве будет разговаривать без помощи ма- машин и найдет более прогтые и человеческие формы общения.
4. Количество информации и энтропия непрерывных распределений 59 4 КОЛИЧЕСТВО ИНФОРМАЦИИ И ЭНТРОПИЯ ДЛЯ НЕПРЕРЫВНЫХ РАСПРЕДЕЛЕНИЙ*1 Совместно с И. М. Гелъфандом и А. М. Ягломом ОПРЕДЕЛЕНИЕ КОЛИЧЕСТВА ИНФОРМАЦИИ, СОДЕРЖАЩЕЙСЯ В ОДНОМ СЛУЧАЙНОМ ОБЪЕКТЕ ОТНОСИТЕЛЬНО ДРУГОГО Пусть 5t — некоторое испытание, которое может иметь п раз- различных исходов А 1( Аг, .. ., Ап с вероятностями Р (А^, Р (Az),. .. . . ., Р (Ап); 35 — другое испытание, имеющее исходы Ви В2, . . . . . ., Вт с вероятностями Р (Bx), Р (В2), . . ., Р (Вт). Если через P(AtBjc) мы обозначим вероятность совмещения исхода А-ь испы- испытания %. и исхода Вк испытания 35, то согласно Шеннону [1] среднее Количество информации, содержащейся в результатах ис- испытания Ш относительно результатов испытания 93, равно £ £$fBii) ■ A-1) t, К Количество информации, содержащейся в результатах испытания % относительно себя самого (т. е. полное количество информации, соцержащейся в результатах испытания 31), называется энтро- * В кн.: Тр. III Всесоюз. мат. съезда. М.: Изд-во АН СССР, 1958, т. 3, с. 300—320. 1 Доклад посвящен в основном определению, общим свойствам и спо- еобам вычисления величин / (|, ц) и Hw (£). Общее определение / (|, т)) содержится в добавлении 7 к работе Шеннона [1] (пользуясь русским пере- переводом указанной работы, в котором добавление 7 пропущено, мы не обрати- обратили на это своевременно внимания, в частности при редактировании заметки {22]). Однако до нашей заметки [22] подробного изложения принципов раз- витий общей теории на основании этого определения, по-видимому, опубли- опубликовано не было. Со сделанной выше оговоркой история возникновения ре- результатов, изложенных в § 1 настоящего доклада, указана в работе [22]. В § 2 даны указания относительно значения величин / A, г|) и Hw (|) для теории передачи информации по каналам связи (об этом см., кроме того, в в работе [21]; большая часть результатов и общих соображений, изложенных в [21], воспроизведена на английском языке в работе [24]). Результаты, данные в § 3 без ссылок на других авторов, получены И. М. Гельфандом и А. М. Ягломом (см. [23]), а в § 4,5 — А. Н. Колмогоровым (кроме констант в формулах D.13) и E.12), вычисленных А. М. Ягломом). Текст доклада на- написан А. Н. Колмогоровым и А. М. Ягломом.
60 4, Количество информации и энтропия непрерывных распределений пией испытания % и обозначается через И (У): = /(*,*■)=-2i> (Л() log/>(Л(). A.2) Если обозначить через Н (Ш/Вк) «условную энтропию» испыта- испытания ЭД, получаемую при замене в формуле A.2) вероятностей Р (Ai) условными вероятностями Рв (At) = P (Ai/Bk), а через Н (ЭД/33) — случайную величину, принимающую с вероятностью Р (Вк) значение Н (%/Вк), то / (% 35) можно представить также в виде / (X, 33) = Н(Щ -МЯ (*/»), A.3) где М — знак математического ожидания. Для того чтобы обобщить определение A.1) на случай произ- произвольных вероятностных объектов, удобно сперва переформулиро- переформулировать его на языке нормированных булевых алгебр. А именно мы будем исходить из нормированной булевой алгебры © всевозмож- всевозможных «случайных событий» А, В, С, ... с операциями образования дополнительного элемента А', соединения («сложения») А [_} В% умножения АВ, единичным элементом Е и нулевым элементом iV; нормой здесь является распределение вероятностей Р (А), являю- являющееся неотрицательной аддитивной функцией на @, нормирован- нормированной условием Р (Е) = 1. При этом понятие «испытания» естествен- естественно идентифицировать с понятием подалгебры алгебры <5 (подал- (подалгебры всех тех событий, исход которых становится известным пос- после совершения данного испытания). Известно, что каждая конечная булева алгебра 91 совпадает с системой всевозможных сумм своих «атомов» Аъ Аг, . . ., Ап. Если обе подалгебры % и S3 конечны, то количество информации, содержащейся в результатах испытания 31 относительно результа- результатов испытания S3, мы определяем формулой Шеннона A.1), где Аъ . . ., Ап — атомы 91, а Вх, . . ., Вт — атомы 95. В случае произвольных подалгебр % и 35 естественно положить /(*,»)= sup /(«I, »i), A.4) где верхняя грань берется по всем конечным подалгебрам %1 £ CI % и S3i ci S3. Символически определение A.4) можно записать в виде /(*.«)=$ $^Л«)Юв7|$^. A.5) В случае конечных алгебр % и 33 количество информации / (%, S3) всегда действительно и неотрицательно (см. |1]); отсюда ясно, что в общем случае / (91, S3) может быть либо действительно и не- неотрицательно, либо равно + оо. Так ше ясно, что для общего слу-
4. Количество информации и энтропия непрерывных распределений 61 чая сохраняются следующие, хорошо известные для конечного случая свойства величины / (через [5&] мы будем обозначать наи- наименьшую подалгебру алгебры @, содержащую множество 3R): а) / (91, S8) = / (», «); б) / C*f, 33) = О тогда и только тогда, когда системы событий 91 и 33 независимы; в) если pfx (J Э5Х] и [^2 (J Э32] — независимые системы со- событий, то / № и *J. 1^1 U »«]) = / (*1. »i) + / (\. »s); г) если 9ft ^ 91, то / Dtlt 33)< / (91, §8). Кроме того, укажем еще следующие три свойства информации, позволяющие в ряде случаев использовать предельный переход при вычислении или оценке величины / для конкретных систем событий: д) если алгебра ^Гг cz 9C всюду плотна на алгебре % в смысле метрики р {А, В) = Р (АВ' \J А'В), то I («1, в) = / (% 95); е) если %, с 3B Q . . . cz 9tn С . . . и % = [J 9tn, то / («, ») = ]im / («„, в); ж) если последовательность распределений вероятностей Р(") сходится на [% (J S3] к распределению Р, т. е. если lim PW (С) = = Р (С) для С е [« U »]. то / (91, 8) < ]im_/<») («, »), п-»оо где / (9(, Ж) — количество информации при распределении Рж а Ип) (%, SB) — при распределении Р<">. Все эти свойства непосредственно выводятся из определения A.4) количества информации и являются почти очевидными. До сих пор мы говорили лишь о понятии количества информа- информации, содержащейся в результатах одного испытания относительно результатов другого; в приложениях, однако, чаще приходится иметь дело с понятием количества информации, содержащейся в одном случайном объекте (например, случайной величине, или случайном векторе, или случайной функции) относительно друго- другого такого объекта. Для того чтобы перейти к этому новому понятию, будем считать, что основная булева алгебра © является а-алгеб- рой (см. [2]), и рассмотрим наряду с этим некоторое «измеримое пространство» X, т. е. совокупность множества X и а-алгебры Sx (с единицей X) некоторых его подмножеств, называемых «измери- «измеримыми» (в некоторое отклонение от терминологии [2], где Sx может быть а-кольпом). При этом £ будет называться случайным элемен-
62 4. Количество информации и энтропия непрерывных распределений том пространства X (иначе — случайной величиной или случай- случайным объектом из X), если каждому подмножеству Л Е Sj соот- соответствует событие BgS («событие, заключающееся в том, что i 6E: Л»); иначе говоря, случайным элементом £ называется гомо- гомоморфное отображение 1*(А) = В A.6) 0-алгебры Sx в булеву алгебру @. При этом вся алгебра Sx пере- переходит в некоторую подалгебру алгебры ®, которую мы обозначим через ®6 = £* (Sx), A.7) и количество информации, заключающееся в случайном объекте | относительно случайного объекта т), естественно определить как / а,Ц) = i (ве, ©„). A.8) Формула Р5 (Л) = Р (g* (^)) A.9) определяет меру в пространстве X, которая называется распреде- распределением случайного объекта £; в соответствии с наглядным смыс- смыслом события |* (А) можно писать A.9') {где правая часть обозначает «вероятность события £ GE .4»). Ана- Аналогично случайному объекту )] из Y соответствует мера Р* (В) = Р ft *= В) A.10) в пространстве Y. Если теперь обычным образом (см. [2]) опреде- определить по заданным X, Y измеримое пространство X X Y, то усло- условие , У])* {А X В) = 1* (Л) *!* (£) A.11) однозначно определит гомоморфизм (|,:г])* булевой а-алгебры в 6, т. е. новый случайный объект (|, л) из X X У,— пару (|, ji) случайных объектов | и rj. Этому новому случайному объекту отве- отвечает распределение ^,,(О=Р{(М)еС}, A.12) являющееся мерой на X X У; кроме того, наХ X F мы можем определить еще одну меру Pi X Рц при помощи условия ц(В), AeSx, BeSy. A.13) Информация / (i, г]) может быть выражена через меры Р|]Т) и
4. Количество информации и энтропия непрерывных распределений 63 | X Рц при помощи формулы /\^;d^ A.14) X Y 5 (ср. A.5)), где интеграл понимается в общем смысле, указанном р работе А. Н. Колмогорова [3] (см. также [4]). Вместо формулы A.14) иногда удобно пользоваться другой фор- формой записи / (g, y\) в виде интеграла, в которой интеграл уже мож- можно понимать в обычном лебеговом смысле. А именно, применяя к мерам Р^ и Рц■. X Рц на X X Y теорему Радона—Никодима, мы можем записать A.15) где мера S (С) сингулярна относительно Р? X Рц; в частном слу- случае, когда S (X X Y) = 0, функция а (х, у) совпадает с производ- производной Радона—Стилтьеса меры Рщ по мере Р| X Рц При этом имеет место следующая Теорема 1. Количество информации I (£, ц) может быть конечным лишь в случае, когда S (X X Y) = 0. В этом случае I F, ц) = J J а (х, у) log а (х, у) Рг(dx) Р„ (dy) = X Y = 55 log а (х, у) Рг, ч (dx dy). A.17) JT Y Заметим еще, что формулу A.17) можно переписать в виде / (|, л) = М log a (I, т,), A.18) где в правой части стоит математическое ожидание новой вещест- вещественной случайной величины log a (£, у\) — функции от пары а, п)а. Если распределения Р|, Рц и PjiT1 выражаются через плотности Ръ (А) = J р5 (г) dx, Рл (В) = S рт, (у) dy, Л В E, ri (С) = \]phr](x,y)dxdy, с 2 Функция t) = / (£) от случайного элемента 1, где у = f (х) — изме- измеримое по Борелю отображение пространства X в другое пространство Y, естественно определяется как случайный элемент Y, задаваемый отображением ц* (А) = 5*/-i (А).
64 4. Количество информации и энтропия непрерывных распределений где dx и dy символизируют интегрирование по заданным в X и Y мерам, то формулы A.17) и A.14) переходят в хорошо известное в прикладной литературе выражение Любопытно отметить, что если ввести в рассмотрение «дифферен- «дифференциальную энтропию» MS) = - J Ре (*) l°g Р£ (*) *с A.21) и «условную дифференциальную энтропию» А(£|л), определяемую условным распределением Рцп случайного элемента £ при фикси- фиксированном у) 3, то формулу A.20) можно будет переписать в виде, аналогичном A.3): /(S,4).= MS)-MMSh). A.21') Однако в отличие от A.3) h (g) здесь уже не совпадает с / (£, £) (последняя величина равна бесконечности). Из свойств а) — г) величины / E1, 35) легко вытекают следую- следующие свойства количества информации / (£, г|): а) / (g, п) = / (Л, I); б) / (g. л) > 0; / (I, х\) = 0 тогда и только тогда, когда | и щ независимы; в) если пары (g1? %) и (g2, ,т]2) независимы, то 7 ((Si, У, (Ль 12» = / (Si, »ii) + J (S>. %); г) если gt есть функция от g (в указанном выше смысле), то ' (Si, л) < / (S, л)- 8 частности, всегда / ((g, л), 0 > / (л, £). Если по аналогии с A.2) определить энтропию случайной ве- величины £ как /(S, S)=#(g), то Н (^) при весьма общих условиях (например, всегда, когда рас- распределение Pg есть непрерывное распределение, задаваемое плот- плотностью р.) оказывается равным бесконечности; поэтому практиче- практически полезным понятие энтропии будет лишь для сравнительно уз- узкого класса случайных величин (в первую очередь для дискретных 3 Р^ (А) есть действительная случайная функция / (t)) от т|, удовлет- удовлетворяющая требованию ^АхВ) = ^f(y)Pn(dy), B<=SY. в
4. Количество информации и энтропия непрерывных распределений 65 иеличин, принимающих конечное число значений). Из свойств и) — г) количества информации / (g, r\) немедленно следует, что Н (g, ц) > Н (g), Н (g, ц) > Н (л) A.22) и что если £ и п независимы, то Я (g, г|) = Я (g) + Я (л). A.23) Хорошо известно (см., например, [1]), что для энтропии Н (g, л), кроме оценки A.22) снизу, существует еще простая оценка сверху: всегда Я(&,т|)<Яф + Я(л). A.24) Следует подчеркнуть, что для количества информации в паре (£, у\) относительно величины £ подобной оценки не существует: на эле- элементарных примерах легко показать, что из / (g, o = o, i (л, 0 = о еще не вытекает равенство I ((I, Ч), S) = 0 (противоречащим примером будет любой пример трех случайных величин, каждые две из которых попарно независимы, но ни одна не является независимой от двух остальных). Укажем еще два свойства количества информации / (£. л), вы- вытекающие из свойств д) — ж) величины / (%, Ж): д) если g = (glt g2, . . ., ln, . . .) (это есть случайный элемент оо пространства X = X Хп), то п=-1 е) если X и Y — полные метрические пространства, в которых за Sx и SY приняты алгебры борелевских множеств, и если рас- распределения P*z% слабо сходятся к распределению Р^ ц, то для соот- соответствующих количеств информации имеет место неравенство /(g,H)<lim/0O(gtI)- В заключение остановимся еще специально на случае, когда X и Y — пространства всех вещественных функций на некоторых множествах А ж В. Случайные элементы ?ит) здесь будут случай- случайными функциями g (а), л (р) на А и В, т. е. некоторыми совокуп- совокупностями вещественных случайных величин, зависящих от пара- параметра аб^ или Ъ е В. I {£, ц} будет иметь смысл количества информации, содержащейся в одной совокупности случайных ве- величин относительно другой такой совокупности. Пространства X и Y являются здесь степенями RA и RB пространства R веществен-
66 4. Количество информации и энтропия непрерывных распределений ных чисел (естественно, с системой его борелевских множеств в ка- качестве SR). Известно, что алгебра Sx порождается всевозможными цилиндрическими множествами («квазиинтервалами») простран- пространства X, задаваемыми конечными системами неравенств вида ^i < x(ai)<.Bi, at<=A, i = 1, 2, . . ., п. A.25) Поэтому определение количества информации / {£, jf]} для произ- произвольных систем случайных величин сводится к определению ко- количества информации / {I (аъ . . ., ап), у\ (Ьъ . . ., Ът)} для ко- конечномерных случайных векторов I (fli, . . ., ап) = {I Ы, . . ., I (ап)} и г] {Ъъ . . ., Ът) = = {ц (bj), . . .,г\ (Ьт)), а именно: / {I (а), у) (Ь)} = sup / {I К, . . ., ап), n Flt . . ., bm)} A.26) (верхняя грань по всем целым п, т, ах ЕЕ A, i = 1, 2, . . ., п, nSjGfi, j=l, 2,..., т). Таким образом, при изучении коли- количества информации / {% (a), r\ (b)} можно обойтись рассмотрением лишь конечномерных распределений вероятностей и не привлекать распределений в функциональном пространстве. Специальным случаем «совокупностей случайных величин» являются так называемые обобщенные случайные процессы, вве- введенные недавно К. Ито [5] и И. М. Гельфандом [6]. В этом случае множеством А является пространство Ф бесконечно дифференци- дифференцируемых функций ф @ на множестве Т вещественных чисел 4, каж- каждая из которых обращается в нуль вне некоторого конечного интервала (пространство Ф основных функций по терминологии Л. Шварца [7]). Обобщенный случайный процесс Е(ф) задается со- совокупностью многомерных распределений вероятностей для все- всевозможных конечных наборов случайных величин \ (фг), срг ЕЕ Ф, i = 1, . . ., п, т. е. совокупностью вероятностей всевозможных «квазиинтервалов» Bi, ф,еФ, i = l, ..., л. A.25') Если £ (ф) и у\ (ф) — два таких обобщенных процесса, отвечающих пространствам основных функций ФиТ (различающимся, напри- например, выбором множества Т), то количество информации / {£ (ф), () согласно A.8) и A.4) определяется как {I = SUP J {£ (<Pl. • • •- ФЛ П OI>1, • • м ^т)}, A.26') 4 Разумеется, вместо обобщенных случайных процессов (случайных функций вещественного аргумента t) можно также рассматривать «обобщен- «обобщенные случайные функции на произвольном дифференцируемом многообра- многообразии Г»; однако такое обобщение не повлечет за собой почти никаких изме- изменений и на нем можно не останавливаться.
4. Количество информации и энтропия непрерывных распределений 67 где I (ф1, • • ■, Фп) = {?-(ф1>, ■ ■ -Л (фп)}, Л Oh, • • м Фт) = {Л Oh), • • •, Л (\|Зт)} и верхняя грань берется по всем целым п, т и <рг 6Е: Ф, г = 1, . . . . . ., n, ifj ЕЕ Ч*1, / = 1, . . ., т. Определение A.26) применимо так- также и к любому обыкновенному стохастически непрерывному и стохастически интегрируемому) случайному процессу £ (t), ес- если положить A.27) можно доказать, что в этом случае определение A.26') приводит к тому же результату, как и непосредственное определение по фор- формуле A.26). Отметим, что часто даже для обыкновенных (не обоб- обобщенных) процессов определение A.26') является более удобным, чем A.26). § 2 АБСТРАКТНОЕ ИЗЛОЖЕНИЕ ОСНОВ ТЕОРИИ ШЕННОНА Шеннон рассматривает передачу сообщений по схеме где «передающее устройство» характеризуется условным распределением «сигнала на выходе» т)' при заданном «сигнале на входе» у\ и неко- некоторыми ограничениями f,GF B.3) распределения /*,, входного сигнала (например, ограничением «мощности» сигнала у\). Операции «кодирования» и «декодирования» -характеризуются условными распределениями Л,1Е(Я|*)=р{леЯ|&=*>, B.4) 3*
68 4. Количество информации и Фнтропия непрерывных распределений iWD'llO-P«'€=4'|il' = ia B.5) Основная задача Шеннона заключается в следующем. Заданы пространства X, X', Y, Y' возможных значений «сообщений на входе» £, «сообщений на выходе» £', «сигналов на входе» т) и «сигна- «сигналов на выходе» т)'; заданы также характеристики передающего устройства, т. е. условные распределения Рп- | ц и класс V допус- допустимых распределений Рц входного сигнала, и, наконец, распре- распределение Рь (А) = Р {£ е А) B.6) сообщения на входе и «требования к точности передачи», записы- записываемые в виде Р& е W, B.7) где W — некоторый класс совместных распределений P\v (О = р {E, V) е С} B.8) сообщения на входе и сообщения на выходе. Спрашивается: воз- возможно ли, и в случае возможности — каким способом, задать пра- правила кодирования и декодирования (т. е. условные распределения Pr\\i и Pi' I,,.) таким образом, что, вычисляя распределение Рц> по распределениям Р\, Рп | ^, Pv (,,, Р^ \ П' в предположении, что последовательность I, л, V, V марковская, получим PlV e W? Определим вместе с Шенноном пропускную способность передаю- передающего устройства формулой С= sup /(ti,V) B-9) pn=v и введем величину Hw (I) = inf 7(|, I'), B.10) которую при расчете на единицу времени Шеннон называет ско- скоростью создания сообщений. Тогда из важного свойства количества информации: I ((£, т)), £) = I (т), £) в том и только том случае, когда последовательность ?, т), ^ марковская, сразу вытекает необходимое условие возможности передачи Hw (I) < С. B.11) Несравненно глубже идея Шеннона о том, что в применении к длительной работе «каналов связи» условие B.11) является
4. Количество информации и энтропия непрерывных распределений 69 в некотором смысле и при некоторых весьма широких условиях «почти достаточным». С математической точки зрения здесь дело идет о доказательстве предельных теорем следующего типа. Пред- Предполагается, что пространства X, X',Y,Y', распределения Р% и jPtvin, классы V и W, а следовательно, и величины С и Hw (£) зависят от параметра Т (играющего в применениях роль длитель- длительности работы передающего устройства). Требуется установить при некоторых предположениях достаточно общего характера, что условие ^яПЕГ^ B-12> достаточно для возможности передачи, удовлетворяющей постав- поставленным выше условиям, при достаточно больших Г. Естественно, что в такой постановке задача несколько расплывчата (подобно, например, общей задаче изучения возможных предельных рас- распределений для сумм большого числа «малых» слагаемых); более четкую формулировку можно получить, предположив, например, что £ и £' являются стационарными случайными процессами. Однако мы умышленно отказались здесь от обращения к термино- терминологии теории стационарных случайных процессов, так как в до- докладе на настоящем съезде молодого румынского математика Ро- зенблат-Рот Милу [83 (см. также [9]) было показано, что можно получить в намеченном направлении не лишенные интереса ре- результаты и без предположений стационарности. Выводу предельных теорем указанного типа посвящено много замечательных работ; мы сошлемся на недавние работы А. Я. Хин- чина [16] и M.G. Пинскера [17], содержащие также ссылки на более ранние исследования. Нам представляется, что в этом направле- направлении остается еще многое сделать. Подчеркнем, что именно этого рода результаты предназначены для того, чтобы обосновать рас- распространенное убеждение, что выражение / (£, г\) является не одним из возможных способов измерения «количества информа- информации», а мерой количества информации, имеющей действительно принципиальное преимущество перед другими. Так как по перво- первоначальной своей природе «информация» не есть скалярная вели- величина, то аксиоматические исследования, позволяющие однознач- однозначно охарактеризовать / (£, т)) (или энтропию Н (£)) при помощи простых формальных свойств, имеют в этом отношении, до нашему мнению, меньшее значение. Положение представляется здесь ана- аналогичным тому, как из всех предложенных еще Гауссом спо- способов обоснования нормального закона распределения ошибок мы склонны сейчас придавать наибольшее значение способу, исходя- исходящему из предельных теорем для сумм большого числа малых слагаемых. Другие способы (например, способ, основанный на принципе арифметического среднего) объясняют лишь, почему
70 4. Количество информации и энтропия непрерывных распределений никакой другой закон распределения ошибок не мог бы быть столь же приятным и удобным, как нормальный, но не отвечают на вопрос, почему нормальный закон действительно часто встре- встречается в реальных задачах. Точно так же красивые формальные свойства выражений Н (!) и / (£, т)) еще не могут объяснить, по- почему во многих задачах они достаточны для полного (хотя бы с асимптотической точки зрения) решения многих задач. §3 ВЫЧИСЛЕНИЕ КОЛИЧЕСТВА ИНФОРМАЦИИ ДЛЯ СЛУЧАЯ ГАУССОВСКИХ РАСПРЕДЕЛЕНИЙ В настоящем параграфе мы займемся вопросом о вычислении количества информации / (£, т)), причем ограничимся лишь тем специальным (но весьма важным) случаем, когда распределения Р|, Рг\ и Р%г\ являются гауссовскими. Начнем со случая, когда £ и т) — случайные векторы, £ - (glt . . ., U), C.1) 'Ц == (Till • • ч 'Цп) = (bm+li • • ч Snu-n/i распределенные нормально со вторыми центральными момен- моментами М^)]. C.2) Если детерминант det С = det|| si} |^и<в+п C.3) отличен от нуля, то вычисление количества информации / (|, ц) в силу формулы A.20) сводится к вычислению элементарного ин- интеграла и приводит к результату Т ,f. > 1 , det Л-del, .8 .„ ,. /(S, Л) =-2-log detc , C.4) где A- — II sij II l^ij^m» 5 = II Stj Wm-n^iJ^m+n- C.5) При конкретных вычислениях иногда удобнее вместо формулы C.4) пользоваться формулой / (|, т)) = —V2 log det (E - DB^D'A'1) =■ = —V2log det (£ — D'A^DB "x), C.6) где i? — единичная матрица (этим обозначением мы будем поль- пользоваться и ниже) и D = || S^llisruSm, D' = || Sij ||m<i<cm+)i. C.7)
4. Количество информации и энтропия непрерывных распределений 71 В простейшем случае одномерных случайных величин £ и v[\ формула C.4) (или C.7)) дает / (I, Л) = -V2log[l - г2 (|, т))], C.8) где г2 (£, т)) — коэффициент корреляции между £ и т); последняя формула, очевидно, верна и без предположения о невырожденно- невырожденности двумерного распределения вероятностей для £ и т) (невырож- (невырожденности матрицы С). Формула C.8) может быть обобщена и на многомерный случай (также без ограничения случаем невырож- невырожденности матрицы С). В самом деле, как известпо [11, 12], при помощи надлежащего линейного преобразования координат в про- пространствах X и У можно добиться того, чтобы все вторые моменты stf, кроме тех, для которых ;' = i или j! = т + i, обратились в нуль. При таком выборе координат в силу формулы C.8) и свойства в) количества информации получаем 5 / (г, т,)=- 4 Xlog [1 -r2 &' ^ <3-9* где суммирование берется по тем к ^ min (m, п), для которых коэффициент корреляции между £к и ц,- = £та+)(. отличен от нуля. Отметим еще, что полученное выражение для / (|, т)) имеет простой геометрический смысл. Будем рассматривать действи- действительные случайные величины (точнее, классы эквивалентных между собой случайных величин, равных друг другу с вероят- вероятностью 1) с конечной дисперсией как векторы гильбертова про- пространства ф со скалярным произведением (^, Е2) = М [(^ — — М^) (£2 — М£2)]. Тогда случайному вектору £ = AЪ . . ., 1т) будет отвечать конечномерное линейное подпространство Т/j про- пространства ф, натянутое на элементы (£х, . . ., |т) этого простран- пространства; аналогично вектору т) = (тI7 . . ., т)„) будет отвечать другое конечномерное линейное подпространство Нг. Рассмотрим теперь линейное преобразование Вх в пространстве Нг, при котором каждый вектор из Hi проектируется сперва на Н.л, а затем полу- полученный при этом вектор проектируется обратно на Нг; в подпро- подпространстве Н2 аналогичную роль будет играть линейное преобра- преобразование Въ, состоящее в проектировании каждого вектора из Н% на Н1, а затем обратно на Нъ. Преобразования В1 и В2 можно вы- выразить через операторы Р1 и Р2 проектирования на подпростран- подпространства Н1 и //2 ПРИ помощи формул В, = РгР2 в Ht; B2 = Р2Р1 в Н2; C.10) можно также доопределить В1 и В2 до операторов во всем про- пространстве ф, предполагая их нулевыми операторами в ортого- ортогональных дополнениях подпространств Н1 и соответственно Н2 и ? Так как т^ —
72 4. Количество информации и энтропия непрерывных распределений писать Вх = РхР2Рг, В2 = Р2РгР2. C.11) Ясно, что В1 и В% будут неотрицательными самосопряженными -операторами, не превосходящими по норме единицы, так что все их собственные значения вещественный заключены между 0 и 1. При этом оказывается, что квадраты коэффициентов корреляции г2 (Eic, тн) в формуле C.9) совпадают с собственными значениями операторов В1 и В% (имеющих одинаковые собственные значения), •так что эту формулу можно переписать в виде / (I, т)) = -V, log det (E - Bt) = -Va log det (E - B2). C.12) Выражение C.12) для информации / (£, ц) показывает, что эта величина зависит только от подпространств Н1 и Н2 (а не от вы- выбора базиса в них) и что она является геометрическим инвариантом указанной пары подпространств. Но полной системой геометри- геометрических инвариантов пары конечномерных линейных подпрост- подпространств является система углов между этими подпространствами {точнее говоря, «стационарных углов» между ними; см., например, [13]). Отсюда вытекает, что / (£, т)) должно выражаться через углы между Н1 и Н2, И действительно, можно показать, что два линейных подпространства Нх и Н2 (одно — не более чем т-мер- ное, второе — не более чем га-мерное) образуют между собой к <^ min (т, га) различных стационарных углов аи . . ., av, при- причем собственные значения операторов C.11) равны cos2 аи . . . . . ., cos2 ajc, так что / (I, т)) = —log | sin ax. . .sin ak \ . C.13) Формулу C.12) нетрудно обобщить на случай, когда £ = £ (а) и т) = т) (Ь) — две произвольные гауссовские совокупности ве- вещественных случайных величин, т. е. такие две совокупности слу- случайных величин, что конечномерные распределения вероятностей для любого конечного числа величин, принадлежащих той или другой совокупности, все являются распределениями Гаусса. Совокупности | (а) также можно сопоставить линейное подпро- подпространство Нх пространства § (как правило, бесконечномерное), яатянутое на элементы | (а) этого пространства; аналогично со- совокупности Tj (b) сопоставляется линейное подпространство Н2, натянутое на элементы r| (b) ЕЕ $р. При этом имеет место следую- следующая Теорема 2. Пусть | = \ [а) и i\ = i\ (b) — две гауссовские совокупности вещественных случайных величин, Hi и Нг — отве- отвечающие этим совокупностям линейные подпространства про- пространства §, Р1 и Р2 — операторы проектирования в § на Нх и соответственно Н2 и Вх, В2 — операторы C.11). В таком слу- случае для того, чтобы количество информации I {£, ц} было конеч-
4. Количество информации и энтропия непрерывных распределений 73 ной величиной, необходимо и достаточно, чтобы по крайней мере один из операторов Вх, В2 был вполне непрерывным оператором с конечным следом; при этом условии и второй из операторов Вх, В2 будет обладать тем же свойством и количество информации I {|, т]} будет даваться формулой C.12), где Е — единичный оператор. Особенно просто применяется теорема 2 к тому случаю, когда | = | (ф) _ случайный процесс (вообще говоря, обобщенный) на некотором интервале (может быть, бесконечном) Г, а ц — скалярная случайная величина. Проекция rf — Р^ц величины tj на подпространство Нх здесь будет совпадать с наилучшим при- приближением к т|, линейно зависящим от | (ф), т. е. будет являться решением задачи о линейной фильтрации процесса | (ф), которой посвящена обширная специальная литература (см., например,, обзор [14]). Если обозначить через а = [М | т| — rfl 2]1/а средне- среднеквадратичную ошибку фильтрации, а через ах = аЛМт]2]1/* — отно- относительную среднеквадратичную ошибку, то, как легко видеть, имеет место формула / {£ (ф), Л) = -log <rx. C.14) Более сложен случай, когда | = | (ф) и ц = i\ (i|)) оба являют- являются случайными процессами; мы здесь остановимся лишь на зада- задаче о вычислении / {£ (ф), i\ (ф)} для стационарных (и стационар- стационарно связанных) процессов | (ф) и i\ (ф), заданных на одном и том же конечном интервале — 772 <^ t <^ Г/26. Как известно (см. [5, 6]), гауссовский стационарный обобщенный процесс | (ф) однозначно характеризуется обобщенной корреляционной функ- функцией Ьс% (ф) — линейным функционалом в пространстве Ф основ- основных функций ф (t) (в случае обыкновенного процесса § = | (t) где Ь%% (т) = М| (t + т) | (£) — корреляционная функция про- процесса | (£)). Для задания пары процессов |(ф) и tj (ф) надо задать обобщенные корреляционные функции Ьц (ф) и brp\ (ф), а также обобщенную взаимную корреляционную функцию Ь^ (ф) ^ = Ьщ (ф*), где ф* (t) = ф (—t). Рассмотрим теперь в пространстве Фт функций ф (t) на отрез- отрезке — Г/2 <^ t ^ Г/2 следующие операторы: Ъц (т4ф), Вф = brm (т4ф), hn (Т<Ф)' D\ = Ьп% (т(ф) = ft^ (т_(ф), ' Говоря о процессе § (ср), заданном на конечном отрезке —Т/2 ^ < t ^ Т/2, мы подразумеваем, что из всех случайных величин | ((р), (f e Ф, составляющих обобщенный процесс, нам заданы лишь те величины, которые" отвечают функциям ср (/), тождественно равным нулю вне рассматриваемого отрезка.
74 4. Количество информации и энтропия непрерывных распределений где Т( — оператор сдвига: т4ф (s) = ф (s + £) (операторы C.15) можно рассматривать как операторы в гильбертовом пространстве jr2 (—у/2, Г/2), заданные на всюду плотном множестве функций tp (£)). Таким образом, в применении к рассматриваемому нами частному случаю теорема 2 принимает следующий вид: Теорема 2'. Для того чтобы количество информации I {%т, Цт}, заключающееся в заданном на отрезке длины Т ста- стационарном гауссовском случайном процессе | (ф) относительно другого подобного же процесса г| (ф) на том же отрезке, стационар- стационарно и гауссовски связанного с первым, было конечной величиной, необходимо и достаточно, чтобы хоть один из операторов Вх = DB^D'A'1, В2 = D'A-WB-1, C.16) где А, В, D и D' определяются из C.15), был вполне непрерывным оператором с конечным следом. При этом условии и второй из этих операторов будет обладать тем же свойством и инфор- информация I {|т, Цт} будет даваться равенством C.12). Теорема 2' может быть использована, например, для получе- получения явных выражений для количества информации / {|г> Цт} в том случае, когда преобразования Фурье обобщенных функций fc|jj, Ьущ и Ъ^ц («спектральные плотности») существуют и являют- являются рациональными функциями. В важном частном случае, когда i\ = i\ (t) — обыкновенный стационарный случайный процесс с корреляционной функцией В (т), а £ = ц + £, где £ = £ (ф) — некоррелированный с i\ «белый шум» (обобщенный стационарный процесс «с независимыми значениями», для которого Ъ^ - 2я/6, б (Ф) = Ф @), C.17) где б — это б-функция Дирака, а / — постоянная спектральная плотность «белого шума» £), формула C.12) дает = 4 log del (£+^ Я), C.18) где В — оператор Фредгольма с ядром В (t — t'): т/ч Вф= \ B(t — t')<p(t')dt'. C.19) — Т/2 Таким образом, в этом случае вычисление количества информа- информации / {|г, т)г} сводится к определению детерминанта интеграль- интегрального оператора Е Если оператор A/2л/) В в формуле C.18) является лишь малой добавкой к единичному оператору Е (т. е. если спектральная плотность / шума много больше характерного значения /9 спек- спектральной плотности процесса т) (t) или если Т много меньше ха-
4. Количество информации и энтропия непрерывных распределений 75 рактерного времени Та затухания корреляционной функции В (т)), то детерминант в правой части C.18) можно приближенно подсчитать при помощи ряда теории возмущений: log det (Е + 4т В) = SP J°S (E + TST В) = где Sp означает «след», так что /Йт,Лт} = -^Г—i^-J(l--llL)^(T)dT + ... C.21) —г Если же корреляционная функция В (т) является преобразо- преобразованием Фурье рациональной спектральной плотности / (Х): В(х)= J e^fCk)dX, C.22) — оо где то для / {^г, Цт} можно получить явную формулу; в этом случае собственные значения оператора C.19) совпадают с собственными значениями аекоторой задачи Штурма—Лиувилля для уравнений с постоянными коэффициентами, т. е. являются нулями некоторой целой трансцендентной функции, и детерминант в правой части C.18) может быть выражен через значение этой целой функции в фиксированной точке комплексной плоскости. В частности, для марковского стационарного процесса t\ (t) с я(^а,} C.24) получаем ^£} C.25) где к = / @)// = С/ла/, т = аГ. C.26) При А; <^ 1 («сильный шум») или т <^ 1 («малое время наблюдения») формула C.25) переходит в результат, даваемый рядом теоршь нозмущений C.21), как это и должно быть. В другом крайнем слу-
76 4. Количество информации и энтропия непрерывных распределений чае при т ^> 1 («большое время наблюдений») будем иметь / «г, Цт) ~ 1^ + fc-l т. C.27) Наконец, при А; —>- 0 («слабый шум») формула C.25) дает C.28) Для более сложных, чем C.24), рациональных спектральных плотностей / (X) явная формула для / {|г, Цт), как правило, ока- оказывается довольно громоздкой; поэтому мы здесь ограничимся лишь тем, что выпишем некоторые асимптотические результаты, относящиеся к случаю общей рациональной спектральной плот- плотности C.23). При Т -*■ О или / —>- оо асимптотическое поведение I {%Ti Лг} во всех случаях дается рядом теории возмущений C.21), так что на этом случае можно не останавливаться. При Т -*~ оо главным членом / {|т, Цт} будет член где Л,-, к — 1, . . ., п,— расположенные в правой полуплоскости корни уравнения Р (Л) Р (-Л) + r'Q (Л) Q (-Л) = 0, C.30) a Aj — соответствующие корни при / = оо. Наконец, при /-М) асимптотически £Ак, C.31) к=1 где Л к имеют тот же самый смысл, что и в C.29); отсюда нетрудно получить, что при /-»-0 / {1т, Лг} ~ сГ/-1/^-™), C.32) где с — постоянная, зависящая от коэффициентов многочленов P(A)*Q (Л). Отметим, что показатель — [2 (п — m)\ x в формуле C.32) харак- характеризует «степень гладкости» корреляционной функции В (т) (а следовательно, и самого случайного процесса tj (£)); в случае спектральной плотности C.23) корреляционная функция В (т) имеет 2 (п — пг) — 2 непрерывных производных, а B п — 2тп —1)-я производная этой функции делает скачок в точке т = 0. Можно доказать, что то обстоятельство, что асимптотическое поведение / {1т, Цт}, где | = т| + £, £ — «белый шум» со спектральной плотностью /, при / ->- 0 определяется степенью гладкости функ-
4. Количество информации и энтропия непрерывных распределений 77 ции В (т), не связано со специальной формой C.23) спектральной плотности, а имеет место при довольно общих условиях, так что для сравнительно широкого класса корреляционных функций В (т), имеющих Bга — 2) непрерывных производных и Bга — 1)-ю производную, разрывную при т = О, / Цт, лг} ~ cTf-V™ при / -► 0. C.33) И ВЫЧИСЛЕНИЕ И ОЦЕНКА е-ЭНТРОПИИ (СКОРОСТИ СОЗДАНИЯ СООБЩЕНИЙ) В НЕКОТОРЫХ ЧАСТНЫХ СЛУЧАЯХ Перейдем к рассмотрению «скорости создания сообщений» Hw(l)= inf 1A, Г). Если условие Рц» <Е= W выбрать в виде обязательности точного совпадения | и £': Р {I = П = 1, D.1) то Hw (I) = Н (\), D.2) т. е. скорость создания сообщений обращается здесь в обычную энтропию случайного элемента |. Как мы уже указывали, для непрерывных Р| последняя величина всегда равна °°: непрерывно распределенная величина | содержит о себе самой бесконечную информацию. Однако поскольку непрерывные сообщения всегда наблюдаются с ограниченной точностью, то при передаче таких сообщений фактически передается лишь информация, которая может быть сделана сколь угодно близкой к, как правило, конеч- конечной величине Ну? (|). Поэтому в теории передачи непрерывных сообщений основную роль должна играть именно величина Hw (?) (а не Я (I)), которую в силу ее аналогии с энтропией можно назвать «энтропией случайного объекта | при точности воспроиз- воспроизведения W». Условие Р^.' f= W должно обеспечивать близость в определен- определенном смысле элемента |' к |. Если предположить, что X — метри- метрическое пространство, а X' совпадает с X (т. е. исследовать вопрос о способах приближенной передачи сообщения о положении точки пространства X при помощи указания точки того же простран- пространства), то кажется естественным потребовать, чтобы было Р {р (|, g') < 8} = 1 (Wt) или же чтобы Мр2 {I, Г) < г\ (Wt)
78 4. Количество информации и энтропия непрерывных распределений Эти два вида е-энтропии Нв распределения Р% мы будем обозна- обозначать символами Hw0 (I) = Hi (£), D.3) £ HWe A) = He (I). D.4) Отметим прежде всего некоторые оценки для величины №(X)=suv Hi®, D.5) где верхняя грань берется по всем распределениям вероятностей Pl на пространстве X. При е = 0, как известно, D.6) где Nх есть число элементов множества X (эта верхняя грань до- достигается при распределении, при котором вее элементы X имеют одинаковую вероятность). При 8 ^> О log Nrx Be) < Н°е {X) < log N% (e), D.7) где N'x (г) и Nx (e) — характеристики пространства X, которые введены в недавней заметке А. Н. Колмогорова [15]. Асимпто- Асимптотические свойства при е-»-0' функций Nx (e), изученные для ряда конкретных пространств X в [15], являются интересными аналогами излагаемых далее результатов об асимптотическом по- поведении функции НЕ (I). Если теперь X — отрезок прямой и распределение Р% задает- задается непрерывной плотностью р (х), всюду положительной и удов- удовлетворяющей условию Липшица, то при е —у О D-8) гдей. (|) = —I p (x) log p (x)dx — «дифференциальная энтропия» распределения Р|, с которой мы уже встречались в § 1 (см. A.21)). В случае и-мерного пространства X при аналогичных условиях получаем Hi® = п^-±-+кA)+.О (slog ±), D.9) где dn — некоторая постоянная, сравнительно слабо изменяющая- изменяющаяся при изменении п. Ничего здесь не изменится также, если вместо распределений, сосредоточенных на отрезке (или па кубе), взять произвольные достаточно гладкие и достаточно быстро убывающие на бесконеч- бесконечности распределения.
4. Количество информации и энтропия непрерывных распределений 79 Аналогичные результаты получаются и для энтропии Нг (|): оказывается, что для достаточно гладких распределений Р^ #е(£)= inf /(&. 5') = log-J--log/2Б+ *(£) +0(в). D.10) Для непрерывных распределений в и-мерном пространстве X (имеющих достаточно гладкую плотность р (х)) аналогичным об- образом при широких условиях получаем ] 0(e). D.11) Мы видим, таким образом, что асимптотическое поведение НЕ (|) в случае достаточно гладких непрерывных распределений в «-мерном пространстве в первую очередь определяется размер- размерностью пространства и лишь в виде второго члена входит диффе- дифференциальная энтропия h (|). Однако поскольку первый (основной) член Не (?) не зависит от распределения вероятностей, то асимп- асимптотическое поведение НЕ (|) для данного конкретного распределе- распределения естественно характеризовать величиной h (|); это обстоятель- обстоятельство (наряду с формулой A.21')) и определяет значение дифферен- дифференциальной энтропии для теории информации. До сих пор мы говорили лишь о распределениях вероятностей в конечномерных пространствах. Естественно ожидать, что для ти- типичных распределений в бесконечномерных пространствах рост Нг (|) при 8 —*■ 0 будет существенно более быстрым. В виде про- простейшего примера рассмотрим случайную функцию Винера | (t) на интервале 0 ^ t ^ 1 с нормально распределенными независи- независимыми приращениями М = I (t + ДО - £ (t), для которой 6 @) = 0, МД| = 0, М(Д|J = Дг. D.12) Можно показать, что в этом случае в метрике L2, т. е. при ус- условии 1 М о асимптотическое поведение ЯЕ(|) определяется равенством ' <4ЛЗ> Отсюда для более общего процесса Маркова диффузионного типа на отрезке времени t0 ^ t <^ tx с МАЕ = A (t,l (t)) At + o {At), D.14) М (Д|J = Д (*, Е @) Л* + о (At)
80 4. Количество информации и энтропия непрерывных распределений можно при некоторых естественных допущениях получить фор- формулу где То обстоятельство, что в формулах D.13), D.15) Не Ш имеет порядок е~2, может быть обобщено следующим образом: для процесса | (t), управляемого дифференциальным уравнением d U0S(n) @ + А&™* («) + ...+ Ап\ @1 = Щ @,J где г|) (£) — функция Винера, при Ао Ф 0 энтропия /fE (?) имеет порядок ЯЕ (|) X ъ-Шп+Ч*. Для случая нормального распределения в n-мерном евклидо- евклидовом или в гильбертовом пространстве е-энтропия Нг может быть вычислена точно, «-мерный вектор \ после надлежащего ортого- ортогонального преобразования координат приобретает вид S == (Sii Sa> • • •' Sn)> где координаты 1^ взаимно независимы и распределены нормаль- нормально. При заданном е для нахождения Нг (|) надо только определить параметр 6 из уравнения 2, сЫ. D-17) после чего будем иметь Аппроксимирующий векгор 5 == Vbl? 62) • • •> Ъп) следует выбирать нормально распределенным и таким, что при а при Dgk и векторы |i и Д^ взаимно независимы. Бесконечномерный слу- случай ничем не отличается от конечномерного.
4. Количество информации и энтропия непрерывных распределений 81 Наконец, весьма существенно, что максимальное значение Н£ (|) для вектора | («-мерного или бесконечномерного) при за- заданных вторых центральных моментах достигается в случае- нормального распределения. Этот результат может быть получен непосредственно или из следующего предложения М. С. Пинскера (ср. [19]): Теорема. Пусть заданы положительно определенная сим- симметрическая матрица величин siJy О ^ i, j <^ m + п, и распре- распределение Pi вектора § = (ёи §2' • • ч Stfl)i центральные вторые моменты которого равны Sij {при СМ^ i,j <s^ ^ т). Пусть условие W на совместное распределение Рц> векто- вектора | и вектора ё = (em+ii bm+2> • • ч ът+п) заключается в том, что центральные вторые моменты величин, равны Sij (при 0 ^ i, } ^ т + п). Тогда Hw (Ю < V, log {ABIC). D.19) Обозначения в формуле D.19) соответствуют изложению § 3. Из сопоставления со сказанным в § 3 видно, что неравенство D.19) превращается в равенство в случае нормального распределения Р%. §5 КОЛИЧЕСТВО ИНФОРМАЦИИ НА ЕДИНИЦУ ВРЕМЕНИ ДЛЯ СТАЦИОНАРНЫХ ПРОЦЕССОВ Рассмотрим два стационарных и стационарно связанных про- процесса | (£), т] (£), — оо < t <Z. oo, или более общим образом, два стационарных и стационарно связанных обобщенных процесса I (<р), Ц (ф)> Ф GE Ф. Будем обозначать через |т и г\т отрезки процессов | и т] за время 0 < t <^ Т (ср. сноску 6) и через |_ и г\_ значения тех же процессов на отрицательной полуоси — оо < t ^ ^ 0. Задать пару (|, т]) стационарно связанных процессов — это значит задать инвариантное по отношению к сдвигам вдоль оси t распределение вероятностей Р^ в пространстве пар функций {х (t), у (£)} или, более общим образом, пар обобщенных функций {х(<р),у (ф)}. Естественно назвать выражение l(l,r\)= Hm-i-/(£7.,Tir) E.1) Г—оо 1 количеством информации в процессе \ относительно процесса tj
82 4. Количество информации и энтропия непрерывных распределений на единицу времени. Так как / (|т, i]r) = / (tit, ZT), то всегда I (I, л) = / (г\, I). E.2) Будем считать, что распределение Ртц нормально. В этом елучае при несколько отличном от E.1) (но, по-видимому, приво- приводящем к той же величине) определении предела / (|, т\) М. С. Пинскер [19] установил, что по крайней мере в случае обык- обыкновенных (не обобщенных) процессов, хоть один из которых ре- регулярен в смысле [18], / (|, г|) дается формулой 4я log[l-T*(b)]dX, E.3) — оо где a /г.> /лл и /ал — соответствующие спектральные плотности — преобразования Фурье корреляционных функций Ьц, Ь^ и Ь$п. Можно проверить, что формула E.3) справедлива и во многих случаях, когда процессы | и г\ (или хотя бы один из них) являют- являются обобщенными (см., в частности, выше формулу C.29)). Возмож- Возможно даже, что во всех случаях (как для обыкновенных, так и для обобщенных процессов) величина E.1) будет даваться формулой E.3); пока, однако, эта гипотеза еще никем не доказана и не опро- опровергнута. В случае стационарных процессов | (t) точность воспроизве- воспроизведения | при помощи стационарного же и стационарно связанного с | процесса |' естественно характеризовать величиной а2 = М [g (а) - I' (а)Р. E.5) Если в качестве условия W взять условие а2 < г\ E.6) то величину Hw (I) = He (|) E.7) естественно называть г-эшпропией на единицу времени процесса |. Из соответствующего предложения для конечномерных распре- распределений (см. § 4) можно вывести, что при заданной спектральной плотности /ц (к) величина Не (|) достигает максимума в случае нормального процесса |. В нормальном же случае величина ffE Ш может быть легко вычислена по спектральной плотности /ц (К) вполне аналогично тому, как это было объяснено в § 4 в применении к величине Нг (|) для конечномерных распределе-
4. Количество информации и энтропия непрерывных распределений 83- ний. Для этого надо только определить параметр 9 из уравнения E.8) после этого величина Не (|) находится по формуле 31) — dX, E.9) (?> I') = ^е Ш достигается, когда 1 = 1' + А, ' и Д нормально распределены, независимы и (см. рис. 1) [ при E.10) E.11) Формулы E.8) и E.9) позволяют в ряде случаев (например, в случае спектральной плотности C.24)) явно рассчитать Не (|) f/л/ Рис. 1 Рис. 2 как функцию от е. Наибольший интерес, однако, представляет асимптотическое поведение Нг (|) при е -> 0. В частности, для плотности C.24) это асимптотическое поведение дается формулой Нг {I) = 16Са/яе2*+ О A). E.12) В более общем случае спектральной плотности, убывающей при | % | ->■ оо как с | к Г*' (например, спектральной плотности C.23)), мы будем иметь И {р\ ~ г P-2/C--D E 13) iig \^/ ■**ш~/ t-lb • \ / Значительный практический интерес представляют спектраль- спектральные плотности вида, изображенного на рис. 2, которые хорошо аппроксимируются формулой E.14) в остальных случаях.
84 4. Количество информации и энтропия непрерывных распределений Легко подсчитать, что в этом случае при не слишком малых е (много больших той части энергии процесса |, которая заключена вне основной спектральной полосы А ^ | X | ^ А + W) для нормального процесса с большой точностью будем иметь 92 « z42W, Н& (I) яе W log BWaVE*) E.15) (отметим, что Нг (|) здесь при б —>- 0 возрастает гораздо медленнее, чем в случае сравнительно медленного степенного убывания спек- спектральной плотности на бесконечности). Формула E.15), разумеет- разумеется, есть не что иное, как хорошо известная формула Шеннона R = W log (Q/N) E.16) [1, теорема 22]. Принципиальная новизна заключается здесь, однако, в том, что теперь мы видим, почему и в каких пределах (при не слишком малом е) эта формула может быть применена к процессам с неограниченным спектром, какими являются все реально интересующие нас в теории передачи сообщений процессы. Записывая E.15) в виде Нг (|) ~ 2W [log (а УШ) + log A/е)] E.17) и сравнивая с D.11), мы видим, что двойная ширина 2W исполь- используемой полосы частот играет роль числа измерений. Эта идея экви- эквивалентности двойной ширины полосы частот числу измерений, приходящихся в некотором смысле на единицу времени, была, по- видимому, впервые высказана В. А. Котельниковым [20]. В обос- обоснование этой идеи В. А. Котельников указывал на то, что функ- функция, спектр которой помещается в полосе ширины 2W, однознач- во определяется своими значениями в точках _Л !_ о Л 2— -А_ • • • ' 2W ' 2VF ' ' 2W > 2W '"' ' 2W ' • • • Эта же аргументация сохранена и у Шеннона, использующего по- полученные таким образом представления и для вывода формулы E.16). Так как, однако, функция с ограниченным спектром всегда сингулярна в смысле [18] и наблюдение такой функции вообще не связано со стационарным притоком новой информации, то смысл такого рода аргументации оставался не вполне ясным, так что приведенный здесь новый вывод приближенной формулы E.15) представляется не лишенным интереса. ЛИТЕРАТУРА 1. Shannon С. Е, A mathematical theory of communication. Pt. I, II.— Bell. Syst. Techn. J., 1948, vol. 27, N 3, p. 379—423; N 4, p. 623—656. Рус. пер.: Шеннон К. Математическая теория связи.— В кн.: Теория передачи электрических сигналов при наличии помех. М.: Изд-во иностр. лит., 1953. 2. Халмош П. Р, Теория меры. М.: Изд-во иностр. лит.. 1953.
4. Количество информации и энтропия непрерывных распределений 85 3. Kolmogoroff A. Untersuchungen iiber den Integralbegriff,— Math. Ann., 1930, Bd. 103, S. 654-696. 4. Смирнов В. И. Курс высшей математики. М.; Л.: Гостехи^дат, 1947. т. 5, § 90, 91. 5 Ito К. Stationary random distributions.— Mem. Coll. Sci. Univ. Kyoto. A, 1954, vol. 28, N 3, p. 209—223. 6. Гелъфанд И. М. Обобщенные случайные процессы.— ДАН СССР, 1955, т. 100, № 5, с 853-856. 7. Schwartz L. Thiorie des distributions. Paris, 1950—1951^. Vol. 1—2. 8. Розенблат-Рот М. Понятие энтропии в теории вероятностей и его при- применения в теории передачи по каналам связи.— В кн.: Тр. III Всесоюз. мат. съезда. М.: Изд-во АН СССР, 1956, т. 2, с. 132—133. 9. Роаенблат- от М. Энтропия стохастических процессов.— ДАН СССР, 1957, т. 112, № 1, с. 16—19. 10. Витушкин А. Г. К тринадцатой проблеме Гильберта.— ДАН СССР, 1954, т. 95, № 4, с. 7G1 —704. 11. Hotelling H. Relation between two sets of variates.— Biometrica, 1936, vol. 28, p. 321—377. 12. Обухов А. М. Нормальная корреляция векторов.— Изв. АН СССР. Сер. мат., 1938, № 2, с. 339—370. 13. Широков П. А. Тензорное исчисление. М.; Л.: ГОНТИ, 1934. 14. Яглом А. М. Теория экстраполирования и фильтрации случайных про- процессов.— Укр. мат. журн., 1954, т. 6, № 1, с. 43—57. 15. Колмогоров А.Н. О некоторых асимптотических характеристиках вполне ограниченных метрических пространств.— ДАН СССР, 1956, т. 108, № 3, с. 385—388. 16. Хинчин А. Я. Об основных теоремах теории информации.— УМН, 1956, т. 11, вып. 1, с. 17—75. 17. Нинскер М. С, Вычисление скорости создания сообщений стационар- стационарным случайным процессом и пропускной способности стационарного ка- канала.— ДАН СССР, 1956, т. 111, № 4, с. 753—756. 18. Колмогоров А. Н, Стационарные последовательности в гильбертовом пространстве.— Бюл. МГУ. Математика, 1941, т. 2, № 6, с. 1—40. 19. Пинскер М. С, Количество информации о гауссовском случайном стацио- стационарном процессе, содержащейся во втором процессе, стационарно с ним связанном.— ДАН СССР, 1954, т. 99, № 2, с. 213—216. 20. Котельников В. А. О пропускной способности «эфира» и проволоки в электросвязи.— В кн.: Матер, к I Всесоюз. съезду по вопросам техни- технической реконструкции дела связи и развития слаботочной промышлен- промышленности. М., 1933. 21. Колмогоров А. Н. Теория передачи информации.— В кн.: Сессия Акаде- Академии наук СССР по научным проблемам автоматизации производства, 15—20 окт. 1956 г.: Пленар. заседания. М.: Изд-во АН СССР, 1957, с. 66—99. 22. Гелъфанд И.М., Колмогоров А. Н., Яглом А. М. К общему определе- определению количества информации.— ДАН СССР, 1956, т. 111, № 4, с. 745— 748. 23. Гельфанд И. М,, Яглом А. М. О вычислении количества информации о случайной функции, содержащейся в другой такой функции.— УМН, 1957, т. 12, вып. 1, с. 3—52. 24. Kolmogorov A. To the Shannon theory of information transmission in the case of continuons signales.— IRE Trans. Inform. Theory, 1956, vol. IT-*\ N 4, p. 102—108.
86 5, Новый метрический инвариант транзитивных динамических систем 5 НОВЫЙ МЕТРИЧЕСКИЙ ИНВАРИАНТ ТРАНЗИТИВНЫХ ДИНАМИЧЕСКИХ СИСТЕМ И АВТОМОРФИЗМОВ ПРОСТРАНСТВ ЛЕБЕГА * Хорошо известно, что значительная часть метрической теории Динамических систем может быть изложена как абстрактная теория «потоков» {St} на «пространствах Лебега» М с мерой ц в терминах, инвариантных по отношению к «изоморфизмам по мо- модулю нуль» (см. обзорную статью В. А. Рохлина [1], к которой дальнейшее изложение примыкает в отношении определений и обозначений). Меру на М мы будем предполагать нормированной условием ц (М) = Ц A) и нетривиальной (т. е. предполагать существование множества A CZ М с 0 < и. (А) < 1). Известно много примеров транзитивных автоморфизмов и транзитивных потоков с так называемым счетно- кратным лебеговым спектром (для автоморфизмов см. [1, § 4], для потоков [2—5]). Со спектральной точки зрения мы имеем здесь один тип автоморфизмов %о и один тип потоков %а. Вопрос о о том, де являются ли все автоморфизмы типа £® (соответственно потоки типа Хш) друг другу изоморфными mod 0, оставался до сих пор открытым. Мы показываем в § 3, 4, что ответ на этот вопрос отрицателен как в случае автоморфизмов, так и в случае потоков. Новый инвариант, позволяющий расщепить класс автоморфизмов %® и класс потоков %'" на континуум инвариант- инвариантных подклассов, есть энтропия на единицу времени. В § 1 изла- излагаются необходимые сведения из теории информации (вводимые здесь понятия условной энтропии и условной информации и их свойства имеют, вероятно, и более широкий интерес, хотя все изложение непосредственно примыкает к определению количе- количества информации из [7] и многочисленным работам, развиваю- развивающим это определение). В§ 2 дается определение характеристики h и доказывается1 ее инвариантность. В § 3, 4 указываются при- примеры автоморфизмов и потоков с произвольными значениями k в пределах О <С h <^ оо. В случае автоморфизмов дело идет о примерах, давно построенных, в случае потоков построение примеров с конечным h — задача более деликатная и связанная с некоторыми любопытными вопросами теории марковских про- процессов. ДАН СССР, 1958, т. 119, № 5, с. 861-864.
5. Новый метрический инвариант транзитивных динамических систем 87 § 1 СВОЙСТВА УСЛОВНОЙ ЭНТРОПИИ И УСЛОВНОГО КОЛИЧЕСТВА ИНФОРМАЦИИ В соответствии с [1] обозначаем через у булеву алгебру изме- измеримых множеств пространства М, рассматриваемых mod 0. Пусть S — замкнутая в метрике р (А, В) = ц, ((А — В) \J U (В — А)) подалгебра алгебры у. Она порождает определенное mod 0 разбиение £е пространствам, определяемое тем условием, что А ЕЕ <£ в том и только в том случае, когда mod 0 все А мо- может быть составлено из полных элементов разбиения |g. На эле- элементах С разбиения %& определяется «каноническая система мер цс» [1]. Для любого х €Е С будем считать |is (A 1 С) = 1ю(А\ С). B) С точки зрения теории вероятностей (где любая измеримая функ- функция элемента .гЕЕ М называется «случайной величиной») случай- случайная величина \ix (А | ©) есть «условная вероятность» события А при известном исходе «испытания» © [6, гл. 1, § 7]. Для трех подалгебр 51, 35 и © алгебры у и С ЕЕ £<s положим где верхняя грань берется по всем конечным разложениям М = = ^i U ^2 U ■ ■ • U Лп, М = В, U Вг U • • -U Вл, для ко- которых Аг П ^; = A", S; П Jfy = Л", i # /, А-, ЕЕ St, 5У ЕЕ 35 (Лг — пустое множество). Если© есть тривиальная алгебра 31 = = {Л^, М), то C) переходит в определение безусловной инфор- информации I0&, S5) из приложения 7 к [7] х. Сама величина C) ин- интерпретируется как «количество информации в результатах ис- испытания % относительно испытания й при известном исходе С испытания ©». Если не фиксировать С ЕЕ £е, то естественно рассматривать случайную величину / (ЭД, 95 | 6), которая при х ЕЕ С равна 1Х D1, 35 | ®) = 1с (^, 2? | К). Далее мы будем иметь дело с ее математическим ожиданием М/ (И, 55 | E) - \ 1Я (% SB |«g)|i (dxL. D) м He требуют особых пояснений определения условной энтро- энтропии и средней условной энтропии Н E1 | ©) = / (ЭД, 5f | (£),, 1 Авторы заметки [8] не обратили своевременно внимания на приложе- приложение 7 к [7], не включенное в русский перевод [9]. Заметка [8] должна была бы начинаться со ссылки на это^приложение к |7].
88 5. Новый метрический инвариант транзитивных динамических систем Отметим те свойства условного количества информации и ус- условной энтропии, которые нам понадобятся далее. Свойства (а) и (Ь) для случая безусловных количества информации и энтро- энтропии общеизвестны, свойство (е) для безусловного количества ин- информации составляет содержание теоремы 2 из заметки [8]. Свой- Свойства ф) и (у) доказываются без труда. По поводу свойства (Р) следует лишь заметить, что аналогичное предложение для коли- количества информации (из © э ©' вытекает: / E(, S3 | К) ^ / (ЭД, S3 | 6')) было бы уже ошибочным. С этим связано то обстоятель- обстоятельство, что в свойстве (£) стоит нижний предел и знак ^>: соответ- соответствующий предел может не существовать, а нижний предел мо- может в некоторых случаях оказаться больше М/ (ЭД, 33 | ©). (а) I (9(, 35 | ©) <! Н {Ч | (£), равенство заведомо дости- достигается при 5?э1 (р) Если g э ©', то Н (Ч \ 6)<Д(«| (£'), mod 0. (?) Если S3 =Э 95', то М/ (9f, 83 | G) = М/ (Ч, 8' | G) + -f М / (^, 8 | (£ V S3'), где © V S3' — минимальная замкнутая сг-алгебра, содержащая @ и 8'. (б) Если 8 = 8', то М/ (ЯГ, 33 | С) > М/ (91, 33' | 6). (е) Если 9ГХ с ^2 сг . . . с Чп . . - Q ^п = 31. т0 lim М/ (ЧГ„, 8 | ©) = АА/ PJ, 8 | ©). П—с» (Q Если gx = 5, S . . . Э 6, 2 . . ., П ®п = 6, то lim inf M/ D1, 33 | (£„) > М/ («, S8 | g). Г1—оо §2 ОПРЕДЕЛЕНИЕ ИНВАРИАНТА h Будем говорить, что поток {St} квазирегулярен (имеет тип Я), если 2 существует замкнутая подалгебра уй алгебры у, сдвиги которой yt = Sty0 обладают следующими свойствами: (I) V* Е Т*...если t < *'. (II) y7i=7. (HI) П V* = Я- При интерпретации потока как стационарного случайного про- процесса yt может рассматриваться как алгебра событий, «завися- «зависящих лишь от течения процесса до момента времени t». Легко до- доказывается, что потоки типа М транзитивны, а из результатов Плеснера [10, 11] можно вывести, что они имеют однородный ле- лебегов спектр. Если кратность спектра равна v (v = 1,2, . . ., со), то отнесем поток к типу Ж1. Очевидно, что J?v cz %v', где Xv — класс потоков с лебеговым спектром однородной кратности v. Возможно, впрочем, что все %v (и, следовательно, JF), кроме £<* (J%a), пусты и что £<» = Я®. 2 Это условие значительно слабее, чем условия «регулярности», обычно употребляемые в теории случайных процессов. См. об этом в конце § 4.
5. Новый метрический инвариант транзитивных динамических систем 89 Теорема 1. Если для потока {St} существует у0, удовлет- удовлетворяющее условиям (I)—(III), то при А ^> О tAH (y*+a I V*) = = hA, где h — константа, лежащая в пределах О < k ^ с». Теорема 2. Константа k для данного потока {St} не зависит от выбора у0, удовлетворяющего условиям (I)—(III). Наметим здесь доказательство теоремы 2. Пусть двум Yo и 7о соответствуют h < оо и h'. В силу теоремы 1 и лемм (а) и (е) для любого е ^> 0 можно найти такое к, что h = АЛ/ (vt+i | Ъ) = М/ (y*+i. УI Ъ) < М^ (T«+i. Y«+fc I Y«) + е- E) Из E) в силу леммы (£) вытекает существование такого т, что А. < М/ (Y(+i, y/+* I ?( V y's) + 2е при i — s > щ. F) Из F) и лемм (б), (у), (а), (Р) (применять в указанном по- порядке!): п—1 пк < 2 М/ (ум, ?*+й | Y< V T-m) + 2«s < (S) S M/ (Y(+1, y^h-v I y« V vi M/ (Yn, Yn+ic | Yo V y'-m) + 2ne ^ M# (Yn+a | Yo V Y-m) + 2ne < (a) < МЯ (y«+:.- I Ylm) + 2ne < (n + к + m) h' + 2ne, (p) ^ + 2e. G) Так как e ^> 0 и п произвольны (причем п выбирается после фиксирования /с и /в), то из G) вытекает неравенство h*S^h'. Это неравенство вполне аналогично доказывается и в случае h = оо. Аналогично доказывается обратное неравенство й.'4^ h, чем и заканчивается доказательство теоремы 2. §3 ИНВАРИАНТЫ АВТОМОРФИЗМОВ Если в § 2 считать, что t принимает только целые значения, то {St} однозначно определяется автоморфизмом Т = 5Х. В силу теорем 1 и 2 существует инвариант 0 < k (T) <J оо. Легко доказывается, что любой автоморфизм типа j/F0 (ин- (индекс стоит для отличия от случая потоков с непрерывным вре- временем) имеет счетнократный лебегов спектр, т. е. из классов JFq непуст только класс М® cz £™. Он распадается по значениям h (T) на классы J§ (h). Теорема 3. Для любого k, 0 < h ^oo, существует авто- автоморфизм, принадлежащий JMt (h).
90 5. Новый метрический инвариант транзитивных динамических систем Соответствующие примеры хорошо известны и получаются,, например, из схемы независимых случайных испытаний £Llt. %Ol Xi, . . ., Xf, ... с распределением вероятностей исхода \t- испытания %\ оо Р {£, = «!> = А, - 21 Pi log Pi = h. (8> i=-l Пространство М составляется из последовательностей х = = (..., х-х, х0, хх, . . ., хи . . .), xt = ах, а2, . . ., а сдвиг Тх = = х' определяется формулой х\ = аг(_х. Мера fi на М определяет- определяется как прямое произведение вероятностных мер (8). §4 ИНВАРИАНТЫ ПОТОКОВ Теорема 4. Для любого h: 0<Ch < с», существует поток класса Ла (h), т. е. поток со счетнократным лебеговым спектром и заданным значением константы h. По аналогии с § 3 естественно возникает идея — воспользо- воспользоваться для доказательства теоремы 4 вместо схемы дискретных независимых испытаний схемой «процессов с независимыми при- приращениями», или обобщенных процессов «с независимыми зна- значениями» [12, 13]. Однако этот путь приводит лишь к потокам класса Яш (оо) [5]. Для получения конечных значений h прихо- приходится воспользоваться более искусственным построением. В этой заметке возможно только дать описание одного из таких по- построений. Определим взаимно независимые случайные величины £„, со- соответствующие всем целым п, распределениями их значений: Р {to = k} = 3-4"Л к = 1, 2, . . ., а при п ф 0 Р {1п = к} = = 2 к, к = 1, 2, . . . Точку т0 на оси t расположим в случае Ео — к с равномерным распределением вероятностей на отрезке — и2Гк <^ т0 <^ 0, а точки т„ при п Ф 0 определим из соотно- соотношения т„+1 = хп + u2~in. Положим ф (t) = |,j при тп ^ t < rn+i. Легко проверить, что распределение случайной функции ф (t) инвариантно по отноше- отношению к сдвигам 5/ф(^0) = <р (^0 — t). Легко подсчитать, что h (St} = 6/u (на единицу времени падает в среднем 3/м точек хп, а на каждое \п приходится энтропия 5j k2~k = 2). '=1 Можпо получить более наглядное представление о нашем случайном процессе, если включить в описание его состояния оэ (t) в момент времени t, кроме величины ф (£), еще значение 6 (t) = t — т* (t) разности между t и ближайшей слева от t точки т„. При таком способе описания наш процесс оказывает- оказывается стационарным марковским процессом. Он заслуживает лишь
6. К определению алгоритма 91 название «квазирегулярного», так как, хотя соответствующая ему динамическая система транзитивна, значение разности / (со (t), t) = x* (t) = t — б (t) определяется с точностью до дво- двоично-рационального слагаемого поведением реализации процесса в сколь угодно далеком прошлом. 21 января 1958 г. ЛИТЕРАТУРА 1. Рохлин В. А. Избранные вопросы метрической теории динамических систем.— УМН, 1949, т. 4, вып. 2 C0), с. 57—128. 2. Гелъфанд И. М., Фомин С. В. Геодезические потоки на многообразиях постоянной отрицательной кривизны.— УМН, 1952, т. 7, вып. 1 D7), с. 118—137. 3. Фомин С. В. О динамических системах в пространстве функции.— Укр. мат. журн., 1950, т. 2, № 2, с. 25—47. 4. ltd К. Complex multiple Wiener integral.— Jap. J. Math., 1952, vol. 22, p. 63—86. 5. Ito K. Spectral type of the shift transformation of differential processes with stationary increments.— Trans. Amer. Math. Soc, 1956, vol. 81, N 2, p. 253—263. 6. Дуб Дж. Л. Вероятностные процессы. М.: Изд-во иностр. лит., 1956. 605 с. 7. Shannon С. Е., Weaver W. The mathematical theory of communication. Urbana: Univ. 111. Press, 1949. 8. Гелъфанд И. М., Колмогоров А. Н., Яглом А. М. К общему определению количества информации.—ДАН СССР, 1956, т. 111, № 4, с. 745—748. 9. Шеннон К. Статистическая теория передачи электрических сигналов.— В кн.: Теория передачи электрических сигналов при наличии помех. М.: Изд-во иностр. лит., 1953, с. 7—87. 10. Плеснер А. И. Функции максимального оператора.— ДАН СССР, 1939, т. 23, № 4, с-327—330. 11. Плеснер А. И. О полуунитарных операторах.— ДАН СССР, 1939, т. 25, № 9, с. 708—710. 12. ltd К. Stationary random distributions.— Mem. Coll. Sci. Univ. Kyoto. •A, 1954, vol. 28, N 3, p. 209-223. 13. Гелъфанд И. М. Обобщенные случайные процессы.— ДАН СССР, 1955Г т. 100, № 5, с. 853-856. 6 К ОПРЕДЕЛЕНИЮ АЛГОРИТМА *г Совместно с В. А.Успенским Алгоритмом принято называть систему вычислений, которая для некоторого класса математических задач из записи А «условий» задачи позволяет при помощи однозначно определен- определенной последовательности операций, совершаемых «механически» * УМН, 1958, т. 13, вып. 4, с. 3—28. 1 Статья, кроме незначительных редакционных изменений, была напи- написана, когда авторы, стремясь для самих себя осмыслить понятия «вычисли-
92 S. К определению алгоритма без вмешательства творческих способностей человека, получить запись В «решения» задачи. Вопрос о путях уточнений этого традицион- традиционного приблизительного представления об алгоритмах с наи- наибольшей широтой поставлен во вводных параграфах статьи А. А. Маркова [1]. Давая ясное и развернутое представление о существе вопроса, статья А. А. Маркова (и последовавшая за ней монография [2]) ограничивается алгоритмами, перерабаты- перерабатывающими «слова», а среди такого рода алгоритмов — теми, ко- которые в статье названы «нормальными». Нашей целью являет- является наметить возможность более широкого подхода к делу и вместе с тем более отчетливо показать, что самое общее доступное при современном состоянии науки понятие алгоритма вполне естест- естественным образом связывается с понятием частично рекурсивной функции. Во всех интересующих математиков случаях доступные пере- переработке данным алгоритмом записи условий А легко включают- включаются в занумерованную неотрицательными целыми числами после- последовательность Л А А А я записи могущих получиться решений В — в последовательность Во, Вх, В2, . . ., Вп, . . ., тоже занумерованную неотрицательными целыми числами2. Если обозначить через G множество номеров п тех условий Ап, которые алгоритм способен переработать в решения, то резуль- мая функция»и «алгоритм», пытались пересмотреть найденные в литературе варианты определения и окончательно убедиться в том, что за ними не скры- скрывается каких-либо возможностей расширения самого объема понятия «вы- «вычислимая функция». Результат получился, естественно, отрицательным. Не без колебаний авторы публикуют отчет о своих поисках, так как предмет- предметно он не дает ничего нового по сравнению с более простыми определениями. По-видимому, однако, усвоенный нами подход к делу соответствует умона- умонастроению многих математиков, которых публикация нашей статьи может избавить от повторного прохождения тех же путей сомнений и размышле- размышлений. Отметим еще, что обсуждался и такой вариант определений, в которых вместо пассивной, неограниченного объема памяти в машине могли возникать в неограниченном количестве параллельно работающие «активные области», каждая из которых сохраняет ограниченную сложность строения. Естест- Естественно, что и на этом пути не было получено ничего, кроме частично рекур- рекурсивных функций. 2 Способ, позволяющий по виду записи находить ее номер, а также по номеру восстанавливать саму запись, является обычно весьма простым (так что существование алгоритма, «перерабатывающего» запись в номер, и алго- алгоритма, «перерабатывающего» номер в запись, не вызывает сомнений).
6. К определению алгоритма тат работы алгоритма, осуществляющего переработку Ап *■ Dm-) однозначно определяется заданной на G числовой функцией т = ср (п). Таким образом, произвольный алгоритм сводится к алгоритму вычисления значений некоторой числовой функции (числа всю- всюду далее имеются в виду целые неотрицательные). Обратно, если для функции ср существует алгоритм, который, будучи применен к стандартной записи 3 значения аргумента п из области определения функции ф, приводит к стандартной за- записи значения функции т = ф (п), то функцию ф естественно называть алгоритмически вычислимой, или для краткости просто вычислимой функцией. Поэтому вопрос об определении алгоритма по существу равносилен вопросу об определении вычислимой функции. В § 1 дается обзор существующих определений вычислимой функции и алгоритма и обсуждается степень их общности и ло- логической завершенности. В § 2 излагается новое определение ал- алгоритма 4. В § 3 показывается, что любой алгоритм, подпадаю- подпадающий под это новое, весьма общее по форме определение, все- же сводится к алгоритму вычисления значений частично рекур- рекурсивной функции. В приложении I дается сводка определений и фактов, относящихся к рекурсивным функциям, а в приложе- приложении II рассматривается пример алгоритма. § 1 Мы остановимся на следующих вариантах математического оп- определения вычислимой функции или алгоритма. A) Определение вычислимой функции как функции, значения которой выводимы в некотором логическом исчислении (Гёдель [4], Чёрч [51 5). Б) Определение вычислимой функции как функции, значений которой получаются при помощи исчисления Х-конверсии Чёр- ча [5, 7]. B) Определение вычислимой функции как функции частично* рекурсивной (см. работу Клини [8]) 6 или — для случая всюду определенной функции — как общерекурсивной (Клини [10]), 3 Для чисел, больших нуля, стандартной записью можно считать за- запись вида 1 -)- 1 -[-... + 1 или запись по десятичной системе счисления и т. п. Без фиксирования стандартного способа записи чисел говорить об алгорит- алгоритме вычисления т — <р (п) по п не имеет смысла. * Основные черты этого определения, найденного еще в 1952 г., были впервые опубликованы в [3]. 5 По поводу определения А) см. также [6, § 62, 63]. 6 По поводу определения В) см. также [6, § 62, 63].
6. К определению алгоритма (Термины «частично рекурсивная» и «общерекурсивная» пони- понимаются здесь в смысле приложения I.) Г) Вычислительная машина Тьюринга [11] 7. Д) Финитный комбинаторный процесс Поста [13]. Е) Нормальный алгорифм А. А. Маркова [1, 2]. Рассмотрим прежде всего перечисленные определения с точ- точки зрения естественно входящего в понятие алгоритма требования наличия однозначно определенной последовательности операций, «перерабатывающих» условия А в решение В, или значение п в значение т = ц> (п). Сразу ясно, что определения А), Б), В) являются с этой точки зрения незавершенными, так как такой однозначно определенной последовательности операций не ука- указывают. Правда, например, определение частично рекурсивной функции по существу содержит в себе все предпосылки для по- построения однозначно определенного алгоритма вычисления ее значений по заданному значению ее аргумента, но в явном виде такой алгоритм не указывается. Вычислительная машина Тьюринга производит вполне опре- определенную последовательность операций, приводящую к последо- последовательному развертыванию записей значений ф@), ФA), фB),. . . Достаточно снабдить ее простым приспособлением, которое ос- остановило бы ее работу при получении ф (п) для заданного п, чтобы она могла рассматриваться как способ реализации под- подлинного алгоритма нахождения ф (п) по заданному п 8. Определения Д) и Е) полностью отвечают требованию одно- однозначной определенности алгоритмического вычислительного про- процесса заданием условий А. Перейдем теперь к обсуждению рассматриваемых определе- определений с точки зрения расчленения алгоритмического процесса на элементарные, могущие выполняться «механически» отдельные шаги. В этом требовании расчленения вычислительного процес- процесса на элементарные шаги ограниченной (в пределах данного ал- алгоритма) сложности мы усматриваем вторую, не менее сущест- существенную сторону понятия алгоритма. Чтобы сделать понятными основные трудности, связанные с уточнением понятия алгоритма в смысле выполнения требования ограниченной сложности его от- отдельных шагов, заметим, что интересующие математиков алгорит- алгоритмы применимы обычно к бесконечному классу задач. Таковы, на- например, уже алгоритмы сложения и умножения записанных по 7 Здесь имеется в виду первоначальное определение вычислимой функ- функции посредством машины Тьюринга, предложенное самим Тьюрингом [И]. Близкое к этому изложение имеется в книге Петер [12]. 8 В этом духе изложено вычисление функции на машине Тьюринга ъ монографии К лини [6]. Отправляясь от стандартной записи числа п, машина получает стандартную запись числа <р (п) и останавливается.
6. К определению алгоритма 95 десятичной системе натуральных чисел. Поэтому уподобление процесса предписываемых алгоритмом вычислений работе неко- некоторой «машины» не может пониматься слишком буквально. Ре- Реальная машина допускает только конечное число четко разгра- разграниченных «состояний», и в соответствии с этим число различных «условий» А, которые реальная машина способна перерабаты- перерабатывать в «решения» В, неизбежным образом тоже конечно. Поэтому построение теории алгоритмов по образцу теории вычислитель- вычислительных машин требует во всяком случае некоторой идеализации по- понятия «машины». Тем не менее наглядные образы и понятия, выработанные в связи с развитием теории вычислительных машин дискретного действия, могут быть полезны для общей ориентировки в пробле- проблеме рационального определения понятия алгоритма. Вся идеали- идеализация, необходимая для перехода от реальных вычислительных машин к математическим алгоритмам, заключается в допущении неограниченного объема «памяти» машины. Можно иллюстриро- иллюстрировать изложение теории алгоритмов и более традиционными обра- образами, связанными с вычислениями, записываемыми на бумаге. По сравнению с реальным процессом таких вычислений идеа- идеализация будет заключаться в допущении неограниченного объе- объема записей, постепенно накапливаемых и вновь используемых по определенной системе в дальнейших выкладках. Допуская неограниченный объем «памяти», понятие матема- математического алгоритма должно сохранить из свойств реальных вычислительных машин дискретного действия и реальных пись- письменных вычислений следующие два их свойства. 1. Сами вычислительные операции производятся дискретны- дискретными шагами, причем на каждом шагу используется лишь огра- ограниченный запас накопленных па предшествующих шагах данных. Если запас данных, имеющихся к началу шага, превосходит максимальную емкость «активной области», то они вовлекаются в эту активную область постепенно, по мере освобождения в ней места (и уже на следующих шагах). Можно, например, пред- представлять себе дело так, что листки с записями, употребляемыми на каждом шаге вычислений, должны умещаться на столе и вме- вмещают строго ограниченное число знаков, а папки, в которые складываются исписанные листки и из которых они извлекаются по мере надобности, имеют неограниченную толщину. 2. Неограниченность «объема памяти», или сохраняемых в запас записей, понимается чисто количественным образом: допускается лишь неограниченное накопление элементов (зна- (знаков, элементарных частей машины) ограниченного числа типов, связанных между собой связями ограниченной сложности и тоже принадлежащих к ограниченному числу различных типов. Из- Извлечение сведений, накопленных в «памяти» машины или в от- отложенных в сторону записях, производится последовательно: от
■96 S, К определению алгоритма попавшего в активную область элемента переходят к связанным с ним элементам и вовлекают их в активную область. Высказанным сейчас требованиям в полной мере удовлетво- удовлетворяет вычислительная машина Тьюринга и финитный комбина- комбинаторный процесс Поста. В определениях А), Б) и В) остается не- нерасшифрованной действительная элементарность и «механичес- «механическая» осуществимость таких операций, как подстановка вместо леременных тех или иных выражений, сложность которых {в смысле числа составляющих их элементарных знаков) прави- правилами исчисления никак не ограничена. Аналогичное возражение •формально может быть отнесено и к определению нормального алгорифма А. А. Маркова, хотя здесь возможность его снятия при помощи легкого дополнительного построения особенно яс- ясна. Недостаточно расчлененной с точки зрения выдвинутого нами требования в нормальном алгорифме А. А. Маркова является только операция разыскания в перерабатываемом слове Р -«первого вхождения» слова X. Так как перерабатываемые слова Р могут быть сколько угодно длинными, то нахождение первого вхождения в Р данного слова X должно рассматриваться как процесс, требующий, вообще говоря, ряда последовательных опе- операций. Можно сказать, что при определении нормальных ал- алгорифмов А. А. Марков предполагает уже построенным некий специальный «алгорифм нахождений первых вхождений». Чита- Читатель может без большого труда при желании построить такой алгоритм в терминах нашего § 2. Можно, однако, предполагать, что как А. А. Марков, так и авторы различных обсуждаемых нами определений понятия вы- вычислимой функции оставляют некоторые операции неограни- неограниченного объема нерасчлененными лишь в силу очевидной воз- возможности их расчленения на действительно элементарные шаги. Последним и самым трудным вопросом является вопрос о достаточной общности предложенных определений алгоритма и вычислимой функции. На первый взгляд весьма общим являет- является определение А). Однако эта общность обманчива. В самом де- деле, чтобы сформулировать определение вычислимой в смысле А) функции, мы неизбежно ограничиваемся некоторым фиксирован- фиксированным исчислением с фиксированными правилами вывода. Если же поставить вопрос о выводе в произвольном исчислении, с про- произвольными правилами вывода, то следует учесть, что понятие вывода в исчислении в самом общем виде может быть уточнено лишь на базе уже уточненного понятия алгоритма. Что касается вполне четких с формальной стороны определе- определений Б), В), Г), Д), Е), то можно сказать, что в известном смысле слова они все эквивалентны друг другу, т. е. по существу опре- определяют классы вычислительных процессов (алгоритмов) одина- одинаковой мощности. Эквивалентность определений Б), В), Е) уста-
6. К определению алгоритма 97 новлена в работах [5, 14 — 16] 9. Определения Д) и Е) являются специальными случаями алгоритмов в смысле нашего § 2, а эк- эквивалентность нашего определения определению В) выясняется в § 3 нашей работы. Заметим, впрочем, что сама точная форму- формулировка предложений об эквивалентности определений, по- построенных с формальной стороны столь различным образом, и оп- определяющих формально разные объекты (вычислимые функции; в случае Тьюринга — лишь вычислимые функции, принимающие только два значения 0 и 1; алгоритмы, перерабатывающие слова, и т. д.), представляет некоторые затруднения. Как бы то ни было, именно ряд установленных или подразу- подразумеваемых предложений об эквивалентности всех предлагавших- предлагавшихся, начиная с 1936 г., определений алгоритма или вычислимой функции является эмпирической основой сложившегося к настоя- настоящему времени общего убеждения в окончательности получен- полученных определений. В применении к вычислимым функциям (для определенности от натурального аргумента с натуральными значениями) сложившиеся к настоящему времени общепринятые представления могут быть изложены так. Класс алгоритмически вычислимых числовых функций, опре- определенных для всех натуральных п, совпадает с классом обще- рекурсивных функций (определение этих последних см. прило- приложение I). Что касается функций, определенных лишь на неко- некотором подмножестве G полного множества натуральных чисел, то их алгоритмическое задание можно понимать в двух различ- различных смыслах. При первом, более узком понимании предписанная алгоритмом процедура должна для любого натурального п после конечного числа шагов привести либо к нахождению, т = = ф (п.), либо к установлению того, что п не входит в G. При втором, более широком понимании дела требуется только, чтобы предписанная алгоритмом процедура для любого п из G приво- приводила к верному результату т = ф (п), а при попытке приме- применить ее к натуральному п, не входящему в G, не могла кончить- кончиться установлением ошибочного (так как <р вне G не определена) результата о равенстве ф (п) какому-либо определенному нату- натуральному числу т. В остальном при втором (широком) понима- понимании дела от характера работы алгоритма, примененного к не входящему в G числу п, ничего не требуется: допускаются в этом случае как безрезультатная «остановка» алгоритмической про- процедуры после конечного числа шагов, так и случай, когда ал- алгоритмическая процедура продолжается неограниченно, не при- приводя ни к какому результату. Целесообразно (что и делается в дальнейшем изложении) считать основным второе (широкое) понимание алгоритмической вычислимости числовой функции, определенной на множестве 8 См. также примечание переводчика на с. 341 книги [6].
6. К определению алгоритма натуральных чисел. В настоящее время это широкое понятие ал- алгоритмически вычислимой функции идентифицируется с поня- понятием частично рекурсивной функции (см. приложение I). Воз- Возможными областями определения G алгоритмически вычислимых функций ф (п) оказываются тогда рекурсивно перечислимые мно- множества натуральных чисел (определение последних см. прило- приложение I) 10. Соответствующим образом строится и общее поня- понятие алгоритма, предназначенного для переработки «условий» А того или иного более общего вида в «решения» В. Для любого алгоритма Г класс 5t (Г) формально допустимых записей «усло- «условий» А и класс 95 (Г) возможных записей «решений» В опреде- определяются таким образом, чтобы принадлежность или непринадлеж- непринадлежность к ним любой могущей встретиться записи могла без затруднений распознаваться. Но при этом не требуется, чтобы ал- алгоритм Г, примененный к любой записи А класса 31 (Г), приво- приводил после конечного числа шагов к записи В из класса 95 (Г). Вместо этого допускают как возможность остановки алгоритми- алгоритмической процедуры без получения решения, так и возможность бесконечного ее продолжения. Множество @ (Г) тех записей А из ЭС (Г), которые алгоритм Г перерабатывает в «решения», т. е. в записи В из Я5 (Г), будем называть областью применимости алгоритма. Наиболее интересные результаты теории алгоритмов относят- относятся как раз к алгоритмам с нетривиальной областью примени- применимости; основные полученные до настоящего времени результаты о невозможности алгоритмов могут быть приведены к такому ви- виду: для некоторого алгоритма Г доказывается невозможность «разрешающего» алгоритма ¥, который «распознавал» бы при- принадлежность или непринадлежность любой записи А из 9t (Г) к & (Г) ". Классы 31 (Г) и S5 (Г) для всех имеющихся определений ал- алгоритма легко нумеруются, как указано во введении к этой статье. Это позволяет каждому алгоритму Г поставить в соот- соответствие числовую функцию фг, которая определена для номе- номеров п условий А, принадлежащих @ (Г), и в качестве значения т = ф (п) имеет номер решения, получаемый при переработке условия с номером п. Сложившееся к настоящему времени об- общее убеждение в степени общности понятия алгоритма можно ре- резюмировать, высказав, что для любого алгоритма Г функция срг должна быть частично рекурсивной. Так и обстоит дело со все- всеми предложенными до настоящего времени определениями. На- 10 Изложение некоторых основных фактов теории вычислимых функ- функций, предполагающее лишь интуитивное представление об алгоритмах, да- дано в статье [17]. 11 Т. е. невозможность алгоритма Y, который перерабатывал бы любую запись А из 2J (Г) в 1, когда А входит в © (Г), и в 0, когда А не входит в © (Г).
6. К определению алгоритма 99 шей задачей является возможно более полное разъяснение при- причин такого положения вещей. С этой целью мы и предприняли попытку построения возможно более общего по форме определе- определения алгоритма, удовлетворяющего выдвинутым выше требовани- требованиям ограниченной сложности каждого шага алгоритма. В резуль- результате, как и следовало ожидать, получилось, что, несмотря на все меры, принятые для сохранения возможной общности по- построения, мы не выходим за пределы алгоритмов, описываемых указанным выше способом частично рекурсивными функциями. §2 Алгоритм Г задается при помощи предписания, указывающе- го|способ перехода от «состояния» S процесса вычислений к «сле- «следующему» состоянию iS*, т. е. при помощи оператора Qr (S) = = S*, который мы назовем оператором «непосредственной пере- переработки». В классе @ (Г) = {S} возможных состояний выделяют- выделяются класс 3( (Г) «исходных» состояний, представляющих собой записи «условий» задач, и класс © (Г) «заключительных» состоя- состояний. При получении состояния из класса (£ (Г) алгоритмичес- алгоритмический процесс заканчивается, и из полученного «заключительного» состояния извлекается «решение». Область Э (Г) cz © (Г), на которой оператор Q определен, естественно считать не пересе- пересекающейся с (£ (Г). Класс состояний, не входящих ни в © (T)s ни в © (Г), обозначим через $ (Г). Алгоритмический процесс s° = а е » (Г), S1 = Qr E°), S* = Qr (S1), St+1 = Qr {Sl) может развиваться одним из следующих трех способов. 1. При каком-либо t = t процесс приводит к заключитель- заключительному состоянию S'ee (Г), после чего из этого заключительного состояния извлекается ре- решение В. 2. При каком-либо t = t процесс заканчивается безрезуль- безрезультатно: s* e 91 (Г). 3. Процесс продолжается неограниченно, не приводя к ре- результату.
100 6. К определению алгоритма Класс @ (Г) тех А £г 31 (Г), которые приводят к первому типу течения процессов, называется «областью применимости» алгоритма. Перейдем теперь к уточнению понятий «состояния» и «актив- «активной части» состояния. Задачей тех рассмотрений, которые сейчас будут изложены, является лишь наглядное оправдание достаточ- достаточной общности того формального определения этих понятий, ко- которое будет дано несколькими страницами дальше. Естественно считать, что состояние S определяется наличием некоторого конечного числа элементов принадлежащих каждый к одному из типов и наличием между некоторыми группами элементов связей, при- принадлежащих к одному из типов » "а> • • •» "т- Для каждого типа связи R( будем считать фиксированным число ki связываемых элементов. Запас типов элементов и запас типов связей (а следовательно, и числа п, т, кг, . . ., km) выбираются для данного алгоритма раз навсегда. Элементы будем обозначать кружками с проставляемыми внутри номерами типов. Что касается индексов около кружков, то они будут относиться лишь к нашим рассуждениям относи- относительно алгоритма и к составу состояния не относятся. Так как число элементов, образующих вместе с заданными между ними связями состояние, неограниченно, то и разнообразие этих внеш- внешних индексов заранее никак не ограничивается: можно, напри- например, в качестве этих индексов употреблять сколь угодно большие натуральные числа. Наконец, в соответствии со сказанным ранее будем считать, что в пределах одного алгоритма число связей, в которые может одновременно (т. е. при конструировании одного определенного состояния) входить один и тот же элемент, ограниченно раз на- навсегда выбранным числом. Вообще говоря,порядок связываемых какой-либо связью эле- элементов может быть существенным или несущественным. Далее нам удастся ограничиться рассмотрением только симметричес- симметрических связей между парами элементов. Однако сначала, для того чтобы не упустить каких-либо возможностей построения мощных алгоритмов, мы предположим, что в понятие состояния сущест- существенно входит порядок, в котором связанные какой-либо связью элементы в эту связь включаются; т. е., например, наличие парной связи R (Он О,)
в. К определению алгоритма 101 будем отличать от наличия парной связи Будем также считать существенно входящим в понятие со" стояния и задание определенного упорядочения всех связей, в ко" торые входит данный элемент. Таким образом, связывание эле- элементов Oil Ог!- • •. Он связью типа R будем мыслить себе осуще- осуществляющимся по схеме, изображенной на рис. 1. В этой схеме индексы pj указывают, какое место занимает рассматриваемая связь типа R в упорядоченной последователь- последовательности связей, в которые входит элемент Qj. Индексы/?; при этом Рис. 1 и А Рис. 2 можно считать принимающими только значения 1, 2, . . ., s. Что касается индексов 1, 2,. . ., к, то они принимают, вообще говоря, значения из последовательности 1, 2,. . ., К, где К равно максимуму чисел кг (г = 1, 2,. . ., т). Вместо рассмотрения состояний, составляемых из элементов, связанных по указанной сейчас общей схеме разнообразными связями Rlt R2, . . ., Rm, целесообразно ввести дополнительные типы элементов (рис. 2). Очевидно, что это позволит заменить рассматриваемый алго- алгоритм новым, отличающимся лишь способом записи состояний, в котором будет применяться только один тип симметричных свя- связей между парами элементов. Такую связь между элементами Oi и Ог можно изображать просто чертой Для преобразованного алгоритма автоматически будет выпол- выполняться Условие а). Все элементы, связанные с каким-либо одним элементом, принадлежат различным типам.
102 в. К определению алгоритма Естественно, что при условии а) специальная нумерация по- порядка вхождения элемента в различные связи излишняя: свя- связи, в которые входит данный элемент, автоматически нумеруют- нумеруются номерами типов тех элементов, с которыми он связывается. Можно без потери общности аналогичным образом стандарти- стандартизировать и способ выделения «активной части» состояния, строе- строение которой однозначно определяет те преобразования, которые переводят S в S* = Q (S). Именно будем считать, что в актив- активной части состояния имеется отмеченный «начальный» элемент. Требование ограниченной сложности активной части состояния естественно понять так, что все входящие в нее элементы долж- должны быть связаны с начальным элементом О цепями ограниченной длины X <^ N, где Лг — характеристическое числоя постоянное для данного алгоритма. Оператор S* = QT (S), дающий переход от состояния S к «следующему» состоянию S*, должен быть таков, что S* строится исключительно на основании информации о виде активной части S. Точно так же на основа- основании информации 6 виде активной части S должно распознавать- распознаваться, достигнуто заключительное состояние или нет. Проще всего, что очевидным образом не нарушит общности, использовать для этого начальный элемент: мы примем, что к типам Го и Т1 мо- может относиться только начальный элемент, причем переход начального элемента от типа То к типу Тх означает получение заключительного состояния. Вовсе не всё заключительное состояние целесообразно считать решением. Так, при прекращении вычислений на бумаге не все написанное является решением: подавляющую часть обычно со- составляют промежуточные выкладки. Точно так же при останов- остановке вычислительной машины только сравнительно небольшая часть полного «состояния» машины является решением решаемой на машине задачи. Естественно поэтому считать «решением» лишь некоторую часть «заключительного состояния», связанную с на- начальным элементом. Мы примем в качестве «решения» совокуп- совокупность всех тех элементов, которые можно связать с начальным элементом цепями произвольной длины. Переходим теперь к формулировке определения алгоритма. 1. Алгоритм Г предполагает наличие упорядоченного множе- множества % = % (Г) неограниченных по объему классов То, Т1у. . ., 7Y
6. К определению алгоритма ЮЗ1 «элементов», из которых будут строиться «состояния». Классы эти не пересекаются между собой. Соединение их обозначается Т. Элементы Т обозначаются кружками О с различными индек- индексами около кружков. Для обозначения принадлежности элемен- элемента О к классу Tt внутри кружка ставится номер i. Элемент, принадлежащий классу Тt, называется также элементом типа Tt. 2. Комплексом над множеством % называется обычный одно- одномерный комплекс с вершинами из Т, т. е. соединение К = Кц \J, (J Кх конечного множества *0 = {Оа} некоторых элементов из Т, называемых «вершинами» комплекса, и множества Кх (очевидно, тоже конечного) некоторых пар элементов из Kq. Эти пары называются «отрез- «отрезками» комплекса К. 3. Выделяется множество @к таких комплексов К над %, ко- которые обладают следующими свойствами: а) вершины, соединенные отрезками с фиксированной верши- вершиной, принадлежат разным типам Tt; б) в К существует одна и только одна вершина типа То или Tlt называемая «начальной»; остальные вершины принадлежат типам Tt с i > 2. 4. В множестве <В% выделяются подмножество %1% комплек- комплексов, начальная вершина которых принадлежит типу То, и под- подмножество (£% комплексов, начальная вершина которых принад- принадлежит типу 2\. 5. Комплексы из &% считаются «состояниями» алгоритма Г, причем комплексы из ЭД^ — «исходными» состояниями, или «ус- «условиями», а комплексы из (&% «заключительными» состояниями: 6. Активной частью U (S) состояния S называется подком- подкомплекс комплекса S, состоящий из вершин и отрезков, принадле- принадлежащих цепям длины К <J N, содержащим начальную вершину. Здесь N — произвольное, но для данного алгоритма Г фиксиро- фиксированное число. Термин «подкомплекс» понимается в обычном теоретико-множественном смысле: комплекс К' есть подкомплекс комплекса К, если Кц с: Ко, к{ с: С Кг. Цепь есть комплекс вида ОгОгО; ■ -О,
Ю4 в, К определению алгоритма Длиной цепи называется число X входящих в нее отрезков. Комплекс называется связным, если любые две его вершины можно соединить цепью. 7. Внешней частью V (S) состояния S называется подкомплекс, состоящий из вершин, не соединимых с начальной вершиной цепями длины X ■< N, и отрезков, не входящих в те цепи, содер- содержащие начальную вершину, которые имеют длину % ^ N. Пере- Пересечение L (S) = U (S) Г\ V (S) называется границей активной части состояния S. Легко видеть, что L (S) есть нульмерный комплекс (т. е. не содержит отрезков) и состоит из тех вершин, которые соединимы с начальной цепями длины к = N, но не соединимы более короткими цепями (длины X<N). Прежде чем закончить формулировку определения алгоритма, сделаем несколько замечаний. Сформулированное в § 1 требование 1 мы будем понимать так: оператор Qr (S) = S* Должен быть таков, чтобы перестройка S в S* требовала лишь пе- перестройки в какой-либо новый комплекс активной части U (S) ж не меняла строения внешней части V E); при этом сам харак- характер перестройки U(S) должен определиться исключительно строе- строением самого комплекса U (S). Два комплекса К' и К" будем считать изоморфными, если их (как множества К' = Ко (J Кг и К" = Ко [j Kx) можно поста- поставить во взаимно однозначное соответствие так, что: 1) вершины соответствуют вершинам, а отрезки — отрезкам, 2) отрезку, соединяющему вершины Оа и О&> соответствует отрезок, соединяющий соответствующие вершины Оа и Ор> 3) соответствующие вершины имеют одинаковый тип. Очевидно, что число неизоморфных активных частей U (S)% возможных в данном алгоритме, ограничено. Правила их перера- переработки поэтому легко формулируются в конечном виде. Возвраща- Возвращаемся к изложению определения алгоритма. 8. Правила непосредственной переработки алгоритма задают- задаются при помощи указания^пар состояний и2
6. К определению алгоритма 105 с установленным для каждого i изоморфным отображением q>j подкомплекса L{Ui) на некоторый подкомплекс L{Wi) состоя- состояния Wt- Если вершины Од£=£ (Ut) и Ov £= E (Wj) соответствуют друг другу при изоморфизме cpj, то произвольная не начальная вершина комплекса W{, связанная с Ov, имеет тип одной из вер- вершин комплекса £/г, связанных с Ом 12» Каждый комплекс U-t яй- ляется состоянием класса 3t (Г) (условием), удовлетворяющим требованию U (£/j) = Ut. Все *71? U2l . . ., t/r предполагаются неизоморфными между собой. Что же касается Wt, то это — про- произвольные состояния, которые могут быть как исходными, так и заключительными. 9. Область © (Г) определения оператора Йг (S) = S* состоит из тех состояний S, для которых активная часть U (S) изоморфна одному из комплексов £/"l7 U2, . . ., Ur. ' 10. Пусть подкомплекс U (S) изоморфен Ut. Так как U E) и Ui суть связные комплексы, принадлежащие к ©^7 то, если они изоморфны, между ними может существовать лишь одно изоморф- изоморфное соответствие. Это соответствие однозначно определяет изо- изоморфизм между L (S) и L(Ui), а так как задано изоморфное ото- отображение ф; комплекса L(U{) на L (W{), то тем самым индуци- индуцируется однозначно определенный изоморфизм 0f между L (S) и L {Wt). 11. Пусть S tr Э (Г), причем подкомплекс U (S) изоморфен комплексу U{. Очевидно, можно образовать комплекс W, изо- изоморфный комплексу Wt и удовлетворяющий следующим усло- условиям: 1) W П V (S) = L (S), 2) изоморфизм Sf между подкомплексами L (S) czW и L (Wi) cz Wt продолжается до изоморфизма между комплексами W и Wi. Результат применения оператора Qr к комплексу S определя- определяется (однозначно с точностью до изоморфизма) как комплекс вида s* = w и v (S). 12. Если S — заключительное состояние, то связная компо- компонента начальной вершины считается «решением» (под связной компонентой какой-либо вершины понимается максимальный связный подкомплекс, содержащий эту вершинуI3; совокупность 12 Вследствие этого требования свойство а) на п. 3 определения не нару- нарушится в процессе работы алгоритма. 13 Очевидно, мы получим то же самое «решение», если будем перехо- переходить к связной компоненте начальной вершины на каждом шаге работы алгоритма, т. е. если будем определять результат S* непосредственной пере- переработки комплекса S как связную компоненту начальной вершины комплек- комплекса VT|J^ E). При таком способе задания оператора Йг все состояния алго- алгоритмического процесса, кроме, быть может, начального состояния, окажутся
106 6. К определению алгоритма связных компонент начальных вершин заключительных состоя- состояний может быть в соответствии с ранее сказанным обозначена че- через 95 (Г). Теперь определение алгоритма заканчивается точно так, как указано в начале этого параграфа (в отношении трех типов тече- течения алгоритмического процесса и определения их «области при- применимости» & (Г)). Заданный указанным способом алгоритм, характеризующийся упорядоченным множеством % и числом N, мы отнесем к классу Ajv B1). Всякий алгоритм класса Ajv C>) мы отнесем к классу As. Для того чтобы сделать описание алгоритма более обозримым, мы ввели некоторые условности, которые не связаны неразрывно с общим замыслом, но нам кажется, что достаточная общность предложенного определения остается убедительной, несмотря на эти условности. Нам представляется убедительным, что произ- произвольный алгоритмический процесс удовлетворяет нашему опре- определению алгоритма. Хочется при этом подчеркнуть, что речь идет не о сводимости любого алгоритма к алгоритму в смысле нашего определения (так, в следующем параграфе будет устанавливаться сводимость любого алгоритма к алгоритму вычислений частично рекурсивной функции), а о том, что любой алгоритм по существу подходит под предложенное определение. Трудности, могущие возникнуть у читателя, если он попытает- попытается представить, скажем, вычисление значения частично рекурсив- рекурсивной функции в виде определенного выше алгоритма над комплек- Рис. 3 связными комплексами и потому «решение» будет совпадать с заключитель- заключительным состоянием.— Примеч. авт. при подготовке статьи к публикации в дан- данной книге.
6. К определению алгоритма 107 сами, обусловлены лишь тем, что, как мы уже отмечали в § 1, схе- схема вычисления значений частично рекурсивной функции не задана непосредственно в виде алгоритма. Если же развернуть эти вы числения в виде алгоритмического процесса (что, конечно, нетруд- нетрудно сделать), то тем самым автоматически получится некоторый ал- алгоритм в смысле предложенного определения. Сформулируем вы- высказанное утверждение более точно. Рассмотрим множество типов £в = {То, Ти Т2, Т3, Т4> Ть, Тв}, Назовем «Л-изображением» системы q чисел (jb j2, . . ., j9) ком- комплекс AJu j2 , (рис. З), а «5-изображением» той же системы—. комплекс /?}„ j2 j , получающийся из Aht ,2>..., г заменой вершины (ffj на вершину ft) Для каждой частично рекурсивной функции / (хи х2, .-. ., xq} существует такое множество типов % =2 £в и такой алгоритм Г класса А (£), который применим к комплексу Аг,гг„...,г тогда и только тогда, когда /определена для системы чисел $l5 j2, . . ., 5а> и в этом последнем случае перерабатывает этот комплекс в комп- комплекс Bt, где Все сказанное о рекурсивных функциях полностью относится и ко всем определениям А) — Е). Как только из любого из этих определений удается извлечь алгоритмический процесс, он, этот процесс, оказывается алгоритмом в указанном выше смысле. § 3 Всякий алгоритм сводится к вычислению значений некоторой частично рекурсивной функции. Это доказывается так называе- называемым методом арифметизации. Прежде всего заметим, что каждый комплекс S из ©$ можно задавать в виде таблицы. Для этого упорядочим множество вер- вершин комплекса S следующим образом14. Каждой цепи 14 А. В. Гладкий в реферате настоящей статьи, опубликованном: РЖ. Математика, 1959, № 7, с. 9 (реф. 6527), справедливо замечает: «При- «Примененный в § 3 способ арифметизации нуждается в исправлении, так как участвующий здесь прием упорядочения множества вершин годится лишь для связных комплексов. Нужное исправление может быть сделано без труда».— Примеч. ред.
108 6, К определению алгоритма соединяющей начальную вершину О с произвольной вершиной О*7"'* поставим в соответствие строчку Jit 7a> • • •' /т* В силу условия а) установленное соответствие между исходящими от начальной вершины О цепями вершины комплекса S и некото- некоторым множеством строчек натуральных чисел будет взаимно одно- однозначным. Если упорядочить строчки чисел в словарном порядке, то автоматически возникает порядок среди цепей, исходящих от начальной вершины. Каждой вершине из S поставим теперь в со- соответствие минимальную в смысле установленного порядка цепь, соединяющую начальную вершину с выбранной нами; это соот- соответствие индуцирует порядок в множестве вершин (начальная Лершина будет дри этом первой). Таким образом, множество вер- вершин каждого комплекса из S оказывается упорядоченным. Естественно отнести каждому комплексу из <&% симметричную таблицу, в которой ih есть номер типа jfc-й (в смысле установленно- установленного порядка) вершины из S, а ам есть 1 или 0 в зависимости от того, соединены или нет к-я и 1-я вершины. По табли- таблице комплекс восстанавливается одно- однозначно с точностью до изоморфизма. Проведенное построение переводит всякий алгоритм класса А (£) на язык таблиц. Каждой таблице поставим в соответ- соответствие ее «гёделевское число», для чего запишем таблицу в строчку *> i'i • • • '/ a,t "и • а!2 Щ • • • . • • * • ■ • • • • • • • т • • Об,, а строчке отнесем число а„ где рг есть r-е простое число. В натуральном ряде возникает бесконечное подмножество Q тех чисел, которые суть «гёделевские числа» таблиц, отвечающих комплексам из <&%. Принадлежность или непринадлежность чис- числа к Q распознается без труда. Перенумеруем элементы Q в ес- естественном порядке натуральными числами. Номером таблицы назовем номер соответствующего ей «гёделевского числа». Номе- Номером комплекса из <&>% назовем номер представляющей этот ком- комплекс таблицы. По комплексу S из ©$ эффективно и однозначно находится его номер s, а по номеру s эффективно и однозначно (с точностью до изоморфизма) восстанавливается самый комплекс S.
в. К определению алгоритма 109 Мы имеем здесь дело с той ситуацией, о которой говорилось в § 1. Множество ©2 нумеруется натуральными числами: > > » • • •' "р> * * ■' в эту последовательность комплексов включаются как множество %% «условий», так и множество 5&% «решений». Каждый алго- алгоритм Г класса А (£) задает отображение своей области примени- применимости & (Г) в множество 95Ж; это отображение индуцирует число- числовую функцию т = фГ (га), заданную на множестве G тех номеров га, для которых Sn €= ® (Г). Мы покажем, что функция <рГ частично рекурсивна. В самом деле, нетрудно показать, что функция s* = в (s), индуцированная на множестве номеров оператором непосредст- непосредственной переработки S* = Qp (S), является примитивно рекур- рекурсивной (определение примитивно рекурсивных функций см. при- приложение I). Отсюда сразу следует примитивная рекурсивность функции р (п, t), дающей номер комплекса S', получающегося на t-м шагу переработки комплекса с номером га. Процесс продол- продолжается до тех пор, пока комплекс S*, возникший на шаге ?, не окажется «заключительным», т. е. комплексом из К (Г). Номера комплексов из © (Г) = Кж, т. е. номера комплексов, начальная вершина которых принадлежит классу Ti, удовлетворяют урав- уравнению V (*) = 0, где функцию у, так легко показать, всегда можно выбрать из чис- числа примитивно рекурсивных. Процесс, таким образом, продолжа- продолжается до того первого t, которое будет удовлетворять условию V (р (га, Г)) = 0, т. е. до числа t = V-t[y (р (га, *)) = 0] (об операторе ц см. приложение I). Комплекс Sc принадлежит Ё(Г), его номер р (га, ?) находится из равенства р (га, t) = р (в, lit [у (р (га, *)) = 0]). Номер т = фГ (га) решения получается из номера комплекса S' при помощи функции р (тоже примитивно рекурсивной), дающей по номеру комплекса из ©je номер связной компоненты его на- начальной вершины. Именно Фг И = р (Р (». V* [у (р (га, t)) = 0])), A)
110 6. К определению алгоритма откуда следует (см. приложение I), что функция <рг (п) частично рекурсивная. Отсюда вытекает, в частности, что функция / (xlt . . ., xq), за- задаваемая алгоритмом, преобразующим Л-изображения наборов из q чисел в 5-изображения чисел, частично рекурсивна. Действительно, можно построить примитивно рекурсивные функции | и т], удовлетворяющие следующим требованиям: 1) для всякого набора чисел jb . . ., $9 число | (jlt . . ., jq) есть номер А -изображения набора $!»•••&«> 2) для всякого числа п, являющегося номером 5-изображения числа t, значение т] (п) равно t. Если теперь обозначить через Г алгоритм, осуществляющий вычисление функции /, то, очевидно, / (arlt . . ., xq) = ц (фГ (| (xt, . . ., xq))), B) откуда и получается, что /—частично рекурсивная функция. Поскольку для каждой частично рекурсивной функции / существует вы- вычисляющий ее (в смысле, указанном в конце § 2) алгоритм Г, то каждая час- частично рекурсивная функция будет допускать представление B). Используя формулу A), получаем / (х1, . . ., хя) = = Ч (р (р (I (*lt . . ., *,), |Ч tv (P (I (*i, • • ., *,), *)) = 0]))). Полагая для сокращения Ц (Р (Р (I (хи . . ., xq), v))) = я (xlt . . ., xq, v), У (Р (I (*i, • • м Xq), t)) = 1 (xt, . . ., Xq, t), получаем окончательно, что каждая частично рекурсивная функция предста- вима в виде / (хг, . . ., xq) = л (z,, . . ., xq, \Lt [т (xt, . . ., xg, t) = 0]), C) где лит суть примитивно рекурсивные функции. Приложение I СВЕДЕНИЯ ИЗ ТЕОРИИ РЕКУРСИВНЫХ ФУНКЦИЙ Мы рассматриваем функции от одного, двух и более перемен- переменных, причем каждое переменное и сама функция принимают зна- значения из натурального ряда. Каждое натуральное число условим- условимся считать функцией от нулевого числа переменных. Мы не тре- требуем, чтобы функция от п переменных была определена для всех систем из п натуральных чисел. Равенство между двумя функ- функциями / (яц хг, . . ., хп) = g (хи х2, . . ., хп) означает, что для всякой системы из п натуральных чисел (j1Jr ia» • • •> Jn)> Для которой определена одна из этих функций, опре-
6. К определению алгоритма 111 делена и другая и / (hi hi • • м in) = S (hi hi • • м in)- Введем ряд операторов на_ множестве функций. Аргументом каждого оператора является функция или система функций. Оператор суперпозиции. Область определения оператора суперпозиции — системы функций вида •ф (хъ Жа, . . ., Хп); фх (#i, . . ., Хт), ф2 (#i, . . ., Хт), ■ . . . . ., фп \Xi, . . ., Хт) (п = 1, 2, . . .; т = 1, 2, . . .). Будучи применен к такой системе, оператор суперпозиции дает функцию 8 (хъ . . ., хт), являющуюся результатом подстановки функций фь ф2, . . ., фп в функцию яр на места ее переменных: 9 (хи . . ., хт) = ( ( ) ф2 (ХЪ . . ., Хт), . . ., фп (Хг, . . ., Жт)). Функция 9 (хх, . . ., хт) определена для всех наборов натураль- натуральных чисел ($ь . . ., jTO), обладающих следующими свойствами; 1) для (Si, . . ., jm) определены все функции фг (г = 1, 2, . . ., /г), 2) если ф; ($!, . . ., 5то) = t,- (г = 1, 2, . . ., /г), то' функция ф определена для системы (tu t2, . . ., tn). Оператор примитивной рекурсии. Область определения — пары функций вида h (хи . . ., xn_]), g \Xi, . . ., хп-г, хп, хп+1) (ге = 1, 2, . . .), Примененный к такой паре, оператор рекурсии дает функцию / (хх, . . ., £„_!, хп), связанную chug следующими равенствами: / (хх, .... xn_lt 0) = h (хг, . . ., *„_!), = S \xli • • '1 xn-li хт 1 (^1» » • ч ^n-lJ хп))' Оператор наименьшего числа. Область оп- определения — совокупность всех функций от одного или более пе- переменных. Будучи применен к функции 8 (хъ . . ., хп_х, хп), опе- оператор наименьшего числа дает функцию г|) (хг, . . ., хп^), задавае- задаваемую следующим законом: для всякого набора натуральных чи- чисел jl5 . . ., jn_! значение функции •Ф (Sir . • м $n-l) есть такое число t, что: 1) в (h, •.., jn-i, *) = 0; 2) для всякого числа J, меньшего чем t, значение 0 ($lg ... , , ., in_l5 j) определено и не равно нулю.
112 6. К определению алгоритма Результат применения оператора наименьшего числа к функ- функции 9 (xlt . . ., хп-.и хп) записывают обычно в виде \ixn [0 (хи . . ., хга_!, хп) = 0], помня при этом, что запись \исп [9 (хи . . ., хп.г, хп) = 0] обозначает функцию лишь от переменных хг, . . ., xn_x. Оператор наименьшего числа в отличие от операторов супер- суперпозиции и рекурсии может, будучи применен ко всюду определен- определенной функции, дать функцию, не всюду определенную (и даже нигде не определенную). Введем следующие три группы функций: 1) Функции Оп (х17 . . ., хп) при п = 0, 1, 2, . . .; для каждо- каждого п функция Оп (хи . . ., хп) тождественно равна нулю. 2) Функции /„Л^и ■ ■ •> хп) при п = 1, 2, ... и к = 1, 2, . . . . . ., п; для любого набора (jx, ..., S» ,...,$„) имеем /nJv- ($х, . . . • • •» Jk » • • • t in) ~ Jit* 3) Функция X (я), равная х + 1. Все эти функции назовем базисными. Класс примитивно рекурсивных функций определяется как ми- минимальный класс, содержащий базисные функции и замкнутый относительно применения оператора суперпозиции и оператора примитивной рекурсии [18, 6]. Каждая примитивно рекурсивная функция, как легко видеть, всюду определена. Все простейшие арифметические функции, как то: х + у, ху, xv, \х — и многие другие (например, показатель, с которым простое число входит в разложение на простые множители числа у) являются примитивно рекурсивными. Класс частично рекурсивных функций определяется как мини- минимальный класс, содержащий базисные функции и замкнутый от- относительно применения оператора суперпозиции, оператора при- примитивной рекурсии и оператора наименьшего числа [19, 6]. Частично рекурсивная функция от п переменных, определен- определенная для всех систем из п натуральных чисел, называется обще- общерекурсивной [19, 6]. В частности, всякая примитивно рекурсивная функция есть функция общерекурсивная. Существуют обще- общерекурсивные функции, не являющиеся примитивно рекурсивными. Каждая частично рекурсивная функция конструируется из примитивно рекурсивных функций посредством применения опе- операторов суперпозиции, примитивной рекурсии и наименьшего числа. Представляет интерес наименьшее число операторов, тре- требующееся для образования частично рекурсивной функции из примитивно рекурсивных. A priori это число может быть сколь угодно велико. Однако существует важная теорема Клини
6. К определению алгоритма ИЗ утверждающая, что всякая частично рекурсивная функция / (хг, .: . ., хп) может быть получена применением оператора наи- наименьшего числа и оператора суперпозиции из двух примитивно рекурсивных функций (из которых одна является раз навсегда фиксированной, а другая зависит от функции / (х1; . . ., хп)) г. Именно теорема Клини гласит, что существует такая примитивно рекурсивная функция U (х), что для всякой частично рекурсив- рекурсивной функции / (#!, . . ., хп) существует примитивно рекурсивная функция 8 (#!, . . ., хп, у) со следующим свойством: / (хи . . ., хп) = U (\iy [9 (хъ . . ., хп, у) = 0]). Формула Клини важна еще и тем, что она сводит к минимуму употребление оператора наименьшего числа; применение этого оператора всегда неприятно, ибо он, как отмечалось, может из всюду определенных функций конструировать не всюду опреде- определенные. Мы скажем, что множество R порождается функцией / (х), если множество значений / (х) есть R. Множество называется рекурсив- рекурсивно перечислимым, если оно либо пусто, либо есть множество зна- значений некоторой общерекурсивной функции [20]. Класс рекурсив- рекурсивно перечислимых множеств совпадает с классом множеств, порож- порождаемых частично рекурсивными функциями. Класс непустых ре- рекурсивно перечислимых множеств совпадает с классом множеств, порождаемых примитивно рекурсивными функциями [21]. Следую- Следующие множества являются рекурсивно перечислимыми: сумма и пересечение двух рекурсивно перечислимых множеств; образ и полный прообраз рекурсивно перечислимого множества при ото- отображении, задаваемом частично рекурсивной функцией; область определения частично рекурсивной функции одного переменного. Множество называется рекурсивным, если и оно и его дополне- дополнение рекурсивно перечислимы [20]. Существуют рекурсивно пере- перечислимые, но не рекурсивные множества [20]. Характеристической функцией множества называется функ- функция, принимающая значение 1 на множестве и 0 вне его. Харак- Характеристическая функция рекурсивного множества есть функция общерекурсивная [20]. Обратно, если характеристическая функ- функция множества общерекурсивная, то само множество рекурсивно [20]. Если идентифицировать понятие всюду определенной алгорит- алгоритмически вычислимой функции с понятием общерекурсивной функ- функции, то рекурсивно перечислимые множества суть те множества, которые можно развернуть в алгоритмически вычислимую последо- последовательность (быть может, с повторениями), а рекурсивные множе- 1 Уже формула C) из § 3 показывает, что любую частично рекурсивную функцию можно образовать из двух примитивно рекурсивных применен нием операторов наименьшего числа и суперпозиции.
114 6. К определению алгоритма ■ства суть такие множества, для каждого из которых существу! алгоритм, позволяющий узнавать, принадлежит данное натурал ное число п этому множеству или нет. Приложение II ПРИМЕР АЛГОРИТМА Приведем пример алгоритма «удвоения», перерабатывающего ■сякий комплекс Ак в комплекс 2к раз Заметим, что наиболее простым алгоритмом (в интуитивном смысле), удваивающим линейно упорядоченный ряд точек, явля- является следующая процедура: надо просматривать по очереди все точки и вместо каждой точки ставить две. Если эту процедуру фор- формализовать, то получится как раз построенный ниже алгоритм. Алгоритм, который мы будем строить, принадлежит типу А (£Б), а точнее А4 (£5), где £5 = {То, Тг, Т2, Т„ Tit Тъ). Алгоритм задается правилами непосредственной переработки, состоящими из конечного набора пар Ui —> Wt. Каждую такую пары условимся графически изображать следую- следующим образом *. Комплексы С/,- и Wt будем чертить непересекаю- непересекающимися. Комплекс Ui будем помещать слева, а комплекс Wt — справа. В комплексе Ut мы выделим границу L (Ut), заключив ее в рамку, состоящую из двух концентрических прямоугольни- прямоугольников. Двумя другими (правыми) концентрическими прямоуголь- прямоугольниками, конгруэнтными первым (левым), соответствующий под- 1 Всякий комплекс изображается на чертеже с точностью до изомор- изоморфизма.
6. К определению алгоритма 115- комплекс L (Wt) выделяется в Wt. Чтобы получить изоморфное соответствие срг между L {Ut) и L {Wt), надо совместить правук> систему прямоугольников с левой и отождествить совпавшие вер- вершины, заключенные между прямоугольниками. После этих со- соглашений выпишем следующие пять правил, задающие алгоритм удвоения. Правило 1. иг -» \¥г. Правило 2. U2 -+ Wo. Правило 3. U3 Правило 4. С/4 — > © — 0
116 6. К определению алгоритма Правило 5. wR. Потребность в применении правила 4 возникает тогда, когда к = 0, в применении правила 5 — когда к = 1. Рассмотрим в качестве примера процесс переработки построен- построенным алгоритмом комплекса S° = А3: По определению к S0 следует применить оператор непосред- непосредственной переработки Q, заданный правилами 1—5. Для этого в jS° выделяется комплекс U (S0), Так как N = 4, то комплекс U (S0) имеет вид Затем среди правил 1—5 ищется та пара, у которой первый член изоморфен U (S0). Такой парой является правило 1. Производя непосредственную переработку согласно этому правилу, получаем комплекс S1 = Q (S0) вида
6. К определению алгоритма 117 Комплекс U (S1) имеет строение Он изоморфен первому члену £/2 правила 2, поэтому комплекс 52 = Q (S1) есть следующий: В комплексе S2 снова выделяется комплекс U (S2); этот послед- последний имеет вид Он изоморфен первому члену U3 правила 3, применяя которое по- получаем «решение» в виде комплекса Вй = Sz = Q (£2), имеющего строение Заметим, что при сделанных соглашениях относительно гра- графического изображения правил непосредственной переработки сама непосредственная переработка получает наглядное геометри- геометрическое истолкование. Проследим это на нашем примере. Мы виде- видели, что U (S2) изоморфен U3. Начертим комплекс Sz так, чтобы подкомплекс U (S2) оказался конгруэнтен изображению U3 (на чертеже, соответствующем правилу 3), и выделим, так же как это сделано для U3, подкомплексы U (S2) и L {S2) прямоугольными рамками (рис. 1). Тогда комплекс Й (S2) получается следующим простым спосо- способом: система прямоугольников, обрамляющая W3, налагается на конгруэнтную ей систему прямоугольников, построенную для S2;
118 6. К определению алгоритма совпавшие вершины, расположенные между прямоугольниками, отождествляются; все то, что лежит внутри самого внутреннего из прямоугольников, построенных для S2, заменяется на то, что лежит внутри самого внутреннего из прямоугольников, обрамляю- обрамляющих Ws. Действительно, если произвести все эти операции, полу- получится комплекс, изображенный на рис. 2. Это и есть (с точностью изоморфизма) S3 = Q E2). ЛИТЕРАТУРА 1. Марков А. А. Теория алгорифмов.—Тр. МИАН СССР, 1951, т. 38, с. 176—189. 2. Марков А. А. Теория алгорифмов.— Тр. МИАН СССР, 1954, т. 42, с. 3—375, 3. Колмогоров А. Л. О понятии алгоритма.— УМН, 1953, т. 8, вып. 4, с. 175-176. 4. Godel К. On undecidable propositions of formal mathematical systems. Princeton, 1934. 5. Church A. An unsolvable problem of elementary number theory.— Amer. J. Math., 1936, vol. 58, N 2, p. 345—363. 6. Клини С. К. Введение в метаматематику. М.: Изд-во иностр. лит., 1957. 7. Church A. The calculi of lambda-conversion. Princeton, 1941. 8. Kleene S. C. On notation for ordinal numbers.— I. Symbol. Log., 1938, vol. 3, N 4, p. 150—155. 9. Godel K. Cber die Lange von Beweisen.— Ergeb. math. Kolloq. A934— 1935), 1936, H. 7, S. 23-24. 10. Kleene S. C. General recursive functions of natural numbers.— Math. Ann., 1936, Bd. 112, H. 5, S. 727—742. 11. Turing A. M. On computable numbers, with an application to the Ent- scheidungsproblem.— Proc. London Math. Soc. Ser. 2,1936, vol. 42, N3—4, p. 230—265. 12. Петер Р. Рекурсивные функции. М.: Изд-во иностр. лит., 1954. 13. PostE.L. Finite combinajory processes — formulation 1.— J. Symbol. Log., 1936, vol.1, N 3, рЛОЗ—105. [Рус.пер.: Пост Э. Л. Финитные комбинаторные процессы, формулировка 1.—В кн.: Успенский В. А. Машина Поста. М.: Наука, 1979, с. 89—95.] 14. Kleene S. С. Я-definability and recursiveness.— Duke Math. J., 1936, vol. 2, N 2, p. 340-353.
Т. ъ-знтропия и г-емпостъ множеств 119 15. Turing A. M.* Computability and X-def inability.—J. Symbol. Log., 1937, vol. 2, N 4, p. 153—163. 16. Детловс В. К. Нормальные алгорифмы п рекурсивные функции.— ДАН СССР, 1953, т. 90, № 5, с. 723—725. 17. Успенский В. А. К теореме о равномерной непрерывности.—УМН, 1957, т. 12, вып. 1G3), с. 99—142. 18. Robinson R. M. Primitive recursive functions.— Bull. Amer. Math. Soc, 1947, vol. 53, N 10, p. 925—942. 19. Kleene S. C. Recursive predicates and quantifiers.— Trans. Amer. Math. Soc, 1943, vol. 53, N1, p. 41—73. 20. Post E. L. Recursively enumerable sets of positive integers and their de- decision problem.— Bull. Amer. Math. Soc, 1944, vol. 50, N 5, p. 284— 316. 21. Rosier J. B. Extensions of some theorems of Godel and Church.— J. Sym- Symbol. Log., 1936, vol.1, N3, p. 87-91. 22. Post E. L. Formal reduction of the general combinatorial decision prob- problem.— Amer. J. Math., 1943, vol. 65, N 2, p. 197—215. 7 е-ЭНТРОПИЯ И е-ЕМКОСТЬ МНОЖЕСТВ В ФУНКЦИОНАЛЬНЫХ ПРОСТРАНСТВАХ* Совместно с В. М. Тихомировым ВВЕДЕНИЕ Статья посвящена в основном систематическому изложению результатов, которые были в 1954—1958 гг. опубликованы К. И. Бабенко [1], А. Г. Витушкиным [2, 3], В. Д. Ерохиным [4],, А» Н. Колмогоровым [5, 6], В. М. Тихомировым [7]. Естествен- Естественно, что при систематизации материала были доказаны некоторые новые теоремы и просчитаны более детально некоторые примеры. Включенные в обзор не публиковавшиеся ранее результаты, выходящие за рамки подобной систематизации, принадлежат В. И. Арнольду (§ 6) и В. М. Тихомирову (§ 4, 7 и 8). С основным направлением излагаемых исследований можно по- познакомиться, прочитав § 1, просмотрев примеры § 2 и прочитав § 3, который имеет характер введения к следующей за ним части статьи. Мысль о возможности характеризовать «массивность» множеств в метрических пространствах при помощи порядка роста числа элементов их наиболее экономных покрытий при е —> О была развита в работе Л. G. Понтрягина и Л. Г. Шнирельмана (см. [8], дополнение к переводу). Из более ранних близких (но не приспособленных непосредственно для наших целей) построений ♦ УМН, 1959, т. 14, вып. 2, с. 3—86.
120 7. S-энтропия и г-емкостъ множеств следует указать на определение мер дробных порядков в извест- известной работе Ф. Хаусдорфа [9]. Интерес к этому кругу идей был выз- вызван в Москве вновь, когда А. Г. Витушкин {2] получил оценку снизу (в обозначениях нашего § 1) функций J'tz (А) для классов- функций от п переменных с ограниченными частными производ- производными вплоть до заданного порядка р и применил эту оценку к до- доказательству теоремы о неизбежном понижении гладкости при. представлении произвольной функции п переменных суперпози- суперпозициями функций т < п переменных. А. Н. Колмогоров [5] пока- показал, что вторая часть доказательства теоремы А. Г. Витушкина, выполненная автором при помощи теории многомерных вариаций,, может быть сделана очень простой при помощи оценки сверху Л?, (А) (см. Добавление I к нашей статье). Исходя из этой работы и сделавшихся к тому времени популярными общих идей теории ин- информации, А. Н. Колмогоров [6] сформулировал общую програм- программу исследования е-энтропии и е-емкости, интересных с точки зре- зрения теории функций компактов в функциональных пространствах. Связь всего излагаемого направления исследований с вероятност- вероятностной теорией информации имеет в настоящее время лишь характер аналогий и параллелизма (см. Добавление II). Например, резуль- результаты В. М. Тихомирова, излагаемые в § 8, вдохновлены «теоре- «теоремой Котельникова» из теории информации. Представляется несомненным, что полученные результаты мо- могут иметь интерес в невероятностной теории информации при ис- исследовании необходимого объема памяти и числа операций в вы- вычислительных алгорифмах (см. работы Н. С. Бахвалова [10, 11} и А. Г. Витушкина [12]). Однако для получения практически при- применимых результатов известные в настоящее время оценки функ- функций '£г и Ж г должны быть значительно уточнены. Наш § 2 содер- содержит некоторые еще весьма несовершенные попытки в этом направ- направлении. В указанной ранее работе Л. С.Понтрягина и Л. Г. Шни- рельмана было установлено, что асимптотика J?8 и Жг может при- приводить и к топологическим инвариантам (к определению топологи- топологической размерности). В заметке А. Н. Колмогорова [13] показа- показано, как на аналогичном пути получить некоторое определение ли- линейной размерности топологических векторных пространств. Нам кажется, что связи излагаемого направления исследова- исследований с различными отделами математики интересны и разнообраз- разнообразны. Отметим, в частности, что В. Д. Ерохин [14], решая задачу уточнения оценок функций '£г и Жг для некоторых классов ана- аналитических функций, открыл новый метод приближения аналити- аналитических функций линейными формами c^pi (г) + . . . + спфп (z), обладающий интересными свойствами, которые могут быть сфор- сформулированы и без понятий е-энтропии и е-емкости.
7. ъ-энтропия и ь-емкость множеств 121 ОПРЕДЕЛЕНИЕ И ОСНОВНЫЕ СВОЙСТВА ФУНКЦИЙ 3%В{А) И ЧЪЩ Пусть А — непустое множество в метрическом пространстве R. Введем такие определения: Определение 1. Система y множеств U С R называется е-покрытием множества А, если диаметр d (U) любого U €E Y не превосходит 2е и Определение 2. Множество U а В. называется г-сетъю для множества А, если любая точка .множества А находится на расстоянии, не превышающем е, от некоторой точки из U. Определение 3. Множество U CZ В называется г-раз- личимым, если любые две его различные точки лежат на расстоя- расстоянии, большем е. Далее выяснится, почему в определении 1 нам удобно поста- поставить 2е вместо обычного е. Число е далее без особых оговорок счи- считается положительным. Мы все время будем иметь дело с вполне ограниченными мно- множествами. Целесообразно иметь в виду их три равносильных оп- определения, заключенные в следующей теореме: Теорема I. Следующие три свойства множества А равно- равносильны и зависят от метрики самого А (т. е. имеют место или не имеют места при включении А с данной метрикой в любое объем- объемлющее пространство В): а) При любом е существует конечное г-покрытие множества А. $) При любом е существует конечная г-сетъ для множества А. у) При любом е любое е-различимое множество конечно. Доказательство теоремы I может быть предоставлено читателю (см. [15, с. 312—320], где за определение взято свойство $)), Как известно, вполне ограниченными являются все компак- компакты, а в предположении, что пространство полно, для полной огра- ограниченности А необходимо и достаточно, чтобы замыкание А в R было компактом (см. [15, с. 315]). Для вполне ограниченных А естественно ввести следующие три функции, характеризующие в некотором смысле «массивность» множества А 1ш. «/f8 (A) — минимальное число множеств в е-покрытии А; Ж^ (А) — минимальное число точек в е-сети для множества А; -М& (А) — максимальное число точек в е-различимом подмно- подмножестве множества А. 1 При желании распространить определения на случай, когда А не вполне ограничено, их надо несколько видоизменить (см. [6]). Естествен- Естественно, что для не вполне ограниченного А при достаточно малом е все три функции Ж„, Ж? и Мг получат бесконечные значения.
122 7. г-жтропия и s-емкостъ множеств Функции ЛГг (А) и Мъ (А) при заданной метрике на А не зави- зависят от выбора объемлющего пространства R (для Лъ это очевидно по самому определению, а для Ж8 доказывается без труда). Наобо- Наоборот, функция Ж^ (А), вообще говоря, зависит от R, что и нашло отражение в ее обозначении. Специальные названия мы присвоим двоичным логарифмам оп- определенных выше функций 2: Же (А) = log2 Же (А) — минимальная е-энтропия множества А, или просто е-энтропия множества А; Жг (А) = log2 Ж" (А) — е-энтропия А относительно R; #е (А) = log 'Me (А) — е-емкостъ А 3. Названия эти связаны с представлениями теории информации. Для их пояснения достаточно следующих несколько приблизи- приблизительных указаний: а) в теории информации единицей «количества информации» является количество информации в одном двоичном знаке (т. е. в указании, что он равен 0 или 1); б) «энтропией» за- запаса возможных «сообщений», подлежащих сохранению или пе- передаче с определенной точностью, называется число двоичных знаков, необходимое для того, чтобы передать любое из этих сооб- сообщений с заданной точностью (т. е. такое h, что каждому сообще- сообщению а; можно поставить в соответствие последовательность s (х) из h двоичных знаков, по которой сообщение х может быть восстанов- восстановлено с нужной точностью); в) «емкостью» передающего или запоми- запоминающего устройства называется число двоичных знаков, которое оно способно надежным образом передать или сохранить. Если рассматривать А как множество возможных сообщений и считать, что указание х' с расстоянием р (х, х') ^ е позволяет с достаточной точностью восстановить сообщение ж, то очевидно, что достаточно употреблять Ж^ (А) различных «сигналов» для передачи любого из сообщений х ЕЕ А; этими сигналами могут служить последовательности двоичных знаков длины не более Ж% (А) + 1. Обойтись же последовательностями длины меньше Ж^ (А), очевидно, уже невозможно. С другой стороны, если рассматривать А как множество воз- возможных сигналов и считать, что два сигнала ^еЛ и хг ЕЕ А падежным образом различимы в случае р (хх, хг) ^> е, то очевидно, чю в пределах А можно выделить Жъ (А) надежно различимых сигналов и при их помощи фиксировать для сохранения или передачи любую двоичную последовательность длины Щъ (А) — 1. 2 Так как А по предположению непусто, то всегда Же (А) :> 1 (А) > 1, Мъ (А) > 1, и поэтому Жг (А) > 0, 3%f {А) > О, £Е {А) > 0. 3 log N всюду далее обозначает двоичный логарифм числа JV.
7. г-энтропия и г-емкость множеств 123 Выделить же в Л систему надежно различимых сигналов для передачи любых двоичных последовательностей длины Щг (А) +1,; очевидно, нельзя. Что касается функции Жг (А), то роль ее такова: 1) в силу неравенства Же (А) < Же {А") (см. далее теорему IV) она слу- служит для оценки Ж% {А) снизу; 2) в случае, если пространство центрируемо (см, далее определение 4) Ж^ (А) = Жг (А) и Же (А) получает непосредственный смысл энтропии. Любое метрическое вполне ограниченное пространство А может быть погружено в центрируемое пространство R. Поэтому, по идее А. Г. Витушкина» в известном смысле слова Ж г (А) можно рассматривать как энтропию А по преимуществу («абсолютную энтропию»). Прак- Практический смысл этого утверждения, впрочем, не вполне ясен, кроме тех случаев, когда реально требуемая точность воспроизве- воспроизведения х ЕЕ А действительно заключается в указании х с р (х, х')^ ^е из некоторого центрируемого пространства R, как эю бы- бывает в случае задач на приближенное задание действительных функций / (t) произвольного аргумента t с определенной равно- равномерной точностью е. Обо всем этом см. далее, в связи с теоре- теоремами VI, VII. Сформулируем несколько простых теорем, выражающих ос- основные общие свойства введенных функций. Теорема П. Все шесть функций JVE (А), Ж^ (A), JrR (A), Жг (А), Же (А), г£г (А), как функции множества А, полуадди- тиены, т. е. для них из А с вытекает Доказательство може! быть предоставлено читателю. Из по- полуаддитивности и неотрицательности наших функций вытекает, что в случае А' С А для каждой из них справедливо неравенство F(A')<F(A) Теорема III. Все шесть функций Жг (А), Ж% (А), Ме (А), Же (А)х Ж% (А), ёе (А), как функции от е, являются невозра- стающими (при возрастании е, т. е. неубывающими при убыва- убывании г). Функции Же (А), Мг (А), Же (Л), Щг (А) непрерывны справа. Первая половина теоремы непосредственно вытекает из опре- определений, так что проведение доказательства может быть предо- предоставлено читателю. Вторую часть теоремы достаточно доказать для функций Жг (А) п Же (А). Пусть JiEsi (А) = п и хи . . ., хп — соответствующее
124 7. в-энтропия и г-емкостъ множеств ео-различимое множество. Тогда et = min p (xh х}) > ей и для всех е в пределах ео < е < ех должно быть Мг (А) !> щ в силу же монотонности Же (А) = п. Для ЖЕ (А) доказательство несколько сложнее и проводится от противного. Если допустить существование последователь- последовательности Si > е2 > . . . > sk > . . . ->- ео, по которой JVt.K (А) = т < Ж8о (Л) = п, то при любом к > 1 должны существовать е^-покрытия Л множествами Лм. -4*г» • • • . . ., Аът. Замыкание А множества А в пополнении R* прост- пространства R компактно. В метрике «отклонений» a(F,F') замкнутые подмножества компакта А образуют компакт (см. [16, с. 548—550]). Рассмотрим множество Fu = Aki Г) А- В силу сказанного можно выбрать такую последовательность к, ->- оо, что F*si-+Fi (i = 1,2, . . ., т). Легко проверить, что Flt . . ., Fm образуют ео-покрытие множе- множества А, т. е. вопреки допущению п~^*т. Теорема IV. Для всякого вполне ограниченного множества, А в метрическом пространстве R выполнены следующие нера- неравенства: а следовательно, Шы (А) < Ж г (А) < Же (А) < Mi (А)^&Е (А). B) Будем доказывать неравенства A) справа налево. Пусть «х, . . ., хмЕ — максимальное е-различимое в А множество. Тогда оно, очевидно, есть е-сеть, так как в противном случае сущест- существовала бы точка х' ЕЕ: А такая, что р (ж', х) ^> е; последнее про- противоречило бы максимальности xit . , ., хМъ, Ввиду того что xt €= А по определению, получаем Очевидно, что всякая е-сеть, состоящая из точек xt ЕЕ Аш явля- является е-сетью, составленной из точек Х{ ЕЕ R ID Ax т. е.
7. е-энтропия и «.-емкость множеств 125- Пусть ух, . . ., уп есть е-сеть по отношению к А в R. Рассмотрим множества SR (г/j) f] А = Uи где через SE (yt) мы обозначили шар радиуса е с центром в точке у\. {U%) является в-покрытием .4, т. е. всякая е-сеть порождает е-покрытие, откуда II, наконец, для любого е-покрытия и любою 2е-различимог» множества число точек в последнем не превышает числа точек в первом, так как в противном случае две точки, расстояние между коюрыми > 2е, поместились бы в одно множество диа- диаметра <2е; отсюда JfK (A) < Жг (А). Как уже говорилось, взаимоотношения между введенными функциями упрощается в случав центрируемого пространства. Определение 4. Пространство R называется центри- центрируемым, если в нем для любого множества U диаметра d = 2г существует точка ха, от которой любая точка х находится на расстоянии, не большем г. Теорема У. В центрируемом пространстве R для любого вполне ограниченного множества А Л* (А) = Жг {A), Ml (А) = Же (А). Действительно, неравенство Же (А) < jT? (А) входит в формулировку теоремы IV. В центрируемом же прост- пространстве каждому е-покрытию А множествами Ur UN соответствует е-сеть из того же числа точек и потому Теорема VI. Пространство Dx ограниченных функций, на произвольном множестве X с метрикой р (/, g) = sup | / (х) — g (х) | центрируемо. Пусть U d Dx — множество диаметра d = sup sup | / (x) — g (x) US *
126 7". е-энтропия и z-емкостъ множеств Положив 7(*) = sup/(x)/ / (х) = inf / (*), feu feu можно видеть, что d = sup (/ (х) - i (x)). X Теперь легко показать, что для функции /о (*) = V, (/ (х) - f (х)) а любой функции /Е Р при любом х ЕЕ- X \ f (х) ~ и (х)\ ^ d/2, т. е. что и требовалось доказать. Теорема VII (А. Г. Витушкин [3]). Любое вполне огра- ограниченное пространство А может быть вложено в центрируемое пространство R. В силу теоремы Мазура—Банаха [17, гл. IX] любое А (нас интересуют только вполне ограниченные, т. е. во всяком случае ■сепарабельные А) может быть изометрически вмещено в прост- пространство С, а следовательно, и в содержащее его пространство D1, где / — единичный отрезок [0, 11; теорема доказана. По теореме VI пространство D1 центрируемо, а по теоре- теореме V для любого расположенного в нем А В силу неравенства {теорема IV) и теоремы VII (), г{) дсн лсд что оправдывает наименование Жг (А) минимальной е-энтропией. ПРИМЕРЫ ТОЧНОГО ВЫЧИСЛЕНИЯ ФУНКЦИИ Жг(А) И %г(А) И ИХ ОЦЕНКИ В НЕКОТОРЫХ ПРОСТЫХ СЛУЧАЯХ 1. А — отрезок А: {а ^. х<^,Ь} длины | А | = Ъ — а на пря- прямой D с метрикой р (ж, х') — | х — х' |.
7. ъ-знтропия и в-емкостъ множеств 127 В этом случае i ПЛ1/2е при |Д|/2е целом, ([|Д|/2в] + 1 при|Д|/2е нецелом^ C) т. е. Ж г (А) = log JAI + 0(8), Действительно, легко видеть, что А является центрированным в смысле § 1 и поэтому в согласии с теоремой V Ж? (А) = ЖЕ (А). E> Число множеств е-покрытия А не может быть меньшим, чел* 1|А|/2е], или равняться [|А|/2е] в случае, если |Д|/2е — нецелое число, так как в этом случае совокупность этих мно- множеств имела бы меру, не большую чем 2е[|Д|/2е]<; |Д|» I/, l/2 О 2е "I , Г 4"i '| Л/'Л-нецелое 3 ,q ; ■ Рис. 1 I' ' i' 'I 1 1=3 &/2е-целое О 2е 4e Однако читатель без труда убедится в том, что из [|Д|/2е] + t множеств всегда можно устроить е-покрытие, причем при |А|/2& целом оказывается достаточным |Д|/2е множеств (рис. 1). С другой стороны, при |А| /2е нецелом мы, разделив А на I |Aj/2e] равных частей точками а — хк, х2,. .., *[|д|/ав]+1» получим ||А|/2е] + 1 точек, образующих 2е-различимое множество. Еслж же |А|/2е — целое, мы делим А подобным обравом на |Д|/2е — 1 равных частей и получаем |А| /2е точек, образующих 2е-раз- личимое множество. Из сказанного вытекает, что Мъ (А) > ЖЕ (А), откуда, использовав E) и неравенство A), получим C). 2. А — множество FXA (L) функций / (х), заданных на отрезке? А = [а, Ъ], удовлетворяющих условию Липшица | /(*)-/ (х') |< L | х - х' \ я обращающихся в нуль в точке о. * Знак [А] означает целую часть числа А.
128 7. в-энтропия и в-емкостъ множеств Данное множество мы рассмотрим в пространстве DA, т. е» с метрикой р (/ (*), g (*)) = sup \f(x)~g(x)\. Д Мы покажем, что IДIL . \\\L -—! 1 . при -—■— целом, -—!— |Д|; при -—■— нецелом, (в) т. е. Щ1 ^± G)- Отметим прежде всего, что это множество заменой независи- независимого переменного t = L (х — а) взаимно однозпачно и изометри- изометрически отображается на множество Fi A), т. е. на множество функций, заданных на отрезке [О, А'1, где Л' = |А1 L, удов- удовлетворяющих условию Липшица с константой, равной единице, и равных нулю в нуле. Очевидно, что при этом величины Ж в и Ш& не изменятся. В последнем множестве мы и будем вычислять функции Ж г и 8г. Идея наших построений будет заключаться в том, чтобы по- построить е-покрытие Ff A) и 2е-различимое в Ff A) множество, которые состояли бы из одного и того же числа элементов Ке. Тогда согласно определениям функций Же и Лгг мы получим •^е (*?' A)) < Кг, ^е (F? A)) > Кг, (8) откуда, использовав неравенство A), мы аналогично л. 1 этого параграфа получим, что Л* (F? A)) = Же (FXA' A)) = if.. (9) К равенствам (9) присоединится еще и равенство ввиду того что пространство DA' является центрированным. Пусть е >» 0 и такое, что Д7е не есть целое число. Число |Д7е] обозначим через п, величины къ через tk (к = 1, 2, . . ., га). Разделим отрезок [О, А'] на п + 1 отрезков: Д„ = [(ft - 1)е, fte], к = 1, 2, . . ., п, Дп+1 = [ив, | Д'|]. Обозначим через ф (t) функцию, определенную на отрезке [е, | А' |], равную е в точке t = е, а на отрезках Ах линейную с угловым коэффициентом, равным +1 или —1.
7. г-аптропия гГг-емкость множеств 4 Ч е § г \ 4 / V \У ч tn Д' 2f С - = У s il г / ь 1 \ Ze / I (Iff 1 s \ \ е W\ 2кхе ЧТО Рис. 2 Рис. 4 Множество точек плоскости (tt и) таких, —t < и < *, t <р (t) - 2е < и < Ее, | А' назовем ъ-коридором (рис. 2) и обозначим через ЛГФ. Число всех коридоров обозначим через Ке. При нашем выборе е Кеу как легко ви- видеть, равно 2Е1Л'1/81. Покажем, что совокупность всех е-коридо- ров образует е-покрытие множества F^' A). (Далее мы говорим, что функция / (t) принад- принадлежит некоторому коридору ЛГФ, если <р @ - 2е < / (t) < (р (*).) Рис. 3 Доказательство этого утверждения получим по индукции. Действительно, на отрезке Ах = [0, е] все функции нашего множества принадлежат всем е-коридорам. Пусть теперь по пред- предположению индукции для всякой функции / из нашего множества на отрезке [0, tk] {k <! п) найдется е-коридор К9 такой, что при- приФ (*) — 2е < / (t) < Ф (t),: 0 < t < tk. Тогда из условия Липшица вытекает (рис. 3), что / надлежит либо отрезку Si = [ф (*») — е, ф (к) + «],, либо отрезку б2 = [ф (к) — Зе, ф (tk) — e] и на отрезке [0, tk+i] функция / принадлежит коридору
130 f, е-антропия и г-емкостъ: множеств где ф — функция, совпадающая с ф на [0, t-ц) и на Д^ = [tk, tk+t линейная с угловым коэффициентом, равным +1 в случае, есл! / (tx+i) е бц и —1, если / (tk+1) e 6. Индукция закончена. Те перь нам нужно построить 2е-различимое множество, состоящее из К6 элементов. Делим [0, | А' |] на п равных отрезков Alf . . , . . ., А„. Длина каждого отрезка | А,-1 = | А' | In > ё (вспои-; ним, что п [\ А' | /е]). Рассмотрим множество Мп функций, об-< ращающихся в нуль в нуле, а на отрезках А£ линейных с уг- угловым коэффициентом, равным ±1- Две различные функции из Мп отличаются друг от друга по крайней мере на 2 | А' | /«, т. е. они 2е-различимы и число их равно 2" = Ке. Если | А' | /е — целое, то величина К&, равная числу всех Е-коридоров, оказывается равной 21л'1/ен1. Аналогичное рассмот- рассмотренному выше множество Мп, где п = | А' | /е — 1, как нетрудно показать, 2е-различимо; и сое*гоит из 2Р = Kt функций» ■■;; Таким образом, мы доказали, что л |р|Д'|/8 целом. — е = | 2[1Д'1/*] при | д' 11& Лецелом, ' откуда F) получится логарифмированием, так как | Д' | = | A \L, 3. Пусть теперь А — множество F\ (С, L) функций / (£), за* данных на отрезке А = [а, Ь], удовлетворяющих условию Лип- Липшица с константой L и ограниченных на А константой С. Это множество мы будем также рассматривать как метрическое прост-» ранство в равномерной метрике на А. Пространство F^ (C,L) отличается от рассмотренного нами в предыдущем пункте пространства F^ (L) тем, что у нас появи- появилось условие ; М 7(«) \<С, *е= А, • : ' вместо / @) = 0. Мы получим следующие оценки: при е < min (С/4, С*/16 | А | L), т. е. Жг {А) = | А | L/e + log (С/г) + О (i)t #28 (А) = 2 | А | L/e + log (С/в) + <9 A). A1) Мы видим, что здесь для Шъ и $в удается получить оценки снизу и сверху, которые при не слишком больших е расходятся цежду собой только на несколько единиц. Такого рода резуль-
7. е-знтропия и е-емкостъ множеств 131 таты можно еще рассматривать как вполне удовлетворительные с точки зрения практических применений. Перейдем к доказательству неравенств A0). Как и в предыдущем пункте, дело сведется к пространству F? {С, 1), где А' = [0, |AjZr]. Оценка сверху для Шг получится благодаря использованию результатов предыдущего пункта. Действительно, задав е^> 0„ рассмотрим множество точек плоскости (t, и) с координатами (—е, 2ке), | А; | <J [С/2е] (рис. 4). В каждой из этих точек пост- построим множество е-коридоров так, как мы это делали в предыду- предыдущем пункте для нуля. Множество е-коридоров, построенных в точке (—е, 2&е), явится согласно предыдущему е-покрытием для множества функций / е= F*' (С, L), для которых 2ке — е <^ ^ / @) < 2ке + е, а следовательно, множество всех е-коридоров является е-покрытием для F^' (С, L). Таким образом, получим откуда, логарифмируя и используя F), получим Же(А)< Ш + logD- + l) + 1 < Ш-+ log4-+ 2, A2) так как е < С log (С/г. + 1)< log (С/а) + 1. Оценка сверху для $ае получается несколько сложнее. Обоз- Обозначим через 2г максимальное целое четное число такое, что 2ге < < | А' |. Разделим А' на 2г равных отрезков Al7 Да, . . ., Аа,. Строим множество М2г функций, равных в нуле одному из зна- значений 2&е, | А; | ^ [С/2е], а на отрезках А(, i = 1, 2, . . ., 2гл линейных с угловым коэффициентом, равным ±1. Функции из М2Г 2е-различимы и принадлежат ^л A). Нам остается оценить число функций, принадлежащих F± (С, 1), т. е. тех, которые по модулю не превосходят С. Далее мы проводим эту оценку элементарными средствами. С точки арения теории вероятностей дело сводится к оценке числа путей (соответствующих построен- построенным выше функциям из М2г), не выходящих за заданные пределы при обычно рассматриваемом случайном блуждании с вероят- вероятностью V2 на каждом шаге идти вверх или вниз, и нужная нам оценка могла бы быть получена гораздо быстрее благодаря ис- использованию известных в теории вероятностей неравенств. Проведем требуемую оценку в несколько этапов. а) Обозначим через N (kt, k3) число функций sp{t)^M№ таких, что
132 7. в-ттропия и г-ежкость множеств где кг и к2 — любые допустимые целые числа; пусть для опреде* ленности А;2 ;> kt; N (ft1? ft2) равно числу функций <р, у которых n-i угловых коэффициентов, равных +1 (число «подъемов»), минус число п2 коэффициентов, равных —1 (число «спусков»), равно 2 (ft, - ftx). Отсюда имеем ni + п2 — 2г, «! — щ — 2 (А;2 — kj, т. е. щ = г + к2 — ки а число функций с пг подъемами равно С%- Таким образом, N(k1,k,)=C^+r. (Щ р) Рассмотрим множество Ux (к) функций из М2Г и удовлет- удовлетворяющих условиям Ф(О) = 2кг, <р (|А' |)>2Ь. Число Nx (к) таких функций удовлетворяет соотношению # 1 (ft) = S N (ки к,) < S ClVh+r, A4), В A4) член СагГ встречается s раз и, таким образом, S A5) у) Пусть С/2 (^) обозначает множество функций из М%г таких, что Ф @) < 2А;е, max ф (t) > 2кг. Пусть ф (i) ^ Uz (к), но не принадлежит иг (к). Рассмотрим последнюю из точек ss, в которой ср (se) = (ft + l)e. Строим новую функцию ф (t), которая до точки s& совпадает с ф (t), a далее является ее зеркальным отражением в прямой и = А; + 1.- Очевидно, что $ (t) e С/г (^)- Функции ф е иг (к) П С/2 (^) ставим в соответствие ее самое. Мы получили отображение множества U2 (к) в Ux (А;), при ко- котором, как легко видеть, прообраз каждой функции из U\ {к) состоит не более чем из двух функций, т. е. число функций N% (ft) в U2 (к) не превосходит 2^ (А;). _ Легко понять, что число функций из М^г, для которых | <р @) |< 2кг, max | q> (t) \ > 2кг% A6) ве превосходит 2N2 {к) <^ 4^ (ft). Остается только заметить, что множество функций из Mtr% но не принадлежащих A6) при ft = [С/2е] и есть то множество,
7. е-энтропия и е-емкоетъ множеств 133 чисдо функций в котором нам требовалось оценить с самого начала. Таким образом, (С, 1)) > B [-£■]+ 1) 22" - Шг (к) > Проведем оценку в правой части A7). Имеем ^CV. A8) Доказательство простого равенства A8) представляется читателю. Далее мы пользуемся элементарным неравенством С\г < 227]А2Г+~1 A9) (которое содержится, например, в [18] и доказывается без труда). Таким образом, из A7) (благодаря A8) и A9)) получим ? (С, 1)) > 2?г B [4] + 1 - г^ B0) Логарифмируя B0) и воспользовавшись тем, что | А' | — 2е <| 2ге <| | А' |, получим -£ 3 при е что нам и требовалось доказать. 4. Л — множество Ah (С) функций /, заданных на D, перио- периодических с периодом, равным 2л, аналитических в полосе ширины k : | Im z | ^ h, z = x + iy, и ограниченных там константой С. Данное множество рассмотрим в равномерной метрике на D. Для этого множества имеют место следующие формулы: Соотношения B1) мы получим, как мы это делали в предыду- предыдущих nyHKTaXj оценивая сверху число множеств, образующих
7. г-энтропия а г-емкость множеств л' 4- е-покрытие Ah (С), и снизу чи- число 2е-различимых в Ah (С) функций. Для получения оценки сверху величины Же (Л) раз- ложим функцию /е4),(С) в ряд Фурье: /(*)= "S <Vift*. B.2) )f=— во - ' . ' ■ Далее мы будем пользоваться следующими неравенствами для коэффициентов в B2): | <V|< Ce-№. B3) Неравенства B3) получаются так. Пусть к ^> 0; проинтегри- проинтегрируем / (z)eiltz по контуру, который мы изобразили на рис. 5. Ввиду периодичности / -/,' Рис. 5 и и откуда по теореме Коши 2Я о 2Я так как h' ^> 0 — произвольное число, меньшее й. Случай й <; 0 аналогичен. Используя B3), перепишем B2) в виде (*)= S Ik 1-е ,-h Пусть е > 0. Подберем минимальное п так^ чтобы | 7?„ Из B4) мы получим, что ^Приблизим, далее, каждый коэффициент C/f «=? модудю с точностью до е/2:Bл;.+ 1) велжчинол с» B4) ! < e/2. . B5) iBic no
7. ~г-днтро1гия и г-емкость множеств ЯВБ полагая для этого *;■ ;, ■■■-,■-.?. 8 i.e '^[2|А2'^+'""] 2 /2 Bп + 1) 2/2 Bп : 2 /2 Bп +1) 2 /2 Bп + 1) " " При этом мы, очевидно, получим, что • B7) Из B7) ясно, что если две функции / и g соответствуют одному и тому же набору {с^}, то ||/ — д|К 2е, т, е. множество, элег ментов в е-покрытии можно оценить числом всех наборов {c'k)t «индуцированных» пространством Ah (С). Согласно B6) каждое множество 2е-покрытия определяется следующей матрицей, составленной из целых чисел: /7—I"" " ' т° '" m"i ... '.',..--■'• \т\ ... т\ ... т* | При этом, использовав B3), мы получим неравенства для гщ: из которых следует, что log Nk = log A/e) - | к | h log e + log n + Df B9) где D — ограниченная константа, не зависящая от к. Из B8) вытекает, что число всех возможных матриц U не превосходит N= U.NI K=-n й4 следовательно, вспоминая B5), мы получим i— 2 JT logiVR< 4n log -1 - 2n?hloge + ~ Теперь проведем оценку сниз^ для #26 (Лл @)). Мы используем при этом два обстоятельства. ,г, а) Для всякого h' ^> h выполнение неравенств , C0)
136 7. е-энтропия и е-емкость множеств влечет за собой принадлежность функции /(*)= "S с^** C1) К=-оо пространству Ah(C), так как тогда ряд C1) равномерно сходится в полосе ширины h и при | Im z \ <zh имеем Р) 11/11 = max \f(x) |>max |ск|, C2) D ft ft где ck — коэффициенты в C1). Последнее следует из того, что 2Я Л f(x)eik*dx | oceD Выбрав е)>0и положив &' = A + (log (Ve))), подбираем мак- максимальное m так, чтобы 1 — е-(Л'-Л) С p-mh' ^ 9 откуда мы получим, что Строим теперь множество {Ф} многочленов степени т: Ф(г)= S с^г, ck = (sl + ^Je, C4) ■ |ft|^m где Sft (/ = 1, 2) — любые целые числа такие, что Неравенства C5) гарантируют осуществление неравенств C0), таким образом, {Ф} С Ah (С). Кроме того, два различных мно- многочлена фх и ф2 из {Ф} имеют по построению хотя бы для одного к, | к | <^ т: | CJ - С| | > 2е, т. е. все многочлены из {Ф} 2е-различимы. 'Согласно C4) каждый многочлен из {Ф} определяется цело- целочисленной матрицей It1 s1 л I s-m • ■ ■ so • • • sm s-m • • • SO ■ • • sm\
7. е-энтропия и е-емкоеть множеств 137 а число всех матриц U не меньше числа ... , М= П М\. Из C5) следует также, что 1 / 1 \ logil/fc = log h\k\ loge + О log log — равномерно по к, откуда, использовав C3), получим, что — 2m2h log e + О (log — log log —j 4 Этим доказательство формул B1) заканчивается. § 3 ТИПИЧНЫЕ ПОРЯДКИ РОСТА ФУНКЦИЙ ЖЪ(А) И %е(А) Рассматриваемые далее функции / (е) будут обычно положит тельны и определены для всех е в пределах 0 < е < е0. Так как постоянно будет изучаться их предельное поведение при е -*- 0, то сам знак е -»- 0 будет часто опускаться. Для описания предельного поведения функций / (е), кроме обычных знаков О и о, будут употребляться еще следующие обозначения: - ■ / оо g , если lim (jig) =1, /i^£'£co/t если Tim .(g//)< 1, f X g, если f = О (g) и g = О (/), />=£, g<f, если / = О (g), f»g,g«f, если / = о (g). Отношение / оэ g называется сильной эквивалентностью, а отно-1 шение f X g — слабой эквивалентностью функций fug. Рассмотренные в § 2 примеры доставляют нам образцы трех типичных порядков роста функций ЖЕ и $е при е -*- 0. I. Если А — ограниченное множество в /г-мерном евклидовом! пространстве Dn, обладающее внутренними точками, то Ле (А) X Л>г (А) X A/еГ. C6) Формула C6) верна и в любом /г-мерном банаховом пространству
■t38 7. г-энтропия, и г-емкостъ множеств (см. § 4). Из нее вытекает, что Щ. C7) Так как в силу C7) поведение Жг и Щг определяется в первую очередь размерностью п пространства Dn, то возникает естест- естественная идея для произвольного вполне ограниченного множества А определить нижнюю и верхнюю метрическую размерность формулами dm (A) = lim ЖЕ D)/log(l/e), C8) dm (Л) = fimife(i4)/log(l/t!). C9) Из теоремы IV § 1 без труда выводится, что формулы dm {A) = hm»e(il)/log(i/e)f Am (А) = Пт ge (A)/log (i/г) определяют те же самые величины dm (А) и dm (А). Если dm (А) = йт~ (А) = dm (A), то dm (А) называется просто метрической размерностью множест- множества А. Очевидно, что в нашем случае вполне ограниченного мно- множества А в Dn, обладающего внутренними точками, dm (A) = п. :Легко доказывается (см. теорему XII в § 4), что для лежащего в банаховом пространстве выпуклого бесконечномерного множе- множества А метрическая размерность всегда равна +оо, т. е. порядок роста функций ЖЕ (А) и $Е(А) превосходит log A/е): Для различения массивности такого рода множеств метрическая размерность становится непригодной. II. Среди важных для анализа бесконечномерных множеств наименьшей массивностью обладают типичные множества вполне ограниченных аналитических функций такого рода, как мно- множество Ah (С), рассмотренное в примере 3 § 2. Типичным поряд- крм роста функций Жг и ее здесь является их рост по закону У D0) с некоторой конечной константой s ^> 1 или промежуточные по- рядки роста такого рода, как (последняя функция растет медленнее чем (log (l/e))s, но быстрее чём ' (lojf A/е))»-6" при любом ".:'$ ^> 0). Простейшей числовой ха-
7. г-знтропия и е-емкостъ множеств 139 рактеристикой подобных порядков роста является5 df — lim log Жг loglog(l/e) * В § 7 мы увидим, что во многих важных и достаточно общих случаях множеств аналитических функций df (А) совпадает с числом независимых переменных, или геометрически — для клас- классов функций / {Р) от точки Р комплексного многообразия с (ком- (комплексной) размерностью этого многообразия. Мы назовем, не- несколько условно, df (А) функциональной размерностью множе- множества А. III» Примеры п. 2 и 3 из § 2 показывают, что рост Же и $8 для функций, подчиненных лишь условию Липшица, значительно быстрее, чем указанные выше порядки роста для классов ана- аналитических функций. Оказывается, что порядки роста '' ЩЧ D2) с конечными положительными q типичны для классов функций, дифференцируемых некоторое конечное число р раз и имеющих производные старшего порядка р, удовлетворяющие условию Гёлъ- дера порядка а. При этом для функций от п переменных полу- получается формула »в X Же X (l/ef/(*>+a> D3) (см. § 5). Грубо формулу D3) можно пояснить так: массивность множества р раз дифференцируемых функций от п переменных, у которых р-е производные удовлетворяют условию Гёльдера порядка а, определяется отношением q = п/(р + а) D4) числа независимых переменных п к «показателю гладкости» р + а. По поводу происхождения этих важных соотношений D3), D4) см. Добавление I. Общим определением метрического порядка вполне ограниченного множества А служит формула 6 q(A)=hm lQgm . D5). 5 Читатель без труда напишет сам определения нижней функцпональ^ ной: размерности df (А) и верхней функциональной размерности df D|Tf Употребление вместо Ж& функции <£е в силу теоремы IV § 1 приводит к тем же самым df (A), £/ (A),~df (А).. '^ 6 Здесь тоже естественно ввести вполне понятным образом понятия' нижнего метрического порядка q (А) и верхнего метрического порядка^ q (А). Употребление вместо ^"функции %& не меняет значений q (А), Я (A), q (A).
7. е-энтропия и г-емкость множеств IV. Существенно большие порядки роста 3€г и <£г, чей в D2), возникают при рассмотрении функционалов той или иной гладкости, заданных на бесконечномерных вполне ограниченных множествах (см. § 9). -, §4 е-ЭНТРОПИЯ И е-ЕМКОСТЬ В КОНЕЧНОМЕРНЫХ. ПРОСТРАНСТВАХ га-мерное пространство мы будем рассматривать реализован- реализованным в виде координатного n-мерного пространства Dn с точками координаты которых хи . . ., хп суть действительные числа, хотя по существу интересующие нас соотношения в большинстве слу- случаев с выбором координат не связаны. С выбором системы коор- координат связан некоторый вспомогательный аппарат, например специальная норма Единичный шар в этой норме, т.е. множество So точек iGfl"c Н*||о<1, называется единичным кубом. Из единичного куба умножением на Ъ ^> 0 и сдвигом на а получаются кубы ;/.7£0 (а, Ъ) = bS0 — а; 2Ь мы назовем диаметром куба So (а, Ъ). ..Множество точек хг, координаты которых имеют вид (dm\, . . - . . ., dmln), где т\ (к = 1, 2, . . ., п) — всевозможные целые числа, мы назовем кубической решеткой диаметра d. ! Как известно, точка х называется внутренней точкой мно- множества A dDn, если А содержит некоторый куб S0(a,b) с центром в ое4. Множества, состоящие только из внутренних точек, называются открытыми, что и определяет обычную топо- топологию в Dn. Множество A d Dn называется выпуклым, если из х ^ А, у €= А, а-ЬР = 1> а>0, Р>0 вытекает ах + $у S А .'*3амк- вутое выпуклое множество, имеющее хотя бы одну внутрен- и-Кйй Лгочку, будем называть выпуклым телом. ««-Любое симметричное относительно начала координат ограни- ограниченное выпуклое тело может быть выбрано за единичную сферу. Ц^рма.,.|| х \\s, соответствующая выпуклому симметричному телу ^^определяется формулой
7. е-энтропия и е-емкостъ множеств 141 В свою очередь по норме || х || порождающий ее единичной inap определяется формулой Таким образом определяется в Dn произвольная банахова мет- метрика. Пространство Dn с метрикой, порожденной симметричным выпуклым ограниченным телом S, обозначается Z?g. В случаях 1*1,= B ЫрI/Р, p>i, R=l единичные шары обозначаются Sp, а соответствующее простран- пространство Z)p. Пространство Z)" есть обычное евклидово (или «декар- «декартово») координатное пространство. Общеизвестно, что любая банахова метрика определяет в Dn одну и ту же топологию. Не зависит от выбора метрики по суще- существу и понятие объема и меры множеств в Dn. В стандартной теории лебеговой меры цп мера 1I^S0 принимается равной 1. Если за единицу измерения принять объем V25 в какой-либо иной метрике, то обычный путь построения лебеговой теории меры приведет к мере ц2 (А) = ц отличающейся от \хп лишь постоянным множителем. Множество А измеримо по Жордану, если оно измеримо по Лебе- Лебегу и граница его имеет меру нуль. Меру \хп (А) такого множества будем называть его «объемом» (если же мера границы не равна нулю, то объем множеству не приписывается). Нетрудно понять, что вопрос о нахождении минимальных е-сетей в пространстве Z)jg упирается в задачу о нахождении «наиболее экономного покрытия» подмножеств пространства Dn параллельно сдвинутыми телами &S, а задача о нахождении максимальных 2е-различимых множеств сводится к задаче о наи- наиболее удачном размещении в Dn параллельно сдвинутых непере- непересекающихся тел &S с центрами на заданном множестве. По данному вопросу существует обширная литература. До- Достаточно полную библиографию читатель найдет в книге Тота [19]'. Мы в настоящем параграфе коснемся только самых общих и простых результатов об, оценках функции Же (А) и Щг (А) для A CZ Ds. Теорема VIII. Для любого ограниченного множества А С существует константа а^>0 такая, что при всех г <J гг а A/е)". D6) ' Много существенного читатель найдет в примечаниях к этой книге, составленных И. М. Ягломом.
142 7. г-энтропия и г-емкостъ множеств Если же А содержит внутреннюю точку в Dn, то существует^ константа ji ^> 0 такая, что при г ^ &% Л2& (А) > р A/8)п. D7) В обозначениях § 3 теорема VIII означает, что для ограничен- ограниченного множества в D^x имеющего внутреннюю точку, ЖЕ {А) х Лг(А) X A/е)п. D8) Об этой теореме мы упоминали в § 3 (см. C6)). Теорема1Х. ДляБ^ существуют константы 0 = 0 (n, S) и t = т {п, S) такие, что для всякого множества А, объема 11" Ш > О Константу 0 естественно называть «минимальной плотностью покрытия Dn телом Sb, а константу т — «максимальной плот- плотностью размещения тела S в Z)™». Для 0 и т очевидны неравенства х < 1 < 0. Доказательство теоремы VIII. Подбираем константы Ъ и В так, чтобы одновременно bs0 a s с bs0, а с bs0. Пусть е ^>0. Для покрытия куба BS0 потребуется не более (Bleb + 2)" E0) кубов ebS0 + а1 = So (а*, гЪ), где аг имеет координаты 2Ьг (т[* ml, . . ., mln), т) — целые числа, меньшие по модулю [В/2гЬ] +1. Описав вокруг кубов sbS0 + а1 тела eS + а1, получим 8-покры- тие А и, таким образом, ЖЕ (А) < (Б/еЬ + 2)", откуда следует D6). Пусть, далее, А имеет внутреннюю точку а. Подыщем такое с« чтобы куб Sq (а, с) d. А. Куб So (а, с) содержит более B [с/2еВ\)п кубов So (а\ гВ), где а1 — векторы 2еВ (т\, . . ., mi),, где /те} целые и не превосходят по модулю [с/2гВ]. Множество а* 2е-раз- дичимо4 откуда следует D7).
7. е-энтропия и е-ежкоеть множеств .143 Доказательство теоремы IX. Обозначим8 lim JT* (So) цп (S) (-§-)" = Нт ДГг (So) -*~^ гп через 9. Покажем, что на самом деле существует lim Ж8 (So) ц11 (S) (8/2)" = 6. . - е—э Пусть б ^> 0. Подбираем такое ги что при г ^ ех 0 - б < Ж8 E0) [А" E) (8/2)",; а п E) ^/2)" < 0 + S/2. Куб So можно покрыть не более AА + 2)" кубами So (а\ К) при любом %, 0 < X < 1, см. E0), а каждый из последних покрывается Же1 телами Х5 Таким образом, т. е. Ч \ 171 ^* \iL\ 1 О I А/* I О -к-I Л ^ Л 1-т Г^1 "* еД^С " У \ л / Выбрав Кг так, чтобы при К ^ Хх X" A/Я, + 2)" @ + 6/2) < 0 + б, получим для всех К ^ Хц 6 _ б < ЖЕЛ E0) ц" (S) (е^/2)" < 0 + б, E1) т. е. lim jrE (So) [in E) (e/2)" = 0. e—о Пусть, далее, Л — произвольное тело объема цп (А) ^> 0, H2d — кубическая решетка диаметра Id. Задавшись б' ^> 0, подберем d так, чтобы сумма мер кубов So (a\ d) (i = 1, . . ., пг), а1 е Пгй, имеющих общие точки с границей А, была бы меньше б'. Пусть a1 (i = 1, 2, . . ., А) — центры кубов S (аг, d), каждый из которых целиком лежит внутри А, При этом, конечно, к > (цп (А) - 6')/Bd)n. E2) Выбрав произвольное d' < d, рассмотрим множество кубов 8 Напомним, что So — куб | xQ || <il; его мера равна 2П.
144 7. ъ-антропия и е-емкостъ множеств Рис. 6 So (a\ d') (рис. 6). Согласно E1) для е <J е^ 6 - б < ЖМ. (d'S0) ц" (S) (e/2)" < 6 + б выберем е2 настолько малым, чтобы 2sd' •< d — d' для е <^ еа. Тогда, очевидно, <ЛГы- (А) > UTed. (d'S0), так как покрытия смежных кубов не пересекаютсяг и для е <^ еа (А) (^- Р-ф-й), откуда lim Же (А) е>" " (А) е-»0 ввиду произвольности б', б и d' < d. С другой стороны, m) JV\d (dSo) < ^"^t6' F + J \f(S) т. е. lim e>n (S) Же E3) e-»o что и требовалось доказать. Читателю предоставляется провести самостоятельно доказа- доказательство теоремы для Ж2г. Кроме теорем VIII и IX, отметим следующее весьма грубое не- неравенство, оценивающее сверху и снизу 0 и т. Теорема X. Для любого D^ в/т < 2п, E4)
7. е-энтропия и е-емкостъ множеств , 145- откуда Тп < т < 1 < 6 < 2". E5> Выбрав б ^> О, подберем е0 так, чтобы одновременно для не- некоторого А объема ц11 (А) ^> 0 при е ^ е0 выполнялись неравен- неравенства: e>n (S) Же (А) >(в - б) ц» еяця E) J?28 (Л) < (т + 6) цп (А). Используя, далее, неравенство Же (А) <^ J£e (А) теоремы IV" § 1, получим 6 - б < (т + б) 2", откуда следует теорема X. Отметим, что если факт существования констант т и 0 (теорема IX) доказывается весьма просто, то вычисления их или даже лишь оценки их для разных конкретных пространств представляют нередко очень трудные задачи. Тривиальным случаем является случай пространства /)£,, так как в этом пространстве единичной сферой является единичный куб 5 о и все пространство может быть разложено без перекрытий на единичные кубы так, что расстояние между центрами кубов- равняется диаметру кубов (пространство «разложимо»). Во всяком разложимом пространстве, как легко видеть, 0 (п, S) = х (п, S) = 1. E6) Укажем еще два примера разложимых пространств: простран- пространство D\ и пространство Ds, где S — правильный шестиугольник. В первом пространстве сферой является квадрат, во втором — шестиугольник, которыми можно замостить плоскость. (Заметим, что с подобным явлением «разложимости» мы столк- столкнулись в одном бесконечномерном пространстве — пространстве ^Л (L); см. § 1, п. 2.) Величины бит вычислены в случае пространства D\ [19], Оказывается, что наилучшее покрытие плоскости кругами осу- осуществляется следующим образом. Плоскость покрывается пра- правильными шестиугольниками, а затем вокруг каждого из них описывается круг. Наилучшее расположение кругов на плоскости, не пересекающихся друг с другом, получится, если в каждый из шестиугольников вписать по кругу. Нетрудно подсчитать, что при этом =-jL- = 0,9069.,,, 0 = -$=- = /12 /27
146 7. Ъ'энтропия и в~емкостъ множеств Уже в случае трехмерного пространства задача о нахождении рлотнейшего заполнения пространства шарами и связанная с ней Задача вычисления констант т и 0 для пространства D\ полностью еще не решена. Тем более не вычислены значения тп и 0П (так мы обозначали т и 0 для пространства D"). Оценки для 0„, наиболее точные до настоящего времени, были получены Давенпортом [20J в Ватсоном [21]. Прежде чем формулировать их результат, введем одно опреде- определение. Пусть R — решетка в и-мерном пространстве такая, что сферы Si = S (а*, 1), а1 <ЕЕ R, покрывают все Dn. Пусть S озна- чает суммирование по тем j,' для которых а1' €Е R Г) ^S. Вели- Величину « предположении существования предела естественно назвать плот- плотностью покрытия пространства Dn телом S с центрами на R. Обозначим эту величину через 0В (п, S). Величина Эд {п, S), как легко видеть, оценивает значение 0 (п, S) сверху: в(П|5)<вй(п,5). E7) Давенпорт и Ватсон построили решетку R в Dn такую, что 6Д (п, Sna) < A,07)", E8) а следовательно, 6п<A,07)\ * E9) Теоремы Давенпорта и Ватсона основаны на тонких построе- построениях в п-мерном пространстве; мы их не приводим, отсылая ин- интересующихся к соответствующей литературе. Оценки величины тп можно извлечь из более старой работы Блихфельдта [22]. Основой в ней является следующая простая Лемма I (Блихфельдт). Пусть в евклидовом пространстве задано т точек, попарно удаленных не менее чем на 2. Тогда сумма квадратов их расстояний до любой точки пространства не меньше 2{т- 1). Доказательство. Очевидно, что достаточно рассмо- рассмотреть случай, когда данной точкой пространства является нуль. Выбрав ортонормированный базис, обозначим координаты i-й точ- точки через (х\, . . ., х1п). По условию
7. е-энтропия и е-емкость множеств 147 Складывая F0) при i ф /, получаем ; т f, Ы? + ... + (xlf) - (ai + ... + xff - отсюда Jr=l i=l что и требовалось доказать. Из доказанной леммы сразу вытекает, что если га + 1 точек евклидова пространства имеют попарные расстояния не меньше 2, то радиус шара, содержащего все эти точки, не меньше /2га/(га + 1). Пусть нам задана произвольная s ]/г2га/(га + 1)-сеть, В каждой сфере помещается не более га + 1 точек на расстоя- расстоянии 2е. Отсюда для всякого тела А легко получить, что Из E9) и E5) немедленно следует, что (га - <(»+!) У! (-£)". F1) Заканчивая этот параграф, покажем, что основные его резуль- результаты не допускают содержательного обобщения на бесконечномер- бесконечномерные банаховы пространства. Ограниченные множества в бесконеч- бесконечномерном пространстве уже не обязаны (в отличие от случая Dn) быть вполне ограниченными. Но и для вполне ограниченных мно- множеств в бесконечномерном пространстве нельзя получить ника- никакой универсальной (годной для всех вполне ограниченных мно- множеств в данном бесконечномерном Е) оценки сверху для роста Же и <gE (в Dn, как мы видели, они всегда =^е~"). Это видно из следующей теоремы: Теорема XI. Пусть <р (е), монотонно возрастая, стремит,' ся к + оо при е —»- 0 и банахово пространство Е бесконечномерно. Тогда в Е можно найти компакт К, для которого Ж8 (К) > Ф (е), Лъ (К) >= Ф (е). Очевидно, в силу теоремы IV § 1 достаточно доказать теоре- теорему XI для Жъ. Найдем в Е последовательность линейных под- подпространств Ег с Е2 С • • • d'En CZ . • ., dim En = га.
148 7. е^энтропия и ъ-емкостъ множеств Покажем, что существует последовательность точек : хп^Еп . , со свойствами II «nil = 1. Р (*n. #n-l) = 1- Для этого возьмем в каждом Еп по точке уп, не принадлежаще к £„_!• Найдем (это возможно, см. [23, с. 16]) в Еп одну из «бли жайших» к уп точек zn, т. е. точку zn, для которой ] II Уп — Zn II = Р (Уп, -En-l) = Рп, и положим Жп = Р™1 (Уп — zn)- Легко видеть, что хп обладает требуемыми свойствами. Введем теперь обратную к ф (е) функцию ty (n). Составим мн жество К из точки 0 и точек |„ — 2ij) (п) хп, п = 1, 2, . . . То, что К есть компакт, очевидно, так как Ц1Л = 2гИп)^0 при п-^оо. При любом е для «1 = [ф (е)) получим г)? («i) > e, откуда вытекает, что множество точек О, li, . . •, |щ «-различимо в Е. Так как число его элементов п1 + \>ц> (в), то Множество А, лежащее в банаховом пространстве Е, назы- называется п-мерным, если оно помещается в n-мерном линейном под- подпространстве, но не помещается в линейном подпространстве меньшей размерности. В силу теоремы VIII выпуклое п-мерное ограниченное множество в любом банаховом пространстве имеет метрическую размерность п и, более того, для него Же(Л) X ^е(Л) X е-». Множество А в банаховом пространстве называется бесконечно- бесконечномерным, если оно не умещается ни в одном линейном простран-
7. ъ-энтропия и е-емкость множеств 149 стве —>• подпространстве конечной размерности. Имеет место сле- следующая Т е о ре м а XII. Если множество А в банаховом простран- пространстве бесконечномерно и выпукло, то *Ге(А)> при любом п. Доказательство. При любом п' ^> п в А существует п' ■+■ 1 аффинно независимых точек. Порождаемый ими ге'-мерный симплекс в силу выпуклости А целиком лежит в А, но для такого симплекса в силу теоремы VIII функции Ж8 и Жг имеют порядок роста е~п'. §5 е-ЭНТРОПИЯ И е-ЕМКОСТЬ ФУНКЦИЙ КОНЕЧНОЙ ГЛАДКОСТИ Формула D3) может быть установлена без больших лишних усилий для функций, заданных на произвольном связном компак- компакте К, имеющем определенную метрическую размерность dm (К) = п и лежащем в конечномерном банаховом пространстве. Для боль- большей определенности будем предполагать это банахово простран- пространство реализованным координатно как DN с нормой ||z|| 0 (как описано в § 4). Очевидно, что всегда п <J N, в силу же предполо- предположения связности компакта К всегда п !> 1. Впрочем наибольший интерес имеет простой случай, когда К есть параллелепипед раз- размерности п в Dn. Как обычно, в пространстве DK ограниченных действительных функций на К норма равна || / || = sup | / (х) | . F2) Функция из этого пространства имеет гладкость q ^> 0 (<?=/> + + а, р — целое, 0 <; а <^ 1), если для любых векторов х 6= К и x + h(E:K р f (х _)_ щ = V1 JL вц. (й х) + R (h x) F3) где Bk (h, x) no h есть однородная форма степени к и \R(h,x)\^C\\h\\l F4) где С — некоторая константа.
150 7. е-энтропия и s-емкостъ множеств Все функции /^удовлетворяющие F2) и F3) с заданной кон-Н стантой С, образуют класс Ff (С), функции же, удовлетворяющие* F2) и F3) с какой-либо константой С (зависящей от /),— класс ТС 1С ■ Fq . Если К есть re-мерный параллелепипед, то Fq является просто5 классом функций, имеющим частные производные всех порядков' к <^ р, для которых частные производные порядка р удовлетворяв ют условию Гёльдера порядка а. Теорема XIII. Для любого ограниченного в смысле метрик ки F2) множества A d Fq (С) имеют место оценки которые не могут быть улучшены в том смысле, что существуют ограниченные А, удовлетворяющие соотношению j F6>i Первая часть теоремы уже включает в себя утверждение (кото- (которое легко доказать независимо), что ограниченное A a Fq (С} вполне ограничено (т. е. имеет в DK компактное замыкание). Мож- Можно, кроме того, доказать, что для функций / из ограниченного A d Fq формы В к (h, х) равностепенно ограничены: I Bk (h,x) | < Ск || h ||J, к = О, 1, . . ., р, F7) где константы CV зависят только от А, а не от / 6= A. Если учесть это обстоятельство, то ясно, что для доказательства теоремы XIII достаточно рассмотреть множества F (Со, . . ., Са, С), состоящие из всех функций /, удовлетворяющих условиям F3), F4), F7) с заданными константами Со, . . ., Ср, С. Следовательно, теорема XIII может быть выведена 9 из следующего предложения. Теорема XIV. Если все константы Сс, . . ., Ср, С поло- положительны, то $е (Ff (Со, ...,СР, С)) X Же (Ff (Со, ...,СР, С)) х D-)"/9 • F8) В одномерном случае (К есть отрезок [а, Ь] числовой прямой) теорема XIV звучит так: 8 Мы не даем доказательств (в принципе несложных, но довольна громоздких) использованных выше свойств ограниченных А С F^ (С). Читатель, который не сможет их восстановить, должен будет считать до- доказанным результатом этого параграфа лишь теорему XIV, которая, и бу- будет использоваться далее.
7'. г-энтропия и е-емкость множеств 151 Теорема XV. Пусть А = Fq \yoi • • •! kp> ^) ' , есть множество функций } {х), определенных для х €= [а, Ь] и подчиненных условиям: .1/<*>(*) |.<Ск| .*■=.(>,.. ,р, . F 9 |/й» (я:. + Л) _/(р) (я:) |< С | Л |« 0 < а ^ 1. G0) Если константы Со, . . ., Ср, С положительны, то ^'ч, q = p + a. G1) Мы проведем подробное доказательство теоремы XV и укажем, какие изменения надо произвести в ходе доказательства в общем случае теоремы XIV. В силу теоремы IV из § 1 ясно, что заключе- заключение теоремы XV равносильно совокупности двух асимптотических неравенств Ж,{А)^ъ-Ы, ■ ■■- G2) «8 (Л) >= е-1Л. G3) Доказательство неравенства G2). Положим А = (eI2C)l"i G4) и выберем точки хТ = х0 + гД, г = 0, . . ., s, так, чтобы отрезок [а, Ь] заключался в отрезке [х0, xs]. Легко видеть, что число s можно взять порядка s X Д X е-1'*. G5) Полагая eR = е/еА* X А»"* X е1'1"", G6) Р<« (/) = [у<« (хг)/гк], G7) поставим в соответствие каждой функции / €Е А матрицу. P = IIP(rk)(/)ll, А = 0,...,^; ;г = 0 в, состоящую из целых чисел E^ (/). Множество функций /£/1 с фиксированной матрицей, р. обозначим через f/g. Мы докажем сейчас, что диаметр каждого множества £/р не более 2е. В самом деле, положив 8 = h -izi ■ /16 Щ,- ;/2 е Щ, -■
152 7. е-энтропия и г-емкость множеств получим в соответствии с G7) I g<R> (*,) I = | fik) (xr) - /Г (*,) | < е», в силу G0) и G4) | gdo (a- + fe) _ gdo (Ж) |< 2C | fe |«. G Для любой точки a; ЕЕ [a, b] найдем xr, \ h \ = | x — xr | ^ Д напишем разложение Тейлора £ Из G8)-(80), G6), G4) получаем Таким образом, множества С/р образуют 2е-покрытие множа ства А. Остается подсчитать число N непустых множеств Ua Для этого заметим, что число возможных значений индекса f(* в силу F9) и G7) будет порядка Ц1, а число N' различных видо! первой строки * Q @) о (Р) \ Ро ! • • -1 Ро матрицы Р*. р *■ N X (ео ■ ... • е5) X е , со — > 11 — \^>-\). (I 1с=о Предположим теперь, что первые г строк матрицы р о@) а(Р) Ро • • • Ро q(o) pip) pr . . . pr J уже фиксированы, и рассмотрим число различных возможных (для непустых множеств С/р) значений индекса Pr+i. Так как IE-«г |< А.
7. в-энтропия и г-емкость множеств 153 г. е. в силу G6) «р где ТО -]=[pf где в силу G0), (82), G4), G6) 4 i _l 1 I J.V) I + + |T 1 Поэтому число различных возможных значений pV+1 не более 4е -f 2, число же различных возможных р + 1 строк матрицы |J не более у = De + 2)**1. Легко теперь сообразить, что общее число iV непустых множеств С/р допускает оценку ЛГ < N'y', из которой получаем в силу G5) и (81) т. е. неравенство G2). Доказательство неравенства G3). Положим (рис. 7). Легко проверить, что ф<р) (у) удовлетворяют условию Гёльдера степени а. Можно подобрать а ^> 0 так, чтобы эта кон- константа была <|С. Выберем А = (е/аI/? и расположим в отрезке [а, Ъ] точки хТ = х0 + 2гА, г — 0, 1, . ..., s.
454 7. £,-антропия и, ^-емкость множеств Рис. 7 Рис. 8 Легко видеть, что их число может быть взято порядка s X. А X е. ....... . '. . - У ':. : Рассмотрим множество U функций вида' ->■/ (пример такой функции показан на рис. 8). Легко проверить, при достаточно малом е функции g (х) из U входят в~А. Две разли^ ные такие функции имеют в какой-либо точке хг противоположны! знаки, по абсолютной же величине равны аДч = е. Поэтому расстояние в метрике F2) больше е, т. е. множество U являете* е-различимым. Число элементов множества U равно N = 2S+1, logiV = s + 1 X е-1'*, .'-■ • что и доказывает неравенство G3). Теорема XV доказана. Доказательство теоремы XIV может идти по тому пути. Для множества A =F?{C0,Clt...,CvtC) достаточно доказать оценки Жг {А) =< e-"/«, Ж (А\ >- f-nfq ©е \Л) ^= Ь it. Доказательст во неравенства (83). и в одномерном случае, полагаем А = (e/2C)i/9 ' ; и выбираем в К < i ,,...,, . ^ ......... образующие А-связную А-сеть, т. е. такую А-сеть, что от каждой! ее точки до любой другой ее точки можно добраться по цепочке ее точекг лежащих попарно на расстоянии не более А, Так к компакт связенt то такова будет,, .как л(вгко видеть^ каждая
7. В'знтропия и в-емкость множеств 155 сеть. Ясно, что s можно выбрать порядка s X Д"" X е-"/9. Место матрицы E займет теперь набор индексов Р?1 Ч *! + &, + • ■ . + К = к, являющихся целыми частями от деления на е^ коэффициентов Л *"V) форм В<» {Х\ h) = ЦЦ--*«' /№.> V (,г) # .. . ф. Сами efc приходится теперь брать равными что не меняет их порядка: efc x А'"'1. Доказательство того, что диаметр множеств U& не превосхо- превосходит 2е, проводится вполне аналогично одномерному случаю. Для оценки числа N непустых множеств С/р надо нумерацию точек х } Д/ } • • •} 3/ выбрать так, чтобы для точки жг+1 среди точек х°, . . ., хг всегда существовала точка х1 с расстоянием || я'-а^ЧК Л. При этом условии прежним путем доказывается, что индекс р(*ь.•-.*„) При фиксированных] группах индексов Рг*1 ^ может принимать лишь ограниченное некоторой константой у число значений. Обозначая через Р число индексов р с заданным г, получаем оценки 10 N^N' {урУ, N' X ег«, log N X s x е-"/", что уже непосредственно приводит к (83). Доказательство (84). Подобно одномерному случаю положим тлл_ П( + Уг)(— Уд9, если |у||<1, 1=1, . . ., т, О в остальных случаях.. функция ср имеет все частные производные до порядка р включи- включительно и частные производные порядка р от нее удовлетворяют 10 N' — здесь число различнйх возможных групп индексов ра"' "' т\
156 7. е-энтропия и е-емкость множеств условию Гёльдера степени q. Константу а можно выбрать так, функция ф попадет в класс F% (С). В компакте К выберем 2А-различимое множество точек где, как и в одномерном случае, Д = (е/аI/«. Очевидно, что s можно сделать порядка sxA"*X e""/«. Рассмотрим теперь множество U функций вида Число элементов в нем равно N = 2S+1, log N >= s x e-n/з. Подобно одномерному случаю доказывается, что U есть е-различи^ мое множество в А (если е достаточно мало). Замечание 1. Для вопросов, рассматриваемых в § 8 имеет некоторый интерес сделать оценки теоремы XV равномер ными по длине Т = Ь — а отрезка [а, Ъ]. Анализируя ход доказ»1 тельства теоремы XV, легко обнаружить, что при фиксированной Со, Clt.. ., Ср, С и при Т ^ TQ j> 0 равномерно Замечание 2. При доказательстве теоремы XIV мы и<й пользовали связность континуума К лишь в доказательстве не* равенства (93). Без предположения связности К приходится оцв-^ нивать при каждом г число различных возможных индексов $.*' кп> как N' X A/е)ш. Для N получается s log ЛГ' х (l/e)»/« log A/е) и вместо (83) Жг (А) =< (l/e)n/« log A/е).' Вместо теоремы XIV получается (без предположения связно- связности К) Х^Е(Л)=<(—- \ е /
7. е-внтропия и е-емкость множеств 157 Замечание 3. Множество Ff можно рассматривать как линейное пространство. Естественная топология]] в_ нем определя- определяется нормой = 2 sup || В?' (х) || + sup || Л, (х) \\, ко хек аек 2 к=о хек где I В* (ft, x) ||= sup ж+fteK I = SUP Из теоремы XIV легко получается следствие: для любого огра- ограниченного в Fq множества А, имеющего хотя бы одну внутреннюю точку, функции Жг (А) и Щг (А), вычисленные в метрике F2) (!)# имеют порядок Ж г (А) X £е (А) X б"»/". | §6 8-ЭНТРОПИЯ КЛАССА ДИФФЕРЕНЦИРУЕМЫХ ФУНКЦИИ В МЕТРИКЕ IZ Настоящий параграф примыкает по тематике к предыдущему параграфу, хотя по методам доказательств является по существу продолжением § 4. При написании его авторы пользовались ре- результатами исследований, принадлежащих В. И. Арнольду. Обозначим через />^0>2я] (С), а > 0, или просто Ра (С) класс вещественных функций f (х), периодических с периодом, равным 2л, в среднем равных нулю и имеющих в L2 производную порядка ос (в смысле Вейля), равномерно ограниченную в среднем констан- константой С. Норму в этом классе рассмотрим в Ьг: Напомним, что функция f<-a) называется производной порядка се. в смысле Вейля функции / ЕЕ L2: со / (х) <х> -4г + / («к cos kx 4- bH si
458 7. г-энтропия и е-емкость множеств если ей соответствует ряд Фурье fa) (х) = ^J ka ((a, cos -|- а + Ьн sin -J- а) cos кх + cos-^-a— щ sin-^-a) sin kxj, сходящийся в среднем и. Равномерная ограниченность в среднем /<а) для /GPa (Q означает, что \\fa)\\ = (%k™(al + bi)L'<C. (85) lc=l Пространства L2 и Р, как известно, изометричны. Рассмотрим ор- тонормированный базис в I2, состоящий из векторов \ev . . . *,,.,, €п, • • •} таких, что ех соответствует "^2/2, ег1с «-^- sin кх, ■Зак+i "^ cos ^ж' ^ *^* 1 • ?РИ некотором изометрическом отображе- отображении L2 в Z2. Нетрудно убедиться, что классу Ро (С) будет соответ- соответствовать в этом базисе множество векторов а; = (xlt . . ., хп, . . ,)f координаты которых удовлетворяют неравенству: 00 ] (86) Это множество, которое мы будем также обозначать через Ра (С), является эллипсоидом с полуосями ак = С/[к/2] 12. Далее мы рассмотрим частный случай эллипсоидов в I2, полу- полуоси ajf которых равны В/к? (к = 1, 2, . . .). Их мы обозначим через Эа (В). Ввиду того что (*/2)° получим Д а (С-2а) — эллипсоид, у которого ах = 0. Включения (87) позволяют нам оценивать Шг {Ра) и $а (Ра) через Жг (^о) и 11 Дляцелцх а, = п £п\ (ж) в смысле Вейля совнадает с обычной нро- •ёаводной dnf/dxn. 12 Эллипсоидом в 1г называют множество х, для которых К=1 / ,, ... rfi/; называют полуосями этого эллипсоида.
7. е^энтропия и е-емкостъ множеств (Эа). Для последних мы покажем, чтог ■: ■ / V : : (88) (89> где у — ограниченная константа, не зависящая от а. Тогда из (87) получится Тео/рема XVI. , где у — ограниченная константа, не зависящая от а. Для а > а0 соотношение (90) можно переписать так: где 7i и ?г — ограниченные константы.) Результат, полученный нами в теореме XVI, интересен в том- отношении, что для пространства дифференцируемых функций; в метрике L2 удается найти для $2е и Ж& достаточно узкие не- неравенства (90), асимптотически сходящиеся друг к другу при cl (порядке гладкости), стремящемся к бесконечности (см. (91)). Это- тем более интересно, если учесть, что подобного результата в ме- метрике С не получено (см. § 5). "' Итак, нам остается получить (88) и (89). Пусть Эа (В) означает у нас Эа (В) |~| Z)™, где D^ есть и-мерное евклидово пространство, натянутое на первые п Осей эллипсоид* Ва (В). Предположив, что Л№ есть максимальное число непере- непересекающихся и-мерных шаров S% радиуса е, центры которых рас* положены в Эа (В), получим, что так как ввиду предположенной максимальности числа Лае1 сферы- радиуса 2е должны покрыть все 9% {В). Положим теперь В/п* < 2е < В/(п ~ 1)°, т. е. п = (S/2e)V« "-J- О (l)t , ;(93>
i60 7. г-энтропия и г-емкость множеств ж, воспользовавшись соотношениями 2) log и! < (п + Va) log п — п log e ^формула Стирлинга), получим из (92) и (93), что #2е (Эа. (£)) > log J^ae > n log -^ an log n — —Y log n + an log e > (-J-I/a a log e + О (log &Ы aloge- Для получения (89) подберем т так, чтобы т. е. ти = (j/lB/e)!/» + О A). (94) Рассмотрим эллипсоид Э™ E). Нетрудно видеть, что расстояние любой точки Эа (В) до Эа (В) меньше или равно (]А2/2) е и, сле- следовательно, любая (}//2) е-сеть для Э™ (В) является е-сетью для -Эа (В). _ Строим в Z)™ кубическую решетку диаметра е/|А2те- (Опреде- (Определение решетки см. в § 4.) Пусть N — число кубов диаметра е/|А2те 13 с центрами в точ- жах решетки, пересекающихся с Э™ {В). Кубьфти лежат, очевидно, в- е уг2/2-окрестности Uэллипсоида Э™ (В). U заключается внутри гомотетичного с 9% (В) эллипсоида с наименьшей осью, равной В/та + ()^2/2) е, или коэффициентом подобия, меньшим 2. Та- тгим образом, объем всех кубов решетки не превосходит объема этого эллипсоида, откуда получаем неравенство (95) Теперь мы воспользуемся тем, что „т/2 1) |х(Да)= Г(т/2 + 1) 2) log Г (a) = (a — V2) log a — a log e + О A) (см. [24, т. 2, 13 При этом диаметр куба в евклидовой метрике равен е |Л2/2«
7. е-энтропия и в-емкость множеств 161 с. 819]), и получим из (94) и (95) Жг(Эа (В)) < logiV<m log v e —amlogm+m (aloge + ■сто и требовалось доказать. Арнольд в своих исследованиях для оценки величины Же сверху воспользовался результатами Давенпорта и Ватсона, о ко- которых мы упоминали в § 4. Естественно, что при этом автором были получены более точные оценки, чем у нас, так как решетки, по- построенные Давенпортом и Ватсоном, являются гораздо более эко- экономными, чем кубические. Приведем без доказательства неравен- неравенства, полученные Арнольдом: ЖЕ(Эа(В)) < (i^?_)/ alogeU + -^-) + aloge. § 7 е-ЭНТРОПИЯ КЛАССОВ АНАЛИТИЧЕСКИХ ФУНКЦИЙ Кроме заметок авторов [6] и [7], содержащих оценки е-энтро- пии типа слабой эквивалентности, этот параграф основан на рабо- работах А. Г. Витушкина [3] и В. Д. Ерохина [4]. Доказательства формулируемых ниже лемм II и III содержат в общей форме методы, разработанные А. Г. Витушкиным; теорема XVIII спе- специально приспособлена к системе функций, введенных В. Д. Еро- хиным. Частично результаты, полученные Ерохиным, одновре- одновременно и другими методами были доказаны К. И. Бабенко [1]. Теорема XX принадлежит А. Г. Витушкину [3], теорема XXI — В.М. Тихомирову. 1. Будем предполагать, что в линейном нормированном про- пространстве F дана система элементов <P*V,... V kr = 0, 1,2, . . ., г = 1, 2, . . ., s, и соответствующая система линейных функционалов так, что каждый элемент / представляется в виде 14 14 В этом параграфе к означает у нас целочисленный неотрицательный вектор к = (&j, . . ., к$). Через К мы обозначаем множество всех таких век- векторов. Вектор h = (Ах, . . ., hs) мы называем положительным, если его ком- компоненты строго больше нуля. Запись hk означает, что для «-мерного век- 6 А, Н, Колмогоров
162 7. е-энтропия и е-емкостъ множеств причем существует постоянная С1 такая, что sup k.|<||/i<Ci S Ы- (96) Имеют место две основные леммы. Лемма II. Пусть A CZ F и при этом существуют постоян- постоянная С2 и положительный вектор h = (hlt . . ., hs) такие, что из f E1 А вытекает I^KCjrf*.»). (97), Тогда Лемма III. Пусть при заданных С3 и h из существования такого положительного вектора А, что \ск |<С3 де^л+д.*), (99) вытекает принадлежность элемента /= S к A CZ F. Тогда Мы говорим, что для множества A d F выполнена система ус- условий (I), если для него выполняются три перечисленные выше условия (96), (97) и (99). Неравенства (98) и A00) в совокупности, очевидно, дают сле- следующую теорему. Теорема XVII. Если для множества А выполнена система условий (I), то ЖЛЛ)= ,,+ .,.,2|о«.,Ч» A"» -f Г+ О ((log -I)" It If i) . A01) 1 тора h и k s К имеет место соотношение s Скалярное произведение (fe, fc) имеет обычный смысл V Л;Лг; 9 обозна- чает единичный вектор A, . . ., 1), так что
7. е-энтропия и е-емкость множеств 163 Мы скажем, что для множества A d F выполнена система условий (II), если для любого положительного вектора а существуют константы С1 (а), Сг (а) и С3 (а) такие, что: 1) sup|c*|<ll/H<Ci(«) 2 |с,|, A02) 2) из /е4 вытекает |с* |< С, (а) «-<*-«.*>, 3) из неравенств | с» |<С8 (а) «-<*+«.*> нытекает принадлежность к множеству A d F. Из неравенств (98) и A00) легко выводится Теорема XVIII. Если для множества A d F выполнена сис- система условий (II), то Действительно, зафиксировав а, на основании неравенства (98) мы будем иметь, что 1^ ' На основании неравенства A00) мы получим, что lim ^(Л)+1> 2-а ё-- A05) Неравенства A04) и A05) в совокупности дают A03), так как a произвольно и Прежде чем переходить к доказательству лемм II и III, сделаем следующее Примечание. В теореме XVII множество К состояло из неотрицательных векторов к. Из последующего изложения читатель легко сообразит, что изменится в доказательствах в слу- случае, когда имеем дело с произвольными векторами к — (къ . . . . . ., ks), — оо <; к{ < оо. Сформулируем окончательный резуль- результат. Пусть | к | означает вектор с координатами (| кг |, . . ., | ks\), а К — множество всех целочисленных векторов.
164 7. е-энтропия и s-емкасть множеств Теорема XIX. Пусть для множества А выполнена система условий (Г), т. е. 1) supjcKfl/IKCi 2 Ы, (Ю6) 2) из f ЕЕ А вытекает |ck|<Cjr(h'|fr1), (Ю7) 3) гари заданной константе С3 для любого положительного век- вектора А из осуществления неравенств \ск | < вытекает принадлежность элемента CZ A08) Теорема XIX специально приспособлена к рядам Фурье. 2. Итак, нам остается доказать леммы II и III. Рассмотрим множество Sn целочисленных векторов к ?= К, для которых (Л,Л)<в. A09) Через Sn обозначим К\ Sn (рис. 9). Из условия (96) мы получим, что *^sn ke3n KeSn Неравенства (97) дадут \Rn\<CiC2 S е-(Л>к). (HI) Предположив, далее, /г J> (max /i;/min Aj) + 1 = Я,, покажем, что i i A12)
7. е-энтропия и е-елкость множеств 165 Пусть Вц — куб со сторо- стороной единица: = {# ! кТ — 1 г = 1, . . ., хТ кг, Назовем к максимальной вершиной куба Вк. Очевид- Очевидно, что разность к — х яв- является неотрицательным век- вектором для любой точки куба х. Легко понять, что объеди- объединение всех ВК для к £= К по- покрывает множество всех не- неотрицательных х. Функция e-(h,x) на Кубе Вк имеет ми- минимум в точке к. Действи- Действительно, проведя через любую точку х0 6Е ВК гиперплоскость (Л., х) = (h, x0), мы получим, что Рис. 9 e-(h,x) = ), ибо (h, к — х) > О, так как h — положительный вектор, аи; — максимальная вершина. Выберем теперь минимальное Я, так, чтобы гиперплоскость (h, х) = п — %, не имела бы общих точек с Вк для 4е5„. Тогда согласно доказанному ■2 Легко подсчитать, что в качестве Я, достаточно взять величину (max hjmin hi) + 1. Для нас существенна только ограниченность Я,. i i Интеграл A12) подсчитывается совершенно элементарно 15: (« - где В — ограниченная константа. Подберем теперь минимальное га так, чтобы е/2. (ИЗ) 15 Напомним, что Ае =
166 7. е-энтропия и s-емкостъ множеств Отсюда Оценка (ИЗ) означает, что | Д„| в A10) не превосходит е/2. Ап- Аппроксимируем теперь остающуюся конечномерную часть: Обозначим через Рп число векторов к ЕЕ Sn. Из предыдущего нетрудно понять, что для Рп выполняются неравенства J X s\ he откуда s\he Аппроксимируем, далее, координату ск = av + ifi^ с точностью до г/РпС1 величиной а'ц + фй-, полагая Каждому элементу / таким образом сопоставится набор индексов U = {тЦ, iG^, i = l,2. Для двух элементов Д и /2 из Л, соответствующих одному и тому же набору U, имеем (см. соотношения A10) и A16)), т. е. множество элементов е-покры- тия А не превосходит числа всех наборов U, соответствующих А. Нам теперь осталось только оценить число N этих наборов. Ввиду того что согласно (97) max {а^, рк-} ^ Cz e~(h<}'\ из (Ъ-ХЩ полу- получим, что \mU<V2ClC'Pn е-(ЛД) = ^ / = 1,2. A17) 8 Отсюда следует, что logN = log A/e) - (h, к) log e + log Pn + Dx;
7. в-энтропия и е-емкостъ множеств 167 Ог — здесь ограниченная константа, не зависящая от к. Число N, таким образом, оценивается величиной п откуда = 2Рп log -i 2 2] (A, A) log е + 2Pn log />„ + О (Рп). keSn Неличина % (к, h) по соображениям, аналогичным применен- tesn л ым нами для оценки Rn, не будет превосходить интеграла С (l u s(re —XM+1 sres+1 /. 0A) \ \ (fe, x)dx = — ~- = 5-1 -^ ^-] , J V У (s + 1)! Ае («+ 1)! Л9 \ » / ' отсюда окончательно, использовав A14) и A15), получим *•{А) < (, + „„1,г«,.»в Aог Т-Г +"((>•» i)' !•«'•. 4") • Доказательство леммы III. Пусть е > 0. По- Положим Л' = Л + А, где вектор А имеет координаты д12 Подберем максимальное т так, чтобы , A19) (log(l/8))8 "^ где е взято из условия леммы III. Обозначим через 5т множество векторов к из ЛГ, для которых (Л', А) <ч /те. Рассмотрим множество {*¥} функций W = 21 с(сфгс> Для которых (сек а) сК = 0, А ^ 5т; р) Clf = D + istJe, ieSn; A20) у) si (i = 1, 2) — любые целые числа такие, что
168 7. г-энтропия и е-емкость множеств Неравенства A21) означают согласно условию"(97) леммы III, что множество {*¥} cz А. По построению {Ч^из (96) вытекает 2е-различимость множества {¥}. Согласно A20) каждый элемент из {Ч'} определяется набором индексов U = {4}, k(BSm, I = 1, 2, а число всех U согласно A21) превосходит м= П м\. Из A21) мы получим, что log Мк = log A/e) - (h', k) log e + log C3Ae + D2, A22) где Г>2 — ограниченная константа, не зависящая от к. Отсюда, вспомнив A18), преобразуем A22) к виду logМк = log -i- - (h\ к) loge + O (log log-1) . Из A19) получим и окончательно 1S £2е (Л) > log М = 2Рт log ^ 2 £ (h\ к) log e + + О ((log -f)* Jog log -1-). Доказательство леммы III закончено. 3. Переходим теперь к применениям основных теорем XVII и XVIII этого параграфа. Всюду в дальнейшем мы рассматриваем классы .А& аналитичес ких функций / (zv . . ., zs), заданных на ограниченном континуу- континууме К, допускающих аналитическое продолжение в область G Z) К s-мерного комплексного пространства. При этом все функ- функции / GE Аа (С) предполагаются равномерно ограниченными в G Константой С. 18 Рт имеет то же определение, что и в лзмме II. Для него выполнено соотношение A15).
7. г-антропия и г-емкостъ множеств 169 Классы As мы рассматриваем как метрические пространства в равномерной метрике Ц/11 = max | / (Zi, . . ., zs) |, (zv . . ., zs) e K. Сначала рассмотрим классы аналитических функций одного комплексного переменного. 1) Класс Акд (С), Кг — замкнутый круг | z | ^ г, KR — круг | z |< R, R > г. Функции класса А^ разлагаются в ряд Тейлора A23) где C/f = акгк. Множество К здесь состоит из целых чисел к = = 0,1,. . . Положим eft = Rlr, или h = log (R/r)/log e. Из нера- неравенств Коши получим К|< C(rlRf^Ce~hk. A24) Из A23) непосредственно следует, что если | сК К С'Де-о+Д)* = С'А (rlRfe-ьъ, A25) то ряд A23) равномерно сходится в Kr, причем Jc=O Положим С" таким, чтобы е-^)< С A26) для всех А ^ Де. Тогда / W е= л|^ (С). Непосредственно из A23) получим |/|| = max|/B)|<S 1^1^=3 1^1- A27) Кроме того, max [ г* где Zf — окружность радиуса г. Таким^образОм, из соотношений
170 7. г-энтропия и г-емкостъмножеств A24), A25), A27), A28) вытекает, что А*г (С) удовлетворяет систе- системе условий (I) (где Сх = 1, С2 = С, С3 = С" берется из A26)), и, 17 следовательно 17, A29) .. 2) Класс Ah (С) функций, периодических на fl с периодом, равным 2я, аналитических и ограниченных константой С в поло се | Im z | <С h. Его мы подробно разбирали в § 2. Для этого клас- класса выполняются условия (I') и, таким образом, согласно формуле A08) ^{У [^) A30) 3) Класс Аэ% (С). Через А мы здесь обозначили [—1, 1], а через Э% — эллипс с суммой полуосей, равной Я,, и фокусами в точках ±1- Функции этого класса разлагаются в ряд по полиномам Чебы- шева: Доказательство применимости теоремы XVII можно было бы по- получить самостоятельно, по мы его получим как частный случай из рассмотрений следующего класса функций Асн(к) {С). Для класса Аэ% (С) h = (logX'^/log e, т. е. ) A31) 4) Пусть К означает произвольный ограниченный континуум, содержащий более одной точки. Пусть Goo — та из смежных с ним областей, которая содержит точку z = оо. Это — односвязная об- область расширенной плоскости, граница которой Г является ча- частью континуума К. Отобразим G^ на внешность единичного кру- круга плоскости w. Прообраз окружности \w\ = R, R ^> 1 при этом отображении назовем Й-й линией уровня континуума К и обозначим через Св. {К)- Рассмотрим класс Асщк) (С). Оказывается (см. [25, с. 414—423)), существует специальный класс рядов — рядов по полиномам Фабера, по которым единст- единственным образом разлагаются функции, принадлежащие классу 17 Все результаты мы пишем только для функции &€ъ- Для $g все формулы аналогичны.
7. е-энтропия и е~емкостъ множеств 171 ACR(K): во /(z)= 2 с^ФЛг). A32) При этом многочлены Фк (z) и коэффициенты сн в A32) удовлет- удовлетворяют следующим условиям: а) | аТ К Л/г/г*, где -Мг = max | / (z) |. . Отсюда при г —*■ R получим, что I ot |< C/Rk, A33) а при г -*■ 1 получаем, что |ак |< max |/(z) | =||/||. A34) zex p) | Ф* (z) | < £)i?'fe, z e CR (ЙГ), i?' > R, A35) где D — некоторая константа. 7) max | Ф, (z) |< В F) A + 6f. A36) Соотношения A32)—A36), как нетрудно видеть, влекут за собой выполнимость системы условий (II) для класса Acr(k) (С). При этом h = log R/log e. Таким образом, согласно теореме XVIII M{A Полиномы Чебышева, являющиеся частным случаем полино- полиномов Фабера, когда К есть отрезок А — [—1, 1], и в отличие от об- общих полиномов Фабера являются ограниченными на А: \Т]г(х) |<1, *е А, A38) а соотношения A33)—A35), A38) уже позволяют применить тео- теорему XVIII. Можно было бы показать, что результат теоре- теоремы XVII сохранится для достаточно гладких континуумов К, но мы на этом вд останавливаемся. 5) После опубликования работы Витушкина [3], в которой им были получены формулы A29)—A31) (и их обобщения на про- пространства многих комплексных переменных, к которым мы перей- перейдем ниже), А. Н. Колмогоровым была высказана гипотеза, что и в случае класса Ag (С), где G — произвольная область, & С — односвязный континуум, содержащийся в ней: К CZ G, существует
172 7. е-энтропия и е-емкость множеств константа т = т (G, К) такая, что A39) Эта гипотеза была почти одновременно доказана В. Д. Ерохиным {4] и К. И. Бабенко [1]. Отметим при этом, что результаты Еро- хина носят несколько более общий характер. Методы Ерохина и Бабенко существенно отличаются друг от друга. Способ получения Ерохиным формулы A39) вполне уклады- укладывается в приведенную нами схему с использованием теоре- теоремы XVIII. Ерохиным было показано, что в области G существует после- последовательность функций {fk (z)}t>i, аналитических в G, такая, что Jr=l для любой функции f(z), аналитической в G, и при этом выполня- выполняются следующие свойства функций fk (z) и коэффициентов ск: 1°) II МК С F) A + 6)*, 2°) sup \fk(z) |< *\ з°) | ck\ < с F) (l + 6)№, 4°) \ck |< ||/||, где С (б) — константа, не зависящая от k, a R = R {G, К) — ра- радиус внешней окружности при отображении двусвязной области^ ограниченной К и границей G, на кольцо 1 < | и; |< R; R иногда называют конформным радиусом двусвязной области G \ К. Легко видеть, что выполнение свойств 1°) — 4°) влечет за собой применимость теоремы XVIII и при этом h = log i?/log e. Таким образом, мы получаем, что A40) Отметим, что в заметке [4] содержится более общий результат, чем сформулированный нами. Изложения построения функций fk мы не проводим. Перехо- Переходим к классам функции f (zx, . . ., zs) многих комплексных пере- переменных. 6) Класс Акгн (С), R = {Rlt .• . ., Rs), r = (г1г . . ., г.), КТ = = Кп X ... X Кг — замкнутый полицилиндр — прямое про-
7. г-энтропия и г-емкостъ множеств 173 изведение кругов ^ = {z;: \zt \<rt), i = l, 2, ..., s; Kb = Kr X ... X Kr — полицилиндр — прямое произведение S кругов *«, = {** = !** |<Д,}, i = l, 2, ..., s. Функции этого класса разлагаются в ряд Тейлора: f(z) = ^aKzk, z = (zb ...,zs). к Применимость теоремы XVII не представляет затруднений. Век- Вектор h в этом случае имеет вид h = (fel7 . . ., hs), где ht = = log (i?i/rj)/log e, i = i, 2, . . ., s, и, таким образом, R (« + 1)! П log (i?./r4) i=l + О ((log -1)* log log -L). A41) 7) Класс ЛЛ(С), /i= (fei,. . ., fes), функций/(zl7 . . .,zs), перио- периодических по каждому переменному с периодом, равным 2л, ограни- ограниченных в прямом произведении ПЛ, X ... X IISV Щ. = {z- | Im zt | < fej. В этом случае функции разлагаются в ряЗ Фурье: кек Выполнимость условий теоремы XIX (см. примечание в п. 2) проверяется без труда и, таким образом, A42) Приведем далее обобщение формулы A40) (см. также [4]): зе,(А$(С))оо \ (log^)w- A43> (s+1)! IT log Д. »=i В "формуле A43) ff = (?! X . . . X Gs — прямое произведение односвязных областей4 Gi, К* = Кг X . . . X Ks — прямое произ-
174 7. г-энтропия и е-емкостъ множеств ведение односвязных континуумов Kl d Ct, Rt — объясненные при выводе формулы A40) конформные радиусы областей Gt \ Кх. 4. Закончим этот параграф рассмотрением двух классов целых аналитических функций. В этом пункте через z мы обозначим s-мерный комплексный век-1 тор z = (zx, . . ., zs); | г | обозначает у нас действительный s-мер* ный вектор: \z\ = (\zt |, .. ., \zt |). Мы называем целую функцию / функцией конечного порядка, если существует положительный вектор р = (рг, . . ., ps) такой, что неравенство | / (г) |< е<е. М*> = еЫР1+-+\Ф A44) выполняется для всех z, у которых все координаты по модулю превосходят некоторое г(р). Точная нижняя грань чисел рг, . . ., ps, для которых выпол- выполняется неравенство A44), называется порядком целой функции /. Порядок функции мы обозначаем далее обычно вектором р = = (Pi, • • -, Ps)- Точную нижнюю границу положительных чисел аг, . . ., os, для которых асимптотически | / (z) |< <?№ Ир> = е°> ЫР'+" •+O"»I^|PS, A45) мы называем типом целой функции f порядка р. Тип функции мы обозначаем далее вектором а = (аг, . . ., as). Мы изучим е-энтропию следующих классов целых функций конечного порядка и типа: 1°. Класс Ф^ (С) (о и р — произвольные положительные векторы) функций /, удовлетворяющих неравенству |/(z) KW'WP>. A46) Класс Фра (С) мы рассмотрим в метрике = max \f(z) |, где К в = К \ X ... X К\ — полицилиндр, т. е. произведение К\ = {zf: I zt |< 1}. 2°. Класс FIqi0, где а — произвольный положительный вектор, а рд — вектор с компонентами (р, р,. . ., р), состоящий из целых функций, удовлетворяющих неравенству | / (z) |< Се«Ы1тг1р\ р > 1, A47) и периодиче ских с периодом 2я по каждому переменному.
7. ъ-энтропия и s-емкостъ множеств 175 Класс FsPQ,a мы рассмотрим в равномерной метрике на D*. Имеют место следующие теоремы. Теорема XX. $* (Ф^„ (С)) с Жг (Ф^„ (О) со -j^r p° Теорема XXI. (±fP~n'P+1 , A49) где As v о = Отметим частный случай формулы A49) для случая одного пере- переменного, имеющий связь со следующим параграфом: ! (log 5. Можно показать [4], что результат теоремы XX не изме- изменится, если вместо полицилиндра К\ X . . . X К[ взять прямое произведение К1 X . . . X К3, где К1 — произвольные континуумы в плоскости zt. Функции класса Фра (С) разлагаются в ряд Тейлора, а функции класса FPe<a (С) в ряд Фурье, сходящиеся при всех конечных z. Выведем неравенства для коэффициентов этих разложений. В первом случае где к я К имеют тот же смысл, что и в теореме XVII этого пара- параграфа. Воспользуемся неравенствами Коши и соотношением A46). Получим . max |/(z)| ' z=KlRix...y,J?R Ы<- ^ — < при любом R = (Дх,. . ., i?b), а следовательно, неравенство сохра- сохранится и для минимума правой части по R, который нетрудно под- подсчитать элементарно.
176 7. е-энтропия и г-емкость множеств В результате получим где через Bt мы обозначили log Во втором случае /(«) = где К имеют смысл, приданный им в примечании 14 в п. 1. В этом случае мы воспользуемся A47) и неравенствами для ск, которые легко вывести совершенно аналогично тому, как мы это делали в § 2, п. 3: max |/(z)|e-<M*l>. Отсюда получим | с» |<Се-«0>лР>-<Л>1К|)), A52) где h = (hlr . . ., hs) — любой положительный вектор. Неравен- Неравенства A52) останутся справедливыми и для минимума правой части по h, откуда после элементарных подсчетов получим Ic* |<Ce-(A>l)tlp/(p)), A53) где А ■ (An . . ., As), Неравенства A51) и A53) будут у нас играть ту же роль, что и условия (97) в теореме XVIII. Сформулируем теперь неравенства, играющие роль условий (99) в теореме XVII. Для любого положительного вектора б = Flf . . ., 8S) сущест- существует константа С (б) такая, что: а) если для всех к £= К выполнены неравенства где Bt взято из A51), то функция / (z) = 2 аи^ принадлежит классу Фр0 (С);
7. Ё-внтропия и е-емкостъ множеств 177 Р) если же для всех k выполнены неравенства R Хехр(- S + |**18<). A55) где At взято из A53), то функ- функция / (г) = 2 cfeei<Z)'c) при- надлежит классу Ррв<а (С). Неравенства A54) и A55) до- доказываются единообразно. До- Докажем для примера неравенст- во A55). Имеем К Рис 10 если положить С F)=' 2 Неравенства (96) оказываются справедливыми, как нетрудно за- заметить, и для наших классов, а именно: sup | а» |< ||/||< 2 для класса ФрСТ (С) и Ы<Ц/К S A56) A57) для класса р9, 6. Доказательство теорем XX и XXI вполне аналогично по структуре доказательству теоремы XVII, проведенному нами в п. 2. Поэтому их доказательство мы ведем параллельно с не- небольшими комментариями. Для сокращения записи введем два обозначения: kip и х/р (где к, /» и х — векторы) обозначают у нас векторы с компонентами (Aj/pi, . . ., кж1рв) и соответетвенно (xjp^ . . ., x,/pa). Запись log А; для вектора к, у которого к{ > 1, будет обозна- обозначать у нас вектор с компонентами (log ки . . ., log. At). Объем встречающегося далее множества (А, | х |p/(p-i>)= 1 ми обозначаем далее через А (А). Он равняется (см. [24, т. 3, с. 477])
178 7. е-энтропия и е-емкость множеств величине Приступим к доказательству. Оценка сверху величины Же Класс Ф8р0 (С) | Класс Fp9,<j (С) (см. рис. 10) Рассмотрим множество Sn целочисленных векторов, для ко- которых (■y.logA —fi)<nlogn. I D,|У Через £п обозначим K\Sn. | Имеем согласно A56) и A57) /К 2 K-I+ 2 Kl _ VI Неравенства A51) и A53) дадут 1/11 Si ___ v 2 teS.,, 2 A59) >>. A60) х ^> 0 имеют Функции — (х/р, logx — B) ж ;> 0 и —(А, хр' минимум на кубе 5& (си. рис. 9) в точке А 1в. Доказательство этого факта мы предоставляем читателю. Та- Таким образом, мы получаем возможность оценивать сумму A60) интегралами (ж/р, 1 og х—В |>(»-Х) log (n-X.) ехр (— A61) (Л, | где Я ограничено. Интегралы A61) оцениваются соотношениями ехр (ж/р, logoc—B»R logR .:.'■- х j log e X exp(— I a: |b/<P-i>)) dx = 18 За исключением конечного числа к в случае Ф^ (С), а именно тех А, для которых (к/р, log к — В) ^ 0. Этим множеством мы пренебрегаем.
7. е-энтропия и е-емкость множеств 179 откуда для минимального п такого, чтобы | Rn | ^ е/2, получиьс „ _ ( bg A/e) Y-1IP , ^ ~ V log е У "•■ + О flog log-J-). A62) Обозначим через Рп число векторов к, принадлежащих Sn. Для Рп выполнены неравенства (зс/р, log ж—B)s£(n+X) I og (n+X) >0 Написанные интегралы легко поддаются оценке (Л, < Ar. A63) (Л, | Написанные интегралы рав- равняются А (А) (п =Ь >.)% откуда . A64) , 0A) \ log га / • Аппроксимируем далее коэффициент а^ = <Хк + ifix (соответст- (соответственно ск = оск + ipR) величиной а'к + грк с точностью до е/Р„, полагая A65) Для mj, г = 1, 2, получаются неравенства С',Р™ехр(—D, Л|р/(р-О)) A66) где С" ограничены. Отсюда 1 /Л log ЛГК= log (^4, | А; |р/(р-«) х с X log e + log Pn + D2, где Dt и ZJ — ограниченные константы, не зависящие от к. Вели-
180 7. е-энтропия и е-емкость множеств чины fees,, оцениваются интегралами -1)) (х/р, 1 ogx-B)sS(jj-X) lag (n-X) (-J-, logz-B)dx, главный член которого [равен spVra log га , , Суммируя все полученное, будем иметь, использовав A62), который равняется (см. [24, т. 3, с. 479]) s/S. (A) ras A67) 2sp*n *ns ■ п log п оэ CNJ- (s+1)! (log log A/е)) * 1 A X log р со A sp(J 1 \ — j «(P-1)/P+1 A68) Оценка снизу для Задавшись произвольным б ^> 0, подберем максимальное т так, чтобы где С (б) — константа из A54) и A55). Рассмотрим множество Sm целочисленных векторов, введенное выше, для т, удовлетворяющего A69). Пусть {Y} означает мно- множество функций таких, что a) afe = 0, k t£ Sm; Р)а^ = (sj + isl) 2в, k<=Sm; Y) 4, i = 1> 2,— целые и пек а) ск = 0, /с P) ck =. (sj + V) si, i = 1, 2,— целые и
7. Е-энтропия и е-емкость множеств 181 1 ( р С'(Ь) logft Таким образом, согласно A54) и A55) X A70) Из A68) и A70) получим, что log A/е) т = log log A/е) 0A), log MK — log— — (-у f log A — т = log Mft=log ~ -(А, | к \р/ №-«) X X loge — (б, \к |)loge + + logC"F) +I>2> A71) где Dx и D-2 — ограниченные константы. Отсюда окончательно выкладки, аналогичные выкладкам при оценке сверху, дадут <(С)) GO X X (log log A/е))8 /. 1 X log— . A72) Из A68) и A72) вытекают A48) и A49), что и требовалось доказать. §8 е-ЭНТРОПИЯ КЛАССОВ АНАЛИТИЧЕСКИХ ФУНКЦИЙ,] ОГРАНИЧЕННЫХ НА ДЕЙСТВИТЕЛЬНОЙ ОСИ19 1. Результаты данного параграфа принадлежат В. М. Тихо- Тихомирову. Частично они были опубликованы в заметке [7]. Проблематика настоящего параграфа возникла в связи с не- некоторыми идеями теории информации. В теории связи большую роль играет то обстоятельство, что сигналы с ограниченным спект- спектром, помещающимся в полосе частот ширины 2а, определяются по дискретной совокупности своих значений, взятых.в равноот- равноотстоящих друг от друга точках 20. 19 Печатается в сокращении, причем нумерация формул, теорем и лемм сохранена. 20 В применении к функциям, преобразование Фурье (спектр) которых обращается в нуль вне некоторого отрезка длины 2(j, эта идея восстанавли- восстанавливаемости функции по дискретной совокупности ее значений, взятых в ариф- арифметической прогрессии с разностью я/о, была впервые обоснована Валле- Пуссеном.
182 7. е-энтропия и г-емкостъ множеств ' В. А. Котельниковым в работе [26] было указано важное при- применение этого свойства для теории связи. Им было отмечено, что количество информации, содержащееся в задании на отрезке дли- длины Т функции со спектром, ограниченным полосой частот шири- ширины 2а, при больших Т эквивалентно количеству информации в за- задании 2оТ/п действительных чисел. В литературе это утвержде- утверждение часто именуется теоремой Котелъникова. Эту же идею в не- несколько иной форме высказал также и К. Шеннон [27, Добавл. 71. Класс 93а (С), с которым мы встретимся в этом параграфе, яв. ляется замыканием в равномерной метрике на отрезке длины Т (при любом Т ^> 0) класса Ва (С) конечных сумм: /@= S о*****' 1!——П подчиненных на действительной оси условию | / | ^ С с часто- частотами A.t из отрезка — а <[ X <; а (см. [23, с. 160—1641). Поэтому формулируемая нами теорема XXII может служить одним из ва- вариантов обоснования теоремы Котельникова. В настоящем параграфе мы рассматриваем следующие классы одного комплексного переменного: 5ва (С) — класс целых аналитических функций, удовлетво- удовлетворяющих соотношению Обозначение Здо мы заимствуем из [23]. fpa (С) — класс целых функций порядка р и типа а, удовлет- удовлетворяющих соотношению Ль (С) — класс аналитических функций / (z), ограниченных в полосе | Im z | < h константой С. Все перечисленные классы, как легко видеть, ограничены на вещественной оси D. Отметим, что класс Зда совпадает с классом fia, но мы его вы- выделяем отдельно ввиду его важной роли в дальнейшем 21. Перечисленные классы функций мы рассматриваем как норми- нормированные пространства, вводя нормы и метрики^формулами || / ||т = max | / (t) |, PT(/i,/a)=ll/i-/allr, A73) где Дг — отрезок действительной прямой — Т <[ t <^ Т. Всюду в этом параграфе е-энтропию и е-емкость класса f функций, определенных на D с нормой A73), мы обозначаем со- соответственно через Ж1 (£) и El (£). 21 Как обычно, мы считаем, что / е <5?а, Жра или ^£h, если / принад- принадлежит соответственно 35а (С), Ж^ (С) или Jth (С) с некоторой константой С.
7. г-энтропия и г-емкость множеств 183 Для формулировки результатов, которые мы будем доказывать в этом параграфе, нам потребуется определение верхней и нижней е-энтропии и е-емкости на единицу длины. Верхней г-энтропией на единицу длины для класса *jf, опреде- определенного на D, назовем функцию ~Ml (f) = lim sup BГГ1 Ml ($ )■ Т—оо Нижней г-энтропией на единицу длины назовем функцию Ж (Я = Пт inf BГ) Ml (f). Т—со Аналогично определяются верхняя и нижняя г-емкостъ на единицу длины #? (Я и ff (Я- Имеют место следующие теоремы. Теорема XXII. Ж (ЗЗо (С)) оо ~М? {®а (С)) cso — log —. A74) Теорема XXIII. М! {dh (С)) со Ж (Jlh (С)) со nhlgg (log ±J . A75) Теорема XXIV. Соотношения для $f и Щг имеют тот же вид. Рекомендуем читателю сравнить написанные выше формулы A75) и A76) с формулами A30) и A49) обычной е-энтропии классов Fpa и Ah. (Напомним, что эти классы состоят из периодических с периодом, равным 2п, функций, принадлежащих классам Fpa (С) и Ah (С).) Сходство этих формул дополнится сходством методов их доказательств, о чем речь будет идти в дальнейшем. Отметим также соотношение Me (Во (С)) csD {Ala] + 2) log A/e) A77) для класса функций из ЗВа, периодических с периодом, равным 2я, которое естественно сопоставить с соотношением A74). Эквива- Эквивалентность A77) вытекает из того факта, что класс В„ (С) состоит из тригонометрических многочленов степени, не большей [а] (см. [23, с. 1901). 2. Переходим к доказательству теоремы XXII. Следуя стилю предыдущего параграфа, мы выделяем отдельно в виде двух лемм те Свойства класса ЗВО, которые используем в дальнейшем при до- доказательстве.
184 7. е-энтропия и е-емкость множеств В леммах IV и V а — произвольное положительное число (в лемме V — меньшее а), Сх (а) и Сг (а) — положительные кон- константы, зависящие только от а. Лемма IV. Функция f (z) Е: ЗЗа (С) может быть представ- представлена в виде ряда +« /(*) = 2 <*/*(*). A78) При этом: а) ] с, | < С. б) Существует сходящийся ряд из положительных членов 2 а*=А A79) а = — оо такой, что для /, представимой рядом A78), i (a) lT ак|С[4(а+а)/я]+к|. A80) Из леммы IV мы получим, что i^ Iog(l/e) < * Лемма V. Существуют функции щ (z), k = 0, ±1, . . ., та- такие, что если I с* | < Сг (а) С, то функция f(z)= 2 <*Ф*(*) A82) |»|«[Г()/] принадлежит Зда (С) и ||/||Т> max |ck|. A83) |[Т()/] Из леммы V мы получим, что i^nf log(l/e) Ввиду того что соотношения A81) и A84) дают в совокупности теорему XXII. Выведем неравепства A81) и A84) из соответствующих лемм.
7. е-энтропия и е-емкость множеств 185 Фиксируем а. Подберем п таким образом, чтобы Д„ < й12Сг (а) С, A85) где Rn = 2 а/с — остаток ряда A79). |К|>гг Положим пТ = [(а + а) Т/л] + п + 1. Коэффициенты ск = = ак + i|3k, | А; | <j wT, ряда A78) аппроксимируем с точностью до е /2АС1 (а) (А — сумма ряда A79)), положив _ L L e Пусть Имеем при | t \ <; Т п 1/@ — /@1^ Ci (a) \ IR|>n I]' A86) В выкладке A86) мы пользовались тем, что для всех s = [t (a + + а)/я] + Л, И I ^ T, \k \<^n, cs аппроксимировано с точно- точностью до e/2^4Ci(a), и соотношением A85). Соотношение A86) означает, что || / — / ||т ^ е, т. е. множе- множество всех функций {/} образует е-сеть для класса Зда (С) в мет- метрике рт- Легко подсчитать, что число N (Г) элементов в этом мно- множестве {/} удовлетворяет неравенству 22 A87) Логарифмируя A87) и используя то, что Жтъ {3$<, (С)) < log N(T), а также произвольность а, получим A81). Неравенство A84) получается еще проще. Фиксируя а, поло- положим тпт — [Т (а — а)/я]. Рассмотрим матрицу целочисленных Через С мы обозначили константу 2ACi (a).
186 i. е-энтропия и е-емкостъ множеств векторов л sl „2 -m ...sl 2 ' ' * 0 ■••* s2 ' ' ' т При этом потребуем, чтобы |4 К ССг (а)/|Л2е. A88): Каждой матрице U из данного множества поставим в соответствие функцию fu (t): fu(t)=2e Из A83) следует 2е-различимость множества {fv (t)} в метрике рг. Число М (Т) функций из этого множества согласно A88) , при достаточно малых е удовлетворяет неравенству simT i р сс (а} -|^2[Г(с-а)/я] A89) Прологарифмировав A89) и используя то, что С\ъ (Зда (С)) > ^ log M (Г), а также произвольность а, получим A84). 3. Для завершения доказательства теоремы XXII нам остает- остается получить леммы IV и V п. 2. Воспользуемся интерполяционной формулой Картрайт. Пусть g (t) е ЗЗа, (С), а' <; я, 0 < со < я — а'. Тогда имеет место сле- следующая формула: +™ sin nt_ V I *<* S (k) sin ш (t — k) ~ Z A) Доказательство формулы A90) содержится в [28, с. 269]. Легко понять, что если / еЕ Зда (С), то g (t) = f (a't/a) ЕЕ 5до- (С). Ис- Используя это, перепишем формулу A90) для функции /€Е53о при произвольном а: ,. . sin (nst/g') VI , л ,j( / (~'kja) sin ш (cs</g' — &) ,, q.. if = —00 Отметим, что формула A91) выражает ту самую «восстановимое™) функции по ее дискретной последовательности в применении к классу ЗЗа, о которой мы упоминали в начале п. 1. Положим теперь для произвольного а в в -4- а ИЛИ —г =■ Ч' Я ' {— IL sin (з + a) t sin ш (А: — (g -|- а) </я)
7'. е-энтропия и г-емкостъ множеств 187 Получим +00 /(*)= 2 ckh(z). A92) Покажем, что ряд A92) удовлетворяет поставленным в лемме IV условиям. Условие а) удовлетворяется вследствие того, что / 6= 53а (С). Далее при фиксированном t в сумме A92) выделим отдельно сла- слагаемые с номерами к0 = [t (а + а)/я], к0 + 1 и &0 — 1. Для остальных к, т. е. к, задаваемых формулой к = ±а + к0, s = 2, 3,. . ., воспользуемся тем, что 1 ■< ' (М-*J ' и получим +1 |S|>2 Обозначив, далее, через а-\ = ай = ах максимум функции , . . sin (з-|- a) t sin (ш (з + а) t/n) М*)= s^r а через a±s величину (| s \ — 1)~2, s = 2, 3,. . ., получим то, что требовалось в условии б) леммы IV. В качестве функции ф^ леммы V возьмем функции sin (а — а) (г •— kn/(s — а)) sin а (г — kn/(s — а)) а(з— а) (г — Лл/(-з — а)J ' Лемма V есть следствие следующих очевидных фактов: m 1) Ф^еЗЗа и, следовательно, 2 W 2) при равномерно ограниченных | ск \ суммы 2 !г=— равномерно ограничены на D. 3) Этим заканчивается доказательство лемм IV и V и, следователь- следовательно, теоремы XXII.
188 7. г-энтропия и в-емкость множеств § 9 е-ЭНТРОПИЯ ПРОСТРАНСТВ ДЕЙСТВИТЕЛЬНЫХ ФУНКЦИОНАЛОВ 1. В этом пункте мы рассматриваем пространства функциона- функционалов, удовлетворяющих условию Гёльдера. Пусть X — метрическое пространство, F (х) — действитель- действительный функционал на X. Функционал F (х) называется удовлетво- удовлетворяющим условию Гёльдера с функцией со = со (Я), если \F (xj - F (x2)\ < со (р (хи х2)), B32) где со (А.) — определенная для положительных А. монотонная по- положительная функция. Мы будем говорить, что F (х) удовлетворяет условию Гёльдера с показателем р (О <С Р ^ 1), если со (k) = L№. Через 3)t (С), A CZ X, мы обозначаем множество всех функ- функционалов над X, удовлетворяющих условию Гёльдера с функцией со и ограниченных на А константой С. Все функционалы мы рассматриваем, как всегда, в равномер- равномерной метрике: р (F,, F2) = sup | F, (x) - F2 (x) |. Имеет место Теорема XXV. Если А вполне ограничено и loglog A/е) « ЖЕ{А)Х Жп (А) для любого к ^> 0, то Докажем, что в предположениях теоремы выполняются нера- неравенства: ЖбЛА)<1оёЖеC)й(С))^Жб1(А) + log logs, B33) где 81 = Чг со (е/2), б2 = 2С0 Bе), s = 2 [2С/г] + 1. Действительно, для всякого 6L ^> 0 существует б^покрытие А, состоящее из Nb, (А) элементов: Uv . . ., U^6 . Выберем в каждом из элементов покрытия V\ по точке xt. Функционал F (х) на множе- множестве А мы аппроксимируем функционалом: ^ для Нетрудно убедиться, что если бх = V2 со (е/2), то р (F, F)< е. Функционал F принимает на каждом множестве Ut не более s значений, а значит, число всех функционалов не превосходит
7. ъ-энтропия и ъ-емкостъ множеств 189 числа sNe>, т. е. ЛГе B)й (С)) < B [-^] +1 )N6'U). B34) Пусть, с другой стороны, #!,..., #мв (А) образуют максималь- максимальное бг/2-различимое множество в А, состоящее из Мъг (А) эле- элементов. Положим 62 — 2со~1Bе). Вокруг каждого xt опишем сферу St радиуса 62/4. Построенные сферы, очевидно, не пересекаются. Строим множество функционалов, зависящих от наборов ах, . . ., ам6(А), где а* принимают значения 0 или 1: при всех остальных х или а$ = О. Число всех функционалов равно, очевидно, 2М^(А\ в силу выбо- выбора все они 2е-различимы. Нетрудно проверить, что они удовле- удовлетворяют условию Гёльдера с функцией со, т. е. при 2е < С ). B35) Неравенства B33) получаются из B34) и B35) двойным логарифми- логарифмированием. Применим полученную теорему и неравенства B33) к пространству функционалов, удовлетворяющих условию Гёльде- Гёльдера с показателем |} над изученными нами ранее пространствами. 1) А есть единичный n-мерный куб Dn. Пространств* 20% (С) совпадает с пространством Fp " (С) или F$ (С) в обозначении § 5. Из неравенств B33) следует, что Ж, (F; (С)) X A/е)"/е. B36) Неравенство B32) — частный случай основной теоремы, выведен- выведенной нами в § 5. 2) А есть введенное в § 5 пространство Fq (Сг, . . ., Ср, L) = = Fg. Из результата § 5 следует применимость нашей теоремы, откуда P. . B37) 3) А есть какое-либо из пространств аналитических функций А* (С), для которого
190 7. е.-энтропия и е-емкость множеств • (см. § 7). Из неравенств B33) получим, что 1 не /^G(C\ Г (К, G) /. 1 \Л+1 log^e^p17 )oo y+1' (log—j . 2. В этом пункте мы даем некоторые незначительные уточне- уточнения неравенств B33) для функционалов, удовлетворяющих усло- условию Липшица. * Функционал F (х) мы назовем удовлетворяющим условию Лип- Липшица, если он удовлетворяет условию Гёльдера с показателем Р = 1. Далее для простоты мы считаем константу Липшица L = 1. Пространство функционалов, удовлетворяющих условию Липши- Липшица над пространством А, мы обозначаем 25f. Покажем, что для связного вполне ограниченного множества А, лежащего в центрируемом 23 пространстве, и для любого целого s выполнены следующие неравенства: ] ). B38) Правое неравенство получается так. Рассмотрим se/(s + 1)~ покрытие А, состоящее из Nte/(S+1) (А) = N элементов Ux, . . ., Us- Через Xi обозначим центры множеств Ut. Связность множества А дает нам возможность соединить любые два множества Ut и Uj цепочкой пересекающихся множеств UK. Строим теперь аппрокси- аппроксимирующий функционал F для функции F. В качестве его значе- значения на множестве иг берем число т. е. приближаем значение F (х^ с точностью до e/(s -f- 1). Легко видеть, что значение функционала F в центрах Х{, примыкающих к Ux множеств Ui, удовлетворяют неравенству \F(xt) - /4*0 Неравенство B39) означает, что для приближения F (х{) в примы- примыкающих к Ui центрах xt множеств U{ с точностью до e/(s + 1) наи потребуется при знании F (хг) одно из s + 1 чисел: F (xi) + B/г — 1) -j^-j (k = 1,. .., -Ц1^-) при s нечетном или P(yi) + 2Лг ! (^ = !»•••. "Г") при s четном 23 Определение см. § 1.
7. Е-энтропия и ъ-емкостъ множеств 191 Ввиду оговоренной связности множества А мы сумеем однозначно построить весь функционал F, последовательно переходя от цент- центра к центру, выбирая при каждом шаге одно из s -f 1 значений. Таким образом, получим р (F, F) < е, т. е. е-сеть в пространстве 3)t (О- Правое неравенство в B38) и означает подсчет всевозможных функционалов Р'. Для получения левого неравенства в B38) построим максималь- максимальное 2е-различимое множество хх, . . ., хм, состоящее из М2г (А) = = М элементов. Как и при доказательстве теоремы XXV, строим множество функционалов, зависящих от а1? . . ., ам, «г = +1: Fa, ам(х) = еA — р(х, хг)/е) при сх1 = 1, р(л-, ^)<е, — е A — р (х, хг)/г) при щ ~ — 1, р (хи х) < е, О при всех остальных х. Аналогично доказывается, что все функционалы принадлежат 3)f (С) и 2е-различимы. Число всех функционалов равно 2Мзе(А\ что доказывает неравенства B38). Применим полученные неравенства к подсчетам в конкретных пространствах. 1) Пространство F™ (С) функций, заданных на единичном кубе Еп и удовлетворяющих условию Липшица: I/ (х) — j {х') | < max \xt — x'i\. В этом случае неравенства B38) дают 2A/ае)П < Ne {Fl (С)) < B [£ii±li j + 1 \ (S + l)((S+D/2^n B40) при любом s. Отсюда для величин, подобных плотностям из § 4, б = lim inf Жг (Fi (С)) гп, б = lihi sup Жг (/? (С)) еп получим Более точные оценки б, б их асимптотик, а также сам факт их сов- совпадения или несовпадения неизвестны и представляют собой имею- имеющие известный интерес задачи. 2) Пространство 3)Fi(C) функционалов, удовлетворяющих ус- условию Липшица над пространством Ff (С) функций / (х) на от- отрезке А = [0, 1], удовлетворяющих условию Липшица (см. § 2).
192 7. Z-энтропия и е-емкость множеств В этом случае неравенства B38) дают l(s-f-l)"|.\. . 2[(l+5)/S8]H B41) Положив s = [1/е], мы получим д Из B42), в частности, следует, что д log Же (®i1 ) со 1/е; B43) B43) представляет собой усиление формулы B37) для рассматри- рассматриваемого пространства. Добавление I ТЕОРЕМА А. Г. ВИТУШКИНА О НЕВОЗМОЖНОСТИ ПРЕДСТАВЛЕНИЯ ФУНКЦИЙ НЕСКОЛЬКИХ ПЕРЕМЕННЫХ СУПЕРПОЗИЦИЯМИ ФУНКЦИЙ МЕНЬШЕГО ЧИСЛА ПЕРЕМЕННЫХ Первый набросок излагаемой в этой статье теории был дан од- яим из авторов в качестве комментария к работе А. Г. Витушки- на [2], посвященной представлению функций нескольких перемен- переменных функциями меньшего числа переменных. В этом добавлении мы даем изложение задачи, которой зани- занимался А. Г. Витушкин, и ее решение, использующее результаты § 5 этой статьи. Пусть функция у = / (xi, . . ., хп) задается последовательностью формул S: У = ф (Уь • • •» Ут)' , it к . *,. —. Ks-i / *" -■• *s *" ■•■'lcs \ k,, ..., If у. =^,...,v Областью определения функции / является множество тех точек (хи . . ., хп), для которых при последовательном вычислении по формулам B44) мы всегда, вычислив все у с г + 1 индексами, по-
7. е-энтропия и е-емкость множеств 193 падаем в области определения функций <р с г индексами. Функция / называется суперпозицией функций ср порядка s, составленной по схеме S. При этом считается, что схема суперпозиции определяет- определяется заданием таблиц натуральных чисел Т: п та mk, к = 1, . . ., тп, т^ъ, &! = !,..., m; к% = 1, 2, . . ., mkl, "Ч,.... fes» Ai = 1, 2, . . ., m; . . .; ks = 1, 2, . . ., т^..,,*^, г* s = 1, . . ., n; ^ = 1, 2, . . ., m; ks=[l, . . ., mKu..., ка_1. Мы будем предполагать, что все функции фк,,.... кр имеют в ка- качестве областей определения единичные кубы соответствующего числа измерений. Тогда автоматически область определения / содержится в и-мерном единичном кубе. Мы будем, однако, рассматривать лишь суперпозиции, определенные на всем отом кубе. Поставим теперь каждой последовательности индексов ки . . . . . ., кг с 0 ^ г ^ s (при г = 0 «пустая» последовательность ин- индексов), удовлетворяющей условиям таблицы Т, в соответствие класс Ф»-,,..., к- функций ф/t,,..., к от mjt,,,.., is переменных. Класс получаемых при этом функций / будем обозначать S (Ф). Теорема XXVI. Пусть все функции ф = фк,,..., irp ояг яг = = 7%!,..., * классов OSl fc удовлетворяют условию Липшица I ф (г/i, • • -, г/™) — ф (г/1, • • •. у'т) \ < с S | г/к — г/ic I с одной и той же константой С; тогда в равномерной метрике II / II = sup | / | (как для функций /, так и для функций ф) где е' = e/Cs ц суммы берутся по всем наборам индексов к1, . . ., кг, удовлетво- удовлетворяющим условиям таблицы Т. Для доказательства покроем каждое Ф^,...,^
194 7. е-энтропия и е-емкость множеств множествами U* ъ диаметра 2е'. Выбрав для каждого набора индексов кх, . . ., кг одно определенное множество Uk ,...,» , обра- образуем множество U тех функций /, которые можно получить супер- суперпозициями по схеме S из функций ср,, v , принадлежащих выб- К1'"ЧГСГ ранным U* .,* • Легко видеть, что U имеет диаметр ^Г2е. Число же различных множеств fT^,...,* , очевидно, равно N = П N» * • Переходя к логарифмам, получаем требуемую оценку. Допустим теперь (эти допущения далее будем именовать усло- условиями (А)), что часть из классов Фк ,,..,к состоит из одной-един- ственной функции (в каждом классе), удовлетворяющей условию Липшица с соответствующей константой Z^ к , часть же яв- является классами всех функций гладкости q = q^v...,nr = р -{- а ^ I с заданными константами Со, . • ., Ср, С1. Легко видеть, что в силу теоре- теоремы XXVI Жг (S (Ф)) К A/8)Р, B45) где р = sup (wrj,...,*,./?^ kp). Ir1,...,lcr Рассмотрим пересечение 5 (Ф) с классом Fq определенных на re-мерном единичном кубе функций / гладкости q. В Fq введем то- топологию при помощи нормы Ц /|| (см. замечание 3 из конца § 5). Имеет место Лемма VIII. При условиях (А) р < nlq пересечение S (Ф) П |~) Fq нигде не плотно в Fq. Лемма является непосредственным следствием оценки B45) и замечания 3 из конца § 5. Так как с указанной там метрикой F" является полным пространством, то дополнение соединения счет- счетного числа нигде не плотных в Fg множеств всюду плотно. Это и позволяет вывести из нашей леммы следующую далее теоре- теорему XXVII, являющуюся некоторым обобщением теоремы, дока- доказанной в 1954 г. А. Г. Витушкиным с привлечением существенно других средств. 1 См, § 5.
7. г-энтропия и в-емкоеть множеств 195 Обозначим через класс функций /, определенных в га-мерном единичном кубе и пред- ставимых в виде суперпозиций (по любой схеме любого конечного порядка s) конечного числа фиксированных функций Фи • • •« ф| и конечного числа функций ср, для каждой из которых отношение пгФ/?ф числа переменных к гладкости <^ф, Теорема XXVII. Если р < nlq и функции ih, • • -t tyt удовлетворяют условию Липшица (с любыми константами Zl5 . . . , , ., Zt), то множество функций f из Fg, не входящих в 2р (фц . , . • • ч tyt), всюду плотно в Fg. Для доказательства надо лишь представить 2р (i|?i, . . ., г|5<) в виде счетного соединения множеств, подходящих под условия леммы. Такими множествами могут служить множества функций, удовлетворяющих условиям (А) при той или иной (фиксирован- (фиксированной для каждого множества) схеме суперпозиции, фиксированных наборов индексов, для которых Ф^ ,...,» состоит из той или иной из функций фц . . ., ф( и фиксированных натуральных значений констант Со1 )?г, . . ., С^1 Кг, С*1 V Очевидно, что число различных таких множеств лишь счетно. Добавление II СВЯЗЬ С ВЕРОЯТНОСТНОЙ ТЕОРИЕЙ ПРИБЛИЖЕННОЙ ПЕРЕДАЧИ СИГНАЛОВ 1. Каждый элемент х множества Л, лежащего в метрическом пространстве R, будем рассматривать как возможный «сигнал на входе» передающего или запоминающего устройства. Будем считать, что соответствующий «сигнал на выходе» есть случайный элемент ц пространства i?,.имеющий распределение вероятностей зависящее от х. При помощи ядра П (ж, Q) из любого распределе- распределения з5(|еВ) = ^ (В) на множестве А образуем распределение
196 7. г-энтропия и г-емкость множеств и совместное распределение &> №, ri)ef/)= SJ#i (их) п (х, dy)= Пусть, наконец, есть шенноновское количество информации, содержащейся в г| с условным распределением П относительно £, распределенного по закону Sfi (см. [27]). В соответствии с Шенноном величина является емкостью устройства, определяемого распределением П. Нас будет занимать случай, когда с вероятностью единица вы- выходной сигнал г| находится на расстоянии не более е от входного сигнала х: П (х, {у: р (х, z/)< е}) = 1. B46) При условии B46) будем говорить, что ядроП принадлежит клас- классу Кг. Теорема XXVIII. Если П (ЕЕ КЕ, то ё (П) > Ш№ (А). В самом деле, если расположить входной сигнал в Мъъ (А) точ- точках максимального (по числу элементов) 2е-различимого множе- множества с вероятностью М%1 (А) для каждой точки, то значение г| бу- будет определяться по значению £ с достоверностью (вероятность ошибки равна нулю), т. е. количество информации J (£, г|) будет равно энтропии распределения £ log M№ (A) = i№ (A). Теорема XXIX. Существует такое ядро П tEi KE, что & (П) = ЯР? (А). Для построения ядра, удовлетворяющего теореме XXIX, до- достаточно взять в R множество U из N% (А) точек, являющееся е-сетью для А, и поставить каждому ле4в соответствие с вероят- вероятностью единица одну из точек у (ЕЕ U с р (х, у) <^ е в качестве выходного сигнала г\. Тогда энтропия г|, а следовательно и У (£, г|), будет не больше Же (А) (независимо от выбора Рассмотрим теперь величину
7. г-энтропия и г-емкостъ множеств 197 Ото гарантированная емкость передающего устройства при точ- точности передачи е (когда, кроме B46), об условных распределени- распределениях П ничего неизвестно). Из теорем XXVIII и XXIX непосред- непосредственно вытекают оценки ёк(А)^8*(А)^Ж?(А). B47) 2. Наряду с величиной ё (П) в вопросах передачи сигналов с точностью до е имеет значение величина Ж*{3ьь)= inf tfJL, пек8 s называемая «энтропией распределения 3s! при условии B46) на точность передачи», или, короче, е-энтропией распределения SF>i, Теорема XXX. Ж? (А) = sup Же Eй!) < $* (А). "\ Теорема XXX непосредственно вытекает из известной общей формулы sup inf F (х, у) < inf sup F (x, у). x у ух Теорема XXXI. Существует ЗР$, для которого Ж? Для доказательства достаточно рассмотреть распределение 3^, приписывающее каждой из М2Е (А) точек максимального 2е-раз- личимого множества U вероятность М"^ (А). Из теорем XXX и XXXI и формулы B47) получаем B48) Из теоремы XXX и формул B47), B48) и теоремы IV получим, на- наконец, $2AA)<ffis(A)<%UA)- B49) Правое неравенство B49) совпадает с теоремой XXX. Для дока- доказательства левого надо заметить, что в силу B47), теоремы IV и B48) ё* (А) К М% (А) < $2ДЛ) < 36* (А). 15 декабря 1958 г. ЛИТЕРАТУРА 1. Бабенко К. И. О энтропии одного класса аналитических функций.— Науч. докл. высш. шк., 1958, т. 1, № 2. 2. Витушкин А. Г. К тринадцатой проблеме Гильберта,— ДАН СССР, 1954, т. 95, № 4, с. 701—704. 3. Витушкин А. Г. Абсолютная энтропия метрических пространств.— ДАН СССР, 1957, т. 117, № 5, с. 745—748.
198 7. г-энтропия и г-емкостъ множеств 4. Ерохин В. Д. Об асимптотике е-энтропии аналитических функций.— ДАН СССР, 1958, т. 120, № 5, с. 949-952. 5. Колмогоров А. Н. Оценки минимального числа элементов е-сетей в раз- различных функциональных классах и их применение к вопросу о пред- представимости функций нескольких переменных суперпозициями функций меньшего числа переменных,— УМН, 1955, т. 10, вып. 1, с. 192—194. 6. Колмогоров А. Н. О некоторых асимптотических характеристиках вполне ограниченных метрических пространств.— ДАН СССР, 1956, т. 108 № 3, с. 385-389. 7. Тихомиров В. М. Об е-энтропии некоторых классов аналитических функций.— ДАН СССР, 1957, т. 117, № 2, с. 191—194. 8. ГуревичВ., Волмен, Г. Теория размерности. М.: Изд-во иностр. лит., 1948. 9. Hausdorff F. Dimention und aufieres MaB.— Math. Ann., 1919, Bd. 79 S. 157-179. 10. Бахвалов Н. С. К вопросу о числе арифметических действий при решении уравнения Пуассона для квадрата методом конечных разностей.— ДАН СССР, 1957, т. 113, № 2, с. 252—255. 11. Бахвалов Н. С. О составлении уравнений в конечных разностях при приближенном решении уравнения Лапласа.— ДАН СССР, 1957, т. 114, № 6, с. 1146—1149. 12. Витушкин А. Г. Некоторые оценки теории табулирования.— ДАН СССР, 1957, т. 114, № 5, с 923—926. 13. Колмогоров А. Н. О линейной размерности топологических векторных пространств.— ДАН СССР, 1958, т. 120, № 2, с. 239—241. 14. Ерохин В. Д. О конформных преобразованиях колец и об основном базисе пространства функций, аналитических в элементарной окрест- окрестности произвольного континуума.— ДАН СССР, 1958, т. 120, N» 4, с. 689—692. 15. Александров П. С. Введение в общую теорию множеств и функций. М.; Л.: Гостехиздат, 1948. 16. Урысон П. С. Труды по топологии и другим областям математики. М.: Гостехиздат, 1951. Т. 2. 17. Banach S. Theorie des operation lineaires. Warszawa, 1932. 18. Бернштейн С. Н. Теория вероятностей. М.; Л.: Гостехиздат, 1946. 19. Тот Л. Ф. Расположения на плоскости, сфере и в пространстве. М.: Физматгиз, 1958. 20. Davenport H. The covering of space by spheres Reneli.— Rend. Circ Palermo, 1952, vol. 1, N 2, p. 92-107. 21. Watson L. The covering of space by spheres.— Rend. Circ. Palermo, 1956, vol. 5, N 1, p. 93-100. 22. Blichfeldt H. F. The minimum value of quadratic forms, and the dosest packing of spheres.—Math. Ann., 1929, Bd. 101, S. 605—608. 23. Axuesep H. И. Лекции по теории аппроксимации. М.; Л.: Гостехиздат, 1947. 24. Фихтенгольц Г. М. Курс дифференциального и интегрального исчисле- исчисления. М.: Гостехиздат, 1951. Т. 2; 1949. Т. 3. 25. Маркушевич А. И. Теория аналитических функций. М.; Л.: Гостехиз- Гостехиздат, 1950. 26. Котельников В. А. О пропускной способности «эфира» и проволоки в ьлектросвязи.— В кн.: Матер, к I Всесоюз. съезду по вопросам тех- технической реконструкции дела связи и развития слаботочной промышлен- промышленности. М., 1933. 27. Shannon С. A mathematical theory of communication.— Bell Syst. Techn. J., 1948, vol. 27, N 3, p. 379-423; N 4, p. 623-656. 28. Левин Б. Я. Распределение корней целых функций. М.: Гостехиздат, 1956. 29. Лаврентьев М. А., Шабат Б. В. Методы теории функций комплексного переменного. М.: Физматгиз, 1958.
8. К оценке трудности приближенного задания и вычисления функций 199 8 РАЗЛИЧНЫЕ ПОДХОДЫ К ОЦЕНКЕ ТРУДНОСТИ ПРИБЛИЖЕННОГО ЗАДАНИЯ И ВЫЧИСЛЕНИЯ ФУНКЦИЙ * Чтобы избежать технических осложнений, мы будем рассмат- рассматривать действительны) функцш У = / <*), заданные на отрезке А = {х: -1<х<1}. Все наиболее существенные черты проблематики, которая нас будет интересовать, можно понять на примере функциональных классов Wp функций, удовлетворяющих неравенству vrai max | /<?' (х) ] < 1, Лг-функций, которые могут быть аналитически продолжены во внутренность эллипса с фокусами в точках —1 и +1 и суммой по- полуосей г ^> 1. Мы будем изучать способы задания и вычисления функций указанных классов с точностью до некоторого фиксированного е> О 1 ПРИБЛИЖЕНИЕ АЛГЕБРАИЧЕСКИМИ МНОГОЧЛЕНАМИ Будем обозначать через па (/, е) наименьшее п, при котором существует многочлен Р (х) = сг + с2х + . . .+ СпХ*-1, удовлетворяющий на А неравенству \f-P |<е, а для функционального класса F положим па (F, е) = sup na (/, е).. fF Вот наиболее окончательные результаты об асимптотическом поведении функций па (F, г) для классов Wp и АТ, которые дает классическая теория наилучших приближений: па (Wp, г) со Ср A/еI'* A) Ргос. Intern. Congr. Math. Stockholm, 1963, p. 369—376.
200 8. К оценке трудности приближенного задания и вычисления функций где Ср — некоторые константы, аналитическое выражение которых; мы приводить не будем (Никольский, Бернштейн, 1946—1947); rca(^ne)cx>1-—log— B), (Бернштейн, 1913). 2 ПРИБЛИЖЕНИЕ ЛИНЕЙНЫМИ ФОРМАМИ1 Естественно поставить вопрос о том, насколько удачен выбор алгебраических многочленов в качестве аппарата для приближен- приближенного представления функций классов Wp и АТ (кажется, пробле- проблематика этого рода была впервые выдвинута в [3]). Обозначим через * п (F', е) наименьшее п, при котором можно найти такие функции ф1; ф2, . . ., ф„, что для любой функции / Gi F найдется линейная форма L (х) = с^! (ж) + . . . + с„фп (х), удовлетворяющая на А неравенству \1 — Ь |<е. Легко понять, что всеп;а п (F, е) < па (F, е). В случае класса Аг ^^- C) (Витушкин, Ерохин, 1957—1958). В случае класса Wv алгебраические многочлены оказываются нерациональным способом приближения, так как п (F, г) оо Ср A/еI^, 4) где Ср\ Ср = 2/я E) (Тихомиров, 1960). Иначе говоря, выбирая рационально функции фк, можно при той же точности е ограничиться формами, содержащими в я/2 = 1,57 ... раз меньше членов, чем при приближении многочленами. 1 Современное изложение проблематики наших § 1,2 см. [1]. Вместо B) в [1] сообщаются найденные позднее обобщения. В более старомодной формулировке B) можно найти уже в § 46 классического мемуара Берн- штейна [2]. В A), B) и далее п (в) со m (в), если п (в)/т (к) -^> 1 при е —» 0; п(е) ^ т(е), если lim inf (п (в)/т(е)) > 0; п (е) X т (в), если одновременно 8->-0 м (е) J> т (в) и т (е) ^ п (е).
8. К оценке трудности приближенного задания а вычисления функций ?01 3 НЕОБХОДИМОЕ КОЛИЧЕСТВО ИНФОРМАЦИИ Чтобы фиксировать с точностью до е функцию /, принадлежа- принадлежащую к классу F, в котором все функции допускают представление линейными формами L (х) =c1cf1 (х) + . . . + спц>„ (х), с, ошибкой, не превышающей достаточно указать коэффициенты ск с ошибкой не больше е' = &12пМ, где М — верхняя грань абсолютных величин функций щ. Приближенные значения коэффициентов можно записывать по двоичной системе счисления. Таким образом, задание функции сводится к заданию определенного числа знаков, каждый из кото- которых может принимать лишь значения 0 и 1. Если ограничиться функциями, подчиненными дополнительному условию |/(х) |<1, то при приближении функций классов Wp и АТ алгебраическими многочленами при е —>0 число знаков, с которым необходимо за- задавать коэффициенты, оказывается порядка log A/е). Это позволяет получить следующие оценки «количества ин- информации», необходимого для фиксации с точностью до е произ- польной функции / класса Ат или класса Wp: I (Ат, 8) =< (log A/8))«, F) / (Wp, е) =< A/еI/? log A/е). G) Первая из этих оценок не может быть усилена в смысле порядка пеличины / (Ат, е), но может быть уточнена: (Витушкин, 1957). Оценка же G) дает немного завышенный порядок величины I (Wp, e). Истинный порядок величины таков: . (9) (Колмогоров, 1955). Более подробно о величине / (F, е) см. во введении к статье 14]. Там показывается, что / (F, е) есть целое число, определяемое неравенствами log2 N (F, в) < / (F, е) < log2 N (F, в) + 1, A0)
202 8. К оценке трудности приближенного задания и вычисления функций '. где N (F, е) — минимальное число элементов покрытия множеств, ва F множествами диаметра 2е в метрике Р (/i. /2) = sup I U (х) — h (z) I- 4 СЛОЖНОСТЬ ВЫЧИСЛЕНИЯ Для простоты ограничимся в этом разделе функциями, которые, кроме условия I/WK1, введенного в предшествующем разделе, подчинены условию Лип- Липшица I / 00-/(*') К 1. Пусть * > log A/е) + 3. Легко видеть, что любая таблица, которая каждому двоичному; чизлу х = — 1 + хъ х2, . . ., xs (xt = 0, 1) ставит в соответствие двоичное число , У = -1 + 2/1, У» ■ ■ -, Us = U (x) (Vi = 0, 1), (И)' удовлетворяющее условию | / (х) - U (х) К г/2, I может рассматриваться как таблица, дающая значения у = f (ос) с точностью до е для любого х >~ А. '• Зависимость A1) может интерпретироваться как дискретная векторная функцдх отображающая s-мерные векторы .! X = (xlt . . ., xt) ; в s-мерные векторы У = (Уъ ■ ■ ч У»), где переменные Xj и yt принимают лишь значения 0 и 1. Такого рода векторные «функции алгебры логики» естествен»» но представлять в виде суперпозиций элементарных функций , 5 = /A*4). , где вспомогательные переменные |, г\, £, принимают лишь знача-
8. К оценке трудности приближенного задания и вычисления функций 203 ния 0, 1. Известно, что таких элементарных функций имеется всего 16. Будем называть сложностью векторной функции алгебры логи- логики Y = Ф (X) минимальное число членов в представлении ее в виде суперпозиции элементарных функций (см. [5]). Сложностью е-задания функции / мы будем называть мини- минимальную сложность функций Ф, соответствующих таблицам, задающим у = f (х) с точностью до е. Соединяя результаты заметок [5] и [6] с некоторыми приемами, разработанными Шенноном, и оценками, изложенными в разде- разделе 3, Офман установил, что максимальные е-сложности функций из Wp и Ар допускают оценки К (Wp, г) х (l/eI№/log A/е), A2) «=10*3 + 1-2,58... A3) Незавершенность оценок A3) связана с тем обстоятельством, что до настоящего времени, по-видимому, остается неизвестной асимптотика числа т (s) элементарных операций над парами дво- двоичных знаков, необходимого для выполнения умножения двух s-значных чисел. Обычный школьный рецепт умножения дает лишь а оценки Офмана и Карацубы таковы: s=^m(s) =<s10^3 A4) 5 ОЦЕНКА СЛОЖНОСТИ ИНДИВИДУАЛЬНЫХ ФУНКЦИЙ В классической теории приближений алгебраическими много- многочленами известны «обратные теоремы», показывающие, что ни одна индивидуальная функция, не обладающая достаточной «гладкостью», не может хорошо приближаться многочленами не слишком высоких степеней на всем отрезке А. Все сказанное в разделах 2 и 3 по существу относится к клас- классам функций, а не к индивидуальным функциям. Но при подходе к делу, изложенному в разделе 4, задача оценки е-сложностей К (/, е) индивидуальных функций содержательна и очень инте- интересна. К сожалению, получение оценок снизу здесь, видимо, очень трудно. Нарушение гладкости не делает еще неизбежным образом функцию сложной. Например, для функции Ван дер Вардена, пе имеющей ни в одной точке производной, легко получается оценка К (/, 8) =< (log A/8)J. A5)
204 9. О таблицах случайных чисел ЛИТЕРАТУРА 1. Тихомиров В. М. Поперечники множеств в функциональных простран- пространствах и теория наилучших приближений.— УМН, 1960, т. 15, вып. 3, с. 81-120. 2. Bernstein S. Sur la valeur asymptotique de la meilleure approximation des fonctions analytiques admettant des singularites donnees.— Bull. Acad. Roy. Belg. Ser. 2, 1913, vol. 4, p. 76—90. 3. Kolmogoroff A. Ueber die beste Annaherung von Funktionen einer gege- benen Funktionenklasse.— Ann. Math., 1936, vol. 37, p. 107—110. 4. Колмогоров А. Н., Тихомиров В. М. s-энтропия и е-емкость множеств в функциональных, пространствах,— УМН, 1959, т. 14, вып. 2, с. 3—86. 5. ОфманЮ. Об алгоритмической сложности дискретных функций,— ДАН СССР, 1962, т. 145, № 1, с. 48-51. 6. КарацубаА., ОфманЮ. Умножение многозначных чисел на автома- автоматах.— ДАН СССР, 1962, т. 145, № 2, с. 293—294. 9 О ТАБЛИЦАХ СЛУЧАЙНЫХ ЧИСЕЛ *1 От автора Редакция «Семиотики и информатики» сочла целесообразным опубли- опубликовать русский перевод моей статьи, отражающей определенный этап моих попыток осмыслить частотную интерпретацию вероятностей Р. фон Мизеса. Статья была написана во время моего пребывания в Индии в 1962 г. и опубли- опубликована в индийском журнале «Санкхиа», весьма авторитетном у специалистов по математической статистике англоязычных стран, но мало распространен- распространенном у нас в СССР. Знакомый с работами Мизеса читатель, может быть, обра- обратит внимание на более широкое определение алгоритма формирования выбо- выборок А. Но главное отличие от Мизеса состоит в строго финитном характере всей концепции и во введении количественной оценки устойчивости частот. Задача сближения оценок D.3) и D.4) при всей ее элементарности, кажется, еще ждет своего решения. Дальнейшие этапы моих поисков отражены в двух заметках, опубликованных в 1965 и 1969 гг. в журнале «Проблемы передачи информации». В «Семиотике и информатике» A981, вып. 16) см. обзор В. В. Вьюгина. 1 ВВЕДЕНИЕ Теоретико-множественные аксиомы теории вероятностей, в формулировке которых мне довелось принять участие [1], позво- позволили устранить большинство трудностей в построении математи- * On tables of random numbers.— Sankhya. Indian J. Statist. Ser. A, 1963, vol. 25, N 4, p. 369—376. Перевод А. Х. Меня. 1 Эта статья была опубликована в периодическом сборнике «Семиотика и информатика» (М.: ВИНИТИ, 1982, вып. 18, с. 3—13), причем публика- публикации перевода был предпослан специально написанный А. Н. Колмогоровым и воспроизводимый здесь текст «От автора».— Примеч. ред.
9. О таблицах случайных чисел 205 ческого аппарата, пригодного в большом числе приложений ве- вероятностных методов, причем настолько успешно, что проблема отыскания причин применимости математической теории вероят- вероятностей стала казаться многим исследователям второстепенной. Я уже высказывал точку зрения [1, гл. 1] 2, что основой приме- применимости математической теории вероятностей к случайным явле- явлениям реального мира является частотный подход к вероятности в той или иной форме, неизбежность обращения к которому горя- горячо отстаивал фон Мизес. Тем не менее в течение длительного вре- времени я считал, что: A) частотный подход, основанный на понятии предельной час- частоты при стремящемся к бесконечности числе испытаний, не поз- позволяет обосновать применимость результатов теории вероятно- вероятностей к практическим задачам, в которых мы имеем дело с конеч- конечным числом испытаний; B) частотный подход в случае большого, но конечного числа испытаний не может быть развит строго формально, чисто мате- математически. В соответствии с этим я иногда выдвигал частотный подход к вероятности, включавший сознательное использование некоторых не вполне формальных соображений о «практической достовер- достоверности», «приблизительного постоянства частот при больших се- сериях испытаний» без точного описания того, какие серии «доста- «достаточно велики» и т. д. (см. [1—3]: «Основные понятия теории ве- вероятностей», глава 1, и более подробно в БСЭ статью «Вероятность» и главу о теории вероятностей в книге «Математика, ее содержа- содержание, методы и значение»). Я по-прежнему придерживаюсь первого из указанных поло- положений. Что касается второго, то я пришел к выводу, что понятие случайного распределения может быть введено строго формально, а именно: можно показать, что в достаточно больших совокупно- совокупностях распределение некоторого свойства может быть таким, что частота его появления будет примерно одинаковой для всех до- достаточно больших выборок, если только закон выбора достаточно прост. Полное развитие такого подхода предполагает введение меры сложности алгоритмов. Я рассчитываю обсудить этот вопрос в другой статье. В настоящей статье я буду использовать лишь тот факт, что число простых алгоритмов не может быть очень ве- велико. Для определенности мы будем рассматривать таблицу Т = {tlt . . ., f;v) из N нулей и единиц: tk = 0 или 1. Такая таблица будет назы- 2 Впервые эта книга появилась на немецком языке: Kolmogoroff A. Grundbegriffe der Wahrscheinlichkeitsrechnung. Berlin, 1933. Рус. пер.: Колмогоров A. IT, Основные понятия теории вероятностей. М.; Л.: ОНТИ, 1936; 2-е изд. (под тем же загл.). М.: Наука, 1974.— Примеч. пер.
206 9. О таблицах случайных чисел ваться случайной, если при различных способах выбора подмно- подмножества А достаточно большого объема «из {1, . . ., N} частота появления единиц в А приблизительно одинакова. Можно, напри- например, выбрать в качестве А: (а) множество первых п четных чисел; (б) множество первых п простых чисел рх, . . ., рп — и т. д. Обычное понятие «случайности» не сводится к постоянству ча- частот при не зависящих от строения таблицы способах выбора. Можно, например, выбрать множество А так: (в) множество первых п значений к ^> 2, для которых t^-i = 0; (г) множество первых п значений к^> s, для которых ^_х = v к2 2» jcg s (д) множество первых п четных чисел к = 2i, для которых = i; (е) множество чисел къ Аг, . . ., кп, выбранных по правилу и так далее. Точное определение понятия «допустимого алгоритма» выбора будет дано в разделе 2. Если для таблицы достаточно большого размера N по крайней мере один простой тест на случайность такого типа с достаточно большим размером выборки п показывает «значительное» отклоне- отклонение от принципа постоянства частот, мы немедленно отвергаем ги- гипотезу о «чисто случайном» происхождении рассматриваемой таб- таблицы. 2 ДОПУСТИМЫЕ АЛГОРИТМЫ ВЫБОРА И (п, е)-СЛУЧАИНЫЕ ТАБЛИЦЫ Допустимый алгоритм выбора множества А =Я(Г)С{1, . ... N) в соответствии с таблицей Т размера N определяется функциями 3 3 Функции в первой строке являются константами (функциями от пу - стого множества аргументов).
9. О таблицах случайных чисел 207 ). Gi (ii, Tx; |2, т2), #a A^ ty, |2, т2); t2; . . .; gW-n Tjv-i),; #;v-i (Id Ti! 1г> T2! • • •! iiv-D Tiv-i)t где переА1енные тк и функции Gk и Zfj; принимают значения 0 и 1, а переменные |fc и функции Fx принимают значения из множества {1, . . ., N}. Функции Fk должны удовлетворять дополнительному условию Ft Ei, ti; • • •; I*, т») ^ g|. B.1) Применение алгоритма состоит в образовании последовательности t t B.2) и определении того, какие элементы этой последовательности включаются в А. Последовательность оканчивается, как только значение 4 Hs (xv tXl; ... xs, tx) = 1 B.3) появляется. В этом случае последним членом последовательности будет xs. Если Як (хх, гЖ1; . . .; хц, tXk) = 0 при всех к < N, то последовательность оканчивается элементом xs при s = iV, т. е. исчерпывает все элементы множества {1, ... . . .,N): ведь согласно условию B.1) все элементы последователь- последовательности B.2) различны. Те элементы х^, для которых Gjc-i (zi> **,; • • •; a:ft_i, Ц_х) = 1, B.4) образуют множество А. Мне кажется, что эта конструкция пра- правильно отражает замысел фон Мизеса во всей его общности; при этом сохраняется основное ограничение —при определении того, входит лн хЕ{1, . . ., N) в А, не используется значение tx. * В частности, если Но = 1) выбор не может начаться и множество А пусто.
208 9. О таблицах случайных чисел Пусть дана система допустимых алгоритмов выбора (размер N таблицы фиксирован). Определение. Таблица Т размера N называется (га, г)- случайнойпо отношению к системе Л^, если существует такая кон- константа р, 0 ^ р ^ 1, что для всякого А = R (T), R ЕЕ Л^ с чис- числом элементов v ^> «частота л (А) = — N tk удовлетворяет нера- венству | л (А) — р | < е. Иногда удобно говорить о (га, г, /?)-случайности при фиксиро- фиксированном р. Имеет место следующая Теорема 1. Если число элементов системы Л^ не превосхо- превосходит х (и, 8) = V^a-s), B.5) то для любого р, 0 ^ р ^ 1, существует таблица Т размера N, являющаяся (п, е, р)-случайной по отношению к Лщ. Смысл входящей в теорему оценки станет более ясным, если мы введем двоичный логарифм к{Л^) = loga p (J?jv) числа элемен- элементов р системы Л^. Число X(^N) равно количеству информации, не- необходимому для указания конкретного элемента R из Л^. Ясно, что в случае большого Я (Лк) система Ли должна содержать алго- алгоритмы, само описание (а не только действительное выполнение) которых сложно (требует не менее X (Л^) двоичных знаков). В нашей теореме условие существования (п, е)-случайных по отношению к Л^ таблиц при произвольном р записано в виде не- неравенства X (-%N) < 2 (log2 e)«e2 A — е) — 1. Такая количественная формулировка содержащегося в теоре- теореме результата поучительна сама по себе. Если отношение Х/п до- достаточно мало, то для любого заранее выбранного е и для любых N и р и любой системы допустимых алгоритмов с X (Лк) < X существуют (п, е)-случайные по отношению к ней таблицы. Доказательство этой теоремы будет дано в разделе 3. В разде- разделе 4 мы исследуем возможность улучшения данных в ней оценок. Сделаем еще два замечания. Замечание 1. Поскольку алгоритм выбора Множества определяется функциями Fk, Gk, Hk, естественно считать два ал- алгоритма совпадающими, если и только если соответствующие функции Fft, Gk, Hk совпадают. Уже с этой точки зрения число различных возможных алгоритмов выбора для данного N конеч- конечно.
9. О таблицах случайных чисел 209 Можно встать на другую точку зрения, считая два алгоритма различными только в том случае, если они дают различные мно- множества А = R (Т) хотя бы для одной таблицы Т. С этой точки врения число различных алгоритмов еще сокращается и не пре- превосходит Вопрос о точной оценке числа допустимых алгоритмов (со вто- второй точки зрения) не так прост. Легко оценить лишь число алго- алгоритмов, образующих множество А независимо от свойств табли- таблицы Т. Число различных таких алгоритмов равно 2N в соответст- соответствии с числом различных подмножеств A CZ {1, . • ., N}. Замечание 2. Допустимые алгоритмы выбора из множе- множества всевозможных натуральных чисел рассматривались А. Чёр- чем [4]. Заменим в нашем определении конечную таблицу Т на бесконечную последовательность нулей и единиц Мы предполагаем, что значения переменных 1^ и функций Fk яв- являются натуральными числами. Однако мы отказываемся от тре- требования окончания выбора при s = N, предполагая вместо этого, что (бесконечная) последовательность функций F^, GK, Hk вычис- вычислима в традиционном для формальных определений подобного рода смысле. Исходным пунктом исследований Чёрча является существование (для любого р) последовательностей tlt t%, ... . . ., £/v, . . ., плотность которых равна р по любому бесконечно- бесконечному 6 множеству А, получаемому с помощью допустимого алгорит- алгоритма. 3 ДОКАЗАТЕЛЬСТВО ТЕОРЕМЫ 1 Этот результат относится к конечным объектам; его формули- формулировка не включает никаких понятий теории вероятностей. Исполь- Использование некоторых результатов теории вероятностей в доказатель- С1ве не нарушит его формального характера, если мы ограничим- ограничимся рассмотрением распределения «весов» в множестве таблиц Т размера N, приписывая вес р (Т) = рм A — р)»-м таблице, содержащей М единиц. Такой метод доказательства не затрагивает логической природы самой теоремы и не мешает ссылаться на нее при обсуждении области применимости теории вероятностей. ?. В этом понятии Чёрча существенный интерес представляют лишь бес- бесконечно продолжающиеся алгоритмы выбора, поэтому функции G^ и все связанное с ними должны быть опущены.
210 9. О таблицах случайных чисел Может быть доказано следующее неравенство, относящееся к «схеме Бернулли»: PJsup > 8} <C 2e-2"£!«-s). C.1).! Здесь p — вероятность успеха в каждом из последовательности] независимых испытаний; \лк — число успехов в первых А; испы-j таниях. Мы легко можем вывести следствие из C.1). Следствие. Пусть6 Р{£* = 1 |*<V, glf . ..,£*-!> =Р, г5е ^ц 1а, ...,£■» — последовательность случайного числа слу них величин up — постоянная. Тогда P{v>«, Рассмотрим теперь систему Лп из р допустимых алгоритмов. Рассмотрим таблицу, образованную случайно, причем tx = 1 с вероятностью р независимо от значений других tm. Если мы зафиксируем R £= Ля и обозначим через те элементы последовательности номера которых попадают в А = R (Т) (перечисленные в порядк^ их появления в ходе применения алгоритма), то, как легко ви1' деть, условия справедливости C.2) будут выполнены. Поэтому для любого данного R £= Ля вероятность того, что число эле- элементов v множества А будет не меньше п и что неравенство | я (А) — р | > е также будет выполнено, меньше чем 2е~2ПЕ!A~г>. Если р < 1 то сумма вероятностей, с которыми нарушается неравенство | я (А) - р |< 8 [ по всем алгоритмам, приводящим к множествам из п или боле| элементов, будет меньше 1. Поэтому с положительной вероятное стью таблица Т окажется («, 8, р)-случайной в смысле определе-i ния из раздела 2. Отсюда следует утверждение о существования («, 8, р)-случайных по отношению к Мл таблиц (не апеллирую* щее к вероятностным допущениям о распределении Р(Т) в прос» транстве таблиц). 6 Мы рассматриваем условную вероятность того, что |^ = 1 при &< V и данных |1; . . ., ifr-b
9. О таблицах случайных чисел 211 4 О ВОЗМОЖНЫХ УЛУЧШЕНИЯХ ОЦЕНКИ, ДАВАЕМОЙ ТЕОРЕМОЙ 1 Пусть га, е, N, р фиксированы. Тогда для каждого неотрица- неотрицательного р имеет место одно из двух: (а) для всякой системы Л^ из р допустимых алгоритмов вы- выбора найдется таблица Т размера N, которая (га, е, р)-случайна относительно J^jv; (б) существует система Мц из р допустимых алгоритмов вы- выбора, относительно которой никакая таблица Т размера N не (га, е, р)-случайна. Легко видеть, что если ситуация (а) имеет место для некоторого р, то та же ситуация имеет место и для всех р' <С р. Ясно также, что для р = 0 имеет место ситуация (а). Следовательно, сущеее- вует верхняя грань т (га, е, N, р) = sup р pea тех р, для которых выполняется (а). Для всех р, больших т (га, е, N, р), имеет место (б). Если мы положим т (га, е) = inf т (га, 8, N, р), го утверждение теоремы 1 раздела 2 запишется в виде неравен- неравенства т (и, е) > V2e2«e2d-e). D.1) Переходя к логарифмам I (П, 8, N,p) = l0g2 Т (п, 8, N, р), I (П, 8) = log2T (n, 8), мы можем записать B.6) в форме I (п, е) > 2«ег A — в) — 1. D.2) В действительности основной интерес представляет асимптоти" чески точная оценка I (п, е) при малых 8 и больших п и I (п, е)- При е -*- 0, «е2 -*- со из D.2) вытекает I (и, е) > 2«е2 + о (гае2). D.3) С другой стороны, как мы увидим, при е ->- 0, гае ->- оо имеет место соотношение / (п, е) < 4гев + о (гае). D.4) К сожалению, мне не удалось устранить разрыв между степенями г в D.3) и D.4).
212 9. О таблицах случайных чисел Оценка D.4) является простым следствием следующей теоре- теоремы, формулировка которой, к сожалению, довольно сложна л'к «танет ясной из даваемого нами доказательства. Теорема 2. Если к < A — 2е)/4е, п < (к — 1)т, N > km, то т (n, е, N, V2)< k-2m. Для доказательства теоремы достаточно при выполнении уело вий к < A — 2е)/4е, п = (к — 1)т, N = km построить систему Яп из р = к-2т + 1 допустимых алгоритмов, для которой не существует (п, е, 1/2)-случайной таблицы Т. Мы разбиваем множество {1, . . ., N} на к множеств Дг, г = = 1, . . ., к, по т элементов в каждом. Каждое А, имеет 2™ под-; множеств. Образуем множество Аи, i = 1, 2, . . ., к; $ = 1, 2, . . .' . . ., 2т, взяв объединение всех А;- при / Ф i и 5-го подмножества Aj. В систему JIN войдут: к-2т алгоритмов, выбирающих множества Ais, один алгоритм, выбирающий А = {1, . . ., N}. ' Мы докажем, что никакая таблица не является («, s, V2)- случайной по отношению к Я^. Предположим, что таблица Т является (п, е, V2)-случайной по отношению к М^. Она должна содержать по крайней мере {*/2 — e)N нулей и (V2 — s)N единиц. Поэтому можно так выбрат г и /, чтобы А,- содержало а^ (V2 — е)те нулей, а А;- содержало Р > (х/г — е)те единиц. ' Обозначим через у наименьшее из чисел а и р; тогда у > ^ (V2 — s)m. Существует алгоритм R' €Е J?n (R" e J^n), выби- выбирающий множество А' (А"), содержащее все элементы {1, . . ., N}} за исключением у элементов в Аг (А;), соответствующих нулям (единицам) таблицы Т. Легко видеть, что соответствующие час- частоты равны . .,. М , . „. М — у где М — общее число единиц в таблице Т. Оценим разницу между этимя частотами Эта оценка противоречит системе неравенств I я (A') -V,Ke, |n (A") - 72 |< е, вытекающей из предположения («, е, 1/2)-слут1айности таблицы Т. Это противоречие доказывает теорему.
10. Три подхода к определению понятия «.количество информации* 213 ЛИТЕРАТУРА 1. Kolmogorov А. N. Foundations of the theory of probability. Chelsea, 1950. 2. Колмогоров А. Н. Вероятность.— В кн.: БСЭ. 2-е изд. 1951, т. 7, е. 508—510. 3. Колмогоров А. Н. Теория вероятностей.— В кн.: Математика, ее содер- содержание, методы и значение. М.: Иэд-во АН СССР, 1956, т. 2, с. 252—284. 4. Church A. On the concept of a random sequence.— Bull. Amer. Math. Soc, 1940, vol. 46, N 2, p. 130—135. 10 ТРИ ПОДХОДА К ОПРЕДЕЛЕНИЮ ПОНЯТИЯ «КОЛИЧЕСТВО ИНФОРМАЦИИ» * § 1 КОМБИНАТОРНЫЙ ПОДХОД Пусть переменное х способно принимать значения, принад- принадлежащие конечному множеству X, которое состоит из N элемен- элементов. Говорят, что «энтропия» переменного х равна Я (х) = log2iV. Указывая определенное значение х = а переменного х, мы «снимаем» эту энтропию, сообщая «информа- «информацию» Если переменные хи х2, . . ., х% способны независимо пробегать множества, которые состоят соответственно из Nu N2, . . ., N^ элементов, то Я (хи х2, . . ., xt) = Я К) + Я (х2) + . . . + Я (хк). A) Для передачи количества информации / приходится употреблять Г / при / целом, [[/] + 1 при / дробном двоичных знаков. Например, число различных «слов», состоя- состоящих из к нулей и единиц и одной двойки, равно 2* (к + 1). * Проблемы передачи информации, 1965, т. 1, № 1, с. 3—11.
214 10. Три подхода к определению понятия «количество информации* Поэтому количество информации в такого рода сообщении равно / = к + log2 (к + 1), т. е. для «кодирования» такого рода слов в чистой двоичной сис- системе требуется х нулей и единиц. При изложении теории информации обычно не задерживаются надолго на таком комбинаторном подходе к делу. Но мне кажется существенным подчеркнуть его логическую независимость от ка- каких бы то ни было вероятностных допущений. Пусть, например, нас занимает задача кодирования сообщений, записанных в ал- алфавите, состоящем из s букв, причем известно, что частоты рг = Ф B) появления отдельных букв в сообщении длины п удовлетворяют неравенству s х=—23 pTiog2pr<A. C) Легко подсчитать, что при больших п двоичный логарифм числа сообщений, подчиненных требованию C), имеет асимптотическую оценку Н = log2iV — nh. Поэтому при передаче такого рода сообщений достаточно упот- употребить примерно nh двоичных знаков. Универсальный метод кодирования, который дозволит пере- передавать любое достаточно длинное сообщение в алфавите из s букв, употребляя не многим более чем nh двоичных знаков, не обязан быть чрезмерно сложным, в частности не обязан начи- начинаться с определения частот рТ для всего сообщения. Чтобы понять это, достаточно заметить: разбивая сообщение S на m отрезков Slt Sz, . . ., Sm, получим неравенство X > И KXl + X2 + • • • + »mXml- D) Впрочем, я не хочу входить здесь в детали этой специальной за- задачи. Мне важно лишь показать, что математическая пробле- проблематика, возникающая на почве чисто комбинаторного подхода к измерению количества информации, не ограничивается три- тривиальностями. Вполне естественным является чисто комбинаторный подход к понятию «энтропии речи», если иметь в виду оценку «гибкости» 1 Всюду далее / я; g обозначает, что разность / — g ограничена, а / — g, что отношение f : g стремится к единице.
10. Три подхода к определению понятия «количество информации* 215 речи — показателя разветвленности возможностей продолжения речи при данном словаре и данных правилах построения фраз. Для двоичного логарифма числа N русских печатных текстов, составленных из слов, включенных в «Словарь русского языка» С. И. Ожегова и подчиненных лишь требованию «грамматической правильности» длины га, выраженной в «числе знаков» (включая «пробелы»), М. Ратнер и Н. Светлова получили оценку h = (log2W)/ra = 1,9 ± 0,1.J Это значительно больше, чем оценки сверху для «энтропии лите- литературных текстов», получаемые при помощи различных методов «угадывания продолжений». Такое расхождение вполне естест- естественно, так как литературные тексты подчинены не только тре- требованию «грамматической правильности». Труднее оценить комбинаторную энтропию текстов, подчи- подчиненных определенным содержательным ограничениям. Представ- Представляло бы, например, интерес оценить энтропию русских текстов, могущих рассматриваться как достаточно точные по содержанию переводы заданного иноязычного текста. Только наличие такой «остаточной энтропии» делает возможным стихотворные переводы, где «затраты энтропии» на следование избранному метру и ха- характеру рифмовки могут быть довольно точно подсчитаны. Можно показать, что классический четырехстопный рифмованный ямб с некоторыми естественными ограничениями на частоту «перено- «переносов» и т. п. требует допущения свободы обращения со словесным материалом, характеризуемой «остаточной энтропией» порядка 0,4 (при указанном выше условном способе измерения длины текста по «числу знаков, включая пробелы»). Если учесть, с дру- другой стороны, что стилистические ограничения жанра, вероятно, снижают приведенную выше оценку «полной» энтропии с 1,9 до не более чем 1,1—1,2, то ситуация становится примечательной как в случае перевода, так и в случае оригинального поэтического творчества. Да простят мне утилитарно настроенные читатели этот пример. В оправдание замечу, что более широкая проблема оценки ко- количеств информации, с которыми имеет дело творческая челове- человеческая деятельность, имеет очень большое значение. Посмотрим теперь, в какой мере чисто комбинаторный подход позволяет оценить «количество информации», содержащееся в пе- переменном х относительно связанного с ним переменного у. Связь между переменными х и у, пробегающими соответственно мно- множества X и Y, заключается в том, что не все пары х, у, принад- принадлежащие прямому произведению X X Y, являются «возможны- «возможными». По множеству возможных пар U определяются при любом «EX множества Ya тех у, для которых (а, У) Е= U.
X 1 2 3 1 + — 2 + — + V 3 + — 4 + — — 216 10. Три подхода к определению понятия «количество информации» Естественно определить услов- условную энтропию равенством Н(у \а) = log2N (Ya) E> (где N (Yx)—число элементов в множестве Yx), а информацию в х относительно у формулой 1{х:у) = Н{у)-Н{у \х). F) Например, в случае, изображенном в таблице, имеем / (х = 1 : у) = О, I (х = 2:у) = I, I (х = 3 : у) = 2. Понятно, что Н (у | х) и / (х : у) являются функциями от х (в то время как у входит в их обозначение в виде «связанного пере- переменного»). Без труда вводится в чисто комбинаторной концепции пред- представление о «количестве информации, необходимом для указания объекта х при заданных требованиях к точности указания». (См. по этому поводу обширную литературу об «е-энтропии» множеств в метрических пространствах.) Очевидно, Н (х \х) = О, I (х:х). = Я (х). G) § 2 ВЕРОЯТНОСТНЫЙ ПОДХОД Возможности дальнейшего развития теории информации на основе определений E) и F) остались в тени ввиду того, что при- придание переменным х и у характера «случайных переменных», обладающих определенным совместным распределением вероят- вероятностей, позволяет получить значительно более богатую систему понятий и соотношений. В параллель к введенным в § 1 вели- величинам имеем здесь Hw (х) ~ — S p (x) log3 p (х), х \x) log2 р (у | х), (8) (9) Iw (x:y) = Hw (у) -Hw{y\ x). A0) По-прежнему Hw (у \ х) и Iw (x : у) являются функциями от х. Имеют место неравенства Hw (x) < Я (х), Hw(y\x)<;H(y\ x), A1) переходящие в равенства при равномерности соответствующих распределений (на X и на Yx), Величины Iw {х : у) и / (х : у)
10. Три подхода к определению понятия «количество информации» 217 не связаны неравенством определенного знака. Как и в § 1, Hw (х\х) = О, Iw (x:x) = Hw (х). A2) Но отличие заключается в том, что можно образовать математи- математические ожидания t*Hw{y\x), *AIw(x:y), а величина Iw (х, у) = MJV {x:y) = M/w (у : х) A3) характеризует «тесноту связи» между х и у симметричным об- образом. Стоит, однако, отметить и возникновение в вероятностной концепции одного парадокса: величина I (х : у) при комбинатор- комбинаторном подходе всегда неотрицательна, как это и естественно при наивном представлении о «количестве информации», величина же Iw (x : у) может быть и отрицательной. Подлинной мерой «коли- «количества информации» теперь становится лишь осредненная вели- величина Iw (x, у). Вероятностный подход естествен в теории передачи по кана- каналам связи «массовой» информации, состоящей из большого числа не связанных или слабо связанных между собой сообщений, подчиненных определенным вероятностным закономерностям. В такого рода вопросах практически безвредно и укоренившееся в прикладных работах смешение вероятностей и частот в пределах одного достаточно длинного временного ряда (получающее стро- строгое оправдание при гипотезе достаточно быстрого «перемешива- «перемешивания»). Практически можно считать, например, вопрос об «энтро- «энтропии» потока поздравительных телеграмм и «пропускной способ- способности» канала связи, требующегося для их своевременной и неискаженной передачи, корректно поставленным в его вероят- вероятностной трактовке и при обычной замене вероятностей эмпири- эмпирическими частотами. Если здесь и остается некоторая неудовле- неудовлетворенность, то она связана с известной расплывчатостью наших концепций, относящихся к связям между математической теорией вероятностей и реальными «случайными явлениями» вообще. Но какой реальный смысл имеет, например, говорить о «ко- «количестве информации», содержащемся в тексте «Войны и мира»? Можно ли включить разумным образом этот роман в совокуп- совокупность «возможных романов», да еще постулировать наличие в этой совокупности некоторого распределения вероятностей? Или следует считать отдельные сцены «Войны и мира» образующими случайную последовательность с достаточно быстро затухающими на расстоянии нескольких страниц «стохастическими связями»? По существу не менее темным является и модное выражение «количество наследственной информации», необходимой, скажем, для воспроизведения особи вида кукушка. Опять в пределах
218 10. Три подхода к определению понятия ^количество информации» принятой вероятностной концепции возможны два варианта. В первом варианте рассматривается совокупность «возможных ви- видов» с неизвестно откуда берущимся распределением вероятно- вероятностей на этой совокупности 2. Во втором варианте характеристи- характеристические свойства вида считаются набором слабо связанных между собой случайных переменных. В пользу второго варианта можно привести соображения, основанные на реальном механизме му- мутационной изменчивости. Но соображения эти иллюзорны, если считать, что в результате естественного отбора возникает система согласованных между собой характеристических признаков вида. § 3 АЛГОРИТМИЧЕСКИЙ ПОДХОД По существу наиболее содержательным является представле- представление о количестве информации «в чем-либо» (х) и «о чем-либо» (у). Не случайно именно оно в вероятностной концепции полу- получило обобщение на случай непрерывных переменных, для кото- которых энтропия бесконечна, но в широком круге случаев Iw(xi y) = \\ Pxy (dxdy)log2 5-7 J J fjl' конечно. Реальные объекты, подлежащие нашему изучению, очень (неограниченно?) сложны, но связи между двумя реально сущест- существующими объектами исчерпываются при более простом схемати- схематизированном их описании. Если географическая карта дает нам значительную информацию об участке земной поверхности, то все же микроструктура бумаги и краски, нанесенной на бумагу, никакого отношения не имеет к микроструктуре изображенного участка земной поверхности. Практически нас интересует чаще всего количество информации в индивидуальном объекте х относительно индивидуального объек- объекта у. Правда, уже заранее ясно, что такая индивидуальная оценка количества информации может иметь разумное содержание лишь в случаях достаточно больших количеств информации. Не имеет, например, смысла спрашивать о количестве информации в по- последовательности цифр 0 110 относительно последовательности 110 0. 2 Обращение к множеству видов, существующих или существовавших на Земле, даже при чисто комбинаторном подсчете дало бы совершенно не- неприемлемо малые оценки сверху (что-либо вроде <_100 бит!).
10. Три подхода к определению понятия «.количество информации» 219 Но если мы возьмем вполне конкретную таблицу случайных чисел обычного в статистической практике объема и выпишем для каждой ее цифры цифру единиц ее квадрата по схеме 0123456789 0 14 9 6 5 6 9 4 1 то новая таблица будет содержать примерно (log, Ю-^) информации о первоначальной {п — число цифр в таблицах). В соответствии с только что сказанным предлагаемое далее определение величины Та {х ■■ У) будет сохранять некоторую неопределенность. Разные равноцен- равноценные варианты этого определения будут приводить к значениям, эк- эквивалентным лишь в смысле IAl ss IAi, т. е. I Та, — ТАг | «^ CAia2, где константа САхАг зависит от положенных в основу двух вариан- вариантов определения универсальных методов программирования Аг и Аг. Будем рассматривать «нумерованную область объектов», т.'е. счетное множество X = {*}, каждому элементу которого поставлена в соответствие в качестве «номера» п (х) конечная последовательность нулей и единиц, на- начинающаяся с единицы. Обозначим через I (х) длину последова- последовательности п (х). Будем предполагать, что: 1) соответствие между X и множеством D двоичных после- последовательностей описанного вида взаимно однозначно; 2) D с I, функция п (х) на D общекурсивна [1], причем для х 6ЕD I (п (х)) < I (х) + С, где С — некоторая константа; 3) вместе с х и у в X входит упорядоченная пара (х, у), номер этой пары есть общерекурсивная функция номеров х и у и I (х, у)<Сх + 1 (у), где Сх зависит только от х. Не все эти требования существенны, но они облегчают изло- изложение. Конечный результат построения инвариантен по отноше- отношению к переходу к новой нумерации п (х), обладающей теми же
220 10. Три подхода к определению понятия «количество информации» свойствами и выражающейся общерекурсивно через старую, и по отношению к включению системы X в более обширную систему X' (в предположении, что номера п в расширенной системе для элементов первоначальной системы общерекурсивно выражаются через первоначальные номера п). При всех этих преобразованиях новые «сложности» и количества информации остаются эквива- эквивалентными первоначальным в смысле ~. «Относительной сложностью» объекта у при заданном х бу- будем считать минимальную длину I (р) «программы» р получения у из х. Сформулированное так определение зависит от «метода программирования». Метод программирования есть не что иное, как функция ф (р, х) = у„ ставящая в соответствие программе р и объекту х объект у. В соответствии с универсально признанными в современной математической логике взглядами следует считать функцию ср частично рекурсивной. Для любой такой функции полагаем ( min Kv (у | х) = f №• х~>= (ос, если нет такого р, что ср(р, х)=.у. При этом функция V = ф (и) от и ее X со значениями v ЕЕ X называется частично рекурсив- рекурсивной, если она порождается частично рекурсивной функцией пре- преобразования номеров n(v) =4 [п{и)\. Для понимания определения важно заметить, что частично рекурсивные функции, вообще говоря, не являются всюду опре- определенными. Не существует регулярного процесса для выяснения того, приведет применение программы р к объекту х к какому- либо результату или нет. Поэтому функция Кц, (у \ х) не обя- обязана быть эффективно вычислимой (общерекурсивной) даже в слу- случае, когда она заведомо конечна при любых хну. Основная теорема. Существует такая частично рекурсивная функция А (р, х), что для любой другой частично рекурсивной функции <р(р,х) выполнено неравенство КА (у | х) < #ф (у \х) + Су, где константа Сф не зависит от х и у. Доказательство опирается на существование универсальной частично рекурсивной функции Ф (п, и),
10. Три подхода к определению понятия «количество информации» 224s обладающей тем свойством, что, фиксируя надлежащий номер п, можно получить по формуле Ф (и) = Ф (га, и) любую другую частично рекурсивную функцию. Нужная нам функция А (р, х) определяется формулой 3 А {{п, q),x) = Ф (п, (q,x)). В самом деле, если у = ф (р, х) = Ф (п, (р, х)), то А ((га, р), х) = у, I (/г, р) <*(?) + С„. Функции Л (р, х), удовлетворяющие требованиям основной теоремы, назовем (как и определяемые ими методы программи- программирования) асимптотически оптимальными. Очевидно, что для них при любых х и у «сложность» К а (у | х) конечна. Для двух таких функций Ах и Аг | KAl (у | х) - KAi ОН ж) |< CAlA,, где CAia2 не зависит от х и у, т. е. KAl (У \ х) ~ КАг (у \х). Наконец, КА (у) = КА(у\ 1) можно считать просто «сложностью объекта у» и определить «ко- «количество информации в х относительно у» формулой. /А (х : у) = КА (у) -КА(у\ х). Легко доказать *, что величина эта всегда в существенном положительна: 1А (х:у)^ О, что понимается в том смысле, что 1А (х : у) не меньше некоторой отрицательной константы С, зависящей лишь от условностей избранного метода программирования. Как уже говорилось, вся теория рассчитана на применение к большим количествам ин- информации, по сравнению с которыми | С\ будет пренебрежимо мал. Наконец, КА (х \ х) ^ О, 1А (х : х) ^ КА (х). Конечно, можно избегнуть неопределенностей, связанных с константами Сц и т. д., остановившись на определенных областях объектов X, их нумерации и функции А, но сомнительно, чтобы 3 Ф (п, и) определена только в случае п е D, А (р, х) только в случае^ когда р имеет вид (п, q), n e D. 4 Выбирая в виде «функции сравнения» ф (р, х) = А (р, 1), получим КА (У 1 х) < Kv {y\x)+Cv= КЛ (у) -Ь Сф.
222 10. Три подхода к определению понятия ^.количество информации* это можно было сделать без явного произвола. Следует, однако, думать, что различные представляющиеся здесь «разумные» ва- варианты будут приводить к оценкам «сложностей», расходящимся на сотни, а не на десятки тысяч бит. Поэтому такие величины, как «сложность» текста романа «Война и мир», можно считать •определенными с практической однозначностью. Эксперименты по угадыванию продолжений литературных текстов позволяют оценить сверху условную сложность при заданном запасе «ап- «априорной информации» (о языке, стиле, содержании текста), ко- которой располагает угадывающий. В опытах, проводившихся на кафедре теории вероятностей Московского государственного уни- университета, такие оценки сверху колебались между 0,9 и 1,4. Оценки порядка 0,9—1,1, получившиеся у Н. Г. Рычковой, вы- вызывали у менее удачливых угадчиков разговоры о ее телепати- телепатической связи с авторами текстов. Я думаю, что и для «количества наследственной информации» предлагаемый подход дает в принципе правильное определение самого понятия, как бы ни была трудна фактическая оценка этого количества. §4 ЗАКЛЮЧИТЕЛЬНЫЕ ЗАМЕЧАНИЯ Изложенная в § 3 концепция обладает одним существенным недостатком: она не учитывает «трудности» переработки програм- программы р и объекта х в объект у. Введя надлежащие определения,, можно доказать точно формулируемые математические предло- предложения, которые законно интерпретировать как указание на су- существование таких случаев, когда объект, допускающий очень простую программу, т. е. обладающий очень малой сложностью К (х), может быть восстановлен по коротким программам лишь в результате вычислений совершенно нереальной длительности. В другом месте я предполагаю изучить зависимость необходимой ■сложности программы К*{х) •от допустимой трудности t ее переработки в объект х. Сложность К (х), которая была определена в § 3, появится при этом в ка- качестве минимума К1 (х) при снятии ограничений на величину {, За пределами этой заметки остается и применение построе- построений § 3 к новому обоснованию теории вероятностей. Грубо го- говоря, здесь дело идет о следующем. Если конечное множество М заз очень большого числа элементов N допускает определение при помощи программы длины пренебрежимо малой по сравнению •с log%N, то почти все элементы М имеют сложность К (х), близкую "К I°g2^- Элементы xGil/ этой сложности и рассматриваются как «случайные» элементы множества М. Не вполне завершенное изложение этой идеи можно найти в статье [2].
11. О реализации сетей в трехмерном пространстве 223 ЛИТЕРАТУРА 1. Успенски.йВ. А. Лекции о вычислимых функциях. М.: Физматгиз, 1960. 2. Kolmogorov А. N. On tables of random numbers.— Sankhya. A, 1963, vol. 25, N 4, p. 369—376. 11 О РЕАЛИЗАЦИИ СЕТЕЙ В ТРЕХМЕРНОМ ПРОСТРАНСТВЕ ** Совместно с Я. М. Барздинем Под (d, и)-сетью будем понимать направленный граф с п нуме- нумерованными вершинами а1? а2, . . ., ап и dn отмеченными дугами, такой, что в каждую вершину входит ровно d дуг, одна из кото- которых помечена буквой хх, другая — буквой хг и т. д. и, наконец, последняя — буквой х&. Примерами таких сетей являются логические сети и нейрон- нейронные сети. Именно по этой причине представляет интерес вопрос о реализации таких сетей в обычном трехмерном пространстве при условии, что вершины являются шарами, а дуги — труб- трубками с некоторым положительным диаметром. В дальнейшем без существенного ограничения общности (ввиду того что наши оценки будут делаться только с точностью до по- порядка) будем ограничиваться рассмотрением только B, /г)-сетей,, которые будем называть просто сетями. Будем говорить, что сеть %, реализована в трехмерном прост- пространстве 2, если: 1) каждой вершине а ЕЕ %, сопоставлена некоторая точка фос данного пространства (для разных а и Р фа и ф|} разные); эту точку будем называть ф-точкой; 2) каждой дуге р = (а, Р), исходящей из а и входящей в [}, сопоставлена некоторая непрерывная кривая Кр, соединяющая точки фа и фР; эту кривую будем называть проводником; 3) расстояние между любыми двумя различными ф-точками не меньше 1; • Проблемы кибернетики, 1967, вып. 19, с. 261—268. 1 В начале 60-х годов А. Н. Колмогоров доказал теорему 1* для сетей с ограниченным ветвлением и такое приближение к теореме 2: существует сеть сп>1 элементами, любая реализация которой имеет диаметр больше Ctfn/log п, где С — некоторая константа, не зависящая от п. Окончатель- Окончательные варианты приведенных теорем принадлежат Я. М. Барздиню.— При- Примеч. авт. 2 Имеется в виду обычное евклидово трехмерное пространство.
224 11. О реализации сетей в трехмерном пространстве ,. 4) расстояние между любыми проводниками, соответствую- соответствующими неинцидентным дугам 3, не меньше 1; 5) расстояние между любыми двумя проводниками, соответст- соответствующими дугам вида (ос, Р) и (у, а) или ф, а) и (у, а), {* Ф у, соответственно, вне окрестности радиуса 1 точки фа не меньше 1.,". Пусть R — некоторая реализация сети 3t в трехмерном прост- пространстве. Будем говорить, что тело W содержит реализацию Rt< если все ср-точки и проводники, возникающие при этой реализа»; ции, лежат в теле W и находятся от его поверхности на расстоя- расстоянии, не меньшем 1. Под объемом реализации R будем понимать минимальный объем тел, содержащих данную реализацию Д. Под объемом V (Щ сети 31 будем понимать минимальный объем ее реализаций в трехмерном пространстве. Будем говорить, что почти все сети обладают некоторым свой- свойством Е, если Е (n)/S (п) ->■ 1 при п ->■ сю, где S (п) — число всех попарно различных * сетей с п вершинаьщ и Е (п) — число тех попарно различных сетей с п верпшнамие; которые обладают свойством Е. Теорема 1 (верхняя оценка). Для всех сетей % с п вершинами где С1 — некоторая константа, не зависящая от п. ,,. Теорема 2 (нижняя оценка). Для, почти всех сетей; % с п вершинами V (Щ> C2nfh~, где С2 — некоторая константа ^> 0, не зависящая от п. Теорема 1 вытекает из более сильного утверждения: Теорема 1*. Любая сеть с п вершинами может быт ! реализована в сфере радиуса С\^п, где С — константа, не зави- * ■сящая от п. ,-« Доказательство теоремы 1*. Сначала докажем теорему 1* для сетей, обладающих тем свойством, что из каждой вершины исходит не более двух дуг. Такие сети будем называл, ■сетями с ограниченным ветвлением. Итак, пусть Ш — некоторая сеть с п вершинами и огравлк "ченным ветвлением. Покажем, что ее можно реализовать в пв« 3 Две дуги (а, Р) и (у, 6) считаются инцидентными тогда и только то .да, когда (а = у) V (« = б) V (Р = Т) V (Р = в). 4 Две сети 21 и 23 считаются одинаковыми тогда и только тогда, ког, любые две вершины с одинаковыми номерами как в 21, так и в 35 связа! ■между собой дугами, одинаково ориентированными и с одинаковыми ( метками.
11. О реализации сетей в трехмерном пространстве 225 л D'{0,2Vn,8-/n) Рис. 1 раллелепипеде ABCDA'B'C'D', изображенном на рис. 1 (без ограничения общности будем считать, что Yn — целое число). Это будет означать, что % можно реализовать в сфере радиуса Cfn, где С = \Г2Л. Пусть U — множество точек основания ABCD, имеющих вид Di + 2, 2/, 0), i = О, 1, ... ...,f_n-l; 7=0, 1, . . . . .., Yn — 1. Сопоставим каждой вершине а сети 91 свою точку фа из U, a каждой дуге р = (а, C) ломаную Кр (£) = (q>a)abcdefgh (фР>) (рис. 1), зависящую от на- натурального параметра £ следующим образом: пусть координаты точек <ра и ф|5 соответственно Di + 2, 2/, 0) и Di'+ 2, 2/", 0), тогда: координаты точки h: D£' + 2 + т, 2/', 0), где т = 1, если дуга р помечена буквой хи и т = — 1, если дуга р помечена буквой хй, координаты точек а и g соответственно D£ + 2, 2/, It, — 1) и DГ + 2 + т, 2}', 21), координаты точек Ъ и / соответственно Di -f" 2, 2/ + 1, 2£ — 1) и DГ + 2 + Т, 2;-' + 1,2£), координаты точки с: Dt, 2у + 1, 2£ — 1), координаты точек d и е соответственно D£, 2/' + 1, 2£ — 1) и D*,2;' + 1,2£). Дуги р = (а, Р) и /?' = (а', [}') будем называть родственными, если или точки фа и фа' имеют одинаковые абсциссы, или точки фр и фР' имеют одинаковые ординаты, или то и другое. Из огра- ограниченности ветвления вытекает, что число дуг сети %, родст- родственных дуге р, не превышает 4]//г- Из определения ломаной Кр (£) вытекают следующие важные следствия. 1) Если дуги р =■ (а, Р) и р' = (а', Р') не являются родст- родственными, то соответствующие им ломаные Кр (£) и Kv- (£') при любых значениях параметров Z, и £' находятся друг от друга па расстоянии >1 (за исключением окрестности радиуса 1 точки фа (фР) в случае, когда а = Р' (Р = а')). 2) Если дуги р = (а, р) и р' = (а', Р'), а =/= а', являются родственными, то соответствующие им ломаные Кр (t,) и Kv> (£') обладают тем свойством, что если t, Ф U, то эти ломаные нахо- находятся друг от друга на расстоянии ^1 (за исключением окрест- 8 А. Н. Колмогоров
226 11. О реализации сетей в трехмерном пространстве ности радиуса 1 точки фа (фР) в случае, когда а = Р' ф = а' ЕЛИ Р - Р')). Поэтому для доказательства реализуемости сети 21 в парал- параллелепипеде ABCDA'B'C'D' достаточно показать, что для дуг сети % можно так подобрать натуральные значения параметра £„ чтобы: а) эти значения для разных родственных дуг были разными, б) соответствующие ломаные находились в параллелепипеде ABCDA'B'C'D', т.е. 1 < £ < 4/п- Такой выбор значений параметра £ всегда возможен ввиду того, что для любой дуги р число дуг, родственных ей, не превыша- превышает 4]^га, т. е. не превышает числа допустимых различных значе- значений параметра £. Таким образом, мы показали, что для сетей с ограниченным ветвлением теорема 1* имеет место. Справедливость теоремы 1* для произвольных сетей вытекает из того, что любую сеть Ш о п вершинами, добавляя не более 2ге новых вершин, можно пере- перестроить в сеть 9Г с ограниченным ветвлением. Например, дуги вида рис. 2 можно заменить деревом вида рис. 3 (уг —новые вер- вершины). В результате мы получили сеть %' с ограниченным ветв- ветвлением и п' <^ Зп вершинами. Эту сеть можно реализовать в сфер© радиуса С]/"тг'. Для того чтобы из реализации сети %' получить реализацию первоначальной сети 9', точки ц>уг надо интерпрети- интерпретировать как точки ветвления ломаных, соединяющих фа СфР1? .... • • -, фРк- Пусть ю — некоторое разбиение вершин сети М на три упоря- упорядоченные части, которые обозначим соответственно через сзи ©2, а>3. Разбиение ю сети 3t с п вершинами будем называть (е, 6)- разбиением, если й! содержит [еп] вершин, и2 содержит [8п] вер- вершин и о>3 содержит п — [гп] — [8п] вершин. Под степенью связ- связности 5 (ЭД, ю) сети % относительно разбиения ю будем понимать максимальное число неинцидентных дуг, идущих из вершин юа к вершинам ©!• Лемма 1. Существуют такие 0<ie0<il,a0^>Oub0^>0, что для любых г ^ е0 и а ^ а0 степень связности почти всех сетей % с п вершинами относительно любого (г, ае)-разбиения не меньше Ьогп. Докажем эту лемму. Под степенью инцидентности Z E1, и) сети 3t относительно разбиения и будем понимать число вершин, принадлежащих и3, из которых идут дуги к вершинам, принадле- принадлежащим ft)j. Так как в одну вершину может входить не более двух дуг, то S (%, а) ;> 1/2Z C1, и). Таким образом, наша лемма будет доказана, если мы докажем аналогичное утверждение для степе- степени инцидентности (это утверждение обозначим через А). С этой целью процесс построения сетей си вершинами а1у а2, , . ., (^'представим следующим образом. Вначале дано п вер-
11. О реализации сетей в трехмерном пространстве 227 шин аъ ocj, . . ., ос„ таких, что в каждую из них входит ровно две дуги со свободными вторыми концами (рис. 4). Затем свободный конец каждой дуги случайно подсоединяем к какой-нибудь вершине 5 из (аъ . . ., ап). В результате мы получаем некоторую сеть с вер- вершинами аъ а2, . . ., ап. Пусть вначале было фиксировано некоторое (е, б)-разбиение и множества (ах, . . ., а„). Обозначим через Ра (г, б, с, п) вероят- вероятность того, что в результате описанной выше процедуры мы полу- получим сеть, которая относительно ю имеет степень инцидентности Z E1, и) <С сп. Заметим, что при фиксированных е и б вероятность VV...V' Рис. 4 Р<а (е, б, с, п) для всех (е, б)-разбиений ю множества (аь . . ., ап) одна и та же и что число всевозможных (елб)-разбиений множест- множества (аъ . . ., ап) равно 6 C^C^Len. Обозначим через Р (г, б, с, п) вероятность того, что в результате описанной выше процедуры мы получим сеть, которая хотя бы при одном (е, б)-разбиении име- имеет степень инцидентности < сп. Из сказанного выше следует, что Р (г, б, с, п) < C™CttvPn (г, б, с, п). A) Утверждение А, очевидно, будет доказано, если мы докажем следующее утверждение В: J^I№ Существуют такие 0 < г'о «< 1, ai ^> 0 и &р ^> 0, что для любых е «^ 8^ и а «^ об '-..-, Р (е, аг, Ь'ог, п) ->- 0 при га -> оо. Оценим Ра (е, б, с, и). С этой целью рассмотрим следующую вероятностную модель. Имеется га ящиков, из которых гп белых, Ьп черных и A — е — б) п красных. Рассмотрим серию испытаний Q = \п 1г> • • •> ?2гиГ состоящую в последовательном случайном бросании 2гп шариков в ящики (одно испытание — это бросание одного шарика). Под благоприятным исходом испытания будем понимать попадание шарика в пустой красный ящик. Обозначим ? Предполагается, что вероятности выбора у всех вершин одинаковы, т. е. равны 1/л. -.'■;' • Здесь и в дальнейшем для простоты будем считать, что en, 8п и сп — целые числа. • , - 8*
228 11. U реализации сетей в трехмерном пространстве через Р' (е, б, с, п) вероятность того, что число благоприятных исходов в серии испытаний Q будет < сп. Очевидно, Рш (е, б, с, п) = Р' (г, б, с, п) B) (в роли шариков выступают свободные концы дуг, входящих в вершины (ох, в роли белых ящиков — вершины <ох, в роли черных ящиков — вершины и2, в роли красных ящиков — вершины (о3). Оценим Р' (е, б, с, п). Вероятность благоприятного исхода испытания |j в серии Q хотя и зависит от результатов предыдущих испытаний, но всегда ^>1 — Зе — б (самую малую вероятность благоприятного исхода может иметь испытание £2еп при условии, что исходы всех предыдущих испытаний были благоприятными; в этом случае, как нетрудно видеть, эта вероятность будет п~х [A — — е — б) п — Bгп — 1I > 1 — Зе — б). Поэтому Р' (б, б, с, п) < Р" (е, б, с, п), C) где Р" (е, б, с, п) — вероятность того, что в 2гп испытаниях Бер- нулли, каждое из которых имеет вероятность благоприятного ис- исхода 1 — Зе — б, число благоприятных исходов будет <^ сп. Оценим Р" (е, б, с, п). Как известно, Р" (е, 6, с, п) = S С\гп A - Зе - bf (Зе + б)*"-'. i=0 Дальнейшие оценки будем проводить при следующих предпо- предположениях: (а) 0 < е < V, и 0 < б < 1 - е; (б) 0 < сп ^ математического ожидания 2гп A — Зе — б), т. е. 0 < с < 2е A — Зе — б). В таком случае Р" (г, б, с, п) < спС%п A - Зе - б)с" (Зе + 6)»«» < Отсюда и из A)—C) получаем, что при предположениях (а) и (б) Р (г, б, с, п) < СТ ■ Ct*n ■ пС£п (Зе + б)^—. Введем теперь параметры а и & такие, что б = аг и с = &е. Тог- Тогда вместо предположений (а) и (б) получим следующие неравенст- неравенства: (а') 0 < е < 72 и а > 0, 1 — е — аг > 0; (б') 0<&<2 — бе — 2ае. Кроме того, из формулы Стирлинга вытекает, что при достаточно больших /сиг Гт _ fcl ^ Ь!с И (А; —г)! ^> < ехр {/с In к + х/а In & — г In г — Va la г — — (/с — г) In (к — г) — l/t In (fc - г)}.
11. О реализации сетей в трехмерном пространстве 229 Поэтому при достаточно больших га: Р (г, аг, Ьг, п) < СТ-СТЛп-пС^ (Зе + ее)*"-*» < < exp {[п In п + 1/21п и — ей In ей — V2 In ей — (и — — гп) In (п — гп) — V2ln (п — гп)] + [(п — гп) In (п — — гп) + V2ln (п — гп) — а ей In агп — V2ln агп — (п — — гп — агп) In (п — гп — агп) — V2ln (п — гп — агп)] -(- + In п + [2гп In 2гп + V2ln 2гп — Ьгп In Ьгп — — V^ln Ьгп — Bгп — Ьгп) In B en — ben) — — V2ln Bгп ~ Ьгп)] + Bгп — Ьгп) In (Зе -f аг)} = = exp {п [г A — а — Ъ) In е — ealn а + е In 4 — гЪ In 6 — — е B - 6) In B - 6) + е B — 6) In C + а) — A - е — — еа) In A — е — еа)] + [—Vgln п — V2ln е — V2ln a — — V, In е - V2ln A - е - еа) + V2ln 2 + V2ln e - — V2ln Ь - V,ln e - V2ln e - V2ln B - Ь)]} < (ввиду того что е, а, Ъ не зависят от п) < ехр {/г [е A — а — Ь) In е — еа In а + е In 4 — е& In & — — е B - 6) In B - 6) + е B - Ь) In C + а) - — A — е — еа) In A — е — еа)]} < (ввиду предположений (а') и (б')) < ехр {п [е [— A — а — b) \ In е | — a In a + In 4 — — & In & - B - &) In B — 6) + B - Ь) In C + а)] + + | In (I - е A - с)) | ]}. Пусть а = яо>Ои6 = Ъ'о^> 0 зафиксированы произвольным об- образом, но так, чтобы 1 — а'о — Ы> ^> 0. Теперь учтем, что при е —*■ 0 | In A — е A + а)) | -> е A + а) и | In е | -> оо. Теперь не- нетрудно видеть, что найдется такое ео, удовлетворяющее неравен- неравенствам (а') и (б'), при котором выражение о [— A — а'о — b'o) | In е01 — а'о In а0 + In 4 — &ц In b'<, — - B - 60) In B - &0) + B - b'o) In C + а0)] + будет меньше некоторой отрицательной константы. Это будет оз- означать, что при данных а'о, Ь'о и г'а величина Р (е0, а'о, г'а, Ъ'ог(„ п) -> -> 0, когда п -*■ оо. Для полного доказательства утверждения В остается только убедиться, что Р (г, аг, Ъ'ьг, п) ->- 0 при п -> оо для любых е ^ е^
•г,. / / * 230 11. О реализации сетей в трехмерном пространстве и a <J a'o. Справедливость этого вытекает из того, что если выражение j [в [— A — а — Ь) | In е | — a In a + + In 4 — Ып 6 - B — 6) In B - _ 6) + B - 6) In C + а)] + +1 In A - е A + в)) | ] было меньше некоторой отрицательной константы при е = 8о, а = аё и Ь = Ь'о, х то оно будет обладать этим же свойством Рис. 5 и при е ^ во, а ^ а'о и & = &q. Лемма доказана. Теперь учтем следующих два обстоятельства: 1) согласно определению реализации расстояние между любы- любыми двумя проводниками, соответствующими неинцидентным ду- дугам, ]>1; 2) согласно лемме 1 у почти всех сетей с п вершинами любые еоп вершин связаны с остальными вершинами по меньшей мере с помощью Ьогоп неинцидентных дуг (константы е0 и Ь„ из леммы 1). Отсюда вытекает справедливость следующей леммы. Лемма 2. Почти все сети Ш с п вершинами обладают сле- следующим свойством: при любой реализации сети Ч в трехмерном пространстве в любом параллелепипеде с площадью поверхности L ^ 1/2&oeo7itнаходится меньше чем гоп у-точек (константы е<> и Ъо из леммы 1). Доказательство теоремы 2. Пусть fi и s — не- некоторые числа (их значения мы подберем позже). Пусть % — не- некоторая сеть с п вершинами, для которой имеют место утвержде- утверждения лемм 1 и 2 (такие сети — почти все). Пусть, далее, сеть 3t реа- реализована в трехмерном пространстве и пусть Т — некоторый па- параллелепипед с длиной ребер ^sji Yni B котором лежат все ф-точ- ки и проводники, возникающие при данной реализации сети 91 (рис. 5). Тогда:] а) С помощью плоскостей z = щ Yn (г = 0, 1, 2, . . .) разби- разбиваем параллелепипед Т на параллельные слои толщины fi ]/"re (без ограничения общности будем считать что последний слой тоже имеет толщину fi Yn)- Перенумеруемэ г i слои в направлении оси Oz числами 1, 2, 3, ... (таким образом, самый низкий слой будет иметь номер 1, следующий по высоте — номер12 и т. д.). Затем на основании этого разбиения строим ^разбиение параллелепипеда Т на части Аг, А2, . . ., As', к А% относим те и только те слои, кото- которые имеют номер вида ks -J- i, где к — целое число. Затем из со- совокупности этих частей выбираем ту, которая содержит наимень- наименьшие число ф-точек. Пусть это будет часть Аг. Нетрудно видеть, что
11. О реализации сетей в трехмерном пространстве 231 Az содержит но больше чем nls ф-точек. Слои, принадлежащие Az% будем называть отмеченными. б) С помощью плоскостей у = щУп (i = 0, 1, 2, . . .) разби- разбиваем параллелепипед Т на параллельные слои, затем строим раз- разбиение B-i, В2, . . ., Bs аналогично пункту а) и слои, принадле- принадлежащие части Ву, содержащей наименьшее число ф-точек, объяв- объявляем отмеченными. в) С помощью плоскостей х = i\iYn 0 — 0, 1, 2, . . .) разби- разбиваем параллелепипед Т на параллельные слои, затем строим раз- разбиение Сг, С2, . . ., Cs аналогично пункту а) и слои, принадлежа- принадлежащие части Сх, содержащей наименьшее число ф-точек, объявляем отмеченными. Из предыдущего следует, что отмеченные слои параллелепи- параллелепипеда Т содержат не больше чем Зга/s ф-точек. Пусть теперь числа fi и s такие, что кубики, ограниченные отмеченными слоями, имеют площадь поверхности не больше 1/2&0е0га (имеется в виду каждый кубик в отдельности), т. е. пусть [х и s удовлетворяют неравенству 6 (s - IJ tfn < V.Mo'* (*) (константы е0 и Ьо из леммы 1). Тогда согласно лемме 2 каждый из упомянутых кубиков содер- содержит меньше чем еога ф-точек. Отсюда в свою очередь следует, что если число ф-точек, содержащихся в неотмеченных слоях, не мень- меньше еога, т. е. п — ЪпЫ ^> гоп, E) то можно построить такое множество этих кубиков G, которое содержит не меньше чем V260rc и не больше чем гоп точек 7. Пусть, далее, число s такое, что отмеченные слои содержат не больше чем «0 (ео/2)га ф-точек, т. е. пусть s удовлетворяет нера- неравенству Зга/5 < а0 (ео/2) п. F) Рассмотрим следующее (е, 6)-разбиение сети ЭД: а) ©! — это множество тех вершин сети %, которым при рас- рассматриваемой реализации сети 31 сопоставлены точки изб; число элементов era множества о>х равно числу ф-точек, содержащихся в G, т. е. ео/2 < е < е0; б) (о2 — это множество тех вершин сети 31, которым при рас- рассматриваемой реализации сети % сопоставлены точки из отме- отмеченных слоев; таким образом, число элементов 6„ множества со2 равно числу ф-точек, содержащихся в отмеченных слоях, т. е. 6 ^ < о0е0/2. 7 Здесь и в дальнейшем под выражением «множество G содержит ф-точ- ки» будем понимать «элементы множества G (т. е. кубики) содержат ф-точ- кя».
232 12. К логическим основам теории информации По лемме 1 получаем, что сеть % при таком (е, б)-разбиении имеет степень связности ^>Ьогп > Ьо (г/2)п. Это означает, что ф-точки, содержащиеся в множестве кубиков G и ф-точки, содер- содержащиеся в остальных кубиках, ограниченных отмеченными слоя- слоями, соединены между собой по меньшей мере &0(е0/2)га неинци- неинцидентными проводниками. Множество этих проводников обозначим через Е. Согласно определению реализации расстояние между проводниками из Е должно быть!>1. Так как толщина отмеченных слоев равна fi ]/п, то каждый из проводников множества Е сое- соединяет точки, находящиеся на расстоянии ^ц |/ п. Отсюда полу- получаем, что любое тело W', которое содержит все проводники из Е и при том так, что они находятся от его поверхности на расстоя- расстоянии ^1, имеет объем больше чем Ьо (ео/2) гаг (У2Jц Уп = (я/8) Ьогоцп f~n. Теперь вспомним, что эти оценки были получены при условии, что s и ji удовлетворяют неравенствам D), E) и F). Нетрудно убедить- убедиться, что существуют s и [А ^> 0, не зависящие от п, которые удовлет- удовлетворяют этим неравенствам. Это означает, что объем сети % V («) > (л/8) bQe0\m Y~n = С2пУ~п, где С2 — некоторая константа ^> 0, не зависящая от п. Теорема 2 доказана. 12 К ЛОГИЧЕСКИМ ОСНОВАМ ТЕОРИИ ИНФОРМАЦИИ И ТЕОРИИ ВЕРОЯТНОСТЕЙ * 1. Мы будем иметь дело с основными начальными понятиями теории информации. Исходным будем считать понятие условной энтропии объекта х при заданном объекте у, Н (х \ у), которую можно интерпретировать как количество информации, необходи- необходимое для задания объекта х в обстановке, когда объект у уже задан. Обозначая через ф «заведомо заданный объект», получим безус- безусловную энтропию Н(х\ф) = Н(х). Информация, содержащаяся в объекте у относительно объекта х, определяется формально при помощи вычитания 1{х\у) = Н (х) -Н(х\ у). Естественно, что при этом /(*! *) = н (х). * Проблемы передачи информации, 1969, т. 5, № 3, с. 3—7.
12. К логическим основам теории информации 233 Обычно пользуются вероятностным определением энтропии, которое относится, однако, не к индивидуальным объектам, а к «случайным», т. е. по существу к распределениям вероятностей в каких-либо классах объектов. Чтобы подчеркнуть это различие, будем обозначать случайные объекты греческими буквами. Огра- Ограничиваясь случаем дискретных распределений, напомним стан- стандартное определение II (| \Ц) = — 2 р (I = X, Г] = у) l0g2 р (I = X | Т) = у) . . . A) х, у Как известно, «вероятностные» высказывания реально интерпре- интерпретируются через высказывания статистические. Иначе говоря, на- наше определение A) может быть практически использовано лишь в применении к обширным статистическим совокупностям пар объ- объектов («1. #i). («г. Уг). • • •> (хп, Уп), • • • Далеко не все применения теории информации укладываются ра- разумным образом в такую интерпретацию ее основных понятий, Я думаю, что потребность в придании определенного смысла вы- выражениям Н (х | у) и / (х | у) в случае индивидуальных объектов х и у, не рассматриваемых как реализации случайных испытаний о определенным законом распределения, была понятна давно мно- многим, занимавшимся теорией информации. Насколько я знаю, первой печатной публикацией, содержащей замысел перестройки теории информации, удовлетворяющей выс- высказанному пожеланию, является статья Соломонова [1], опубли- опубликованная в 1964 г. Я пришел к аналогичной концепции, еще не зная работ Соломонова в 1963—1964 гг., и опубликовал первую заметку на эту тему [2] в начале 1965 г. Разработкой новой кон- концепции энергично занялся молодой шведский математик Мартин- Лёф, работавший в 1964—1965 гг. в Москве. Прочитанные им в Эрлангене A966) лекции [3] представляют, кажется, лучшее вве- введение в весь круг идей моей статьи. Замысел определения очень прост: энтропия Н (х | у) есть ми- минимальная длина записанной в виде последовательности нулей и единиц «программы» Р, которая позволяет построить объект х, имея в своем распоряжении объект у Н{х\у)= min I (P). B) Точное проведение этого замысла опирается на общую теорию «нычислимых» (частично рекурсивных) функций, т. е. на общую теорию алгоритмов во всей их общности. Мы вернемся далее к рас- расшифровке записи А (Р, у) = х. Хотя мне и Мартин-Лёфу важность новой концепции представ- представилась несомненной, ее развитие тормозилось тем, что самые прос-
234 12. К логическим основам теории информации тые формулы, которые в вероятностной концепции получаются ! результате очень простых алгебраических преобразований вырц жения A), в новой концепции не удавалось восстановить. К числ' таких не восстанавливаемых в новой концепции формул относите] формула I (х\у)=1(у\ х). Впрочем, если поразмыслить, ее реальное содержание и в само! деле не тривиально, а скорее должно бы вызвать сомнения в беа условной применимости этой формулы, как и формулы «разложе ния» информации Н (х, у)=Н(х) + Н(у\ х). D Формулы C) и D) так привычны, что не сразу мы обратил внимание на то, что в новой концепции они просто неверны и мо! гут быть восстановлены в правах лишь в форме приближенных pal венств \I(z\y)~I(y\x)\=*O Aой Я (х, у))% (Щ Н (х, у) = Н(х) + Н(у\х) + О (log, Я (*, у)). D' 2„ Рассмотрим длинную последовательность х = (хг, х2, . . ., х{), I = I (x)t состоящую из нулей и единиц. Легко понять, что существуют та] кие последовательности, для которых энтропия Я (х) не меныш их длины, (X) js? I (X). Такие последовательности нельзя определить программой, кото рая короче, чем их длина. Чтобы их задать, надо их просто вьпщ сать. Никакой более просто выражаемой закономерностью их нель зя определить. Естественно вспомнить, что отсутствие закономер ности по здравому смыслу является признаком случайности. Ml практически исходим из допущения, что так устроены помещав мые в руководствах по математической статистике и теории вероятз ностей «таблицы случайных чисел». Чтобы пойти немного дальше, рассмотрим, как мы представляв ем себе последовательность нулей и единиц, возникающую в рЩ зультате независимых испытаний с вероятностью р получения едш| ницы при каждом испытании. Если I велико, то число единиц прщ близительно равно 1р, т. е. частота kll ;= р дает представление { некоторой закономерности, имеющейся в последовательности х) В силу этой закономерности условная энтропия х может быть оц& нена неравенством Н(х | I. V\ < log2 С) + О{\) .
12. К логическим основам теории информации 235 (о смысле добавки члена О A) в нашей формуле будет сказано да- далее). Если энтропия Н(х\ I, к) близка к этой верхней границе, то не существует существенно более экономного способа задания х, чем указать I, к ж номер последовательности х среди всех С} после- последовательностей с данными I и к. Примерно так мы и представляем себе «бернуллиевские последовательности», в которых отдельные знаки «независимы», возникая с некоторой «вероятностью» р. Мы видим, таким образом, что некоторый аналог понятия «бер- нуллиевской» последовательности может быть сформулирован на языке намеченной выше алгоритмической теории информации. Специально бернуллиевским последовательностям в этом но- новом смысле посвящена работа Мартин-Лёфа [4]. Естественно, что понятие бернуллиевской конечной последовательности должно быть релятивизированным. Для конечных последовательностей нет резкой грани между «закономерным» и «случайным». По Мар- тин-Лёфу последовательность является «те-бернуллиевской», если Н{х\1 (х), к (х)) > log2 С?$ - т. Строгое различение между «бернуллиевскими» и «небернуллиев- скими» последовательностями возможно лишь после предельного перехода для бесконечных последовательностей нулей и единиц X \ X1, Х%, . • •, Хп, • . .) • Будем для такой последовательности обозначать через х1 их начальный отрезок длины I х1 = (хи . . ., xi). Было бы соблазнительно определить х как «бернуллиевскую» тре- требованием существования такого т, что все х1 являются те-бернул- лиевскими, т. е. что всегда Щ(х: | I, kt) > log2 С - т. Но таких бесконечных последовательностей нулей и единиц, как показал Мартин-Лёф, не существует. Причины легко объяснимы. Ведь и из традиционной теории вероятностей мы знаем, что в нас- настоящих случайных последовательностях встречаются сколь угод- угодно длинные последовательности сплошных единиц и сплошных ну- нулей. Понятно, что описание заканчивающихся таким образом от- отрезков бесконечной последовательности может быть существенно упрощено по сравнению со стандартным. Наиболее естественное определение бесконечной бернуллиев- бернуллиевской последовательности таково: х считается те-бернуллиевской, если существует такое те, что все х являются начальными участ- участками конечных m-бернуллиевских последовательностей. Мартин- Лёф дает другое, быть может немного более узкое, определение.
236 12. К логическим основам теории информации Более частная концепция (с которой начал и Мартин-Лёф) Va-eepHyflflneBCKOH последовательности была независимо развита Шайтиным [5]. Возможно, что некоторые читатели уже заметили, что, обра- обратившись к бесконечным последовательностям, мы занимаемся за- задачей, которая была поставлена уже Мизесом в его концепции «коллективов». Как известно, концепция Мизеса была формализо- формализована на языке теории вычислимых функций Чёрчем [6]. Сущест- Существенное дополнение концепции Мизеса (расширение понятия «до- «допустимой системы выбора») было дано в моей работе [7]. Строго формальное изложение дополненной таким образом теории можно найти в статьях Ловеланда [8, 9]. Однако класс «бернуллиевских» последовательностей в смысле Чёрча или Ловеланда слишком широк. Их отрезки могут быть еще довольно «закономерными». Существуют последовательности бер- нуллиевские в смысле обоих этих определений с отрезками, имею- имеющими лишь логарифмически возрастающую энтропию: Я (х1) = О (log, I). Наоборот, бернуллиевские последовательности по Мартин-Лёфу (и по указанному выше определению) имеют отрезки, сложность которых почти максимальна в смысле неравенства Н (xl) ^l — O ((log2 ZI+E), e > 0 произвольно. Последовательности, бернуллиевские по Мартин-Лёфу, обла- обладают всеми конструктивными свойствами, которые в современной теории вероятностей доказываются (при любой вероятности р) «с вероятностью единица». Ничего аналогичного нельзя утверж- утверждать о последовательностях, бэрнуллиевских по Черчу или Лове- ланду. 3. Предшествующее краткое изложение должно оправдать два общих тезиса: 1) основные понятия теории информации должны и могут быть обоснованы без помощи обращения к теории вероятностей и так, что понятия «энтропия» и «количество информации» оказываются применимы к индивидуальным объектам; 2) введенные таким образом понятия теории информации могут лечь в основу новой концепции случайного, соответствующей ес- естественной мысли о том, что случайность есть отсутствие законо- закономерности. Сделаем важное замечание. Изложение в первой части статьи (информация) было несколь- несколько упрощено. Лишь во второй части статьи мы подчеркнули неиз- неизбежную относительность различения между «случайным» и «не- «неслучайным» в применении к конечным объектам. Аналогично дело обстоит и в основах теории информации. По существу она приме- применима к большим массивам информации, при рассмотрении которых
12. К логическим основам теории информации 237 начальная информация, заключенная в способе построения самой теории, исчезающе мала. Наша основная формула B) подразуме- подразумевает «универсальный метод программирования» А. Такие сущест- существуют в том смысле, что имеются методы программирования А, об- обладающие свойством На (# | у) *ч Да» (х | у) •+■ Сд- и позволяю- позволяющие программировать «что угодно» с длиной программ, которая превосходит длину при любом другом методе программирования не более чем на константу, зависящую лишь от этого второго ме- метода программирования, а не от объектов х и у. В обращении вни- внимания на это довольно простое обстоятельство и состоит, по-види- по-видимому, заслуга моя и Соломонова. Поэтому все предложения алгоритмической теории информации в их общей формулировке верны лишь с точностью до членов вида О A). В применении к формулам C) и D) неожиданностью яви- явилось лишь появление членов логарифмического порядка. Важно лишь понимать, что, обращаясь к теории вероятностей мы прибегаем к значительно более грубой релятивизации. Реаль- Реальное истолкование вероятностных результатов всегда статистиче- статистическое, и оценки ошибок, получающихся при применении вероят- вероятностных результатов к конечным объектам, значительно грубее, чем в развиваемом нами изложении теории информации. ЛИТЕРАТУРА 1. Solomonojf R. A formal theory of inductive inference. I.— Inform, and Contr., 1964, vol. 7, N 1, p. 1—22. 2. Колмогоров А. Н. Три подхода к определению понятия «количество информации».— Проблемы передачи информации, 1965, т. 1, № 1, с. 3-11. 3. Martin-Lof P. Algorithms and random sequences. Erlangen: Univ. Press, 1966. 4. Martin-Lof P. The definition of random sequences.— Inform, and Contr., 1966, vol. 9, N 6, p. 602—619. 5. Chaitin G. On the length of programs for computing finite binary sequen- sequences.— J. Assoc. Comput. Mach., 1966, vol. 13, N 4, p. 547—569. 6. Church A. On the concept of a random sequence.— Bull. Amer. Math. Soc, 1940, vol. 46, p. 130—135. 7. Kolmogorov A. N. On tables of random numbers.— Sankhya. A, 1963, vol. 25, N 4, p. 369—376. 8. Loveland D. A. A new interpretation of the von Mises concept of random sequence.— Ztschr. math. Log. und Grundl. Math., 1966, Bd. 12, S. 279— 294. 9. Loveland D. The Kleene hierarchy classification of recursively random se- sequences.— Trans. Amer. Math. Soc, 1966, vol. 125, N 3, p. 497—510.
238 13. Комбинаторные основания теории информации 13 КОМБИНАТОРНЫЕ ОСНОВАНИЯ ТЕОРИИ ИНФОРМАЦИИ И ИСЧИСЛЕНИЯ ВЕРОЯТНОСТЕЙ *> О ВОЗРАСТАЮЩЕЙ РОЛИ ФИНИТНОЙ МАТЕМАТИКИ Мне хочется начать с некоторых соображений, выходящих за рамки основной темы моего доклада. Формализованная по Гиль-* берту математика является не чем иным, как теорией операций над специального вида схемами, состоящими из конечного числа зна- знаков, расположенных в том или ином порядке и связанных теми или иными связями. Например, по концепции Н. Бурбаки вся теория множеств изучает исключительно выражения, составленные из знаков j и «букв», связанных еще «связями» г—, как это имеет место, напри-* мер, в выражении rilleril <=□□□ называемом «пустым множеством». Оставаясь на финитной точке! зрения, было бы логично для неограниченной последовательности «букв» усвоить те или иные стандартные обозначения, например! П, П, П, П, П, . . .) ] с 1 ю и wo i Любопытно, что из-за наличия «связей» »—■ выражения форма- формализованной математики Бурбаки являются не вытянутыми в строчку «словами», как, например, в теории нормальных алгориф* мов А. А. Маркова, а по существу одномерными комплексами с обозначенными определенными знаками вершинами. Но к реальному, воспринимаемому интуитивно содержаник математики такая концепция математики, как занятия перестрой- перестройкой по определенным правилам однозначных одномерных комп- комплексов, имеет лишь косвенное отношение. Н. Бурбаки замечает что в его концепции выражение, имеющее смысл «число единица», содержит несколько десятков тысяч знаков, но от этого понятие ♦ УМН, 1983, т. 38, вып. 4, с. 27-36. \ 1 Публикуемый текст был подготовлен в 1970 г. в связи с моим вы» ступлением на_Международном математическом конгрессе в Ницце.
13. Комбинаторные основания теории информации 239 «число единица» не делается недоступным нашему наглядному по- пониманию. Чистая математика благополучно развивается как по преиму- преимуществу наука о бесконечном. И сам основатель концепции форма- формализованной полностью финитной математики Гильберт предпринял свой титанический труд лишь для того, чтобы обеспечить за мате- математиками право оставаться в «канторовом парадизе» теории мно- множеств. По-видимому, это положение вещей глубоко обосновано устройством нашего сознания, с большой легкостью оперирующе- оперирующего с наглядными представлениями о неограниченных последова- последовательностях, предельных переходах, непрерывных и даже «глад- «гладких» многообразиях и т. п. До недавнего времени и в математическом естествознании гос- господствовало моделирование реальных явлений при помощи ма- математических моделей, построенных на математике бесконечного и непрерывного. Например, изучая процесс молекулярной тепло- теплопроводности, мы представляем себе непрерывную среду, в которой температура подчинена уравнению (I) dt —^\дх* + ду* + дг* Математики привыкли рассматривать соответствующую разност- разностную схему Atu = К (Аххи + Аууи + Агг и) B) лишь как возникающую при приближенном решении «точного» уравнения A). Но реальный процесс теплопроводности не более похож на свою непрерывную модель, выраженную уравнением A), чем на дискретную модель, выраженную непосредственно уравнением B). Весьма вероятно, что с развитием современной вычислительной техники будет понято, что в очень многих случаях разумно изуче- изучение реальных явлений вести, избегая промежуточный этап их сти- стилизации в духе представлений математики бесконечного и непре- непрерывного, переходя прямо к дискретным моделям. Особенно это от- относится к изучению сложно организованных систем, способных перерабатывать информацию. В наиболее развитых таких систе- системах тяготение к дискретности работы вызвано достаточно разъяс- разъясненными в настоящее время причинами. Является требующим объяснения парадоксом то обстоятельство, что человеческий мозг математика работает в существенном по дискретному принципу и тем не менее математику значительно доступнее интуитивное постижение, скажем, свойств геодезических на гладких поверх- поверхностях, чем могущих их приблизительно заменить свойств комби- комбинаторных схем. Пользуясь своим мозгом, как данным от господа бога, мате- математик мог не интересоваться комбинаторными основами его рабо-
240 13. Комбинаторные основания теории информации ты. Но искусственный интеллект машин должен быть создан чело- человеком, и человеку приходится погрузиться в неизбежную при этом комбинаторную математику. Пока еще рано делать окончательны© выводы о том, что это будет значить для общей архитектуры мат матики будущего. ТЕОРИЯ ИНФОРМАЦИИ ■; Дискретные формы хранения и переработки информации яв ляются основными. На них основана и сама мера «количества ин формации», выражаемого в «битах» — числе двоичных знаков. В силу сказанного ранее дискретная часть теории информации при- призвана в некотором роде играть ведущую, организующую роль в развитии комбинаторной финитной математики. Из развитых вкратце общих соображений не видно, почему теория информации должна столь существенно основываться на теории вероятностей,, как это представляется по большинству руководств. Моей задачей является показать, что эта зависимость от заранее созданной тео-' рии вероятностей в действительности не является неизбежной. Ограничусь, впрочем, двумя простыми примерами. ■ Реальное содержание формулы для энтропии 2 ' Н = -2р, log Pi A); таково. Если мы произведем большое число п независимых испы- испытаний с распределением вероятностей (Pi. Рг» ■••.А) s исходов каждого испытания, то для фиксирования исхода всей серии из п испытаний нам понадобится приблизительно пН двоичных знаков. Но этот результат справедлив при несравненно - более слабых и чисто комбинаторных допущениях. Для записи результата наших испытаний достаточно указать, что каждый из исходов появился соответственно тг, т2, . . ., ms раз, и уже после этого указать номер того из L (лги ТП2, ■ ■ -, тп.) = —|—j — v s/ m\\ m2! . . . mj расположений исходов, который имел место. Для этого потребует- 2 Логарифмы всюду двоичные.
13. Комбинаторные основания теории информации 241 ся не более s log и + log С (щ, m2, . . ., ms) двоичных знаков, а при большом п это и будет приблизительно и 8 силу закона больших чисел в случае независимых испытаний с указанным выше распределением вероятностей тг/и ~ pt. Но наши допущения при выводе формулы B) несравненно слабее. Второй пример с энтропией цепи Маркова вполне аналогичен. Здесь тоже допущение о том, что требуется записать информацию о реализации марковского процесса, сильно избыточно. §3 ОПРЕДЕЛЕНИЕ «СЛОЖНОСТИ» Если какой-либо объект «просто» устроен, то для его описания достаточно небольшого количества информации; если же он «сло- «сложен», то его описание должно содержать много информации. По некоторым соображениям (см. далее § 7) нам удобно назвать вво- вводимую сейчас величину «сложностью». Стандартным способом задания информации считаем двоичные последовательности, начинающиеся с единицы, 1, 10, 11, 100, 101, 110, 111, 1000, 1001, . . ., являющиеся двоичными записями натуральных чисел. Будем обо- обозначать через I (п) длину последовательности и. Пусть мы имеем дело с какой-либо областью объектов D, в ко- которой уже имеется некоторая стандартная нумерация объектов номерами п (х). Однако указание номера п (х) далеко не всегда бу- будет наиболее экономным способом выделения объекта х. Например^ двоичная запись числа необозримо длинна, но мы его определили достаточно просто. На- Надо подвергнуть сравнительному изучению различные способы задания объектов из D. Достаточно ограничиться способами за- задания, которые каждому двоично записанному числу р ставят в со- соответствие некоторый номер п = S (р).\ Таким образом, способ задания объекта из D становится не чем иным, как функцией S от натурального аргумента с натуральными значениями. Немного далее мы обратимся к случаю, когда эта функция вычислима. Такие методы задания можно назвать «эф- «эффективными». Но пока сохраним полную общность. Для каждого 9 А. Н, Колмогоров
242 13. Комбинаторные основания теории информации объекта из D естественно рассмотреть приводящие к нему р наи- наименьшей длины I (р). Эта наименьшая длина и будет «сложностью» объекта х при «способе задания £»: Ks (х) = min l(p), S (р) = п (ж). На языке вычислительной математики можно назвать р «про- «программой», a S — «методом программирования». Тогда можно будет сказать, что р есть минимальная длина программы, по кото- которой можно получить объект х при методе программирования S. Если имеется несколько различных способов задания элемен- элементов из D Ох, О 2, . . ., Ог, то легко построить новый метод S, который будет доставлять нам любой объект х е= D со сложностью Ks (x), лишь примерно на log г превосходящей минимум из сложностей KSl (х), К8г (ж), . , ., KSj.{x). Построение такого метода очень просто. Надо резервировать до- достаточное число начальных знаков последовательности р для фиксации метода St, которому надо следовать,, пользуясь как программой оставшимися знаками р. Скажем, что метод S «с точностью до I поглощает метод б1'», если всегда #s (х) < Кв, (х) + 1.\ Выше показано, как построить метод S, который с точностью до I сильнее любого из методов £ь б^, . . ., Sr, где приблизительно I оо log г. Методы Sx и S% назовем «Z-эквивалентными», если каждый из них Z-поглощает другой. Все это построение было бы мало продук- продуктивным, если бы иерархия методов в отношении поглощения од- одних другими была слишком причудливой. Лишь сравнительно недавно было замечено, что при некоторых достаточно естествен- естественных предположениях это не так. Я далее следую своей работе [1], но примерно те же идеи можно найти в работах [3—5], в работе [3], впрочем, в несколько завуалированной форме. Теорема. Среди вычислимых функций S (р) существуют оптимальные, т. е, такие, что для любой другой вычислимой функции S'{p) Ks (x) < К в' (х) + I (S, S'). Ясно, что все оптимальные способы задания объектов из D эквивалентны: | KSl (х) - KSl (j)K! {Su
13. Комбинаторные основания теории информации 243 Таким образом, с асимптотической точки зрения сложность К (х) элемента х при ограничении эффективными способами зада- задания не зависит от случайных особенностей выбранного оптималь- оптимального метода. Конечно, чисто практический интерес этого резуль- результата зависит от того, насколько велики расхождения в сложностях при различных достаточно гибких, но вместе с тем и достаточно удобных и естественных методах программирования. §4 ЗАКОНОМЕРНОСТЬ И СЛУЧАЙНОСТЬ Вполне традиционно представление, что «случайность» состоит в отсутствии «закономерности». Но, по-видимому, только сейчас возникла возможность основать точные формулировки условий применимости к реальным явлениям результатов математической теории вероятностей непосредственно на этой простой идее. Любые результаты наблюдений могут быть запротоколированы в виде конечной, хотя иногда и весьма длинной записи. Поэтому, когда говорят об отсутствии в результатах наблюдений закономер- закономерности, имеют в виду лишь отсутствие достаточно простой законо- закономерности. Например, последовательность из 1000 цифр 1274031274031274031...,; сменяющихся с периодом в шесть цифр, мы с несомненностью оч - несем к «закономерным», а не «случайным» последовательностям. Последовательность первой тысячи десятичных знаков дробной части числа я 1415..., как известно, обладает многими свойствами «случайных последо- последовательностей». Узнав ее закон образования, мы и ее откажемся признать «случайной». Но если нам выпишут многочлен 999-й степени, значения которого при х = 1, 2, 3,. . ., 1000 доставляют последовательность целых чисел р (х), заключенных в пределах от 0 до 9, полученных в результате частных случайных испытаний аила игры в рулетку, то наличие такого многочлена не помешает нам продолжать считать последовательность «случайной». Если тем или иным способом мы пришли к выводу, что после- последовательность результатов каких-либо испытаний не допускает полного описания в приемлемой для нас в отношении сложности форме, то мы скажем, что эта последовательность разве что лишь частично закономерна, отчасти же «случайна». Но это еще не та «случайность», которая нужна для применимости выводов теории вероятностей. Применяя теорию вероятностей, мы не ограничи- ограничиваемся отрицанием закономерности, а делаем из гипотез о слу- случайности наблюдаемых явлений определенные положительные выводы. 9*
244 13. Комбинаторные основания теории информации Мы сейчас увидим, что практические выводы теории вероятно- вероятностей могут быть обоснованы в качестве следствий гипотез о пре- предельной при данных ограничениях сложности изучаемых явлений. §5 УСТОЙЧИВОСТЬ ЧАСТОТ Следуя Мизесуз часто выдают за основу приложений теории вероятностен признание гипотезы об устойчивости частот. В при- приближенной к практике форме эта концепция принята и в моей известной книжке по основаниям теории вероятностей A933). Пусть результат последовательности большого числа N испытаний записан в виде последовательности нулей и единиц 11010010111001011... Говорят, что выпадение единицы случайно с вероятностью р, если доля единиц MlN~p A) и эта частота не может быть существенно изменена при выборе из нашей последовательности не слишком короткой подпоследователь- подпоследовательности, произведенной по достаточно простому закону и притом так,: что зачисление какого-либо элемента основной последова- последовательности в подпоследовательность производится без использова- использования значений этого элемента 3. Но оказывается, что такое требование может быть заменено другим, формулируемым существенно проще. Сложность последо- последовательности нулей и единиц с условием A) не может быть сущест- существенно больше чем пН (р) = п (-р log р — A - р) log A — р)). Можно доказать, что мизесовская устойчивость частот автомати- автоматически выполняется,, если сложность нашей последовательности достаточно близка к указанной верхней оценке. У меня нет здесь возможности дать количественные уточнения этого результата 4 и рассмотреть с той же точки зрения более сложные задачи теории вероятностей. Но принцип является об- общим. Например, предполагая, что последовательность нулей и единиц образует цепь Маркова с матрицей переходных вероятно- вероятностей IPoo Pol II ЛоРи Г 8 Наиболее тщательную финитную формулировку этого принципа Ми- веса см. в работе [17]. 4 См. в [17], хотя] там еще нет появившегося в [1] определения сложно- сложности.
13. Комбинаторные основания теории информации 245 мы по существу задаем приближенные значения частот единиц после единиц, единиц после нулей, нулей после единиц и нулей после нулей. Можно вычислить максимальную сложность такой последовательности длины п. Если сложность конкретной после- последовательности с заданными частотами переходов близка к этой максимальной, то для нее автоматически выполняются все пред- предсказания вероятностной теории цепей Маркова. §6 БЕСКОНЕЧНЫЕ СЛУЧАЙНЫЕ ПОСЛЕДОВАТЕЛЬНОСТИ Только что намеченная программа пока еще не выполнена, хотя у меня нет сомнений в ее выполнимости. Именно ее выпол- выполнение должно более совершенным образом, чем построения мизе- совского типа, связать математическую теорию вероятностей с ее применениями. При эюм я имею в виду, что нет никакой необ- необходимости изменять сложившееся построение математической тео- теории вероятностей на основе общей 1еории меры. Исследованиям, к обзору которых я перехожу, я не склонен придавать значения необходимых основ теории вероятностей. Но сами по себе они весь- весьма интересны. Для математика является привлекательной задачей опреде- определить, какие бесконечные последовательности нулей и единиц следует называть «случайными». Ограничусь простейшим случаем последовательностей с частотами нулей и единиц, равными 11г. Хотелось бы потребовать от последовательности чтобы ее конечные отрезки х = (х\, ж2, . , .| хп) имели сложность К (хп) >п-С, где С — некоторая (различная для разных х) константа. Но Мартин-Лёф доказал теорему. Первая теорема Мартин-Лёф а. Если f (n) — такая вычислимая функция, что 22-К») = оо,- A) то для любой двоичной последовательности х = (Xi, х2, . . ., хп, . . .) существует бесконечно много значений п, для которых K(xn)<n-f (n).
246 13. Комбинаторные основания теории информации Условию теоремы удовлетворяет, HanpHMepj функция / (га) = = I (п). Но если ряд 22-Я") . B) «конструктивно сходится» 5, то почти все (в смысле диадической меры) последовательности х обладают свойством К (хп) > га - / (п) C) начиная с некоторого п. Было бы нелогично принять свойство C) за определение случайной последовательности. Определение Мар- тин-Лёфа глубже. Я лишен здесь возможности его привесм пол- полностью. Случайные по Мартин-Лёфу двоичные последовательности обладают всеми «эффективно проверяемыми» 6 свойствами, кото- которые с точки зрения обычной современной теории вероятностей имеют место «с вероятностью единица» в случае независимых ис- испытаний, в которых хп = 1 с вероятностью V2. Для таких случай- случайных последовательностей Мартин-Лёф доказал вторую теорему. Вторая теорема Мартин-Лёфа. Для случай- случайных последовательностей нулей и единиц начинал с некоторого п выполняется неравенство C), если только функция f такова, что ряд B) конструктивно сходится. Я привел эти тонкие, но довольно специальные результаты Мартин-Лёфа, чтобы показать, что здесь образовалось поле для весьма интересных математических изысканий (см. в связи с этим другие работы Мартин-Лёфа и Шнорра, например [9])« § 7 УСЛОВНАЯ СЛОЖНОСТЬ И КОЛИЧЕСТВО ИНФОРМАЦИИ Сложность задания какого-либо объекта может быть облегче- облегчена тем, что уже задан какой-либо другой объект. Этот факт отра- отражает такое определение условной сложности объекта х при за- заданном объекте у: K-s (я I У) = min I (p). S(() )() Здесь метод условных определений S есть функция двух аргумен- аргументов — номера объекта у и номера р программы вычисления номера п (х) при заданном у. По поводу условных сложностей можно пов- повторить все сказанное в § 3. Если условная сложность К (х \ у) много меньше, чем безус- безусловная сложность К (х), то это естественно понять как указание на то, что в объекте у содержится некоторая «информация» об 5 Подробности см. в [8]. 6 То же.
13. Комбинаторные основания теории информации 247 объекте х* Разность Js [х\у) = Ks (x) ~Ks(x\ у) и естественно признать за количественную меру информации об х, содержащейся в у. Будем допускать в качестве второго аргумента функции S («, р) число нуль и положим S (п, 0) = п (нулевая программа из п производит п). Тогда Ks (х\х) = 0,, ds (x\x) = Ks (x). Таким образом, сложность К8.(х) можно называть и информацией, содержащейся в объекте о себе самом. Наше определение количества информации в прикладном отно- отношении имеет то преимущество, что оно относится к индивидуаль- индивидуальным объектам, а не к объектам, рассматриваемым в качестве вклю- включенных в множество объектов с заданным на нем распределением вероятностей. Вероятностное определение убедительным образом можно применять к информации, содержащейся, например, в по- потоке поздравительных телеграмм. Но было не слишком понятно^ как его применить, например, к оценке количества информации, содержащейся в романе или в переводе романа на другой язык относительно подлинника. Я думаю, что новое определение спо- способно внести в подобные применения теории хотя бы принципиаль- принципиальную ясность. Возникает вопрос о том, позволяет ли новое определение дока- доказать ряд основных положений теории информации, достаточно себя зарекомендовавших. Заранее ясно, что они должны иметь место лишь с точностью до аддитивных констант, соответствую- соответствующих неопределенности, возникавшей уже в § 3. Нельзя было ожи- ожидать, например, точного соблюдения равенства 3{х\у) = СИл\ х), A) но сначала казалось, что разность между левой и правой частями здесь должна быть ограничена. В действительности Колмогоров и Левин установили только более слабое неравенство типа \V(x\y)-Cftl/\*)\ = O (log К (х, у)) B) (см. [1G]). При этом установлено, что разность в самом деле может иметь этот порядок. Но в применениях, доступных вероятностному подходу, B) вполне заменяет A). В самом деле, строгое равенство A) вероят- вероятностной теории информации позволяет делать реальные выводы лишь в применении к большому числу пар (xh yt), т. е. по сущест-
248 13. Комбинаторные основания теории информации в у об информации в {#!, Ж2, . . ., ХТ) относительно (Уь Уа» • • -ж Уг) и наоборот. А такого рода выводы получаются и из B), где в этом случае выражение в правой части оказывается пренебрежимо малым. §8 ТЕОРЕМА БАРЗДИНЯ Новый ряд понятий оказывается интересным и за пределами теории вероятностей и прикладной теории информации. Чтобы дать тому пример, изложу одну теорему Барздиня. Она относится к бесконечным двоичным последовательностям X = \Х\, Хп1 • • в которых множество номеров п с хп = 1 перечислимо. Если бы было перечислимо и дополнительное множество номеров нулей, то функция / (п) = хп была бы вычислима и условная сложность К (хп | п) была бы ограничена. Но в общем случав (при перечис- перечислимости множества номеров единиц) К (хп | п) может неограни- неограниченно возрастать. Теорема Барздиня [15]. Для двоичной последова- последовательности с перечислимым множеством единиц М К {хп | л)< log п + См; существуют такие последовательности для которых при любом п К {хп | п) > log п. Этот результат представляется мне имеющим принципиальный интерес с точки зрения исследований по основаниям математики. Для определенности рассмотрим такую проблему. Занумеруем все диофантовы уравнения натуральными числами. Недавно было доказано Матиясевичем, что не существует общего алгоритма для решения вопроса о том, имеет ли уравнение Dn решения в целых числах. Но можно поставить вопрос о существовании алгоритма, который позволял бы решить вопрос о существовании или несу- несуществовании решений для первых п диофантовых уравнений при помощи некоторой дополнительной информации Cfn при том или ином порядке роста количества этой информации с ростом п. Теорема Барздиня показывает, что этот рост может быть очень медленным: log n + С.
13. Комбинаторные основания теории информации 249 ЗАКЛЮЧЕНИЕ Доклад неизбежно был крайне неполным. Подробную библио- библиографию примыкающих работ можно найти в [16]. Повторю неко- некоторые выводы. 1. Теория информации должна предшествовать теории вероят- вероятностей, а не опираться на нее. Основы теории информации имеют по самому существу этой дисциплины финитный комбинаторный характер. 2. Применения теории вероятностей могут получить единооб- единообразное обоснование. Дело идет всегда о следствиях гипотез о не- невозможности теми или иными указанными средствами сократить сложность описания изучаемых объектов. Естественно, что такой подход к делу не мешает тому, чтобы теория вероятностей как часть математики развивалась как специализация общей теории меры. 3. Понятия теории информации в применении к бесконечным последовательностям дают повод к весьма интересным исследова- исследованиям, которые, не будучи необходимы в качестве основ теории вероятностей, могут получить некоторое значение в исследовании алгоритмической стороны математики в целом. Московский государственный университет им. М. В. Ломоносова 20 августа 1982 г. ЛИТЕРАТУРА 1. Колмогоров A. If. Три подхода к определению понятия «количество ин- информации».— Проблемы передачи информации, 1965, т. 1, № 1, с. 3—11. 2. Kolmogoroff A. N. Logical basis for information theory and probability theory.— IEEE Trans. Inform. Theory, 1968, vol. IT-14, p. 662—664. Рус. пер.: Колмогоров A. If. К логическим основам теории информации и теории вероятностей.— Проблемы передачи информации, 1969, т. 5, N° 3, с. 3—7. 3. Solomonoff R. L. A formal theory of inductive inference.— Inform, and Contr., 1964, vol. 7, N 1, p. 1—22. 4. Chaitin G. On the length of programs for computing finite binary sequen- sequences.— J. Assoc. Comput. Mack, 1966, vol. 13, N 4, p. 547—569. 5. Loveland D. A new interpretation of the von Mises concept of random se- sequence.—Ztschr. math. Log. uad Grundl. Math., 1966, Bd. 12, S. 279— 294. 6. Church A. On the concept of a random sequence.— Bull. Amer. Math. Soc, 1940, vol. 46, p. 130—135. 7. Martin-Loi P. The definition of random sequences.— Inform, and Contr.- 1966, vol. 9, N 6, p. 602—619. 8. Martin-L6f P. Algorithms and random sequences. Erlangen: Univ. Press, 1966. 9. Schnorr С P. Ein Bemerkung zum Bergiff der zufalligen Folge.— Ztschr. Wahrecheinlichkeitstheor. verw. Geb., 1969, Bd. 14, S. 27—35. 10. Трахтенброт Б. А. Сложность алгоритмов и вычислений. Новосибирск: Наука, 1967.
250 13. Комбинаторные основания теории информации 11. Колмогоров А. II., Успенский В. А. К определению алгоритма.— УМН, 1958, т. 13, вып. 4, с. 3—28. 12. Барздинь Я. М. Проблемы универсальности в теории растущих автома- автоматов.— ДАН СССР, 1964, т. 157, № 3, с. 542—545. 13. Офман 10. П. Универсальный автомат.— Тр. Моск. мат. о-ва, 1965, т. 14, с. 186—199. 14. Офман Ю. П. Моделирование самоконструирующейся системы на уни- универсальном автомате.— Проблемы передачи информации, 1966, т. 2, № 1, с. 68—73. 15. Барздинь Я. М. Сложность программ, распознающих принадлежность натуральных чисел, не превышающих п, рекурсивно перечислимому мно- множеству.— ДАН СССР, 1968, т. 182, № 6, с. 1249—1252. 16. Звонкип А. К., Левин Л, А. Сложность объектов и обоснование понятий информации и случайности с помощью теории алгоритмов.— УМН, 1970, т. 25, вып. 6, с. 85—127, 17. Kolmogorov A. N. On tables of random numbers.— Sankhya. A, 1963, vol. 25, N 4, p. 369—376. Рус. пер.: Колмогоров А. Н. О таблицах слу- случайных чисел.— В кн.: Семиотика и информатика. М.: ВИНИТИ, 1982, вып. 18, с. 3—13.
КОММЕНТАРИИ И ПРИЛОЖЕНИЯ К РАБОТАМ ПО ТЕОРИИ ИНФОРМАЦИИ И НЕКОТОРЫМ ЕЕ ПРИМЕНЕНИЯМ А. Н. Колмогоров Возникновение теории информации как самостоятельной науки связано с идеями кибернетики. Кибернетика изучает в самом об- общем виде процессы управления, а рациональное управление тре- требует определенной информации, ее получения, хранения, передачи по каналам связи и переработки. Поэтому естественно, что цикл моих работ по теории информации был создан под большим влия- влиянием публикаций Норберта Винера и Клода Шеннона A948) в конце 50-х и 60-х годов 1. Значительную часть этих работ удобно обозреть в порядке существующих к настоящему времени трех подходов к введению основных понятий теории информации: I — чисто комбинаторный подход, II — вероятностный подход, III — алгоритмический подход. Математический аппарат теории информации имеет и примене- применения, выходящие за пределы этих трех интерпретаций. Таковы работы, в которых этот аппарат применяется в теории динамиче- динамических систем. Из моих работ сюда относится работа № 5 (см. ниже раздел IV). I. ЧИСТО КОМБИНАТОРНЫЙ ПОДХОД. РАБОТЫ № 7—10, 12, 13 При комбинаторном подходе количество информации, сооб- сообщаемой при указании определенного элемента в множестве из N объектов, принимается равным двоичному логарифму N (Р. Харт- Хартли, 1928). Например, имеется различных слов в алфавите из s элементов, содержащих по тог вхождений i-й буквы нашего алфавита (toj + . . . + ms = п). 1 Норберт Винер с большой широтой признал мой приоритет в спект- спектральной теории стационарных процессов и их экстраполяции. Что жо ка- касается общих идей кибернетики, то в многочисленных публикациях я за- занимался лишь пропагандой этих идей. В задачу же настоящего издания входит публикация лишь работ, составляющих мой оригинальный вклад в математическую теорию информации.
252 Комментарии и приложения Поэтому интересующее нас количество информации равно Я = log2 С {тъ . . ., ms). При га, тъ . . ., msi стремящихся к бесконечности^ действует асимптотическая формула Читатель, вероятно, уже заметил сходство этой формулы с фор- формулой вероятностной теории информации tf = »(SPilog«Pi). B) Если наше слово образовано по хорошо известной схеме при помо- помощи независимых испытаний, то асимптотическая формула A) является очевидным следствием формулы B) и закона больших чисел, но круг практических применений формулы A) значитель- значительно шире (см., например, работы по передаче информации по не- нестационарным каналам). Вообще мне представляется важной за- задача освобождения всюду, где это возможно, от излишних вероят- вероятностных допущений. На независимой ценности чисто комбинатор- комбинаторного подхода к задачам теории информации я неоднократно на- настаивал в своих лекциях. На чисто комбинаторном подходе к понятию энтропии осно- основаны мои работы и работы моих сотрудников по е-энтропии и е-емкости компактных классов функций. Здесь е-энтропия Не (К) есть количество информации, необходимое для выделения из класса функций какой-нибудь индивидуальной функции, а е-емкостьСе {К) есть количество информации, которое может быть закодировано элементами из К при условии, что надежно разли- различимы элементы К, расположенные друг от друга на расстоянии, не меньшем в (по поводу относящихся сюда работ № 7 и № 8 см. комментарий В. М. Тихомирова). В конце работы № 8 указаны без доказательства некоторые мои результаты о сложности приближенного вычисления функций из разных функциональных классов. В работе Е. А. Асарина даны полные доказательства теорем моего стокгольмского доклада (№ 8 наст, изд.) и некоторые их усиления и обобщения. Интересно отметить неожиданный ре- вультат, что оценку сложности вычисления аналитических функ- функций удается существенно понизить, пользуясь алгоритмами бы- быстрого умножения. В работе № 9 на уровне элементарных подсчетов в рамках чи- чисто комбинаторного подхода к понятию информации анализирует- анализируется возможность формального определения понятия случайности. Естественно, что при атом не удается определение какого-либо аб-
К работам по теории информации и ее применениям (А. Н. Колмогоров) 253 солютного понятия случайности,; а удается только определение случайности по отношению к ограниченному классу законов выбо- выбора подпоследовательности и мере е устойчивости частот (замеча- (замечание 2 § 2 этой работы выходит за пределы строго финитного подхо- подхода и освещено в комментарии А. X. Шеня к работам № 10, 12, 13). II. ВЕРОЯТНОСТНЫЙ ПОДХОД. РАБОТЫ № 2—4 Исчерпывающий комментарий к этим работам дан Р. Л. Доб- рушиным. III. АЛГОРИТМИЧЕСКИЙ ПОДХОД. РАБОТЫ № 10, 12, 13 Алгоритмический подход основан на применении теории ал- алгоритмов для определения понятия энтропии, или сложности, конечного объекта и понятия информации в одном конечном объекте о другом. Интуитивное различие между «простыми» и «сложными» объектами ощущалось^ по-видимому t давно. На пути его формализации встает очевидная трудность: not что просто опи- описывается на одном языке, может не иметь простого описания на другом, и непонятно, какой способ описания выбрать. Основ- Основное открытие, сделанное мной и одновременно Р. Соломоновым,; состоит в том, что с помощью теории алгоритмов можно ограни- ограничить этот произвол, определив сложность почти инвариантно (замена одного способа описания на другой приводит лишь к до- добавлению ограниченного слагаемого) 2. Среди моих работ наиболее полное изложение этих идей содержится в работе № 13 (см. также комментарий А. X. Шеня к работам № 10, 12, 13). IV Работа № 5 содержит некоторые применения математического аппарата теории информации к теории динамических систем. Вводимое в этой работе понятие «количества информации» не по- получает какого-либо реального истолкования. Оно служит лишь математическим аппаратом теории динамических систем (см. ком- комментарий к этой работе Я. Г. Синая). 2 Насколько я знаю, первой печатной публикацией, содержащей пере- перестройки теории информации на. алгоритмической основе, является статья Р. Соломонова, опубликованная в 1964 г. Я пришел к аналогичной концеп- концепции в 1963—1964 гг., еще не зная работ Соломонова, и опубликовал первую заметку № 10 на эту тему в начале 1965 г.
254 Комментарии и приложения ТЕОРИЯ ИНФОРМАЦИИ (к № 2—4) (Р. Л. Добрушин) Есть одна черта, которую цикл работ А. Н. Колмогорова по теории ин- информации разделяет со всеми по-настоящему важными научными исследова- исследованиями. По прошествии достаточного времени их основные мысли восприни- воспринимаются специалистами как прописные ретины, но совсем не так обстояло дело в период их создания. Надо вспомнить обстановку 50-х годов, когда А. Н. Колмогоров заинтересовался вопросами теории информации. Это было время, когда под давлением надвигавшейся эры вычислительных машин не- некритически подозрительное отношение к идеям кибернетики внезапно сме- сменилось столь же некритическим и восторженным пиететом, и в результате зачастую на первый план выступали наиболее поверхностные и спекулятив- спекулятивные из этих идей. Такая шумиха порождала и естественную негативную ре- реакцию. Теория информации воспринималась тогда как одна из глав кибернети- кибернетики. На самом деле она была создана исключительно глубокими работами (см. [1]) американского ученого Шеннона, инспирированными конкретными нуждами техники связи, еще до того как Винер придумал термин «киберне- «кибернетика». Теория информации вызвала бурный интерес как среди инженеров- связистов, так и среди представителей очень многих других наук. Однако этот бум не был столь уж оправдан. В первую очередь увлекала сама мысль о воз- возможности математического описания количества информации, и при этом не было должного понимания того, что столь общий многообразный объект, как информация, не может допускать единого метода численного измерения, а идеи Шеннона обоснованы лишь в применении к той важной, но все же огра- ограниченной ситуации, когда рассматриваются оптимальные методы кодирова- кодирования и декодирования информации в целях ее передачи по каналам связи ила ее хранения. Как писал в то время сам Шеннон (см. [2]): «В результате всего этого значение теории информации было, быть может, преувеличено и раздуто до пределов, превышающих ее реальные достижения... Сейчас теория инфор- информации, как модный опьяняющий напиток, крушит голову всем вокруг». Од- Однако это увлечение не охватило математиков. Первые работы Шеннона были написаны на уровне физической строгости, противопоказанной познаватель- познавательным возможностям среднего математика. Как писал А. Н. Колмогоров в предисловии к изданному в 1963 г. русскому переводу Статей Шеннона: «Значение работ Шеннона для чистой математики не сразу было достаточно оценено. Мне вспоминается, что еще на международном съезде математиков в Амстердаме A954) мои американские коллеги, специалисты по теории ве- вероятностей, считали мой интерес к работам Шеннона несколько преувеличен- преувеличенным, так как это более техника, чем математика. Сейчас такие мнения вряд ли нуждаются в опровержении. Правда, строгое математическое «обоснование» своих идей Шеннон в сколько-нибудь трудных случаях предоставил своим продолжателям. Однако его математическая интуиция изумительно точна...».
Теория информации (Р. Л. Добрушин) 255 Ситуация усугублялась еще тем, что в единственно доступном в 50-х годах первом русском переводе статьи Шеннона [3] были сделаны произвольные купюры, причем не только в связи с господствовавшим тогда представлением о принципиальной недопустимости приложений математики к гуманитарным наукам, но и просто потому, что некоторые математически наиболее интерес- интересные разделы статьи показались издателям ее перевода слишком абстрактны- абстрактными (см. примечание в начале статьи [4]). Были нужны работы математического уровня, закладывающие матема- математический фундамент теории информации. Эта задача была выполнена статьями Хинчина [5, 6], Гельфанда, Колмогорова и Яглома [7]. Была нужна популя- популяризация идей теории информации, совмещенная с авторитетным разъяснением границ ее приложимости. Эта задача была решена известным докладом А. Н. Колмогорова [8] на сессии АН СССР, посвященной автоматизации производства. Первые пионерские работы Хинчина были посвящены доказа- доказательству основных теорем теории информации для дискретного случая. В последовавших за ними работах Гельфанда, Колмогорова и Яглома [4, 7] был рассмотрен более общий случай непрерывных систем, лишь слегка затро- затронутый в первоначальных работах Шеннона. Впервые установленные в них общие свойства количества информации, явные формулы для информацион- информационных характеристик в гауссовском случае, формулировки теорем кодирования для воспроизведения сообщений с заданной точностью остались незыблемым элементом всех современных работ по теории информации. И, что, может быть, еще важнее, эти работы московских ученых заложили традицию изло- изложения результатов теории информации на уровне математической строгости, которой с тех пор неизменно придерживаются как те из специалистов по теории информации, которые считают себя математиками, так и те, кто счи- считает себя инженерами. (На уровне математической строгости написаны и бо- более поздние, тоже очень содержательные, работы Шеннона (см. [9]).) Часто бывает, что после вылущения математического ядра идей, возник- возникших в недрах другой науки, открываются неожиданные связи этих идей с иными разделами математики. Так случилось и с теорией информации. А. Н. Колмогоровым были открыты очень важные и плодотворные возмож- возможности применения понятия энтропии к проблеме изоморфизма динамических систем (см. [10]) и энтропийной характеризации функциональных пространств (см. [11]). Выдвинутый А. Н. Колмогоровым тезис о том, что наряду с уже признанным вероятностным подходом к определению количества информа- информации правомерны, а во многих ситуациях и более естественны, иные подходы: комбинаторный и алгебраический, привел к созданию нового раздела нау- науки — алгоритмической теории информации. Эти исследования подробно ха- характеризуются в других комментариях. Перейдем теперь к более детальному обсуждению дальнейших исследо- исследований, связанных с развитием идей А. Н. Колмогорова по вероятностной теории информации. Список дальнейших работ, в которых используются по- понятия теории информации, впервые исследованные в работах Колыогоршп и его соавторов, был бы слишком длинен. Поэтому мы ограничимся лишь не- некоторыми работами московских ученых, нейббрадотпмпш инпифирошпшыми
256 Комментарии и приложения влиянием А. Н. Колмогорова. Подробное изложение результатов доклада [4] содержится в статье Гельфанда и Яглома [12]. В монографии Пинскера [13] было продолжено начатое А. Н. Колмогоровым асимптотическое исследо- исследование информационных характеристик случайных процессов. Добрупшн [14] развил идею А. Н. Колмогорова об общей формулировке основной тео- теоремы теории информации для произвольной последовательности передающих устройств и сообщений с растущей информацией. Эти исследования были про- продолжены Пинскером [15]. Отметим также работы китайского ученого Ху Го Дина, стажировавшегося в то время в Московском университете [16, 17] и ра- работу безвременно погибшего талантливого математика Ерохина [18]. В ра- работах Фитингофа [19, 20], создававшихся под непосредственным влиянием А. Н. Колмогорова, был развит новый подход к проблеме оптимального ко- кодирования сообщений в ситуации, когда статистика сообщений неизвестна. В работе А. Н. Колмогорова [4] отмечен как открытый вопрос о том, верна ли для произвольной пары/л-ационарно связанных гауссовских процессов естест- естественная явная формула для среднего количества информации. В работе [21] было обнаружено, что это может быть не так, если оба процесса сингулярны. Исследования этой трудной проблемы продолжаются и в последние годы. Так Солевым (см/ [22]) найдены весьма общие условия верности этой формулы для процессов с непрерывным временем. ЛИТЕРАТУРА 1. Shannon С. Е. A mathematical theory of communication. Pt I, II.— Bell Syst. Techn. J., 1948, vol. 27, N 3, p. 379—423; N 4, p. 623—656. Рус. пер.: Шеннон К. Математическая теория связи.— В кн.: Работы по тео- теории информации и кибернетике. М.: Изд-во иностр. лит.^ 1963, с. 243— 332. 2. Shannon С. Е. The bandwagon.— IRE Trans. Inform. Theory, 1956,' vol. IT-2,N 1, p. 3. Рус. пв]).: Шеннон К. Бандвагон.— Вкн.:Работы по теории информации и кибернетике. М.: Изд-во иностр. лит., 1963, с. 667— 668. 3. Шеннон К. Математическая теория связи.— В кн.: Теория передачи электрических сигналов при наличии помех. М.: Изд-во иностр. лит., 1953. 4. Гельфанд И. М., Колмогоров А. Н., Яглом А. М. Количество инфор- информации и энтропия для непрерывных распределений.— В кн.: Тр. III Всесоюз.мат. съезда. М.: Изд-во АН СССР, 1958, т. 3, с. 300—320. 5. Хинчин А. Я. 1. Понятие энтропии в теории вероятностей.— УМН, 1953, т. 8, вып. 3, с. 3—20. 6. Хинчин А. Я. 2. Об основных теоремах теории информации.— УМН, 1956, т. И, вып. 1, с. 17—75. 7. Гельфанд И. М., Колмогоров А. #., Яглом А. М. К общему определе- определению количества информации.— ДАН СССР, 1956, т. 111, № 4, с. 745— 748. 8. Колмогоров А. Н. Теория передачи информации.— В кн.: Сессия АН СССР по научным проблемам автоматизации производства; 15— 20 окт. 1956 г.: Пленар. заседания. М.: Изд-во АН СССР, 1957, с. 66—69. 9. Шеннон К. Работы по теории информации и кибернетике. М.: Изд-во иностр. лит., 1963. 10. Колмогоров А. Н. Новый метрический инвариант транзитивных динами- динамических систем и автоморфизмов пространств Лебега.— ДАН СССР, 1958, т. 119, № 5, с. 861—864.
Алгоритмическая теория информации (А. X. Шень) 257 11. Колмогоров А. Н. Об энтропии на единицу времени как метрическом ин- инварианте автоморфизмов.— ДАН СССР, 1959, т. 124, № 4, с. 754—755. 12. Гелъфанд С. И., Я злом А. М. О вычислении количества информации случайной функции, содержащейся в другой такой функции.— УМН, 1957, т. 12, вып. 1, с. 3—52. 13. Пинспер М. С. Информация и информационная устойчивость случайных величин и процессов. М.: Изд-во АН СССР, 1960. 14. Добрушин Р. Л. Общая формулировка основной теоремы Шеннона в теории информации.— УМН, 1959, т. 14, вып. 6, с. 3—104. 15. Пинскер М. С. Источники сообщений.— Проблемы передачи информа- информации, 1963, выл. 4, с. 5—20. 16. Ху Го Дин. 1. Три обратные теоремы к теореме Шеннона в теории инфор- информации.— Acta math. Siniea, 1961, vol. 11, N 3, p. 260—294 (на кит. яз.). 17. Ху Го Дин. 2. Об информационной устойчивости последовательности ка- каналов.— Теория вероятностей и ее применения, 1962, т. 7, № 3, с. 271— 282. 18. Ерохин В. Д. е-энтропия дискретного случайного объекта.— Теория ве- вероятностей и ее применения, 1958, т. 3, № 1, с. 103—107. 19. Фитингоф Б. М. Оптимальное кодирование при неизвестной и меняю- меняющейся статистике сообщений.— Проблемы передачи информации, 1966, т. 2, № 2, с. 3—11. 20. Фитингоф Б. М. Сжатие дискретной информации.— Проблемы переда- передачи информации, 1967, т. 3, № 3, с. 26—36. 21. Grood Т. J., Doog К. С. A paradox concerning rate of information.— In- Inform, and Contr., 1958, vol. 1, N 2, p. 113—126 (поправка: Inform, and Contr., 1959, vol. 2, p. 195—197). 22. Солее В. Н. О среднем на единицу времени количестве информации, со- содержащейся в одном гауссовском стационарном процессе относительно другого.— Зап. науч. семинаров ЛОМИ, 1972, т. 29, с. 18—26. АЛГОРИТМИЧЕСКАЯ ТЕОРИЯ ИНФОРМАЦИИ (к № 10, 12, 13) (А. X. Шень) В этом комментарии мы перечислим основные результаты, полученные А. Н. Колмогоровым и его учениками и последователями в области алго- алгоритмической теории информации. Напомним, что через К (ж) обозначается простая колмогоровская энтро- энтропия (= сложность) объекта х. Мы предпочитаем говорить «энтропия», как в- [1], а не «сложность», как в [2], чтобы избежать смешения со «сложностями вычисления» — временной, емкостной и т. п. Через К {у \ х) обозначается условная колмогоровская энтропия объекта у при известном объекте х. (Го- (Говоря об «объектах», мы — если это не оговорено особо — имеем в виду нату- натуральные числа или какие-то конструктивные объекты, вычислимым образом закодированные натуральными числами, например двоичные слова.) Попя- тие условной энтропии может, как показано в [2], служить основой для оп- определения понятия «количество информации». Рассмотрим, как связан этот «алгоритмический подход» к понятиям эн- энтропии и информации с двумя другими подходами, инлпжшшыми в [2]: комби-
258 Комментарии и приложения наторным и вероятностным. (Отметим сразу же, что комбинаторный подход был впоследствии развит в работах Гогшы [3, 4].) Комбинаторный подход. Нетрудно показать, что количество объектов, (простая колмогоровская) энтропия которых не превосходит п, примерно рав- равно 2П (с точностью до ограниченного и отделенного от нуля множителя). С дру- той стороны, если просто устроенное множество состоит из М объектов, то эн- энтропия его элементов не намного больше log^M. Один из вариантов уточне- уточнения этого высказывания таков: пусть Ао, Аг, . . .— вычислимая последова- последовательность перечислимых множеств (вычислимость понимается в том смысле, что по i можно указать программу алгоритма, область определения которого есть Ai), причем число элементов в А% не превосходит 2'. Тогда существует такое С, что для любого i и для любого х е А\ выполнено неравенство К (х) < i + С. (Это утверждение легко вытекает из результатов [5].) Грубо говоря, для установления неравенства К (х) ^ I достаточно включить х в (просто устроенное) множество из не более чем 21 элементов. Вероятностный подход. Смысл приводимых ниже результатов о связи алгоритмического подхода с вероятностным можно коротко сформулировать так: при алгоритмическом подходе] учитываются не только все вероятност- вероятностные закономерности, но и другие (если они есть); если же других закономер- закономерностей нет, то алгоритмический подход приводит к тем же результатам, что и вероятностный. Пусть х — последовательность нулей и единиц длины п, частота единиц в которой равна р, а нулей — q = 1 — р. Пусть Н — соответствующая шенно- новская энтропия, т. е. Н = —р log2 p — q log2 q. Тогда К (х) ^ пН + С log2 п. (Здесь К — простая колмогоровская энтропия, С — константа, зависящая только от выбора р, q и способа описания и не зависящая от п, см, [5, теоре- теорема 5.1].) Таким образом, «удельная колмогоровская энтропия» К (хIп не мо- может сильно превосходить Н (но может быть значительно меньше Н, если в по- последовательности х имеются закономерности, отличные от вероятностных). Следующий результат показывает, что если последовательность имеет только вероятностные закономерности, то ее удельная колмогоровская энтропия близка к шенноновской. Пусть р, q е [0, 1], р ,-\- q = 1. Рассмотрим на множестве бесконечных последовательностей нулей и единиц бернуллиев- скую меру с вероятностями появления нуля и единицы, равными р и q соот- соответственно. Тогда для почти всех (по этой мере) последовательностей х =* = х^хг . . . справедливо соотношение lim {К (а^ . . . xn_-^jn) = И, где Н = —р log2 р — q log2 q. (Это утверждение легко вытекает из [5, фор- формула E.18)].) Наряду с простой и условной колмогоровскими энтропиями различными авторами были введены другие алгоритмические варианты энтропии конеч-
Алгоритмическая теория информации (А. X. Шенъ) 259 ных объектов — энтропия разрешения (см. [5]), монотонная и префиксная энтропии (см. [6]). Различные виды энтропии оказываются связанными с так называемой априорной вероятностью (см. [5, 6]) и с введенным Шнорром понятием слож- сложности вычислимой функции как логарифма ее номера в «оптимальной нуме- нумерации» (см. [7—9]). В 1966 г. Мартин-Лёф [10] предложил определение случайности беско- бесконечной последовательности нулей и единиц относительно данной вычислимой меры Р на пространстве Й всех бесконечных последовательностей нулей и единиц. Приведем это определение. Пусть Р — мера на пространстве Q бесконечных последовательностей нулей и единиц, обладающая свойством вычислимости, т. е. такая, что мера множества Тх = {e> s Q | х есть начало а»} для любого слова х в алфавите {0, 1} является вычислимым действительным числом, которое можно эффективно найти по х. Определим понятие конструк- конструктивно нулевого относительно меры Р множества — понятие, являющееся эффективизацией обычного понятия нулевой меры. Назовем множество А с С И конструктивно нулевым относительно меры Р, если по всякому рацио- рациональному е > 0 можно эффективно указать перечислимое множество конеч- конечных слов {х0, xlt . . .}, для которого (а) i С Ur,,, (б) 2Р (Гж.) < е. (Имеется в виду существование алгоритма, указывающего по е номер соот- соответствующего перечислимого множества в стандартной нумерации.) Можно- доказать (теорема Мартин-Лёфа), что для вычислимых мер существует мак- максимальное по включению конструктивно нулевое (относительно данной меры)^ множество. Другими словами, объединение всех конструктивно нулевых (от- (относительно вычислимой меры Р) множеств снова оказывается конструктивна нулевым относительно меры Р. Доказательство этого факта см. в [5] и [6]. Случайными относительно вычислимой меры Р называются' согласно Мартин-Лёфу те последовательности, которые не входят в максимальное- конструктивно нулевое множество (или, что то же, не входят ни в одно кон- конструктивно нулевое множество). Таким образом, для любого свойства А по- последовательностей нулей и единиц условия: (а) все случайные относительно меры Р последовательности обладают свойством А; (б) множество последовательностей, не обладающих свойством А, явля- является конструктивно нулевым относительно меры Р — равносильны. Обычные законы теории вероятностей (типа закона больших чисел илет закона повторного логарифма) приводят к множествам меры нуль, которые яв- являются также и конструктивно нулевыми. Это дает основание говорить, что случайные по Мартин-Лёфу последовательности «обладают всеми конструк- конструктивными свойствами, которые в современной теории вероятностей доказы- доказываются... „с вероятностью единица"» [1].
260 Комментарии и приложения Отметим, что впервые предложение классифицировать бесконечные по- последовательности нулей и единиц на «случайные» и «неслучайные» было вы- выдвинуто фон Мизесом (см. [11, 12]). Схема Мизеса впоследствии уточнялась и модифицировалась разными авторами (см. [13, 14]); одна из таких модифи- модификаций предложена в [15, § 2, замеч. 2] (позже она была предложена также в {16, 17]). Об истории «частотного подхода к случайности», возникшего из идей Мизеса, см. подробно в [9, 18]; впрочем этот подход имеет скорее истори- исторический интерес. Как указано в [1, с. 5], естественно стремиться получить критерий слу- случайности последовательности в терминах энтропии ее начальных отрезков. (О трудностях, встретившихся при этом, Колмогоров пишет в [1] в связи с оп- определением понятия бернуллиевской последовательности.) Эти трудности были преодолены в 1973 г. независимо Левиным и Шнорром (см. [19, 8]), ука- указавшими такой критерий в терминах монотонной энтропии. Этот критерия состоит в следующем: последовательность со случайна относительно вычис- вычислимой меры Р тогда и только тогда, когда существует такая константа С, что монотонная энтропия КМ (х) любого ее начального отрезка х не меньше —log2 Р (Гж) — С. Можно доказать, что КМ (х) не может сильно превосхо- превосходить —log-jP (Tx)l существует такое С, что для любого слова х справедливо неравенство КМ (х) < - log2P (Tx) + С; таким образом, случайными оказываются те и только те последовательно- последовательности со, у которых КМ (х) = - log2P (Тх) + О A) для всех х, являющихся началами со. Доказательства указанных фактов см. в [6]. В случае равномерной бернуллиевской меры, когда Р (Гж) = 2~11-х\ где I (х) — длина х, случайными оказываются те последовательности, у ко- которых монотонная энтропия начального отрезка длины п равна п -\- О A). В заключение укажем, где можно найти доказательства некоторых результатов, сформулированных в комментируемых статьях. Доказатель- Доказательства формул ^C) и D) из [1] опубликованы в [5]. На с. 6 в [1] сформулиро- сформулированы утверждения о том, что существуют бернуллиевские по Черчу после- последовательности, сложность начальных отрезков которых растет логарифми- логарифмически, а также более сильное утверждение о том, что существуют бернуллиев- бернуллиевские по Ловеланду последовательности, сложность начальных отрезков которых также растет логарифмически. Доказательство первого утвержде- утверждения можно найти в {4], доказательство второго не опубликовано. Отметим,' что в [9] и [18] бернуллиевские по Черчу последовательности называются случайными по Мизесу—Черчу, а бернуллиевские по Ловеланду последо- последовательности называются случайными по Мизесу—Колмогорову—Лавлэнду,
Алгоритмическая теория информации (А. X. Шенъ) 261 ЛИТЕРАТУРА 1. Колмогоров А. Н. К логическим основам теории информации и теории вероятностей.— Проблемы передачи информации, 1969, т. 5, № 3, с. 3—7. 2. Колмогоров А. Н. Три подхода к определению понятия «количество ин- информации».— Проблемы передачи информации, 1965, т. 1, № 1, с. 3—11. 3. Гоппа В. Д. Невероятностная взаимная информация без памяти.— Про- Проблемы управления и теории информации, 1975, т. 4, № 2, с. 97—102. 4. Гоппа В. Д. Информация слов (начальное приближение — информация безпаияти).— Проблемы передачи информации, 1978, т, 14, № 3, с. 3—17. 5. Звонкий А. К., Левин Л. А. Сложность конечных объектов и обоснование понятий информации и случайности с помощью теории алгоритмов.— УМН, 1970, т. 25, вып. 6, с. 85-127. 6. Вьюгин В. В. Алгоритмическая энтропия (сложность) конечных объек- объектов и ее применение к определению случайности и количества информа- информации.— В кн.: Семиотика и информатика. М.: ВИНИТИ, 1981, вып. 16, с. 14—43. 7. Schnorr С. P. Optimal Godel numberings,— In: Information processing 71: Proc. IFIP Congr. 71. Lubljana, 1971, vol. 1, p. 56—58. 8. Schnorr С P. Optimal enumerations and optimal Godel numberings. — Math. Syst. Theory, 1975, vol. 8, N 2, p. 182—191. 9. Успенский В. А., Семенов А. Л. Теория алгоритмов: ее основные открытия и приложения.— В кн.: Алгоритмы в современной математике и ее при- приложениях: Матер. Междунар. симпоз. Ургенч (УзССР), 1979 г. Новоси- Новосибирск: ВЦ СО АН СССР, 1982, ч. 1, с. 99—342. 10. Martin-Lof P. The definition of random sequence.— Inform, and Contr., 1966, vol. 9, N 6, p. 602-619. 11. Mises Л. von. Grundlagen der Wahrscheinlichkeitsrechnung.— Math. Ztschr., 1919, Bd. 5, S. 52-99. 12. Musec P. Вероятность и статистика. М.; Л.: Госиздат, 1930. 250 с. Пер. с нем.: Mises R. von. Wahrscheinlichkeit, Statistik und Wahrheit. Wien: J. Springer, 1928. 13. Church A. On the concept of a random sequence.— Bull. Amer. Math. Soc, 1940, vol. 46, N 2, p. 130-135. 14. Daley R. P. Minimal-program complexity of pseudorecursive and pseudo- pseudorandom sequences.— Math. Syst. Theory, 1975, vol. 9, N 1, p. 83—94. 15. Kolmogorov A. N. On tables of random numbers.— Sankhya. A, 1963, vol. 25, N 4, p. 369—376. Рус. пер.: Колмогоров А. Н. О таблицах слу- случайных чисел.— В кн.: Семиотика и информатика. М.: ВИНИТИ, 1982, вып. 18, с. 3—13. 16. Loveland D. A new interpretation of the von Mises concept of random sequence.— Ztschr. math. Log. und Grundl. Math., 1966, Bd. 12, H. 4, S. 279-284. 17. Loveland D. The Kleene hierarchy classification of recursively random sequences.— Trans. Amer. Math. Soc, 1966, vol. 125, N 3, p. 497—510. 18. Шенъ А. Частотный подход к определению понятия случайной последо- последовательности.— В кн.: Семиотика и информатика. М.: ВИНИТИ, 1982, вып. 18, с. 14—42. 19. Левин Л. А. О понятии случайной последовательности.— ДАН СССР, 1973, т. 212, № 3, с. 548-550.
262 Комментарии и приложения е-ЭНТРОПИЯ И е-ЕМКОСТЬ (к № 7, 8) (В. М. Тихомиров) Непосредственно к теме данного комментария относятся работы [1—5].. Однако их естественно рассматривать в чуть более расширенном цикле,- к которому следует присоединить еще работы [6—10]. Стержнем, связую- связующим весь цикл статей [1—10], является понятие энтропии. В п. 1 мы приводим несколько различных определений энтропии (воз- (возникших в 50-е и 60-е годы под влиянием работ К. Шеннона и А. Н. Колмо- Колмогорова) для того, чтобы читателю легче было ориентироваться в проблематике- всего цикла в целом. Статьи [1—3] имели предварительный характер, и их содержание фак- фактически поглотилось обзорной статьей [4], помещенной в настоящей книге (см. № 7). В докладе [5] намечена лишь программа дальнейших исследова- исследований, в которой по замыслу А. Н. Колмогорова должны воссоединиться концепции теории приближений и вычислительной математики. Циклу работ [1—10] посвящены два обзора [11, 12], написанные к шес- шестидесятилетнему и восьмидесятилетнему юбилеям А. П. Колмогорова. Ра- Работы [6—8, 10] прокомментированы Р. Л. Добрушиным и Я. Г. Синаем. Работа [5] практически не получила пока развития. Поэтому в п. 2—10 мы ограничиваемся лишь комментированием работы [4], указывая на основ- основные направления развития ее тематики. 1. О понятии энтропии. Термин «энтропия» был введен (в термодина- термодинамике) немецким ученым Р. Клаузиусом в 1865 г. Впоследствии понятие энтропии сыграло фундаментальную роль в статистической физике. Л. Больц- ман вскрыл суть понятия энтропии как «меры неопределенности» состояния газа. Создавая основы теории информации, Шеннон [13] воспользовался тер- термином «энтропия» для характеризации неопределенности источников сооб- сообщений. По сути дела простейшее шенноновское определение энтропии отно- относится к случайному объекту £ = (X, 2, Р), где X включает в себя конечное N число элементарных событий X = (J А и A-i П А/ = 0> *Ф U Р (М) = Pi- i—1 Энтропией этого случайного объекта (по Шеннону) называется величина N 1 Разумеется, это понятие тривиально распространяется на случай счет- счетного числа элементарных событий. В случае, когда число элементарных событий равно N и все они равновероятны, получаем, что Н (£) = log2N. Поэтому число log2N принято называть энтропией «неслучайного объекта», состоящего из N элементов. Следует заметить, что и до Шеннона делались попытки ввести величины подобного содержания (Р. Фишер — в статистике, Р. Хартли — в теории
г-энтропия и ь-емкость (В. М. Тихомиров) 263 информации), но именно Шеннону довелось связать с введенным им понятием замечательные математические результаты, которые заложили основания нового направления — теории информации. При переходе к непрерывным сообщениям возникает трудность: все естественные аналоги шенноновской энтропии оказываются равными бес- бесконечности. А. Н. Колмогоров неоднократно указывал (см., например, [7]), что основным понятием, допускающим обобщение на совершенно произ- произвольные непрерывные сообщения и сигналы, является не понятие энтропии, а понятие количества информации I (|, т|) в случайном объекте £ относитель- относительно объекта т|. В простейших случаях величина / (|, г\) была определена Шенноном в [13, прил. 7], а в общем случае — А. Н. Колмогоровым [6, 7; 4, доп. II]. В случае дискретного случайного объекта, описанного выше, Н (I) = I (£, I). Отправляясь от определения количества информации, Колмогоров [7] дает определение е-энтропии случайного объекта. Суть дела состоит в сле- следующем. Пусть источник информации доставляет величину £ и от нас тре- требуется закодировать полученную информацию с точностью до е. Это по оп- определению означает, что по сигналу £ нужно выбрать другой сигнал £' так, чтобы совместное распределение Р^, принадлежало бы некоторому классу распределений We, определенному параметром е. Тогда е-энтропией источ- источника естественно считать величину яе а) = ы {I a, I') i p а, г)е иу. Подход А. Н. Колмогорова к количественным характеристикам неопреде- неопределенности непрерывных объектов является весьма общим. Различные частные варианты возникали во многих работах. Приведем один из них. ПустьА£ = = ((X, р), 2, Р) — случайный объект, где X есть, с одной стороны, вероят- вероятностное^ с другой — метрическое пространство. Разобьем X на N дизъюнкт- ных измеримых частей X = (J A{, A% f) Aj = 0. Величина 2 i=X где нижняя грань берется по всем дизъюнктным измеримым разбиениям на множества диаметра < е, является е-энтропией в выше определенном смысле. Величина Н], (£) изучалась, например, в работе [14]. В работе [3] Колмогоров дает аналогичное только что приведенному определение е-энтропии Ж^ (С) неслучайного объекта С, являющегося под- подмножеством метрического пространства X. Так был назван двоичный ло- логарифм величины NE (С) — минимального числа элементов покрытия мно- множества С множествами диаметра <; 2е. Наряду с этой е-энтропией (названной впоследствии абсолютной) А. Н. Колмогоров дает и другое определение — относительной е-энтропии ЖЕ (С, X) как двоичного ■ логарифма N& (С, X) минимального числа эле- элементов в-сети для X. Эти величины подробно исследовались в [4] и затем во многих других работах.
264 Комментарии и приложения В упомянутом уже приложении 7 работы Шеннона [13] содержалась конструкция «(е, б)-энтропии» #ей (X) метрического пространства с мерой ((X, р), 2, Р), равной двоичному логарифму минимального числа элементов е-сети во множестве, мера дополнения которого ^ б. Это понятие разви- развивалось в статье [15] и других. Для классов функций на всей вещественной прямой Колмогоров ввел понятие 8-энтпропии на единицу длины (см. § 8 в [4]). Аналогичное понятие {в, Ь)-9нтропии на единицу длины по сути дела было введено ранее Шенноном (в том же приложении 7 к [13]). Об этих понятиях далее в п. S у нас еще пойдет речь. В работе [8] Колмогоров делает еще один шаг в расширении понятия энтропия. Он вводит понятие энтропии динамической системы. Динамическая система (X, S) — это пространство с мерой (X, 2, (i), в котором задано преобразование S: X —» X, сохраняющее меру. Со всяким разбиением I N А = {Аг, . . ., AN}, X = (J Аи Ai П Aj = ф, 1ф j, связана энтропия этого разбиения Обозначив через ц4 i величину |i (Ah П SAh П • • • П положим По известной в теории информации теореме Мак-Миллана существует предел Я (А) = lim Hr (A)lr. Г—*оо Энтропией динамической системы (X, S) на единицу времени называется число Я = sup Л (А). А О выдающейся роли введенного понятия для развития теории динами- динамических систем см. в комментарии Я. Г. Синая. Впоследствии был сделан еще один шаг. Пусть X — топологическое пространство и S — гомеоморфизм его. С каждым разбиением А = {Ах, . . . . . ., AN) пространства X связана его «неслучайная энтропия» Ht (A) = = log2JV. Обозначим через Ai __ г множество Ai f) 5^4^ f) ■ ■ ■ П ST~1Ai и через НТ (А) обозначим двоичный логарифм числа таких (непустых) мно- множеств. Снова доказывается, что существует предел Я (А) = lim Нт (A)lr. 1"->оо Топологической энтропией пары, (X, S) на единицу времени называется число Е = sup Я (Л).
й-антропия и е-емкостъ (В. М. Тихомиров) 265 Между всеми введенными понятиями (включая, быть может, и эктро- лию в статистической физике), по-видимому, существует генетическая связь, ж можно ожидать появления работы, где все они будут исследоваться одно- одновременно. Одно из основных назначений введенных понятий состояло в различении ■отдельных представителей в классе тех объектов, на которых энтропии ■определялись. Энтропия источника определяет необходимую скорость его передачи (см. £13]), т. е. различает источники по этой скорости, энтропия динамической системы дает способ построить инвариант динамических сис- систем (см. [8] и комментарий Я. Г. Синая), е-энтропия функциональных клас- классов позволяет различать линейные топологические пространства (см. [9] и далее п. 7) и т. п. В дальнейшей части комментария обсуждаются энтропийные характе- характеристики величины типа ^?g (С) и &€г (С, X). 2. е-энтропия и поперечники. Во введении к работе [4] сказано о тех причинах, которые побудили А. Н. Колмогорова сформулировать «общую программу исследования е-энтропии и е-емкости, интересных с точки зрения теории функций компактов в функциональных пространствах». Там в "качестве побудительных стимулов были названы идеи, заложенные в рабо- работах Хаусдорфа, Понтрягина—Шнирельмана, Витушкина и Шеннона. Однако следует сказать, что понятие энтропии формируется по той же традиционной схеме, по которой в топологии и теории приближений об- образуют асимптотические характеристики, называемые поперечниками. По- Поясним это. Пусть X — нормированное пространство, С — подмножество в X, U = = {.4} — совокупность аппроксимирующих множеств А. Положим % (С, 31, X) = inf sup inf I x - у I Если в качестве 3( взять SSN совокупность всех линейных подпространств размерности т ^ N, то величина % (С, 35^, X) называется колмогоровским N-поперечником С. Эта величина (обозначаемая обычно <fjy (С, X)) была введена Колмогоровым еще в 1936 г. Но если в качестве 91 взять 2^ — совокупность всех ^-точечных множеств, то получится величина, которую обозначим 8jy (С, X). Двоичный логарифм обратной функции к zN (С, X) есть не что иное, как (относительная) е-энтропия ^?8 (С, X). Пусть, далее, Z — некоторое множество, q>: С —» Z — некоторое отоб- отображение («кодирование» элементов из С элементами из Z) и Ф = {<р} — некоторая совокупность «кодирований». Положим Ж (С, Ф) = inf sup {diam qr1 (q> {x))}. Если в качестве Ф взять совокупность %■$ всех непрерывных отобра- отображений из С в (любые) комплексы размерности <J N, то величина Ж (С, UN) окажется совпадающей с так называемым урысоновским ^-поперечником, введенным в 1922 г. (это — исторически первая величина, названная попе- поперечником) .
266 Комментарии и приложения Если же в качестве Ф ваять совокупность Ф^ всевозможных отображе- отображений в множество {1, 2, . . ,, N}1 то получится величина, которую обозначим sN (С). Двоичный логарифм обратной функции к eN (С) есть не что иное, как абсолютная е-энтропия 5^?е (С). Подробнее об этом см. в [16]. Связь поперечников и энтропии изучалась Брудным, Тиманом, Тихомировым, Митягиным и др. 3. О точных решениях задачи об 8-энтропии и 8-емкости. Вопрос о нахождении точного значения е-энтропии или е-емкости принадлежит к числу трудных. Многие старые и взвешенно трудные задачи геометрии до- допускают истолкование в терминах е-энтропии. Приведем в качестве примера проблему Борсука (см. [17]), которую мы выразим в терминах величины Ns. Пусть X есть' n-мерное евклидово пространство и С а X — некоторое множество диаметра единица. Вопрос Борсука состоит в том, на какое мини мальное число частей меньшего диаметра может быть разбито множест- множество С. Иначе говоря, требуется найти величину Р (X) = max {JV^o (С) | diam С < 1}. Гипотеза Борсука состоит в том, что fi (X) <; п + !• Она в полном объеме не доказана до сих пор. Кроме примера, приведенного в § 2 статьи [4], автору этого комментария неизвестны содержательные примеры бесконечно- бесконечномерных компактов, для которых точно решена задача об е-энтроптак или е-емкости. Отметим попутно, что теоремы существования наилучших в-сетей были получены Гаркави. 4. О функциональных размерностях (определенных в § 3 статьи [4]) решений дифференциальных уравнений см. диссертацию Казаряна [18], где приведены ссылки на предшествующие работы (Зидезни, Казарян, Ко- мура, Танака и др.). 5. О конечномерных задачах. Задачи, равносильные асимптотике е-энтропии и Е-емкости в конечномерных пространствах, с очень давних вре- времен занимают геометров. На геометрическом языке — это проблемы наилуч- наилучших укладок и покрытий. Большой прогресс в оценке величины 6„ (§ 2 из [4]) был достигнут в сравнительно недавнее время (об этом см., например, монографию Роджерса [19]). Произошел сдвиг и в оценке снизу величины тп (§ 2 из [4]). См. об этом [20, 21]. 6. Энтропия функций конечной гладкости изучалась в работах Бабенко, Бахвалова, Бирмана—Соломяка, Борзова, Брудного, Котляра, Головкина, Двейрина, Колля, Олейника, Смоляка, Тихомирова и др. Принципиальный результат об е-энтропии функций конечной гладкости был получен Бирманом и Соломяком для Соболевских классов Wrp, заданных на единичном кубе Р в R™ и рассматриваемых в (пространстве Lq (/"), ими в [22] было пока- показано, что если Wp компактно вкладывается в Lq (In), то Жъ (#;, Lq (П) X г-п/г (метрики р и q в ответе не участвуют). Нетрудно показать, что на самом
s-энтропия и е-емквстъ (В. М. Тихомиров) 267 деле существует limen'rJ*?e (Wr L (In)) = x (г, р, у, п). к—О В § 2 статьи [4] вычислена величина % A, оо, оо, 1) (для липшицевых функций). Больше ни в одном случае задача о сильной асимптотике &€ъ (насколько нам известно) не решена. (Правда, Тихомировым [15] было по- показано, что и (г, Р, Р, 1) ~ 2rloge; случай р = 2 был разобран ранее Арнольдои, см. § 6 в [4].) 7. е-энтропия классов аналитических функций. Пусть Ад есть класс функций х (•) на компакте К, допускающих аналитическое продолжение х (•) в область GD К такое, что | х (г) | ^ 1 Угеб. Задача об е-энтролжи и колмогоровских поперечниках класса Aq привлекла многих исследова- исследователей (Альпер, Бабенко, Ерохин, Левин—Тихомиров, Захарюта—Скиба, Нгуен Тхан Ван, Фишер—Миччелли, Ганелиус и др.). Наиболее общий результат принадлежит Видому [23], который доказал, что lim (dn (А%, С (К))I/п = ехр (-1/с (К, G)), п-*оо где с (К, G) — емкость Грина компакта К относительно G при самых малых допущениях относительно G и К. Из этой формулы вытекает соотношение для в-энтропии *.(.£,<:(*))_ ехр/_ loga(i;s) v\ с (К, G) Исследовались и другие классы аналитических функций, а также классы функций, в определении которых участвуют и гладкость и аналитичность (Бабенко, Тихомиров, Тайков, Двейрин, Парфенов, Олейник, Фарков, Альпер, Боянов, Хюбнер, Огегбухнер и др.). 8. Теорема Котелышкова. В § 8 статьи [4] найдена s-энтропия на еди- единицу времени класса функций с ограниченным спектром. Понятие спектра возникло в физике. Оно играет важную роль в технике и, в частности, в теории связи. В математике функции с ограниченным спектром изучаются в гармоническом и комплексном анализе. Если функция х (•) имеет спектр (т. е. носитель преобразования Фурье) на [—а, а], то имеет место формула /кп\ sin a (t — кя/з) . <з (t — knjs) ' которую можно интерпретировать так: функция с ограниченным спектром ■определяется своими значениями, отсчитываемыми через равные промежутки времени длины я/а. Теоретико-информационный смысл этого утверждения («число измерений, приходящихся на единицу времени, равно двойной ширине частот») был вскрыт Котельниковым в 1933 г. и в нашей советской лите- литературе получил название «теоремы Котельникова». Эти же вещи пробовал осмыслить и Шеннон. Точный смысл такого рода результатам может быть придан по-разному. Одно из таких истолкований и содержится в [4, § 8].
268 Комментарии и приложения С другой стороны, сам Колмогоров исследовал вопрос о том, какой смысл можно придать утверждению Котельникова для случайных процессов. Важно подчеркнуть, что случайная функция с ограниченным спектром всегда сингулярна и ее наблюдение не связано со стационарным притоком новой информации. Колмогоров в [7] дает формулу для е-антропии гаус- совского процесса со спектральной плотностью, хорошо аппроксимируемой плотностью, задаваемой характеристической функцией. Отсюда приближен- приближенно вытекают формулы, выражающие идею Котельникова—Шеннона. Следует отметить, что в приложении 7 из [13] Шеннон наметил путь получения формулы, подобной той, которая была доказана в [4, § 8], но также в применении к случайным процессам. Этот путь был связан с поня- понятием (в, 6)-энтрошш на единицу времени, о которой говорилось выше в п. 1. Формула Шеннона оказалась верной [24]. Этот результат был усилен Пинскером и Софманом, которыми было показано, что (е, 8)-штрошя (по Шеннону) на единицу времени Не§ (!) не зависит от б и равна е-энтропии процесса £ по Колмогорову Яе (£) (см. п. 1). Но тогда оказывается, что lim rJESn = mes <x I h W > °> = supp h e~o log A/e) 6 s где /| — спектральная функция процесса |. Но в точности это и формули- формулировал Шеннон в качестве гипотезы в [13]. 9. е-энтропии пространств функционалов посвящено несколько работ. Укажем, в частности, работу Тимана [25]. Но следует сказать, что многие принципиальные вопросы об е-энтропии функционалов конечной гладкости и аналитических функционалов еще ждут своего решения. 10. О некоторых приложениях понятая е-энтропии. В терминах е-энтро- е-энтропии можно дать критерий ядерности линейных топологических пространств* X (Митягин): для ядерности F-пространства Х необходимо и достаточно, что- чтобы для любого компакта К и любой уравновешенной окрестности нуля U Tim log Я8 (К, Xv)llog A/е) = 0. (Здесь Xv — пространство X, снабженное полунормой, порожденной U.) С помощью е-энтропии Колмогоров ввел топологический инвариант — аппроксимативную размерность (несколько раньше подобный инвариант ввел Пельчинский), с помощью которой он доказал неизоморфиом пространств аналитических функций от разного числа переменных. ЛИТЕРАТУРА 1. Колмогоров А. II. Оценки минимального числа элементов е-сетей в раа- личных функциональных классах и их применение к вопросу о предста- представимости функций нескольких переменных суперпозициями функций меньшего числа переменных.— УМН, 1955, т. 10, вып. 1, с. 192—194. 2. Колмогоров А. Н. О представлении непрерывных функций нескольких переменных суперпозициями непрерывных функций меньшего числа пе- переменных.— ДАН СССР, 1956, т. 108, № 2, с. 179—182. 3. Колмогоров А. Н. О некоторых асимптотических характеристиках вполн ограниченных метрических пространств.— ДАН СССР, 1956, т. 108, № 3, с. 385—388.
г-энтропия и в-емкость (В. М. Тихомиров) 269 4. Колмогоров А. Н., Тихомиров В. М. е-энтропия и е-емкость множеств в функциональных пространствах.— УМН, 1959, т. 14, вып. 2, с. 3—86. 5. Колмогоров А. Н. Различные подходы к оценке трудности приближенного задания и вычисления функций.— In: Proc. Intern. Congr. Math. Stok- holm, 1963, p. 369—376. 6. Гельфапд И. М., Колмогоров А. Н., Яглом А. М. Количество информа- информации и энтропия для непрерывных распределений,— В кн.: Тр. III Все- союз. мат. съезда. М.: Изд-во АН СССР, 1958, т. 3, с. 300—320. 7. Колмогоров А. Н. Теория передачи информации.— В кн.: Сессия Акаде- Академии наук СССР по научным проблемам автоматизации производства, 15—20 окт. 1956 г.: Пленар. заседания. М.: Изд-во АН СССР, 1957, с. 66—99. 8. Колмогоров А. Н. Новый метрический инвариант транзитивных динами- динамических систем и автоморфизмов пространств Лебега,— ДАН СССР, 1958, т. 119, с. 861—864. 9. Колмогоров А. И. О линейной размерности топологических векторных пространств.— ДАН СССР, 1958, т. 120, с. 239—241. 10. Колмогоров А. И. Об энтропии на единицу времени как метрическом ин- инварианте автоморфизмов.—ДАН СССР, 1959, т. 124, с. 754—755. 11. Тихомиров В. М. Работы А. Н. Колмогорова по е-энтропии функциональ- функциональных классов и суперпозициям функций.— УМН, 1963, т. 18, вып. 5Г с. 55-92. 12. Тихомиров В. М. Поперечники и энтропия,— УМН, 1983, т. 38, вып. 4, с. 91-99. 13. Shannon С. Е, A mathematical theory of communication. Pt I, II.— Bell Syst. Techn. J., 1948, vol. 27, N 3, p. 379—423; N 4, p. 623—656. Рус. пер.: Шеннон К. Математическая теория связи.— В кн.: Работы по- теории информации и кибернетике. М.: Изд-во иностр. лит., 1963, с. 243— 332. 14. Renyi А. Он the dimention and entropy of probability distributions.— Acta math. Acad. sci. hung., 1959, vol. 10, N 1—2, p. 193—215. 15. Posner E. C, Rodemish E. Д., Rumsey H. G. в-entropy of stochastic proces- processes.— Ann. Math. Statist., 1967, vol. 38, N 4, p. 1000—1020. 16. Тихомиров В. М. Некоторые вопросы теории приближений. М.: Изд-во- МГУ, 1976. 17. Болтянский В. Г., ГохбергИ. Ц. Разбиения фигур на меньшие части. М.: Наука, 1971. 18. Кааарян Г. Г. Неравенства между производными и дифференциальными операторами и некоторые их приложения к уравнениям в частных про- производных: Докт. дис. Ереван, 1980. 19. Роджерс К. А. Укладки и покрытия. М.: Мир, 1968. 20. Сидельников В. М. О плотнейшей упаковке шаров на поверхности и-мерной евклидовой сферы и-числе векторов двоичного кода с данным кодовым расстоянием.— ДАН СССР, 1973, т. 213, № 5, с. 1029—1032. 21. Левенштейн В. М. О максимальной плотности заполнения ге-мерного евклидова пространства равными шарами.— Маг. заметки, 1S75, т. 18, № 2, с. 301—311. 22. Бирман М. Ж., Соломяк М. 3. Кусочно-полиномиальные приближения функций классов W%.— Мат. сб., 1967, т. 73, № 3, с. 331—335. 23. Widom H. Rational approximation and я-dimentional diameter.— J. Ap- proxim. Theory, 1972, vol. 5, N 1, p. 343—361. 24. Софман Л. Б. Задача Шеннона.— ДАН СССР, 1974, т. 215, № 6, с. 1313— 1316. 25. Тиман А. Ф. О порядке роста е-энтропии пространств действительных не- непрерывных функционалов, определенных на связном множестве.— УМН, 1964, т. 19, вып. 1, с. 173—177; Функцион. анализ и его приложе- приложения, 1971, т. 5, № 3, с. 104—105; ДАН СССР, 1974, т. 218, № 3, с. 505— 507.
270 Комментарии и приложения ТАБЛИЦЫ СЛУЧАЙНЫХ ЧИСЕЛ (к № 9) (А. X. Шенъ) 1. С точки зрения классической теории вероятностей появление любой последовательности нулей и единиц при ге-кратнои бросании симметричной монеты имеет вероятность 2~п. Тем не менее появление некоторых из них (например, последовательности из одних нулей или последовательности 010101...) представляется нам удивительным и заставляет заподозрить что-то неладное, в то время как появление других не вызывает такой реакции. Дру- Другими словами, одни последовательности кажутся нам менее «случайными», чем другие, так что можно пытаться классифицировать конечные последова- последовательности нулей и единиц по «степени их случайности». Этой классификации и посвящена в основном комментируемая статья. Если при рассмотрении конечных последовательностей возможно гово- говорить лишь о большей или меньшей степени случайности, то для бесконечных последовательностей естественно пытаться провести четкую границу между случайным и неслучайным, выделив в множестве всех последовательностей некоторое подмножество и назвав его элементы случайными последовательнос- последовательностями. Впервые идея необходимости такого деления была высказана фон Ми- весом [8, 9]. Им же была предложена и конкретная схема определения слу- случайной последовательности. 2. Изложим эту схему, ограничиваясь для простоты случаем последова- последовательностей из нулей и единиц. Пусть дана некоторая последовательность хох1 . . . Согласно Мизесу для случайности этой последовательности необходимо прежде всего, чтобы сущест- существовала средняя частота единиц, т. е. предел lim га (х0 -f • • • + xn-i)- (Это — необходимое, но не достаточное условие; ему, например, удовлетворя- удовлетворяет последовательность 01010101..., которую вряд ли стоит считать случай- случайной!) Кроме того, средняя частота единиц должна сохраняться, если перейти от всей последовательности к ее бесконечной подпоследовательности, полу- полученной с помощью любого допустимого правила выбора. Мизес не дает точно- точного определения допустимости правила, ограничиваясь несколькими примера- примерами допустимых правил и общим указанием на то, что «нужно... иметь возмож- возможность решать вопрос о принадлежности каждого отдельного бросания к вы- выбранной частичной последовательности независимо от результата этого броса- бросания, т. е. при помощи некоторого правила, относящегося только к номеру данного бросания и установленного прежде, чем стал известен его исход» [9, с. 32]. (В приведенной цитате Мизес называет «бросаниями» то, что мы на- назвали бы членами последовательности.) Высказанное ограничение запрещает считать допустимым правило «выбрать все те члены, которые равны единице». Однако оно не запрещает выбрать те члены, которым предшествует единица {это правило рассматривается на с. 36 цитированной книги Мизеса [9]) или все те члены, номера которых являются простыми числами (там же, с. 32).
Таблицы случайных чисел (А. X. Шенъ) 271 3. В 1940 г. Чёрч [11] предложил формальное определение случайности, уточняющее изложенный замысел Мизеса. Приведем это определение, дав точное определение «допустимого правила выбора». Пусть перед нами выложен бесконечный (в одну сторону) ряд карточек, верхние стороны которых одинаковы, а на нижних написаны нули и едини- единицы — члены последовательности. Мы переворачиваем все карточки по очере- очереди начиная с первой и отбираем некоторые из них. Числа, написанные на ото- отобранных карточках, образуют некоторую подпоследовательность исходной последовательности. Перед переворачиванием каждой из карточек мы объяв- объявляем, желаем ли мы включить ее в число отбираемых. При этом мы имеем право использовать свои знания о том, какие числа оказались на уже пере- перевернутых карточках. Таким образом, при этой схеме выбора допустимое пра- правило выбора задается некоторым множеством R конечных последовательно- последовательностей нулей и единиц; применить это правило к последовательности хйх^ . . , означает выбрать из нее последовательность, состоящую из тех членов хп+1, для которых хох1 . . . хп е R. Естественно требовать, чтобы допустимые правила выбора задавались разрешимыми множествами R. Таким образом, случайность по Мизесу—Черчу последовательности xoxt . . . означает, что: 1) существует предел р = lim тГ1 (*„ + ... + *m-i), 2) для любого разрешимого множества R конечных последовательностей нулей и единиц либо подпоследовательность уоу1 . . ., полученная из исход- исходной выбором (с сохранением порядка) тех членов хп+х, для которых xoxt . . . , . . хп <= R, конечна, либо предел lim Лг1 (у0 + . . . + Ук-i) существует и равен р. 4. В комментируемой статье А. Н. Колмогорова предложена некоторая более общая схема выбора. В терминах переворачивания карточек это обоб- обобщение можно объяснить так: разрешается переворачивать карточки в любом порядке (не обязательно по очереди). Более точно. Правило выбора задается двумя вычислимыми функциями F и G. Первая функция определяет, в каком порядке мы будем переворачивать карточки. Ее аргументами являются конеч- конечные последовательности нулей и единиц, а значениями — натуральные числа* Вначале переворачивается карточка с номером F (Л). (Через Л обозначается пустая последовательность.) Обозначим написанное на ней число @ или 1) через t0. Затем переворачивается карточка с номером F (t0); написанное на ней число обозначим tt. Следующей переворачивается карточка с номером F (Vi)) написанное на ней число обозначается t2; переворачивается карточ- карточка с номером F (fo'i's) и т. д. Вторая функция G имеет аргументами конечные последовательности нулей и единиц, а значениями 0 и 1. Она определяет, бу- будет ли включен очередной член в подпоследовательность. Именно член с но- номером F (Л) будет включен в подпоследовательность, если и только если G (Л) = 1, член с номером F (t0) будет включен, если и только если G (t0) = = 1, член с номером F (t^) — если и только если G (г0^) = 1 и т. д. Поря- Порядок членов в подпоследовательности определяется порядком их выбора с по- помощью функции F. Если в некоторый момент описанного процесса значения функции F или функции G оказываются неопределенными, то процесс выбора обрывается и выбираемая подпоследовательность оказывается конечной. То
272 Комментарии и приложения же самое происходит, если очередное значение функции F совпадает с одним из предыдущих. Определение допустимого (по Колмогорову) правила выбора закончено. Тем самым согласно общей схеме Мизеса возникает определение случайности» последовательность а называется случайной, если существует предел р часто- частоты единиц в последовательности а и любая бесконечная последовательность, полученная из а с помощью допустимого (в описанном смысле) правила выбо- выбора, также имеет предел частоты единиц, равный р. Сказанное выше в этом п. 4 является подробным изложением замечания 2 в конце п. 2 комментируемой статьи. Единственное отличие состоит в том, что мы исключили из числа аргументов функций F и G переменные |j (см. на- начало п. 2 комментируемой статьи); это не меняет класса допустимых правил, так как значения |j суть предыдущие значения функции F и могут быть воо становлены по остальным аргументам. То же самое определение допустимого правила выбора позже (но независимо) предложил Ловеланд [4, 5]. В [5, с. 499, примеч. при кор.] Ловеланд пишет: «Подобная модификация была предложена и использована А. Н. Колмогоровым» (имеется в виду модифика- модификация определения случайности по Мизесу—Черчу). Поэтому допустимые в указанном только что смысле правила выбора мы будем называть допустимыми по Колмогорову—Ловеланду, а возникающий класс случайных последовательностей — классом случайных по Мизесу—г Колмогорову—Ловелапду последовательностей. Очевидно, всякая случай^- ная по Мизесу—Колмогорову—Ловеланду последовательность случайна и по Мизесу—Черчу; обратное, как вытекает из результатов Ловеланда, не-;. верно (см. об этом подробнее в [12]). 5. К сожалению, определение случайности по Мизесу—Колмогорову—. Ловеланду, как и определение случайности по Мизесу—Черчу, не вполне от- отвечает интуиции случайности (см. об этом подробнее в [12, § 4, 7]). Позднее: А. Н. Колмогоровым и его последователями были развиты другие, отличные от мизесовского подходы к определению понятия случайной последователь" ности (см. [6, 7]). Подход из [7] можно назвать теоретикомерным, а подход из [6] — сложностным. Оба эти подхода изложены в настоящем издании щ комментариях к работам № 10, 12. Эти подходы приводят к одному и тому же классу случайных последовательностей; этот класс можно назвать клас« сом случайных по Мартин-Лёфу последовательностей (в честь Мартин-Лёфа, предложившего в [7] одно из определений этого класса). Нетрудно показать что всякая случайная по Мартин-Лёфу последовательность случайна и по Мизесу—Колмогорову—Ловеланду (и тем более по Мизесу—Черчу). В [3, с. 6] сформулировано утверждение о том, что существуют случайные по Ми- Мизесу—Колмогорову—Ловеланду последовательности, сложность начальных отрезков которых растет логарифмически. Из этого результата вытекает, что существуют случайные по Мизесу—Колмогорову—Ловеланду последователь- последовательности, неслучайные по Мартин-Лёфу. Доказательство упомянутого результа- результата А. Н. Колмогорова из [3] не опубликовано и неизвестно автору настоя- настоящего комментария. На этом мы заканчиваем обсуждение понятия случайной (бесконечной) последовательности, отсылая читателя за более подробным из- изложением к [10, 12].
Таблицы случайных чисел (А. X. Шень) 273 6. Перейдем теперь к обсуждению понятия случайности (точнее, степени случайности) конечного объекта. (О существенности рассмотрения именно конечных объектов говорит А. Н. Колмогоров в заметке «От автора», пред- предпосланной публикации русского перевода комментируемой статьи: «Главное отличие от Мизеса состоит в строго финитном характере всей концепции и во введении количественной оценки устойчивости частот».) Предлагаемый в ком- комментируемой статье подход к определению случайности естественно назвать частотным: последовательность называется (п, е, р)-случайной по отношению к данной конечной системе правил выбора, если для каждой ее подпоследова- подпоследовательности, выбранной согласно одному из правил рассматриваемой системы и содержащей не менее чем п элементов, средняя частота единиц уклоняется от р не более чем на е. Позднее [2, 3] А. Н. Колмогоровым был предложен сложностной под- подход к определению случайности. В [2] Колмогоров пишет: «Грубо говоря, здесь дело идет о следующем. Если конечное множество М из очень большого числа элементов Лг допускает определение при помощи программы длины, пре- пренебрежимо малой по сравнению с log2 N, то почти все элементы М имеют сложность К (х), близкую к loga Лг. Элементы х е М этой сложности и рас- рассматриваются как „случайные" элементы множества М». (О понятии сложно- сложности, или энтропии, конечного объекта см. в [2, 3] и комментарии к этим стать- статьям.) Таким образом, здесь определяется случайность данной последователь- последовательности х не самой по себе, а относительно данного множества М, содержаще- содержащего х. Желая сравнить этот подход с подходом из комментируемой статьи, рассмотрим в качестве М множество всех последовательностей фиксированней длины, содержащих фиксированное число единиц. Более подробно. Пусть хох1 ... — последовательность нулей и единиц длины п, содержащая к' ну- нулей. Рассмотрим множество С (п, к), состоящее из всех последовательностей длины п, содержащих к нулей. Сложность (= энтропия) большинства эле- элементов С (п, к) близка к log2 С]'п и тем самым к Н (kin) -и, где Н (р) = = —р log2 р — A — р) log2 A — р) — шенноновская энтропия случайной величины с двумя значениями, вероятности которых равны р и 1 — р. Так вот последовательность х{)хх . . . следует считать случайной, если она попада- попадает в это большинство, т. е. если ее энтропия близка к Н (kin) -п. Говоря более точно, ее следует считать тем менее случайной, чем дальше ее энтропия ст Н (kin)-п. А. Н.Колмогоровым установлена связь между случайностью по- последовательностей в этом сложностном смысле и их случайностью в смысле комментируемой работы A982, не опубл.). ЛИТЕРАТУРА 1. Kolmogorov A. N. On tables of random numbers.— Sankhya. A, 1963, vol. 25, N 4, p. 369—376. Рус. пер.: Колмогоров А. Н. О таблицах слу- случайных чисел.— В кн.: Семиотика и информатика. М.: ВИНИТИ, 1982, вып. 18, с. 3—13. 2. Колмогоров А. Н. Три подхода к определению понятия «количество ин- информации».— Проблемы передачи информации, 1965, т. 1, № 1, с. 3—11. 3. Колмогоров А. Н. К логическим основам теории информации и теории вероятностей.— Проблемы передачи информации. 1969, т. 5, №3, с. 3—7. 10 А. Н. Колмогоров
274 Комментарии и приложения 4. Loveland D. A new interpretation of the von Mises concept of random se- sequence.— Ztschr. math. Log. und Grundl. Math., 1966, Bd. 12, H. 4, S. 279-294. 5. Loveland D. The Kleene hierarchy classification of recursively random sequences.— Trans. Amer. Math. Soc, 1966, vol. 125, N 3, p. 97—510. 6. Левин Л. А. О понятии случайной последовательности.— ДАН СССР, 1973, т. 212, № 3, с. 548—550. 7. Martin-Lof P. The definition of random sequence.— Inform, and Contr., 1966, vol. 9, N 6, p. 602—619. 8. Mises R. von. Grundlagen der Wahrscheinlichkeitsrechnung.— Math.. Ztschr., 1919, Bd. 5, S. 52—99. 9. Mises R. von. Wahrscheinlichkeit, Statistik und Wahrheit. Wien: J. Springer, 1928. Рус. пер.: Мизес Р. Вероятность и статистика. М.; Л.: Госиздат, 1930. 250 с. 10. Uspensky V. A., Semenov A. Z. What are the gains of the theory of algo- algorithms: basic developments connected with the concept of algorithm and with its application in mathematics.— In: Algorithms in modern mathe- mathematics and computer science: Proc. Conf. Urgench (UzSSR), 1979. Berlin etc.: Springer-Verl., 1981, p. 100—234 (Lect. Notes in Comput. Sci.; Vol. 122). 11. Church A. On the concept of a random sequence.— Bull. Amer. Math. Soc, 1940, vol. 46, N 2, p. 130—135. 12. Шень А. Частотный подход к определению понятия случайной последо- последовательности.— В кн.: Семиотика и информатика. М.: ВИНИТИ, 1982, вып. 18, с. 14—42. РЕАЛИЗАЦИЯ СЕТЕЙ В ТРЕХМЕРНОМ ПРОСТРАНСТВЕ (к № 11) (Я. М. Барздинь) В оригинале статьи стоит следующее подстрочное примечание, написан- написанное самим Андреем Николаевичем: «Несколько лет тому назад А. Н. Колмогоров доказал теорему 1* для сетей с ограниченным ветвлением и такое первое приближение к теореме 2: существует сеть сп>1 элементами, любая реализация которой имеет диа- диаметр больше С\[ n/log п, где С — некоторая константа, не зависящая от п. Окончательные варианты всех теорем (и сама идея постановки вопроса о свой- свойствах «почти всех» сетей) принадлежат Я. М. Барздиню». В данном варианте (см. примеч. 1 к статье № 11) я несколько переделал его и также оставил его в виде подстрочного примечания. Но на самом деле я лишь передоказал (и несколько обобщил) теоремы, полученные Андреем Николаевичем уже ранее, так что мои заслуги здесь не очень большие. К со- сожалению, я не помню, что это было за мероприятие, на котором Апдрей Ни- Николаевич впервые упомянул эти результаты (я сам не присутствовал). Знаю только, что там речь шла об объяснении того факта, что мозг (например, че- человека) устроен так, что основную его массу занимают нервные волокна (аксоны), а нейроны расположены лишь на его поверхности. Конструкция теоремы 1 как раз и подтверждает оптимальность (в смысле объема) такого расположения нервной сети.
К работе о динамических системах (А. Н. Колмогоров) 275 К РАБОТЕ О ДИНАМИЧЕСКИХ СИСТЕМАХ (к № 5) А. Н. Колмогоров В. А. Рохлин заметил, что теорема 2 моей работы № 5 неверна. В моей работе [1] предложено другое определение энтропии авто- автоморфизма. Наиболее короткий путь введения энтропии произ- произвольного автоморфизма предложен Я. Г. Синаем (см. [2]). Хочу обратить также внимание на работу А. Г. Кушниренко [3], пока- показавшего, что энтропия любого гладкого диффеоморфизма или зек- торного поля гладкого компактного многообразия по отношению к абсолютно непрерывной инвариантной мере конечна. ЛИТЕРАТУРА 1. Колмогоров A. h. Об энтропии на единицу времени как метрическом ин- инварианте автоморфизмов.—ДАН СССР, 1959, т. 124, № 4, с. 754—755. 2. Сикай Я. Г. О понятии энтропии динамической системы.— ДАН СССР, 1959, т. 124, № 4, с. 768—771. 3. Кушниренко А. Г. Оценка сверху энтропии классической динамической системы.— ДАН СССР, 1965, т. 161, № 1, с. 37—38. ЭРГОДИЧЕСКАЯ ТЕОРИЯ (к № 5) (Я. Г. Синай) Эта работа А. Н. Колмогорова сыграла выдающуюся роль в развитии эргодической теории. Во-первых, она содержала решение хорошо известной проблемы, стоявшей фактически более 25 лет, причем успех был достигнут в результате привлечения в эргодическую теорию абсолютно новых для нее идей и методов из теории информации. Во-вторых, после этой работы неожи- неожиданно открылось совершенно ранее неизвестное, чрезвычайно плодотворное направление в эргодической теории, богатое по своим глубоким интересным внутренним проблемам п по разнообразию приложений к анализу конкретных динамических систем. Нет сомнения в том, что проникновение идей эргодиче- эргодической теории в физику, все более широкое использование их при анализе си- систем со стохастическим поведением, странных аттракторов и т. п. имеют од- одним из своих источников именно данную работу А. Н. Колмогорова. Основная проблема общей эргодической теории есть проблема метриче- метрической классификации, или проблема метрического изоморфизма, динамиче- динамических систем. Под динамической системой ниже понимается однопараметриче- ская группа преобразований пространства с вероятностной мерой, сохраняю- сохраняющая эту меру. Две динамические системы называются изоморфными mod О, если существует определенное почти всюду отображение фазового простран- П*
276 Комментарии, и приложения ства одной системы на подмножество полной меры фазового пространства дру- другой системы, перестановочное с действием группы (см. [6]). Проблема метри- метрического изоморфизма динамических систем состоит в нахождении полной си- системы метрических инвариантов, т, е. такого набора инвариантов, что их сов- совпадение влечет метрический изоморфизм. Первым примером метрического инварианта служит спектр группы унитарных операторов, сопряженной с ди- динамической системой. Интерес к проблеме метрического изоморфизма возник после работ Ней- Неймана [23] и Неймана и Халмоша [21], где было показано, что в классе эргоди- ческих динамических систем с чисто точечным спектром полная система мет- метрических инвариантов исчерпывается спектром. Гельфанд заметил, что результат фон Неймана может быть получен как простое следствие тривиально- тривиальности второй группы когомологий спектра, который всегда является счетной абе- левой группой, с коэффициентами в S1, Казалось, что для систем с непрерыв- непрерывным спектром надо понять, в каком смысле спектр образует группу, ввести для нее группы когомологий с коэффициентами в группе унитарных операто- операторов, после чего проблема изоморфизма сведется к вычислению соответствую- соответствующей второй группы когомологий. В определенной степени эта идеология оказалась полезной лишь для систем с непрерывным простым или конечнократным спектром, где она связа- связана с некоторыми проблемами теории банаховых алгебр (см. [6]). Однако уже довольно давно было понято, что основной класс динамических систем с не- непрерывным спектром — это класс систем с лебеговым спектром бесконечной кратности. Систем с лебеговым спектром конечной кратности не удалось, на- насколько нам известно, построить до сих пор. Системы же со счетно-кратным лебеговым спектром к моменту появления работы А. Н. Колмогорова были уже хорошо известны: это автоморфизмы Бернулли и родственные им приме- примеры из теории вероятностей (см. [18]), эргодические автоморфизмы коммута- коммутативных компактных групп (см. [10]), геодезические потоки на поверхностях постоянной отрицательной кривизны (см. [5]) и ряд других. Для таких си- систем не удавалось найти никакого обобщения рассуждений фон Неймана. В работе № 5 был введен новый метрический инвариант динамической системы — метрическая энтропия. Энтропия — это числовой инвариант, принимающий любые неотрицательные значения, включая оо. Ее независи- независимость от спектра состоит в том, что в классе динамических систем со счетно- кратным лебеговым спектром энтропия может принимать любые допустимые значения. Иными словами, возможны динамические системы со счетно-кратг ным лебеговым спектром и разными значениями энтропии, а поэтому неизо- неизоморфные. После работы А. Н. Колмогорова проблема метрического изоморфизма для систем со счетно-кратным лебеговым спектром стала выглядеть совер- совершенно иначе, чем для систем с дискретным спектром. В результате открытия энтропии стало ясно, что ее следует рассматривать как проблему кодирования в стиле теории информации и первые примеры такого изоморфизма были по- построены именно как «коды», отображающие одно пространство последователь- последовательностей — на другое (см. [7]).
Эргодическая теория (Я. Г. Синай) 27Т Не менее важным, чем энтропия, оказалось введенное в этой же работе № 5 понятие квазирегулярной динамической системы, или, как теперь при- принято говорить, ^-системы. В этом названии отражен и первоначальный тер- термин и имя автора. Понятие ЛГ-системы навеяно общими размышлениями А. Н. Колмогорова о регулярности случайных процессов, т. е. о том, как происходит и чем характеризуется ослабление статистических связей между значениями процесса на удаленных друг от друга промежутках времени. С этой точки зрения Z-системы соответствуют случайным процессам с самыми слабыми свойствами регулярности. Все JC-системы имеют счетно-кратный лебегов спектр (для автоморфизмов это было отмечено в самой работе № 5, для потоков было показано в [11]) и по- положительную энтропию. Никаких метрических инвариантов, кроме энтро- энтропия, различающих ^-системы, не было известно, и. проблема метрического изоморфизма в классе К-смстем приобрела следующий вид: верно ли, что» ЛГ-системы с одинаковым значением энтропии метрически изоморфны. Большого успеха в решении этой проблемы добился американский- математик Орнстейн. Вначале он показал, что автоморфизмы.Бернулли е равной энтропией метрически изоморфны, а затем перенес этот результат на гораздо более широкий класс динамических систем (так называемые очень слабо бернуллиевские системы), включающий в себя автоморфизмы Марков» и многие классические динамические системы, такие, как эргодические авто- автоморфизмы коммутативных компактных групп, геодезические потоки на ком- компактных многообразиях отрицательной кривизны, некоторые бильярдные системы. С другой стороны, Орнстейн построил примеры /С-систем, неизоморф- неизоморфных никакому автоморфизму Бернулли. Недавно был предложен красивый и довольно простой пример подобной системы (см. [22]). Тем самым оказалось, что и в классе Z-систем энтропия не составляет полной системы метрических: инвариантов. Орнстейн и Шилдс показали, что число неизоморфных типов К-снстем с одинаковой энтропией несчетно. Теория Орнстейна изложена в его монографии [9]. В § 4 работы № 5 строятся примеры потоков, т. е. динамических систем с непрерывным временем, с конечной энтропией. Заметим, что эти примеры с точки зрения традиционной теории вероятностей довольно неестественны. В этих примерах типичные реализации таких процессов принимают конечное или счетное число значений, и поэтому кусочно-постоянны на отрезках случай- случайной длины, а меняют свое состояние в соответствии с некоторым распре- распределением вероятностей. Оказалось, что именно процессы типа примеров А. Н. Колмогорова возникают при анализе гладких динамических систем с сильными статистическими свойствами, например геодезических потоков на компактных многообразиях отрицательной кривизны (см. [2, 12]) и некото- некоторых бильярдных систем (см. [13, 19]). Для этого имеются достаточно глубокие причины. В конечномерных динамических системах, динамика которых опре- определяется строго детерминированными уравнениями движения, вся случай- случайность заключена только в выборе начальных данных. Возникающие при :>го» стационарные случайные процессы неизбежно окяамваютгн процессии» «с дискретным вмешательством случая». Том не меису для полого рндн nir,i,injx
278 Комментарии и приложения классов динамических систем, которым отвечают подобные случайные про- процессы, удается установить ряд сильных статистических свойств, таких, как центральную предельную теорему для временных флуктуации, быстрое убы- убывание временных корреляционных функций и т. п. (см., например, [3, 26, 14, 20]). Основным динамическим механизмом для этого служит внутренняя неустойчивость движения (см. [15, 16]). Свойством неустойчивости обладают системы Аносова (см. [1, 8]), Л-системы Смейла (см. [17]), модель Лоренца со странным аттрактором (см. [15, 4]), рассеивающие бильярды (см. [13]). Через несколько лет после появления работы № 5 была обнаружена тес- тесная связь теории неустойчивых динамических систем с равновесной статисти- статистической механикой классических одномерных решетчатых моделей (см. [14, 3, 26]). Чисто формально эта связь возникает, если большой параметр Т — вре- время — эргодическои теории рассматривать как большой параметр числа сте- степеней свободы в статистической механике. При этом появляется возможность прямого перенесения понятий и методов статистической механики в новую обстановку. Возникающая при этом теория называется «топологической тер- термодинамикой». С ее помощью уже удалось получить ряд новых глубоких ре- результатов. ЛИТЕРАТУРА 1. Аносов Д. В. Геодезические потоки на замкнутых римановых многообра- многообразиях отрицательной кривизны.— Тр. МИАН СССР, 1967, т. 90, с. 3—209. 2. Аносов Д. В., Синай Я. Г. Некоторые гладкие динамические системы.— УМН, 1967, т. 22, вып. 5, с. 107—172. 3. Боуэн Р. Методы символической динамики. М.: Мир, 1979. (Математика; Вып. 13). А. Бунимович Л. А., Синай Я. Г. Стохастнчность аттрактора Лоренца.—■ В кн.: Нелинейные волны. М.: Наука, 1979. 5. Гельфанд И. М., Фомин С. В. Геодезические потоки на многообразиях постоянной отрицательной кривизны.— УМН, 1952, т. 47. вып. 1, с. 118—137. в. Корнфельд И. П., Синай Я. Г., Фомин С. В. Эргодическая теория. М.: Наука, 1980. 7. Мешалкин Л. Д. Один случай изоморфизма схем Бернулли.— ДАН СССР, 1959, т. 128, № 1, с. 41—44. 8. Иимецки 3. Введение в дифференциальную динамику. М.: Мир, 1975. 9. Орнстпейн О. Эргодическая теория, случайность и динамические системы. М.: Мир, 1978. (Математика; Вып. 8). 10, Рохлин В. А. Об эндоморфизмах коммутативных компактных групп.— Изв. АН СССР. Сер. мат., 1949, т. 13, с. 323—340. 1. Синай Я. Г. Динамические системы со счетно-кратным лебеговским спект- спектром.— Изв. АН СССР. Сер. мат., 1961, т. 25, № 6, с. 899—924. 42. Сипай Я. Г. Классические динамические системы со счетно-кратным ле- лебеговским спектром.— Изв. АН СССР. Сер. мат., 1967, т. 30, № 1, с. 15—68. 43. Синай Я. Т. Динамические системы с упругими отражениями. Эргоди- ческие свойства рассеивающих бильярдов.— УМН, 1970, т. 25, вып. 2, с. 141—192. 14. Синай Я. Т. Гиббсовские меры в эргодическои теории.— УМН, 1972, т. 27, вып. 4, с. 21—64. 15. Синай Я. Г. Стохастичность динамических систем.— В кн.: Нелинейные волны. М.: Наука, 1979, с. 192—211.
Алгоритмы Колмогорова (В. А. Успенский, А. Л. Семенов) 279 16. Синай Я. Г. Случайность неслучайного.— Природа, 1981, № 3, с. 72—80. 17. Смейл С. Дифференцируемые динамические системы.— УМН, 1970, т. 25, вып. 1, с. 113—185. 18. Халмош П. Лекции по эргодической теории. М.: Изд-во иностр. лит., 1959. 19. Buninwvich L. A. On theergodic properties of nowhere dispersing billi- billiards,— Communs Math. Phys., 1979, vol. 65, N 3, p. 295—312. 20. Bunimovich L. A., Sinai Ya. 0. Statistical properties of Lorentz gas with periodic configuration of scatterers.— Commims Math. Phys., 1981, vol. 78, N 4, p. 479—497. 21. HalmosP., Neumann J. von. Operator methods in classical mechanics. II.— Ann. Math., 1942, vol. 43, p. 332—338. 22. Kalikow S. A. T, T~l transformation is not loosely Bernoulli.— Ann. Math. Ser. 2, 1982, vol. 115, N 2, p. 393—409. 23. Neumann J. von. Zur Operatoren methode in der klassichen Mechanik.— Ann. Math., 1932, vol. 33, p. 587—642. АЛГОРИТМЫ, ИЛИ МАШИНЫ, КОЛМОГОРОВА (к № 1, 6) (В. А. Успенский, А. Л. Семенов) I. ОБЩИЙ ПОДХОД К ПОНЯТИЮ АЛГОРИТМА: ЦЕЛИ И ИДЕИ В конце 1951 г. студент V курса механико-математического факультета МГУ В. А. Успенский получил от своего научного руководителя А. Н. Кол- Колмогорова страницу машинописного текста с описанием некоторой абстрактной машины. Состояниями этой машины служили одномерные топологические ком- комплексы, а точнее комплексы с некоторой дополнительной информацией; эта дополнительная информация заключалась в том, что на вершинах комплекса задавалась функция со значениями из заранее выбранного конечного множе- множества, так что комплекс оказывался размеченным (значениями этой функции). Предложенная А. Н. Колмогоровым формулировка имела две цели: 1) найти возможно более общее математическое определение понятия алгоритма (столь общее, чтобы оно непосредственно охватывало все ал- алгоритмы); 2) убедиться, что п это более общее определение не приводит к расшире- расширению того класса вычислимых функций, который уже сформировался к этому времени на основе предшествующих, более узких определений (Тьюринга, Поста, Маркова и других) и который, если ограничиться числовыми функция- функциями, оказался совпадающим с классом частично рекурсивных функций. Разработке формулировки А. Н. Колмогорова была посвящена диплом- дипломная работа В. А. Успенского «Общее определение алгоритмической вычисли- вычислимости и алгоритмической сводимости», выполненная в первой половине 1952 г. Впоследствии А. Н. Колмогоров изложил свои идеи в докладе «О поня- понятии алгоритма», сделанном 17 марта 1953 г. на заседании Московского мате-
280 Комментарии и приложения •магического общества; публикация [3] (№ 1 наст, изд.) представляет собой резюме этого доклада. Среди выдвинутых в докладе идей следующие три являются наиболее «фундаментальными: 1) указание общего строения произвольного алгоритмического процесса; см. п. 1, 2 и 3 в [3]; 2) уточнение понятия конструктивного объекта — состояния алгоритми- алгоритмического процесса; 3) указание на «локальность» алгоритмического процесса; см. п. 4 в [3]. Предложенная А. Н. Колмогоровым общая схема строения произволь- произвольного алгоритма легла в основу представления о семи параметрах алгоритма, изложенного в статьях «Алгоритм» в «Большой Советской Энциклопедии» *C-е изд.) и «Математической энциклопедии» [8, 9]. Что касается так называе- называемых конструктивных объектов, то это — те объекты, с которыми работают алгоритмы. Таковыми являются, например, конечные цепочки хорошо разли- различимых символов, матрицы с целочисленными элементами и т. п.— в отличие •от, скажем, действительных чисел или бесконечных множеств, не являющих- являющихся конструктивными объектами. Любой общий подход к понятию алгоритма неизбежно должен включать в себя и общий подход к понятию конструк- конструктивного объекта. Точка зрения А. Н. Колмогорова состояла в том, что кон- конструктивный объект (А. Н. Колмогоров говорил о «состояниях» алгоритми- алгоритмического процесса) — это некоторое конечное множество элементов, связанных друг с другом некоторыми связями; и элементы, и связи могут быть несколь- нескольких различных типов, причем как число типов элементов, так и число типов ■связей заранее ограничено (каждое конкретное такое ограничение приводит к своему типу конструктивных объектов). Наконец, «локальность» означает локальный характер непосредственной переработки, т. е. преобразования, осуществляемого на каждом отдельном шаге; это предполагает выделение в каждом конструктивном объекте заранее ограниченной активной части (слово «заранее» означает, что объем этой ■части зависит только от рассматриваемого алгоритма, но не от состояний, возникающих в процессе его работы). Итоги более детального анализа ситуации были изложены в статье Л. Н. Колмогорова и В. А. Успенского [5] 1. И. СВЯЗЬ С РЕКУРСИВНЫМИ ФУНКЦИЯМИ Второй из целей, упомянутых в начале настоящего комментария, в рабо те [5] посвящен § 3. Поясним, какой подход при этом используется. Прежде всего нужно уточнить саму постановку задачи. Действительно, поскольку аргументами и 1 Реферат на эту статью опубликован в реферативном журнале: Мате- Математика, 1959, № 7, с. 9 (реф. 6527). В настоящем издании учтены примеча- вия референта (А. В. Гладкого), в частности исправлены указанные в ре- реферате опечатки. Реферат на эту статью опубликован также в журнале: Math. Rev., 1959, vol. 20, N 9, p. 948 (реф. 5735). Англ. пер. этой статьи [5]: Kolmogorov A. N., Uspenskii V. A. On the definition of an algorithm.— Amer. Math.' Soc. Transl. Ser. 2, 1963, vol. 29, p. 217—245.
Алгоритмы Колмогорова (В. А. Успенский, А. Л. Семенов) 281i результатами алгоритмов Колмогорова являются не числа, а совсем другие конструктивные объекты, на первый взгляд неясно, как можно сравнивать,, скажем, класс функций, вычислимых алгоритмами Колмогорова, и класс частично рекурсивных функций, у которых аргументами и значениями яв- являются по определению только натуральные числа. Конечно, эта трудность- возникает не только в связи с алгоритмами Колмогорова, но и при изучение других вычислительных моделей. Рассмотрим, например, семейство всех ма- машин Тьюринга, у которых входной и выходной алфавит есть {я, Ь, с, d\, и попытаемся объяснить, что значит, что класс вычислимых такими машинами- функций не шире класса частично рекурсивных функций. Для этого фикси- фиксируем какое-либо естественное — и потому заведомо вычислимое в обе сторо- стороны — взаимно однозначное соответствие между множеством всех слов в ал- алфавите {а, Ь, с, d) и некоторым множеством натуральных чисел. Это соответст- соответствие позволяет сопоставить со всякой функцией, перерабатывающей слова в алфавите {а, Ь, с, d) в слова в том же алфавите, некоторую одноместную числовую функцию. Пусть оказалось (а на самом деле так и оказывается) г что при этом сопоставлении всякой функции, вычислимой машиной Тьюринга,, соответствует частично рекурсивная функция. Тогда мы можем свести задачу вычисления произвольной функции на машине Тьюринга к задаче вычисле- вычисления подходящей частично рекурсивной функции. Это и означает, что класс вычислимых на машинах Тьюринга функций не шире класса частично рекур- рекурсивных функций. Такая же операция с заменой машин Тьюринга на алго- алгоритмы Колмогорова и проделывается в § 3 из [5] (конечно, с соответствующи- соответствующими изменениями). Заметим, что к достижению обсуждаемой сейчас второй цели можно подойти и иначе. Проиллюстрируем сперва этот иной подход на уже рас- смотренном примере машин Тьюринга с входным и выходным алфавитом {а, Ь, с, d]. Следующим образом определим понятие «числовая функция от q аргументов вычисляется данной машиной Тьюринга». Закрепим какой-либо естественный способ, посредством которого произвольный «входной» число- числовой кортеж <т1, . . ., mq> записывается на входной ленте какой-либо машины Тьюринга, а произвольное «выходное» число п на выходной ленте той же ма- машины. (При этом мы не предполагаем, что входная и выходная ленты не- непременно отличаются друг от друга и от рабочей ленты — это просто те лен- ленты, на которых записываются исходные данные и впоследствии формируются результаты.) Каждая машина Тьюринга вычисляет следующую числовую» функцию / от д аргументов: кортеж <т1, . . ., mqy записывается на входной ленте и машина пускается в ход; если работа машины заканчивается и на вы- выходной ленте при этом оказывается записанным число п, то это п и объяв- объявляется значением / (тг, . . ., mQ); во всех остальных случаях функция f считается неопределенной для аргументов Л1Х, . . ., mq. (Без ограничения- общности можно считать, что если машина останавливается, то на выходной ленте непременно записано некоторое число.) Как хорошо известно, вс» числовые функции, вычислимые машинами Тьюринга, частично рекурсивны» Аналогичная схема применяется и в [5]. Именно: в § 2 указывается способу посредством которого «входные» числовые кортежи изображаются в виде-
Комментарии и приложения «исходных состояний» колмогоровских алгоритмов, а «выходные» числа — в виде «заключительных состояний»; тем самым возникает понятие числовой функции, вычислимой алгоритмами Колмогорова; указывается, что каждая частично рекурсивная функция вычислима некоторым алгоритмом Колмого- Колмогорова; в § 3 показывается, что всякая числовая функция, вычислимая каким- либо алгоритмом Колмогорова, является частично рекурсивной. III. ОБЩИЙ 'ПОДХОД К ПОНЯТИЮ КОНСТРУКТИВНОГО ОБЪЕКТА В дальнейшем речь пойдет о первой из целей, упомянутых в начале ком- комментария,— найти для понятия алгоритма наиболее общее математическое определение. Для понимания замысла А. Н. Колмогорова существенно осознавать, что каждый алгоритм имеет дело лишь с конструктивными объектами того или иного фиксированного типа, например со словами, составленными из букв заданного, жестко закрепленного алфавита (а не со словами во всех алфави- алфавитах). Всевозможные конструктивные объекты заданного типа образуют так называемый ансамбль конструктивных объектов. Важное, несмотря на его простоту, наблюдение, сделанное А. Н. Колмогоровым, состояло в том, что сами связи (в которых участвуют образующие конструктивный объект эле- элементы) можно рассматривать как элементы новых типов и, таким образом, свести все дело к одному-единственному [типу бинарных связей и по-прежнему конечному (хотя и увеличенному) числу типов элементов. А тогда конструк- конструктивные объекты естественно изображаются графами, или одномерными топо- топологическими комплексами, вершины которых помечены символами из неко- некоторого конечного алфавита Б, а ребра никак не помечены. Все такие комплек- комплексы с заданным В образуют один ансамбль. Разметка ребер, т. е. надписывание на каждом ребре некоторого симво- символа, не приводит в силу только что изложенного наблюдения А. Н. Колмого- Колмогорова к принципиальному расширению класса рассматриваемых объектов. Действительно, символ на ребре, соединяющем вершины А и В, можно счи- считать вершиной нового типа (т. е. вершиной с особой пометой), соединенной с вершинами А и В простыми (не размеченными) ребрами. При общем рассмотрении связей между элементами конструктивного объекта аргументы каждой такой связи в [5] упорядочивались; однако при переходе к комплексам (когда прежние элементы и связи делались вершинами и допускалась лишь одна новая связь — смежность) концы ребер не упорядо- упорядочивались (не указывалось, который из концов ребра являлся началом, а кото- который концом), т. е. комплексы рассматривались неориентированные: как обна- обнаруживалось в [5], нужды в ориентации не возникало. Можно, однако, рас- рассматривать и ориентированные комплексы, в которых для каждого ребра ука- указаны его начало и конец. Тогда у каждой вершины возникают две степени— исходящая и входящая (представляющие собой соответственно число исходя- исходящих и число входящих в эту вершину ребер). Если все эти степени ограничены некоторым числом к, возникающая совокупность ориентированных Колмогоров-
Алгоритма Колмогорова (В. Л. Успенский, А. Л. Семенов) 283 ских комплексов естественно вкладывается в подходящий ансамбль неориен- неориентированных комплексов. Другое дело, если считать ограниченными лишь, исходящие степени, а степени входящие допускать сколь угодно большие. Возникает новый вид конструктивных объектов; в объектах этого вида один и тот же элемент может участвовать — в роли конца ребра — в произвольно большом числе связей. Можно ли считать, что при фиксированном алфавите разметки и фиксированном ограничении исходящих степеней все объекты нового вида принадлежат одному и тому же ансамблю? Любой ответ на этот вопрос является спорным; по-видимому, наша интуиция конструктивного объекта и ансамбля конструктивных объектов еще недостаточно прояснена. Если принять положительный ответ на заданный вопрос и считать, что ориентированные колмогоровские комплексы с фиксированным алфавитом и фиксированным ограничением исходящих степеней (но без ограничения вхо- входящих степеней!) образуют в своей совокупности ансамбль, то можно рас- рассматривать и алгоритмы Колмогорова, работающие с членами этого ансамбля. Такие алгоритмы называются «ориентированными алгоритмами (или машина- машинами) Колмогорова» в отличие от «неориентированных алгоритмов (или машин) Колмогорова», работающих с неориентированными комплексами. IV. КОЛМОГОРОВСКИЕ КОМПЛЕКСЫ Мы приведем сейчас параллельно определения двух типов конструктив- конструктивных объектов — ориентированных и неориентированных колмогороеских комплексов, а затем в разделе V определения соответствующих алгоритмов. Эти определения взяты из обзоров [13] и [14]. 1. Колмогоровский комплекс является ориентированным или неориенти- неориентированным графом, в соответствии с чем колмогоровский комплекс называется ориентированным или неориентированным. 2. Колмогоровский комплекс является инициальным графом, т. е. в ней как-то выделена ровно одна вершина — начальная. 3. Колмогоровский комплекс является связным графом, т. е. в каждую» его вершину можно попасть по (ориентированному — для ориентированных комплексов) пути из начальной вершины. 4. Колмогоровский комплекс является размеченным графом, т. е. каж- каждая его вершина помечена буквой из какого-либо алфавита. 5. Для каждой вершины а все вершины Ь, такие, что <а, й> является (ориентированным — для ориентированных комплексов) ребром, помечены различными буквами. Требование связности комплекса является основным отличием сформу- сформулированного только что определения от определения из работы [5], допускаЕ- шего и несвязные комплексы — как в качестве входов, или исходных данных,, так и в качестве «промежуточных результатов», или состояний, алгоритмиче- алгоритмического процесса. Однако и в [5] окончательный результат в силу самой кон- конструкции алгоритма мог оказаться лишь связным комплексом. Поясним происхождение пятого условия (соответствующего свойству «а* п. 3 определения алгоритма из § 2 работы [5]). Естественно считать, что
284 Комментарии и приложения при обработке конструктивного объекта мы обозреваем лишь ограниченную его часть, находящуюся вблизи начальной вершины. В то же время мы хоте- хотели бы иметь способ попасть в любую наперед заданную вершину комплекса. Это возможно, только если любая вершина однозначно определяется последо- последовательностью пометок на каком-нибудь ведущем в нее из начальной вершины пути. Двигаясь именно по этому пути, мы можем ее достичь. Отметим, что в отличие от [5] мы не требуем, чтобы метка начальной вершины отличалась ■от меток других вершин комплекса, а считаем, что начальная вершина выде- выделена каким-то другим способом. Таким образом, объекты переработки, или «состояния» (в частности, ис- исходные данные и результаты), алгоритмов Колмогорова из работы [5] и обзо- обзоров [13, 14] различаются. Рассмотрим, однако, только такие функции, для которых аргументы и значения — связные неориентированные комплексы, размеченные в соответствии с условиями на разметку начальных вершин у исходных данных и результатов, приведенными в работе [5]. Можно пока- вать, что для таких функций понятия вычислимости алгоритмами Колмого- Колмогорова из [5] и неориентированными машинами Колмогорова из [13] совпадают. Если вершины колмогоровского комплекса помечены буквами конечного алфавита Б, мы называем этот комплекс колмогоровским комплексом над Б, или ^-комплексом. Ориентированный (соответственно неориентированный) Б-комплекс называется (Б, к)-комплексом, если все исходящие степени (соот- (соответственно все степени) его вершин ограничены числом к. Ансамбль ориентированных (соответственно неориентированных) (Б, к)~ комплексов — это множество всех ориентированных (соответственно неориен- неориентированных) (Б, &)-комплексов для заданных конечного алфавита Б и на- натурального к. В связи с приведенным общим определением конструктивного "объекта возникает естественная с точки зрения приложений задача реализации кол- могоровских комплексов в реальном физическом пространстве. Эта задача рассматривалась в [4] в следующей постановке. Фиксируем некоторый ан- ансамбль неориентированных колмогоровских комплексов. Предположим те- теперь, что вершины комплекса реализуются шарами положительного (и единого для всех шаров) диаметра, а ребра — гибкими трубами положительного (и еди- единого для всех труб) диаметра. Тогда можно так выбрать диаметры труб и ша- шаров, что для некоторых положительных действительных чисел с и d будет вы- выполнено следующее: 1) всякий комплекс с п вершинами может быть реализован внутри сферы радиуса с ~\f п\ 2) объем любой реализации почти всякого комп- комплекса с п вершинами не меньше dri]fn («почти всякого» означает, что отноше- отношение количества комплексов с таким свойством к количеству всех комплексов с п вершинами стремится к единице при стремлении п к бесконечности). V. ОРИЕНТИРОВАННЫЕ И НЕОРИЕНТИРОВАННЫЕ МАШИНЫ КОЛМОГОРОВА Определения ориентированных"и'неориентированных машин Колмогоро- Колмогорова мы дадим параллельно. В случае неориентированных машин наше опреде- определение по существу совпадает с определением алгоритма в работе [5]. Главное
Алгоритмы Колмогорова (В. А. Успенский, А. Л. Семенов) 285 различие состоит в том, что в [5] множество комплексов, получаемых в резуль- результате работы алгоритмов, не пересекалось с множеством комплексов, подавае- подаваемых на вход алгоритмов. Действительно, в [5] ««входные» комплексы имели одну, «входную» метку начальной вершины, а «результирующие» комплексы— другую, «результирующую» метку. Чтобы результат работы одного алгоритма подать на вход другого, необходимо было изменить метку начальной вершины. Предлагаемое ниже определение делает ненужным такое изменение (напом- (напомним, что у нас начальная вершина не несет никакой особой, «начальной» метки). Из соображения простоты определения мы также слегка меняем пред- предложенную в [3] (и использованную в [5]) общую схему описания всякого ал- алгоритма. Именно потребуем, чтобы после того, как появился сигнал о полу- получении решения — сигнал окончания, еще ровно один раз применился опера- оператор непосредственной переработки. Наконец, как уже отмечалось, алгоритмы из [5] в отличие от определяемых ниже могли применяться и к несвязным ком- комплексам; связность результата обеспечивалась в [5] тем, что из заключитель- заключительного состояния, возникающего на последнем шаге работы алгоритма, извле- извлекалась связная компонента начальной вершины и она-то и объявлялась «ре- «решением» (результатом, выходом) алгоритма. Приводимое ниже определение требует выделения связной компоненты начальной вершины на каждом шаге работы алгоритма (так что все промежуточные состояния являются кол- могоровскими комплексами). Заметим в этой связи, что и в [5] непосредствен- непосредственная переработка затрагивала на каждом шаге лишь связную компоненту начальной вершины (поскольку именно в ней помещалась активная часть состояния). Машина Колмогорова (как ориентированная, так и неориентированная) может быть описана теперь следующим образом. (Смысл терминов «состояние» и «активная часть» такой же, как в [3].) Работа машины Г состоит из последо- последовательности шагов, состоящих в применении к обрабатываемому на очеред- номшаге объекту (т.е. состоянию) оператора непосредственной переработки Qr. В начальный момент работы машины обрабатываемый объект — это исход- исходное данное. Перед выполнением каждого шага проверяется, не поступил ли сигнал об окончании работы («сигнал о решении»). Как только такой сигнал появляется, оператор Qr применяется еще один раз, после чего работа машины считается законченной, а образовавшееся состояние объявляется результатом работы машины («решением»). Перейдем теперь к определению того, что является состоянием алгоритми- алгоритмического процесса, какой вид имеет оператор непосредственной но pop n бот к и Qr и как формируется сигнал окончания. Состояниями алгоритмического процесса являются колмогоропскш» ком- комплексы из некоторого ансамбля (Б, &)-комплексов. Активной частью состояния является подкомплекс, вершины которого достижимы из начальной посредством (ориентированных) путей длины, не большей, чем определенное число, фиксированное для данной машины. Обозначим множество всех вершин комплекса G через v(G). Оператор Qr определяется конечным множеством команд вида U —> <W, у, 6>, где U, W — комплексы; 7 — отображение из v (U) в v(W), сохраняющее раз-
286 Комментарии и приложения метку; б — взаимно однозначное отображение из v (U) в v (W), причем для каждого же v (U) множество меток тех вершин, куда идет ребро из б (х), включено в множество меток тех вершин, куда идет ребро из х. В случае не- неориентированных комплексов 7 должно совпадать с б. Все команды имеют раз- различные левые части. Для того чтобы получить новое состояние S* = Qr (S), мы должны: 1) найти команду, скажем, U —» < W, у, б;, левая часть которой сов- совпадает с активной частью состояния S', после этого 2) удалить эту активную часть U и 3) заменить ее комплексом W; отображения 7, б используются для того, чтобы связать вершины v (S) \ v (U) с вершинами v (W) следующим обра- образом: для всех а е v (U), b e v (S) \ v (U), если <b, a> является ребром S и 7 (a) определено, то <Ь, 7 (a)> будет ребром 5*; если <в, Ь> является реб- ребром S и б (а) определено, то <б (а), Ь> будет ребром S*; после того как эти связи будут установлены, нужно 4) удалить все вершины из i? (S), не достижимые из начальной вершины, а также все ребра, инцидентные этим вершинам. Таким образом, новое со- состояние S* также будет связным графом. Сигнал окончания появляется, если активная часть оказывается принад- принадлежащей данному конечному множеству комплексов; в этом случае, как указано выше, оператор Йг применяется еще один только раз. Более подроб- подробно: если активная часть состояния S принадлежит выделенному конечному множеству, состояние S* = Йг (S) объявляется результатом работы алго- алгоритма Г, и с появлением S* алгоритмический процесс прекращается. Изложению неориентированных алгоритмов Колмогорова был посвя- посвящен § 3 главы I монографии В. М. Глушкова [1]. На с. 34 автор писал: «Вни- «Внимательный анализ описания алгоритмической схемы Колмогорова — Ус- Успенского показывает, что эта схема по форме в весьма значительной степени напоминает работу, фактически выполняемую человеком, когда он преобра- преобразовывает задаваемую ему извне информацию в соответствии с теми или иными правилами запоминаемого им алгоритма. Авторы этой схемы предпринимали специальные меры, чтобы не потерять общности в характере выполняемых преобразований». VI. МАШИНЫ ШЁНХАГЕ (ОНИ ЖЕ АЛГОРИТМЫ КОЛМОГОРОВА -ШЁНХАГЕ) В 1970 г. западногерманский математик А. Шёнхаге предложил вычис- вычислительную модель в виде «машин с модифицируемой памятью» (это есть предложенный в [7] перевод для термина Шёнхаге «storage modification machines», сокращенно SMM) (см. [11]). Во введении к статье [12] Шёнхаге пишет: «Как нам было указано многими коллегами, Колмогоров и Успенский ввели в рассмотрение машинную модель, весьма близкую к машинам с мо- модифицируемой памятью, значительно ранее (в 1958 г., см. [5])». Машины Шёнхаге можно рассматривать как специальный вид ориентированных ма- машин Колмогорова, и потому для обозначения' этих машин в обзоре [7] (см, гл. 3, § 1) использовался термин «алгоритмы Колмогорова—Шёнхаге» (тог-
Алгоритмы Колмогорова (В.А.Успенский, А. Л. Семенов) 287 да как для обозначения неориентированных машин Колмогорова в [7] ис- использовался термин «алгоритмы Колмогорова—Успенского»). Возможно, было бы правильнее называть ориентированные машины Колмогорова (а том самым, и алгоритмы Колмогорова—Шёнхаге) машинами и алгоритмами с полулокальным преобразованием информации: действительно, при осуще- осуществлении одного шага работы алгоритма вновь появившаяся вершина может оказаться концом сколь угодно большого числа ребер. Предложенное в [12] определение машин с модифицируемой памятью (машин Шёнхаге, или в терминологии обзора [7] алгоритмов Колмогорова— Шёнхаге) воспроизведено на с. 130—132 очерка [14] в качестве добавления к § 2 части I. Вкратце, основные отличия этой вычислительной модели от ориентированных машин Колмогорова состоят в следующем: 1) помечены реб- ребра, а не вершины (несущественность этого момента отмечалась нами в на- начале раздела III); 2) команды являются специальным видом команд ориен- ориентированных машин Колмогорова; 3) на командах задана управляющая структура с помощью операторов перехода; 4) имеются две ленты — входная и выходная — на которых записываются слова в алфавите {0,1}, причем сразу вслед за входным словом пишется специальный символ, означающий его конец. Основные результаты, связанные с алгоритмами Колмогорова—Шён- Колмогорова—Шёнхаге, подробно изложены в [12]. VII. МОДЕЛИРОВАНИЕ В РЕАЛЬНОЕ ВРЕМЯ Выше уже отмечалось, что определение алгоритма, предложенное А. Н. Колмогоровым, было призвано охватывать любые мыслимые виды алгоритмов. И действительно, машины Колмогорова непосредственно мо- моделируют работу всех других известных видов алгоритмов с локальным пре- преобразованием информации. Для алгоритмов с нелокальным преобразованием информации, таких, как нормальные алгорифмы А. А. Маркова или машины с произвольным доступом к памяти [10], требуется предварительное разбие- разбиение их шагов на локальные шаги. Тезис о возможности прямого моделиро- моделирования алгоритмов с локальным преобразованием информации машинами Колмогорова может, на первый взгляд, вызвать возражения. Действитель- Действительно, существование машины Колмогорова, непосредственно моделирующей машину Тьюринга с плоскостной памятью («плоской лентой»), не является самоочевидным, а требует весьма тонких построений. Так обстоит дело, на- например, при конструировании машины Колмогорова, решающей задачу «о распознавании самопересечения плоской траектории» (см. [6J); сущест- существование машины Тьюринга с плоской лентой, решающей эту задачу, оче- очевидно. Дело здесь, однако, в том, что в действительности на вход рассматри- рассматриваемой машины Тьюринга с плоской лентой подается не только аргумент, но и необходимая часть рабочей памяти, т. е. плоскости, стандартным обра- образом разбитой на клетки. Это разбиение и возникающее в силу него отноше- отношение соседства клеток машина может использовать в своей работе. Если на вход машины Колмогорова подавать вместе с аргументом такую же часть
288 Комментарии и приложения плоскости, разбитой на клетки, то моделирование машины Тьюринга маши- машиной Колмогорова становится очевидным. Тем не менее да»-е и без подачи на вход алгоритма Колмогорова участка плоскости моделирование оказыва- оказывается в некотором, уточняемом ниже смысле возможным — машина Колмо- Колмогорова оказывается в состоянии «достраивать» нужные участки памяти по ходу вычисления; как это делается, показано в [12]. Прежде чем сформулировать соответствующую теорему работы 112], приведем некоторые дополнительные определения. Наряду с машинами Шёнхаге будем рассматривать машины Тьюринга с многомерной памятью, описание которых сейчас будет дано. Предполагается, что каждая такая ма- машина имеет входную и выходную ленты, движение головок по этим лентам одностороннее, со входной ленты возможно только чтение, на выходную — только запись. Рабочая память может содержать произвольное фиксирован- фиксированное число массивов фиксированной размерности (лент, плоскостей и т. д.), головки по этим массивам способны передвигаться за один шаг на одну клет- клетку в любом направлении. Во всяком вычислении такой машины Тьюринга, так же как и во всяком вычислении машины Шёнхаге, выделяются моменты сдвига головки по входной ленте и моменты печати (очередного символа на выходной ленте). Пусть теперь % и £5 — две машины со входным и выход- выходным алфавитом {0,1}, каждая из которых может быть машиной Тьюринга с многомерной памятью или машиной Шёнхаге. Будем в соответствии с [12] говорить, что машина % в реальное время моделирует машину 55, если выпол- выполнено следующее. Для всякого исходного данного х, на котором 35 кончает работу, пусть te <C h< ... < tp — такая последовательность моментов време- времени, что t0 — 0, tp — момент окончания работы машины, a h, . . ., ip_i — все моменты времени, в которые машина 35 производила сдвиг входной лен- ленты или запись на выходную. Тогда должны существовать такие моменты вре- времени т0 < Ti <;... <Тр, что т0 = 0, 1Р — момент окончания работы машины 21 для аргумента х и при всяком i = 1, . . ., р; 1) при вычислении с исходным данным х часть этого х, прочитанная ма- машиной 9J к моменту tj, совпадает с частью х, прочитанной машиной 35 к мо- моменту ti; 2) при вычислении с исходным данным х часть результата, напечатан- напечатанная машиной 91 к моменту Tj, совпадает с частью результата, напечатанной машиной 93 к моменту /;; 3) для некоторого с, зависящего от 21 и 55, но не от х, имеет место Tj — Ti_! < С (fj — tl-l). Из этих условий, очевидно, следует, что машина 21 вычисляет ту же функцию, что и машина 93, или некоторое продолжение этой функции; при этом время вычисления для машины % не превосходит времени вычисления 55, умноженного на константу с. В теореме из [12], о которой шла речь выше, доказана возможность мо- моделирования в реальное время всякой машины Тьюринга с многомерной па- памятью подходящей_магаиной Шёнхаге. Как отмечено в [7], аналогичный ре-
Из воспоминаний А. Н. Колмогорова 289 зультат может быть получен относительно моделирования машин Тьюрин- Тьюринга с многомерной памятью алгоритмами Колмогорова—Успенского. Из ре- результатов работы [2] вытекает невозможность обратных моделирований. ЛИТЕРАТУРА 1. ГлушкоеВ. М. Введение в кибернетику. Киев: Изд-во АН УССР, 1964. 324 с. 2. Григорьев Д. Ю. Алгоритмы Колмогорова сильнее машин Тьюринга.— Зап. науч. семинаров ЛОМИ, 1976, т. 60, с. 29—37. 3. Колмогоров А. И. О понятии алгоритма.— УМН, 1953, т. 8, вып. 4, с. 175—176. 4. Колмогоров А. #., Барздинъ Я. М. О реализации сетей в трехмерном пространстве.— Проблемы кибернетики, 1967, вып. 19, с. 261—268. 5. Колмогоров А. Н., Успенский В. А. К определению алгоритма.—УМН, 1958, т. 13, вып. 4, с. 3—28. 6. Кубинец М. В. Распознавание самопересечения плоской траектории ал- алгорифмом Колмогорова,— Зап. науч. семинаров ЛОМИ, 1972, т. 32, с. 35—44. 7. Слисенко А. О. Сложностные задачи теории вычислений.— УМН, 1981, т. 36, вып. 6, с. 21—103. 8. Успенский В. А. Алгоритм.— В кн.: БСЭ. 3-е изд., 1970, т. 1, с. 400—401, 9. Успенский В. А. Алгоритм.— В кн.: Мат. энцикл., 1977, т. 1, с. 202—206. 10. Aho А. V., Hopcrojt J. E., Ullman J. D. The design and analysis of compu- computer algorithms. Reading (Mass.) etc.: Addison—Wesley Publ. Co., 1974. X + 470 p. Рус. пер.: Ахо А., Хопкрофт Дж., Ульман Дж. Построение и анализ вычислительных алгоритмов. М.: Мир, 1979. 536 с. 11. Schonhage A. Universelle Turing Speicherung.— In: Automatentheorie und formale Sprachen/Eds J. Dorr, G. Hotz. Mannheim, 1970, S. 369—383. 12. Schonhage A. Storage modification machines.— Soc. Industr. and Appl. Math. J. Comput., 1980, vol. 9, N 3, p. 490—508. 13. Uspensky V. A,, Semenov A. L. What are the gains of the theory of algo- algorithms: basic developments connected with the concept of algorithm and with its application in mathematics.— In: Algorithms in modern mathe- mathematics and computer science: Proc. Conf. Urgench (UzSSR). Berlin etc.: Springer-Verl., 1981, p. 100—234 (Lect. Notes in Comput. Sci.; Vol. 122). 14. Успенский В. А., Семенов А. Л. Теория алгоритмов: ее основные откры- открытия и приложения.— В кн.: Алгоритмы в современной математике и ее приложениях. Новосибирск: ВЦ СО АН СССР, 1982, ч. 1. с. 99—342. ИЗ ВОСПОМИНАНИЙ А.Н.КОЛМОГОРОВА Теорию аналитических функций в этот год читали два лектора: Болеслав Корнелиевич Млодзеевский и Николай Николаевич Лузин. Лекции Николая Николаевича посещались в принципе всеми членами Лузитании, включая старшекурсников и даже доцентов. С курсом Лузина связано первое мое достижение, после которого на меня было обращено некоторое внимание. Николай Николаевич любил импровизировать на лекциях. На лекции, посвященной доказательству.теоремы Коши, ему пришло в голову использовать такую лемму. Пусть квадрат разделен на
290 Комментарии и приложения конечное число квадратов. Тогда для любой константы С найдет- найдется такое число С, что для всякой кривой длины не больше С сумма периметров задевающих кривую квадратов не превосходит С. Через две недели я обратился к председателю студенческого математическою кружка Семену Самсоновичу Ковнеру с неболь- небольшой рукописью 1, где это утверждение было опровергнуто. Приложение 1 ДОКЛАД МАТЕМАТИЧЕСКОМУ КРУЖКУ О КВАДРИЛЬЯЖЕ Вопрос, о котором я буду говорить, возник на почве теории функций комплексного переменного, но по существу он чисто гео- геометрический, и как такой я буду его рассматривать. 1. На одной из лекций Н. Н. Лузина была доказана следующая теорема. Дана на плоскости непрерывная спрямляемая кривая. Как бы ни была разделена плоскость на равные квадраты, сумма периме- периметров всех квадратов, задеваемых, т. е. пересекаемых или касаю- касающихся, кривой, будет меньше постоянной величины К, лишь бы стороны квадратов оставались меньше некоторого Щ. Доказательство. Пусть е — стороны квадратов деле- деления, s — длина кривой. Разделим s на равные части меньше е, для этого достаточно взять число частей Р ^> s/г и всегда возмож- возможно Р <^ si г + 1. Каждый отрезок кривой займет не более четырех квадратов, так как если бы он занял пять, то среди них были бы два не смежных, и, следовательно, число квадратов N ^ 4Р <^. ^ 4 (siг +1). Периметр каждого квадрата 4е, и, следовательно, сумма периметров и = 4eiV <^ 4e4 (siг + 1) = 16 (s + е), а так как е < g, то и < 16 (s + к) = К. 2. Для доказательства обратного положения мне необходима сле- следующая теорема. Дана непрерывная спрямляемая или неспрям- ляемая кривая х = <р (t), у = if It) при изменении t от а до I. Как бы ни была разделена кривая на конечное число частей, всегда расстояние между каждыми двумя точками несмежных ча- частей будет больше некоторого постоянного а. 1 Эта рукопись сохранилась (см. Приложение 1). Она датирована 4 января 1921 г. Мы предлагаем ее вниманию читателя.— Примеч. ред.
Приложение 1. До-лаа математическому кружку о квадрилъям е 291 Доказательство. Допустим обратное. Тогда каждому положительному числу z соответствует множество Тг значений т, точки соответствующие которым лежат на расстоянии, меньшем г, от точек несмежных с ними частей. Очевидно, что при z, ^> z2 множество Тг, заключается в множестве TZl. Разделим интервал (а, Ь) пополам и возьмем первую половину, в которой есть эле- элементы всех множеств Т; такая половина существует, так как если бы в одной половине не было элементов Та, а в другой Tt_, то в обеих бы не было элементов множеств с указателями, меньшими и а и р. Эту половину разделим опять пополам и также выберем первую долю, заключающую в себя элементы всех множеств. Про- Продолжая этот процесс, получим последовательность включенных друг в друга безгранично убывающих отрезков. Все они включают в себя или имеют границей единственную точку Ти- От точки на кривой, соответствующей То,, лежат сколь угодно близко точки, сами находящиеся на сколь угодно близком расстоянии от точек несмежных с ними частей, и, следовательно, на сколь угодно близ- близком расстоянии от нее находятся точки несмежных частей или по крайней мере, если она является границей двух частей, противо- противоположные границы их. Составим теперь множества Т'г точек, на- находящихся на расстоянии, меньшем z, от точки, соответствующей тш, и лежащих в несмежных с ней частях или на противоположных с ней границах частей. Так же при zr > z.2 TZi заключается в TZl, так же найдем Ти, от точки соответствующей которому лежат на сколь угодно близком расстоянии элементы всех Г'. Эта точка не может лежать на конечном расстоянии от точки, соответствующей То, и, следовательно, с ней совпадает, что противоречит условию отсутствия двойных точек. 3. Для неспрямляемой кривой без кратных точек сумма периме- периметров квадратов, задаваемых кривой, безгранично возрастает с уменьшением сторон квадратов. Покажем, что она может быть сделана больше любой данной величины К. Найдем, что всегда возможно, вписанный и кривую полигон длиною, большей К. Выделим из него все прямолинейные отрезки, только четные или нечетные, сумма которых больше К/2. Разобьем плоскость на столь мелкие квадраты, чтобы диа- диагонали их были меньше минимального расстояния между точками частей кривой, соответствующих несмежным отрезкам полигона, какое по предыдущей теореме всегда существует. Сумма периме- периметров квадратов, задаваемых такой частью кривой, будет больше удвоенной длины соответствующего отрезка. Выделенные несмеж- несмежные части не могут проходить через один и тот же квадрат, и, сле- следовательно, сумма периметров квадратов, зпдапдеммх нссми ими, больше их общей удвоенной длины, или Гшлммп А'.
292 Комментарии и приложения н- 1 Рис. 1 4. Для теории функций комплексного переменною важно было бы. следующее расширение первой теоремы. Дана непрерывная спрям- спрямляемая кривая. Плоскость разбивается сначала на рав- равные квадраты, и затем неко- некоторые из этих квадратов разбиваются далее путем последовательного разделе- разделения на четыре равные части. При всяком разбиении сум- сумма периметров квадратов, задаваемых кривой, будет меньше постоянного К, лишь бы первоначальное разбиение на равные кьадраты было проведено достаточно далеко. Без вреда для применения можно видоизменить это по- положение, принимая во вни- внимание только квадраты, пе- пересекаемые кривой, а не ка- касающиеся ее. На двух примерах я попытаюсь показать ложность этого поло- положения как в первоначальном, так и в видоизмененном виде. А. Вместо кривой возьмем диагональ квадрата со стороной М. Разделим его на более мелкие равные квадраты. Как бы мелки эти квадраты ни были, можно подразделить их таким образом, чтобы сумма периметров квадратов, задаваемых диагональю, была сколь угодно велика. Для этого разделим диагональные квадраты. Квад- Квадраты а оставим без изменения, сумма их периметров равна AM. С новыми диагональными квадратами повторяем то же самое; квадраты Р оставляем без изменения, сумма их периметров также 4М. Продолжая достаточно далеко такое деление, получаем общую сумму периметров сколь угодно большой. |В. Для опровержения видоизмененного положения возьмем кривую, цолучаемую на прямой предыдущего примера, путем за- замены отрезка вокруг диагонали 1/10 ее длины полуокружностью; отрезков вокруг точек, отмечающих 1li и 3/4 ее длины,— длиною X р W J3 а, ас I3 it 7f ex fi it /\ OS Рис. 2 в 1/100; вокруг V8, 3/8, 5/s и 7/8 в У1М0 и т. д., поскольку они не налегают друг на друга. Общая длина замененных отрезков: 1 - J_^_i_4- — V" 10 ^ 100 "^ 1000 ^ 1 — а/
Приложение 1, Доклад математическому кружку о ксадрильяже 293 Au I «■<> - J Ed 7s I & к"**** *M , 1 **% Страница рукописи «Доклада математическому кружку о квадрильяже», 1921 г.
294 Комментарии и приложения Деление на квадраты оставим то же самое с тем ограничением, что при первоначальном разбиении на равные квадраты, каждую сторону большого квадрата разбиваем на число частей, являющее- являющееся степенью двух. Половина квадратов а, р и т. д, пересекается кривой, поскольку они окажутся против дуг с радиусом, большим их диагонали, но таких в каждом ряду будет не более Vs. 4 января 1921 г. Приложение 2 ОБ ОПЕРАЦИЯХ НАД МНОЖЕСТВАМИ. II ОТ АВТОРА Первая часть моей работы об операциях над множествами, выполнен- выполненная в 1921—1922 гг., была опубликована в 1928 г. в томе 35 «Математического сборника» (см. работу № 13 в первой книге моих избранных трудов «Мате- «Математика и механика». М.: Наука, 1985). Вторая часть, оставаясь в рукописи, была доступна ряду исследователей по дескриптивной теории множеств, раз- развивавших изложенную в этой второй части теорию Л-операций. Ниже публи- публикуется с небольшими редакционными изменениями вторая часть — по руко- рукописи, обнаруженной уже после того, как первая книга избранных трудов была сдана в печать. Как отмечено в тексте упомянутой статьи № 13 на с. 86, начала теории были независимо развиты Ф, Хаусдорфом и изложены им во 2-м немецком издании его «Теории множеств» A927), В русском издании A937) книги Ха- усдорфа соответствующие параграфы написаны мной. Из-за отсутствия об- общего определения дополнительной операции теория Хаусдорфа менее иолна. Образцом для моего общего определения дополнительной операции послу- послужило данное П. С. Александровым определение Г-опсрации. Далее идет текст второй части моей работы об операциях над множест- множествами 1. Так как первая часть закончилась разделом V, вторая начинается с раздела VI. VI Напомним, что все рассматриваемые в дальнейшем множества расположены на замкнутом сегменте2 [0, 1] действительной пря- прямой. За основной класс элементарных множеств принимаются замкнутые относительно основного сегмента множества, включая в их число «пустое» множество. 1 Редакция благодарит JT. Б. Шапиро за подготовку к печати этой ча- части работы А. Н. Колмогорова.— Примеч. ред. 2 В этой части открытый интервал @,1) заменен сегментом [0,1]. — Примеч. ред.
Приложение 2. Об операциях над множествами. II 295 Для операции X над последовательностью множеств, заданной своей системой числовых цепей, определим операцию RX над ■системой множеств со всеми возможными кортежами вида •(«!, щ, , . ., щ), где пи п2, . . ,, щ — натуральные числа: Е = RX {Enlnz...n}s}nini...nr Цепью кортежей URX назовем всякую совокупность кортежей, ■обладающую такими свойствами: 1. Кортежи первого ранга 3 (X), входящие в URX, образуют цепь Ux. 2. Если {пхщ. . .пк) входит в URX, то индексы X кортежей вида {щщ. . ,щХ), входящих в URX, образуют цепь IIх. 3. ЕСЛИ {ЩЩ. . .Щ-хЩ) ВХОДИТ В URX, TO И (ПхЩ. . .И/c-i) ВХО- ВХОДИТ в URX. Очевидно, что в случае, когда X есть операция сложения 2, RX есть Л-операция: Д2 = А. Легко видеть, что в случае Еп<Пг...П]г = ЕП1 RX {Епп, ... п^щ-гц ... пк = X {Еп}п, т. е. Z-операция есть частный случай ЛХ-операции. Теорема I. Х-операция над RX-множествами дает всегда RX-множества. Это утверждение есть частный случай сформулированной да- далее теоремы II, но проще оно следует из таких формул: если Е = X {Еп}п, где г? пу /77*1 \ '-"п — -ПА yHim^v/ii ... m^fm^t ... то ТО, ПОЛОЖИВ <Р2...Р, = £w,...p, и < = [0, 1], получим Е = RX {^p1p2...pk}plPi...Pk, доказательство которых не представляет затруднений. Если имеется конечное (например, X и X) или счетное число операций, то, строя по методу, использованному в IV при доки зательстве теоремы о непустото клпссоп (п. 2), опорициш £, ни заменяющую, и матом RZ, получпсм оиорицию, лин'нцуй* tit ii'i ментов все множества области, ииинримитной т» шпопмчтт к данным операциям и «'.пдоржшцсй пч'монты (и гилу h-h|h>mi,i I). Теорема II. Какова С>ы пи (тли otu'iuiifiDi \, операция RX нормальна. Пусть функции i ■— ф (k), j ■ ■■ \\> {к) и к = / (i, j) осуществля- осуществляют взаимно однозначное соответствие между натуральными числа- 3 Число чисел, входящих в кортеж, называется его рангом. Пустой кор- кортеж имеет нулевой ранг и входит в любую цепь кортежей.— Примеч. ред.
296 Комментарии и приложения ми к = / (i, /) = / (ф (к), -ф (к)) и парами натуральных чисел (г, /) и удовлетворяют условиям; / (i, i) < / (i, (/ + 1)), A) / (i, i) < / Ш I- 1), /), B) /(*,/)>/(!. (i-1)). C) Такое соответствие легко построить, положив, например, / (i, )) = 21'1 B/ - 1). Из A) и C) вытекает, что / A, 1) = 1, D) / (», /) > U E) / (U J) > j- F) Предположим, что даны Пусть ф (к) = i. Положим при i ^> 1 s* pP;4i,Dp/(i, i)—pf(i, i) Ч>,р,...рЛ— аРЦ1,1)рШ,2) — р1а, i-D' При I = 1 положим (g*iP2_p — [0,1]. Обозначим через Достаточно доказать, что S* = Е. 1. Доказательство включения £" d S*. Пусть а; входит в Е. Значит, существует цепь URX множеств Еп<Пг... Л, заключающих х, и для каждого из них цепь УХщп,...пь множеств Епл...пк , содержащих х. Выделим все @PlP2..,p , удовлетворяющие таким условиям: а) если ф (q) = 1, то множество ЕрЦ1,1)рН1,2)-Щ1, itife))" EPf0,l)PHl:2)-Pq входит в цепь URX; б) если ф (q) ^> 1, то множество входит в цепь U^J>1)P/(lia)... P/(li^H); в) условия а) и б) выполнены также для всех SPlp3...P , г < qt Я утверждаю, что совокупность © всех* S*iPs..,Pfc, удовлетво- ряющих выставленным условиям, образует цепь \Хг . В самом деде.
Приложение 2, Об операциях над множествами. II 297 1. В силу в) если @*1Р2...Р входит в Ufx, то в tlfA входит и <г*1рг..рг' когда г < q. 2. Из <5Pl в <5 входят те, для которых EVy входит в URX (так как <р A) = 1), т. е. образующие своими индексами цепь Ux. 3. Если 6р,в, v входит в ©, то из множеств SPlo, p в © входят те и только те, которые удовлетворяют условиям а) и б). Здесь представляются такие случаи. (i) ф (?) = 1. В этом случае @№...р/A?1|:(д+1Ь1) входит в © по условию в), поэтому ^р/(|Д)р/а,в).'..р/AЛ(,+1)_1) в силу условия а) входит в \lRX, так как ф (/ A, if> (q + 1) — 1)) = 1. Из множеств вида входят в VLRX только те, последние индексы которых образуют цеиъ11х. Поэтому в силу условия а) в UXA входят такие €^,р,...р р j' что их индексы pq+1 образуют цепь IIх. (И) Ч» (? 4- 1) > 1, t (? + 1) = 1. В этом случае в£р....;Жф(,+1Н1) входит в ltfx, так как /A, Ф (? + 1) — 1)^?« Следовательно, £p/(i,i)P/(i,2) • р/A,ф(9«)-1) входит в URX. Но множества в?,г,...рд+1, входя- входящие в Ufx, суть по условию те, для которых множества pPf(q>(q+l), 1) . рР?+1 cP £ входят в цепь ^1л)ртл)...гН1М<1+1)^у Их индексы pq+t образуют, следовательно, цепь Vх. (iii) ф (q + 1) ^> 1, я|) (q + 1) ^> 1. В этом случае множество я* , E.P/(<p(g+D, входит в 1XRX, так как / (ф (q + 1), -ф (q + 1) — 1) <[ q. Следо- Следовательно, ВТОрОе МНОЖеСТВО ВХОДИТ В Knhl)pf0,2yl Множества <&%1Г,...р р г входят в 11г , если множества входят в U**1)|1/A>2)...7,/A<4i/+1M), а это выполняется для тех Ря+и которые образуют цепь Vх. Итак, Ufx есть действительно цепь. Все ее элементы содержат х, так как они или равны сегменту [0, 1), или множеству
298 Комментарии и приложения mm»... то, Дп^'.пц 1 содержащему £. Следовательно, а; входит в <г . 2. Доказательство включения 6* CI £• Пусть теперь х входит в §*. Значит, есть цепь Uf^ множеств £*,ь.,,рк, содержащая ж. А. Для каждого @*л...?л отметим ё*л ...,^+1 — мно- множество с наименьшим индексом />к+1, равным ^к+1, входящим в Uf ; очевидно, для каждого SflPa,..j, , входящего само в IV ,. такое найдется. В. Установим между множествами с одним и тем же ф (к) — i такое подчинение (В): множеству Spip,...py(i ч непосредственно подчинены (B)s множества вида: где />/(i, j+;> принимает цепь Ux значений, при которых полученное1 множество входит в цепь XI t , а рщг j)+n вполне определены .усло- .условием А. С. Для i = 1 выделим все <!:*! первого ранга, входящие в Ufxr и все им подчиненные (В). Множества EPfa 1)P/A2)...P/A jy со- соответствующие выделенным, как нетрудно убедиться, образуют цепь \ХНХ. В. Для каждого выделенного (С) выделим множества вида где Pta+i,i) принимает цепь Ux значений, при которых получен- полученное множество входит в Uf"*.'Выделим, далее, все подчиненные (В) последним множествам. Нетрудно видеть, что они тождествен- тождественны множествам цепи Up^ 1)P/A3)...P/A j} системы, определяю- определяющей Е?К ирд,, 2)...рУA) 5), которое, следовательно, содержит х. Отсюда: Е содержит х. VII Если Х-операция есть Г, то назовем .ЙГ-операцию //-операцией (рассматривая при этом Г-операцию, определенную отделяющими цепями, см. с. 88 из № 13). В соответствии с теоремой I из VI Г-операция может быть заме- заменена if-операцией. Теорема III. А-операция заменяется Н-операцией.
Приложение 2. Об операциях над множествами. II 299 В самом деле, ряд чисел 1, 2, 3, ... распадается на счетное множество непересекающихся Г-цепей, в А--ю цепь будем считать входящими номера а\ кортежей к-то ранга. Если Е = A {EPip2...pk}, то р с - *-'р ■Рк «2 = ., щ = с любыми qt, q2, . . ., qk. при щ = aJi, Получим Е = Н {E*^... П]г}. В самом деле, легко видеть, что 6* п п., равные Ev v v. из какой-либо А-цепи образуют цепь UH. Обратно, из любой цепи UH можно выделить множество, элементы которого равны членам некоторой Л цепи множеств EPip^_pk. Так как //-операция нормальна, то отсюда следует, что об- область //-множеств инвариантна по отношению к А- и Г-операциям и, следовательно, содержит С-область. Если рассматривать Г-операцию не как операцию над последо- последовательностью множеств, а как операцию над системой, зануме- занумерованной кортежами, то //-операция определится как операция над системой множеств со всеми возможными двойными корте- кортежами: Е где v, к( и п) принимают независимо всевозможные значения. Определение цепи двойных кортежей подобно данному в VI, если ранг считать равным числу строк, а кортежами, непосредст- непосредственно подчиненными данному, получаемые из него прибавлением к нему одной строки снизу. Пользуясь этим обозначением, можно получить удобную фор- формулировку //-операции, но пока я сохраняю сокращенное обозна- обозначение, рассматривающее Г-операцию над последовательностью. VIII Определяющая система //-множества: где б1 — сегменты, кик и для <4-множеств, может быть заменена равносильной ей «припильной» определяющей системой, в кото- которой fi.ijrtj. . . llk ) fi'V'! "(Л''!*
300 Комментарии и приложения Для этого достаточно положить cl cl cl п^щ.-п-^ ^щ'^щп^' • • • •°n,n2...nfc' Очевидно, что Е — Н {ЬП1п2.. .П)с}. В дальнейшем я буду всегда предполагать систему правильной. 1. Положим ЕщЩ...Пк =Н {O,l1n2...nkplp2...plipip2ii-p • Очевидно, что Е — Г {-EjiJtih Enin,...nk — Г {^^...п^п^^}^^. Определим еще 2. Назовем индексом точки .г относительно системы сегментов,, определяющей Я-множество, Ind^ {ЬЩПг...пк)П1пг..,пк — Indx ф число,, определяемое таким индуктивным процессом: (i) Inda^n,... ,l]s = 0, если б„х„2...„Л содержит я. (ii) Если определены все системы ц>п.1П2...пк с индексами, мень- меньшими натурального числа то, то считаем lndx<pn п . .r,k= tn, еслв он еще не определен и если во всякой цепи VT есть число X такое^ что Ы(\хч>п1Щ...пкъ < т. Иначе: если есть цепь UA, состоящая только из таких Л. (iii) Вообще если определены все системы с индексами, меньши- меньшими некоторого числа второго класса 4 а, то считаем 1пйхц>ЩП2...пк = — а, если он еще не определен и во всякой цепи UT есть число к такое, что Ind-^n,,,,...,,^ = Р < а. (iv) Всем точкам, не получившим в силу предшествующих условий индекса второго класса, припишем условно индекс щ. Поскольку система <р занумерована пустым кортежем, то Indsq> корректно определен 5. 3. Теорема IV. Inda-ф = «! тогда и только тогда, когда х входит в Н(р = Н {ЬЩпг...пк\- Доказательство. В самом деле, если то есть цепь UT такая, что если А, €= UT, то IndK<pninj...n % = <ог. Если это не так, то в каждой цепи UT найдется элемент п1+1 такой, что Inda:9nin2...ninK+1 < Щ. 4 а — ,трансфинитное число второго класса, если шо ^ « <С щ-— Примеч. ред. 5 По индуктивному определению Ind^cp = а < о), тогда и только тогда, когда во всякой цепи 1;Г есть число Я такое, что IikL,. ф^ <; а.— Примеч. ред.
Приложение 2. Об операциях над множествами. II 301 Но тогда в силу пункта (iii) определения индекса было бы Значит, совокупность 8,,^,..,^, для которых ~Iudx4>nln,...n]c — бц, удовлетворяет условиям 1 и 2 (см. VI) определения цепи. Сле- Следовательно, она содержит цепь VIя, в ядро которой входит точка х, т.е. х ЕЕ Н((. Обратно, покажем, что если Indx<p < соь то х не входит в //Ф. а) Утверждение очевидно в случае Indj-ф = 1 (см. определе- определение индекса). б) Пусть утверждение доказано для всех р1 < а и lndx(p = a. В каждой цепи Ur множеств Еп есть такое Е%, что \пАхщ = = Р < а, следовательно, .г не входит в £х. Отсюда в силу фор- формул раздела VIII, п. 1, х не входит в £\ Итак, дополнение к //-множеству состоит из J^ множеств Ра = {% I Jndj-ф = а}. IX Теорема V. Дополнения к Н-множествам, в частности все С-множества, суть fa-суммы все возрастающих А-мпожестё. Следуя обозначениям раздела VIII (п. 3), имеем £ = Л + Рг + . . . + РИс + • • • + Ра + ■ . ., £п = Pi + Р\ + • • • + P\ + • • • + Ра + ■ • • Обозначим, далее Q* = Л + 7>2 + . . . + Ры. + . . . + Ра, QI = Рх + Л" + • • ■ + PZ. + ■ ■ • + Ра.'. Если х входит в Qa, то во всякой цепи Ur множеств Еп найдется такое Ei, что х е ^ Для некоторого р < а. Обратно, если это условие выполнено, то х входит в Qa. Из этого следует формула Qa = А {2 {$ | р < а}}п (см. определение дополнительной операции в разделе II первой части, кн. 1, № 13, с. 88). Множества Qa суть Л-множества. В самом деле: 1. Это верно для а 1, так как Qt — Р1 = Г {б„}„ == А {бп}п. 2. Если это верно для fl < а, то (^( суть Л ^множества, также их счетные суммы, а и силу нормальности Л-ош'риции Qa также есть Л-мноя«ч"гцо,
302 Комментарии и приложения Е = 2 {Qa | а < tol}, Qa Zj <&, если а > р. Сами Н-множества, также и С-множества суть ^-произведения Г-множеств: Е = П {<?„ | а < Ш1}. Замечание 1. Вопрос о существовании //-множеств, до- дополнения которых были бы тоже //-множествами, не являющими- являющимися С-множествами, остается открытым. Методы, примененные для ^1-множеств, в этом случае неприменимы. Замечание 2. Выводы теорем IV и V легко могут ■быть обобщены на RX- и /?Х~множества. Определение индексов остается при этом без изменений, но вместо теоремы V получается Теорема V*. Если Х-операция нормальна (следовательно, и X) и содержит как частный случай операцию умножения (сле- (следовательно, X — сложения), то RX-множества суть fa-суммы Х-множеств, а RX-множества — ^^-произведения Х-множеств. Теорема VI. Если Х-операция над измеримыми множест- .вами всегда дает измеримое множество, то то же верно для RX- операции. Доказательство достаточно длинно, но по существу является лишь обобщением доказательства измеримости множеств, полу- получаемых А -операцией над измеримыми множествами 6. Теорема VII. Если каждой точке сегмента [0, 1] приведе- приведена в соответствие определенная операция Хг, то можно назвать ■операцию Т, заменяющую (см. раздел IV, п. 2 первой части, кн. 1, .№ 13, с. 91) все операции Хх. A. Занумеруем нечетными числами все рациональные сегмен- сегменты (с рациональными концами). Назовем цепью чисел UT всякую бесконечную последовательность чисел их, п2, . . ., Щ-, . . ., удов- удовлетворяющую таким условиям: (i) Последовательность сегментов, соответствующих нечетным элементам UT, сходится к некоторой точке т. (п) Четные элементы UT, деленные на 2, образуют цепь из системы цепей {UXt}, определяющей операцию Хх- B. Пусть Е = Хх {£„}„. Полагаем: а) @2„ = Еп, б) для номеров 2га + 1 некоторой фиксированной последова- последовательности рациональных сегментов, сходящейся к с, S.2n+i = №, 1], в) остальные й2п+1 равными нулевому сегменту. Нетрудно видеть, что в этих условиях Е = Т {@„}и. в См.: Lusin N., Sierpinski W. Sur quelques proprieties des ensembles <A).— Bull. Acad. sci. Cracovie, 1918, vol. 4, p. 35—48.
Приложение 2. Об операциях над множествами. II 303 Теорема VIII. Если каждому трансфиниту второго клас- класса соответствует операция, то можно дать операцию, заменяю- заменяющую их все. Для этого достаточно разбить сегмент [0, 1] на fa множеств Ра и привести в соответствие каждой точке Ра операцию, соответ- соответствующую а; затем построить операцию Р. Заключительное замечание. Если дано множе- множество, то легко дать операцию, дающую его из сегментов; для этого достаточно занумеровать рациональные сегменты и назвать цепью операции совокупность номеров, соответствующую последователь- последовательности сегментов, сходящейся к точке множества. В силу теоре- теоремы VII можно эффективно континуальному классу множеств так- также найти операцию, дающую из сегментов все множества этого класса. Но так как мощность класса всех операций равна мощ- мощности класса всех точечных множеств, то можно думать, что с точ- точки зрения изучения произвольных точечных множеств мы мало выигрываем, сводя их исследование к изучению классов множеств, порождаемых различными операциями рассмотренного в этой ра- работе типа. Существенный интерес предлагаемый метод исследова- исследования имеет в применении к специальным классам множеств, по- порождаемых достаточно простыми операциями. Февраль 1922 г. ПОСЛЕСЛОВИЕ Предлагаемые читателю три книги «Избранных трудов» вклю- включают в себя в существенном все мои работы по математике, клас- классической механике, теории турбулентного движения, теории ве- вероятностей, математической логике и теории информации. Сюда не вошли работы по методике преподавания и истории математики, стиховедению и статьи общего характера. В некоторых направлениях сделанное мною представляется мне достаточно цельным и законченным, так что в моем 82-летнем возрасте я с удовольствием оставляю сделанное продолжателям. В других направлениях дело обстоит иначе и опубликованное мною представляется мне лишь фрагментами будущих работ, от- относительно которых я надеюсь только, что они будут ш.нго.шепы другими. 'Го, что к зтих направлениях уже сделано, in» многих случаях описано и комментариях, составленных группой моих учеников, которым я выражаю сердечную благодарность. 25 апреля HiH.f> г. А.Н.Колмогоров-
СОДЕРЖАНИЕ От редакции 3 Приветствие А. Н. Колмогорову от Московского математиче- математического общества 4 Н. Н. Боголюбов, Б. В. Гнеденко, С. Л. Соболев. Андрей Ни- Николаевич Колмогоров (К восьмидесятилетию со дня рожде- рождения) 7 1. О понятии алгоритма , 24 2. К общему определению количества информации 25 3. Теория передачи информации 29 4. Количество информации и энтропия для непрерывных , распределений 59 5. Новый метрический инвариант транзитивных динамиче- динамических систем и автоморфизмов пространств Лебега .... 86 6. К определению алгоритма 91 7. Е-энтропия и е-емкость множеств в функциональных про- пространствах 119 8. Различные подходы к оценке трудности приближенного задания и вычисления функций 199 9. О таблицах случайных чисел 204 10. Три подхода к определению понятия «количество инфор- информации» 213 11. О реализации сетей в трехмерном пространстве 223 12. К логическим основам теории информации и теории ве- вероятностей 232 13. Комбинаторные основания теории информации и исчисле- исчисления вероятностей 238 КОММЕНТАРИИ И ПРИЛОЖЕНИЯ А. Н. Колмогоров. К работам по теории информации и не- некоторым ее применениям 251 Теория информации (Р. Л. Добрушин) 254 Алгоритмическая теория информации (А. X. Шень) 257 е-энтропия и 6-емкость (В. М. Тихомиров) 262 Таблицы случайных чисел (А. X. Шень) 270 Реализация сетей в трехмерном пространстве (Я. М. Бара- динъ) 274 А. Н. Колмогоров. К работе о динамических системах .... 275 Эргодическая теория (Я. Г. Синай) . . 275 Алгоритмы, или машины, Колмогорова (В. А. Успенский, А. Л. Семенов) 279 Из воспоминаний А. Н. Колмогорова 289 Приложение 1. Доклад математическому кружку о квад- рильяже 290 Приложение 2, Об операциях над множествами. II 294 Послесловие 303