Текст
                    PERCEPTRONS
AN INTRODUCTION TO COMPUTATIONAL
GEOMETRY
Marvin Minsky and Seymour Papert
The MIT Press
Massachusetts Institute of Technology
Cambridge, Massachusetts and London, England
1969

м. минский С. ПЕЙПЕРТ ПЕРСЕПТРОНЫ Перевод с английского Г. Л. ГИМЕЛЬФАРБА и В. М. ШАРЫПАНОВА Под редакцией В. А. КОВАЛЕВСКОГО ИЗДАТЕЛЬСТВО «МИР» Москва 1971
Книга видных американских ученых посвящена параллельным вычислительным устройствам, известным под названием персептро- нов В ней на примере нескольких конкретных задач распознавания «геометрических» свойств графических изображений подробно про- анализированы принципиальные возможности подобных схем, рас- смотрены вопросы, связанные с обучением персептронов, в частно- сти длительность процесса обучения, эффективность схемы как адаптивного запоминающего устройства и т п, а также исследо- ваны потенциальные возможности персептронов как обучающихся распознающих устройств Книга представляет несомненный интерес для специалистов по современной кибернетике, в частности по теории распознавания об- разов и по создаваемой в настоящее время общей теории вычислений и вычислительных схем. Редакция литературы по математическим наукам и 2-2'3 Инд’ Тз^Г ЗЗбо?/ Алтайский j Вс- *<ий f Лвьи'л I. 6WWlMOitKA 4
ПРЕДИСЛОВИЕ РЕДАКТОРА ПЕРЕВОДА Задача автоматического распознавания образов возникла сравнительно недавно, но сразу же привлекла к себе внимание многих исследователей. Причина этого в том, что без эффективных средств распознавания реальных физических объектов и явлений нельзя решить широкий круг задач современной науки и тех- ники— от ввода письменных знаков в ЭВМ до конструирования автоматических станций-лабораторий для изучения космиче- ских тел, В истории возникновения различных направлений теории и практики распознавания схема персептрона занимает особое ме- сто. Сразу после своего появления (персептрон был предложен американским ученым Ф. Розенблаттом в 1957 г.) он занял одно из важных мест в распознавании. Этому способствовал целый ряд моментов: исключительная простота схемы персептрона; возмож- ность обучения распознаванию конкретных образов, допускающая легкую техническую реализацию; относительная успешность ре- шения частных модельных задач (это вызвало далеко идущие оптимистические прогнозы) и даже то, на первый взгляд посто- роннее, обстоятельство, что необычное и интригующее название «персептрон» сразу перекочевало на страницы научно-популярной литературы. По-видимому, в распознавании вряд ли можно найти другое направление, относительно которого было бы столько раз- норечивых высказываний — от абсолютного неприятия до столь же безоговорочной поддержки. Как бы то ни было, но очарование простоты (и названия) персептрона не смогло сгладить узости его возможностей и компенсировать отсутствие серьезной теории та- кого рода распознающих устройств. С течением времени ряды поклонников персептрона стали редеть, ибо попытки его исполь- зования в прикладных задачах оказывались чаще всего безуспеш- ными. Было строго доказано, что первоначальная схема персеп- трона, предложенная Розенблаттом, не обладает нужной способ- ностью к экстраполяции, т. е. к распознаванию объектов, не уча- ствовавших в процессе обучения Попытки усовершенствовать персептрон, предпринятые в разное время отдельными сторонни- ками этой схемы, также не привели к ощутимым положительным результатам. Назрела необходимость создания полноценной серь- езной теории параллельных вычислительных устройств, подобных персептрону, теории, учитывающей специфику конкретных задач и позволяющей прогнозировать разрешимость тех или иных задач. Книгу М Минского и С. Пейперта можно считать одной из пер- вых заслуживающих внимания попыток в этом направлении. Ее
6 Предисловие редактора перевода отличает новизна и оригинальность подхода, равно как и большое число затронутых проблем. Основная часть последних обычно остается вне поле зрения традиционных исследований персептро- нов, хотя важность этих проблем несомненна. По-видимому, здесь впервые ответы на поставленные вопросы получаются не на экспе- риментальной основе, а путем теоретического анализа взаимосвя- зей между геометрическими характеристиками распознаваемых свойств объектов и вычислительными возможностями линейных пороговых элементов. В число проблем, затронутых Минским и Пейпертом, входят такие вопросы, как выявление принципиальной возможности (или невозможности) вычисления конкретных свойств объектов с помощью персептронов, оценка требуемого (в каждой конкретной задаче) объема персептрона по числу ассо- циативных элементов (пороговая логика) и диапазону значений весовых коэффициентов, определение требуемой длительности обу- чения персептрона (по числу показов обьектов), сравнение пер- септрона с другими вычислительными устройствами, решающими ту же задачу распознавания (например, с последовательными ма- шинами или со статистическими решающими устройствами). Разумеется, не следует переоценивать «революционного» зна- чения книги. Математический аппарат, предложенный в ней, до- статочно хорошо решает поставленные частные задачи, но воз- можность его применения для анализа других задач распознава- ния или для рассмотрения более сложных вариантов персептрона, отличающихся от простейшей схемы Розенблатта, остается не- ясной. Главной заслугой авторов является сама постановка основных проблем теории персептронов как составной части зарождающейся общей теории вычислений и вычислительных устройств. Не менее важен предпринятый Минским и Пейпертом доскональный анализ нескольких важных частных задач распознавания, таких, как рас- познавание изображений, подвергающихся геометрическим преоб- разованиям, или вычисление свойств выпуклости и связности. По- лученные ими результаты воочию демонстрируют, сколь далекими от истины могут оказаться «интуитивные» умозаключения и про- гнозы по поводу потенциальных возможностей персептронов. Они еще раз подчеркивают, что реальные успехи любой теории распо- знавания можно получить лишь на базе подробного изучения част- ных задач распознавания и глубокого анализа свойств распозна- ваемых объектов. Книга М. Минского и С. Пейперта, несомненно, вызовет боль- шой интерес среди специалистов по распознаванию образов и — нужно надеяться — будет стимулировать дальнейшие исследова- ния поставленных в ней проблем. В. Ковалевский Киев. 1970
0. ВВЕДЕНИЕ 0.0. О читателях Создавая эту книгу, мы имели в виду три категории читателей. Во-первых, специалистов в области «распознавания образов», «обучающихся машин» и «пороговой логики», которым будут инте- ресны полученные в книге новые результаты. Во-вторых, тех, кому будет приятно прочесть ее как своего рода этюд из области абст- рактной математики, в особенности тех, кому хотелось бы увидеть возвращение геометрии в сферу топологии и алгебры. Мы относим себя к обеим этим категориям, но нам вряд ли удалось бы выпол- нить поставленную перед собой задачу, если бы мы не думали о третьей, менее определенной категории читателей. Наша задача — помочь читателю достичь возможно более глу- бокого понимания основных представлений, являющихся, по на- шему мнению, краеуюльным камнем общей теории вычислений. Мы собираемся очень подробно изучить класс вычислений, в ко- тором решения можно принять, лишь как следует взвесив данные опыта. Разумеется, такая задача представляет большой самостоя- тельный интерес; мы же надеемся на то, что понимание ее матема- тической структуры поможет в конечном счете проникнуть в глубь почти неисследованной теории параллельных вычислительных машин. Мы обращаемся главным образом к тем читателям, которых интересует такая общая теория вычислений. Мы надеемся, что в их число входят физиологи и биологи, которым хотелось бы знать, каким образом мозг «вычисляет» мысли и как генетическая про- грамма «рассчитывает» организмы. Мы не претендуем ни на то, чтобы ответить на подобные вопросы, ни даже на то, чтобы пред- ложить используемые нами простые устройства в качестве «мо- делей» таких процессов. Наша цель—а мы не знаем, является ли она более скромной или, наоборот, более честолюбивой, — пока- зать, как могла бы возникнуть такая теория и какие направления исследований могли бы к ней привести. Именно для этой третьей категории читателей написано наше введение. Тем из них, кто еще непосредственно не сталкивался с теорией распознавания образов, оно поможет осознать, что эту теорию стоит изучать и для других целей. В то же время мы хо- тим изложить упрощенный вариант теории для тех читателей, чья математическая подготовка не позволяет легко одолеть последую- щие главы. Остальная часть книги полностью самостоятельна, и тот, кому ненавистны введения, может перейти прямо к гл. 1.
8 О Введение 0.1. Реальные, абстрактные и мифические вычислительные машины О наших вычислительных машинах и о выполняемых ими вы- числениях мы знаем постыдно мало. Это кажется парадоксальным, поскольку и в физическом, и в логическом плане принципы работы вычислительных машин яснее ясного. Тем не менее даже школьник может задать вопросы, на которые современная «наука о вычис- лительных машинах» ответить не в состоянии. Например, очень мало известно о том, сколько может потребоваться вычислений для выполнения конкретного задания. В качестве примера рассмотрим одну из наиболее часто встре- чающихся задач — решение системы линейных уравнений. Решать такие системы необходимо, по сути дела, в любой научной работе. Для их решения существует множество стандартных программ, включающих сложение, умножение и деление. Казалось бы, столь простая и важная тема, давно разрабатываемая математиками, в настоящее время изучена до мельчайших подробностей. Зададим, однако, несколько вопросов. Какое количество арифметических шагов безусловно необходимо? Как оно зависит от объема памяти вычислительной машины? Сколько времени мы можем сэкономить, имея две (или н) идентичные вычислительные машины? Любому специалисту по вычислительной технике «известно», что для ре- шения системы из п уравнений потребуется что-то около н3 умно- жений, но даже если это и так, никто не знает (к настоящему времени), с чего начать доказательство этого утверждения. Ни дилетант, ни специалист-вычислитель, по-видимому, не осо- знают, насколько примитивно и эмпирично сейчас наше понимание такого рода проблем. Мы не знаем, насколько вообще можно уско- рить вычисления, используя «параллельные» машины вместо «по- следовательных», «аналоговые» вместо «цифровых». У нас нет теории тех ситуаций, в которых «ассоциативная» память оправды- вает свою более высокую по сравнению с «адресной» стоимость. Бытует множество легенд относительно такого рода противопо- ставлений, однако большая часть их основана просто на пред- убеждениях. В тех случаях, которые мы тщательно исследовали, широко распространенные ходячие представления оказывались не только «недоказанными» — они зачастую были попросту невер- ными. Незрелость, которую демонстрирует наша неспособность отве- тить на такого рода вопросы, проявляется даже в языке, на кото- ром вопросы формулируются. Пары противопоставляемых слов типа «параллельный» — «последовательный», «локальный» — «гло- бальный», «цифровой» — «аналоговый», используются так, как буд- то они относятся к четко определенным техническим понятиям, хотя даже в тех случаях, когда дело обстоит именно так, их тех-
О Введение 9 нический смысл меняется от автора к автору и от контекста к кон- тексту. Но обычно с ними обращаются настолько вольно, что классификация вычислительных машин, определяемая ими, отно- сится скорее к области легенд, нежели к науке. Здесь мы отнюдь не стремимся навести читателя на мысль, что это простые псевдо- проблемы, вызванные небрежным использованием языка (это не книга «лечебной семантики»!), ибо в этих интуитивных представ- лениях и различиях содержится глубокий смысл. Задача состоит в том, как объединить их в ясную, четкую теорию. 0.2. Математическая стратегия Мы не убеждены, что настало время для попытки создать весьма общую теорию, достаточно всеобъемлющую, чтобы вклю- чить указанные нами понятия и им подобные. Хорошие теории редко развиваются не на основе хорошо понятых реальных задач и частных случаев. Без подобного фундамента получается либо бессмысленно общая теория с преобладанием определений над тео- ремами, либо теория, математически элегантная, но не имеющая никаких практических приложений. Соответственно наилучшая линия нашего поведения должна, по всей видимости, состоять в том, чтобы досконально разобраться в тщательно подобранных частных ситуациях, в которых встре- чаются основные понятия. Действительно, мы решили изучать свойства самых простых (из тех, что сумели найти) машин, по праву называющихся «па- раллельными» (поскольку в них нет замкнутых контуров или ли- ний обратной связи), но тем не менее способных выполнять вычис- ления, не тривиальные ни в практическом, ни в математическом смысле. Прежде чем углубиться в детали, нам хотелось бы успокоить нематематиков, которые, возможно, напуганы тем, что промельк- нуло перед их глазами при перелистывании последующих страниц. Математические методы, используемые нами, достаточно разнооб- разны, но редко требуют глубоких предварительных знаний. Боль- шую часть того, что выходит за пределы элементарной алгебры и геометрии, мы объясняем. Иногда эти объяснения не рациональ- ны; тогда разделы, требующие от читателей, на наш взгляд, боль- ших математических усилий, чем это оправдано ролью соответ- ствующей темы во всем изложении, мы выделяем как факульта- тивные. Наша теория скорее похожа на ветвистое дерево, чем на узкую высокую башню из блоков; во многих случаях, если неожи- данно возникнут трудности, можно перескочить к началу сле- дующей главы. Многие авторы современных математических книг заставляют читателя проделывать чрезмерно трудоемкую работу из-за
10 0 Введение стремления скрыть те пути мышления, которые привели их к от- крытию теорем. Мы старались оставлять на виду ход развития мысли Нам бы хотелось пойти дальше и сохранить следы всех на- ших ложных путей К несчастью, их было слишком много! Тем не менее мы иногда оставляли первоначальное доказательство, даже если потом находили «лучшее». В наши намерения входит не столько доказывать теоремы, сколько проникнуть в сущность ме- тодов и поощрить исследования. Мы надеемся, что все это будет читаться не как цепь логических умозаключений, а как матема- тический роман, в котором действующие лица, раз возникнув, по- являются вновь и вновь и совершенствуются. 0.3. Кибернетика и романтика Машины, которые мы собираемся изучать, являются абстракт- ными вариантами класса устройств, известных под разными на- званиями Мы условились использовать термин «персептрон» в знак уважения к первой в этой области работе Фрэнка Розен- блатта. Персептроны вырабатывают решения (определяют, соот- ветствует ли событие данному «образу»), суммируя опытные дан- ные, полученные из множества малых экспериментов. Эта простая и ясная концепция важна, поскольку многие, если не все, более сложные машины для принятия решений действуют в той или иной мере по такому же принципу, и пока мы не разберемся в нем до- сконально, нас могут подстерегать трудности в дальнейшем. В са- мом деле, мы считаем, что во многих областях науки и техники начало существенным достижениям было положено четкими опре- делениями «линейных» систем, и именно такие машины мы вы- двигаем кандидатами для первоначального изучения «параллель- ных» машин вообще В наших рассуждениях будет содержаться и довольно резкая критика пред- шествующих работ в этой области Персептроны широко рекламировались как машины для «распознавания образов» или «обучающиеся машины» и как тако- вые обсуждались в многочисленных книгах, журнальных статьях и объемистых «отчетах» Большая часть этих творений (за немногими исключениями, упомя- нутыми в нашей библиографии) лишена научной ценности, и мы обычно не станем ссылаться поименно на критикуемые нами работы Наука о вычислениях и кибернетика начались — и это, по-видимому, совершенно правомерно — с шум- ной романтической рекламы Они изобиловали волнующими и заманчивыми но- выми идеями, уже принесшими богатые плоды Тяжкие требования строгости и осторожности могли бы сильно затормозить темпы развития, только будущее могло бы показать, какие направления окажутся наилучшими В самом деле, мы считаем, что маститые эксперты, наиболее активно выражавшие недовольство по поводу «неумеренных претензий» энтузиастов кибернетики, оказались в конеч- ном итоге неправыми Но теперь наступило время зрелости, и мы должны про- тивопоставить нашим рискованным начинаниям в равной мере впечатляющие образцы критического подхода
О Введение И 0.4. Параллельное вычисление Простейшее представление о параллельном вычислении дает схема на рис. 0.1. Рисунок показывает, как можно вычислить функцию ф(Х) в два этапа: сначала вычислить функции ф! (X), ф2(Х), .... фп(^) независимо одну от другой, а затем объ- единить результаты при помощи функции й от я переменных и получить значение ф. Чтобы такое определение имело смысл (или, точнее, было эффективным), необходимо наложить некоторые ограничения на Рис. 0.1. функцию Q и множество Ф функций фЬ ф2, ... . Если не ввести ограничений, не получится теории, любое вычисление функции ф можно представить как параллельное, причем самыми разнообраз- ными тривиальными способами. Например, пусть ф будет одна из функций ф, а й просто передает ее результат. Мы рассмотрим целый ряд ограничений, но сначала приведем несколько конкрет- ных примеров вида функций, которые нам бы хотелось принять в качестве ф. 0.5. Некоторые геометрические образы; предикаты Пусть — обычная двумерная евклидова плоскость, X — гео- метрическая фигура, нарисованная на R. Например, X может быть окружностью, или парой окружностей, или черно-белым наброском лица. В общем случае мы будем представлять себе X просто как подмножество точек плоскости R (т. е. подмножество черных точек). Пусть ф(А^)—функция (от фигур X на R), принимающая толь- ко два значения. Обычно их считают равными нулю и единице.
12 0. Введение Если же считать их «ложью» и «истиной», то гр(Х) можно рас- сматривать как предикат, т. е. переменное высказывание, истин- ность или ложность которого зависит от выбора X. Приведем не- сколько примеров предикатов, которые представят впоследствии особый интерес. f 1, если X — окружность; ^окружность W | 0 в противном случае | 1, если X — выпуклая фигура; ^выпуклость W [ о в противном случае. ( I, если X — связная фигура; ^связность | о в противном случае. 1 1 10 0 0 Мы будем также рассматривать и гораздо более простые пре- дикаты1). Самый простой предикат «распознает», принадлежит ’) Мы будем обозначать <р (а не гр) те очень простые предикаты, которые затем будем объединять для получения более сложных. При этом мы не под- разумеваем никаких абсолютных логических различий.
0. Введение 13 ли фигуре X данная единственная точка: допустим, что р — некото- рая точка на плоскости, и положим 1, если р принадлежит X; 0 в противном случае. Наконец, нам понадобится предикат, указывающий, что некоторое множество А является подмножеством множества X: 1, если А<^Х; 0 в противном случае. ФР(Х) = { Фа(Х) = 1 0.6. Простое понятие «локального» Начнем с изучения важного различия между предикатами ^связность и ^выпуклость- Для того чтобы его выявить, опреде- лим, что такое выпуклость. Определение. Множество X не является выпуклым тогда и только тогда, когда существуют такие три точки р, q и г, что q находится на отрезке прямой, соединяющем р и г, и р принадлежит X, q не принадлежит X, г принадлежит X. Итак, можно проверять выпуклость, изучая тройки точек. Если все возможные тройки выдержат такую проверку (т. е. не удов- летворят указанным выше условиям), то множество X выпукло; если хотя бы одна из них не выдержит проверки, то множество X не выпукло. Так как все эти испытания можно проводить незави- симо и окончательное решение задано столь простой логиче- ской процедурой — установлением единообразия результатов всех испытаний, — то мы предлагаем это в качестве первого проекта нашего определения «локального». Определение. Предикат ф называется конъюнктивно ло- кальным k-го порядка, если его можно вычислить, как и в § 0.4,
14 0. Введение при помощи множества Ф таких предикатов <р, что каждый предикат <р зависит не более чем от k точек пло- скости /?; 1 1, если cp(X)=l для каждого предиката <р из Ф; ф(Х) = { I 0 в противном случае. Пример. 'ФВЬ1пуклость является конъюнктивно локальным предикатом третьего порядка. На первый взгляд может показаться, что свойство связности фигуры не очень отличается по характеру от свойства выпукло- сти. Однако мы докажем, что выполняется Теорема 0.6.1. Предикат ФСВЯЗНость не является конъюнк- тивно локальным какого-либо порядка. Доказательство. Предположим, что предикат ^связность имеет порядок k. Тогда для того, чтобы можно было различить две фигуры должен существовать некоторый предикат ср', принимающий на несвязной фигуре Хо значение 0. Все предикаты <р на связной фигуре Xi принимают значение 1. Так как <р' зависит не более чем от k точек, должен найтись по меньшей мере один средний квад- рат, скажем S:, не содержащий ни одной из них. Но тогда на связ- ной фигуре предикат <р' должен принимать то же самое нулевое значение, что и на Хо. Однако этого не может быть, так как все предикаты <р должны на Х2 иметь значение 1. Конечно, если некоторым предикатам <р разрешить просматри- вать все точки плоскости R, то ^связность можно вычислить, что противоречит любому представлению о «локальности» функций <р.
О Введение 15 0.7. Некоторые другие понятия локального Мы уже привели ряд доводов в пользу того, что свойство «конъюнктивной локальности» предикатов имеет геометрический и вычислительный смысл. При более внимательном рассмотрении возникают сомнения, настолько ли это свойство широко, чтобы привести к достаточно плодотворной теории. Читатели, знакомые с топологическими методами, должны за- метить, что понятие «конъюнктивно локального» подобно понятию «локальности» в топологии. Однако, если точно следовать анало- гии, нам нужно было бы ограничиться рассмотрением предикатов <р, зависящих от всех точек, расположенных внутри малых окруж- ностей, а не от фиксированного числа точек. Поэтому мы будем идти двумя параллельными путями. Один из них основан на огра- ничении числа точек, и в этом случае мы будем говорить о преди- катах ограниченного порядка. Второй основан на ограничении рас- стояний между точками, и здесь мы будем говорить о предика- тах, ограниченных по диаметру. Несмотря на аналогию с другими важными ситуациями, понятие локального, опирающееся на ог- раничения диаметра, в нашей теории, по-видимому, менее инте- ресно (хотя можно было бы ожидать совершенно противополож- ного) . Узость требования «конъюнктивности», или «единогласия», вы- зывает более серьезные сомнения. В качестве следующего шага на пути к расширению нашего понятия локального попытаемся в определении конъюнктивной локальности отделить существен- ные черты от остальных. По замыслу определения, вычисление предиката ф разделялось на два этапа. Этап I: Нахождение множества функций <ра, легко вычислимых либо из-за того, что каждая зависит лишь от небольшой части входного про- странства R, либо из-за их простоты в каком-нибудь другом инте- ресном смысле. Этап II: Алгоритм решения Q, который определяет ф, объединяя резуль- таты вычислений, проведенных на этапе I. Для того чтобы это раз- деление на два этапа имело смысл, такая решающая функция также должна быть либо «отчетливо» однородной, либо легко про- граммируемой, либо легко вычислимой. Конкретный путь реализации этого замысла в нашем примере предиката ФВЬ1пуклость был довольно произвольным. На этапе I мы обеспечили легкость вычисления предикатов <ра, потребовав, чтобы каждый зависел только от нескольких точек из R. На
16 О Введение этапе II мы использовали едва ли не самое простое правило, ка- кое только можно себе представить: изображение принимается, если все предикаты <р «.единогласны», и отвергается, если значе- ние хотя бы одного предиката <р не совпадает с остальными. Нам хотелось бы дать совершенно точное определение нашему интуитивному представлению о локальном как противоположности глобального, однако трудность заключается в том, что при попыт- ке его сформулировать постоянно выплывают фразы типа «удоб- ный для вычисления». Чтобы сделать их определенными, нужна какая-то схема сравнения сложности различных вычислительных методов. Пока не найдена такая интуитивно удовлетворяющая нас схема (а схема эта, по всей видимости, не лежит на поверхности), требования обоих этапов будут сохранять эвристический харак- тер, что серьезно затрудняет формальное определение. Перейдем теперь к рассмотрению частного случая этапа II — «взвешенного голосования», или «линейной комбинации» предика- тов этапа I. Это так называемая схема персептрона, и сейчас мы дадим окончательное определение. 0.8. Персептроны Пусть Ф = {<pi, <р2, ..., <ри} — семейство предикатов. Будем гово- рить, что предикат ф линеен относительно Ф, если существуют такие число 0 и набор чисел [аф], аФг, Л.., «<₽„}, что ф (X) = 1 тогда и только тогда, когда аф 1<р1 (X) + ... + аФп<рп (X) > 0. Число 0 называется порогом, а числа а — коэффициентами, или весами (рис. 0.2). Обычно пишут сокращенно: ф(Х)=1 тогда и только тогда, когда S а <р(Х)>0. феф ф Интуиция подсказывает нам следующее: можно считать, что каждый предикат из Ф содержит определенные сведения о том,
О Введение 17 истинен ли предикат гр для какой-либо фигуры X. Если в целом гр(Х) имеет положительную корреляцию с ф(Х), то можно ожи- дать, что вес будет положительным, тогда как при отрицатель- ной корреляции отрицательным будет и аф. Здесь идею корреля- ции следует воспринимать не буквально, а лишь как аналогию, наводящую на размышления. Пример. Любой конъюнктивно локальный предикат можно представить в такой форме, полагая 0 = —1 и аф = —1 для каж- дого <р. Действительно, в этом случае 2(-1)ф(Х)>-1 лишь при условии, что ф(Х)=0 для каждого ф из Ф. (Таким об- разом, для всех ф нужно переставить смысловые значения истина и ложь, но это несущественно.) Пример. Рассмотрим качели, изображенные на рис. 0.3, и до- пустим, что X—расположение булыжников в некоторых из равно- отстоящих точек {р\, .. ., рт}- Здесь Пусть фг(Х)= 1 тогда и только тогда, в i-й точке. Тогда предикат R состоит из семи точек, когда булыжник находится «Доска наклонится вправо» можно выразить формулой 2(1-4)ф1(Х)>0, где 0 = 0 и аг = (t — 4). При применении этого подхода для распознавания образов на евклидовой плоскости возникает множество проблем, связанных с возможностью появления бесконечных сумм и т. п Такие вопросы широко обсуждаются в тексте, а здесь нам хочется только заверить математиков, что эти проблемы будут рассмотрены. Всюду, за исключением тех случаев, когда применение бесконечных сумм оправ- дано по техническим соображениям (а иногда дело обстоит именно так), мы будем сводить задачу к конечной при помощи двух общих методов Один из них состоит в том, что плоскость R считается состоящей из дискретных малых квадратов (а не точек) и изображения, пересекающие одни и те же квадраты, считаются эквивалентными При втором методе рассматривают только ограничен- ные изображения X и выбирают Ф так, чтобы для любого ограниченного изо- бражения X только конечное число предикатов <р были ненулевыми.
18 0. Введение Определение. Персептроном называется устройство, спо- собное вычислять все предикаты, линейные относительно некото- рого заданного множества Ф частных предикатов. Иными словами, множество предикатов <р задано, а «веса» а и порог 0 выбираются свободно. По причинам, которые станут ясны впоследствии, о персептронах вообще можно сказать очень мало. Но налагая определенные условия, можно получить инте- ресные свойства некоторых семейств персептронов. К их числу от- носятся: 1. Персептроны, ограниченные по диаметру. Для каждого предиката ф из Ф диаметр множества точек плоскости, от кото- рых зависит <р, не превосходит некоторой фиксированной ве- личины. 2. Персептроны ограниченного порядка. Мы будем говорить, что персептрон имеет порядок ^п, если каждый элемент из Ф зависит не более, чем от п точек. 3. Персептроны Гамбы. Каждый элемент из Ф может зависеть от всех точек, но должен быть «линейной пороговой функцией» (т. е. сам должен вычисляться персептроном первого порядка, оп- ределенным в предыдущем пункте). 4. Случайные персептроны. Именно эта модель наиболее под- робно изучалась группой Розенблатта; предикаты ф представляют собой случайно выбранные булевы функции. Иначе говоря, слу- чайные персептроны являются персептронами ограниченного по- рядка, а множество Ф порождается случайным процессом с опре- деленной функцией распределения. 5. Ограниченные персептроны. Множество Ф предикатов ф бес- конечно, а множество значений, принимаемых коэффициентами аФ, конечно. Чтобы дать предварительное представление о том, какого рода результаты мы собираемся получать, приведем простой пример теоремы о персептронах, ограниченных по диаметру. Теорема 0.8. Никакой персептрон, ограниченный по диа- метру, не в состоянии определить, связаны ли друг с другом все части какой-либо геометрической фигуры) Иными словами, ника- кой такой персептрон не позволяет вычислить предикат ФСВяЗНОСТЬ. Для доказательства рассмотрим четыре фигуры A’oi A'iq
0. Введение 19 и такой персептрон 4), ограниченный по диаметру, что его носи- тели1) имеют диаметры, как у изображенных ниже окружностей: Ясно, что сначала задается рассматриваемый диаметр, а уже потом выбираются фигуры X{j так, чтобы их длина равнялась нескольким диаметрам. Допустим, что такой персептрон отличает несвязные фигуры (типа Хоо и Хп) от связных (типа XOi и Хю) в соответствии с тем, выполняется ли условие 2афф>0, т. е. Г 2 а<рф(Х)+ 2 афф(Х) + 2 афф(Х)-е1>0 Lrpynna 1 группа 2 группа 3 J (здесь мы сгруппировали предикаты ф по расположению их носи- телей: у левого края, у правого края, не на краях фигуры). Тогда для Хоо общая сумма должна быть отрицательной. При переходе от Хоо к Хю меняется только сумма 2 , причем ее величина группа 1 должна возрасти настолько, чтобы общая сумма стала положи- тельной. При переходе от Хоо к Xoi возрастает сумма 2 • Но группа 2 если мы перейдем от Хоо к Хп, это приведет к такому же по ве- личине возрастанию обеих сумм 2 и 2 , поскольку группа 1 группа 2 предикаты обеих групп отметят (локально!) те же самые измене- ния; сумма же 2 во всех случаях остается постоянной. группа 3 Следовательно, общее приращение суммы при переходе Хоо—»ХИ будет не только положительным, но даже большим по величине, чем прежде. Отсюда следует, что персептрон, принимающий ') Множества точек, от которых зависят предикаты <р. — Прим. ред.
20 0. Введение правильные решения относительно Хоо, Х0\ и Хю, будет вынужден признать Хи связной фигурой, а это не так! Поэтому искомый персептрон существовать не может. Читатели, уже знакомые с персептронами, вероятно, отметят, что приведен- ное доказательство (устанавливающее, что персептроны, ограниченные по диа- метру, не могут распознавать связность) не использует ни теорию «обучения», ни теорию вероятностей (ни даже геометрию гиперплоскостей в n-мерном про- странстве). Оно полностью определяется геометрией образов и алгеброй взве- шенных предикатов. Читатели, занимающиеся физиологией, несомненно, заметят, что, поскольку все известные сейчас функции рецепторных клеток ограничены по диаметру, от живого существа требуется нечто большее, чем нейросинаптиче- ское «суммирование» эффектов, чтобы заставить эти клетки вычислять связ- ность. В самом деле, столь сложное зрительное восприятие может быть лишь у наиболее высокоорганизованных животных. В гл. 5 мы покажем, что эта тео- рема распространяется также и на персептроны ограниченного порядка. 0.9. Привлекательные стороны персептронов Наиболее отчетливое представление о персептроне как об уст- ройстве для распознавания образов состоит в следующем. Машина строится на основе фиксированного набора элементов, которые вы- числяют частные функции <р, получаемые обычно при помощи случайного про- цесса. Чтобы заставить ее распознавать определенный образ (множество входных фигур), нужно просто придать подходящее значение коэффициентам а(р. Тем самым «программирование» производится удобным единообразным способом. Более того, поскольку «программы» можно задать в виде точек (аь а2, ..., а„) в л-мерном пространстве, им присуща метрика, позволяющая легко представить себе некоторого рода автоматическое программирование, которое люди уже склонны называть обучением-, к управлению параметрами подключаются устрой- ства обратной связи, и машину «программируют», представляя в ее распоряже- ние последовательность входных образов и «сигнал ошибки», вызывающий из- менение коэффициентов в нужном направлении, когда машина принимает не- верное решение. Теоремы о сходимости персептрона (см. гл. 11) определяют условия, при которых такая процедура в конечном итоге наверняка приводит к правильному набору значений коэффициентов. 0.9.1. Единообразное программирование и обучение. Чтобы от- делить действительное от желаемого, начнем с анализа некоторых наблюдений. Пусть Ф — множество частных предикатов, а Д(Ф)— множество предикатов, линейных относительно Ф. Таким образом, Л(ф) — репертуар персептрона, или множество предикатов, кото- рые он может вычислить, когда коэффициенты а? и порог 0 пробе- гают всевозможные значения. В принципе Д(ф) могло бы быть множеством всех предикатов, но это практически неосуществимо, так как тогда Ф должно было бы быть астрономически велико. Поэтому у любого физически реализуемого персептрона репертуар ограничен. Простота и единообразие программирования оплачены дорогой ценой! Мы утверждаем, что при традиционных исследова- ниях персептронов эта цена определяется нереалистично. В част- ности, не уделяется внимания следующим решающим моментам: 1. Идея представлять классы геометрических объектов (или программы, которые определяют или распознают их) в виде клас-
0. Введение 21 сов re-мерных векторов (ai, .. ., ап) упускает из виду геометриче- скую индивидуальность образов и приводит только к такой теории, возможности которой лишь немногим перекрывают простой под- счет числа предикатов в £(Ф)! Подобные представления стали традиционными у тех, кто рассуждает о распознавании образов в направлениях, подсказанных классическими статистическими тео- риями. В результате, кажется, мало кто замечал или подозревал, что могли бы встретиться отдельные осмысленные и интуитивно простые предикаты, не принадлежащие ни одному из практически реализуемых множеств £(Ф). Мы предложим анализ предиката Фсвязность’ чтобы пока3ать, сколь глубокой может оказаться эта проблема. В то же время мы хотим продемонстрировать, как не- которые предикаты, которые могли бы интуитивно показаться трудными для такого рода устройств, на самом деле могут рас- познаваться персептронами низкого порядка: уже предикат ^выпуклость демонстрирует такую возможность. 2. Мало внимания уделялось величине, или, точнее, информа- ционному содержанию параметров аь . .., а„. Мы дадим примеры (на наш взгляд, скорее типичные, чем исключительные), в которых отношение наибольшего коэффициента к наименьшему бессмыс- ленно велико. В таких условиях то обстоятельство, что предикаты принадлежат £(Ф), теряет свое практическое значение. В ряде случаев информационная емкость, требуемая для запоминания ai, ..., ал превышает даже емкость, необходимую, чтобы запом- нить весь класс фигур, определенный как один образ! 3. С предыдущим пунктом тесно связана проблема времени сходимости процесса «обучения». Практические персептроны, по сути дела, являются устройствами с конечным числом состояний (как показано в гл. 11). Поэтому не имеет смысла ссылаться на «теорему о сходимости персептрона» как на гарантию того, что процесс обучения в конечном счете найдет правильный набор зна- чений параметров персептрона (если таковой существует), так как этого можно было бы достичь тривиальным полным перебором всех его состояний, т. е. испытывая все возможные наборы коэф- фициентов. Важно знать, насколько быстрее обучается персептрон по сравнению с тем временем, которое занимает абсолютно слу- чайная процедура, или процедура полного перебора. Мы покажем, что в некоторых ситуациях, представляющих определенный гео- метрический интерес, время сходимости растет даже быстрее, чем показательная функция от размера множества R. Теоретики персептрона не одиноки в своем непонимании этих предостережений. Внимательно прочитав любой типичный сбор- ник статей по «самоорганизующимся» системам, мы обычно обо- гащаемся превосходными примерами дискуссий по поводу «обу- чающихся», или «адаптивных», машин. Этим дискуссиям недостает
22 0. Введение даже той степени строгости и формальной определенности, кото- рую можно найти в литературе о персептронах. Сторонники по- добных схем редко проводят какой бы то ни было анализ диапа- зона способов поведения, которым может научиться машина, и не отдают себе отчета в том, какой ценой обычно достигается лег- кость некоторых методов обучения: они непреднамеренно ограни- чивают диапазон возможных способов поведения устройства, вводя неявные допущения относительно среды, в которой оно должно работать. Эти критические замечания не следует воспринимать как на- меки на то, что мы противимся созданию машин, могущих «обу- чаться». Совсем наоборот! Но мы абсолютно убеждены, что зна- чительное обучение со значительной скоростью предполагает ка- кую-то значительную предварительную организацию. Простые обучающиеся схемы, основанные на регулировании коэффициен- тов, могут действительно оказаться целесообразными и полезными, когда частные функции в достаточной мере соответствуют постав- ленной задаче, как, например, в случае с машиной для игр в шаш- ки, предложенной Сэмюэлем. Персептрон, у которого предикаты Ф должным образом приспособлены для различения и обладают достаточно низким порядком, имеет неплохие шансы адаптивным путем улучшить свои рабочие характеристики. Наша цель — объ- яснить, почему достижение достаточно хорошего результата мало- вероятно, если предикат высокого порядка предлагается реализо- вать квазиуниверсальному персептрону, при выборе частных функ- ций которого не имелась в виду какая-либо конкретная задача. Этому тезису можно противопоставить в качестве контрпримера тот довод, что люди являются универсальными обучающимися машинами. Но наш мозг устроен в достаточной степени сложно, чтобы программироваться в намного бо- лее общем смысле, чем персептрон, а наша культура достаточно многогранна, чтобы заготовить если не действительную программу, то по крайней мере до- вольно сложную систему взаимодействий, управляющих процессом самопрограм- мирования, каким бы ни был его характер. Кроме того, нам требуется опреде- ленное время, чтобы стать универсальными учениками: ряд переходов от мла- денчества к интеллектуальной зрелости служит до некоторой степени подтверждением тезиса о том, что скорость приобретения новой познавательной структуры (т. е. скорость обучения) очень сильно зависит от уровня существую- щей познавательной структуры. 0.9.2. Параллельное вычисление. Персептрон понимался как па- раллельно действующее устройство в том физическом смысле, что частные предикаты вычисляются одновременно. (С формальной точки зрения важно, что они вычисляются независимо один от дру- гого.) Это оплачивается тем, что необходимо вычислять все ф,, хотя лишь небольшая их часть может фактически иметь отноше- ние к каждому конкретному окончательному решению. Общее ко- личество вычислений может намного превысить то количество, которое должно быть проведено при хорошо организованном по-
0. Введение 23 следовательном процессе (использующем те же самые ср), когда решение о том, что вычислять далее, выносится на основе резуль- тата предыдущего вычисления. Поэтому в каждом конкретном случае выбор между параллельным и последовательным методами должен основываться на сопоставлении выигрыша от сокращения (общего затраченного) времени с затратами на вводимые доба- вочные вычисления. Даже предикаты низкого порядка могут потребовать большого количества ненужных вычислений, без которых можно было бы обойтись при последова- тельном процессе. Соответствующий объем необходимого оборудования может иной раз остаться в пределах физической осуществимости, в особенности если допустима невысокая точность вычислений. Совершенно иное положение в слу- чае персептронов высокого порядка. Поучительным примером служит предикат '(’СВЯЗНОСТЬ' Как показано в гл. 5, для вычисления этого предиката на тороидаль- ной сетчатке размером 100 X 100 любому персептрону требуются частные функ- ции, каждая из которых просматривает многие сотни точек! При этом понятие «локальной» функции становится почти неуместным: частные функции сами ока- зываются глобальными. Кроме того, фантастическое количество возможных част- ных функций с такими большими носителями гасит любую надежду на то, что полученное путем случайного выбора умеренно большое множество таких функ- ций окажется достаточно плотным, чтобы охватить соответствующее простран- ство функций. Чтобы уточнить эту мысль, покажем, что для определенных пре- дикатов и классов частных функций количество частных функций, которое нужно использовать (не говоря уже об аппаратуре, реализующей их коэффициенты), непременно превысит границы физической осуществимости. Вывод, который необходимо сделать, состоит в том, что кон- кретную схему параллельного вычисления нельзя разумно оценить, если нет способа определить, в какой мере решаемая задача раз- лагается на локальные и глобальные компоненты. Отсутствие общей теории, указывающей, что считать глобальным и что — локальным, не может служить оправданием тому, чтобы укло- няться от решения этой задачи в конкретных случаях. В этой кни- ге мы покажем, что для ограниченного, но важного класса задач разработка такой теории не представляет непреодолимых трудно- стей. 0.9.3. Применение простых аналоговых устройств. Персептрон привлекает к себе внимание многих исследователей отчасти по- тому, что для вычисления линейных пороговых функций можно применить очень простые физические устройства — «аналоговые вычислительные машины». Принято считать, что полезность этой схемы ограничена тем, что среди всех логических функций ли- нейные пороговые функции встречаются редко. Однако не уделя- лось почти никакого внимания тому, что множество практически осуществимых линейных функций может оказаться еще уже. Чтобы пояснить указанную проблему, мы вычислим (в гл. 10) величины и пределы изменения коэффициентов линейных пред- ставлений отдельных предикатов. Мы покажем, что некоторые
24 0. Введение отношения коэффициентов могут расти быстрее, чем показательная функция числа точек, различаемых в R. Из этого следует, что для «больших» входных множеств (скажем, для множеств R, содер- жащих более 20 точек) нельзя создать простое аналоговое запо- минающее устройство с информационной емкостью, достаточной для хранения всего набора коэффициентов! Чтобы избежать неверного толкования, нам, быть может, сле- довало бы повторить те оговорки, которые мы сделали, критикуя персептрон как модель «обучающихся устройств». Мы ни в коей мере не сомневаемся в том, что аналоговые устройства такого рода играют свою роль в распознавании образов. Но мы не ви- дим, какую пользу можно было бы извлечь из экспериментов, не учитывающих те ограничивающие факторы, которые вступают в свои права, как только масштабы малой модели возрастают до практических размеров. 0.9.4. Модели работы мозга и гештальтпсихология. Популяр- ность персептрона как модели разумной универсальной обучаю- щейся машины объясняется, по-видимому, существованием рас- пространенного представления о том, что мозг является довольно слабо организованной системой сравнительно простых устройств, связанных случайным образом. Это представление, в свою оче- редь, частично основано на наших первоначальных впечатлениях от тех запутанных структур, которые наблюдаются при микроско- пическом исследовании анатомии мозга (и, вероятно, также на наших все еще хаотических представлениях о психологических механизмах). Так или иначе, мы представляем себе систему сравнительно простых элементов, соединенных друг с другом случайным спосо- бом, в которой может регулироваться степень легкости прохожде- ния сигналов через соединения. Когда машина в чем-либо ведет себя плохо, мы стремимся «обучить» ее не поступать так опять, ослабляя соединения, участвовавшие в данном действии; вероятно, для поощрения нравящегося нам поведения мы станем делать обратное. Машина типа «персептрон» — это один из особенно простых вариантов описанного выше более широкого класса систем; неко- торые другие варианты уже также изучались экспериментально. Мистический туман, окутывающий такого рода машины, частич- но держится на том, что при обучении подобной машины запоми- наемая информация не локализуется в каком-то определенном месте, а, напротив, «распределяется по всей схеме машины». В первой половине двадцатого века эксперименты, не подтвер- дившие представлений девятнадцатого века о размещении памяти (или большинства других «способностей» человека) в сугубо ло- кальных областях мозга, вызвали глубокое разочарование. Как
0. Введение 25 бы точно ни интерпретировать эти отнюдь не решающие экспери- менты, они, вне всякого сомнения, привели к поиску концепций, основанных на нелокальных функциях, реализуемых машинами. Этот поиск не увенчался заметными успехами. Были выдвинуты несколько схем, основанных на крупномасштабных полях, или на «интерференционных картинах» в глобальных волновых колеба- ниях, но они не привели к правдоподобным теориям. (Ближе к концу этой эпохи Хебб [1949] выдвинул более сложное и значи- тельно менее глобальное понятие «клеточного ансамбля». Это понятие оказалось более плодотворным для теоретических построе- ний. Хотя оно и не привело к какой-либо окончательной модели, его популярность с каждым днем возрастает.) Здесь, однако, мы стремимся не столько оценить эти теории, сколько обрисовать тот интеллектуальный фон, на котором была воздвигнута идея пер- септрона. На этом фоне схемы Розенблатта [1958] быстро укоре- нились, и в скором времени буквально сотни групп, больших и ма- лых, стали проводить опыты с этой моделью под видом либо «обучающейся машины», либо «адаптивной», т. е. «самоорганизую- щейся» системы, либо системы «автоматического управления». Результаты этих сотен проектов и опытов, как правило, разоча- ровывали, а объяснения не убеждали. Машины обычно хорошо вели себя на очень простых задачах, но весьма быстро сдавали позиции, как только порученные им задания становились слож- нее. При увеличении размеров и времени работы системы положе- ние обычно почти не менялось к лучшему. Возникло подозрение, что даже тогда, когда обнаруживался некоторый успех, это до- стигалось за счет сравнительно небольшой части схемы, а не бла- годаря действительно глобальной деятельности системы в целом. Обоих авторов этой книги (сначала независимо друг от друга, а затем вместе) влекло в некотором смысле «врачебное» стремле- ние: рассеять опасные призраки «холистских» (holistic), или «гештальтных» ложных представлений, угрожавших объявиться в области техники и искусственного интеллекта, как прежде в био- логии и психологии. Поэтому и по многим другим, более практи- ческим причинам, а также в теоретических целях мы стремились выяснить что-либо относительно возможностей персептронов и их ограничений. И только впоследствии, когда теория была разработана, мы поняли, что знать подобные машины важно независимо от того, получит ли система практическое применение в конкретных ситуа- циях! Дело в том, что аналогичные задачи стали камнем прет- кновения на пути развития самой науки о вычислительных ма- шинах. Как уже отмечалось, мы недостаточно хорошо знаем, за счет чего некоторые алгоритмические процедуры становятся «по суще- ству» последовательными и насколько (или, скорее, какой ценой)
26 О Введение можно ускорить вычисления при помощи многочисленных перекры- вающихся вычислений с использованием более крупных и более действенных запоминающих устройств. 0.10. Общий план книги Теория персептронов естественным образом делится на три ча- сти. В части I изучаются весьма общие свойства семейств линей- ных предикатов. Теоремы в этой части относятся ко всем персеп- тронам, независимо от вида рассматриваемых образов, так что здесь представлена скорее алгебраическая, чем геометрическая теория персептронов. В части II мы более внимательно рассматри- ваем интересные геометрические образы и получаем более четкие, но, естественно, менее общие теоремы о геометрических возможно- стях наших машин. В части III исследуется целый ряд вопросов, сконцентрированных вокруг потенциальных способностей персеп- тронов как практических устройств для распознавания образов и обучения. В последней главе прослеживаются некоторые истори- ческие пути развития этих идей и предлагаются вероятные напра- вления дальнейших исследований.
I. АЛГЕБРАИЧЕСКАЯ ТЕОРИЯ ЛИНЕЙНЫХ ПАРАЛЛЕЛЬНЫХ ПРЕДИКАТОВ Предисловие к части I В части I (гл. 1—4) содержится ряд чисто алгебраических оп- ределений и общих теорем, которые впоследствии используются в части II. Прочитать этот материал будет значительно легче, если уже предварительно составить себе представление о роли, кото- рую призван сыграть этот математический аппарат. С этой целью мы обрисуем в общих чертах, как будет доказана (в гл. 3) сле- дующая теорема: Теорема 3.1 (гл. 3), неформальный вариант. Пусть сетчатка R содержит конечное число точек. Тогда персептрон 2 «фф(-^)> 9 не может определить истинность или ложность пре- диката «число точек в X нечетно», если среди его частных преди- катов ср не найдется ни одного, зависящего от всех точек сет- чатки R. Поэтому невозможно наложить никаких ограничений на по- рядки персептронов, вычисляющих этот предикат для произвольно больших сетчаток. Чтобы его вычислить, в персептроне должен быть хотя бы один предикат ф, осматривающий всю картину в це- лом! Доказательство теоремы проводится в несколько этапов. 1-й этап. В § 1.1 —1.4 бол ее .точно определяются понятия «пер- септрон», «порядок» и др. и показывается, что некоторые слова в определениях можно изменить без каких-либо серьезных по- следствий. 2-й этап. В § 1.4 определяются исключительно простые функ- ции ф, называемые «масками». Для каждого подмножества А сет- чатки R маска ч>а(Х) полагается равной 1, если X содержит, или «покрывает», все подмножество А, и равной 0 в противном случае. Затем доказывается простая, но важная теорема (§ 1.5) о том, что если для любого множества функций ср порядок некоторого преди- ката не превышает k (см. § 1.3), то существует эквивалентный этому предикату персептрон, который использует только маски размера не выше k (см. § 0.2). 3-й этап. Чтобы глубже понять свойство четности — нечетности, мы задаемся вопросом: какие преобразования входного простран-
28 I. Алгебраическая теория линейных параллельных предикатов ства R не влияют на это свойство? Другими словами, нас интере- сует группа преобразований фигуры, не меняющая четность. Подобный подход к задаче может показаться экзотическим, но по- скольку он, по-видимому, необходим для решения более трудных задач, которыми мы займемся позже, полезно с самого начала привыкнуть к нему в этой простой ситуации. В данном случае группой преобразований служит группа всех перестановок на сет- чатке R — множество всех перегруппировок ее точек. 4-й этап. В гл. 2 мы покажем, как использовать эту группу, чтобы упростить персептрон. С помощью теоремы об инва- риантности относительно групп (§ 2.3) мы придем к выводу, что в персептроне, определяющем четность, всем мас- кам, у которых носители одинаковы по размеру (т. е. тем, кото- рые просматривают одно и то же число точек), можно присвоить одинаковые коэффициенты. Обозначим через вес, приписанный всем маскам, у которых размер носителя равен /. Инвариантные отногительно группы коэффициенты предиката Фцнтность при | /? J = 3. 5-й этап. Затем мы докажем (в § 3.1), что персептрон, опреде- ляющий четность, можно записать в виде k о
П редисловие к части I 29 где 1^1—число точек множества X, k — наибольший размер носи- /|Х|\ V • теля, J — число подмножеств множества Л, состоящих из / элементов ). 6-й этап. Так как т. е. J можно представить в виде произведения / линейных чле- нов, то это — многочлен от п степени /. Поэтому наш предикат можно записать в виде Pk(\x\y>o, где Ph—многочлен от |Л'|, алгебраическая степень которого не превышает k. Если |Х|—нечетное число, то Р/Д |J|) > О, а если |j| — четное число, то Pk (|) -СО. Следовательно, на отрезке О <|X | Д|Р | многочлен Pk должен менять свой знак |/?|—1 раз. Но для этого степень многочлена должна быть не меньше |Р|, откуда следует, что Доказательство на этом заканчи- вается (в точности, как в § 3.1). Приведенные рассуждения иллюстрируют, как в нашей теории действует алгебра. Для наиболее трудных теорем о связности из гл. 5 нам потребуется что-то еще, кроме алгебры и теории групп. В гл. 4 мы развиваем понятия геометрии алгебраических степеней, чтобы показать, что для реализации некоторых удивительно про- стых предикатов требуются персептроны неограниченного порядка Но на самом деле результаты гл. 4 в дальнейшем не используются, и эту главу при первом чтении можно опустить. За более простыми, но также характерными результатами чи татель может обратиться непосредственно к гл. 8, которая почти самостоятельна, так как не нуждается в алгебраической теории. *) Эта величина зависит от X и играет роль функции <р,(Х). — Прим, перев
ГЛАВА 1. ТЕОРИЯ ЛИНЕЙНЫХ БУЛЕВЫХ НЕРАВЕНСТВ 1.0 В этой главе изучается теория линейного представления пре- дикатов. Мы обсудим свойства функций, определенных на абст- рактном множестве точек, не обладающем никакой дополнитель- ной математической структурой. Таким образом, эту главу можно рассматривать как развитие обычной булевой алгебры. Доказан- ные здесь теоремы мы применим потом к множествам, обладаю- щим определенными геометрическими или топологическими свой- ствами, например к евклидовой плоскости. Итак, мы начнем с об- суждения множеств вообще, а потом рассмотрим хорошо знако- мые объекты, такие, как «треугольники». Начнем с предикатов, определенных для фиксированного базисного про- странства R. В § 1.1—1.5 мы будем предполагать, что У? уже выбрано. В даль- нейшем мы займемся «предикатами», определенными более широко: они либо вовсе не будут зависеть от выбора базисного пространства, либо не будут зави- сеть от выбора пространства из некоторого большого семейства пространств. Например, предикат Множество X не пусто может относиться к любому пространству У?. Предикат Множество X связно имеет смысл, когда речь идет о множестве в пространстве, в котором существует понятие близости точек. Для такого более общего понятия «предиката» мы вве- дем в § 1.6 термин «предикатная схема». Главная наша цель состоит в том, чтобы дать общее определение порядка предиката (§ 1.5) и определение конеч- ного порядка предикатной схемы (§ 1.6). В последних главах мы будем сво- бодно использовать термин «предикат», подразумевая под этим также и преди- катные схемы, а в § 1.7 попытаемся сделать эти определения более точными и формальными. Однако советуем читателям не беспокоиться об этом до тех пор, пока главные результаты не станут интуитивно понятными. 1.1. Обозначения и определения Буква R будет обозначать произвольное множество точек. Для обозначения отдельных точек множества R мы будем обычно ис- пользовать строчные буквы а, Ь, с, . .. , ,х, у, г, а для обозначения подмножества множества R — прописные А, В, С, ..., X, Y, Z. Переменные точки и подмножества будем обозначать через X и X.
Гл. 1. Теория линейных булевых неравенств 31 Часто мы будем интересоваться особыми «семействами» под- множеств и обозначать их словами, записанными прописными бук- вами, меньшими по высоте, чем основной шрифт. Таким образом, окружность означает совокупность подмножеств множества R, об- разующих замкнутые окружности (как в § 0.5)., Абстрактное семей- ство подмножеств мы будем обозначать буквой F. Естественно связывать с любым семейством множеств F пре- дикат фр (А), принимающий значение истина тогда и только то- гда, когда X принадлежит семейству F. Например, предикат ^выпуклость принимает значение истина или ложь в зависимости от того, выпукло ли множество X. Разумеется, предикаты ^окружность и ^выпуклость имеют смысл только для неабстракт- ных множеств R, в которых можно ввести эти геометрические по- нятия. Греческими буквами ср и ф всегда будут обозначаться пре- дикаты. Буква ф обычно будет обозначать наиболее важный пре- дикат, а через ср будут обозначаться предикаты из большого семейства легко вычисляемых функций; это семейство будет обо- значаться буквой Ф. Предикат — это функция (подмножеств множества /?), прини- мающая лишь два значения. Иногда этими двумя значениями будут истина и ложь, иногда полезно считать их равными 1 и 0. Так как существует некоторая опасность спутать эти два вида значений предикатов, то во избежание разнотолков вводится обо- значение Гф(^)1. Уголки всегда означают, что употребляются зна- чения 1 и 0. Это дает возможность использовать значения преди- катов как обыкновенные числа, а в нашей теории это важно, поскольку мы должны объединять полученные от предикатов дан- ные (о чем уже говорилось в гл. 0). Внутри уголков может стоять любое математическое утверждение. Зная, например, что 3 мень- ше 5, а 1 меньше 2, мы можем написать [3<5] = 1, [3<51 + [1 <21 = 2, [3<5] + [5<3]= 1 и даже [3<[5= 1Ц = 0, 4 • [3 < 5] + 2 • [6 < 2] = 4. Иногда удобно считать, что точки множества R занумерованы в последовательность xit х2, ..., xit ... . В таком случае многие предикаты можно выразить в терминах традиционных представле- ний булевой алгебры. Например, два выражения V xh \Х(<^Х или xj^X]
32 1. Алгебраическая теория линейных параллельных предикатов равнозначны, а именно они равны единице, если хотя бы одна из точек Xi и Xj принадлежит X, и равны нулю, если ни х{, ни х} не принадлежат X. Иными словами, выделение подмножества X из множества R состоит в присвоении значений 1 и 0 точкам xt в зависимости от того, принадлежит ли i-я точка множеству X, так что Xi употребляется в двух смыслах: и для обозначения ьй точки, и для обозначения функции множества (’Xj-eA’l. Это можно использовать для записи предикатов в арифметической форме вме- сто логической, т. е. писать [х, + х2 + х3 > 0] вместо х, V х2 V xt или даже {2xjX2 — х, — х2 > — 1] вместо х1 = х2, где x'i = X2 — предикат, принимающий значение истина, когда либо обе точки х, и х2 принадлежат X, либо ни одна из них не принадлежит X. Нам понадобится в дальнейшем уметь выражать представление о том, что функция ф может зависеть только от какого-то опреде- ленного подмножества множества R. Обозначим такое подмноже- ство через 5(ф). Формально 5(ф) —это такое наименьшее подмно- жество S множества R, что для каждого подмножества X множе- ства R ф(Х) = ф(Ш), где X П S — пересечение множеств X и S, т. е. множество точек, принадлежащих и X, и S. Назовем 5(ф) носителем предиката <р. Если пространство R бесконечно, то для некоторых интересных предикатов S (ср) определить нельзя. Рассмотрим, например, предикат <р(Х) = содержит бесконечное множество точек Истинность предиката ср(Х) можно было бы установить просмотром точек множества X, лежащих в любом множестве S, которое содержит все, кроме ко- нечного числа точек множества R. Но «наименьшего» такого множества не су- ществует! 1.2. Функции, линейные относительно класса предикатов Пусть Ф — семейство предикатов, определенных на множестве R. Мы говорим, что ф — линейная пороговая функция относительно Ф, если существуют число 9 и множество чисел а(ф), по одному на каждый предикат <р из Ф, для которых Ф(Х) = Г S а(ф) <₽(*)> 01. I ф еФ I Иными словами, значением ф(Х) будет истина, когда выпол- няется неравенство внутри уголков Г1- Часто записывают это ме-
Гл. 1. Теория линейных булевых неравенств 33 нее формально в виде или даже в виде ф = [2а(<р)<р>е] ф = [2а,,Ф>е]. Ради симметрии в класс линейных пороговых функций вместе с предикатом ф включим его отрицание ф(Х) = [2а(ф)ф<0]. Множество всех предикатов, которое при заданном Ф можно опре- делить таким способом (т. е. выбором различных значений по- рога 9 и чисел а), обозначим через А(Ф). Для двухточечного прост- ранства R = {х, у] класс функций L ({х, у}), линейных относительно одноточечных предикатов, включает 14 из 16 = 222 возможных буле- вых функций. Для большо- го числа точек доля функ- ций, линейных относительно одноточечных предикатов, очень быстро снижается до 1.2.1. Другие возможные определения множества Ь(Ф). Так как определение множества А(Ф) слишком общо для последующего изложения, его стоит пересмотреть и выяснить, что в этом опре- делении существенно и что произвольно. Мы предлагаем несколь- ко возможных изменений определения, не затрагивающих в зна- чительной степени его характер. Действительно, для конечного пространства R (наиболее важный случай) все предлагаемые альтернативы приводят к строго эквивалентным определениям.
34 I. Алгебраическая теория линейных параллельных предикатов В случае бесконечных пространств R некоторые определения при- водят к различным смысловым значениям для Л(Ф), но не в та- кой мере, чтобы сколько-нибудь повлиять на наши последующие рассуждения. Предложение. Следующие изменения в формальном опре- делении С(Ф) не затрагивают определяемые классы предикатов-. (1) Если допустить, что Ф содержит постоянную функцию I(X) = 1, то 9 можно принять равным нулю. (2) Знак неравенства > можно заменить на <, или (3) Если R конечно, то порог 9 и все числа а(<р) можно вы- брать целыми. (4) Утверждения 1—3 можно применять независимо друг от друга. Очевидно, что это предложение справедливо. Доказательство мы приведем главным образом для того, чтобы помочь читателям, желающим потренироваться в использовании наших обозначений. Доказательство. (1) Положим а'(/) = а(/)— 9 и а'(ф) = = а(<р) для остальных ф. Тогда а (ф) ф (X) > 9] = [2 а' (ф) ф (X) > 0]. (2) Пусть а'(ф) = —а(ф) и 9' = —9. Тогда а (ф) ф (X) < 9] = [ 2 (ф) ф (X) > 0'1- Утверждения об остальных заменах знака неравенства получатся, если заменить все предикаты их отрицаниями. (3) Если R конечно, то и Ф конечно, и можно допустить, что не существует множества X, для которого 2а(ф)ф(Х) = 9. В самом деле, если такое множество X существует, то положе- ние можно исправить, заменив 9 на 9 + 6, где б меньше, чем наи- меньшее ненулевое значение величины | (ф) Ф (X) — 9 I- Предпо- ложим сначала, что все а(ф)— рациональные числа. Обозначим че- рез D произведение всех их знаменателей и положим а' (ф) = Da (ф), 9х = DQ. Тогда все числа а'(ф) целые, и ясно, что [2 а (ф) Ф (X) > 9] = [S а' (ф) ф (X) > 9'] для всякого X. Предположим теперь, что среди чисел множества {а(ф)} есть иррациональные. Заменим каждое а(ф) некоторым ра-
Гл. 1. Теория линейных булевых неравенств 35 циональным числом а'(ф) из интервала а (ф) < а' (ф) < а (ф) + -Ду , где величина 6 определена выше. Эта замена не может изменить сумму S а (ф) ф (X) больше чем на 6, поэтому она не может по- влиять на значение а (ф) ф (X) > б], ибо существует самое боль- „,1Я| шее 2 различных предикатов ф. 1.3. Понятие порядка Предикаты, носители которых невелики, чересчур локальны, а потому и не очень интересны сами по себе. Нас главным образом занимают предикаты, носителями которых служит все простран- ство R, но которые можно представить в виде линейных пороговых комбинаций предикатов с малыми носителями. Простой пример: гр (X) — [X — непустое множество]. Ясно, что 5(гр) = R. С другой стороны, если в качестве Ф взять множество предикатов вида фр(Х)~ \р е X], то |5(фр) | = 1 для всех ф из Ф и гр(Х) = [2фр(Х)>о]. Эти два утверждения позволяют сказать, что порядок предика- та гр равен 1. В общем случае порядок предиката гр есть наимень- шее число k, для которого можно найти множество Ф предикатов, удовлетворяющих условиям: | S (ф) | k для всех ф из Ф, греТ (ф). Следует отметить, что порядок предиката гр является свойством самого предиката гр и не имеет отношения к какому-либо конкрет- ному множеству Ф. Именно это делает его важным «абсолютным» понятием. Те, кто знаком с соответствующей литературой, легко опознают в предикатах порядка 1 так называемые «линейные по- роговые функции». 1.4. Маски и другие примеры линейного представления Особую роль будут играть предикаты вида фл(Х) — [все элементы множества А принадлежат Х] = [Лс:Х]. В общепринятых обозначениях булевой алгебры эти преди- каты оказываются конъюнкциями: если А = {«ц, ..., у„}, то фА(Х) = у\ А У2 А ... А уп, или, как обычно пишут, Фа(Х) = = У\У2 Уп-
36 I. Алгебраическая теория линейных параллельных предикатов Назовем <рА маской множества А. В частности, постоянный пре- дикат /(X) служит маской пустого множества, а предикаты <рр предыдущего параграфа — масками одноточечных множеств. Предложение. Все маски имеют порядок 1. Доказательство. Пусть А — любое конечное множество, состоящее из | А | точек. Для каждой точки х е А определим <рж(Х) как предикат Гх е АД Тогда Фд(Х) = Г 2 Фх(Х)>1 All. I хе А ! Пример 1. Среди 16 булевых функций двух переменных поря- док 1 имеют все, кроме функции неравнозначности х ф у и ее до- полнения — функции логической эквивалентности х = у, порядок которых равен 2: х®У = \ХУ + ху> 0], № у = \ху + ху > 0], где, например, ху— предикат с носителем, состоящим из двух то- чек, и его значейием будет истина только тогда, когда х принад- лежит X, а у нет. х ф у е L ({х, у, ху}) (стереоскопическая пара) Можно считать, что линейное неравенство определяет поверхность, разделяющую точки пространства на два класса, и тем самым задает предикат. Мы рекомендуем воздержаться от подобного представления до части III. (Задача: докажите, что порядок функции х ф у не равен 1!) Вот еще примеры из булевой алгебры: хтэу = \х V У\ — \у~х> - Ц, ~х = [-х> - 1].
Гл. 1. Теория линейных булевых неравенств 37 Порядок любой маски равен 1: х Л у Л z = [х + у + z> 2], то же справедливо и для любой дизъюнкции: х\/ у\/ z = ]x + у + г> 0]. Пример 2. Функцию х1 == х2 можно представить в виде ли- нейной комбинации масок: xYx2 V х,х2 = + (1 - xj (1 - х2) > 0] = = 12x^2 — %! — Х2 > — 1 ]. Доказательство того, что порядок неравнозначности и логической эквивалентности не равен 1, мы приведем в § 2.1. Пример 3. Пусть М — целое число, 0 М | R |. Тогда «счи- тающий предикат» фм, или Г|Х| = АЛ, который определяет, что X содержит ровно М точек, имеет порядок 2. Доказательство. Рассмотрим представление Г(2М-1) S Х/ + (-2) ItXiXj^M2]. I все I i< j I Для любой фигуры X существует | членов xf и */г | Я| • (| — 1) членов XjXj, значение которых равно 1. В таком случае предика- том служит выражение [(2Л4- 1)-|Х|-|Х|-(|Х|-l)-A42>0] = [(|X|-W<0], а единственным значением |Х|, при котором это выражение истин- но, является |А"| = М. Заметим, что, повышая порог, можно по- лучить предикат, истинный не для единственного значения |Х|, а для значений, заполняющих некоторый интервал. Мы уже показали, что порядок «считающего предиката» не больше 2; из теоремы 2.4 будет следовать, что он нё равен 1. За-
38 I. Алгебраическая теория линейных параллельных предикатов метим, что в линейной форме считающего предиката |/?| в явном виде не содержится. Следовательно, этот предикат подходит так- же и для бесконечного пространства R. Пример 4. Порядок предикатов Г|X| >ЛЛ и Г|^|-^ЛЛ ра- вен 1,так как их можно представить в виде М] и м]. 1.5. Теорема о положительной нормальной форме Порядок функции можно определить, представляя ее как ли- нейную пороговую функцию относительно множества масок (тео- рема 1.5.3). Чтобы сделать это, докажем сначала следующую тео- рему. Теорема 1.5.1. Каждый предикат ф является линейной поро- говой функцией относительно множества всех масок, т. е. ф при- надлежит Цвсе маски). Доказательство. Любую булеву функцию ф(%1, ..., хп) можно записать в дизъюнктивной нормальной форме С,(Х) VC2(X) V ... VCp(X), где С,(Х) — произведение (конъюнкция) Z1Z2 ... zn, в котором каждое z есть или х,, или х,. Так как для любого X истинным может быть не более одного СДХ), то, используя ариф- метическую сумму, можно переписать ф в виде Ci (X) + С2 (X) + ... +СР(Х). Далее, к любому произведению, содержащему отрицание какой- либо буквы, можно применить следующую формулу: пусть 23 и 91 означают любые цепочки букв, тогда 23х/51 = 23 (1 - х/) 51 = 2351 - 23x,5l. Если и дальше применять эту формулу, то можно уничтожить все отрицания, не увеличивая длины произведения. Избавившись от отрицаний и сгруппировав подобные члены, мы получим положительную нормальную форму ФРО = 2ад(Я), где каждый предикат фг является маской, а каждое число аг це- лое. Поскольку сумма ^а£<рДХ) равна нулю иди единице, мож- но записать
Гл. 1. Теория линейных булевых неравенств 39 = [2 «<<₽/(*)> о]. Пример. [Сумма + х2 + х3 нечетна] = + х2 + х3— — 2Х]%2 — 2Х2-^3 — 2Хз%] "I- 4Х]Х2^'3* Теорема 1,5 2 (факультативно). Положительная нормальная форма един- ственна. Доказательство. Пусть {cpi} — множество масок, а {у,} — множество чисел, не равных нулю. Возьмем k, для которого S(cps) минимально, т. е. не существует такого j^=k, что S(<pJ с: S(cpft). Тогда фИ5(^))=1> ф/ (s(4’fe)) = °- i^k- Отсюда следует, что сумма S угфг (X) не равна тождественно нулю, так как при X = 5(<рй) она принимает значение у*. Если теперь а ,-Ф, W = 2 Ргф; (Х) для всякого X, то £(af-p^U) = = 0 для всякого X. Но 2 (а/“ Рг) Фг М = 2 все I 0¥= (а(--3() откуда следует, что а, = Pi для всех t. Это доказывает единственность коэффи- циентов положительной нормальной формы предиката ф. Заметим, что положи- тельная нормальная форма, будучи обычной арифметической суммой, всегда имеет нулевое или единичное значение и, таким образом, не нуждается в приме- нении символа Г 1, предназначенного для интерпретации справедливости неравен- ства как предиката. Теорема 1.5.3. Предикат ф имеет порядок k тогда и только тогда, когда k есть наименьшее число, для которого существует множество Ф масок, удовлетворяющих условиям I (ф) I & для всех <р из Ф, ф е L (Ф). Доказательство. В выражении ф = [2сЧФг>01 каждую функцию фг- заменяем ее положительной нормальной формой. Если |5(фг-)| k, то аналогичное неравенство верно также и для масок, входящих в положительную нормальную форму1). •) Для доказательства теоремы достаточно доказать два утверждения: а) всякий предикат порядка k можно представить в виде линейной комбинации таких масок ср, что |5(ф)| k\ б) если для некоторого предиката ф число k является наименьшим, при котором существует множество Ф масок ф, удовле- творяющих условиям, указанным в формулировке теоремы, то порядок преди- ката ф равен k. Утверждение а) доказано авторами. Для доказательства б) за- метим, что порядок предиката ф не может быть выше указанного k по самому определению порядка. Если бы он был равен k' < k, то в силу а) существова- ла бы линейная комбинация масок, для которой | S(<p)| k' < k, что противо- речит условию минимальности k. Теорема доказана. — Прим, ред.
40 I. Алгебраическая теория линейных параллельных предикатов Пример. Порядок «булевой формы» не превышает степени ее дизъюнктивной нормальной формы. Например, 2“«jk^ix j%k jxk, отсюда видно, как исключить отрицание, не повышая порядка. Эта частная форма порядка 3 появится позже (§ 6.3), в персеп- троне, распознающем выпуклые фигуры. Естественно поинтересоваться порядком предикатов, которые представляют собой булевы функции других предикатов. Обнадеживающий результат дает Теорема 1.5.4. Если предикат ф1 имеет порядок Пц а преди- кат ф2 имеет порядок П2, то порядки предикатов ф1 ф ф2 и ф4 е= == ф2 не превышают П1 + П2. Доказательство. Пусть ф1 = |2 агФ, > О], ф2 = [2 а/Ф/ > 0]- Предположим, что коэффициенты выбраны так, что суммы внутри уголков никогда не равны нулю. Тогда Ф1 Ф2 = [(2 агФг) (2 а/Ф/) > 0| = [ 2 (а;а/) Ф/₽;- > 0"|, причем I S (ф/ф/) I С | S (qp,) | + | S (фу) |. Утверждение о предикате ф1 ф ф2 следует из равенства [Ф1Фф21 = 1 -[Ф1 =Фг1- Пример. На основании равенства фж = заключаем, что порядок предиката фм не превышает 2. Это дает еще один способ получения результата, о котором говорилось в § 1.4 (пример 3). Вопрос: Что можно сказать о порядке предикатов ГФ1 А ф21 и Гф1 V ф21? Если принять во внимание простой результат теоре- мы 1.5.4, то ответ может показаться удивительным. В гл. 4 мы докажем, что для любого порядка п можно найти такую пару предикатов ф] и ф2 первого порядка, что порядок предикатов ф1 Л фг и ф1 V ф2 превышает п. В самом деле, пусть R = A U В U С, где А, В, С — большие непересекающиеся подмножества мно- жества R. Тогда каждый из предикатов ф, = [1 X f) А | > | X f) С || и ф2 = Г|ХПВ|>|ХПС|1 имеет порядок 1, так как их можно пред- ставить в виде Г 2 х{> 2 */1 и [2 xi> 2 */].
Гл. 1. Теория линейных булевых неравенств 41 В гл. 4 мы увидим, что предикаты ф1 Л фг и ф1 V фг не имеют да- же конечного порядка в том смысле, как это будет описано в § 1.6. 1.6. Предикаты конечного порядка Строго говоря, предикат определяется для конкретного множе- ства R, и поэтому нельзя говорить об одном и том же предикате для различных R. Но, как отмечено в § 1.0, мы стремимся воз- можно больше узнать о «предикатах», определенных независимо от R — например, о предикатах, имеющих дело с числом элементов множества X или другими геометрическими свойствами тех фигур на вещественной евклидовой плоскости, для которых X и R служат простыми приближениями. Чтобы быть более точными, мы могли бы называть предикатной схемой общую конструкцию, определяю- щую предикат для каждого множества из большого класса мно- жеств R. Но это было бы слишком уж педантично, так что мы бу- дем употреблять (исключая данный параграф) в этом более широком смысле также термин предикат. Предположим, что нам задана предикатная схема ф, опреде- ляющая предикат фд для каждого множества R из некоторого се- мейства {/?}. Будем говорить, что ф имеет конечный порядок (а именно ^fe), если для всех R из этого семейства порядки пре- дикатов фд равномерно ограничены числом k. Поясним это двумя примерами: 1. Пусть {/?,}— последовательность множеств, для которых | Rt | = i. Для каждого /?,- существует предикат ф,, определяемый предикатной схемой %Етяость^)’ КОТОРЬ1Й утверждает (для X cz cR{), что |Х| —нечетное число. Как мы увидим в § 3.1, порядок любого такого предиката фг- должен быть равен I. Следовательно, предикатная схема фЧЕТНость не имеет конечного порядка. 2. Пусть ф,— предикат, определяемый на Rt предикатной схе- мой фдЕсдть: фДХ) = [| X |= 10]. В § 1.4 мы уже показали, что фг — предикат порядка 2 для всякого Ri при i > 10. Для Rlt Ra порядок этого предиката равен нулю (тривиально). Таким образом, предикатная схема фДЕСЯть имеет конечный порядок, а именно 2. В обоих этих примерах подобные утверждения справедливы и для бесконеч- ных R. На бесконечной сетчатке порядок предиката ^ДЕСЯТЬ (X) = 11 I = 10]
42 I. Алгебраическая теория линейных параллельных предикатов конечен (и равен 2), а предикат ^четность М = Il х I “ нечетное число] не имеет порядка. Мы нередко будем рассматривать проблемы именно таким образом, так как часто легче представить себе одну машину, даже бесконечных размеров, чем бесконечную систему конечных машин. В гл. 7 мы рассмотрим формализацию понятия бесконечного персептрона. Следует, однако, заметить, что использование бесконечных персептронов не охватывает всех случаев. На- пример, предикат ф (X) = X | > 11 R |] полностью определен и имеет порядок 1 для любого конечного R. Для беско- нечного R он лишен смысла, хотя нам хотелось бы считать, что соответствующая предикатная схема имеет конечный порядок.
ГЛАВА 2. ИНВАРИАНТНОСТЬ БУЛЕВЫХ НЕРАВЕНСТВ ОТНОСИТЕЛЬНО ГРУПП 2.0 В этой главе рассматриваются линейные пороговые неравен- ства, инвариантные относительно групп преобразований точек ба- зисного пространства R. Цель этой главы — установить связь между геометрией пространства R и реализуемостью геометриче- ских предикатов персептронами конечного порядка. Полностью эта цель достигается в части II. 2.1. Пример: коэффициенты, усредненные по симметрии В качестве введения в изучаемые в этом разделе методы рас- смотрим простой, почти тривиальный, пример. Пусть наше прост- ранство R содержит две точки х и у. Докажем, что порядок пре- диката ф=1 = \ху\/ху\ не равен 1. (Этот предикат утверждает, что X не состоит из одной единственной точки.) Метод доказательства заключается в том, чтобы прийти к противоречию, предположив, что существуют такие числа а, р и 0, для которых Фи(х, «/) = хг/Vxz/= [ах + Ру> 0]. Можно перейти непосредственно к доказательству, написав усло- вия, налагаемые на а и р: (1, 0) = 0 фа sC 0> ф_(0, 1) = Офр<0, ф_(1, 1) = 1фа + р>0, фи(0, 0) = 1 фО>0. В этом простом случае получить противоречие довольно легко, так как сложение первых двух условий дает а + р<20, а вместе с третьим условием приводит к 0 < 20, откуда следует, что число 0 положительно, что противоречит четвер- тому условию.
44 I. Алгебраическая теория линейных параллельных предикатов Однако для более сложных случаев, при наличии большого числа переменных, подобные доказательства сложны. С другой стороны, приведенное ниже доказательство, хотя и чуть более сложное, позволяет гораздо глубже проникнуть в существо дела. Заметим вначале, что, переставляя х и у, т. е. меняя их местами, мы не изменяем значения предиката if. Иначе говоря, Ф=.(*, У) х). Таким образом, неравенства ах + $у > 0, ay + рх > 0 выполняются или не выполняются одновременно. Сложив их, по- лучим у (а + Р) х + у (а + Р)«/ > 0. Аналогично неравенства ах + рг/ 0, ау + рх 0 дают у(а + Р)х +Ц (а + р) у < 0. Отсюда следует, что, заменив (а + р)/2 на у, можно записать (х, у) = Гух + уу > 01 = Гу (х + у) > 01. Таким образом, можно построить новое линейное представле- ние для if, в котором коэффициенты при х и у равны. Следовательно, (Х) = Гу|Х|>01, где |Х|, как обычно, означает число точек в X. Рассмотрим теперь три множества: Хо = { }, Xt = {х}, Х2 = = {х, у]. Имеем | Хо | = 0 и у • 0 > 0, 1^1=1 и у-1<0, | Х21 = 2 и у • 2 > 0. Совершенно очевидно, что это невозможно. Таким образом, кое- что о if можно узнать, «усредняя» его коэффициенты после пере-
Гл. 2. Инвариантность булевых неравенств относительно групп 45 становки, не меняющей предиката. (В разобранном примере у — это среднее арифметическое чисел а и р.) В § 2.3 мы точно опре- делим введенное здесь понятие «среднее значение». Рис. 2.1. Функция Р (| X |) = у | X | — 0 не должна попадать в заштрихованные области, а для этого необходимо, чтобы она была многочленом не ниже второй степени. 2.1.1 t). Группы преобразований и классы эквивалентности пре- дикатов. Обобщение описанной в § 2.1 процедуры будет состоять в изучении произвольной группы преобразований на базисном про- странстве R и в выяснении того, что подразумевается под неза- висимостью предиката ф от любого из преобразований этой груп- пы (так же, как предикат в § 2.1 не зависел от перестановки двух точек). Именно на основе этого представления об «инвариантно- сти относительно группы преобразований» мы сможем приступить к решению геометрических проблем; при этом мы заимствуем математическую точку зрения Феликса Клейна: всякое интересное геометрическое свойство является инвариантом некоторой группы преобразований. Прекрасный пример группы преобразований дает множество всех переносов плоскости, т. е. таких преобразований, при которых каждая точка плоскости перемещается на место другой точки, причем все точки перемещаются на одно и то же расстояние в одном и том же направлении; иными словами, это жесткий параллельный сдвиг. Рисунок 2.2 иллюстрирует результат двух переносов gt и g? фигуры X. Он же служит иллюстрацией ряда определений и замечаний, которые мы хотим сейчас привести. 1. Мы определяем перенос как операцию, действующую на от- дельные точки таким образом, что при действии операции gt на точку х получается другая точка g\x. Это «индуцирует» >) Читатели, знакомые с основными определениями теории групп, могут этот раздел пропустить.
46 I. Алгебраическая теория линейных параллельных предикатов естественное представление о том, как воздействуют переносы g на фигуры в целом. Дадим определение. Если g— одно из пре- образований из группы G (символически gsG). а X—некоторая фигура, т. е. подмножество множества R, то gX = {gx | х е= X), что читается так: gX является (по определению) множеством то- чек gx, полученных в результате действия преобразования g на все точки х, принадлежащие X. 2. Если к фигуре X применить сначала преобразование g\, а затем g2, то получим новую фигуру, которую можно обозначить g2(g\X). Но ту же самую фигуру можно получить из X как ре- зультат одного преобразования — «композиции» преобразований g2 и gi. Обычно такую операцию обозначают g2gi, а новое изо- бражение обозначают gzgiX, как это показано на рис. 2.2. Мате- матическое определение группы требует, чтобы g2gi е G, если gi е G и g2<=G. В случае переноса всегда справедливо равенство gig2X = = gzgiX, что можно проверить, достроив параллелограмм X, giX, gzgiX, g2X. Но это равенство следует рассматривать как слу- чайное стечение обстоятельств, ибо оно не всегда справедливо для других важных геометрических групп. Например, если G — группа всех поворотов вокруг всех точек плоскости, то для указанных на рис. 2.3 преобразований gi и g2 точки gig2x и g2gix различны. 3. Последнее требование формального определения «группы преобразований» заключается в том, что группе G вместе с каж- дым geG должно принадлежать обратное преобразование, т. е. такое преобразование g-1, что g~rgx = х для каждой точки х. На рис. 2.2 показаны обратные преобразования для переносов g1 и g2. Обратное преобразование для g2gi можно получить, достроив па-
Гл. 2. Инвариантность булевых неравенств относительно групп 47 раллелограмм на рис. 2.2 слева от X. Несложным рассуждением легко показать, что (для любой группы!) всегда справедливо равенство (ад)-1 = Всегда подразумевается, что группа содержит тривиальное — тождественное — преобразование, т. е. такое преобразование е, что ех = х для всякого х. Действительно, поскольку е является композицией g~lg любого преобразования g и его обратного g-1, наличие е в G логически вытекает уже из требований 2 и 3. Не- трудно также видеть, что gg~[ = е. Рис. 2.3. Здесь gt — небольшой поворот вокруг точки pit a g2 — поворот на 90° вокруг р2. Из этого рисунка видно, почему для группы вращений, вообще ГОВОРЯ, glg2X=£g2giX. В учебниках по алгебре можно найти еще и другие требова- ния к группам, например (glg2) g'i = gi (gigs) для любых gi, g2 и gs из G. Мы используем это требование для групп преобразований без дополнительных оговорок, поскольку оно входит в наше интуитивное представление о преобразовании. В справедливости ассоциативного закона в нашем случае мы убе- ждаемся, прослеживая просто, что же происходит с каждой от- дельной точкой пространства R. 4. Если h — элемент группы G, то множество hG, определяемой формулой hG = {hg | g G= G} (т. e. множество, составленное из композиций элемента h со все- ми элементами группы G), совпадает со всей группой G и каждый ее элемент входит в hG только один раз. В самом деле, любой
48 I. Алгебраическая теория линейных параллельных предикатов элемент g этого множества есть композиция h (h~lg) = (/i/Г!) g = eg = g, a потому h~lg входит в группу. Если бы, скажем, элемент go встре- чался в группе дважды, т. е. для двух различных gi и g2 было бы go = /igi> go = /ig2> то мы получили бы /i_1go = /i’-1/igi = gl /i-1go = h~'fig2 = g2, и тогда g] и g2 не могли бы быть различными. Рис. 24. 5. В большинстве из последующих разделов, в частности в § 2.3, мы будем рассматривать группы G, содержащие лишь конечное число преобразований. Но нам хотелось бы постичь ха- рактер обычных групп евклидовых преобразований, а они беско- нечны. Например, число различных расстояний, на которые можно перенести фигуру в плоскости, бесконечно: если g #= е — любой нетривиальный перенос, то все переносы g, gg, ggg, ... различны. В большинстве случаев мы сможем доказать нужные нам теоремы, заменив бесконечную группу конечной, изменив при этом, если необходимо, само пространство /?! Например, рассмат- ривая перенос, мы вместо евклидовой плоскости часто будем ис- пользовать тор (рис. 2.4). Тор разбит на квадраты, как показано на рисунке. Вместо бесконечного множества переносов в плоскости мы рассматри- ваем только такие преобразования тора, при которых каждая
Гл. 2. Инвариантность булевых неравенств относительно групп 49 точка переносится на m квадратов вдоль большого экватора и на п квадратов вдоль малого экватора. Число таких «переносов» конечно. В большинстве практических случаев тор ведет себя как небольшая часть плоскости, так как его можно «разрезать» и раз- вернуть (рис. 2.5). Следовательно, для «небольших» фигур и «не- больших» переносов нет существенной разницы между тором и плоскостью. Об этом мы еще будем говорить в введении к ча- сти II и в гл. 7. 2.2. Классы эквивалентности изображений и предикатов Если задана группа G, то будем говорить, что фигуры X и У являются G-эквивалентными (и писать X^Y), если в группе G а найдется такой элемент g, что X = g У. Заметим, что Х = Х, так как Х = еХ, о X==Y влечет Y==X, так как если X = gY, то Y — g~[X, X = Y и Y = Z влечет X = Z, так как если X = gY и Y — hZ а а а ° ’ то X = ghZ. Выбирая некоторую группу, мы тем самым автоматически предполагаем, что фигуры разбиты на классы эквивалентности. Это будет важно в дальнейшем, когда окажется, что «образы» (или множества фигур), которые мы захотим распознать, подпа- дают под такие разбиения (классификации), если группы выбра- ны правильно.
50 I. Алгебраическая теория линейных параллельных предикатов Пример. Пусть G — множество всех перестановок конечного множества точек из R. {Перестановкой называется любое переме- щение точек, при котором никакие две точки не сводятся в одну.) В этом случае (теорема!) две фигуры X и У будут G-эквивалент- ными тогда и только тогда, когда они обе будут содержать оди- наковое число точек. Пример. Если требуется построить машину для чтения пе- чатных букв или цифр, то возникает естественное желание, чтобы эта машина могла распознавать их независимо от их положения на странице: А т. е. чтобы на решение машины не оказывали влияния элементы группы переносов. Иными словами, восприятие машины должно быть «инвариантно относительно группы переносов», т. е. ее ре- шение должно быть одним и тем же для каждого представителя какого-либо класса эквивалентности относительно группы перено- сов1). В § 2.3 мы докажем важную теорему, из которой много узнаем о любом персептроне, инвариантном относительно некото- рой группы G, т. е. о таком персептроне, предикат ф(Х) которого зависит только от класса эквивалентности фигуры X. Прежде чем сформулировать эту теорему, нужно пояснить, что мы понимаем под G-эквивалентностью предикатов. Будем говорить, что два предиката <р и <р' эквивалентны отно- сительно группы G, и записывать это в виде Ф = Ф', если существует такой элемент g из G, что <p(g^) и <р'(Х) совпа- дают для каждого X. Нетрудно видеть, что это действительно есть отношение экви- валентности, т. е. что Ф==Ф для любого ф, ф = ф' влечет ф'==ф, Ф = ф' и ф' = ф" влечет ф =. ч>". ) Разумеется, на практике от машины требуется большее: желают знать не только, что находится на странице, но и где это находится. В противном случае вместо чтения страницы машина выдавала бы нам беспорядочный набор знаков!
Гл. 2. Инвариантность булевых неравенств относительно групп 51 Если нам даны предикат <р и элемент g некоторой группы, то оп- ределим <pg как предикат, который для каждого X принимает значение ф(£Х). Таким образом, ф^(Х) =<p(gr-5O. Будем говорить, что множество Ф замкнуто относительно G, если для любых <р из Ф и g из G предикат <pg принадлежит Ф. Три предиката <р, эквивалентные относительно группы вращений. Сейчас, наконец, можно сформулировать и доказать нашу ос- новную теорему. Из нее будет видно, что если предикат персеп- трона инвариантен относительно группы G, то его коэффициенты должны зависеть только от классов G-эквивалентности соответ- ствующих им предикатов <р. В дальнейших исследованиях эта тео- рема будет наиболее мощным нашим орудием, так как она обоб- щает метод § 1.2 и позволяет (как правило) преобразовывать сложные геометрические задачи в простые алгебраические. 2.3. Теорема об инвариантности относительно групп Пусть (1) G — конечная группа преобразований конечного простран- ства R; (2) Ф — множество предикатов на R, замкнутое относи- тельно G; (3) предикат ф принадлежит Л(Ф) и инвариантен относи- тельно G. Тогда существует линейное представление предиката ф, Ф = ₽Фф > 0],
52 1. Алгебраическая теория линейных параллельных предикатов для которого коэффициенты рф зависят только от класса G-экви- валентности предикатов <р, т. е. если Ф = ф', то рф = ₽ф,. Условия теоремы более строги, чем это необходимо. Разумеется, для бесконеч- ных групп теорема, вообще говоря, неверна. Контрпример будет дан в § 7.10. Но в некоторых случаях можно доказать теорему и для бесконечных групп. В § 10.4 мы рассмотрим пример с интересными следствиями. Мы увидим, что можно не- сколько ослабить условие того, что G — группа. Мы не исследовали возможности ослабления условия (2), а это было бы интересно. Однако это не препятствует тому, чтобы показать с помощью нашего метода, что определенные предикаты не являются предикатами конечного по- рядка. Действительно, когда теорема применяется для доказательства того, что конкретный предикат ф не принадлежит £(Ф) для конкретного Ф, то для этого доказывается нелинейность ф даже в G-замыкании множества Ф. Напомним, что порядок предиката (§ 1.3) определен без ссылки на какое-либо конкретное мно- жество Ф предикатов <р! А замыкание множества Ф относительно группы G не может изменить максимальный размер носителей предикатов, принадлежащих Ф. Доказательство. Пусть ф(Х) имеет линейное представ- ление .2 a(<p)qp(X)>0. Мы пишем а(ф) вместо аФ, чтобы из- ф (=ф бежать сложных индексов. Любой элемент g из G определяет вза- имно однозначное соответствие ф *-*• (pg, т. е. перестановку пре- дикатов ф. Следовательно, S <х(ф)ф(Х)= 2 a (cpg) (pg (X) ф еф ф еф для всякого X, просто потому что в обеих суммах складываются одни и те же числа. Выберем теперь X, для которого ф(Х) = 1. Поскольку ф является G-инвариантным, a g~x — элемент из G, то 2а(ф£) ф£ (g~'X)> 0. Отсюда мы заключаем, что если ф(Х) = 1, то для любого g из G S а(ф£)фРО>0- ф^ф Суммируя эти положительные величины по всем g из G, находим S Г S а (ф£) Ф Р01 > 0. g^G 1Ф^Ф J Если сгруппировать коэффициенты для каждого ф, то получим выражение S Г S а(ф£)1ф(*)>0, феФ Lg G J принадлежащее А(Ф); его можно представить в виде 2 ₽(ф)ф(Х)>0. ф(=ф
Гл. 2. Инвариантность булевых неравенств относительно групп 53 Напомним, что последнее неравенство получено в предположе- нии, что ф(Х)=1. Выберем теперь X, для которого ф(Х) = 0. Тогда те же рассуждения приводят к неравенству 2 Р(ф)ф(Х)<о. ф еФ Объединив эти неравенства для ф = 1 и ф = О, получим ч>(Х) = Г S ₽(ф)ф(Х)>о1. I Фе® । Остается только показать, как мы и обещали, что <Р = ф'^₽ (<₽) = ₽(<₽')• Сг Но Ф = ф? означает, что существует такой элемент h, что ф = G — tp'h, а потому Р(ф)= 2 а(ф§)= S а(ф'й§)= S «(<P'g) = ₽(<₽')> ge G g~G g~G так как взаимно однозначное соответствие g *-*• hg просто изме- няет порядок суммирования, не изменяя самих чисел. а (д>) а (Ч>Ь'') Другое доказательство. Учитывая важность теоремы, дадим еще одно доказательство, которое для некоторых читателей может показаться интуитивно более ясным. Выберем X, для которого ф(Х) = 1. Тогда для любого g^G будет ф(£Х) = 1, и следовательно, каждая из сумм SafoH(gX) будет положительной, а потому положительной будет также и вся сумма S «(ф)ф (gX) = 2 a(q>)<Pg(X). феф феФ geG jeG
54 I. Алгебраическая теория линейных параллельных предикатов Члены этой суммы можно расположить в таблицу размера IФI X X|G|: 0(<Р1)<Р1^1 + а(<Р2)<Р2^1 + + а(Ф1)<Р1£2 + «(<₽2) <₽2£Г2 + + «(Ф1)Ф1£|0)+ ••• ... + а(ф|ф|)ф|ф]£1 ••• + а(ф|Ф|)ф|Ф|^2 И). + а(ф|ф|) ф|ф|^|01- Мы хотим записать эту сумму в виде Pi<pi + Р2Ф2 + • • •, т. е. найти коэффициенты при каждом ср,- Для этого необходимо при каждом <рг- сгруппировать те члены а(ф/), для которых q>jgk = <pz. Сумма таких членов равна, разумеется, р,-. Но на самом деле наша цель состоит не в том, чтобы вычислять р;, а в том, чтобы показать, что Фа = Фй =7 Ра = Рй- (j Для этого предположим, что действительно <ра =н <р6, а отсюда сле- а дует, что можно найти такой элемент g, что Фа = 4>bg- Используем это обстоятельство для того, чтобы установить взаим- но однозначное соответствие между множествами тех элементов таблицы, которые суммируются для получения коэффициента ра, и тех элементов, которые в сумме дают р&. Назовем gj-вхождением предиката <рй выражение а(ф<)ф1Дд где I определяется условием (f{gj — cph. Тогда для каждого j и k в массиве есть в точности одно gj-вхождение предиката <pk- (Существование нескольких различных элементов h из G, удовлетворяющих соотношению cpih = q>k, неважно. Нас интересует здесь лишь присутствие каждого вхождения в таблице, а не его значение.) Если теперь а(<рг) qigj является gj-вхождением предиката <рь, то Ф/g/ = Фк, и потому 4igfg = 4bg = Фа- Следовательно, ос (фг) фгйг^ есть gjg-вхождение предиката <ра. Если вспомнить, что gj gig
Гл. 2. Инвариантность булевых неравенств относительно групп 55 представляет собой взаимно однозначное соответствие между элементами группы, как показано в замечании 4 из § 2.1.1 (рис. 2.6), то можно сделать вывод, что соответствующие элемен- ты в суммах ра и Рь должны иметь Одинаковые коэффициенты. Поэтому суммы р,х и Рь должны быть равны. Рис. 2.6. Так как те же самые доводы справедливы и при ф(Х) =0, то теорема доказана. В гл. 7 и 10 эта теорема распространяется на некоторые бесконечные пространства. Читателям, которым будет трудно воспринимать эти абстракт- ные представления, полезно разобрать конкретные примеры клас- сов эквивалентности, скажем геометрические «спектры» из § 5.2 и особенно из § 6.2. Доказанную теорему мы будем часто использовать в следую- щей формулировке. Следствие 1. Любой инвариантный относительно группы предикат ф {порядка k), удовлетворяющий условиям теоремы, можно представить в виде Ф = [ 2 > 0], где Ф*—множество масок {степени не более k), а а<р = а<р', если S(<p) можно преобразовать в S (q/) при помощи элемента груп- пы G. Доказательство. фл == фв для масок тогда и только тогда, когда А = Bg для некоторого 6. Следствие 2. Пусть Ф = Ф1 U ... U Фт — разбиение множе- ства Ф на классы эквивалентности по отношению =. Тогда, если а
56 I. Алгебраическая теория линейных параллельных предикатов выполнены условия теоремы, то ф можно записать в виде t|) = rSa^;W>0], где N^X) = |{ф|ф е Фг и ф(Л')}), т. е. Х^Х) есть число эквива- лентных относительно группы предикатов ф i-го типа, которым удовлетворяет X. Доказательство. В самом деле, Ф = [ 2ф афФ > 0] = = Г S S %ф > 0] = I i <Реф/ I = S Ф>01 = Г2аЛг(Х)>01. I I <р е Ф; I I I J 2.4. Тривиальность инвариантных предикатов порядка 1: первое применение теоремы об инвариантности относительно групп Теорема 2.4. Пусть G — любая группа перестановок на R, обладающая следующим свойством'): для каждой пары точек (р, q) пространства R существует по крайней мере один такой элемент g из G, что gp = q. Тогда единственными предикатами порядка 1, инвариантными относительно G, будут предикаты ф(Х) = П X | > m] ф(Х) = Г1 X |>m] ф(Х) = П X | < ml t(X) = F|X|<ml для некоторого числа пг. Доказательство.'Так как все одноточечные предикаты фр эквивалентны, можно считать, что tW = [ ^“фр> е] ’ т. е. что коэффициенты а не зависят от р. Но 2<хфр>0 равносильно S<pp>0/a при а>0. *) Это свойство, которым обладает большинство интересных геометрических групп, называют обычно «транзитивностью». Исключение составляют, например, чистые повороты вокруг фиксированного центра, а также все переносы, парал- лельные фиксированному направлению на плоскости. Но группа всех поворотов вокруг всех центров и группа всех переносов и т. д. транзитивны.
Г л. 2. Инвариантность булевых неравенств относительно групп 57 (При а < 0 знак неравенства нужно изменить на обратный.) Далее, S фр = 1*1. ре х Таким образом, предикаты порядка 1, инвариантные относи- тельно обычных геометрических групп, не могут делать ничего большего, кроме как определять простые неравенства типа m относительно размера, или «площади» фигур. В частности, рас- сматривая группу переносов G, мы видим, что никакой персептрон порядка 1 не может отличить буквы А, изображенные на стр. 50, от некоторого другого, инвариантного относительно переноса, мно- жества фигур такой же площади. 2.4.1. Неинвариантные предикаты порядка 1. Если отказаться от геометрической инвариантности относительно групп, то оста- ются еще некоторые простые, но полезные предикаты порядка 1, с помощью которых можно представить неравенства, относящиеся к обыкновенным интегралам. Пусть хр и ур обозначают координа- ты х и у точки р: X < О X > о Рис. 2.7. можно представить, например, следующие предикаты изображений на плоскости: [Фигура X имеет в правой полуплоскости большую площадь, чем в левой]= правая половина левая половина [Центр тяжести фигуры X находится справа от центральной точки]= [2хРФр>0] (см. рис. 0.3),
5$ 1. Алгебраическая теория Линейных параллельных предикатоё [n-й центральный момент фигуры X относительно начала коор- динат больше 0] = |2т,(^ + й)">в], и т. д. Но для таких предикатов «моментного типа» координаты точки, относительно которой вычисляется момент, непременно связаны с абсолютной плоскостью, а не с фигурой X. Например, нельзя представить при помощи выражения первого порядка пре- дикат [Второй момент фигуры X относительно собственного центра тяжести больше 01, так как такой предикат инвариантен относительно (транзитивной) группы переносов. Математическое примечание. Эти результаты связаны с теоре- мой Хаара о единственности инвариантных мер (с точностью до постоянного множителя). Для конечных множеств и транзитивных групп единственной мерой Хаара является считающая функция ц(Х) = |Х I . Функция множества, определенная формулой и П) = = У «г л,е.< удовлетворяет равенству ц(Х) + ц(У) = ц(Х U У) + ц(Х Л У). Если бы мы определили инвариантность как ц(Х) = p(gX), то из теоремы Хаара немедленно следовало бы, что ц(Х) = с I X |, где с—некоторая константа. Наше же пред- положение относительно р несколько слабее, так как мы просто предполагаем, что В (X) > 6 фф ц (gX) > 6, и получаем соответственно более слабый вывод, а именно И (Х)>0 фф с | X | > 6. В общем случае связь между теоремой об инвариантности и теорией меры Хаара менее очевидна, так как функция множества У «<рф (X), вообще говоря, не является мерой. Это наводит на мысль о некотором обобщении понятия меры, но мы не пытались этим заниматься. Читателям, интересующимся историей раз- вития изложенных здесь идей, возможно, будет интересно проследить связь на- ших результатов с результатами Питтса и Маккаллока [1947].
ГЛАВА 3. ПРЕДИКАТЫ «ЧЕТНОСТЬ» И «ОДИН-В-БЛОКЕ» З.о В этой главе мы изучаем порядки двух особенно интересных предикатов. Ни один из них нельзя назвать геометрическим, так как их группы инвариантности слишком бесформенны. Но в § 5.1 мы используем их для решения геометрических задач, подбирая соответствующие «подгруппы», имеющие нужные свойства инва- риантности. 3.1. Функция, определяющая четность В этом параграфе мы довольно детально проанализируем очень простой предикат, определяемый формулой ^четность W = П I - нечетное число]. Мы интересуемся предикатом фЧЕТНОсть п0 тРем причинам: он интересен сам по себе; мы будем использовать его при анализе других, более важных функций; и, главным образом, потому что он иллюстрирует наши математические методы и род проблем, ко- торые можно ими разрешать. Теорема 3.1.1. Предикат фЧЕТНОсть имеет порядок |R|. Иными словами, для вычисления этого предиката требуется по крайней мере один частный предикат, носителем которого служит все пространство R. Доказательство. Пусть G — группа всех перестановок то- чек пространства R. Очевидно, что предикат ФЧЕТНость инвари- антен относительно G (так как перемещение точек не может из- менить их числа!). Предположим теперь, что ФЧЕТНОСТЬ = [5<ЧФ; > О], где <рг — маски, удовлетворяющие неравенству |5(ф,) | -СК. Теорема об ин- вариантности относительно групп гласит, что коэффициенты а мож- но выбрать так, чтобы они зависели только от классов эквивалент- ности, определенных отношением Но тогда а, зависит только от | S (ф,-) |. Чтобы показать это, заметим, что 1) все маски с одним и тем же носителем совпадают
60 I. Алгебраическая теория линейных параллельных предикатов и 2) все множества с одним и тем же числом элементов можно преобразовать друг в друга с помощью элементов группы G, т. е. Ф/=Ф/<=>1 5(<Р<)1 = 1 $(ф/) |. Таким образом, в силу следствия 2 из § 2.3 предикат ФЧЕТНость можно записать в виде к 1 к 2а/[2ф(*)1>0 = 2аД/(Х)>0 , ,/-0 1фу J | /=0 где {Ф,}— совокупность масок, носители которых содержат ровно / элементов. Теперь для произвольного подмножества X простран- ства R подсчитаем лм*) = 2 ф(Д Ф <= Фу Так как <р(^) равно 1, если S(qj) cz X, и равно 0 в противном случае, то Xj(X) — это число подмножеств, состоящих из / точек фигуры X, т. е. Xj (X) = (1 %1) = ... (|X|-j+l) ( а это есть многочлен от степени /. Отсюда следует, что к S а/Х / (X) 1-0 есть многочлен от | Х| степени не выше К-, назовем его Р( |Х|). Рис. 3.1. Многочлен, изменяющий свое направление К—1 раз, должен иметь степень не менее, чем К. Рассмотрим теперь такую последовательность множеств Хо, Хх....|, чт0 I %i | = Так как ^(И1) >0 тогда и толь- ко тогда, когда —нечетное число, то Р(|Х0|)<0, Р(|Х1|)>0, Р(|Х2|)<0, ...»
Гл. 3. Предикаты «четность» и «один-в-блоке» 61 т. е. Р(|Х|) по мере роста от 0 до |/?| меняет свое направле- ние (т. е. знак производной) /?| — 1 раз. Но Р — многочлен сте- пени К, а потому (рис. 3.1) /<> |/?|. Теорема доказана. Отсюда вытекает Теорема 3.1.2. Если ФЧЕТНОсть *= (Ф) и Ф содержит только маски, то ф содержит каждую возможную маску. Доказательство. Допустим, что можно было бы записать ^четность = [ф^ф > О] даже тогда, когда Ф содержит только маски, а маска с носите- лем А не принадлежит Ф. Определим для любого ф предикат фА(Х) как ф(Л'АЛ). Тогда ^четность — функция, определяющая четность подмножеств мно- жества А, и по предыдущей теореме ее порядок равен |Л|. Чтобы изучить представление этой функции в виде линейной комбинации масок подмножеств множества А, рассмотрим фА для ср е Ф. Если .S(tp)c.4, то очевидно, что срА = ср; в противном случае <рА тож- дественно равно нулю, так как S(cp) Л=>5(Ф)£ХПЛ=>ф(ХП Л) = 0=>фА(Х) = 0. Таким образом, либо S(tpA)—собственное подмножество мно- жества А, либо фА тождественно равно нулю. Пусть теперь ФА будет совокупностью масок в Ф, носителями которых служат под- множества множества А. Тогда ^четность = [ 2 а<рф > О]. I (р SS | Но |5(ф) | < |Л| для всех ср е ФА (потому что по предположению маска А не принадлежит Ф), а это противоречит теореме 3.1.1, так как означает, что порядок предиката Фцетность меньше Ml- Таким образом, наше предположение невозможно, и теорема до- казана. Следствие 1. Если ФЧЕТН0СтЬ е Е (Ф), то множество Ф дол- жно содержать по крайней мере один предикат ф, для которого М(ф)| = |я|. Следующее следствие, тоже непосредственно вытекающее из доказанной теоремы, представляет интерес для тех, кто изучает пороговую логику.
62 I. Алгебраическая теория линейных параллельных предикатов Следствие 2. Пусть Ф — совокупность всех предикатов ^четность ^ля собственных подмножеств А пространства R.. То- гда ф 4ETHQCTb L Инвариантные относительно группы коэффициенты предиката ^четность при | Р | = 3. Из дальнейшего анализа предиката ФЧетность’ проводимого в гл. 10, мы увидим, что функции, которые в принципе можно было бы распознавать при помощи больших персептронов, фактически не могут быть реализованы на практике из-за чрезвычайно боль- ших коэффициентов. Например, отношение наибольшего коэффи- циента к наименьшему в любом представлении предиката ^четность в виде выражения, линейного относительно множества масок, как будет показано далее, равно 2l«l~*. 3.2. Теорема «один-в-блоке»‘) Другой очень интересный предикат ассоциируется с геометри- ческим свойством связности. Основную теорему о нем мы докажем сейчас, а применение и интерпретацию отложим до гл. 5. ') Эта теорема используется для доказательства теоремы в § 5.1. Так как в § 5.7 дается другое доказательство (опирающееся на теорему 3.1.1), данный параграф при первом чтении можно пропустить.
Гл. 3. П редикаты «четность» и «один-в-блоке» 63 Теорема 3.2. Пусть At, ..., Ат— непересекающиеся подмно- жества пространства R. Зададим предикат ф (X) = Г| X П А{ |> 0 для каждого Л/), означающий, что в каждом множестве Л; имеется по крайней мере одна точка из X. Если |Лг| = 4/п* 2 для всякого i, то порядок пре- диката ф не менее tn. Следствие. Если R — A j U Л2 U ... U Ат, то порядок преди- ката ф не менее | R | '“/4. Доказательство. Для каждого i = 1, ..., tn обозначим через Gi группу перестановок пространства R, изменяющих поря- док элементов подмножества А{, но не влияющих на элементы его дополнения. Пусть G — группа, порождаемая всеми элементами групп G,-. Ясно, что предикат ф инвариантен относительно G. Пусть Ф — множество масок степени не выше k. Для определе- ния класса эквивалентности любого элемента ф из Ф рассмотрим «числа замещений» ’) I 5 (Ф) П Л,-|. Заметим, что ф!==ф2 тогда и только тогда, когда |5(ф])П Л^ — — |5(фг)Г) Лг| для каждого I. Обозначим классы эквивалентно- сти через Ф1, Ф2, .... Рассмотрим произвольное множество X и класс эквивалент- ности Ф^ Мы хотим подсчитать число Nj(X.) элементов класса Фр которым удовлетворяет X, т. е. число МДХ) = |{ф|феФ; и S(Ф) <= X} С помощью простого рассуждения, использующего комбинаторные методы, получаем ( |ХПЛ,| W | X п Л2| \ / | ХП Ат | \ Л J \| S (ф)f| Л, |/\| S (Ф) Г) Л21/ \| S (ф) Г) Лт |/’ где (у \ _ у (у -1) ••• (У~п+\) \п) п! ’ а ф —произвольный элемент из Фр Поскольку числа |5(ф) ПЛг] зависят только от класса Ф^2), а их сумма не превосходит /г3), от- сюда следует, что Nj(X) можно представить в виде многочлена *) В оригинале occupancy numbers. — Прим, перев. 2) И не зависят от X. — Прим. ред. 3) Подмножества Ai не пересекаются, а |5(ф)| k. — Прим. ред.
64 /. Алгебраическая теория линейных параллельных предикатов степени не выше k от величин = |ХП Лг|: У/(Х) = Р/(Х1, Хт). Пусть теперь [2 афф > 0] — представление предиката ip в виде линейной пороговой функции на множестве масок степени не выше k. С помощью рассуждений, которые мы уже неоднократно проводили, можно показать, что зависит только от класса экви- валентности предиката <р. Тогда сумма 2а(рФ(Х) = 2Р/[фД) = W = 2p/P/(x1, .... хт), будучи суммой многочленов степени не выше k, сама является многочленом. Следовательно, существует такой многочлен Q (Xi, ..., хт) степени не выше k, что ф(Х) = Г<?(х,, ..хт)>0]. Иными словами, если каждое число xt= |ХГ)Лг| заключено в пре- делах О xt ^.4т2, то Q (xi, • •. х?п) > О хг 0 для всех I. Сделаем в Q(xb ..., хт) замену переменных Х{ = [/ — (2/—I)]2. Тогда Q(xb ..., хт) станет многочленом от t степени не вы- ше 2k. Пусть t принимает значения 0, 1, 2т. Тогда для не- четного t Xj = 0 при некотором z, а именно при i = у(Z + 1), а для четного t Xi > 0 при всех z. Итак, по определению предиката ф значение Q должно быть положительным для четного t и отрицательным или равным нулю для нечетного t. На основании подсчета числа перемен знака за- ключаем, что 2k 2т, т. е. k т. Теорема доказана.
ГЛАВА 4. ТЕОРЕМА «И/ИЛИ» 4.0 В этой главе мы докажем сформулированную в § 1.5 теорему «шили». Теорема 4.0. Существуют такие предикаты первого порядка ф( и фг, что ф>1 А фг и ф1Уф>2 не являются предикатами конечного порядка. Докажем это утверждение для ф1 А фг. Утверждение для Ф1V фг доказывается аналогично. Методика, применяемая при до- казательстве этой теоремы, в дальнейшем не используется; по- этому читатели, которые не знают или не любят алгебру подоб- ного вида, могут пропустить оставшуюся часть главы. 4.1. Леммы В § 1.5 мы отмечали, что если /? = Д U В U С, то [|ЙСЛД| > > |ХП С|"|— предикат порядка 1. Там же мы без доказательства Рис. 4.1. утверждали, что если А, В и С не пересекаются (рис. 4.1), то при росте |/?| порядок предиката Г(|ХЛД|>|ХЛС|)Д(|ХЛВ|>1^ЛС|)1 3 Зак. 837
66 I. Алгебраическая теория линейных параллельных предикатов не ограничен. Докажем теперь это утверждение. Не нарушая общ- ности, можно считать, что все три части пространства R имеют одинаковую величину М = |А | = \В| = |С| и |/?| = ЗМ Мы рас- смотрим предикаты указанного вида применительно к сетчаткам различного размера. Пусть фм(^) —предикат указанного вида и |В| — ЗМ. Докажем, что его порядок неограниченно возрастает при М —> оо. Доказательство повторяет схему доказательств, приведенных в гл. 3. Предположим, что для всех М порядки предикатов {фм} ограничены фиксированным целым числом N- Мы получим проти- воречие, показав, что соответствующие многочлены удовлетворяют тогда несовместным условиям. Определим сначала соответствующие многочлены для фикси- рованного М. Возьмем группу перестановок, сохраняющих множе- ства А, В и С, но внутри каждого из этих множеств допускающих произвольные перемещения. Класс эквивалентности маски <р ха- рактеризуется в таком случае числами ] А П S (<р) |, | В П S (<р) | и | С П S (<р) |. Для любой данной маски <р и любого множества X число масок, эквивалентных <р, которым удовлетворяет X, равно / \ ( |ВГШ \ / 1СЛЛЧ \ (Х) ~Ч| А П S (<р) |/Х U ВП S (<р) | ) Х U СП S (<р) J’ Так как мы предположили, что |5(ф)|^М, то можем быть уверены, что Мф(Х)—многочлен степени не выше N от х = |ЛП^1. г/ = |ВП^1, 2~|СПХ|. Пусть Ф — множество масок, имеющих в своих носителях не более элементов. Пронумеруем классы эквивалентности мно- жества Ф и обозначим через Ni(X) число масок t-ro класса, кото- рым удовлетворяет X. В силу теоремы об инвариантности относи- тельно групп Сумма SP/N/PO представляет собой многочлен от х, у, z степени не выше N. Обозначим его PM(x,y,z). Тогда, по определению, для тех значений х, у, z, которые могут быть числами замещений, т. е. неотрицательными целыми чис- лами, не превышающими М, Рм(х, у, z)>0 тогда и только тогда, когда x>z и y>z. Покажем при помощи ряда лемм, что это Не может выпол- няться для любого М.
Гл. 4. Теорема «и'/илЖ &7 Лемма 1. Пусть Pi(x, у, z), Ръ(х, У, z), ... — бесконечная по- следовательность таких ненулевых многочленов степени не выше N, что для всех положительных целых чисел х, у, z, меньших А4, х > z и у > г влечет Рм(х> У, z) О, I - - „ , ч । условия разделения. х<гилиг/^2 влечет Рм(х, у, z) ^.0 J г Тогда существует единственный ненулевой многочлен Р(х, y,z) степени не выше N, для которого условия разделения выполняются при всех положительных целых значениях х, у, г- Следует заметить, что нам пришлось ослабить условия разде- ления, разрешив в них знак равенства, ибо в пределе строгое не- равенство не сохраняется. Последствия этого ослабления мы по- чувствуем при доказательстве леммы 2. Доказательство. Представим многочлен т Рм (*> У, 2) = S См, t mt (х, у, z) в виде суммы одночленов nit степени не выше N от х, у, г. Так как условия на Рм сохраняются при умножении на поло- жительный скалярный множитель, можно считать, что 2 См, i = 1 • Рассмотрим в Г-мерном пространстве множество точек См~(см, ь см, 2, •••> см, т)> Al = 1, 2. Все они лежат в компактном1) множестве, а именно на еди- ничной Г-мерной сфере. Следовательно, существует подпоследова- тельность См}, сходящаяся к пределу С = (с1, с2, ст) в том смысле, что для каждого i lim см i = ct. ' /-»оо J Многочлен т Р{х, у, z)=2 Cim^x, у, z) 1 = 1 удовлетворяет условиям разделения для всех положительных це- лых значений х, у, z. Так как24= то он не Равен тождествен- но нулю. !) См. предметный указатель (см. также Б. 3. В у л и х, Введение в функ- циональный анализ, изд-во «Наука», 1967, § 3.8. — Прим, ререв.}. я*
68/, Алгебраическая теория линейных параллельных предикатов Для того чтобы доказать нашу основную теорему, получим сначала соответствующий результат для многочленов от двух пе- ременных, а затем (лемма 3) приспособим его к Р(х, у, z). Лемма 2. Если для всех целых значений а, и $ многочлен /(ос, Р) удовлетворяет условиям-. а > 0 и р > О влечет f (а, 0) О, а О или р 0 влечет f (а, р) О, то он тождественно равен нулю. Доказательство. Предположим, что многочлен f(a, р) удовлетворяет указанным условиям, но не равен тождественно нулю. Тогда его можно записать в виде f(a, Р) = Р^ («) + r (а, Р), где многочлен g(a) не равен тождественно нулю, а степень пере- менной р в r(a, р) меньше АР)• Возьмем теперь такое число ао > О, что ни одно из значений g(±ao) не равно нулю, а затем выберем такое большое число р0, что |PM±ao)l>|r(±ao’ ±Ро)|- При таком выборе значение r(±ao, ±Ро) не будет влиять на знак числа f(± осо, ±Ро). Далее, так как f(-ao, ро)<О, то g (~ «о) < °, откуда* 2) (~ Ро)дгg(~ a0)>0 и, следовательно, f(-a0, -ро)>О, что противоречит условиям и тем самым доказывает лемму. ’) Здесь А обозначает не степень многочлена, а максимальную степень пере- менной р. — Прим. ред. 2) Авторы здесь опустили часть доказательства. Полное доказательство та- f (ao> Ро) > 0 РоД (ао) > f (~ ао> Ро) 0 ф Ро g ( — Яд) < О ф g (— а0) < О, Г (а0, — р0) < 0 ф (— P(l)v g (а0) < о ф (- ро)v < О, откуда (—Po)wg(ao) >$. — Прим. ред.
Гл. 4. Теорема ки/или» 69 4.2. Применение теоремы Безу Читатели, знакомые с элементарной алгебраической геомет- рией1), заметят, что лемма непосредственно вытекала бы из тео- ремы Безу, если бы указанные условия были справедливыми для всех вещественных значений а и ₽, Тогда мы просто должны были бы доказать, что бесконечная в двух направлениях линия в виде буквы L на рис. 4.2 не является алгебраической кривой. Теорема Безу гласит, что если пересечение алгебраической кри- вой L с неприводимой алгебраической кривой У содержит беско- нечное число точек, то оно должно содержать всю кривую У. Кри- вая L на рис. 4.2 содержит положительную полуось у. Так как пря- мые линии неприводимы, то L должна была бы содержать всю ось у, если бы она была алгебраической. К сожалению, наши условия выполняются только для точек с целыми координатами; поэтому мы должны допускать возмож- ность того, что кривая f(a, р) = 0 имеет более искривленную ’) См., например, Уокер Р., Алгебраические кривые, ИЛ, М., 1952, Шафа- ревич И. Р., Основы алгебраической геометрии, УМН, 24, № 6 (1969), 3—184. Плоской неприводимой алгебраической кривой называется множество всех точек плоскости с вещественными координатами (х, у), удовлетворяющими уравнению f (х, у) —0, где f(x, у)—неприводимый многочлен с вещественными коэффициен- тами. Если многочлен f(x,y) допускает разложение f = fi ... fr на неприво- димые множители ..., fr, то система неприводимых кривых Уь ..., Уг с уравнениями ft(x, у) = 0, ..., fr(x,y)=O называется приводимой алгебраи- ческой кривой V, определяемой уравнением f(x, у) = 0. Неприводимые кривые У1....Уг называются компонентами кривой У. Степень уравнения кривой f(x,y) называется порядком кривой. Теорема Безу (ослабленный вариант): Если две кривые порядков N и М имеют более NM общих точек, то они имеют общую Компоненту. — Прим, перев.
Рис. 4.4,
Гл. 4. Теорема иИ/ИЛИ. 71 форму, как, например, на рис. 4.3. Неприятное поведение этой кри- вой никак не связано с рассматриваемыми вопросами. Поскольку многочлен степени У пересекает прямую не более У раз, его вхож- дения внутрь квадрантов можно заключить в ограниченную об- ласть. Это означает, что кривая f(a, р) = О должна «асимптоти- чески занимать» часть канала, показанного на рис. 4.4. Наверное, можно было бы сформулировать обобщение теоремы Безу, из которого следовало бы, что кривая должна входить и в отрицательные части плоскости, и которое давало бы непосред- ственное и более иллюстративное доказательство нашей леммы. Однако нами это предположение не разрабатывалось. Лемма 3. Если для всех положительных целых значений х, у иг многочлен Р (х, у, z) удовлетворяет условиям х > z и у > z влечет Р (х, у, z) О, x<Jz или у z влечет Р (х, у, z)^0, то он тождественно равен нулю. Доказательство. Предположим, что Р(х, у, z) удовлетво- ряет этим условиям, но не равен тождественно нулю. Обозначим Q(a, р, z) == P(z + a, z + р, z) и запишем Q(a, р, z) = zMf (a, p) + r(a, р, z), где степень переменной z в г меньше М, а многочлен f (а, р) не ра- вен тождественно нулю. Тогда можно показать, что f удовлетво- ряет условиям леммы 2. Действительно, возьмем такие «о и р0, что f(ao, Ро)¥=О, и выберем число Zo таким большим, что ^04-a0>0> 2о 4" Ро> О и | (“о- Ро) | > | г (“о- Ро» zo) | Отсюда f(a0, Ро) >0 О Q(ao, ро, z0) >0, т. е. f(a0, Ро) > 0 тогда и только тогда, когда P(zo + ао, z0 + Ро, гь) 0. Таким образом, Яо > 0 и Ро > 0 z0 -Т a0 > z0 и z0 + Pq > Zq Р (zo + «о, zo + Ро, zo) 0 => f (ao> Ро) 0 и аналогично а0 0 или Ро < 0 f (Oq, Pq)^O. Но это справедливо для всех а0 и ро. Поэтому по лемме 2 f(a, Р) = 0. Отсюда следует, что Р(х, у, z) имеет по z нулевую сте- пень, что возможно только в том случае, если он тождественно равен нулю. На этом доказательство теоремы «и/или» заканчивается.
II. ГЕОМЕТРИЧЕСКАЯ ТЕОРИЯ ЛИНЕЙНЫХ НЕРАВЕНСТВ Введение в часть II Анализ геометрических свойств персептронов начинается в гл. 5 с изучения предиката Фсвязность’ отвечающего на вопрос, связна ли фигура X, т. е. существует ли непрерывный путь между лю- быми двумя ее точками, целиком принадлежащий X (см. § 0.5). Мы выбрали для изучения свойство связности в полной уверен- ности, что соответствующий предикат нелокален в некотором очень глубоком смысле, а потому должен бы оказаться твердым ореш- ком для любого локального по своей сути параллельного способа вычислений. Сначала мы пытались доказать, что предикат Фсвязность не имеет конечного порядка, основываясь на его повы- шенной чувствительности к малым изменениям фигуры (тонкий разрез или добавление изолированной точки легко превращает любую связную фигуру в несвязную), но нам так и не удалось провести настоящее доказательство. К плодотворным методам, хотя и косвенным путем, привело использование теоремы об инвариантности относительно групп. Напомним, что в случае предиката ФЧЕтность мы начинали с опре- деления наибольшей возможной группы преобразований простран- ства R, не изменяющих предикат ф (для предиката ^четность такой группой оказалась группа всех перестановок). Используя такую группу, мы затем объединяли предикаты ср в классы экви- валентности и в конечном итоге свели задачу о представлении предиката ф в Ь(Ф) к задаче о многочленах от функций пере- числения. Однако любая попытка непосредственного применения подоб- ного приема в случае предиката Фсвязность приводит к трудностям, связанным с представлением общего топологического преобразо- вания на дискретной сетчатке. К счастью, оказалось, что задачу можно «привести» к более простой, в которой участвуют группы, легче поддающиеся исследованию. Действительно, в § 5.1 мы по- кажем, что если бы персептрон мог различать хотя бы некоторые частные случаи связности, его можно было бы применить для мо- делирования предиката Фодин-в-влоке из § ^.2. Если бы это было
Введение в часть II 73 возможно, то логически рассуждая, мы получили бы: ^связность ~ предикат конечного порядка => =>%астный случай Связности-предикат конечного порядка => ^%дин-в-БЛОКЕ-пРедикат конечного порядка, а так как последнее неверно, то неверно и первое. В конце гл. 5 этот строго отрицательный результат, утверж- дающий, что предикат ^связность не имеет конечного порядка, обобщается на все топологические предикаты за одним единствен- ным исключением. Только эйлерову характеристику, наинизший и простейший из всех топологических инвариантов, можно распо- знать предикатной схемой конечного порядка. В гл. 6 мы получим ряд положительных результатов. Сущест- вуют предикаты, кроме упомянутых в § 0.5 ^выпуклость и ^окружность’ отражающие геометрические свойства и весьма оче- видным образом обладающие конечным (и даже довольно низким) порядком. К их числу относятся предикаты, различающие конфи- гурации типа треугольников, квадратов или букв алфавита. Неко- торые из этих свойств образуют так называемые «геометрические спектры», которые можно рассматривать или как локальные гео- метрические свойства, или как простые статистические особенности образов. Тот факт, что персептроны могут распознавать образы, связанные с этими спектрами, породил, по всей вероятности, опре- деленную долю ложного оптимизма по поводу способностей пер- септронов вообще. В конце гл. 6 мы покажем, что даже когда пер- септрон распознает каждый из этих образов в отдельности, он не в состоянии обнаружить их з сложных сочетаниях. Глава 7 ведет нас любопытным обходным путем. Оказывается, некоторые предикаты, на первый взгляд не обладающие конечным порядком (например, предикаты, указывающие на симметрию или подобие), в действительности можно реализовать предикатными схемами конечного порядка. Однако такие реализации неосущест- вимы в весьма специфическом смысле: их коэффициенты растут со столь астрономической скоростью, что теряют физический смысл. Это явление, по-видимому, служит серьезным уроком: даже в таком простом комбинаторном вопросе нужно быть начеку. Ли- нейные формы, полученные методом «стратификации», описанным в гл. 7, чем-то напоминают числа Гёделя в логике или «нестан- дартные модели» в математическом анализе. Наша интуиция в об- ласти вычислений все еще слаба, и здесь нас наверняка ждет не- мало сюрпризов. В гл. 8 изучается персептрон, ограниченный по диаметру. Здесь все намного проще, и даже не нужно алгебраической теории,
74 II. Геометрическая теория линейных неравенств чтобы получить общие отрицательные результаты. Машины, огра ниченные по диаметру, в большинстве своем подчиняются тем же требованиям, что и машины первого порядка. В некотором отно- шении они отличаются от последних: например, в способности аппроксимировать вычисления, подобные интегрированию. Это по- зволяет им с определенной точностью вычислять предикат ^окружность- Кроме того, они могут вычислять узкий класс пре- дикатов, связанных с эйлеровой характеристикой. В нашем исследовании предикат фсвязность будет играть столь большую роль, что мы посчитали целесообразным попытаться свя- зать рабочие характеристики соответствующего персептрона с ха- рактеристиками других, существенно отличных вычислительных схем. Этот предикат изучается в гл. 9 на фоне широкого многооб- разия моделей для геометрических вычислений. Мы с удивлением обнаружили, что для последовательных вычислительных машин требуется лишь весьма небольшой объем памяти. Представление геометрических образов Мы собираемся исследовать ряд интересных геометрических предикатов. В качестве первого шага нам нужно выбрать подхо дящее пространство R с топологическими и метрическими свой ствами, необходимыми для определения геометрических фигур этого мы могли не делать в случае предикатов типа четности и других, имеющих дело с подсчетом, поскольку в действительности они не носят геометрического характера. По-видимому, простейшая методика, в достаточной мере стро- гая, но еще не погрязшая в разного рода математических тонко- стях, состоит в разбиении евклидовой плоскости Е2 на квадраты по типу бесконечной шахматной доски. Множество R задается то- гда как множество квадратов. Фигура ХЕ на Е2 отождествляется с подмножеством квадратов, в которых содержится по крайней мере одна точка из ХЕ. Таким образом, любому подмножеству ХЕ в Е2 соответствует подмножество X в R, определенное следующим образом: х е X, если по крайней мере одна точка из ХЕ лежит в квад- рате х. Хотя по логике вещей X и Хе различны, их отождествление теперь не может вызвать никаких серьезных затруднений, и в дальнейшем мы будем их отожде- ствлять. Поэтому, называя подмножества множества R «окружностями», «тре- угольниками» и т. п, мы будем иметь в виду, что они получаются из настоящих окружностей и треугольников с помощью отображения ХЕ->Х. Это, разумеется, означает, что вблизи «пределов разрешающей способности» конечность размеров
Введение в часть 11 75 «ячейки» сетчатки R приводит к очевидным ошибкам классификации. Так, на- пример, малая окружность не выглядит очень округлой. Если бы возникла необходимость различать Е2 и R, мы бы сказали, что две фигуры ХЕ и ХЕ из принадлежат одному и тому же классу R-допустимых отклонений, если X = X'. Группы переносов, играющие основную роль в гл. 6—8, не доставляют никаких трудностей. Серьезная проблема, связанная с допусти- мыми отклонениями, или допусками, возникает при обсуждении в § 7.6 растя- жений и вращений. Любопытно, что при рассмотрении топологической эквива- лентности в гл. 5 эта проблема, по-видимому, не возникает, так как мы можем доказать все известные нам теоремы, не привлекая всю группу топологических преобразований.
ГЛАВА 5. ПРЕДИКАТ ^связность! ГЕОМЕТРИЧЕСКОЕ СВОЙСТВО НЕОГРАНИЧЕННОГО ПОРЯДКА 5.0. Введение В этой главе мы начинаем изучать свойство связности. Фигу- ра X связна, если она не состоит из двух или более отдельных, несоприкасающихся частей. Хотя свойство связности интересно и само по себе, мы останавливаемся на нем в основном в надежде на то, что его изучение прольет свет на более фундаментальный, хотя и плохо определенный вопрос о противопоставлении локального и глобального. Дело в том, что связность вне всякого сомнения гло- бальна. На основе отдельных локальных опытов никогда нельзя заключить, что фигура связна. Разумеется, в случае фигуры можно было бы обнаружить, что эта фигура несвязна, рассма- тривая только окрестность изолированной точки, расположенной в правом нижнем углу рисунка. Однако отсутствие такого локаль- ного свидетельства несвязности еще не позволяет сделать вывод, что фигура связна. Когда мы задаемся вопросом, которая из двух Рис. 5.1. фигур на рис. 5.1 связна, трудно представить себе какой-либо ло- кальный результат, который мог бы склонить чашу весов в сторону того или другого заключения. Это легко доказать, например, в узких рамках понятия локального как ограниченного по диаметру (см § 0.3 и гл. 8). Труднее установить это же для структуры ограничен-
Гл. 5. Предикат Фсвяз Ность 77 ного порядка. Однако случай ограниченного диаметра подсказывает: рассматривая определенный подкласс фигур, мы могли бы показать, что эта задача эквивалентна распознаванию четности или чего-то с нею сходного. Мы и собираемся сейчас поступить именно так. 5.1. Теорема о связности') Две точки в R называются смежными, если они являются квад- ратами с общей стороной* 2). Фигура связна, если любые две ее точки (т. е. «квадраты») plt р2 можно соединить путем, проходя- щим по смежным точкам. Теорема 5.1. Предикат Фсвязность И) = Г-У—связная фи- гура'] не имеет конечного порядка (§ 1.6), т. е. его порядок с ро- стом | R | неограниченно возрастает. Доказательство. Допустим, что порядок предиката фсвязносгь W меньше пг. Расположим квадраты сетчатки R в Рис. 5.2. 2т 4- 1 ряда по 4т2 квадратов в каждом (рис. 5.2). Обозначим через Уо множество заштрихованных на рисунке квадратов, т. е. множество точек в нечетных рядах, а через Ft — множество ') Мы дадим еще два других доказательства с различных точек зрения. До- казательство в § 5.5, вероятно, легче всего понять само по себе, зато доказа- тельство в § 5.7 дает больше информации о том, каким образом возрастает по- рядок с ростом сетчатки R. 2) Мы не можем считать связью угловые касания типа , так как это позволило бы двум «кривым» пройти одна сквозь другую без «пересечения», и даже теорема о жордановых кривых не была бы верна. Но эту трудность мож- но обойти, разделив £2 на шестиугольники, а не на квадраты!
78 II. Геометрическая теория линейных неравенств оставшихся квадратов. Пусть F — семейство фигур, полученных добавлением к Уо подмножеств множества У1, т. е. X е F, если X имеет вид Уо U Xi, где Х\ cz Уь Фигура X связна тогда и только тогда, когда Х\ содержит хотя бы по одному квадрату из каждого четного ряда, или, что то же, если множество Х{ удовлетворяет условию «один-в-блоке» из § 3.2. Чтобы разобраться в подробностях применения теоремы «один- -в-блоке», если это еще не очевидно, рассмотрим фигуры семей- ства F как подмножество всех возможных фигур на R. Ясно, что если бы мы имели предикат k-vo порядка Фсвязность’ способный распознавать связность на R, то мы могли бы иметь и предикат, работающий на F: им был бы тот же самый предикат с постоян- ными нулевыми значениями для всех переменных, не принадлежа- щих Уо U Уь А так как все точки нечетных рядов всегда прини- мают единичные значения для фигур в F, то это в свою очередь означает, что мы могли бы иметь предикат k-ro порядка для при- нятия решения о свойстве «один-в-блоке» на множестве Хг. им был бы тот же самый предикат, но еще более ограниченный в том смысле, что точки в Хо принимали бы постоянные единичные зна- чения. Таким образом, каждая булева функция первоначального предиката Фсвязность заменяется функцией, полученной присвое- нием некоторым ее переменным фиксированных значений, равных нулю или единице; подобная операция никогда не может увели- чить порядок функции. Но так как этот последний предикат суще- ствовать не может, то не может существовать и исходный преди- кат Фсвязность1 Из нашего доказательства следует, что порядок предиката Фсвязность не менее В § 5.7 мы покажем, что он не менее С|/?|'А 5.2. Пример Рассмотрим частный случай «один-в-блоке» для пространства k = 2 и эквивалентную задачу вида
Гл. 5. Предикат Фсвязность 79 в котором m = 3 и в каждом блоке ровно 4 квадрата. Далее, рас- смотрим предикат ф порядка 2 и покажем, что он не может харак- теризовать связность такого рода фигур. Предположим, что Ф = [2а»ф(-> 0]’ и рассмотрим эквивалентную форму, симметризи- рованную относительно всей группы перестановок, переставляю- щих ряды и квадраты внутри рядов1). Тогда существуют только три класса эквивалентности масок порядка не выше 2, а именно: отдельные точки ф1 = хг; пары точек <pillj = x.xj (х. и xs в одном и том же ряду); пары точек ф!2 = xixj (х. и xt в разных рядах). Следовательно, любой предикат порядка 2 должен иметь вид Ф = ГаЛ, (X) + auyu (X) + а12У12 (X) > 6], где A^i, Уп, 2V12— числа соответствующих точечных множеств в X. Теперь рассмотрим две фигуры: Фсвязность (*i)_ 1 Фсвязность (-4) ~ 0 В каждой = 6, Ун = 6, ЛГ12 = 9, так что значение ф одинаково для обеих фигур. Но фигура связ- на, а Х2 нет! Заметьте, что здесь ш = 3, и мы, предположив, что порядок меньше 3, получим противоречие уже при = 4, а об- щее доказательство требовало I4j|=4m2 = 36. Тот же результат можно получить и при |Дг|=3, m = 4, так как (3,1,1,!)^ = (2, 2, 2, 0) 2). Известно также, что если m = 6, то можно получить ') Заметим, что это не та же самая группа, которая фигурировала в дока- зательстве теоремы из § 3.2. Часть группы, переставляющая ряды, там не ис- пользовалась. 2) Эти цифры показывают, сколько черных квадратов в каждом из 4 блоков двух фигур, аналогичных изображенным выше. — Прим. ред.
80 II. Геометрическая теория линейных неравенств этот результат при |Aj| = 16 (Д. Штраусс). Если m = 3 и |Aj| = 3, то налицо случай предиката порядка 2, так как ^связность = (X) — 2МЦ (X) > 8]. Приведенный выше метод доказательства служит примером использования так называемого «геометрического «-точечного спек- тра»; общий принцип развивается далее в гл. 6. 5.3. Связность на основе рассечения Следует отметить, что доказательство в § 5.1 проходит не только в случае свойства связности в его классическом смысле, но и применительно к более сильному предикату: [Существует такая прямая L, что X не пересекает L и не лежит целиком по одну сторону от L.1 В общем определении связности вместо «прямая L» должно быть «кри- вая £.», и тогда можно ожидать, что для реализации общего определения потре- буется более высокий порядок. 5.4. Сведение одного персептрона к другому Мы доказали, что предикат Фсвязность Не имеет конечного по- рядка, показав сначала, что этим свойством обладает другой (и притом более простой) предикат Ч'один-в-блоке’ а затем> чт0 на определенном подмножестве фигур с помощью предиката Фсвязность м°жно вычислить предикат Фодин-в-блоке’ и потому его порядок должен быть по крайней мере таким же высоким. Конечно, есть немало других фигур, которые должен классифици- ровать предикат Фсвязность (помимо тех, которые содержат все точки из Уо; см. § 5.1), но оказывается, что достаточно изучить поведение этого предиката только на рассмотренном в § 5.1 под- классе фигур. Мы будем еще много раз использовать эту идею, но положение будет усложняться. В рассмотренном только что случае оба пре- диката определялись для фигур на одной и той же сетчатке, но в дальнейшем нам часто будет желательно установить взаимо- связь между двумя предикатами, определенными в разных про- странствах. Возможность широкого применения этого приема уста- навливается следующей простой теоремой. 5.4.1. Теорема о сжатии. Эта теорема позволит нам оценить пределы, в которых лежит порядок предиката ф, заданного на мно- жестве R, на основании сведений о порядке соответствующего ему предиката ф на множестве R.
Г л. 5. Предикат фСВЯзность 81 Пусть F— функция, связывающая с любой фигурой X в R фи- гуру X = F (X) в R. ^ЧЕТНОСТЬ Пусть ф — любой предикат на R. Он индуцирует предикат ф на R по формуле ф(Х) = ф(Г(Х)) = ф(Х). Теорема 5.4.1. Порядок предиката ф не меньше порядка пре- диката ф, если только каждая точка из R зависит не более, чем от одной точки из R в том смысле, что для каждой точки х из R либо х е X для всех X или х ф X для всех X, либо найдется такая точка х, что Гх е *1 = Г* е Л для всех X или е X] = [£ ф X] для всех X. Доказательство. Предположим, что предикат ф реали- зуется выражением К-го порядка: [2агфг>0]. Тогда предикат ф имеет реализацию [2а<Фг>0]’ где фг(Х)= фг(/7(Х)). Чтобы проверить, что |5(фг) К, вспомним, что фг зависит не более, чем от К точек из R, а они в свою оче- редь зависят не более, чем от К точек из R. Таким образом, пре- дикат ф<(Х) = фг(Г(Х)) зависит не более, чем от К точек из R.
82 II. Геометрическая теория линейных неравенств Пример. Продемонстрируем типичное применение этого по- строения (рис. 5.3). Множество R состоит из трех точек xh хг, х3. Множество R состоит из 45 точек. На рисунке они подразделяются на три класса: 8 белых, 25 черных и 12 точек, обозначенных сим- волами xt или xt. Функция F определяется следующим образом. черные квадраты, ни одного белого квадрата, квадраты, обозна- ченные Xi, только если х^еХ, и квадраты, обозначенные Xi, толь- ко если Xi ф. X. 5.5. Построение предиката по Хаффмену и /1 о И 1 D Для иллюстрации применения изложенной выше концепции мы дадим другое доказательство того, что предикат Фсвязность не имеет конечного порядка. Это доказательство основано на построе- нии, предложенном Д. Хаффменом. Идея Хаффмена заключается в том, чтобы построить пере- ключательную цепь, состоящую из п ключей, которая будет зам- кнута, если в положении «включено» находится нечетное число ключей. Тем самым проблема связности сведется к проблеме четности. Подобная схема для п = 3 показана на рис. 5.3 при сле- дующей интерпретации символов Xi и хр. когда ключ xt «включен», контакт замыкается всюду, где стоит символ х,, и разрывается там, где стоит хг, когда ключ х,- «выключен», замыкаются кон- такты xt и размыкаются контакты хг-. Нетрудно заметить, что вся цепь замкнута, а фигура связна, если включены один или три ключа. Обобщение на произвольное п очевидно: 1. Выписать члены конъюнктивной нормальной формы для пре- диката ФЧЕТНоСть’ рассматривая его как функцию точек, которая в данном случае имеет вид (xj V х2 V х3) Л (xj V *2 V х3) /\ (xj V х2 V х3) Л (xi V *2 V х3).
Гл. 5. Предикат ‘Фсвязность 2. Перевести это булево выражение в форму переключатель- ной схемы, интерпретируя конъюнкцию как последовательное сое- динение, а дизъюнкцию—как параллельное. 3. Построить персептрон, «обозревающий» положение ключей. Интуитивный смысл такого сведения одного предиката к другому заклю- чается в следующем: переключательную схему Хаффмена можно рассматривать как определение класса F геометрических фигур, связных или нет в зависимости от четности определенного множества — множества включенных ключей. Таким образом, мы видим, как можно использовать персептрон для предиката Фсвязность* заданного на множестве R, в качестве персептрона для предиката ^ЧЕТНОСТЬ1 заданного на множестве R. Будучи персептроном для ФцЕтнОСть, он должен иметь порядок не менее | R |. Поэтому и порядок предиката Фсвязность должен быть не менее I R |. Для формализации этих рассуждений можно при- менить теорему о сжатии § 5.4.1. Но сначала заметим, что их интуитивная про- стота стоит недешево: множество R намного больше множества R; фактически величина IRI должна быть порядка 21й1,так что наилучшим результатом этого построения служит вывод о том, что порядок предиката Фсвязность Д°лжен расти по меньшей мере как log | R |. Это дает более слабую, чем в § 5.1, ниж- нюю границу, а именно log | R I вместо | R Р’. Чтобы воспользоваться теоремой о сжатии, возьмем в качестве трехточечное пространство, описанное в конце § 5.4. Тогда пре- дикат ФЧЕТНОсть на # будет равносилен предикату Фсвязность для тех фигур на /?, которые можно получить, применяя F к фигурам на R. Из теоремы о сжатии вытекает, что порядок предиката Фчетность превышает порядка предиката Фсвязность* 5.6. Связность на тороидальной сетчатке Самые первые наши попытки доказать, что связность обладает неограниченным порядком, привели к любопытному результату. Теорема 5.6. Предикат Фсвязность на сетчатке размера 2п X 6, представляющей собой поверхность тора, имеет порядок не меньше п.
84 II. Геометрическая теория линейных неравенств и отождествим в нем е с е' и f с f' (см. также рис. 2.5). Рассмот- рим далее семейство F подмножеств X из R, удовлетворяющих следующим условиям: 1. Все заштрихованные на рисунке квадраты принадлежат каждому X е F. 2. Для каждого Хе F и каждого i либо обе точки аг-, либо обе точки bi принадлежат X; никакие другие комбинации недопустимы. Тогда можно показать, что каждое множество XeF либо имеет одну связную компоненту, либо подразделяется на две связные фигуры, причем это зависит лишь от четности числа пар точек cii в X. А теперь из теоремы о сжатии и теоремы из § 3.1.1 легко вытекает, что порядок предиката фСВЯЗНость не менее |/?|/12. Идея теоремы 5.6 возникла из попытки свести связность к четности непо- средственно с помощью переключательной схемы, приведенной на рис. 5.4. Если в нижнем положении находится четное число ключей, то х связан с х', а у с у'. Если число таких ключей нечетно, то х связан с у', а у с х'. Эту схему можно изобразить на плоскости, проводя вертикальные соединения вокруг конца (см. рис. 5.11). Нетрудно найти тогда, что порядок предиката Г* связан с х'1 равен некоторой константе, умноженной на |^|1/2. Если ввести на R топо- логию тора, то (§ 5.6) порядок будет выше, чем а | R |, где а — константа, не превышающая 1; то же справедливо и для трехмерного евклидова пространства R. Все это решительно наводит на мысль, что наша граница для порядка преди- ката ‘Фсвязность в случае плоскости чересчур низка. 5.7. Лучшая граница для порядка предиката Фсвязность на плоскости Мы покажем сейчас, что для двумерных фигур порядок преди- ката Фсвязность не ниже const - (|^|1/2). Для этого мы так моди- фицируем рис. 5.4, чтобы х и х' были связаны. Это легко сделать для тора, а для плоскости мы долго считали, что это выполнить невозможно. Назовем 4-ключом пару фигур, изображенных на рис. 5.5. Лег- ко видеть, что в нижнем положении точка pi связана с
Гл. 5. Предикат 'Фсвязность 85 где (/)< — остаток при делении / на 4. В верхнем положении точка pt связана с q(i_w Рассмотрим теперь показанный на рис. 5.6 результат после- довательного соединения п таких ключей. Рис. 5.5. В этой схеме осуществляется простая итерация действия одного 4-ключа. Действительно, если d ключей опущены, а и ключей под- няты^, то точка pt связана с для всякого I. Так как каждый ключ либо поднят, либо опущен, то d + и = п и, следовательно, 4(i+d~uU~ ^(i+2d~n),‘ i) Первые буквы английских слов down (здесь «опущен») и up (здесь «под- нят»). — Прим, перев.
р0 р0 Рх р? Нечетное Рис. 5.7. Четное Нечетное Рис. 5.8. Опущен Рис. 5.9.
Гл. 5. Предикат Фсвязность 87 Заметим, что индексы у q зависят только от четности d. В самом деле, (х + 2 (d + 2) К = (х + 2d + 4)4 = (х + 2d)$. Добавим фиксированные связи, соединяющие точки 9(1~п)4> 9(2-п)4 и ^(з-п)г Тогда, если d четно, то связаны pi, р%, рз, а если d нечетно, то связаны рз, ро, pi. В каждом случае щ и р3 связаны, так что можно пренебречь, скажем, р3. Поэтому связность системы принимает одно из двух состояний в зависимости от четности числа опущенных ключей. Эти состояния показаны на рис. 5.7. Чтобы доказать нашу теорему, свяжем р\ и р2 (рис. 5.8). Оста- ется только осуществить 4-ключи в деталях. На рис. 5.9 показаны рассматриваемые конфигурации. Напомним, что не является связью. Если выполнить полное построение схемы, состоящей из п ключей, то ее длина будет примерно 5п квадратов, а вы- сота примерно 2п + 12 квадратов, так что число ключей может расти пропорционально |/?|‘К Из этого следует, что порядок пре- диката Фсвязность Растет п0 крайней мере так же быстро, как | R | V». Законченная конструкция для п = 4 представлена на рис. 5.10. Теперь необходимо убедиться, что в схеме не осталось «заблу- дившихся» соединительных линий, не связанных в конце концов с ро, pi или р2- Это можно сделать, изучив рис. 5.6. Кроме того,
88 II. Геометрическая теория линейных неравенств можно проверить, что не образовалось замкнутых контуров, кро- ме одного, указанного в левой части рис. 5.8. Замысел теоремы 5.6 возник из нашего наблюдения, что в плоском варианте рисунка 5.4 (см. рис. 5.11) pt «—>qx, p2-^>-q2 для одной четности и Д|-«—>q2, Pn-^f-qt для другой. Если бы мы смогли ввести постоянную добавочную прямую связь между pi и qit то вся сеть была бы связна или несвязна в зависимости от этой четности. Но топологически это невозможно, и так как нам казалось, что нужное построение неосуществимо, мы избрали окольный путь, основанный на доказательстве и применении теоремы «один-в-блоке». И лишь позднее мы осо- знали, что связь pi*—><?| можно было бы осуществить если не непосредственно, то «динамически», при помощи конструкции, изображенной на рис. 5.8. 5. 7.2. Порядок предиката Фсвязность как функция от |/?|. Ка- ков же порядок предиката Фсвязность на самом деле? Напомним, что в основе использованных нами методов доказательства лежит (§ 5.0) рассмотрение не всех фигур, а лишь особых подклассов с определенными комбинаторными свойствами. Поэтому даже ве- личина (§ 5.6) является лишь нижней границей. Мы ду- маем, что порядок не может быть менее |7?|/2. Что же касается числа требуемых предикатов ср, то теорема 3.1.2 и результаты на торе дают нам величину не менее 2,д|/12, но и она является только нижней границей, и можно подозревать, что необходимы почти все маски. Другое направление рассуждений наводит на мысль о том, что можно получить число порядка логарифма количества связных фигур, но это, по всей видимости, не намного уменьшает показатель степени. Изучение построения на торе (§ 5.6) может вызвать подозре- ние, что результат «порядок предиката Фсвязность не ниже |Д|/12» искусствен, так как для его получения был использован длинный узкий тор. Разумеется, в случае «квадратного» тора мы не могли бы получить этот результат из-за той площади, которую
Гл. 5. Предикат Фсвязность 89 должны были бы покрыть вспомогательные перемычки. Это не- сколько порочит полученный результат. С другой стороны, можно показать, что в случае трехмерного пространства R для некоторой умеренной величины К порядок предиката ’Фсвязн0сть не менее | R | /К. Трудно поверить, что такую большую роль играет разли- чие в размерности. 5.8. Топологические предикаты Мы уже видели, что предикат [фигура X связна] не имеет конечного порядка, а вскоре мы убедимся, что конечного порядка не имеет и предикат [X содержит дыру]. Довольно странно, но предикат [фигура X связна или содержит дыру] имеет конечный порядок, хотя по отдельности каждый из состав- ляющих его предикатов этим не отличается — пример, полностью противоположный явлению «и/или». Мы докажем это с помощью конструкции, использующей эйлерову характеристику для ориен- тируемых геометрических фигур. 5.8.1. Формула Эйлера для многогранников. Двумерные фигуры обладают топологическим инвариантом ), который в случае много- гранников задается формулой В(Х) = |грани (X) | — | ребра (X) | +1 вершины (Х)|. ') Для наших целей под «топологическим инвариантом» подразумевается здесь предикат, не изменяющийся при деформациях фигуры с сохранением связ- ности или свойства быть внешней или внутренней частью фигуры.
00 11. Геометрическая теория линейных неравенств Примеры, иллюстрирующие эту формулу, приведены на рис. 5.12, где указаны соответствующие числа граней1), ребер и вершин. При использовании этой формулы заранее предполагается, что фигуру можно так рассечь на достаточно малые части, чтобы каждая «грань» оказалась простой, т. е. не содержала дыр. Инте- ресно, что число В(Х) будет одним и тем же для любого рассече- ния фигуры X, отвечающего этому условию. В нашем многообразии фигур, составленных из квадратов шах- матной доски, В(Х) можно вычислить при помощи линейной сум- мы G(X) низкого порядка, равной G (X) = 2 «Л + 2 ai/XiXj + 2 ^i!kixiXixhxb где at = / для каждой точки 8 R, а'у= -/ для каждой смежной пары a,jM= < 8дя каждого квадрата "" 1 вершины ребра грани На фигурах на шахматной доске значения G(X) и В(Х) пол- ностью совпадают, если только нет угловых касаний типа Когда в подобных случаях они различаются, наше определение связности требует знания величины G(X). Важность величины G(X) в нашей теории объясняется тем, что, хотя эта величина в высшей степени локальна (действитель- но, ограничена по диаметру и имеет конечный порядок), она экви- валентна глобальной формуле2) Е (X) = | компоненты (X) | — | дыры (X) |. Компонентой фигуры называется множество всех точек, свя- занных с данной точкой. Дырой фигуры называется компонента дополнения к фигуре. Мы предполагаем, что расположенное вокруг фигуры «окру- жающее пространство» не является дырой. Кроме того, мы будем считать, что, когда речь идет о дополнении к фигуре, «угловое ка- сание» служит связью. Теперь мы докажем, что локальная формула G(X) и глобаль- зая формула Е(Х) эквивалентны. Сначала дадим довольно пря- мое наглядное доказательство. Затем в § 5.8.2 приведем доказа- *) Гранью двумерной фигуры называется здесь заштрихованная часть пло- кости, ограниченная со всех сторон некоторыми ребрами и ие пересекаемая гругими ребрами. — Прим. ред. 2) Это формула Эйлера; величина Е(Х) называется эйлеровой характери- тикой. — Прим. ред.
Гл. 5. Предикат 'Фсвязность 91 тельство другого рода, в основе которого лежит деформация од- ной фигуры в другую; это позволит лучше понять доказательство основной теоремы в § 5.9. Начав с одного квадрата и добавляя квадраты последователь- но друг за другом, можно получить любую фигуру X. Для един- ственного квадрата G(X) = E(X)=\. Добавление квадрата, не смежного ни с каким квадратом, принадлежащим X, прибавляет единицу к G(X) и (так как это новая компонента!) прибавляет единицу к Д(Х). Добавление квадрата, смежного с одним и только одним квад- ратом, не может изменить Е(Х) и прибавляет ровно 1 — 1+0 = 0 к G(X). Если добавляется квадрат, смежный с двумя другими, то воз- то к G прибавляется 1 —2+1=0, так что G остается без измене- ния; не изменяется в этом случае и Е(Х~). Но если новый квад- рат связывает два других, которые не были еще соединены, или то приращение к G равно 1—2 + 0 = —1, причем Е(Х) тоже уменьшается на единицу, так как мы соединили две части, бывшие до этого разделенными. Если же добавляемый квадрат связывает два квадрата, уже соединенных каким-то путем, то отсекается область пространства — образуется дыра, умень- шающая Е на единицу, и G снова изменяется на 1—2 + 0 = —).
92 II. Геометрическая теория линейных неравенств Наконец, случаи соседства с тремя и четырьмя квадратами: полу- чаются фигуры типа или что прибавляет 1 —3 + 2 = 0 и 1 —4 + 4=1. Заметим, что в по- следнем случае G увеличивается на единицу, а дыра в конечном счете заполняется. Итак, в каждом случае либо G остается без изменения, либо изменяется топология фигуры X. (Все это соответ- ствует рассуждениям в алгебраической топологии о добавлении ребер и клеток к цепным комплексам.) Таким образом, доказана Теорема 5.8.1. Е(Х) = G(X). Из нее немедленно вытекает, что предикат FG(X) < п\ реали- зуется выражением порядка не выше 4. Это приводит к некоторым любопытным замечаниям: если нам задано, что фигуры X могут быть только связными (т. е. однокомпонентными), то машина 4-го порядка может распознавать предикаты ГХ не содержит дыр] = FG (X) > 0] и, например, FX содержит менее 3 дыр] = FG (Х)> — 2]. Но, разумеется, отсюда не следует, что персептрон конечного по- рядка может распознавать эти предикаты независимо от каких- либо условий. Этот топологический инвариант крайне «локален» по своей природе — в самом деле, все предикаты <р удовлетворяют весьма жестким ограничениям диаметра! Возвращаясь теперь к нашему первоначальному утверждению, заметим, что FG (X) = n] = (FG (X)<nWG(X)>nJ). Согласно теореме 1.5.4, порядок предиката FG(X) = ЛЯ не выше 8. Но при доказательстве этой теоремы строятся произведения пре- дикатов ф, причем эти произведения не ограничены по диаметру. В § 8.4.3 мы покажем, что при помощи персептронов, ограничен- ных по диаметру, предикат ГС(Х) = ЛП реализовать нельзя. 5.8.2. Деформация фигур в стандартные формы. В ходе доказа- тельства теоремы § 5.8.1 мы видели, что величина G одинакова для любых фигур X и У, имеющих одно и то же значение Е = |компоненты| — |дыры|. Теперь мы покажем, что можно по- строить последовательность фигур X, ,,., , У с одним и
Гл. 5. Предикат 'Фсвязность 93 тем же значением G = Е, каждая из которых получается из пре- дыдущей некоторым локальным изменением1). Легко понять, как можно «гладко» деформировать фигуры, не изменяя значения G или Е, т. е. не изменяя дыр и компонент. Например, последователь- ность увеличивает дыру. Заметим, что компоненту Со, лежащую внутри дыры Н\ другой компоненты С\, можно вывести в окружающее пространство, не изменяя Е(Х) и G(X). Предположим для про- стоты, что Ci соприкасается с окружающим пространством, а Со «просто» находится в Н\, т. е. никакая другая компонента, кроме Сь не окружает Со, как например, С' на фигуре Тогда Со можно убрать из Hi рядом деформаций, в ходе ко- торых Н\ сначала оттягивается к периферии а затем Со временно присоединяется к Сь *) Авторы не дают точного определения этого понятия. По-видимому, имеет- ся в виду изменение одной или нескольких соседних ячеек сетчатки. — Прим, ред-
94 II. Геометрическая теория линейных неравенств Заметьте, что такая деформация не изменяет величины G(X). Точно так же, поскольку и С, и Н уменьшаются на единицу, та- кая деформация не изменяет величины Е(Х)=С(Х)— Н(Х) )• Далее деформируем Cj так, чтобы вывести Со в окружающее про- странство и отсоединить, получая при этом значения G(X) и Е(Х) не изменяются. Ясно, что в конце концов мы можем очистить все дыры, повторив эту процедуру для каждой внутренней компоненты и выведя ее таким образом в окружающее пространство. Выполнив это, мы получим некоторое число компо- нент, в каждой из которых может находиться несколько чистых дыр и которые можно деформировать в фигуры стандартного вида Далее, обращая операцию перехода от фигуры 6 к фигуре 7, мож- но соединить любую компоненту, имеющую дыру, с любой другой компонентой: Так можно одновременно уменьшать и С, и Н, пока Н не станет равным нулю или С равным единице. Тогда получится *) С (X) = | компоненты (X) |, Н(Х) = | дыры (Х)|. — Прим, ред,
Г л. 5. Предикат ФСВЯЗНость 95 либо либо — п ---- компонент -«-----т ------->- дыр и соответственно либо G(X) = Е(Х) = п, либо G(X)=£(X) = 1— т. Мы будем использовать этот общеизвестный результат в сле- дующем параграфе. 5.9. Топологические ограничения персептронов Теорема 5.9. Все топологически инвариантные предикаты конечного порядка являются функциями от эйлеровой характери- стики Е(Х). Мы уже доказали соответствующую теорему для персептрона, ограничен- ного по диаметру, и высказали предположение, что то же верно и в случае ограниченного порядка, но доказать последнее не сумели. Это было установлено М. Петерсоном; § 5.9.1 целиком основан на его идее. 5.9.1. Заполнение дыр. Пусть С(Х)^2 и Я(Х)^1. Возьмем дыру Но в компоненте Со. Пусть С\ — компонента, «доступная» для Со, т. е. имеется путь Ан от граничной точки фигуры Со до граничной точки фигуры Сь не пересекающий X (в других точ- ках.— Ред.). Пусть РОо — путь внутри Со от точки на границе дыры На до точки на другой границе фигуры Со, причем Роо и Poi связаны.
96 11. Геометрическая теория линейных неравенств Такой путь Pqo всегда можно найти, даже если С\ находится вну- три Но, или полностью вне Со, или внутри какой-то другой дыры в Со. Если ф(Х)—топологически инвариантный предикат, то его зна- чение не меняется при деформациях типа Предположим, что нам разрешено заменить следующим обра- зом связи внутри прямоугольника:
Г л. 5. Предикат Фсвязность 97 В сущности, это значит разрезать вдоль Роо, устранив дыру, и сое- динить вдоль одной стороны пути Р01, уменьшив на единицу число компонент. Таким образом, величина Е(Х) не изменится. Покажем, что эти деформации не влияют на величину пре- диката ф! Пусть ф имеет k-й порядок. Будем деформировать фигуру X до тех пор, пока в прямоугольнике не окажется каскад из k + 1 4-ключей (см. рис. 5.6 и 5.7). Это не изменяет топологии, так что ф остается тем же. Затем рассмотрим 2ft+I вариантов фигуры X, получаемых за счет 2'<+I состояний каскадного ключа. Если зна- чение ф одинаково для всех них, то, очевидно, можно провести изменение тривиальным образом, не воздействуя на ф. Если два варианта дают разные значения, скажем ф(Х') =р ф(Х"), то они должны отвечать различным состояниям четности ключей, поскольку ф — топологический инвариант. Но коль скоро это так, то ф должен быть способен указывать четность этого ключа, так как все фигуры X данного класса четности топологически эквива- лентны (подробности см. в § 5.7). Но, как мы знаем, согласно теореме о сжатии, этого не может быть: при проверке четности предикат ф должен «сбиться», если порядок задачи превышает k. Поэтому все фигуры, полученные изменением позиций ключей, дают одно и то же значение ф, и можно применить преобразова- ния, описанные в § 5.8.2, не изменяя значений ф. 5.9.2. Каноническая форма. Используем метод § 5.9.1 и § 5.8.2, чтобы привести произвольную фигуру X к канонической форме, зависящей только от Е(Х). Будем повторять прием, описанный в § 5.8.2, до тех пор, пока не исчерпаем все (лишние. — Ред.) дыры или компоненты. Должна остаться либо (1) единственная компонента с одной или более дырами, либо (2) одна или более простых сплошных компонент в зависимо- сти от выполнения условия Е(Х)^.О. В случае (1) окончательная фигура топологически эквивалент- на фигуре типа дыр с 1—Е(Х) дырами, а в случае (2) она эквивалентна фигуре типа — п ---- компонент
98 II. Геометрическая теория Линейных неравенств с Е(Х) сплошными квадратами. Тогда очевидно, что для любых двух фигур X и X', для которых Е(Х)= Е(Х'), должно быть ф(Х) = ф(Х'). Это доказывает теорему 5.9, утверждающую, что предикат ф(Х) зависит только от Е(Х). Замечание. Имеется одно исключение из правила, сформулированного в виде теоремы 5.9, поскольку каноническая форма не включает случай пол- ностью пустого изображения! Дело в том, что предикат Гфигура X непустая] является топологическим инвариантом, но не будет функцией от Е(Х). См. § 8.1.1 и 8.4. Кроме числа компонент фигуры X и величины G(X), существует много дру- гих топологических инвариантов, например ("компонента фигуры X находится внутри дыры в другой компоненте]. Из теоремы § 5.9, таким образом, следует, что никакой предикат конечного порядка не в состоянии отличить фигуру, содержащую внутри себя другую фи- гуру (левый рисунок), от фигуры, не содержащей других (правый рисунок). Задача. Что даст подобный анализ топологических преди- катов в пространствах большего числа измерений? Можно ли ин- терпретировать 2 “гфг как коцепь на симплициальном комплексе, в котором пороговая операция как-то разумным образом опре- делена?
ГЛАВА 6. ГЕОМЕТРИЧЕСКИЕ ОБРАЗЫ МАЛОГО ПОРЯДКА: СПЕКТРЫ И КОНТЕКСТ 6.0. Введение к главам 6 и 7 В гл. 6 и 7 исследуются предикаты, геометрические в более строгом смысле, чем связность. Типичным примером рассматри- ваемых задач служит распознавание всех переносов фигуры или класса фигур. В некотором смысле результаты получаются более положительными, чем в предыдущей главе. Многие подобные задачи можно решить с помощью персептронов низкого порядка, и стержневой осью этих двух глав будут два способа построения геометрических предикатов, порядок которых зачастую порази- тельно мал. Некоторые специальные вопросы, излагаемые в настоящем введении, могут быть не до конца поняты до тех пор, пока не бу- дет прочитана гл. 7. Введение предназначено (если читать его в соответствующем настроении), чтобы создать атмосферу опре- деленной взаимосвязи всех этих результатов и наблюдений. Всякий раз, когда можно применить теорему об инвариантно- сти относительно групп, изучение инвариантных предикатов малого порядка сводится к изучению нескольких типов элементарных ло- кальных предикатов. Чем больше группа, тем меньше и проще этот набор элементарных предикатов. Поскольку предикат Фчетность инвариантен относительно наибольшей возможной группы (группы всех перестановок), мы смогли использовать для соответствующих элементарных предикатов простые маски, рассор- тированные в соответствии с размерами их носителей. Геометриче- ские предикаты, представляющие интерес, не выдержат подобных коренных преобразований. Такие группы, как переносы или общие перемещения фигуры как твердого тела, ведут к более многочис- ленным типам эквивалентности частных предикатов. Фигуры, удо- влетворяющие инвариантным предикатам, будут тем не менее полностью охарактеризованы наборами чисел, указывающих, ка- кому количеству частных предикатов каждого типа эти фигуры удовлетворяют. Мы будем называть такие наборы спектрами. В гл. 6 мы покажем, как их применять. Глава 7 посвящена совершенно иному способу построения гео- метрических предикатов. Всякий раз, когда можно подходящим образом упорядочить группу, можно выполнить стратификацию множества фигур, эквивалентных данной фигуре относительно 4*
100 II. Геометрическая теория линейных неравенств этой группы, используя номер элемента группы, необходимого, чтобы осуществить преобразование. Поэтому мы можем (во мно- гих интересных случаях) разделить задачу распознавания на две части: распознать страт, к которому принадлежит фигура, а затем употребить простое испытание, соответствующее этому страту). Внешне такое описание выглядит скорее как последовательное, а не параллельное вычисление, и действительно, оно вызывает интерес, в частности, тем, что предлагает по крайней мере один путь моделирования последовательного, или условного, процесса при помощи параллельной процедуры. Естественно, за такое моделирование приходится расплачи- ваться. Предлагаемый метод ведет к исключительно большим ко- эффициентам получаемых линейных представлений. Само по себе это не исключает существования другой методики, позволяющей добиться того же самого результата меньшей ценой. Поэтому (в гл. 10) мы приходим к новой области исследования — границам коэффициентов — и к ряду занимательных, хотя до конца еще не понятых, результатов. Напомним, что, доказывая теорему об инвариантности отно- сительно групп, мы предполагали, что группа конечна. Упорядо- чение, используемое нами при стратификации, предполагает беско- нечность группы (например, переносы на бесконечной плоскости упорядочены очевидным образом), но если при помощи описанного в § 5.6 построения на торе сделать группу конечно-циклической, то упорядочение станет невозможным. Когда мы впервые столкну- лись с таким противоречием, мы сочли технику стратификации и технику, связанную с инвариантностью относительно групп (спектры и т. п.), нигде не пересекающимися направлениями ис- следований. Но дальнейшее изучение свело их вместе, по-види- мому, в довольно глубоком смысле. Мы в самом деле можем в ряде бесконечных случаев спасти теорему об инвариантности от- носительно групп, полагая, что коэффициенты ограничены. Допу- стим, например, что ф(Х) —предикат, определенный для конечных фигур X на бесконечной плоскости и инвариантный относительно группы переносов. Тогда его можно представить в виде беско- нечной линейной формы, например Ф(Х) = |’2афФ(Х)>0], где Ф — бесконечное множество (например, множество масок), выбранное так, чтобы для любой конечной фигуры X все слагае- мые, кроме конечного числа, равнялись нулю. Далее, если коэф- фициенты аф ограничены, можно применить (согласно теореме 10.4.1) теорему об инвариантности относительно групп. В некото- рых случаях получаемый при этом порядок превышает порядок, подучаемый на осноре стратификации. Противоречие можно устра-
Гл 6. Гео метрические образы малого порядка 101 нить, только придя к заключению, что нельзя ограничивать коэффи- циенты аф для любого представителя низкого порядка. Поэтому огромная величина коэффициентов, которую дает наша методика стратификации, не следует просто из неудачного алгоритма (хотя, конечно, фактические значения коэффициентов могут быть лю- быми, поскольку не было доказано, что они минимальны). Разумеется, нам было очень приятно обнаружить, что кажу- щееся на первый взгляд ограничение нашей излюбленной теоремы в действительности позволило получить ценный результат. Нам ка- жется, что это намного интереснее, чем сама проблема величины коэффициентов (и ее приложения). В этом нас убеждает устой- чивое проявление глобальной структуры группы преобразований. Рис. 6.1. Предикат ^ПРЯМОУГОЛЬНИК не отвергает только фигуру 1. Преди- кат 'ФпРяМОугОЛЬНик-В-КОНТЕКСТЕ отвергает только фигуру 6. Долгое время мы были уверены, что распознавание всех перено- сов данной фигуры принадлежит к задачам высокого порядка. Стратификация показала, что мы ошибались. Но мы оказались не в состоянии найти предикаты низкого порядка для соответ- ствующей задачи, когда группа содержит большие конечные цик- лические подгруппы, как, например, вращения или переносы на торе, и продолжаем вынашивать предположение, что такие задачи не являются задачами конечного порядка. В дополнение к «положительным» результатам гл. 6 мы дока- жем одну «отрицательную» теорему, имеющую большое практиче- ское значение. Она относится к распознаванию фигур в контексте. С помощью предиката низкого порядка легко решить, является ли данная фигура, скажем, прямоугольником. Задача нашего нового типа состоит в том, чтобы решить, содержит ли данная фигура прямоугольник и, быть может, что-то еще (рис. 6.1). Кажется очевидным, что распознавание в контексте должно быть до некоторой степени более трудной задачей, требующей, быть может, более высокого порядка. Мы покажем (§ 6.6), что дело обстоит еще хуже: такое распознавание не обладает даже конечным порядком! Наконец, следует отметить, что нам снова удалось обойти необходимость применения теории допустимых отклонений и избежать ограничений, которые дает использование массивов
102 II. Геометрическая теория линейных неравенств квадратных ячеек. В случае группы переносов эта проблема не йозникает. Она возникает в случае группы вращений; однако мы излагаем все, что необходимо, в рамках поворотов на 90°. Более серьезные затруднения вызывает группа подобия: растянуть фигуру довольно легко, но как сжать малую фигуру? Оказалось, что мы об этой группе не можем сказать ничего интересного. Мы призы- ваем будущих исследователей быть менее малодушными. В § 6.1—6.4 мы покажем, что определенные образы имеют порядок 1, другие 2, порядок третьих не превышает 3 и соответ- ственно 4. Нижняя граница порядков для большинства случаев еще не установлена, и у нас нет для этого систематических ме- тодов. 6.1. Геометрические образы порядка 1 Когда мы говорим «геометрическое свойство», мы имеем в виду что-то инвариантное относительно переноса, или вращения, или растяжения. Сочетание первых двух инвариантностей определяет «конгруэнтную» группу преобразований, а наличие всех трех дает фигуры, «подобные» в евклидовой геометрии. Мы уже знаем, что для первого порядка все коэффициенты можно считать равными1). Поэтому единственные образы порядка 1 это те, которые опре- делены с помощью одного сечения интервала значений мощности множества, т. е. площади фигуры X: ф = Г|Л’|>Д] или ф = П X |<Д]. Замечание. Если инвариантность относительно переносов не требуется, то персептроны порядка 1 могут, разумеется, вычис- лять и другие свойства, например, связанные с моментами отно- сительно данных точек или осей (§ 2.4.1). Но эти свойства не «гео- метричны» в том смысле, что не обладают нужной инвариантно- стью. Поэтому, несмотря на возможную практическую значимость этих свойств, мы в дальнейшем не будем их рассматривать2). 6.2. Образы порядка 2, спектры расстояний При k = 2 положение усложняется. Как показано в § 1.4, при- мер 3, можно определять двойное сечение, или сегмент At < А < А2, для площади множества и распознавать фигуры, *) Во всех теоремах этой главы предполагается, что теорему об инвариант- ности относительно групп применить можно, даже несмотря на то, что группа переносов не является конечной. На самом деле эту теорему можно применить, если (теорема 10.4.1) коэффициенты ограничены, а для первого порядка ее мож- но применять всегда. Кроме того, есть немало других достаточных условий. В § 7.10 мы обнаружим, что теорема эта не всегда пригодна. Хорошего общего метода проверки возможности ее применения у нас нет, но, конечно, в любой физической машине коэффициенты будут ограничены! 2) См., например, работу Питтса и Маккаллока [1947] о следящей системе центрирования глаза, использующей, в сущности, предикат первого порядка.
Гл. 6. Геометрические образы малого порядка 103 удовлетворяющие предикату Ф = ГЛ <| X |< л21. Действительно, в общем случае всегда можно найти функцию 2&-го порядка, распознающую множество, величина площади ко- торого заключена в любом из k интервалов. Но вернемся к обра- зам, имеющим геометрическое значение. Рассмотрим сначала толь- ко группу переносов и маски второго порядка. Здесь две маски X]X2 и х(х2 эквивалентны тогда и только тогда, когда векторы -------* -----7* X] — х2 и Xj — х2 равны rio величине (знаки могут быть любые). Таким образом, по отношению к группе переносов любой предикат порядка 2 мо- жет зависеть только от «спектра разности векторов», определяе- мого как последовательность чисел эквивалентных пар точек, причем каждой паре значений длины вектора и угла наклона со- ответствует некоторое множество эквивалентных пар точек. Две обладают одними и именно: теми же спектрами разности векторов, а „Векторы11 Число пар 4
104 II. Геометрическая Теория линейных неравенств Следовательно, никакой предикат порядка 2 не может выполнить классификацию, инвариантную относительно переносов, при кото- рой бы эти две фигуры различались. Действительно, из теоремы об инвариантности относительно групп непосредственно следует Теорема 6.2. Пусть ф(Х)— предикат второго порядка, инва- риантный относительно переносов. Обозначим через nv(X) число пар точек в X, разность которых равна вектору v. Тогда преди- кат ф(Х) можно записать в виде Доказательство. nv предикатов в классе (Dv удовлетво- ряются при любом переносе фигуры X. По теореме 2.3 всем им можно присвоить один и тот же коэффициент. Следствие. Две фигуры с одинаковым спектром перено- сов1) nv нельзя отличить одну от другой при помощи инвариант- ного относительно переносов персептрона второго порядка. (См., однако, сноску к § 6.1.) И обратно, если спектры различны, например, nV1 (Л) < nv, (В), то при помощи предиката [nv, (X) < nVl (В)] можно различить пере- носы обеих фигур. Но классы, составленные из разных фигур, та- ким способом различить нельзя. Пример. Предикаты порядка 2 не способны отличить фигуры обладающие различными спектрами разности векторов, можно отличить друг от друга. Если мы потребуем еще и инвариантность относительно вращений, то последнюю пару фигур также нельзя будет различить, поскольку классы эквивалентности объединяют теперь все разности одной длины вне зависимости от их ориента- ции. ’) Авторы употребляют термины «спектр переносов» и «спектр разности векторов» для обозначения одного и того же понятия. — Прим. ред.
Гл 6 Геометрические образы малого порядка 105 Заметим, что мы не допускали отражений, и все же зеркально противоположные фигуры попали в один класс! В подобных во- просах полагаться на «интуицию» можно лишь с большой осто- рожностью. Теория общей инвариантности относительно вращений требует особого внимания к эффекту дискретной аппроксимации на сетчатке, но эту теорию можно, по-видимому, сделать состоя- тельной при помощи подходящей теории допустимых отклонений. Что же касается «группы» растяжений, то здесь возникают серь- езные трудности. (Для группы, порождаемой поворотами на 90°, приведенный выше пример не годится, но зато хорошо работает следующий пример.) Интересным примером фигур, различных с точки зрения вра- щений, но тем не менее неразличимых при k = 2, служат фигуры характеризуемые одинаковыми спектрами расстояний между рядка), а именно: (не зависящими от направления) парами точек (для второго по- 1х; — Х/|=1 для четырех пар I Xi-xs |= У”2 для двух пар |Xj —Х;| = 2 ДЛЯ двух ПЭр |х{ — Xj\=V5 для двух пар Каждая фигура содержит по 5 точек (спектр первого порядка). Теорема об инвариантности относительно групп (§ 2.3) гласит, что любой персептрон, инвариантный относительно группы, должен зависеть только от «чисел замещения» образа, т. е. как раз от рассмотренных здесь «геометрических спектров». Множество дру- гих проектов «машин для распознавания образов» (не персептро- нов и соответственно не выражающихся просто в виде линейных форм) тоже можно лучше понять, изучив их взаимосвязь с теорией
108 II. Геометрическая теория линейных неравенств таких геометрических спектров. Однако маловероятно, чтобы по- добный анализ внес ощутимый вклад в изучение более «описа- тельных», или, как иногда говорят, «синтаксических», систем ана- лиза окружающей действительности, в защиту которых втайне вы- ступают авторы. Еще один пример предиката порядка 2 дает предикат [фигура X лежит в пределах одной строки или столбца и содержит не более п отрезков!, который определяется как И Ш (все пары, не лежащие на одной прямой) 6.3. Образы порядка 3 6.3.1. Выпуклость. Особый интерес представляет предикат ^выпуклость (X) = [X — одна сплошная выпуклая фигура!. Этот предикат имеет порядок не выше 3, что следует из самого Определения «выпуклости»: фигура X выпукла тогда и только тогда, когда каждый отрезок, концы которого принадлежат X, це- ликом принадлежит X. В самом деле, из определения выпуклости следует, что фигура X выпукла тогда и только тогда, когда а&Х и b еX=ф(внутренняя точка отрезка [а, Ь])^Х, а потому предикат ^выпуклость (Я) = Г 2 [внутренняя точка отрезка [а, Ь] I а, Ъ^Х не принадлежит Х!<1"| имеет порядок не выше 3, и, по всей вероятности, равный 3. Это конъюнктивно локальное условие; такие условия были подробно рассмотрены в § 0.2. Если связная фигура не Выпукла, то можно показать, что в ней содержится по крайней мере одна «локальная» вогнутость,
Гл. 6. Геометрические образы малого порядка 107 сосредоточенная на трех как угодно близких точках, например Поэтому, если дано, что фигура X связна, то выпуклость можно реализовать в виде ограниченного по диаметру предиката по- рядка 3. Если нет уверенности, что фигура X связна, то для слу- чая ограниченного диаметра предыдущее рассуждение неверно, поскольку пара очень отдаленных друг от друга выпуклых фигур не отвергается. При дополнительном ограничении на величину диаметра пре- дикат ^выпуклость скорее всего не будет иметь порядок 3, но отсюда не следует делать поспешный вывод о том, что при любом порядке этот предикат не будет ограниченным по диаметру. Такой вывод делать нельзя, учитывая следующее практическое сообра- жение. Даже если связность фигуры задана, ее выпуклость можно определить только с точностью до допустимых отклонений. Вдо- бавок размеры фигуры должны быть равномерно ограничены, иначе малые локальные допустимые отклонения станут глобально гибельными. Но при таком ограничении можно приближенно оце- нить кривизну и определить выпуклость с помощью неравенства f |кривизна| ds^.2n. Мы обсудим это в § 8.3 и 9.3. 6.3.2. Прямоугольники. Рассматривая фигуры, составленные только из квадратиков сетчатки, можно с помощью предикатов по- рядка 3 задать множество сплошных прямоугольников со сторо- нами, параллельными осям координат. (На рис. 6.2 показаны при- меры «полых» прямоугольников.) Этого можно добиться даже
108 //. Геометрическая Теория линейных неравенств с помощью лишь предикатов ср, ограниченных по диаметру, а именно: Сюда входят все предикаты ср, эквивалентные относительно по- ворота на 90°. Полые прямоугольники выявляются предикатом где коэффициенты подобраны так, чтобы исключить случай двух они обладают тем незаметным на первый взгляд достоинством, что рассматриваемые образы могут быть определены как прямоли- нейные фигуры с числом углов не более 4. Мы обсудим этот не- сколько более чем конъюнктивно локальный способ определения в гл. 8. Можно было бы ожидать, что множества полых и сплошных квадратов окажутся порядка 4 или еще выше, поскольку по мень- шей мере такой порядок должно было бы потребовать сравнение длин сторон. Поэтому удивительно, что их порядок оказался рав- ным 3. Построение явно не конъюнктивно локально, и мы его от- ложим до гл. 7. 6.3.3. Спектры переноса высшего порядка. Определим трехвек- торный спектр фигуры как множество наборов чисел, выражаю- щих количество трехточечных масок, удовлетворяемых в каждом классе эквивалентности относительно переносов. Интересно отме- тить следующее обстоятельство (относящееся скорее к геометрии, а не к линейному разделению). Теорема 6.3.3. Фигуры однозначно характеризуются (с точ- ностью до переноса) своими трехвекторными спектрами даже в случае пространства высокой размерности.
Гл 6. Геометрические образы малого порядка 109 Доказательство. Пусть X— некоторая фигура и макси- мальное расстояние между ее точками равно D. Выберем пару (а, Ь) точек в X с этим расстоянием и рассмотрим множество ФаЬ = {фа, ь, х} масок с трехточечными носителями, содержащими а, b и любую третью точку х из X. Коэффициент при каждой такой маске в спектре переноса должен равняться единице, так как если бы в X было две маски, эквивалентные относительно перено- сов: Фа, Ь, х и Ф^а, gb, gxi то длина одного из отрезков [а, gb] или [ga, 6] была бы больше D, поскольку эти отрезки совпадают с диагоналями параллелограмма со стороной D (рис. 6.3). Таким образом, любой перенос фигуры X должен содержать единственный перенос пары (а,Ь), и часть спектра фигуры, соот- ветствующая ФаЬ, позволяет полностью воспроизвести всю фигуру (рис. 6.4). Тот факт, что фигура определяется своим трехвекторным спек- тром, конечно же, не означает, что распознавание классов фигур имеет порядок 3. (Он свидетельствует только о том, что можно различить переносы двух разных фигур. На самом деле, как по- казывает метод § 7.9, их можно различать даже с помощью вто- рого порядка, но только если снять ограничение на величины коэффициентов.)
но II. Геометрическая теория линейных неравенств 6.4. Образы порядка 4 и выше Известно, что любые три точки определяют окружность. Это обстоятельство можно использовать для построения персептрона порядка 4, реализующего предикат [X— периметр полной окружности] с помощью формы 5 XaXbXcXd + 2 d^Cabc d^Cabc XaXbX,Xd < 1 , где Cabc — окружность1), проходящая через точки ха, хь, хс. Ана- логично можно показать, что много других любопытных и интерес- ных предикатов имеют низкий порядок. Нужно соблюдать осторож- ность в выводах отсюда практических следствий и учитывать сле- дующие факты: 1. Для приведенных выше примеров может потребоваться боль- шое число (порядка |/?|ft_I) предикатов <р. 2. Пороговые условия выражены настолько резко, что по инже- нерным соображениям могут возникнуть трудности в реализации линейного суммирования, особенно при наличии какого-либо шума. При k = 3 и выше простой квадратичный шум растет быстрее, чем размер сетчатки. Значения коэффициентов зачастую убий- ственно велики (см. гл. 10). 3. Часто малейшее изменение в определении образа2) совер- шенно меняет порядок предиката, способного распознавать этот образ. При низких значениях порядков невозможно определить такие допустимые отклонения, при которых предикат будет рабо- тать удовлетворительно. 6.5. Теоремы о спектральном распознавании Некоторые из предыдущих примеров являются частными слу- чаями теорем. (Вводимые здесь понятия далее не используются.) Из теоремы об инвариантности относительно группы (§ 2.3) выте- кает, что инвариантный относительно группы G предикат ф, при- надлежащий Л(Ф) для некоторого множества Ф, можно предста- вить в виде Ф=[Шт>о], ) Здесь опять встает проблема допустимых отклонений: что считать окруж- ностью на дискретной сетчатке? См. §8 3. 2) Наша формула не отвергает нуль- и одномерных «окружностей» Этого не избежать при любой размерности, если используется конъюнктивно локаль- ный предикат.
Гл. 6. Геометрические образы малого порядка 111 где/jVj — число предикатов <р в i-м классе эквивалентности, кото- рым фигура X удовлетворяет. В § 6.2 (в случае группы переносов на плоскости) мы столкнулись со «спектром разности векторов» геометрических фигур. Для нулевого, первого и второго порядков такими спектрами действительно служат числа N{(X). Если G-инвариантный предикат ф при заданном Ф нельзя описать для любого условия на числа Ni, то очевидно, что ф не принадлежит Л(Ф). Следующие результаты дают условия на влекущие за собой конечность порядка предиката ф. Допустим, что <р определяется одновременно m равенствами: ф (X) |Wi (X) = щ и М2(Х) = п2 и ...Nm(X) = nm\, где ti\, ..., пт— конечная последовательность целых чисел. По- кажем, что порядок предиката ф не более чем в два раза пре- вышает максимальный из порядков предикатов ф, связанных с числами Ni. Сформулируем утверждение более точно. Теорема 6.5. Пусть Ф = Ф1 U Ф2 U ... U Фт и ЛМХ) = |{ф|феФ; и ф(Х)= 1}|= 5 ф(Х). феф; Тогда порядок предиката ф(Х) = [Ni(X) = П/ для всех is^zs^m] не превышает удвоенной величины тах{|5(ф) |; фбф}. Замысел доказательства заключается в том, чтобы показать, что предикат ф можно задать с помощью линейного порогового выражения: Ф(Х) = ГЗ(АМ*)-«<)2<1]. В таком виде это выражение не является линейной пороговой ком- бинацией предикатов. Для придания ему желаемой формы введем специальное соглашение, которое нигде больше использоваться не будет. Для любого заданного множества Ф предикатов ф, по- строим новое множество Ф2 предикатов ф^-, полагая Фг/(Х) = фг(Х)Лф/(Х) для любой пары (фг-, фД предикатов из Ф. Многие из построенных таким образом предикатов окажутся логически эквивалентными, например ф^ = фл, однако мы условимся считать их различными элементами множества Ф2. (Это означает, что в очень строгом смысле Ф2 есть скорее множество «предикатных форм», а не пре- дикатов.) В результате такого соглашения упрощаются арифметические действия и логические соображения при подсчете числа предика- тов. Пусть X — фигура, удовлетворяющая в точности N предикатам
112 II. Геометрическая теория линейных неравенств из Ф. Очевидно, в Ф2 фигура X будет удовлетворять N2 предика- там, т. е. 2<р(х) = ж ф2 Пусть теперь Фь Ф2, ... — классы эквивалентности множества Ф. Так как Nt(X)= 2ф(Х) ф/ — число предикатов из Ф,, удовлетворяемых фигурой X, то, как мы уже видели, 2<p(x) = W). Таким образом, 2 I 2 Ф W - 2nf 2 ф (X) + п21 = 2 {(Nt (X) - nt)2}. / I ф2 Ф. J Чтобы представить левую часть этого равенства в стандартной форме линейного порогового предиката, положим Ф' = Ф2 U Ф U U {постоянный предикат} и запишем Ф (Л) = Г2 «(ф) Ф(Х)< 11, I ф' I где а (ф) = 1 для ф s Ф2, а(ф)=— 2tii для фЕф(-, а (постоянный предикат) = 2 «г Для завершения доказательства теоремы нам осталось только заметить, что I S (ф0) | = | S (Ф/) и S (фу) Id S (Ф/) 1 + 1 S (Ф/) | < 2 (шах | S (ф) I). 6.5.1. Расширенное точное соответствие. Очевидно, что теорема 6.5 допускает следующее обобщение. Пусть предикат ф опре- деляется формулой V Л(^ (X) = »;/), т. е. удовлетворяется любым условием из множества точных усло- вий, наложенных на ЛД Тогда порядок предиката ф конечен, по- скольку полином п m II 2 (Л// (Х)-пчУ
Гл. 6. Геометрические образы малого порядка 113 можно реализовать при помощи методов, подобных применяв- шимся в предыдущем параграфе. Для обобщения потребуются булевы произведения предикатов разных классов эквивалентности, и максимальный порядок будет не более 2«max|S(<p) |. Заметим, что, не зная явления „и/или“, можно было бы не- вольно попытаться вывести результат § 6.5.1 из § 6.5 на основе не- верного предположения о том, что порядок предиката п V (предикаты й-го порядка) не превосходит nk. 6.5.2. Среднеквадратичное отклонение. Если для предикатов, о которых шла речь в § 6.5.1, увеличить значение порога 9, то си- стема Г2 (Nt- nz)2<91 будет удовлетворяться как раз теми фигурами, для которых сумма квадратов разностей между величинами Nt и /г, меньше 9. Любое устройство классификации образов будет чувствительно к опреде- ленного рода искажениям, и это наводит на мысль, что, вероятно, полезно изучать такие устройства, в частности персептроны, в тер- минах их чувствительности к искажению спектра. К сожалению, у нас нет хороших идей о геометрической сути подобных искаже- ний. Геометрическая природа «инвариантного шума» такого вида представляет благодатную тему для размышлений, но мы еще не занимались ее исследованием. 6.6. Фигуры в контексте По практическим и теоретическим соображениям интересно изучить распознавание фигур в «контексте», т. е. предикаты вида: ф(Х) = [ подмножество множества X — квадрат], ф(Х) = [связная компонента множества X— квадрат], а чтобы приступить к рассмотрению проблемы проекций в трех- мерном пространстве, интересно изучить предикат ф(Х)=ГА’ содержит значительную часть контура частично невидимого квадрата].
114 II. Геометрическая теория линейных неравенств Эти примеры показывают, что интуитивным понятиям, свя- занным с распознаванием образов, находящихся в контексте, мож- но дать более чем одно естественное толкование. Нам не известно ни одного общего определения, охватывающего все естественные представления, и поэтому мы не имеем возможности формулиро- вать общие теоремы. Тем не менее мы утверждаем, что для всех предикатов низкого порядка свойственна утрата ими конечности порядка при любом естественном способе помещения объектов распознавания в контекст. Для иллюстрации этого положения вы- берем наиболее общую и, очевидно, безобидную интерпретацию: для любого предиката ф (X) определим новый предикат Фв контексте W = = рф (X) для некоторой связной компоненты фигуры X]. Мы увидим, что используемую нами методику можно три- виальным образом приспособить для множества других опреде- лений. Интуитивно следовало бы ожидать, что предикат Фв контексте окажется гораздо более трудным для персептрона, поскольку контекст каждой компоненты действует как шум, а параллельность работы устройства дает мало шансов на то, что подобный шум удастся отделить и не учитывать. Это становится особенно ясным в тех случаях, когда предикат ф использует правила отбрасыва- ния, которые по вполне очевидным причинам нельзя передать в предикат фв контексте- Аналогично пропадут методы стратифи- кации из гл. 7 и, разумеется, большая часть технических уловок, с помощью которых мы получали представления предикатов низ- кого порядка. Следующие две теоремы показывают, как эту инту- итивную идею можно выразить в строгой форме. Заметим, однако, что невозможно никакое простое обобщение взаимосвязи пре- дикатов ф и фв контексте, поскольку некоторые предикаты ф в контексте вырождаются. Например, вырождается предикат фсвязность,так как любое множество содержит связную компоненту! Теорема 6.6.1. Пусть R — конечная квадратная сетчатка, а ф(Х) —предикат ГА является единственной горизонтальной линией, пересекающей сетчатку}. Тогда порядок предиката ф равен 2, а предикат Фв контексте не имеет конечного порядка. Доказательство. Предоставляем читателю доказать в ка- честве упражнения, что порядок предиката ф равен 2. Чтобы по- казать, что предикат Фвконтексте не имеет конечного порядка,
Гл. 6. Геометрические образы малого порядка 115 заметим просто, что он служит отрицанием негатива предиката ' “Ф1 = Фодин-в-блоке* т- е- пРеДиката, утверждающего, что через сет- чатку не проходит ни одной горизонтальной белой линии. Его не- гатив (в фотографическом смысле) утверждает, что через сетчатку । не проходит ни одной горизонтальной черной линии. Далее, преди- кат ф1 не имеет конечного порядка, а в общем случае можно по- казать, что этим свойством обладает любой негатив такого преди- ката. Наконец, обращая предикатное неравенство, получаем, что это справедливо и для искомого предиката Фв контексте =Г-^ содержит горизонтальную линию, пересекающую сетчатку]. Теорема 6.G.2. Пусть ф(Х)—предикат ГА’ — полый квадрат}. Тогда предикат фц контексте [одна из компонент фигуры X — полый квадрат} не имеет конечного порядка. Доказательство. Доказательство подобно предыдущему, за тем исключением, что «блоки», или горизонтальные линии, изгибаются в квадраты и располагаются без перекрытий на боль- шей сетчатке. Можно показать, что сам предикат ф имеет конеч- ный порядок, в данном случае 3. Замечание. Другой метод доказательства состоит в изги- бании линий переключательных элементов, использованных в по- строении Хаффмена для связности (§ 5.5). Мы убеждены, что вырождение способности персептрона рас- познавать образы, если последние находятся в контексте других образов, служит серьезным предупреждением против использова- ния его в реальных практических ситуациях. Конечно, этот
116 //. Геометрическая теория линейных неравенств недостаток можно смягчить, включая персептрон в некоторый по- следовательный процесс (такой, в котором интересующая нас фи- гура на предварительной стадии изолируется и отделяется от своего контекста). Однако это предполагает достаточную способ- ность к распознаванию на этапе «предварительной обработки», чтобы можно было различить и устранить большинство обычно встречающихся контекстуальных помех. Иногда выполнить это го- раздо труднее, чем провести собственно «основную обработку». Этот вопрос мы еще будем рассматривать в гл. 13.
ГЛАВА 7. СТРАТИФИКАЦИЯ И НОРМАЛИЗАЦИЯ 7.1. Эквивалентность фигур В предыдущих главах мы рассмотрели распознавание обра- зов— классов фигур, замкнутых относительно преобразований не- которой группы. Теперь мы займемся родственным вопросом распознавания эквивалентности относительно группы произвольной пары фигур. Приведенные ниже результаты нас в свое время уди- вили, так как мы думали, что эти задачи, вообще говоря, не бы- вают конечного порядка. Многие вопросы остаются открытыми, и внешне позитивный характер последующих построений омра- чается необычайно большими коэффициентами, которые для них требуются, и характером роста коэффициентов при возрастании размеров сетчатки. Типичная задача такова: сетчатка') задается в виде двух одинаковых частей А и В, и спрашивается, можно ли фигуру, на- ходящуюся в части В, получить одним лишь переносом фигуры, находящейся в части А. Более общо: существует ли в заданной группе преобразований G такой элемент g, что фигура в В есть результат его воздействия на фигуру в А? Какой порядок преди- катов требуется для решения этой задачи? ') Все теоремы этой главы применяются непосредственно к персептронам на бесконечных сетчатках, поэтому нет необходимости рассматривать предельные процессы на последовательностях конечных сетчаток, как это предлагалось в § 1.6. Группы преобразований также бесконечны, а теорема об инвариантности относительно групп не используется. Так как этот материал несколько более специализирован, чем все остальное, мы немного отступим от нашего способа изложения и перейдем к общепринятому и пренеприятному математическому стилю, когда теоремы сначала формулируются и доказываются, а потом уж объясняется, для чего они нужны.
118 11. Геометрическая теория линейных неравенств Все теоремы настоящей главы получены при помощи методики, названной нами стратификацией. При определенных условиях стратификация позволяет моделировать последовательный процесс таким параллельным процессом, в котором результатам вычисле- ний придаются настолько различные веса, что при выполнении определенных условий один из результатов перевешивает сумму всех остальных. Методика основывается на следующей теореме. 7.2. Теорема о стратификации Пусть П = {ль Л2, . . ., яд . . .} — последовательность различ- ных масок. Зададим последовательность .. ., Q, . . . классов соответствием И (£>/=ф ~ЛА(Х))], где знак ~ означает отрицание. Таким образом, X принадлежит классу Ср если /— самый вы- сокий индекс, для которого nj — истина. Пример таких классов показан на рис 7.1. /С.7Г1 = I 7Г, = ? 7Г 1 = ? тгг = 0 " ~~ _7Гг = 1 7Г2 = ? • • • 7ГЗ = 0 7Гз = б " -ДЦ = 1 • • • ТГд = 0 7Гд = 0 7Г д ="0" • • • V С' С2 Сз ... Рис. 7.1. Разбиение на классы Ср Пусть Ф = {фг} — семейство предикатов, и пусть ф1, ..., ф>, ... — упорядоченная последовательность предикатов в Л(Ф), ограничен- ных в следующем смысле. Для каждого ф;- найдутся такая линей- ная форма Sj с целыми коэффициентами, что 2/=2а</Ф;-9/ и Ф/ = Г2/ > Оф и такое число Вр что I 2/W 1<В/ для всякого конечного множества X. (На самом деле для доказа- тельства требуется лишь-ограниченность функции |2ДХ) | на ка- ждом классе С^.)
Гл. 7. Стратификация и нормализация 119 Теорема 7.2. Предикат ф(Х) = [X е Cj=$ фу(Х)1, принимаю- щий на каждом классе Cj значения соответствующего преди- ката фу, принадлежит множеству С(Ф>П), т. е. его можно пред- ставить в виде1) Ф W = Г2 alk (Л/Л<рк) > 9]. Доказательство. Легко заметить, что каждая конечная фигура X принадлежит лишь одному из классов Cj. Положим Sj = Л] • S] и для / > 1 определим по индукции М, = max| S,_] |, ci Sj = Sj—i — TtjMj + (2Mj + 1) • лу • Sy. Границы Bj гарантируют существование величин Afy. Далее, за- пишем формальную сумму, порожденную этим бесконечным про- цессом, в виде 5=2 ауИл/ДфД и покажем, что ф(Х) = [S(X)> 0]. Сумма S определена корректно, поскольку для любой конечной фигуры X в любом классе Су най- дется только конечное число отличных от нуля членов лу А <рл. Применим индукцию. Если X принадлежит классу С], то очевидно, что Si = Si, так что ф(Х) = [Si (X) > 0]. Допустим, что если X принадлежит классу Су-i, то ф(Х) = Г5у_] (X) > 0"|. Так как коэф- фициенты линейной формы Sy целые, то при X <= Cj и лу = 1 Г 1=ф5у>-Му-Му + 2Му +1 = 1, I ~ф(Х)=ф5/ < 0=ф Sy < Mj - Mj = 0, и теорема доказана. Следствие 7.2. Порядок предиката ф(Х) не превосходит суммы максимального числа элементов носителя в ф и максималь- ного числа элементов носителя в П. Это следует из того, что предикаты из Ф выступают только в конъюнкции с предикатами из П. Идея доказательства состоит в разбиении области определения предиката ф(Х) на непересекаю- щиеся классы, или «страты», Су. В пределах каждого страта член —луМу настолько велик, что перевешивает (в сторону отрицатель- ных значений) все решения, принятые на низших стратах, если только не удовлетворяется предикат фу. Во всех нижеследующих приложениях страты в большей или меньшей степени представляют *) Здесь коэффициенты аул, разумеется, отличны от коэффициентов в опре делении Sy. — Прим. ред.
120 11. Геометрическая теория линейных неравенств 3 собой различные возможные отклонения фигуры от «нормального» положения. Поэтому возможность построения «стратифицирован- ных» предикатов тесно связана с принятым в «распознавании образов» представлением об идентификации фигуры сначала путем ее нормализации, а затем сравнения нормализованного изображения с эталоном. Разумеется, обычно это происходит по- следовательно. Следует отметить, что у предикатов, полученных при помощи этой теоремы, коэффициенты огромны и с ростом индекса страти- фикации / растут экспоненциально или даже еще быстрее. По- этому не надо рассматривать результаты этой главы с точки зре- ния практических применений. Они представляют скорее теорети- ческий интерес, наглядно демонстрируя взаимосвязь структуры групп преобразований с порядками определенных предикатов, ин- вариантных относительно этих групп. 7.3. Приложение 1. Симметрия на прямой Пусть /? = ..., х«, ..., —бесконечная прямолинейная сетчатка, т. е. —оо < s < оо. Удобно выбрать произвольное начало х0 и за- нумеровать квадраты так: Г” Х? X, Хо X, Х2 Х3 Предположим, что X— фигура на R, состоящая из конечного числа |Х| точек. Спрашивается, конечен ли порядок предиката ^симметрия ~ обладает зеркальной симметрией]. Заметим, что этот предикат будет тривиальным предикатом по- рядка 2, если центр симметрии фиксировать заранее. Но в общем случае предиката ^симметрия йентР может находиться в любом месте бесконечной прямой. Мы хотим стратифицировать предикат ФСИММЕТРИЯ,найдя после- довательности ль ... и ф1, ..., которые позволят нам проверять симметрию при помощи следующего приема: л; «найдут» две «крайние точки» фигуры X, а соответствующие предикаты ipj про- верят ее симметрию. Поэтому щ должны быть такими, чтобы каж- дый страт Cj оказался классом фигур с определенной парой край- них точек. Для этого нам нужно, чтобы последовательность ль . • • была перечислением всех отрезков [xs, xs+d] для каждого s и каж- дого d>0, причем при Q^a^b -^d отрезок [xs, х8+Д должен следовать за [xs+a, х8+ь]. Такие последовательности действительно существуют, например Л1 = [х0, Хо], Л2 = [х1; XJ, Л3 = [х0, Xj], Л4 = [x-i, X_J, ^5 = [Х~1> л6 = [Л'-1> Л'1]> -~7 = [х2> x2]i rtg = [Х], х2], ...;
Гл. 7. Стратификация и нормализация 121 в конечном итоге попадет в последователь- Легко заметить, что 1) каждый отрезок ность; 2) ни один отрезок, лежащий внутри другого отрезка, не сле- дует за последним. Поэтому, если xs, xs+d— соответственно крайние левая и пра- вая точки фигуры X, то X принадлежит тому страту Cj, который соответствует отрезку [,r.s, xs+d]. Определим теперь ф; формулой Ф/ = 1Х+< = г = 0, сП, или, что то же самое, d (-Vs + z) (1 %s+d— • i=0 Отсюда видно, что это предикат Порядка 2, ограниченный числом Bj — d + 1. (Мы удержались от соблазна написать Bj = tZ/2.) Таким образом, применяя теорему о стратификации, получаем, что порядок предиката ФСИММЕТРИЯ не выше 4, поскольку поря- док предикатов ф;- не выше 2, а носители функций л содержат не более двух элементов. 7.4. Приложение 2. Конгруэнтность при переносе вдоль прямой Пусть xs, ... и ..., yt, ... — точки двух бесконечных пря- молинейных сетчаток А и В, т. е. —оо s < оо и —оо < t < оо; cLfeiM ня I/
122 //. Геометрическая теория линейных неравенств Пусть фигура X состоит из множества ХА левой сетчатки и множества Хв правой сетчатки. Мы хотим построить предикат ^перенос (А)=Г(конечный) образ в А является переносом образа в В]. Чтобы стратифицировать этот предикат, нужно найти последова- тельность {л,}, которая вместе с соответствующими предикатами фн позволит проверить, конгруэнтны ли множества ХА и Хв. Мы бу- дем осуществлять это методом, аналогичным использованному в § 7.3, но теперь будем иметь дело сразу с двумя отрезками. Это значит, что нам надо построить последовательность {лЛ, перечис- ляющую все четверки точек так, что фигура лежит в страте Cj то- гда и только тогда, когда крайними точками ее частей в Л и В служат как раз соответствующие значения xs, xs+djc, yt и yt+dy. Такая последовательность действительно существует (!). Ее мож- но получить из последовательности {л;} § 7.3 следующим образом (советуем читателю сначала попытаться найти ее самостоятельно). Пусть л# будет четырехточечной маской, определенной фор- мулой nikW = я/ С^л) • ль(Хв), т. е. выбором двух точек из А, соответствующих /, и двух точек из В, соответствующих k. Мы должны перечислить все маски л;а, удовлетворяющие условию: четверка лаъ не может предшествовать четверке ncd> если одновременно й>си
Гл. 7. Стратификация и нормализация 123 Решением служит последовательность Лц‘, л21, л12, л22; л31, л32, л13, л23, л33; л41, л42, л43, л14, л24, для члена соответствующим предикатом является предикат гр/fe = [отрезки, определяемые при помощи л; и лк, равны, а х и у на них имеют в соответствующих точках одинаковые значения"]. Это предикат порядка 2 и ограниченный (длинами отрезков). Носители функций л3 состоят из 4 элементов, так что порядок пре- диката ^перенос W не превышает 6. На самом же деле, найдя крайние точки множества ХА, мы должны будем найти лишь один конец множества Хв, и поэтому, проведя несколько иное построе- ние, использующее метод § 7.9, мы могли бы убедиться, что поря- док предиката ^перенос не превышает даже 5. 7.5. Приложение 3. Перенос на плоскости Метод, изложенный в § 7.4, можно применить к задаче двумер- ных переносов ограниченных кусков плоскости. Пусть каждый эк- земпляр сетчатки имеет размер m X m- Расположим квадраты в последовательность {xj так, чтобы квадрат (а, Ь) был на (та + + Ь)-м месте. Фактически мы считаем сетчатку цилиндром и ну- меруем ее квадраты следующим способом: При этом каждая половина сетчатки отображается на прямую (типа той, которая встречалась в приложении 2) таким образом, что переносы на плоскости эквивалентны переносам вдоль прямой при условии, что переносы не выводят фигуру за края сетчатки. Тогда можно построить предикат порядка 5. В § 7.6 мы покажем, как обойти это неприятное условие! Приложение 4. Поворот на 180° относительно произвольной точки плоскости. При тех же условиях и тем же самым способом, каким было получено приложение 3 из приложения 2, можно построить этот
124 11. Геометрическая теория линейных неравенств предикат порядка 4. Аналогичные построения можно провести и для отражения относительно любых вертикальных осей. 7.6. Повторная стратификация Рис. 7.2. В теореме о стратификации на предикаты ф,- наложено един- ственное условие, чтобы они были подходящим образом ограни- чены. В некоторых приложениях сами эти предикаты можно получить с по- мощью стратификации. Это особенно легко сделать, когда носитель преди- ката ф, конечен, так как тогда огра- ниченность получается непосредствен- но. Чтобы пояснить эту повторную стратификацию, покажем, как изба- виться от условия, наложенного в кон- це приложения 3. Занумеруем каким-нибудь спосо- бом (например, как на рис. 7.2) все точки каждой из двух бесконечных плоских сетчаток А и В и расположим их соответственно в последовательности Xi, ..., xs, ... и yi, ... ..., yt, ... . Рассмотрим затем последовательность описанную Рис. 7.3. в § 7.4, но теперь определенную формулой Л/k (^0 = (Xl % А У& в) %1 ' Ук- Тогда Cjk будет классом пар (ХА, Хв), для которых / = max {s | xs e XA}, k = xnax{t\y( <^XS}
Гл. 7. Стратификация и нормализация 125 (рис. 7.3). Нам нужен только (ограниченный) предикат ф^, ре- шающий, является ли Ха результатом переноса множества Хв для фигур из Cjk. Но все фигуры из Cjk расположены внутри ограни- ченных кусков плоскостей, а именно внутри квадратов со сторо- нами [тах(/, k)]'la и с центрами в начальных точках. Внутри та- кого квадрата (или, еще лучше, внутри вдвое большего квадрата, чтобы избежать «краевых эффектов») мы можем применить ре- зультат приложения 3 и получить предикат ф,^ с конечным носите- лем, обладающий нужным нам свойством. Порядок не будет пре- вышать 5 + 2 = 7. Этот предикат можно построить и другим спо- собом, дающим порядок не выше 5. Аналогично можно избавиться от условий, наложенных в приложении 4 § 7.5. 7.7. Приложение 5. Квадраты со сторонами, параллельными осям координат Отвлечемся на минуту и покажем методом, изложенным в § 7.6, что порядок предиката ф^ (X) = [X — сплошной (полый) квадрат со сторонами, параллельными осям), где X может находиться в любом месте бесконечной плоскости, не выше 3. (Мы считаем этот факт удивительным, поскольку неформаль- ные рассуждения о сравнении по длине двух сторон с одновремен- ной проверкой внутренних точек приводят к порядку не менее 4. Сформулированный только что результат обнаружил и доказал другим способом наш студент Джон Уайт.) Пронумеруем точки Xi, ... одной плоской сетчатки, как в § 7.6, и положим Л} = Xj. Тогда Cj будет множеством фигур, для кото- рых Xj — «наибольшая» точка. Если X — квадрат, то ситуация со- впадает с одним из случаев, изображенных на рис. 7.4. Построим предикаты ф; методом стратификации. Пусть х{, х’2, ..., х> — ко- нечная последовательность, образованная точками пересечения спи- ральной фигуры перпендикуляром к стороне квадрата, восставлен- ным в точке Xj. Положим л! = х(, так что C!t содержит все квад- раты со стороной 1, которые «упираются» в точку х,. Но такой
126 //. Геометрическая теория линейных неравенств квадрат найдется только один, назовем его 8/. Теперь чтобы за- кончить двойную стратификацию, нам нужно иметь только преди- каты для распознавания квадратов 8^. Для этой цели можно использовать предикат где если х. е S!„ к I’ если xk ф. S? Л (k < /), О в остальных случаях. Порядок предиката равен 1, так что порядок предиката не выше 3, что и требовалось доказать! 7.8. Приложение 6. Фигуры, эквивалентные относительно переноса и растяжения Может ли система конечного порядка распознавать эквива- лентность двух произвольных фигур относительно переноса и из- менения размера?
Гл. 7. Стратификация и нормализация 127 Поразмыслив немного над методами § 7.6 и 7.7 и над получен- ными результатами, мы придем к заключению, что имеем все не- обходимые данные: в § 7.6 показано, как обращаться с переноса- ми, а в § 7.7, как распознавать все переносы и растяжения кон- кретной фигуры. При растяжении возникают серьезные трудности с допустимыми отклонениями и пределами разрешающей способ- ности, поскольку все наши построения проводятся на фиксирован- ной дискретной сетчатке. Однако нам решительно не хочется столк- нуться с этими трудностями. Интересно тем не менее, что нужное свойство можно по крайней мере аппроксимировать предикатом конечного порядка, причем интуитивно разумным образом. (Мы не думаем, что такую аппроксимацию можно выполнить в случае ин- вариантности относительно вращения, так как здесь возникают трудности иного рода, не связанные с дискретностью сетчатки. Скорее они вызваны тем, что преобразования группы вращений нельзя упорядочить простым способом, а это «преграждает путь» методам стратификации.) Наш метод начинается приемом, использованным в § 7.6 для нахождения предикатов которые «улавливали» две фигуры и заключали их в квадраты. После этого, как и в § 7.6, задача сво- дится к нахождению предикатов ф3й, от которых требуется дейст- вовать только внутри квадратов, показанных на рис. 7.3. Мы строим предикаты ф^ весьма грубым способом: в каждом квад- рате нумеруем точки простейшим способом, как описано в § 7.5. Затем проводим стратификацию 4 раза (!) подряд относительно х, наивысшей и крайней левой точки множества А, у, наивысшей и крайней левой точки множества В, х', наинизшей и крайней правой точки множества А, у', наинизшей и крайней правой точки множества В. Для этого нам нужно задать предикаты tyU®, х, Если на- правления векторов х — х' и у — у' не совпадают, мы полагаем ф = 0; в противном случае нам нужно, чтобы предикат ф проверял, выполняется ли для каждого вектора v условие , , I х — х' I »+’-»+ (угут''’ а это предикат порядка 2, так что общий порядок не Превышает 2 + 4 + 2 = 8. Конечно, на дискретной сетчатке указанные опера- ции над векторами определены некорректно, но, по-видимому, ясно, что полученный результат вовсе не бессодержателен: напри- мер, мы можем распознать, является ли фигура Хв результатом переноса фигуры ХА и ее целым кратным, причем каждый черный квадрат фигуры ХА должен отображаться на соответственно боль- ший квадрат фигуры Хв. Мы можем построить этот предикат и другим способом, дающим порядок не выше 6.
128 11. Геометрическая теория линейных неравенств 7.9. Приложение 7. Эквиваленты данной фигуры Строя в приложении 5 предикат ф, мы отмечали, что всегда можно найти предикат порядка 1 для обнаружения одной-един- ственной фигуры Хо, если использовать выражение I 2х+ 2 %>11. |ze,Yt х Хи | Отсюда следует, что, построив стратификацию {л,-} для группы G удовлетворяющую условию X<=Ct и gX^Cl^(gX = X), можно точно распознать G-эквиваленты заданной фигуры Хо (с по- мощью предиката, порядок которого на единицу превышает поря- док стратификации л). Это наводит на мысль о машине, которая на первом этапе процесса распознавания приводит фигуры к не- которому нормальному виду. Для этого случая наш общий метод построения принимает следующую исключительно простую форму. Возьмем в качестве Хо упорядоченную последовательность точек , ..., х. } полупрямой х, гг i3 Положим лДА') = [Xj-eX] и зададим фДА') формулой Ф/ W ~ [2 е хо] xk + S [xj.-/+ip Ф Хо и k </| xk < 1 j ; точки с отрицательными индексами пока рассматривать не будем. Тогда, если не обращать внимания на «краевые эффекты», мы по- лучим предикат порядка 2, распознающий переносы фигуры Хо. Заметим, что на самом деле не представляет труда распростра- нить это на бесконечную в обе стороны прямую, так как можно задать последовательность {лг} в виде Если фигура оканчивается в классе C2j, мы будем искать ее крайнюю левую точку х_3-, а если в классе Czj+i, то крайнюю пра- вую точку Xj. В любом случае можно построить соответствующий предикат ф. Итак, для любой заданной фигуры Хо существует пре- дикат порядка 2, распознающий ее линейные переносы, и при этом не возникает проблем ограниченности, ибо носители всех предика- тов ф конечны.
Гл. 7. Стратификация и нормализация 129 7.10. Кажущийся парадокс Рассмотрим фигуру %о~ Ц___ЦШ Мы только что показали, что существует предикат ф порядка 2, распознающий переносы этой фигуры. Следовательно, этот преди- кат должен отклонить неэквивалентную ей фигуру Но у этих фигур один и тот же спектр «-точечного распределения (§ 6.2 и 6.5) до второго порядка включительно! Каждая из них содержит три точки, одну смежную пару, одну пару с расстоянием в два элемента и одну пару с расстоянием в три элемента. По- этому, если бы все предикаты ср, эквивалентные относительно группы, имели одинаковые веса, то для различения указанных фигур потребовался бы персептрон порядка не менее 3. Таким образом, если бы мы смогли применить теорему об инвариант- ности относительно групп, мы бы доказали, что никакой пер- септрон порядка 2 их различить не может. Это явилось бы проти- воречием! В чем же дело? Ответ состоит в том, что теорема об инвариантности относительно групп вообще неприменима в случае бесконечных групп. Когда группа конечна (например, группа цик- лического переноса на тороидальных сетчатках, которую мы ино- гда рассматриваем), теорему об инвариантности относительно групп всегда можно применить и уравнять коэффициенты эквива- лентных предикатов ср. Но построить методом стратификации пре- дикат на бесконечных группах с ее помощью нельзя. В случае бесконечных групп можно использовать стратифика- цию для нормализации, но тогда в пределах подмножества экви- валентных предикатов ср могут получиться неограниченные коэф- фициенты, и операции усреднения по группе в общем случае не будут сходиться. Мы докажем соответствующую теорему в § 10.4. Мы предполагаем, что предикаты типа «близнецов» из § 7.5 не являются предикатами конечного порядка с ограниченными коэф- фициентами. Во всяком случае было бы интересно узнать, суще- ствуют ли вообще такие предикаты. 7.11. Проблемы Укажем некоторые направления дальнейших исследований, ко- торые нам кажутся интересными: Какова взаимосвязь между воз- можными стратификациями, включая повторные, и алгебраиче- скими разложениями группы на разного рода подгруппы? При
130 fl. Геометрическая теория линейных неравенств какого рода предикатах теорему об инвариантности относительно групп можно распространить на бесконечные группы? Для каких предикатов коэффициенты ограничены — для каждого класса эквивалентности? При каких условиях существуют «стратифика- ции нормального вида» из приложения 7? Например, мы предпо- лагаем, что на окружностях и на торах не существует границы для порядка предикатов ф, выделяющих единственную фигуру «нормальной формы» 4) в случае группы вращений: ф(Х) и = Мы подозреваем, что именно по этой причине мы не можем рас- пространить метод приложения 6 на группу всех подобий, вклю- чая вращения. Заметим, что требование теоремы 7.2, чтобы предикаты {л;} были масками, по всей вероятности, излишне строго. Мы не стали пока искать лучшей теоремы. Стратифицированные предикаты, вероятно, физически нереали- зуемы вследствие их огромных коэффициентов. Представляло бы большую ценность получить вариант теоремы 7.2, позволяющий установить нижние границы для коэффициентов. Стратификация, по-видимому, соответствует машине, которая последовательно воздействует на фигуру элементами группы пре- образований до тех пор, пока не произойдет некоторое особое со- бытие, устанавливающее принадлежность данной фигуры классу Cj, а затем применяет «проверку на совпадение» с помощью пре- диката i|)j. Предикаты фj должны давать информацию о фигуре во всех ее положениях, отвечающих всем преобразованиям данной группы. Поэтому возможность существования персептрона, выпол- няющего такое распознавание, не должна создавать впечатления, что машина обладает какой-либо особой способностью к обобще- нию по отношению к рассматриваемой группе; это скорее говорит о противоположном! Бесспорная громадность иерархий коэффи- циентов вызывает сомнения в целесообразности формирования коэффициентов стратификации при помощи поощрения, ибо поощ- рение не действует на фигуру из класса Cj, пока соответствующие члены суммы не подавят дискриминирующий эффект всех осталь- ных членов, относящихся к предшествующим стратам. Это обсуж- дается далее в гл. 10 и 11. ) Из каждого класса эквивалентности. — Прим. ред.
ГЛАВА 8. ПЕРСЕПТРОН, ОГРАНИЧЕННЫЙ ПО ДИАМЕТРУ 8.0 В этой главе обсуждаются сильные стороны и пределы возмож- ностей персептронов, ограниченных по диаметру, т. е. таких, в ко- торых каждый предикат <р может обозревать только ограниченный участок сетчатки /?. Мы рассматриваем машину, суммирующую взвешенные данные о фигуре, полученные в результате экспериментов <р,-, характери- зующих ситуацию в ограниченной области, диаметр которой не превосходит некоторой длины D-, символически diam(S(<p)) D. Можно прийти к двум различным теориям, если при изучении ограниченных по диаметру предикатных схем брать в качестве D (1) абсолютную длину, (2) фиксированную часть размера сетчатки R. Как правило, для получения положительных результатов лучше выбирать случай (1). Для отрицательных результатов (1) яв- ляется частным случаем теории персептронов ограниченного по- рядка, а (2) приводит к другим и подчас более сильным резуль- татам. По-видимому, эта теория недостаточно глубока, чтобы оправдать попытки получить в каждом случае наилучший возмож- ный результат. С практической точки зрения величина D должна быть настолько мала, чтобы ни один из предикатов <р не видел це- ликом всей фигуры (иначе мы не имели бы никакой теории), и в то же время достаточно велика, чтобы можно было заметить пред- ставляющие интерес признаки. 8.1. Положительные результаты Рассмотрим сначала объекты, которые персептрон, ограничен- ный по диаметру, может распознать, а затем такие, которые он распознать не может. 8.1.1. Однородный рисунок. Персептрон, ограниченный по диа- метру, может различить, является ли рисунок полностью черным или полностью белым: возьмем предикаты <рг-, накрывающие сет- чатку по областям (которые могут перекрываться), и положим Фг = 0 в том и только том случае, когда все просматриваемые точ- ки белые. Тогда 2ф/>0, б*
132 II. Геометрическая теория линейных неравенств если в рисунке содержится хотя бы одна черная точка, и 2<рг<о, если рисунок пуст. Точно так же можно задать предикаты <р^, от дичающие абсолютно черный рисунок от всех остальных. Эти образы можно распознавать, поскольку они носят «конъ- юнктивно локальный» характер (§ 0.6): ни один предикат ср на са- мом деле не в состоянии привести убедительные доводы в пользу того, что фигура полностью белая (поскольку он весьма слабо с этим связан), но любой предикат ср может с полной определен- ностью утверждать, что имеются исчерпывающие опытные данные, свидетельствующие о том, что рисунок не полностью белый. По- добным свойством обладают и другие интересные образы. Это свойство позволяет отбросить все рисунки, не принадлежащие дан- ному классу, после проверки наличия в каком-нибудь месте ри- сунка локального признака, который является определяющим и может быть обнаружен на основании того, что происходит внутри области диаметра D. 8.1.2. Сечения, основанные на величине площади. При любом числе S можно распознать класс фигур, площадь которых не пре- вышает S. Для каждой точки р положим <рр = 1, если точка чер- ная, и срр = 0 в противном случае. Тогда неравенство 2<РР>5 служит для распознавания рассматриваемого класса. 8.1.3. Треугольники и прямоугольники. Персептрон, ограничен- ный по диаметру, можно заставить распознавать фигуры, состоя- щие только из одного треугольника (сплошного или контурного), используя следующий прием. Применим предикаты ср двух типов: предикат ср,-, равный 1,если в его поле зрения находится вершина (два прямолинейных отрез- ка, образующие угол), и 0 в противном случае, и предикат ф/, рав- ный 0, если его поле зрения пусто или содержит прямолинейный отрезок, или сплошную зачерненную площадь, илй вершину, и равный 1, если в поле зрения находится что-либо иное, включая и конец прямолинейного отрезка. Заготовим столько этих преди- катов <р, чтобы можно было покрыть сетчатку предикатами обоих типов полностью и без перекрытий. Разумеется, такая система не сработает, если вершина попадает на край носителя преди- ката <р. С помощью подходящего перекрытия и присваивания весов систему можно усовершенствовать, однако она всегда останется некоторого рода приближением. Это относится как к определению «прямолинейного отрезка» и т. д., так и к определению «вершины» (§ 8.3). Наконец, первому типу предикатов мы припишем единич-
Гл. 8. Персептрон, ограниченный по диаметру 133 ный вес, а второму типу — очень большой положительный вес W. Тогда неравенство 2<рг+ будет специфическим предикатом для распознавания треуголь- ников. (Оно, однако, с таким же успехом будет воспринимать и пустой рисунок.) Аналогично настраивая предикаты <рг на рас- познавание только прямых углов, можно различить класс прямо- угольников, проверяя выполнение неравенства 2<рг+^2ф4<5. Такого рода приемами можно охватить и другие геометриче- ские классы, но успех зависит от странных случайностей. Прямо- угольник характеризуется наличием четырех прямых углов и от- сутствием исключений, обнаруживаемых предикатами ф,. В §6.3.2 мы построили соответствующие предикаты для прямоугольников со сторонами, параллельными осям координат. Очевидно, что для остальных прямоугольников возникают более серьезные трудно- сти, связанные с разрешающей способностью и допустимыми от- клонениями. Однако способа распознавания квадратов даже со сторонами, параллельными осям, с помощью предикатов <р, огра- ниченных по диаметру, не существует; метод из § 7.7 никак нельзя для этого приспособить. 8.1.4. Абсолютное соответствие шаблону. Допустим, требуется, чтобы машина распознавала только определенную фигуру Хо и ничего более. Это можно осуществить с помощью ограниченной по диаметру машины, если разделить сетчатку на такие области, что в каждой из них <р = 0, если эта область полностью соответ- ствует отвечающей ей части фигуры Хо, и ф = 1 в противном слу- чае. Здесь 2ф< 1 тогда и только тогда, когда рисунок представляет собой имен- но Хо- Заметим, однако, что такая система срабатывает только при конкретном объекте в конкретном положении. Ее нельзя обоб- щить на распознавание конкретного объекта в любом положении. Действительно, в следующем параграфе мы покажем, что даже простейшую фигуру, состоящую из одной-единственной точки, не- возможно распознать независимо от положения! 8.2. Отрицательные результаты 8.2.1. Фигура, содержащая единственную черную точку. Это Основной контрпример. Нам хочется, чтобы машина S %Ф > 0
134 II. Геометрическая теория линейных неравенств принимала фигуры с площадью 1 и отвергала те, у которых площадь равна 0 или больше 1. Чтобы убедиться, что это невоз- можно выполнить при помощи персептрона, ограниченного по диаметру, предположим, что {ср}, {а} и 0 уже выбраны. Предъ- явим сначала совершенно чистый рисунок Xq. Тогда, если f (X) = = ^агфг(Х), то f(X0)<6. Затем предъявим фигуру X], содержа- щую только одну точку Х[. Мы должны тогда получить Изменение суммы должно произойти за счет изменения зна- чений некоторых предикатов ср. Фактически его должны вызвать изменения только тех предикатов ср, для которых Xj eS(cp), по- скольку в рисунке больше ничего не изменилось. В любом случае f(Xt)-f(Xo)>O. Теперь возьмем точку Хг, отстоящую от Xi дальше, чем на D. Тогда никакой носитель S (ср) не может содержать одновременно И Х| И Х2. Для фигуры Х2, состоящей только из точки х2, мы должны также получить №) = 2сч<р<>0. Рассмотрим фигуру Хц, содержащую обе точки Х\ и х2. До- бавление точки к Хг может оказать влияние только на те ср, для которых Xi е S (ср), и вызовет точно такое же их изменение, как в случае перехода от абсолютно чистого рисунка Хо к ри- сунку Х\. Поэтому f (*12) = №) + [Ш1)-Шо)]. откуда в силу двух предыдущих неравенств fPG2)>e, что противоречит требованию f(X12)<0. Разумеется, это то же самое явление, которое отмечалось уже в § 0.8 и 2.1, и оно дает метод доказательства последнего утвер- ждения из § 8.1.3. 8.2.2. Интервалы значений площади. Персептрон, ограниченный по диаметру, не может распознать класс фигур, площадь А кото- рых заключена в пределах At А Л2. Доказательство. Это следует из метода § 8.2.1, где рас- сматривается по существу частный случай нашего утверждения (Ai = А2 = 1). Напомним, что такое распознавание можно выпол- нить при помощи предиката порядка 2, если снять ограничение диаметра и использовать метод § 1.4, пример 3.
Гл. 8. Персептрон, ограниченный по диаметру 135 8.2.3. Связность. Персептрон, ограниченный по диаметру, не в состоянии решить, представляет ли рисунок единое целое или состоит из двух и более разъединенных частей. Сейчас уже чита- телю нетрудно понять формальную корректность доказательства, проведенного нами в § 0.8. 8.3. Интегральные инварианты, ограниченные по диаметру В § 6.3.1 мы отмечали, что выпуклость имеет порядок 3, но выражение, ко- торое мы там использовали, неприменимо в случае персептронов, ограниченных по диаметру, поскольку оно не отвергает фигуру, состоящую из двух сильно раз- несенных выпуклых компонент. С другой стороны, в § 8.1.3 показано, каким об- разом может персептрон, ограниченный по диаметру, различать некоторые вы- пуклые фигуры. Построение, которое мы сейчас проведем, можно обобщить, но возникнут серьезные проблемы, связанные с допустимыми отклонениями, и во- просы относительно дифференциалов. Допустим, что мы определяем семейство предикатов Ф, ограниченных по диаметру, используя следующую идею. Возьмем е > 0 и разобьем R на малые клетки Cj. Для каждого целого числа k положим q>Jfl = 1, если Cj П X содер- жит «край», на котором изменение направления превышает fee, и cpjft = 0 в про- тивном случае. Рассмотрим «интеграл» Ik Вклад каждого отрезка кривой в сумму равен е • с/е = с, где с—величина из- менения направления отрезка; следовательно, вся сумма представляет собой «суммарную кривизну». Наконец, мы утверждаем, что можем «реализовать» пре- дикат ^выпуклость в виде 2 eq>,ft<2rt Ik поскольку суммарная кривизна (точнее, сумма абсолютных величин кривизны. — Ред.} любой фигуры должна быть больше или равна 2л, а равенство достигает- ся лишь на выпуклых фигурах и притом на всех. Фигурами, доходящими до края сетчатки, и им подобными мы пренебрегаем. Аналогично можно построить предикат, использующий кривизну с учетом знака, для реализации функций от эйлеровой характеристики вида G(X) < п, так как этот инвариант и есть как раз суммарная кривизна со знаком, деленная на 2л. Разумеется, на квантованной плоскости ограниченному по диаметру пре- дикату из § 5.8.1 выполнить это проще.
136 II. Геометрическая теория линейных неравенств Можно было бы перейти далее к описанию более сложных предикатов, клас- сифицирующих фигуры в соответствии со свойствами их «дифференциальных спектров». Мы, однако, не преследуем таких целей, так как у нас и так уже возникло много серьезных вопросов, связанных с допустимыми отклонениями и прибли- жениями. Среди них задачи, связанные с размерами ограниченных по диаметру клеток Cj, величиной е, и проблемы накопления ошибок при суммировании ма- лых приближенных величин. Вне всякого сомнения, в рамках отображения Е2 -э- R, описанного в гл. 5, или любого ему подобного, все такие предикаты при- ведут к специфическим результатам всякий раз, когда диаметр клеток невелик по сравнению с ячейками сетчатки или мал в сравнении с размерами соответ- ствующих характерных признаков фигур X. В § 9.3 при анализе предиката ^выпуклость Делается попытка рассмотреть эти проблемы. Например, распознавание прямоугольников, проведенное в § 6.3.2, можно в связи со сказанным выше считать сугубо искусственным явлением, поскольку оно сильно зависит от размера ячеек сетчатки. Другая форма того же предиката описана в § 8.1.3 таким образом, что уже можно было бы провести разумную аппроксимацию в пределах разумного диапазона размеров. 8.4. Доказательство единственности эйлеровых инвариантов для персептронов, ограниченных по диаметру В этом параграфе мы покажем, как обещали в конце гл. 5, что справедлива Теорема 8.4. Персептроны, ограниченные по диаметру, не могут распознавать нетривиальные топологические свойства, за исключением эйлеровых предикатов Г£(Х) > п\ и Г-Е(^) < «1. Доказательство. Из рассуждений § 5.8 следует, что пре- дикат ф(Х) должен быть функцией от Е(Х). Это непосредственно относится к ограничению абсолютной величины диаметра, что является частным случаем ограничения порядка. С соответствую- щими модификациями указанные рассуждения переносятся и на ограничения относительной величины диаметра. Рассмотрим две фигуры А и В, отличающиеся только одним внутренним квад- ратом: Окружность на рисунке указывает диапазон ограничения диа- метра. Допустим, что ф(Х)=Г 2 а<рф(Х) > 0], и рассмотрим раз- ность Д = 2 афср (В) - 2 «<рф (Л).
Гл. 8. Персептрон, ограниченный по диаметру 137 Если Д > 0, то ф(В)>ф(Л), и потому устранение дыры не может уменьшить ф. В силу топо- логической эквивалентности добавление компоненты оказывает такое же воздействие на Е(Х), а потому и на ф(Х). Таким обра- зом, если Д О, то Е (В)>£(Л)=фф(В):>ф(Л), и аналогично, если Д^О, то Е (В) > Е (Л) =фф (В) ф (Л). Отсюда следует, что всегда должно существовать такое п, что (если Д > 0) ф(Х) = ГВ(Х)>п1, или (если Д-<0) ф(Х) = ГВ(Х)<л|, или ф— константа. Тривиальные исключения составляют постоянные предикаты и «однородные» предикаты из § 8.1.1, которые являются исключе- ниями по отношению к канонической форме § 5.8.
ГЛАВА 9. ГЕОМЕТРИЧЕСКИЕ ПРЕДИКАТЫ И ПОСЛЕДОВАТЕЛЬНЫЕ АЛГОРИТМЫ 9.0. Связность и последовательные вычисления По-видимому, интуитивно ясно, что персептрон конечного по- рядка не может выявить связность по той причине, что ей внут- ренне присущи черты последовательной процедуры: никакое про- стое неупорядоченное сочетание простых испытаний не позволяет сделать вывод, что фигура связна. То же самое справедливо и для гораздо более простого свойства четности. В последнем случае следует указать на значительный контраст между «наихудшим» результатом, полученным для машин конечного порядка (§ 3.1, § 10.1), и приведенным ниже «наилучшим» результатом для по- следовательного вычисления четности. Пусть ХьХг, •••, хп— лю- бая нумерация точек сетчатки R. Рассмотрим следующий алго- ритм определения четности числа |Х|. начало; Положить i = 0. чет; Прибавить 1 к I. Если i = | R то останов; ФЧЕТНость ~ 0- Если хг = 0, перейти к чет, иначе перейти к нечет. нечет; Прибавить 1 к I. Если 1 = |7?|, то останов; Фцетность = 1 • Если Xi — О, перейти к нечет, иначе перейти к чет. Итак, эта программа минимальна в двух отношениях: во-пер- вых, по количеству вычислительных шагов на каждую точку, но что более существенно, программа не требует никакой памяти для хранения промежуточной информации, накапливаемой в процессе вычислений, кроме той, которая нужна для переменной i. (В не- котором смысле этому процессу требуется одна двоичная единица текущей информации, но ее можно, как сделано выше, внести в структуру алгоритма.) Сказанное наводит на мысль, что в случае связности многое мог бы прояснить вопрос: какого объема память нужна для наи- лучшего последовательного алгоритма? Как показано ниже, ответ гласит, что потребуется не более чем удвоенный объем памяти, необходимой для запоминания самой переменной I. По-видимому,
Гл. 9. Геометрические предикаты и последовательные алгоритмы 139 наиболее просто и естественно изучать эту задачу в рамках ма- шины Тьюринга из-за того единообразия, с которым эта машина осуществляет накопление информации. 9.1. Последовательный алгоритм проверки связности Связность геометрической фигуры X характеризуется тем, что любую пару (р, q) ее точек связывает путь, целиком лежащий в X. Дадим равносильное определение, в котором используется произвольная нумерация .... Х|Л| точек пространства R: фи- гура X связна, если от каждой ее точки xt, кроме первой, суще- ствует путь к некоторой другой ее точке х}, причем I > /. (Доказа- тельство: очевидно, что каждая точка фигуры X связана с первой ее точкой.)Используя это определение, можно описать красивый алгоритм проверки связности фигуры. Мы будем рассматривать только «достаточно регулярные» фигуры — точнее, мы пред- полагаем, что для каждой граничной точки Xi однозначно опре- делена «следующая точка» хг« на этой границе. Определим хр как граничную точку справа от Х{, если смотреть из х, на допол- нение к X. Будем предполагать, что последовательные точки х, и %г+1 являются смежными всюду, за исключением краев простран- ства R. Наконец, будем рассматривать только те фигуры X, кото- рые не касаются краев пространства R. начало; Положить z = 0 и перейти к поиск- поиск: Прибавить 1 к I. Если I = | R |, остановиться и напечатать „X — пустая фигура". Если Xi е X, перейти к просмотр, иначе перейти к поиск. просмотр; Прибавить 1 к i. Если г = |Д|, остановиться и напеча- тать „X — связная фигура". Если ф X и xt е X, положить j — i и перейти к край, иначе перейти к просмотр. край; Положить j = j* (следующая точка для /). Если / = I, остановиться и напечатать „X — несвязная фигура". Если j>i, перейти к край. Если / < z, перейти к просмотр. Заметим, что на любой стадии вычислений достаточно хранить два целых числа z и /; мы увидим, что для запоминания вели- чины не потребуется никакой дополнительной памяти. Анализ, поиск попросту находит первую точку фигуры X среди пронумерованных точек пространства R. Как только такая точка найдена, просмотр пробегает по всем точкам пространства,
140 11. Геометрическая теория линейных неравенств ПРОСМОТР завершается после обнаружения замкнутой петли при движении по подпрограмме кран вдоль границы внутренней компоненты. проверяя таким образом каждую точку фигуры X. Это происходит следующим образом: если хг не принадлежит X, то никакого испытания больше не требуется и просмотр переходит к хг+1 . Если предыдущая точка Х{_\ принадлежит X (и прошла про- верку), то точка Xi, принадлежащая X, связана с Xi—i в силу Рис. 9.1. а —граничные точки, считываемые подпрограммой край; Ь —гранич- ные точки, считываемые подпрограммой просмотр.
Гл. 9. Геометрические предикаты и последовательные алгоритмы 141 их смежности. Наконец, если х, е X и x,_i ф. X, то х, —граничная точка, т. е. лежит на граничной кривой В. край осуществляет обход вдоль этой граничной кривой. При этом возможны 3 слу- чая: либо (1) В совпадает с внешней границей уже встречав- шейся части фигуры X, и тогда некоторая точка, лежащая на В, должна была встретиться раньше, либо (2) В является внутренней границей и тогда некоторая ее точка должна была встретиться до точки Xi—i, лежащей с внутренней стороны от В, либо (3) В сов- падает с внешней границей еще не встречавшейся части фигуры X. Последний случай — единственный, когда край вернется к х,, не встретив точек х3-, для которых / < i. Поэтому просмотр дойдет до i — |/?| тогда и только тогда, когда X состоит из единственной непустой связной компоненты (рис. 9.1). 9.2. Вариант алгоритма проверки связности для машины Тьюринга Удобно принять, что R — квадратный массив размера 2'1 X 2”. Пусть Х[, ..., х|Л|—точки этого массива, пронумерованные сле- дующим образом: 1, 2ге+ 1, ... , (2ге- 1)2ге+ 1, 2, 2ге + 2......(2ге-1)2ге + 2, 2ге, 2ге + 2ге, ... , (2ге — 1) 2ге + 2ге. При таком выборе размеров и нумерации ситуацию можно легко представить в машине Тьюринга. Машина Тьюринга должна обладать способностью выделять точку х, пространства R, вы- яснять, принадлежит ли она X, и если х,— граничная точка фи- гуры X, находить индекс г* ее «правой соседки». Лента машины Тьюринга будет иметь вид 4 ...п ... п ^Х 1! • ••п ••• п 4 — ... п • « • п Jx —51— . • • п -.. к где ..п.. обозначает промежуток, состоящий из п пустых квад- ратов. Тогда в промежутки справа от 1Х и 1У можно поместить координаты х и у точки из R. Будем считать, что машину Тьюринга с внешним миром, т. е. с фигурой X, соединяет «оракул», действующий по схеме: когда машина переходит в определенное внутреннее состояние, следую- щее результирующее состояние зависит от того, являются ли числа в / (или /) координатами точки фигуры X. Можно про- верить, хотя детали весьма утомительны, что все описанные
142 II. Геометрическая теория линейных неравенств в алгоритме операции можно выполнить с помощью определенной машины Тьюринга, которая не использует никаких других квадра- тов ленты, кроме тех, что находятся в промежутках ... п .... Напри- мер, i = |Z?| тогда и только тогда, когда промежутки ...п..., сле- дующие за 1Х и 1У, содержат одни нули. «Прибавить 1 к i» экви- валентно «начать в Jy и, передвигаясь влево, заменять единицы нулями до тех пор, пока не встретится (и не будет заменен еди- ницей) нуль или пока не встретится Z^»1). Единственная нетри- виальная операция — вычисление /* при заданном /. Но для этого нужно лишь обследовать точки, соседние с Xj, добавляя ±1 к и Jv и учитывая указания оракула. Так как машина Тьюринга может следить за тем, в каком из промежутков ... п ... она находится, то фактически нам для пунктуации нужен только один символ, так что машина Тьюринга может быть трехсимвольной. Если использовать блочное кодиро- вание, то машина может даже быть двухсимвольной, так что, опуская подробности, мы получаем следующий результат: Теорема 9.2. При любом е существует двухсимвольная ма- шина Тьюринга, которой для проверки связности фигуры X на любом прямоугольном массиве R требуется менее (2 + е) log2 | R | квадратов ленты. Мы абсолютно уверены, что этот алгоритм проверки связности минимален в части использования им ленты, но доказательства у нас нет. (В самом деле, мы очень мало знаем о методах, с по- мощью которых можно показать, что некоторый алгоритм мини- мален по объему памяти; этот вопрос будет рассматриваться в гл. 12.) Между прочим, нетрудно показать, что предикат Г|Х| — простое число 1 требует не более (2 + е) log2 |/? | квадратов (и, предположительно, более (2 — e)log2|/?| квадратов). Мы не знаем почти ничего определенного о геометрических предикатах, для которых требуется больший объем памяти, но подозреваем, что число ячеек памяти, необходимое для распозна- вания топологической эквивалентности двух фигур (например, двух компонент фигуры X) имеет порядок скорее |/?|, а не log | R |. Разумеется, в теории функций существуют рекурсивные предикаты, требующие произвольно больших объемов памяти, но не известно, чтобы какой-нибудь из них поддавался прямой гео- метрической интерпретации. 9.2.1. Автоматы «с камешком». Вариант этой модели вычисле- ний изучали Блюм и Хьюитт. Машина Тьюринга заменяется здесь конечным автоматом, передвигающимся взад и вперед по сетчатке, считывая «черноту» той клетки, в которой он в данный момент ]) Такая операция сложения соответствует нумерации i = 2n(y — 1) + х, а не i = 2П(х — 1) +у, указанной в начале параграфа. — Прим. ред.
Гл. 9. Геометрические предикаты и последовательные алгоритмы ИЗ находится. Автомат определяет свое следующее состояние и один из четырех возможных переходов (на север, восток, юг, запад) как функцию этого входного сигнала и своего текущего состояния. Правильно сконструированный автомат должен действовать на произвольной, сколь угодно большой сетчатке, при условии что задан способ обнаружения края массива. Подобный автомат сле- дует признать весьма подходящим для воплощения идеи преди- катной схемы. Положение автомата на сетчатке играет роль одного из двух напечатанных на ленте индексов I или J, запоминаемых машиной Тьюринга. Чтобы осуществить в машине запоминание второго индекса точки, ее можно снабдить камешком, который можно по- местить в любом месте сетчатки, а потом забрать. Мы предлагаем читателям исключительно сложное самостоятельное упражнение: привести алгоритм машины Тьюринга к виду, пригодному для автомата с одним камешком. Можно ли распознать связность без помощи камешка? Конечно, нет, но доказательства мы не знаем. 9.3. Требования к ленточной памяти в случае предиката ^ВЫПУКЛОСТЬ В случае предикатаФВЬ1Пукл0СТЬ Для объема ленточной памяти также можно установить границу. Однако в силу того, что вы- пуклость—метрическое свойство, необходимо рассмотреть проб- лему соответствия точности измерений и разрешающей способно- сти конечной сетчатки R. По-видимому, разумно спросить: имеет ли фигура извилины, превышающие порядок размера квадрата сетчатки. Один из способов ответить на этот вопрос — проверить наличие таких извилин для каждой пары (а, Ь) граничных точек:
144 II Геометрическая теория линейных неравенств Для выполнения такой проверки требуется нечто эквивалент- ное просмотру всех квадратов, прилегающих к прямой, соединяю- щей а и Ь; кроме того, нужна некоторая память, чтобы оставаться в достаточной близости от задаваемого этой прямой наклона. Для каждого приращения, скажем величины у, необходимо вычислить и принять в качестве х наибольшее целое число, содержащееся в величине a log2« разрядов остатка нужно сохранить для следующего шага вычислений. Поэтому можно выполнить вычисления, запоминая по logaM разрядов для каждого из чисел а, Ь, х, у и г, где , . г (у — 1) + Ь — а г (у) = остаток от —---------, который можно получить из регистра, содержащего х и г, при- бавляя b — а на каждом шаге: Перенос Таким образом, для проверки выпуклости достаточно примерно 5/s log2 |] квадратов. Избыточность здесь очевидна, поскольку, например, а можно получить, зная остальные 4 числа (Ь,х, у, г), а это наводит на мысль, что при некоторой изобретательности можно было бы обойтись всего лишь (2 + e)log21/?| квадратами. Что касается нижней границы, то у нас нет никаких идей по поводу того, как ее установить. Хотя выпуклость, будучи конъ- юнктивно локальной, проще, чем связность, для машины Тьюринга, хорошо приспособленной для рекурсивных вычислений, это не яв- ляется особым преимуществом, и вполне возможно, что указанная простота компенсируется сложностью вычислений, связанных с метрикой. Поэтому мы склонны считать, что для реализации как ^выпуклость’ так и Фсвязность в Ф°Рме машин Тьюринга тре- буется порядка 21og2 |/?| квадратов ленты. Нашу неспособность найти достоверную нижнюю границу мы считаем еще одним при- знаком общей слабости тех средств современной теории вычисле- ний, которые должны давать оценки минимальной вычислительной сложности конкретных алгоритмов. 9.4. Связность и параллельная техника Мы уже видели, что существует машина Тьюринга, которой для вычисления предиката 'Фсвязность нУжен небольшой объем
Гл. 9. Геометрические предикаты и последовательные алгоритмы 145 вспомогательной ленточной памяти. Вычисление требует значи- тельного времени, или числа рабочих шагов машины. Для «хоро- ших» фигур этих шагов будет примерно |Д| log |Д| (для «плохих» фигур их может быть примерно |R\2 log |R|). С другой стороны, для машины Тьюринга нужно необычайно мало физического обо- рудования, поскольку оно в ходе вычислений используется много- кратно. Имея в распоряжении больше оборудования, можно, вероятно, уменьшить число рабочих шагов, но мы очень мало знаем о сущ- ности таких замен. При реализации предиката Фсвязность можно сэкономить время, деля пространство на участки и вычисляя свой- ство связности одновременно на всех этих участках. Предположим, что у нас есть машины, которым для вычисления «матрицы связей» для точек пересечения границы фигуры с линиями деления про- странства на участки требуется меньше времени, чем для вычисле- ния предиката Фсвязность на всев сетчатке. Например, для фигуры эта матрица дает информацию о связи точек а и а', b и Ь' и т. д. Заключение о связности всей фигуры можно получить с помощью алгоритма, «сшивающего» вместе эти края. Если делить пространство на более мелкие участки, то вы- числения внутри каждого участка проходят быстрее, но «сшивать» становится сложнее. С другой стороны, вполне вероятно, что к опе- рации сшивания тоже можно рекурсивно применить разбиение, но возможных изменений мы еще не изучали. Мы можем установить интересную верхнюю границу для одного крайнего случая.
146 II. Геометрическая теория линейных неравенств Допустим, что машина составлена целиком из булевых функций двух аргументов. Сколько времени нужно такой машине, чтобы вычислить предикат Фсвязность’ ПРИ условии что каждая булева операция занимает одну единицу времени? Для удобства примем, что R содержит |/?| = 2" квадратов (точек). Определенные пары точек предполагаются «смежными». Можно описать предикат Фсвязность’ считая эт0 отношение смеж- ности цепным и используя компактное индуктивное определение: C\s (X) = |xt Д х/ Д (х(. смежна с %,)] и (1) 1Я1 с”-+1(Х)= V сЭДлсЖ fe=i Считается, что каждая точка хг- связана сама с собой, так что С[((Х) = [х(еХ]. Тогда по индукции можно показать, что преди- кат С?/(Х) истинен тогда и только тогда, когда xt и х, связаны цепью, состоящей не более чем из 2т смежных точек, причем все они принадлежат X. Вся фигура связна, т. е. Фсвязность ~ 1 если Сц (X) = 1 для каждой пары, в которой хг е X и Xj s X. Следовательно, |Я| 1Я1 Фсвязность = [*/Л х;.=фС/;.(Х)]= Л А [х( V V (X)]. (2) Такую функцию можно осуществить в машине, имеющей отдель- ный слой для каждого уровня предикатов С”. Чтобы связать предикаты С7}+1 с соответствующими предикатами С™, требуется, согласно (1), осуществить логическое сложение |7?| членов, а для этого необходимо дерево из элементов или, содержащее не более n = Iog2 | R | каскадов в глубину.
Гл. 9. Геометрические предикаты и последовательные алгоритмы 147 Поскольку таких слоев п (в каждом из них п каскадов), общее время вычисления C?j будет порядка п* 2. Согласно соотношению (2), комбинационная схема, реализующая выход системы, потре- бует еще около 2п слоев, поэтому время (фсвязность) < (IoS I W + Ь log | /? |, где k — малая константа )• Мы сомневаемся в том, чтобы вычисления можно было прове- сти намного меньше, чем за (log |/?|)2 шагов, как бы ни были расположены и каким бы способом ни были упорядочены состав- ные части вычислительной машины. Заметьте, что мы предусмот- рительно учли задержку, вызываемую операцией или. Если этим пренебречь, то для вычислений потребуется только log |/?| шагов, но для больших |/?| это физически нереально. В самом деле, мы должны были бы запретить беспредельное «ветвление», или раз- множение, выходов элементов; если принимать во внимание уси- лители, физически необходимые для этих целей, то вместо нашей оценки мы должны были бы взять 3(log |/?|)2. Как обычно, у нас нет надежного метода для установления нижней границы. Однако представляется уместным следующее псевдодоказательство: 1. Использование большего объема «памяти», по-видимому, не помогает. Может ли машина повысить скорость за счет запоми- нания библиотеки связных фигур и их идентификации вместо того, чтобы вырабатывать всякий раз определение связности? В пре- деле: построить библиотеку всех связных фигур на сетчатке R. Можно построить дерево двоичных булевых операторов, позволяю- щее определять соответствие любому образу как раз за log |/?| шагов. Это в значительной степени ускоряет работу аналога при- веденной выше части I2). Но существует так много различных связных фигур, что теперь нужно объединить операцией или около 20/^1 членов (где 0 — некоторая дробь 2/3 < 0 < 1), так что работа аналога части 2 потребует log(20iR1) = 0 • |/? | шагов, что для боль- ших сетчаток R гораздо хуже, чем (log |/?|)2. Это, конечно, не доказательство, но оно весьма симптоматично. 2. Использование петель типа обратной связи не может повы- сить скорость. Машина с временем работы порядка (log |/?|)2 представляет собой иерархию булевых функций без петель: она не обладает иной способностью вычислять «последовательно», кроме той, которая заключена в ее слоистом строении. Можно было бы значительно уменьшить количество ее частей (а их всего порядка |/?|3log |7?|), строя схему с замкнутыми ’) Это построение предложили нам Р. Флойд и А. Мейер. 2) По-видимому, имеется в виду часть машины, реализующая соотношение (1). — Прим, ред.
148 II. Геометрическая теория линейных неравенств контурами: фактически мы могли бы построить машину Тьюринга, содержащую только k • log |/?| частей при некотором умеренном k. Однако для заданных вычислений ограниченной длины самая быстродействующая машина с замкнутыми контурами не может работать быстрее, чем самая быстродействующая машина без пе- тель (если пренебречь стоимостью ветвления), так как всегда можно построить эквивалентную машину без петель, размножая первоначальную (по экземпляру на каждый шаг вычислений), причем аргументы всех функций берутся из предыдущих экземп- ляров. 3. Схему матрицы связей, по-видимому, трудно усовершенство- вать. Существуют фигуры, в которых непересекающиеся пути имеют длину порядка |Я|. По всей видимости, для любой про- цедуры распознавания (связности. — Ред.), использующей функ- ции двух аргументов, требуется по крайней мере log |/?| шагов, так как трудно сделать что-либо лучшее, чем удваивать длину пути на каждом шаге, как это делает наш метод матрицы свя- зей Сц. На каждом таком шаге должно оказаться порядка |/?| возможных связей, которые должны быть объединены операцией или. Вероятно, можно было бы завершить доказательство, по- казав, что откладывание «на потом» этих операций или (чтобы каждой из них требовалось log |/?| логических уровней1)) не дает никакого выигрыша во времени. 9.5. Связность в итеративных массивах Т. Бейер выполнила исследование времени, необходимого для вычисления предиката Фсвязность с пом°ЩЬ1о иной и, быть мо- жет, более естественной модели параллельных геометрических процедур. Допустим, что в каждом квадрате сетчатки находится ’) В оригинале logic levels. — Прим, перев.
Гл. 9. Геометрические предикаты и последовательные алгоритмы 149 автомат, связанный только с четырьмя своими соседями. Он также может сообщать о состоянии своего квадрата (черный или белый). Окончательное решение о связности фигуры должно выноситься некоторым фиксированным автоматом, скажем, тем, который рас- положен в верхнем левом углу. Предполагая, что состояния сет- чатки меняются только в фиксированные промежутки времени, зададим вопрос: сколько единиц времени должно пройти до при- нятия окончательного решения? Очевидно, что на сетчатке раз- мера п X п это потребует по меньшей мере 2/г единиц времени, так как столько времени занимает продвижение любой информа- ции от нижнего правого угла к верхнему левому. Не представ- ляет труда сконструировать массивы автоматов, которые вынесут решение за время порядка п2 (т. е. |Д|) единиц. Замечательный результат Бейер состоит в том, что достаточно (2 + е) R | еди- ниц, где е можно выбрать как угодно малым, если число состояний автомата достаточно велико. Таким образом, порядок величины времени, затрачиваемого массивом, пропорционален )/j Д |, что (естественно) находится в промежутке между временем, необходимым для одной последо- вательной машины (|Д|), и временем, требуемым параллельной машиной, построенной без ограничений, которая, как известно, тратит не более (log |Д|)2 единиц времени. Дальнейшее служит образной иллюстрацией (неопубликован- ного) алгоритмического процесса, предложенного Т. Бейер. Его действие заключается в том, что какая-нибудь компонента вписы- вается, как показано ниже, в треугольник, который затем мед- ленно сжимается в северо-западном направлении за счет пере- движения гипотенузы внутрь треугольника. Каждая компонента, перед тем как исчезнуть, сжимается в одну изолированную точку. Всякий раз, когда происходит такое событие, его можно локально распознать и передать информацию о нем через элементы схемы в угол. Таким образом, выбор поло- жительного или отрицательного решения о связности зависит от того, встречается такое событие один раз или больше. Процесс сжатия, если описать его подробнее, начинается с нахождения
150 II. Геометрическая теория линейных неравенств всех «юго-восточных» углов фигуры Центральный квадрат служит ЮВ углом, если квадраты Юг и Восток белые. Все остальные квадраты на рисунке могут быть либо черными, либо белыми. Операция сжатия Т удаляет каждый ЮВ угол и, если не- обходимо сохранить связность, вводит взамен X Т(Х) новый квадрат так как переход к конфигурации нарушил бы связность. Диагональные линии показывают, каким образом при неодно4 кратном повторении этого локального процесса фигура сжимается в северо-западном направлении
Гл. 9. Геометрические предикаты и последовательные алгоритмы 151 Повторные применения операции Т в конечном счете сводят каждую компоненту в одну-единственную точку. На примере фи- гуры видно, как (узконаправленно, зато эффективно) эта операция из- бегает соединения двух компонент. Ясно, что компонента, расположенная внутри дыры, исчезнет (и будет учтена) как раз вовремя, чтобы позволить окружающей ее компоненте сжаться полностью. Эквивалентный процесс в трех измерениях мы не знаем. (Необходимо принимать во внимание узлы!)
III. ТЕОРИЯ ОБУЧЕНИЯ Предисловие к части III В заключительных главах нашей книги исследуются темы, ко торые на языке кибернетиков объединяются под общим названием «обучение». До сих пор линейные представления рассматривались вне всякой связи со временем. Сейчас нас интересует вопрос, как их вычислять, сколько нужно для этого времени, как велики они и насколько эффективны как средство хранения информации В гл. 10 мы покажем, что коэффициенты персептрона могут расти значительно быстрее, чем показательная функция от |$|. Этот вывод имеет серьезные последствия, как практические, так и принципиальные: для запоминания коэффициентов нужна память большая, чем для записи всех изображений. Это ломает представ- ление о том, что такая машина способна в некотором смысле абстрагировать. В гл. 11 объясняется замечательная теорема о сходимости пер- септрона и показывается ее связь с известными явлениями из области конечных автоматов, теории оптимизации и использова ния обратной связи в качестве средства для вычислений. В гл. 12 мы отказываемся от строгого определения персептрона, что дает возможность изучать более обширное семейство алго- ритмов, основанных на использовании локальных частных преди- катов. Эти алгоритмы включают методы (типа байесовских реше- ний), используемые статистиками, а также понятия (как, напри- мер, смешанное кодирование), известные только программистам. Цель гл. 12 — очертить область вычислительной техники, охваты- вающую эти явно разнородные процессы. Мы специально подчер- киваем необходимость такой теории, для чего выбираем просто формулируемую, но нерешенную задачу о более прямых, чем обыч- но пропагандируемые, способах хранения и поиска информации-
ГЛАВА 10. ВЕЛИЧИНА КОЭФФИЦИЕНТОВ 10.1. Коэффициенты предиката, определяющего четность В § 3.1 мы рассмотрели предикат фЧЕтность (^)=Г|^|—не- четное число] и показали, что если Ф — множество масок, то лю- бое выражение предиката ФЧЕтность’ принадлежащее £.(Ф), должно содержать все маски. Вот одно из таких выражений Фчетность W = [2 (- 2)1 s (ф) 1 Ф (X) < - 1 ], содержащее все маски множества Ф, причем коэффициенты этих масок растут экспоненциально с ростом мощности носителей ма- сок. Покажем теперь, что коэффициенты неизбежно должны расти с такой скоростью, так как знакопеременный характер свойства четности требует, чтобы величина коэффициента при каждой маске была достаточно большой, чтобы свести на нет влияние множества коэффициентов подмасок этой маски. Фактически мы показываем, что на множестве масок предикат Фчетность можно осуществить только при помощи методики, подобной стратификации! Итак, пусть задан предикат Фчетность = Г2 а/Фг > О]. Предположим, что, применив теорему об инвариантности относительно групп, мы урав- няли коэффициенты а для всех масок <р, носители которых содер- жат одно и то же число элементов. Предположим, наконец, что предикат Фчетность Дает «достоверное» различение, например 2а»фг^1> если число точек фигуры X нечетное, и 2а(фг<:0, если это число четное. Раскрывая линейную форму 2а;<рг для фигур, имеющих 1, 2, 3, ... точки, получаем: ai 1, а2+2а!<0, <Хз + За2 "Ь 3ct} 1, а4 + 4а3 + 6а2 + 4а! 0. Общую формулу легко найти, если обратить внимание на то, что коэффициенты в неравенствах (1) биномиальные, и по индукции доказать, что 1, если п нечетно, ,п. 2l (2 *) fT ' ' ( CLO, если п четно.
154 III. Теория обучения Последовательное вычитание неравенств (2) дает 1 1 п п = С1п+1 +^[("7 = + S( Z-1 )И; = 1 1 О так что для всех п = 0, 1,2, ... (-1)"0„>1. (3) Просуммировав неравенства (3) с некоторыми положитель- ными весами, получим границу для коэффициентов а». Возьмем любое число М > 0 и рассмотрим сумму Левая часть равна 1=0 k=0 м м k = 0 i=k м м SVf iV ( п W Л}! 'l- ХД И “*+Ц £!(«•-£)! Д i! k~Q i~k _ V Vi-n'n f Ml 'iI w-w \ = Zj Zj ' П u* + l (M - *)! Д (Z - 6)! (Af - Z)! ; fee0 Л1 M — k fc-0 j=0 M / Л4 \ / < \k /1 , \M k = 2^а*+Д k ~= k-0 откуда I«m+i l>2^
Гл. 10. Величина коэффициентов 155 Теорема 10.1. В любой «достоверной» реализаци предиката ^четность’ являющейся пороговой линейной функцией на множе- стве масок, коэффициенты растут не медленнее, чем 21 S(4>) Эта оценка справедлива для средних значений коэффициентов, так что если коэффициенты при масках каждого типа не одина- ковы, то некоторые из них должны расти еще быстрее! Этот вывод показывает, что для распознавания функций, аналогичных опреде- лению четности, нецелесообразно использовать предикаты, подоб- ные маскам: даже если бы можно было осуществить огромное число необходимых масок <р, то пришлось бы еще как-то охватить громадный диапазон их коэффициентов! Замечание. Для обучающихся машин данный вывод практически являет- ся роковым. Чтобы «выучить» наибольший коэффициент, необходимо по крайней мере R । примеров изображений, имеющих максимальное число точек. Факти- чески дело обстоит еще хуже из-за неприятных взаимодействий с коэффициен- тами более низкого порядка (§ 11.4). Кроме того, отсюда следует, что для запо- минания коэффициентов а, емкость памяти должна быть такой, какая потребо- валась бы для хранения всего множества изображений, распознаваемых предикатом Фцетность1 т е- нечетных подмножеств множества R. В самом деле, так как для любого единообразного представления коэффициентов а, необходимо по IR!—1 бит на каждый, а коэффициентов всего 2'RL то потребуется (I R I — 1) • 2' R ' бит. С другой стороны, число нечетных подмножеств множества R равно?1 R'~’, на каждое из них необходимо по | R | бит, так что для представ- ления всех указанных подмножеств достаточно | R I 1 бит. А для хране- ния коэффициентов предиката, описанного в § 10.2, потребовалась бы память значительно большей емкости. Заметим, что в этом отношении предикат ’1’чЕТНОСТь не составляет ника- кого исключения, ибо по теореме о положительной нормальной форме все воз- можные 22'Я1 булевы функции являются линейными пороговыми функциями на множестве масок. Таким образом, детальное описание функции требует в сред- нем 2^1 бит информации, а из-за разброса величин коэффициентов эта оценка может быть существенно больше. 10.2. Коэффициенты могут расти с ростом даже быстрее, чем экспоненциально Можно было бы подумать, что фЧЕТН0СТЬ — наихудший пре- дикат, так как, во-первых, четность — самая плохая функция, а, во-вторых, маски образуют наихудшее множество Ф. На самом же деле маски образуют довольно хороший базис, потому что коэффициенты масок никогда не могут превышать |az| = 2’s в чем легко убедиться, приведя произвольный предикат к поло- жительной нормальной форме. Рассмотрим теперь новый предикат ф равенство и весьма неприятное множество Ф, которое приводит к худшим коэффициентам. Пусть R — множество точек у\, ..., уп, zlf ...» zn. Обозначим через {VJ и {ZJ — последовательности,
156 III. Теория обучения составленные из 2” подмножеств точек у и z соответственно. Тогда для любой фигуры X с R существует единственное разложение X = Yj U Zh. Пусть предикат ФрАВЕНство имеет простой вид ^РАВЕНСТВО (Уj U ~ 17 = &!• Этот предикат для любого ¥ проверяет, одинаковы ли номера его частей У и Z в соответствующих последовательностях. Простой геометрический пример дает случай, когда обе половины про- странства R имеют одинаковую форму, а У/ и Z,— множества то- чек у и z. Построим весьма специфическое множество Ф таких предика- тов, при котором Фрлвенство (Ф), и покажем, что любая реализация предиката ’ФРАВЕНство из М®) Должна содержать не- вероятно большие коэффициенты! С самого начала укажем на то, что это множество Ф мы будем использо- вать исключительно для данной цели. При исследовании предиката Фцвтность мы видели, что коэффициенты могут расти с ростом I R | экспоненциально; там Ф было естественным множеством масок, представляющим интерес независимо от проблемы коэффициентов. Здесь же мы создаем множество Ф только ради того, что оно дает неудачные коэффициенты. Тем самым мы покажем, что суще- ствуют еще худшие ситуации. Определим Ф так, чтобы оно содержало два типа предикатов: = = V(W~1 Лг<Щ где Z=l, ..., 2". Заметим, что |S(фг)) = п и |S(x(-)| = 2n. Дока- жем, что ФРАВЕнство *= (®)- Рассмотрим формулу ^равенство ~ (Фг — Хг) < 11- Случай 1: j = k. Тогда фй = 1 и %* == 1, откуда фРАВЕНСтво = = Г2*(1-1)<П принимает значение истина. Случай 2: j k и / #= й — 1. Тогда только = 1 и ^равенство = Г2*< 1] принимает значение ложь. Случай 3: j = k — 1. Тогда = 1 и %г = 1 для i = 1, ..., k — 1. Поэтому предикат Г 4-1 1 ^равенство = 2 — 2। 2 < 1 = Г2 < 1] принимает значение ложь, и, следовательно, он истинен только для / = k, как и должно быть. Таким образом, предикат ФРАВЕНство действительно принадлежит L (Ф).
Гл. 10. Величина коэффициентов 157 Найдем теперь границы коэффициентов. Рассмотрим предикат ^равенство = Г^" аМл "I" РгФ; > б]- Тогда для множеств Yh+1 U Zft будет 0&<С0, для множеств Yh U Zft будет ай + Рй 0 + 1 (сильное разделение), для множеств Уй_! U Zh будет di + ... + <Xfe_1 + pft < 0. Мы можем считать 0 = 0 — его можно вычесть из каждого р, поскольку в каждом неравенстве р содержится только один раз. Таким образом, Pi -^0, aj > 1. Но 1 +aj + ... +aft_b и потому мы немедленно получаем C62^2, a3>4, ..., a, Так как индекс / пробегает значения от 1 до 2", то наибольший коэффициент а должен быть по крайней мере в 22”-1 раз больше, чем начальный разделяющий член (ои + Pi)—Pi = ось Эта неве- роятная скорость роста коэффициентов частично основана на ма- тематической шутке: отметим, что выражение / = k, равнозначное выражению для предиката ФрАВЕНство> Уже присутствует в опре- делениях предикатов %i, и введено оно туда как раз для того, чтобы свести почти на нет их роль в Л(Ф). Самое смешное, что в терминах масок предикат ФРАВЕНСТВО имеет вид ^РАВЕНСТВО ~ (yi + zi %У izi) Cl]» и коэффициенты в действительности очень малы! Задачи. Найти такое множество Ф, которое заставляет коэффициенты _ J R | -const _ тредиката Счетность Расти, как 2 . Решение дается в § 10.3. В § 10.1 множество Ф состоит из элементов и коэффициенты предиката ^ЧЕТНОСТЬ имеют величину порядка 2^ L В § 10.2 Ф содержит 2^1/2 элементов, но его I R I коэффициенты достигают величины 22 • Число элементов множества Ф можно увеличить вплоть до 22 .Означает ли это, что существуют множества Ф и пре- 21« I дикаты ф, приводящие к коэффициентам порядка 22 ? (Мы думаем, что этого не может быть. См. § 10.3.) Можно ли доказать, что при любом Ф отношения коэффициентов никогда не превысят 2|ф|? Можно ли установить более точные зависимости между ко- эффициентами и их отношениями? Можно ли доказать, что оценки коэффициен- тов, найденные при условии их целочисленности, ограничивают точность, требуе- мую от произвольных вещественных коэффициентов? Можно ли установить ли- нейные границы для коэффициентов предикатов, о которых говорилось в гл. 7? Линейный пороговый предикат ^РАВЕНСТВО = 2 (Фг — Xi) > б] очень похож на предикаты, полученные методом стратификации. В этих предикатах коэффициент на каждом уровне i выбирается
158 III. Теория обучения так, чтобы он превышал наихудший результат суммирования коэф- фициентов предыдущих уровней. Для таких предикатов, как сле- дует из теорем § 10.1 —10.2, нет никаких линейных форм с мень- шими коэффициентами. Это наводит на мысль, что некоторым предикатам, возможно, в некотором смысле внутренне присуща стратификация (по отношению к заданным множествам Ф). В этом направлении у нас нет никаких определенных идей, кроме простой констатации факта, что ощущается пугающая нехватка приемле- мых для ЭВМ методов распознавания образов. Для большей ча- сти случаев, рассмотренных в гл. 7, неизвестно, в каких из них действительно требуется такой рост коэффициентов, какой наблю- дается при стратификации. Иными словами, у нас нет общего метода, чтобы обнаружить «внутренне присущее разделение на страты». 10.3. Предикат с максимально возможными коэффициентами Обозначим через ||Х|| номер подмножества X в упорядоченной последовательности всех подмножеств пространства R. Рассмот- рим простой предикат ФцЧЕТносты|= П1 % II ~ нечетное число] и мно- жество Ф предикатов <PzU) = 0, если || X || < I, 1, если || X || = I, (|| X || — z) mod 2, если ||Х||>/. Тогда предикат ФцЧЕТностьц принадлежит Л(Ф) и реализуется в виде Фц четность в ~ f-S (— 1) где f{ есть z-e число Фибоначчи (fn = fn_\ + fn-г)' = 1, 2, 3, 5, 8, 13, ...}. Теорема 10.3. Коэффициенты любой формы предиката 'I’ll четность ц- принадлежащей L (Ф), должны быть не меньше чисел Фибоначчи ft- Так как ft растут приближенно как 1 / /5~ + 1 V /5 \ 2 / ’ то наибольший коэффициент имеет порядок ~2а’2 , еде а =
Гл. 10. Величина коэффициентов 159 Теорему нетрудно доказать, проанализировав таблицу 1 щ 1 2 3 4 5 6 7 8 9... 1 —1 1 1 0 1 0 1 0 1 0... 2 +1 0 1 1 0 1 0 1 0 1... 3 —2 0 0 1 1 0 1 0 1 0... 4 +3 0 0 0 1 1 0 1 0 1... 5 —5 0 0 0 0 1 1 0 1 0... 6 +8 0 0 0 0 0 1 1 0 1... 7 —13 0 0 0 0 0 0 1 1 0... Легко видеть, что если oci < О, а коэффициенты целые, то a2i + 1 < — 2 «2/ > /=1 i a2i~^ ~ 2 а2/- 1 • / = 1 Это означает (читатель может проверить сам), что для всех at IСЧ+11>|а/1 + |аг-1 I; следовательно, | at | ft. Обсуждение и предположение. Этот предикат и его множество Ф обладают точно таким же свойством, как предикат ^равенство и его Ф из § Ю.2: каждая из масок <р сама является почти искомым предикатом. Заметим также, что подходящим упо- рядочением подмножеств можно добиться равенства Ф|| ЧЕТНОСТЬ II = ^ЧЕТНОСТЬ- Мы предполагаем, что этот пример — наихудший, т. е. если Ф содержит |Ф| элементов, то рост коэффициентов не может про- исходить быстрее, чем . гх1±17ф| 2V 2 J , где постоянная в показателе степени равна отношению Фибоначчи, или отношению «золотого прямоугольника». Наше предположение опирается на аргументы1), недостаточно обоснованные для того, чтобы излагать их письменно. ') Например, на факт из теории рациональных приближений и геометрии чисел, что в верхних границах фигурирует число )/"5.
160 III. Теория обучения 10.4. Теорема об инвариантности относительно групп и ограниченные коэффициенты на бесконечной плоскости В §7.10 мы упоминали о примере, опровергающем возможность распространения теоремы об инвариантности относительно групп (§ 2.3) на бесконечные сетчатки. Трудность вызвана применением бесконечной стратификации, приводящей к неограниченным коэф- фициентам. В свою очередь это создает проблемы сходимости для суммирования по симметрии, используемого при доказательстве равенства коэффициентов в пределах одного класса эквивалент- ности. Если коэффициенты ограничены, а группа содержит все переносы, то соответствующую теорему можно доказать. (Более сильные результаты нам неизвестны: по-видимому, если наложить какие-то условия на суммируемость коэффициентов и на струк- туру группы, можно сформулировать лучшую теорему.) В до- казательстве используется известный из геометрии факт: при одинаковом увеличении радиусов для одинаковых кругов с фик- сированными центрами относительная величина общей площади стремится к 1. 10.4.1. Ограниченные коэффициенты и инвариантность относи- тельно групп. Пусть ф — предикат, инвариантный относительно переноса на бесконечной плоскости. Теорема 10.4.1. Если в каждом классе эквивалентности ко- эффициенты при предикатах <р ограничены, то существует экви- валентный персептрон, у которого в каждом классе эквивалентно- сти коэффициенты равны. Доказательство. Обозначим через Тс множество пере- носов на расстояния, не превышающие некоторой величины С. Пусть ф = [2 « (<р) <р б]. Определим предикат фс формулой Фс(*) = Г ( 2 a((p)(p(gX)-e>01. |geTc (феф / | Так как под действием обратного элемента группы множество Тс переводится само в себя, то фс(Х) = Г2ф(х) 2a(<pg-I)>2e> I ф 7с тс ] *= Г 2 ф W 2 a (cpg) > 2 el. I ф Та Та 1
Гл. 10. Величина коэффициентов 161 В силу приведенного в § 2.3 доказательства каждый предикат 1|)С эквивалентен ip. Докажем, что можно выбрать такую неубываю- щую последовательность радиусов R\, /?2> •••, что предел в каждом классе эквивалентности имеет постоянное значение, не зависящее от <р. Лемма. Пусть функция f(x) в пространстве Е2 ограничена, т. е. |/(х) |<ЛГ. Тогда найдется такая неубывающая последова- тельность радиусов Ri, что для любой системы концентрических окружностей с этими радиусами предел не зависит от выбора общего центра р, если он вообще существует для какого-нибудь центра. Доказательство. Возьмем любую неограниченно возра- стающую последовательность радиусов R{, а в качестве центра — начало координат. Тогда для каждого i -L j t(U)dA <A. Если нам задан другой центр р, то j f(y)dA — J f(p + y)dA <2M^(p), Iz/I<R£ где ДДр)—площадь симметрической разности1) двух кругов |у| < Rt и \У — Р \ < Ri. Но при увеличении радиуса для любого центра р так что обе последовательности стремятся к одному и тому же пределу (если он существует). Для доказательства основной теоремы просто выбираем из любого класса эквивалентности в качестве представителя некото- рый предикат <р и полагаем f(g) = a(<pg), считая g переносом из начала координат. ’) Симметрической разностью двух множеств А и В называется множество (Л U В) \ (Л П В). — Прим. ред.
162 III. Теория обучения Таким образом, полученный в § 7.4 персептрон должен иметь неограниченные коэффициенты, и в Л(Ф) не существует эквива- лентного представления с ограниченными коэффициентами. Фигурирующий в лемме предел может и не существовать — контрпримеры привести легко. Это означает, что теорема 10.4.1, по-видимому, не всегда справедлива без дополнительных условий, но мы считаем, что эти дополнительные условия не так уж важны. Соответствующий контрпример мы не знаем. Примечание. Методы § 10.2 и 10.3 сходны с теми, кото- рыми Майхилл и Котц [1961] находили максимальные коэффи- циенты в случае предикатов порядка 1. Майхилл и Котц показали, что существует предикат порядка 1 с целыми коэффициентами, у которого один из коэффициентов превышает 2/е- 1/лг - 2та.
ГЛАВА 11. ОБУЧЕНИЕ 11.0. Введение В предыдущих главах у нас не было никакой систематической методики представления предиката как элемента множества А(Ф). Наоборот, мы строили коэффициенты на основе специального ма- тематического анализа самого предиката и множества элементар- ных предикатов ср. Эти исследования проводились специально для каждого предиката. В настоящей главе мы изучаем ситуации, в которых множества коэффициентов можно найти при помощи более систематизированной процедуры, легко воплотимой в авто- матическом устройстве. Именно эта возможность и создала пер- септрону славу «обучающейся машины». Принципиальную схему процесса «обучения», как он пони- мается здесь, можно представить себе в виде машины, состоящей из канала ввода изображений, двух выходных индикаторов да и нет и подкрепляющей, или «поощряющей», кнопки, при помощи которой оператор машины может одобрять или не одобрять ее F+ F~ Рис. 11.1. поведение (рис. 11.1). Оператор имеет два набора F+ и F~ изо- бражений и хотел бы, чтобы машина отвечала да на каждое изображение из набора F+ и нет на каждое изображение из F . Если реакция машины верна, то свое одобрение оператор выра- жает, скажем, нажатием кнопки. Машина обязана изменять свое внутреннее состояние, чтобы приспосабливаться к желаниям ее хозяина. Существует множество способов построения такой машины Наиболее оче- видная схема должна иметь какое нибудь записывающее устройство для 6*
164 111. Теория обучения запоминания вводимых изображений в двух накопителях, отдельно для F+ и для F". Такая машина никогда не сделает ошибки на изображении, которое она видела раньше, но наряду со способностью никогда ничего не забывать она бывает весьма неуклюжей. Другая машина, построенная на совершенно иных принципах, попыталась бы найти описательные характеристики, различные для изображений двух классов, и использовать новые изображения для уточнения и совершенство- вания этих описаний. Такая машина потребовала бы при длительной работе меньшей памяти, но ее устройство и теория значительно более сложные. Если классы F+ и F- очень велики, то первая машина работать не сможет, а если для встречающегося на практике репертуара изображений описания не существует, то потерпит неудачу машина второго вида. Персептрон как машина, умеющая различать образы, лежит между этими двумя крайностями. Он не ищет соответствия с хранящимися в памяти изобра- жениями, так как не запоминает самих изображений. При выработке описаний возможности персептрона, как мы видели в предыдущих главах, ограничены тем, чего можно достичь, используя лишь «локальные» отличительные свойства образов и только линейные пороговые отношения между этими свойствами. Су- ществование описанных ниже простых процедур обучения следует из этого ограничения, наложенного на способность машины строить описание (и могло бы рассматриваться как частичная компенсация этого ограничения). Предположим, что обучающейся машиной является персептрон с фиксированным множеством Ф и регулируемыми коэффициен- тами. При подаче на вход персептрона изображения X вычис- ляется сумма S а<р<Р (X). Если X принадлежит F+ и эта сумма положительна, то машина отвечает ДА и все хорошо. Если X принадлежит F+, а сумма от- рицательна, то машина отвечает нет. Это плохо, и нужно что-то предпринимать. Что может служить простейшей процедурой кор- рекции? Первое, что приходит в голову, особенно людям, воспитанным на идее обратной связи, это увеличить коэффициенты слагаемых, поскольку сумма оказалась слишком малой. Если бы она оказа- лась слишком большой (а именно ответ ДА на изображение из F-), у нас возникло бы желание уменьшить коэффициенты. Но коэффициенты нужно регулировать разумно, чтобы долж- ным образом направлять действие обратной связи. Предположим, что для какого-то изображения X из F+ сумма 2аф<р(Х) получилась отрицательной. Вообще говоря, для некото- рых предикатов ср значение <р(Х) равно 0, и совершенно ясно, что их коэффициенты не отвечают за неверный результат. На самом деле изменение этих коэффициентов может даже нанести вред другим изображениям и уже во всяком случае не принесет ника- кой пользы для данного X. Поэтому будем увеличивать а(р только в том случае, если ф(Х)= 1. Мы хотели бы иметь для этого та- кую процедуру, математическая форма которой достаточно ясна и поддается простому анализу, а ее способность добиться опреде- ленного успеха достаточно велика. Приведенная в § 11.1 про-
Гл. И. Обучение 165 цедура удовлетворяет обоим этим требованиям, но, прежде чем перейти к ее описанию, сделаем несколько предварительных за- мечаний. 11.0. 1. Коэффициенты и векторы. Множество коэффициентов {a<f}, упорядоченных произвольным, но фиксированным образом, удобно представить в виде вектора в |Ф|-мерном пространстве. Обозначим этот вектор через А. Точно так же множество {ср(Х)}, упорядоченное таким же образом, можно рассматривать как век- тор, координатами которого служат значения предикатов ср(Х). Обозначим этот вектор через Ф(Х). Теперь увеличение коэффи- циентов, соответствующих ненулевым значениям ср(Л”), изящно осуществляется простым прибавлением вектора Ф(Л') к вектору А. Если бы для X и F~ сумма оказалась положительной, то следо- вало бы вычесть Ф(Х) из А. Любая подобная процедура с самого начала таит в себе опас- ность возникновения сильных колебаний. Регулировка в соответ- ствующем направлении коэффициентов для одного изображения могла бы расстроить предыдущую регулировку для другого. Та- ким образом, наше интуитивное представление о работоспособно- сти подобной процедуры подвержено влиянию двух противоречи- вых идей, почерпнутых из опыта кибернетики: простая обратная связь, корректирующая ошибки, часто оказывается вполне рабо- тоспособной; с другой стороны, процесс включает в себя поиск в |Ф|-мерном пространстве, а наш опыт с другими системами типа «подъема на холм» заставляет нас остро сознавать опасно- сти, которые грозят подобным процедурам. Необходим строгий анализ. Этот вопрос о пригодности простой обратной связи можно изложить дру- гими словами, тесно связанными с нашей главной темой. Условие, которому должны удовлетворять коэффициенты а у, определяется глобально по отношению ко всему множеству изображений. В то же время «корректирующая» процедура в высшей степени локальна в том смысле, что каждое изменение текущих зна- чений коэффициентов основано на рассмотрении только одного изображения. Таким образом, проблема нахождения условий, при которых процедура заста- вит коэффициенты а у, сходиться к глобально удовлетворительным значениям, связана с изучением соотношений между явно глобальными и явно локальными вычислениями. В настоящей главе мы покажем, что очень небольшие усовер- шенствования превращают простой принцип обратной связи в работоспособную процедуру «тренировки», или исправления ошибок. Основные теоремы об этом уже известны довольно хо- рошо. Главная наша забота — понять, почему эта процедура дей- ствует. Механизм процедуры и ее логические основы станут ясными и понятными в результате разностороннего анализа. При рассмотрении возможности распознавания тех или иных классов фигур мы старались заменить неопределенные формули-
166 111. Теория обучения ровки вопросов о том, являются ли персептроны «хорошими» или «плохими» распознающими устройствами, аналитической теорией, показывающей, почему в некоторых случаях персептроны рабо- тают успешно, а в других должны потерпеть неудачу. Несмотря на то что у нас нет так же хорошо разработанной теории обуче- ния, мы можем по крайней мере показать, что в тех случаях, когда «обучение», или «адаптация», или «самоорганизация» все- таки происходит, это явление вполне объяснимо и не содержит ни малейшего намека на таинственные и малопонятные принципы поведения сложных систем. Действуют ли здесь такие принципы, мы не можем знать. Персептрон никаких доказательств этому не дает, а наш успешный анализ персептрона представляет еще одно косвенное подтверждение тезиса о том, что работоспособные ки- бернетические процессы понять можно, а те, которые нельзя по- нять, весьма подозрительны. 11.1. Теорема о сходимости персептрона Рассмотрим следующую программу, в которой наша обычная сумма 2атф(^) интерпретируется как скалярное произведение АФ. начало; Выбрать любое значение для А. испытание; Выбрать какое-нибудь изображение X из F+(JF". Если A"eFb и А-Ф>0, перейти к испытание. Если X е F+ и А-Ф^О, перейти к сложение. Если X е F" и А • Ф < 0, перейти к испытание. Если X е F" и А-Ф^О, перейти к вычитание, сложение; Заменить А на А + Ф(Х). Перейти к испытание, вычитание; Заменить А на А —Ф(Х). Перейти к испытание. Впредь до последующего указания мы предполагаем, что су- ществует такой вектор А*, что А*-Ф(Х)>0 для X е F+ и А*-Ф(Х) <0 для X е F-. Теорема о сходимости персептрона утверждает, что при любом выборе в блоке начало и любой функ- ции выбора в блоке испытание вектор А будет изменяться только конечное число раз. Другими словами, вектор А в результате при- мет значение А0, при котором А°-Ф(Х) будет иметь надлежащий знак, т. е. = [А0 • Ф > 0]
Гл. 11. Обучение 167 будет обладать свойством XeF+ влечет -ф (X) = 1, XeF" влечет ф(Х) = 0. Часто по поводу этого свойства говорят, что предикат ф(Х) разделяет множества F+ и F-. Теорему о сходимости можно сфор- мулировать тогда так: если множества разделимы (г. е. суще- ствует вектор «решения» А*), то программа разделит их (т. е. най- дет вектор решения А0, который может и не совпадать с А*). Так как сейчас нас больше интересуют множества коэффи- циентов {а4}, а не характер множества Ф и не геометрия изобра- жений на Л, то удобно связывать функции из Т(Ф) с множе- ствами {а^}, рассматриваемыми как векторы пространства, базис которого образуют предикаты ср из Ф. Предостережение: базис векторного пространства образуют частные предикаты ср, а не точки сетчатки /?! Хотя формы У, агср, в этой главе будут счи- таться элементами векторного пространства, следует помнить, что множество Л(Ф) предикатов ф не является векторным простран- ством и что каждый предикат фЕ/ДФ) можно представить с по- мощью многих различных векторов А1). С точки зрения теории векторных пространств классы F+ и F- отображаются на классы векторов, которые мы будем также обо- значать F+ и F-. Разумеется, такое отображение может быть вырожденным, так как могут найтись два изображения X ¥= X', для которых Ф(Х)=Ф(Х'): персептрон «видит» исходные изобра- жения только через посредство предикатов ср, и некоторые детали могут быть потеряны. Отбросим теперь ограничение на функцию ср, согласно кото- рому она могла равняться только 0 или 1. Пусть ср принимает любые вещественные (положительные и отрицательные) значения, *) Отметим, что в этой книге теория векторных пространств встречается только здесь и в гл. 12. Обычно в литературе о персептронах теория векторных пространств была основным математическим аппаратом, а второе место занимала статистика, играющая в наших изысканиях тоже незначительную роль. Если бы нам предложили назвать главную причину того, что о персептронах известно так мало, несмотря на целое десятилетие их изучения, мы указали бы именно на применение теории векторных пространств! Ибо в связи с тем, что формы 2агф( рассматривались как скалярные произведения, отношения между образа- ми {X} и предикатами из Е(Ф) стали совершенно неясными. Векторы А не яв- ляются линейными операторами, действующими на сами изображения; это «ко-операторы», т. е. они действуют в пространствах функциональных операто- ров, которые уже в свою очередь действуют на изображения. Поскольку базисы (ф-классы) этих векторных пространств произвольны, нет надежды использо- вать их для того, чтобы узнать многое о типах предикатов, принадлежащих £(Ф). Важны не линейные свойства совокупностей £(Ф), а степень сложности вычисления характеристик образов по информации, заключенной в самом мно- жестве {ф(Х)}-
168 ///. Теория обучения и пусть для различных X каждая функция может иметь любое число различных значений. Таким образом, F+ и F~ можно счи- тать двумя произвольными множествами в пространстве Ф. Главная опасность, возникающая из-за такого обобщения, состоит в том, что слишком большие векторы могут испортить действие обратной связи, а слиш- ком малые — замедлить его. Поэтому в дальнейшем будем прибавлять или вы- читать ие вектор Ф, а единичный вектор Ф того же направления '): ~ Ф , ~ ф= | ф | > откуда |Ф| = 1. Если множества F+ и F" бесконечны, то углы между векторами из разных множеств могут стремиться к нулю. В этом случае существует только один век- тор решения, и программа может не найти его. Условия теоремы 11.1 исключают эту возможность. Блок испытание в описанной выше программе слишком сло- жен. Следующая программа работает точно так же: начало: Выбрать любое значение А (=/=()). испытание; Выбрать вектор Ф из F+ (J F-. Если Ф е F+ и А-Ф>0, перейти к испытание. Если Ф е F+ и А • Ф 0, перейти к сложение. Заменить Ф на — Ф. Если Фер" и А-Ф>0, перейти к испытание. Если OeF’ и А'Ф^О, перейти к сложение, сложение; Заменить А на А + Ф. Перейти к испытание. Эта программа аналогична предыдущей, поскольку (1) изме- нен знак неравенства в той части блока испытание, которая сле- дует за изменением Ф, так что все решения будут приниматься так же; (2) результат оператора «перейти к сложение» соответ- ствует результату оператора «перейти к вычитание» при обратном знаке Ф. Далее, команда «заменить Ф на —Ф» выполняется тогда и только тогда, когда Фе F-, а так как условия, выраженные не- равенствами, имеют теперь одинаковые исходы, можно заменить эту программу другой, эквивалентной, программой: начало; Выбрать любое значение А. испытание; Выбрать вектор Ф из F+ (J F”. Если Фер-, изменить знак Ф. Если А-Ф>0, перейти к испытание; иначе перейти к сложение. сложение; Заменить А на А + ®. Перейти к испытание. ’) Здесь, как и всюду, где речь идет о векторе Ф (а не о множестве Ф), | Ф | обозначает длину вектора Ф. — Прим, перев.
Гл. 11. Обучение 169 Другими словами, задача нахождения вектора А, разделяю- щего два данных множества F+ и F-, в действительности не отли- чается от задачи нахождения вектора К, удовлетворяющего усло- вию ФсР^Л Ф>0 для одного заданного множества F, представляющего собой сово- купность векторов из F+ и взятых с обратным знаком векторов из F~. Учитывая эти замечания, упростим программу и формулировку теоремы о сходимости. Для простоты изложим вариант с единич- ными векторами. Теорема 11.1 о сходимости персептрона. Пусть F — множество единичных векторов Ф. Если существуют такие единичный вектор К* и число 6 > 0, что А*ф>3 для всех Ф из F, то программа начало; Выбрать произвольный вектор Ф из F в качестве А. испытание; Выбрать произвольный вектор Ф из F и если А Ф>0, перейти к испытание; иначе перейти к сложение. сложение; Заменить А на А + Ф. Перейти к испытание. переходит к блоку сложение только конечное число раз. Некоторые читатели, возможно, будут удивлены, заметив, что при доказа- тельстве этой теоремы не используются никакие предположения о конечности множества F или размерности векторного пространства. В дальнейших разделах, где компактность единичной сферы играет существенную роль, такие предполо- жения будут нужны. Следствие. Если программе представлена такая последо- вательность, в которой каждый вектор Ф е F повторяется как угодно много раз, то она в конце концов найдет вектор «реше- ния», т. е. вектор А, для которого А -Ф>0 для всех Ф е F. Разумеется, он не обязательно должен быть вектором А*, так как А* — произвольный вектор решения. Все векторы решения об- разуют выпуклый конус, и программа прекратит изменение век- тора А, как только он перейдет границу этого конуса. (Выпуклым конусом называется множество S векторов, для которых (1) к е S Д h е S для всех k > 0, (2) а е S и р е S (а + 0) е 5. Это не векторное подпространство, ибо k > 0.)
170 III. Теория обучения 11.2. Доказательство теоремы о сходимости 11.2.1. Обозначим т. е. G(A) — косинус угла между А и А*. Так как ]А*| = 1, то G(A)<1. Рассмотрим поведение G(A) при последовательных обраще- ниях программы к блоку сложение: А* • А/+1 = А* • (А/+ Ф) = = A* Az +А* Ф> > А’ • А/ + 6; отсюда после и-го выполнения команды сложение получаем А*-А„>яб. тезис Таким образом, числитель дроби растет линейно с ростом числа п изменений вектора А, т. е. числа ошибок. Теперь относительно знаменателя. Так как число АгФ должно быть отрицательным (иначе программа не обратилась бы к блоку сложение), то I А(+1 |2 = At+i • А<+1 = = (А/ + Ф).(А/ + Ф) = = | А/12 + 2AZ • Ф + | Ф |2 < <|А/|2+1 и после ft-го выполнения команды сложение | А„ |2 < п. АНТИТЕЗИС тезис и антитезис вместе дают но так как G(A„)^ 1, то это неравенство справедливо только для УпЬ^ 1, т. е. ft^ 1/62. Теорема доказана. Некоторые аспекты геометрии скорости роста |А| представ- лены на рис. 11.2 и 11.3. Эти рисунки особенно интересны для тех, кто хотел бы рассмотреть следующее диалектическое и, немного неверное, алгебраическое доказательство. Из неравенства антитезис следует, что |А„| растет медленнее, чем У п. С другой стороны, из неравенства тезис можно вывести (при помощи неравенства
Рис. 11.2. Увеличение ра- диуса должно равняться по меньшей мере 6, однако новый вектор должен оста- ваться в заштрихованной области; это невозможно, если толщина этой области, меняющаяся обратно про- порционально | А стано- вится меньше 6. Рис. 11.3. Предельный случай, в котором граница | Ап | = У~п достигается.
172 III, Теория обучения Коши — Шварца), что |АП| растет пропорционально п. Это ведет к противоречию: величина |А„| должна расти достаточно быстро, но не может 11.3. Геометрическое доказательство (факультативно) Пусть нам задан такой (единичный) вектор А*, что А* • Ф > б для всех Ф е F. Это значит, что cos0<x>, где 0®—угол, образованный вектором Ф из F с вектором А*, больше б. Если выбрать угол 0* > 0 так, чтобы cos0* > cos (max 0®), то для каждого вектора V, отклоняю- щегося от А* на угол, не превышающий 0*, будет V • Ф > 0 для всех Ф е F, Поэтому любой вектор N внутри кругового конуса с осью А* и уг- лом 0* будет вектором решения, который заставит программу пре- кратить изменение вектора А. Рассмотрим теперь вектор А, вычисляемый программой. На каждой ступени вычислений А есть сумма элементов из F. По- этому А* - А = А*-(Ф1 + Ф2+ ...)>0. Рассмотрим плоскость, в которой лежат векторы А* и А. Если в качестве А* взять вертикальный единичный вектор, то приведен- ное выше неравенство означает, что вектор А должен быть напра- влен в верхнюю полуплоскость: Нам хотелось бы показать, что каждый раз, когда программа проходит через сложение, А приближается по направлению к А*. К сожалению, это не всегда так, но, как видно из рис. 11.4, обыч- но это происходит. Разберемся в этом обычном случае, прежде чем погрузиться в детали строгого доказательства. При выполнении команды сложение вектор Ф прибавляется к текущему значению вектора А, скажем А(, и получается новое значение вектора А, скажем A;+i = Аг + Ф. О векторе Ф нам
Гл. И. Обучение 173 известно два факта: А* • Ф > О, Az • Ф < 0. Обозначим через Ф\ проекцию вектора Ф на плоскость, обра- зованную векторами А* и А(. Перенесем начало этой проекции в Рис. 11.4. конец вектора Аг (для того чтобы получить геометрическую кар- тину сложения векторов). В силу первого условия конец вектора должен быть выше прямой р, а в силу второго — ниже пря- мой q. Таким образом, вектор <I>n расположен, как на рис. 11.4, и направлен из конца вектора Аг к вектору А*. Если рассмотреть конус, образованный вращением вектора А; вокруг А*, то легко обнаружить, что сам вектор Ф (проекцией которого служит Ф;у) заходит внутрь конуса. Доказательство тео- ремы было бы закончено, если бы не то обстоятельство, что Ф
174 III. Теория обучения может снова выйти за пределы конуса, и то1да вектор A(+i будет иметь большее угловое удаление от А*, чем вектор А;. Этот слу- чай показан на рис. 11.5. Однако такой «прокол» конуса не является роковым, посколь- ку он может происходить только конечное число раз, зависящее от 0*. В самом деле, рассмотрим конус, образованный вращением вектора А вокруг А*. Так как Ф всегда имеет вертикальную со- ставляющую Ф-А* > 6, то высота конуса растет всякий раз, когда изменяется А. Если угол между А и А* остается больше 0* (а если Рис. 11.6. а —единичная окружность вокруг конца вектора А; Ь —конец вектора; с — касательная к основанию конуса; е —основание конуса (малого); f — основа- ние конуса (большого). нет — доказательство закончено!), то радиус основания конуса ста- новится неопределенно большим. Спроектируем все рассматривае- мые векторы на основание конуса (рис. 11.6). Обозначим через Ф проекцию вектора Ф на это основание и покажем, что ее конец удален от касательной в точке А не менее чем на d и лежит по ту же сторону, что и А*. Так как |Ф*| = 1, то этот конец должен лежать внутри единичного круга с центром в конце вектора А (рис. 11.6). Итак, конец вектора Ф должен лежать внутри заштрихованной области. Когда основание конуса станет достаточно большим, за- штрихованная область целиком будет внутри конуса, а вместе с ней и ф. Тогда внутри конуса будет и конец вектора ф, так как он расположен непосредственно над Ф. Осталось только показать, откуда появилось магическое расстояние d.
Гл. 11. Обучение 175 Для этого спроектируем все на плоскость, перпендикулярную касательной (рис. 11.7). Конец вектора Ф должен лежать внутри заштрихованной области, которая определяется плоскостью (1), перпендикулярной к А, и плоскостью (2), перпендикулярной к А* Рис. 11.7. и расположенной на д выше А, поскольку А*-Ф>б. Таким обра- зом, конец вектора Ф должен быть удален от касательной не менее, чем на некоторое расстояние d. Нижнюю границу для d определяет тот факт, что вектор А образует с А* угол, не превы- шающий л/2 — 0*, так как он является суммой векторов Ф. Итак, после конечного числа переходов к блоку сложение векторы А будут оставаться в вертикальном цилиндре, расположенном внутри конуса допустимых решений, имеющего своей осью вектор А*. Отсюда следует, что изменение вектора А должно прекра- титься, и теорема 11.1, таким образом, доказана,
176 III. Теория обучения 11.4. Другие варианты теоремы о сходимости Теорема о сходимости персептрона допускает массу других второстепенных формулировок. Наше доказательство легко при- способить к любому из видов, в которых эта теорема встречается в литературе о персептронах. 1) Вместо предположения о том, что множество F состоит из единичных векторов, можно допустить, что F— конечное множе- ство или что его векторы ограничены по длине сверху и снизу, т. е. найдутся такие числа а и Ь, что 0 <а<[|Ф|<16 для каждого Фе F. 2) Вместо замены вектора А на А + ф можно заменить его на А + /?Ф, где k — вещественное число, выбираемое по одному из следующих правил: k — положительная константа; k= , т. е. прибавляется единичный вектор; Если с= 1, то величина k вполне достаточна для вы- , АФ Я — С | ф |2 вода (А + йФ)-Ф из отрицательной области. Можно использовать любое значение с между 0 и 2 (Эгмон [1954]). Эти и подобные им модификации не меняют теорему в том смысле, что после конечного числа переходов к блоку сложение вектор А все же станет вектором решения. Это число в каждом варианте теоремы будет своим. Интересно было бы сравнить от- носительную эффективность «локальной» программы сходимости персептрона с более «глобальными» аналитическими методами (например, с линейным программированием), которые можно при- менить для системы неравенств относительно А: А-Ф>0 для всех ®eF. 11 .4.1. Случай более чем двух классов. Обобщим теорему на случай, когда число классов входных изображений больше двух. Пусть Fi, F2, ... — множества изображений, и пусть существуют такие векторы А/ и число д > 0, что Фер, влечет А; • Ф > А/• Ф + д для всех j¥=i- Тогда теорема о сходимости персептрона гласит, что векторы с тем же свойством можно найти, следуя обычному принципу об- ратной связи: всякий раз, когда в F,- встречается изображение Ф, для которого А,- • Ф < А3- • Ф при некотором /, вектор А» должен «увеличиваться», а А;-— «уменьшаться».
Гл. 11. Обучение 177 Более точно эта идея выражается в программе: начало; Выбрать любые ненулевые значения А1; А2, .... испытание; Выбрать I, j и Ф е Fz. Если Az • Ф> А; • Ф, перейти к испытание; иначе пе- рейти К ИЗМЕНЕНИЕ. ИЗМЕНЕНИЕ: Заменить Az на А;-|-Ф. Заменить А/ на А/ —Ф. Перейти к испытание. Обобщенная теорема утверждает, что эта программа будет обращаться к блоку изменение только конечное число раз. Но это возможно лишь в том случае, если машина в конце концов перестанет ошибаться, т. е. если для каждого вектора ф из Fz в конце концов будет Az • Ф > А; • Ф для всех j. Для доказательства предположим, что векторы AJ, ..., А*г, ..., ..., AJ, ..., А’т удовлетворяют условию теоремы. Выпишем под- ряд координаты этих векторов и обозначим полученный вектор (в пространстве большей размерности) через А*. Далее, для каж- дого Ф зададим (в этом новом пространстве) вектор Ф;(, у кото- рого i-й блок (т. е. место, отведенное для координат вектора А* в векторе А*) заполнен координатами вектора Ф, /-й блок — коор- динатами вектора — Ф, а все остальные блоки заполнены нулями. Теперь к этому большому пространству можно применить тео- рему 11.1. 11.5. Приложение. Обучение предикату ФЧЕТН0СТЬ В качестве примера, иллюстрирующего теорему о сходимости, оценим число шагов, необходимых для того, чтобы с помощью программы обучения определить коэффициенты предиката, про- веряющего четность. В § 10.1 мы показали, что вектор решения с наименьшими коэффициентами можно записать в виде /|Я|\ /|Я|\ ( j j членов ( . J членов А = (21 .... 2|л|-1, ..., ..., 1). Длина этого вектора находится из равенства |A|2=y22(l«l-/,(^|U(i+22)'«l=5l/d.
178 III. Теория обучения Соответствующий единичный вектор равен а* —__А л ~ 5IRI/2 • Проведенный в § 10.1 анализ показывает, что произведение А-Ф равно 1 или —1. Так как вектор ф имеет 2|/?| координат, каждая из которых равна либо 0, либо 1, то А* • Ф | 1 = 1 |ф| Г У io^ ' Таким образом, в качестве б можно взять l/l^lO1^1. Тогда чис- ло п коррекций ограничено величиной n<4-<ioIRl. Так как число |А„| должно быть не менее 5|Л>|/2 и I А„ | < п, то нижняя граница для п равна Итак, 51*1 10’4 Заметим, что если бы в программе обучения вместо ф прибав- лялся вектор Ф, то мы бы получили 5'*‘ ,<n<10m, т. е. Щ1*' 10|/?|. max[ Ф | \2) Чтобы решить, действительно ли такая замена приведет к увели- чению скорости обучения, требуется дополнительный анализ. Во всяком случае ясно, что время обучения должно расти экспонен- циально с ростом |/?|. Эти неравенства определяют границы числа п коррекций, или, что то же самое, числа ошибок. При подсчете общего количества циклов программы (включая «пустые» циклы, в которых не наблю- дается ошибка и, следовательно, не производится коррекция.— Ред.) нужно учитывать уменьшение числа ошибок в ходе обуче- ния. Нетрудно, однако, видеть, что число М(г) циклов, необходи- мое для уменьшения относительного числа ошибок до величины г < 1, должно удовлетворять неравенству М(г)^п/г в предполо- жении, что изображения подаются в машину в случайном по- рядке. Таким образом, для получения 1% ошибок необходимо не- многим менее 10|в1+2 циклов.
Гл. 11. Обучение 179 11.6. Процесс обучения, рассматриваемый как подъем на холм Полезно рассмотреть, как связана процедура сходимости с об- щей проблемой «подъема на холм». Здесь также ищут глобальное решение (т. е. местонахождение абсолютной вершины) с помощью локальных операций (например, методом наискорейшего подъема). Эффективность таких методов зависит от того, в какой степени определение искомой вершины так глобально, как это могло бы показаться. В тех случаях, когда холм имеет сложную форму с большим количеством локальных пиков, гребней и т. д., процес- сы подъема на холм не всегда выгодны. Действительно, в таких ситуациях больше подходит случайный или систематический поиск, а не процесс, при котором с железной неумолимостью происходит подъем на каждый небольшой холмик. В типичном случае подъема на холм ищут максимум функции 6(A) от точек А некоторого «-мерного пространства. Простейшая процедура вычисляет значение функции «высоты» G для ряда то- чек А/ + Ф, в окрестности текущей точки Аг. На основании этих экспериментов выбирается величина Ф и сумма Аг + Ф прини- мается в качестве А(+ь Алгоритм выбора Ф может быть различ- ным. Например, в качестве Ф, можно использовать единичные векторы, ориентированные в направлении осей, затем рассчитать направление наиболее крутого подъема и единичный вектор этого направления принять в качестве Ф. В более простой процедуре в качестве Ф можно взять первый же найденный единичный век- тор, для которого G (Аг + Ф) > G (Аг). Выбор соответствующего алгоритма зависит от многих соображений. Однако если холм (т. е. поверхность, заданная функцией G) ведет себя достаточно хорошо, то подойдет любой алгоритм разумной сложности. Если же холм очень плохой, то даже самые остроумные локальные ухищрения будут бесполезны (рис. 11.8). Рассмотрим процесс обучения персептрона как алгоритм подъ- ема на холм, заданный функцией Внешне он отличается от алгоритма обычного вида в двух отношениях. Во-первых, в нем нет процедуры систематического исследования результатов перемещения из текущей точки А( во всех направлениях. Во-вторых, он фактически никогда не находит значение искомой функции G(A), так как вектор А* по определе- нию неизвестен. Тем не менее по логике действия он, в сущности, похож на бо- лее простой из двух упомянутых выше алгоритмов подъема на холм: переход от Аг к А(+] = А( + Ф основывается на данных, показывающих (хотя и косвенным путем), что G(A/+1) больше, чем G(A(). Естественно ожидать, что эффективность алгоритма
180 III. Теория обучения связана с формой поверхности G(A). Действительно, несложные рассуждения показывают, что эта поверхность не имеет ни одной из патологических особенностей, способных затруднить процесс подъема на холм: нет ложных локальных максимумов, гребней, плато и т. д. Яснее всего это видно при рассмотрении функции Хороший холм Рис. 11.8. Хороший холм, но плохой алгоритм (пример, предложенный О. Сел- фриджем). Подъем на холм вдоль обеих осей не срабатывает, так как для точки А, находящейся на гребне, оба значения G (А + Ф,) и G (А + Ф2) меньше, чем G (А). «Разрешающая способность» пробных векторов слишком груба для столь острого гребня. G(A) на единичной сфере, где А = А/|А|. Для векторов А, удов- летворяющих условию А-А*>0 (а только такие нужно прини- мать во внимание), эта поверхность является «-мерным конусом. Он имеет единственную вершину при А = А*, связные единооб- разные контуры, прямые линии наиболее крутого подъема; короче говоря, все свойства, которые можно пожелать для процедуры подъема на холм. Таким образом, если посмотреть на теорему о сходимости с другой точки зрения, то описываемый ею процесс не будет ка- заться таким уже неожиданным, исключительным явлением.
Гл. 11. Обучение 181 11.7. Персептроны и гомеостаты Значение теоремы о сходимости персептрона не должно сво- диться (как это часто бывает в литературе) к простому утвержде- нию: если два множества изображений линейно разделимы, то с помощью теоремы о сходимости можно найти разделяющий пре- дикат. В самом деле, если бы все заключалось лишь в нахождении разделяющего предиката, то для этого вполне подошла бы и бо- лее простая процедура. Заметим прежде всего, что если существует такой вектор А*, что А* • Ф > б > 0 для всех Фе F, то существует вектор А', обла- дающий этим же свойством и имеющий целые координаты. Подхо- дящее значение для А' дает простая программа: НАЧАЛО; Положить Aq = 0. испытание: Выбрать Фер. Если А-Ф>0, перейти к испытание; иначе перейти к порождение. порождение; Заменить А на Т(А), где Т — такое преобразование, что ряд ЦО), Т(Т(0)), Т(Т(Т(0))), ... включает все возможные векторы с целыми координатами. Перейти к испытание. Ясно, что эта процедура может сделать лишь конечное число ошибок, прежде чем наткнется на решение. Машине, которая так упорно игнорирует свой опыт, было бы трудно оправдать назва- ние «обучающаяся». Итак, суть теоремы о сходимости персептрона состоит в том, что она дает лучший процесс обучения, чем этот простой гомео- стат. Все же проблемой относительной скорости обучения персеп- тронов и других устройств почти полностью пренебрегают. Ника- кой общей теории этого вопроса пока еще не существует. В §11.5 рассматривались отдельные проблемы, возникающие при оценке времени обучения. Некоторые другие простые методы «обучения» мы исследуем в гл. 12. Логическая теория гомеостатов, т. е. про- цедур перебора, подобных вышеупомянутой, изучается в книге Эшби [1962]. 11.8. Случай неразделимости Есть много причин, по которым следует изучать действие про- граммы обучения персептрона, даже когда не существует такого вектора А*, что А*-Ф > 0 для всех Фе F. Некоторые из этих мо- тивов чисто практические. Например, с помощью этой программы узнать, существует ли такой вектор А*, или построить похожую обучающуюся машину и изучить влияние ошибок обратной связи или другого «шума». Другие причины носят теоретический
182 ///. Теория обучения характер. Никогда нельзя утверждать, что полностью понимаешь случай разделимости, если не обладаешь хотя бы какими-нибудь знаниями того, что происходит в других случаях. Теперь совершенно очевидно, что теорема 11.1 в том виде, в каком она сформулирована, не может быть справедлива при таких более общих условиях. Вектор А должен иметь возможность меняться бесконечное число раз. Однако не ясно, что с ним про- изойдет: будет ли |А| неограниченно расти? Будет ли А прини- мать бесконечно много значений, или этот процесс зациклится, или же А еще каким-нибудь образом будет оставаться внутри фиксиро- ванного конечного множества значений? В дальнейшем мы докажем, что величина [ А | ограничена. Для большей точности изложения введем следующие определения. Пусть F — конечное множество векторов. Назовем F-цепью после- довательность векторов Ai, А2, ..., Ап, удовлетворяющую усло- виям: А(-+1 = Аг + Фг, Фг-Аг<0, Ф, е F. F-цепь называется правильной, если для всех i I А;|>| А! |. Докажем, что элементы F-цепей, начинающихся большими век- торами, не могут стать слишком большими. 11.9. Теорема о «зацикливании» персептрона Для любого е>0 существует такое число N = N(e, F), что если А, ..., А' — правильная F-цепь и | А | > N, то | А' | < | А | + е. Следствие 1. При данном множестве F и данном началь- ном векторе длины |А| векторов, получающихся в ходе работы программы, ограничены. Если к тому же координаты векторов, принадлежащих F, целые, то этот процесс имеет конечное число состояний. Правдоподобность этих утверждений легко проверяется при изучении рис. 11.10. По мере того как |А| увеличивается, стано- вится труднее найти элемент F-цепи, удовлетворяющий одновре- менно условиям А-Ф^О и |А + Ф|>|А|. Формальное доказа- тельство приведено в § 11.10; оно использует индукцию по размер- ности векторов в F. Впервые эту теорему (в форме следствия 1), по-видимому, сформулировал Нильсон и доказал Эфрон. Совершенно самостоя- тельно сформулировала это предложение Т. Бейер.
Гл. 11. Обучение 183 11.10. Доказательство теоремы о «зацикливании» Наше доказательство основано на фактах, связанных с изме- нением длины произвольно большого вектора А при добавлении к нему вектора С фиксированной малой длины. 11.10.1. Леммы1)- Если С — произвольный вектор, а вектор А очень велик по сравнению с С, то |А + С|- | А|« А - С. Чтобы точнее сформулировать это утверждение, введем обозна- чение: А = |А + С| — |А[. Тогда если для любого е>0 взять | А| > | С[2/е, то разность между А и А - С будет меньше е. С помощью анализа бесконечно малых (рис. 11.9) получаем | А • С - А |<| В |sin 0 ~ | В |2/| А | <| С |2/| А |, где | А | > | С |. Формальное доказательство вряд ли необходимо, но если угодно, можно положить х = |А+С|,у = |А|,и тогда в силу тождества х2 - У2 = 21/ (х - у) + (х - у)2 имеем 2А • С + | С |2 = 2 | А | А + А2, откуда 2 | А | (А • С — А) = А2 — | С |2. Так как | A | I С |, то I А • С - А | <| С |2/| А |. Следовательно, А « А- С при | А | » | С |. Из этого утверждения можно вывести ряд лемм. Лемма 1. Величину \ можно сделать как угодно малой, если выбрать подходящую нижнюю границу для |А| и подходящую верхнюю границу для А-С, т. е. если взять вектор А достаточно большим и почти перпендикулярным к С. *) Через А мы обозначаем единичный вектор направления А.
184 ///. Теория обучения Лемма 2. Угол (А, А + С) можно сделать как угодно ма- лым, придавая как угодно большие значения величине |А|, ибо sin0 <|С|/| А|. Лемма 3. Если сравнительно малый вектор С не перпенди- кулярен к очень большому вектору А и их скалярное произведение отрицательно, то величина А всегда строго отрицательна. Действительно, пусть А-С<—<5 < О (рис. 11.10). Возьмем |А|>(2/б)|С|. Тогда, так как А стремится к отрицательной вели- чине А • С| С |, то А • С| С |< А< j А • С| С |<0 и, следовательно, А<— ^-б|С|. Нам понадобится еще одна важная лемма. Лемма 4. Проекция правильной F-цепи Аь ..., Ад на гипер- плоскость, содержащую множество F, есть правильная F-цепь. Бо- лее того, разность | Аа [ — | Ai | не превосходит соответствующей раз- ности для цепи, полученной в результате проектирования. Доказательство. Пусть Аь ..., Ад — правильная цепь, Н — гиперплоскость, содержащая F, и В—нормаль к Н. (Напом- ним, что В-Ф = 0 для всех OeF.) Обозначим At-= А, + хг В. Чтобы показать, что А(, ..., Ад есть F-цепь, положим A/+i = == At + Ф, где А, - Ф^О. Тогда, с одной стороны, А/+1 = Ai+1 + х{+1В, а с другой стороны, А/+1 = А; + Х;В + Ф = (А; + Ф) + AjB.
Гл. 11. Обучение 185 В силу ортогональности вектора В к векторам А/, Аг-+1 и Ф х/+1 = х, и Аг+1 = Аг + Ф. Полагая В = хгВ, получаем О > А, Ф = (А, + В) Ф = Аг Ф + В Ф = Аг Ф. Проверим теперь неравенство |Аг|^|А[|. Оно следует из соот- ношения | Аг |2 = | Аг |2 + 2Аг • В +1 В |2 = | Аг |2 +1 В |2. Таким образом, полученная в результате проектирования F-цепь является правильной. Наконец, I Aft | -1 А, | = V\ Aft |2 +1 В |2 - V|A1|2 + | B|2 < | AJ -1 А! |, и теорема доказана. II.10.2. Доказательство теоремы о «зацикливании». Докажем теорему индукцией по размерности векторного пространства. Для пространства Еь т. е. для одномерного случая, справедли- вость теоремы очевидна, ибо векторами здесь будут вещественные числа и Ф-А<0 означает, что Ф и А имеют разные знаки. Если |А|> шах|Ф|, то |Ф + А|<[А| при Ф-А<0, так что в конце концов будет | А,| < тах|Ф|. Предположим, что теорема справедлива в пространстве En-i- Это означает, что существует такое число M„_[, что приращение длины вектора в любой F-цепи А], ..., Ат в Еп_\ не может стать больше M„-i, т. е. | Am | < | Aj | + Mn-i- ~ Выберем в Еп любое направление А (единичный вектор) и по- пытаемся построить на единичной сфере такую открытую окрест- ность V(A), что длины векторов цепей, начинающихся с V(A), воз- растают ограниченно. Точнее, для любого е > 0 найдется такое число АДА), что при |В| > АДА) и BsV(A) приращение длины векторов любой правильной F-цепи, начинающейся с В, не превышает е. Так как открытые множества V (А) покрывают еди- ничную сферу, а сфера компактна, то вместо всех чисел АДА) можно найти единственное такое число N, и теорема будет до- казана. Обозначим через Н (А) гиперплоскость, перпендикулярную к А, и через Н(А) ее дополнение, т. е. Н(А) = ЕП-Н(А). Так как множество F конечно, то существует такое число 6 > 0, что |Ф-А| > 26 для всех Ф из Н(А) flF. В силу непрерывности найдется такая окрестность УДА), что |Ф-В|>6 для
185 Ill. Теория обучения Фе= Н(А) П F и В eV'(A). Кроме того, существует такое число Ь, что |Ф| < b для всех ФеР. Согласно лемме 3, существуют такие числа д' и /г (А), что если |B|>n(A), (1) Ф е Н (А) П F, (2) В g V' (А), (3) Ф • В < 0, (4) то | В + Ф|<| В |-6'. (5) Условия (1) — (4) получаются из условий леммы 3, если в по- следней заменить А на В и С на Ф. В силу условия (2) вектор Ф не перпендикулярен к А, а в силу условия (4) Ф не перпендику- лярен к В. Рассмотрим правильную F-цепь Вь ..., Bj, .. ., где Bj+i = = Bj + Ф„ вектор Bi очень близок к А и | В[ [ > /г (А). Обозначим через ц > О такое число, что диаметр множества V'(A) превосхо- дит гр Возьмем в качестве окрестности V(A) такую окрестность точки А на единичной сфере, у которой диаметр меньше г|/2, так что V(A)gzV'(А). Выберем теперь вектор Bi из V(A), удовлетво- ряющий условию | В] | > /г (А) (скоро мы эту нижнюю границу для IBJ изменим до нужной величины N (А)). Согласно неравенству (5), цепь не может быть правильной, если Ф1 ^Н(А). Таким образом, цепь должна начать рост с Н(А). Покажем, что не только Фц но и все остальные векторы Ф принад- лежат Н(А). Предположим, что {Фь .... Ф7}с: Н(А) и Ф/+1еН(А). Тогда | BJ+11 меньше | В] | по крайней мере на 6'/2. Для доказа- тельства этого утверждения воспользуемся леммами 1 и 2. Так как проекции В1; , .., Bj векторов цепи образуют правильную F-цепь в (п—1)-мерном пространстве Н(А), то IB/KIB.I + AV, (по предположению индукции). Теперь, если число ц выбрано до- статочно малым, a N(А) достаточно большим, то условия лемм 1 и 2 выполняются, если в качестве С взять Ф1 + ... + Ф^ (так что | С| <М„_1), вместо А взять В], а вместо е — число e'=min(e, б'/2). В силу неравенства (5) и неравенств | В j | > |BJ >N(A)
Гл. 11. Обучение 187 | В/+1 |<| В, |-б'<| В1 | - так что при переходе от Bj к Bj+1 длина вектора В уменьшается на величину большую, чем та, на которую она увеличилась за первые / шагов! Таким образом, цепь не может быть правильной, если не все векторы Ф принадлежат Н(А). Но так как наша цепь правильная, то Фу е Н(А) для всех k = 1, 2, ... . Итак, искомая окрестность V(А), начиная от которой рост длины векторов всей цепи ограничен числом е, построена. Эти окрестности покрывают единичную сферу. Поскольку сфера компактна, из этого покрытия можно выделить конечное подпокрытие. Возьмем в качестве N максимальное из чисел 2V(A). Тогда для любой правильной цепи В, . .. , В' | В ]>Д7=ф] В' |<| В I + е. Теорема о «зацикливании» доказана!
ГЛАВА 12. ЛИНЕЙНОЕ РАЗДЕЛЕНИЕ И ОБУЧЕНИЕ 12.0. Введение Персептрон и теоремы о сходимости из гл. 11 родственны мно- гим другим процедурам, которые исследуются в обширной и бес- системной литературе под такими названиями, как обучающиеся МАШИНЫ, МОДЕЛИ ОБУЧЕНИЯ, ИНФОРМАЦИОННЫЙ ПОИСК, ТЕОРИЯ СТАТИСТИЧЕ- СКИХ решений, распознавание образов ц др. В настоящей главе мы рассмотрим некоторые из этих процедур, чтобы указать их точки соприкосновения с персептронами и выявить глубокие различия. Мы не можем привести ни полного и точного отчета, ни единой теории этих вопросов; это выходило бы очень далеко и за пределы наших знаний, и за пределы тематики этой книги. Глава 12 напи- сана скорее для того, чтобы побудить читателей к исследованиям, а не предложить решения проблем. 12.1. Информационный поиск и индуктивный вывод Процедуры обучения персептрона можно было бы использовать иля создания устройства, действующего в соответствии со следую- щей схемой поведения: ОтВзтщ
Гл. 12. Линейное разделение и обучение 189 В течение периода регистрации машине предъявляют множе- ство данных в виде n-мерных векторов (их можно рассматривать как двоичные числа с п разрядами или точки в n-мерном простран- стве). Позже, на стадии поиска, машина должна быть способной решить, какие векторы из множества вопросов принадлежат мно- жеству данных. С целью обобщения этой модели мы будем упот- реблять символ Арегистрация, когда речь будет идти об алгоритме, исследующем множество данных и в соответствии с этим исследо- ванием изменяющем информацию в памяти. Алгоритм Арегистрация предназначен для подготовки памяти к использованию ее при вы- полнении операции АПОиск, которая на основе хранящейся в памяти информации принимает решения. В настоящей главе мы рассмотрим несколько примеров этой общей схемы. Вначале сравним персептрон с простейшей такой машиной: Арегистрация в процедуре полное запоминание просто за- писывает в память векторы исходных данных по мере их поступ- ления. При поступлении вектора, который надо опознать, опера- ция Апоиск просматривает всю память и выясняет, записан ли в ней этот вектор. 12.1.1. Сравнение персептрона с полным запоминанием. Пере- числим вопросы, которые могут возникнуть при сравнении схем поиска в этом простейшем случае. Универсальна ли процедура? персептрон работает безупречно только при том условии, что множество исходных данных линейно разделимо, полное запоминание универсально: оно работает на любом множестве данных. Каков объем памяти требуется? Для полного запоминания нужно хранить все множество данных, поэтому для него нужна довольно большая память. персептрон (в тех случаях, когда он применим) иногда обладает способностью к обобщению, бла- годаря которой информационная емкость, требуемая для хранения его коэффициентов {а,}, оказывается существенно меньшей, чем емкость, необходимая для хранения всего множества исходных данных. Мы уже видели (§ 10.2), что так бывает не всегда: для коэффициентов предиката ФЧЕТНОсть может потребоваться значи- тельно большая память, чем для множества приемлемых векторов. Какова скорость операции АП0ИСк? Характерная для полного за поминания схема поиска (полный перебор) имеет очень низкую скорость (обычно она ниже, чем скорость соответствующей опера- ции у персептрона, при которой также должны выбираться из памяти все коэффициенты). С другой стороны, процессы, весьма сходные с указанными, могли бы проходить намного быстрее. На- пример, если бы алгоритм Арегистрация не ТОЛЬКО ЗаПОМИНЭЛ МНО- жество данных в порядке их поступления, но и сортировал со- держимое памяти, располагая векторы в порядке возрастания
190 ///. Теория обучения соответствующих чисел, то Апоиск мог бы использовать двоичный поиск, снизив тем самым время ответа на вопрос до logs(| множе- ство данных |) обращений к памяти. В § 12.6 мы рассмотрим алго- ритмы Арегистрация, позволяющие ценой увеличения объема памяти достичь еще большего увеличения скорости (при помощи так назы- ваемого «смешанного кодирования»). Может ли машина работать достаточно успешно даже в том случае, когда алгоритм Арегистрация просматривает только часть множества исходных данных; назовем эту часть «выборкой дан- ных»? персептрон мог бы, но полное запоминание в том виде, как оно описано, не может прийти к разумному решению, если предъ- являемый к опознанию вектор не встречался в выборке данных. Этот недостаток подсказывает важное усовершенствование про- цедуры полного запоминания: пусть Апоиск вместо простой про- верки, содержится ли предъявляемый к опознанию вектор в вы- борке данных, находит элемент выборки, наиболее близкий к этому вектору. При априорном предположении о «непрерывности» исход- ных данных это усовершенствование привело бы к такой же сте- пени обобщения, как и у персептрона. К сожалению, процедуры ускорения типа смешанного кодирования в этом случае непри- годны, и мы предполагаем (в определенном смысле, который будет уточнен в § 12.7.6), что эта потеря невосполнима. Остальные рассматриваемые здесь вопросы касаются операции Арегистрация. Заметим, что персептрон и полное запоминание обла- дают следующими общими свойствами: Они действуют «по приращениям», т. е. понемногу изменяют содержимое памяти в зависимости от предъявляемого элемента из множества данных. Они работают в «реальном масштабе времени», не используя больших массивов рабочей памяти. Они могут воспринимать множество исходных данных в любом порядке и допускают повторения, которые только вызывают за- держку, но не изменяют конечного состояния. С другой стороны, они имеют по крайней мере одно, весьма существенное различие: Арегистрация персептрона является «поисковой процедурой», осно- ванной на обратной связи со своими собственными результатами. Алгоритм регистрации полного запоминания пассивен. Преиму щество персептрона в том, что при определенных условиях он находит экономное общее представление. Но за это ему прихо- дится расплачиваться многократным просмотром некоторых точек. 12.1.2. Процедуры множественной классификации. Изложенные выше идеи можно слегка обобщить, если предположить, что мно- жество данных разбито на классы Fi, . . ., Fa. Как и прежде, алго- ритму Арегистрация предъявляются элементы множества данных, но
Гл. 12. Линейное разделение и обучение 191 при этом для каждого из них указывается соответствующий класс. Алгоритм формирует массив хранимой информации, предоставляе- мой затем в распоряжение алгоритма АПОиск, задача которого состоит в том, чтобы с помощью этой информации отнести предъ- являемые к опознанию точки к их классам. Пример. Мы уже видели (§ 11.4.1), как можно распростра- нить идею персептрона на случай множественной классификации. Обучающий алгоритм АпргистпЯиия находит k векторов А], ..., Ай, а Адоиск относит вектор Ф к Fj, если Ф • А/ >Ф • Аг (для всех i=£j). скалярное произведение Пример. По-видимому, для многих читателей значительно более знакома следующая ситуация. Будем рассматривать каж- дый класс Fj как «комок», или «облако», или «кучу» точек в про- странстве Ф и выделять в нем одну точку Bj, в каком-то смысле «типичную», или «среднюю». Например, точка В, может быть центром тяжести, т. е. средним всех векторов из класса Fj (или, скажем, только тех, про которые уже выяснено, что они принадле- жат Fj). Тогда знакомая уже процедура состоит в следующем: вектор Ф относим к тому классу Fj, для которого расстояние |Ф-В/| наименьшее. Другими словами, каждый вектор Ф отождествляется с ближайшей к нему точкой Bj. Хотя такая схема близости и схема скалярного произведения внешне выглядят совершенно различными, но по существу это одно и то же! Действительно, следует только заметить, что мно- жество точек, расположенных ближе к точке Bi, чем к точке В2, отделено от В2 гиперплоскостью (рис. 12.1), и, следовательно, его можно задать линейным неравенством. Аналогично точки, распо- ложенные ближе к одной из нескольких точек В, на плоскости, образуют (выпуклый) многоугольник (рис. 12.2); это легко обоб- щить и на пространство большего числа измерений.
192 HI. Теория обучения Формально эта эквивалентность получается из соотношения |Ф-В;|2 = |Ф|2-2Ф-Ву + |Ву |2. Если все векторы Ф имеют одинаковую длину L, то расстояние |Ф—Bj| будет наименьшим, когда разность ф.в7-1|в7 |2^ф.в7-е7 будет наибольшей. Если теперь, учитывая результаты § 1.2.1 (1), удалить «по- рог» 0, то останется как раз скалярное произведение Ф-В,. Требование равен- ства длин векторов Ф не умаляет общности. В самом деле, добавим еще одну ось координат и заменим каждый вектор Ф = (<pt, .... <рп) вектором так что все векторы Ф имеют одну и ту же длину L ~ nJ2. Для векторов В мы также должны были бы добавить еще одно измерение, но мы будем просто счи- тать, что соответствующая координата равна нулю1)- 12.2. Многообразие алгоритмов классификации Из бесконечного многообразия схем, которые можно исполь- зовать для разбиения пространства на классы, выберем несколь- ко моделей, иллюстрирующих различные стороны нашей основ- ной темы — вычисление и линейное разделение. Каждой модели дадим краткую характеристику, а потом проведем сравнение не- которых сторон их алгоритмических структур, требований к па- мяти и ограничений, налагаемых на характер классов. В каждой из наших моделей для операции АПОиск исполь- зуется один и тот же вид решающего алгоритма. В каждом слу- чае за классом Fy закрепляется один или более векторов А,; мы это будем выражать словами: вектор Аг- соответствует классу Fj(,j. При заданном векторе Ф правило решения всегда состоит в выборе того класса FyW, для которого Ау«Ф принимает наиболь- шее значение. Как отмечалось в § 12.1.2, оно с математической точки зрения эквивалентно правилу, минимизирующему [Ф — А,|. Для каждой модели следовало бы также описать операцию Арегистрация, которая строит векторы Aj на основе прежнего опыта или априорной информации о классах. В приведенных ниже крат- ких набросках подробное описание этой операции не дается; мы займемся этим в следующих разделах. ’) На самом деле требование равенства длин векторов Ф даже излишне, поскольку неравенство |Ф — By |2<|Ф—В41 2 эквивалентно неравенству Ф-Bj—| Ву|2>Ф-В,—В,-12 при любой величине |Ф|2. — Прим. ред.
Гл. 12. Линейное разделение и обучение 193 12.2.1. персептрон. Здесь каждому классу F, соответствует один вектор А,. В качестве операции Арегистрация можно использо- вать процедуру § 11.1 для случая двух классов и процедуру § 11.4.1 для случая многих классов. 12.2.2. байесовская линейная статистическая процедура. Каж- дому классу F3- здесь также соответствует один вектор А3, а вот операция АрегистРация совершенно другая. Для каждого класса Fj и каждого частного предиката <р< положим 1 ( ра \ ®o = iog где ptj-—вероятность того, что дц — 1, при условии что Ф принад- лежит F3. Пусть А/ = (0/, wlh w2h .. •)• В § 12.4.3 мы укажем условия, при которых эти «вероятности» имеют смысл, и опишем алгоритмы «обучения», с помощью кото- рых можно будет оценить или аппроксимировать w:i. Если выполняются определенные статистические условия, то преимущество байесовской процедуры в том, что она дает хо- рошие результаты для классов, которые не являются линейно разделимыми1)- Она фактически дает наинизшую возможную величину ошибки ДЛЯ процедур, в которых Арегистрация ЗЭВИСИТ только от условных вероятностей, если предикаты <р< статистически независимы в смысле § 12.4.2. Просто поразительно, что это до- стигается с помощью линейной формулы. 12.2.3. наилучшие плоскости. В различных ситуациях персеп- трон и байесовская процедура уступают друг другу. Но зачастую, когда классы F3- линейно неразделимы, существует множе- ство векторов Aj, дающее меньшие ошибки, чем любая из этих схем. Поэтому определим процедуру наилучшие плоскости как такую, при которой используется указанное множество векто- ров А3-. Это множество характеризуется здесь тем, что наиболь- шее скалярное произведение А3-Ф приводит к наименьшей ошибке. По определению наилучшие плоскости всегда по крайней ме- ре не хуже, чем персептрон или байесовская процедура. Это не противоречит оптимальности байесовской процедуры, поскольку поиск наилучшей плоскости использует иную информацию, чем условные вероятности. К сожалению, никакой практически действенный алгоритм Арегистрация ДЛЯ ВЫЯВЛеНИЯ ВСКТОрОВ Aj ЭТОЙ ') Правильнее было бы сказать «для пересекающихся классов», поскольку для классов, разделимых нелинейной поверхностью, но линейно не разделимых, описанная процедура не даст хороших результатов. — Прим. ред. ЧЛ Зак. 837
194 ///. Теория обучения процедуры неизвестен. Как отмечается в § 12.3, из-за проблемы локальных вершин подъем на холм не будет здесь работать успешно. 12.2.4. изодейта. В описанных в § 12.2.1—12.2.3 моделях каж- дому классу F соответствовал один вектор А. Если взглянуть на решаемую задачу с точки зрения минимизации расстояния, то станет ясно, что такие процедуры работают удовлетворительно только тогда, когда классы F «локализованы» в сравнительно изолированных, отдельных областях (их можно представлять себе в виде комков, куч или облаков). Естественно тогда задать вопрос: что же делать, если класс F хотя и не является четко очерченным сферическим образованием, но все же частично ло- кализован в виде небольшого числа куч или, быть может, в виде змееподобной структуры? В таких ситуациях задачу можно ре- шить с помощью алгоритма АПОИск, вычисляющего кратчайшее рас- стояние, если закрепить за каждым скоплением,.входящим в состав каждого класса F, свой вектор А или использовать много векто- ров А для задания «хребта змеи». Для реализации этой идеи потребуется операция Арегистрация, обладающая некоторой способ- ностью к анализу распределений в кучах. Одна такая схема под названием изодейта будет описана в § 12.5. 12.2.5. ближайшее соседство. Наша простейшая и основная схема не налагает никаких ограничений на число векторов А. Алгоритм Арегистрация хранит в памяти каждый просмотренный век- тор Ф вместе с соответствующим ему классом F. Для каждого предъявляемого к опознанию вектора Фо отыскивается в памяти ближайший к нему вектор ф и выбирается класс F, соответствую- щий Ф. Вообще говоря, это очень мощный метод: он весьма эффекти- вен для многих разновидностей куч; он никогда не ошибается на уже просмотренной точке; в пределе он стремится к нулевой ошибке, за исключением довольно своеобразных случаев (один из которых рассматривается в следующем параграфе). ближайшее соседство имеет один очевидный недостаток — очень большой объем требуемой памяти, и другой, менее очевид- ный,— есть веские основания подозревать, что эта процедура приводит к большим и по существу неизбежным вычислительным затратам (последний вопрос рассматривается в § 12.6). 12.3. Эвристическое описание методов линейного разделения В этом параграфе мы разберем несколько рисунков, чтобы лучше понять методы § 12.4. Чтобы компенсировать нашу неспо- собность изображать многомерные конфигурации, будем пользо- ваться двумерными многозначными координатами. На первый
Гл. 12. Линейное разделение и обучение 195 взгляд может показаться, что эти чертежи внушают доверие, но на самом деле они очень несовершенны: в них нет даже намека на весь тот ужас, с которым можно столкнуться в пространстве многих измерений. На этих наглядных рисунках мы представим два вида ситуа- ций, в каждой из которых попеременно проявляются преимуще- ства байесовской процедуры или персептрона (рис. 12.3). Пря- мая, соответствующая байесовской процедуре, стремится пройти перпендикулярно к прямой, соединяющей «средние» точки мно- жеств F+ и F”. Поэтому в ситуации рис. 12.3 (а) байесовская процедура допустит некоторые ошибки1)- Так как указанные Рис. 12.3. здесь множества линейно разделимы, то персептрон в конечном счете не ошибется. В случае рис. 12.3 (Ь) байесовская процедура, как и на рис. 12.3(a), приведет к небольшим ошибкам, а по по- воду поведения персептрона в этом случае известно немного; ясно только, что в некоторых ситуациях он работает хуже байесов- ской процедуры. Разумеется, наилучшая плоскость по определению по меньшей мере так же хороша, как байесовская процедура или как ПЕРСЕПТРОН. Само по себе предположение о том, что любая из указанных процедур вообще окажется хоть сколько-нибудь хорошей, с са- мого начала равносильно априорному предположению, что классы F можно представить в виде простых «облаков», возмож- но, немного перекрывающихся (рис. 12.4). Подобное допущение можно оправдать, если есть основания полагать, что различия между классами F+ и F~ вызваны каким-то одним основным ') Авторы, как и прежде, имеют в виду частный случай байесовской про- цедуры, основанной на предположении о статистической независимости коорди- нат вектора Ф. БАЙЕСОВСКАЯ процедура общего вида, учитывающая действитель- ные распределения вероятностей, даст по определению минимальную вероятность ошибки, т. е. безошибочное разделение в случае рис. 12.3(a). — Прим. ред. ЧЛ-
196 ///. Теория обучения фактором, с которым суммируется множество разнообразных вто- ричных воздействий, гораздо меньших по величине. Вообще, по- хоже на то, что персептрон чувствителен к внешним границам облаков и сравнительно нечувствителен к распределениям плот- ности внутри них, тогда как байесовская процедура взвешивает все векторы Ф одинаково Рис. 12.4. Рис. 12.5. В случаях, когда условие единственности облака или условие небольшого перекрытия не удовлетворяются (рис. 12.5), можно ожидать, что байесовская процедура и, видимо, персептрон бу- дут работать плохо, наилучшая плоскость может оказаться зна- чительно лучше них, поскольку она не подвержена вредному влиянию симметрии. Однако, по всей видимости, нахождение наилучшеи плоскости сопряжено с большими вычислительными трудностями, вызванными наличием множества локально опти- мальных «холмов». На рис. 12.6 показаны некоторые из локаль- ных вершин для наилучшеи плоскости в плохой ситуации типа ’) См. предыдущую сноску. — Прим. ред.
Гл. 12. Линейное разделение и обучение 197 проверки четности. Здесь даже изодейта будет работать плохо, если не разрешить ей иметь по одному вектору А почти для каждого комка. Но для небольшого числа комков, в каждом из которых находится вектор Ад, изодеита действует вполне хо- рошо (§ 12.5). Вообще следует ожидать, что персептрон окажется немного лучше байесовской процедуры, поскольку в нем исполь- зуется обратная связь, и немного хуже из-за его чрезмерной чув- ствительности к изолированным ошибкам. Следует также ожидать, что ближайшее соседство будет ра- ботать хорошо только при выполнении большого числа условий. В самом деле, в предельном случае записи всех векторов Ф с со- ответствующими им классами ближайшее соседство по меньшей мере так же хорошо, как и любая другая процедура. Но сущест- вуют условия, в которых ближайшее соседство не показывает та- кой хорошей работы до тех пор, пока выборка не окажется рав- ной почти всему пространству. В качестве примера рассмотрим пространство Верхняя область характеризуется тем, что вероятность ее точ- ки принадлежать классу F+ равна р, а для нижней эта вероят- ность равна 1 — р = q. Для класса F- верхняя и нижняя области меняются ролями. Тогда если уже просмотрена небольшая часть точек, то вероятность того, что выбранная наудачу точка
198 III. Теория обучения принадлежит тому же классу F, что и ближайшая к ней просмот- ренная точка, равна р2 + = 1 — 2pq, а вероятность правильного опознания при помощи байесовской процедуры или наилучшеи плоскости равна р. Считая,что р> 1/2 (иначе просто поменяем местами р и q), получаем ОшибкаНАИЛучШАя плоскость< ОшибкаБЛижАишЕЕ СОСЕДСТВО*'' < 2 • ОшибкаНАИЛучшАя плоскость. Таким образом, ближайшее соседство здесь хуже наилучшеи пло- скости, но не сколь угодно хуже. Это явление сохраняется до тех пор, пока не будет выбрано так много то- чек, что появится заметная вероятность по- вторного выбора, т. е. пока не будет про- смотрена значительная часть пространства. С другой стороны, если классы F+ и Р~ не очень сильно «перемешаны» (рис. 12.7), то ближайшее соседство будет сходиться к очень хорошим результатам, как толь- ко появится реальный шанс найти одну выборочную точку в большинстве «микро- комков». Очень плохим случаем является струк- Рис. 12.7. тура типа проверки четности; здесь ближай- шее соседство работает даже хуже, чем слу- чайный выбор решения. Пусть OgFj тогда и только тогда, когда ср, = 1 для четного числа индексов i. Тогда если предикатов ср все- го п, то у каждой точки Ф окажется как раз п соседей, расстоя- ния d до которых удовлетворяют условию 0<d-Cl. Предполо- жим, что векторы, которые уже прошли проверку, составляют (1—<?)-ю часть всех возможных векторов Ф. Тогда ближайшее соседство ошибется на данном векторе Ф, если он еще не был осмотрен (вероятность последнего события равна q), а один из его непосредственных соседей уже осмотрен (эта вероятность равна 1—qn). Поэтому вероятность ошибки будет не меньше <?(1— qn), что при больших значениях п практически не отличается от q. Этот пример «патологический», как любят говорить матема- тики, и, по всей вероятности, ближайшее соседство хорошо рабо- тает во многих реальных ситуациях. Разумеется, качество работы зависит от формы, принятой для вычисления расстояния, так что многие из классических статистических методов посвяшены опти- мальному выбору координатных осей и масштабов измерений при использовании процедуры ближайшее соседство.
Гл. 12. Линейное разделение и обучение 199 Отметим, наконец, что из-за большого объема памяти и боль- шого количества вычислений, требуемых для этой процедуры, с ней конкурируют более совершенные схемы, выходящие за рамки ли- нейного разделения и, следовательно, за рамки этой книги. 12.4. Решения, основанные на вероятностных значениях предикатов Некоторые из описанных в предыдущих параграфах процедур можно было бы назвать «статистическими» в том очень нестрогом смысле, что при их применении гарантируется лишь какая-то ве- роятность получения успешного результата. Процедуры, рассмат- риваемые в этом параграфе, являются статистическими в более строгом смысле: запоминаются не элементы множества данных, а статистические параметры этого множества. Мы проведем под- робный анализ системы, вычисляющей (или оценивающей) услов- ные вероятности рц того, что для каждого класса F3 предикат равен 1. Система запоминает эти рц вместе с безусловными ве- роятностями рз принадлежности вектора Ф классу F,. Если задан вектор Ф, то выбор класса F,- представляет собой типичную статистическую задачу, решаемую обычно методом «мак- симального правдоподобия» или методом Байеса. Интересно, что такого рода процедуры очень похожи на персептронные методы разделения. В самом деле, если можно предположить, что услов- ные вероятности рц в подходящем смысле независимы (§ 12.4.2), то наилучшей процедурой оказывается линейное пороговое реше- ние, которое в § 12.2.2 было нами названо байесовской процедурой. Покажем теперь, откуда эта процедура возникает. 12.4.1. Максимальное правдоподобие и правило Байеса. В гл. II мы изучали ситуации, в которых каждый вектор Ф соответствовал одному-единственному классу Fj. Сейчас рассмотрим несколько более общий случай, когда один и тот же вектор можно получить в результате событий, относящихся к различным классам. Тогда, если задан вектор Ф, то, вообще говоря, нельзя с уверенностью сказать, какой именно класс F3- ему отвечает; в лучшем случае мы знаем соответствующие вероятности. Предположим, что нам встретился некоторый вектор Фо и мы хотим узнать, какой класс F для него наиболее вероятен. Если вектору Фо отвечает класс Fj, то произошло совместное событие F; Л Фо, вероятность которого обозначим через Р(Р3ЛФо). По определению условной вероятности P^i ЛФо) = Р(Р/)-Р(Фо|Р7), (I) т. е. вероятность совместного появления F; и Фо равна произведе- нию вероятности появления Fj и вероятности того, что при усло- вии появления F; появляется и Фр.
200 III. Теория обучения Мы должны выбрать тот класс Fj, при котором формула (I) дает наибольшее значение вероятности совместного события, ибо такой выбор соответствует выбору наиболее вероятного из собы- тий, которые могли бы произойти1): Ft А Фо, ЕДФ,„ ЕДФ0. Формулу (1) трудно использовать непосредственно из-за серь- езных практических недостатков. Если различных векторов Ф мно- го, практически немыслимо хранить в памяти все возможные ре- шения, не говоря уже о статистической оценке всех этих решений на основе экспериментальных наблюдений. Система не способна также строить догадки относительно векторов Ф, с которыми она ранее не сталкивалась2). Всех этих трудностей можно избежать, вводя одно существенное предположение (разумеется, при усло- вии, что ситуация хорошо согласуется с данной моделью), а имен- но что частные предикаты, образующие Ф= (<pi, ..., <pm), в под- ходящем смысле независимы. 12.4.2 Независимость. До сих пор мы умалчивали об изображениях X, рассматривавшихся в предыдущих главах, поскольку происхождение предикатов <р нас не заботило. Вспомним теперь об этих изображениях, чтобы можно было придать гипотезе о независимости естественную окраску. Упомянутых в конце § 12.4.1 проблем можно избежать, если допустить, что испытания ф{(Х) статистически независимы в пре- делах каждого класса F. Это означает, что для всех Ф(Х) = = (ф! (X), ..., фт (X)) и всех j Р(Ф|Р/) = Р(Ф1|Р/) ... Р(Фт|Р7). Подчеркнем, что это условие очень сильное. Оно, например, экви- валентно следующему: Если дано, что вектор Ф принадлежит конкретному классу F, то знание некоторых предикатов ф, не дает никакой дополни- тельной информации об остальных предикатах ф,. В экспериментах обычно рассчитывают встретиться с незави- симостью тогда, когда значения предикатов ф изменяются за счет *) Этот выбор приводит к минимуму вероятности ошибки, равной Рош = 2 2 Р (Fz А Ф) |7 ¥= j (Ф)1, Ф i Где /(Ф) — правило выбора. — Прим. ред. 2) Если не делать априорных предположений о вероятностях P(Fj А Ф). Это относится к любым системам, так как подобные догадки всегда строятся на априорных сведениях. Поэтому в этом отношении байесовский подход ничем не хуже других. — Прим, ред.
Гл. 12. Линейное разделение и обучение 201 «шума», или неопределенности измерений в каждом отдельном устройстве, измеряющем величину ф; (рис. 12.8). Рис. 12.8. Независимость. Шум при вычислении | Шум при вычисленийчР\ Действительно, поскольку причины помех различны, постольку нельзя надеяться, что знание одного из предикатов ф, поможет предсказать значение другого. Однако если вариации значений предикатов ф, обусловлены выбором различных изображений X из одного и того же класса F, то обычно нельзя предполагать неза- висимость, так как каждый предикат ср, содержит какую-то ин- формацию о том, какое именно изображение X из класса F было выбрано, и, следовательно, хотя бы частично должен помочь пред- сказать значения остальных предикатов ср, (рис. 12.9). Рис. 12.9. Отсутствие независимости. Крайний случай отсутствия независимости иллюстрирует сле- дующий пример. Пусть имеются два класса Fi и F2. Зададим пре- дикаты- epi и фг:ф1(К) пусть будет случайной величиной, причем Р(Ф1(Х) = I) = */2 (значение ее определяется бросанием монеты, а не изображением X), а | ф[ (X), если X £= Fj, Ф>2(^) | I—ф^), если х е F2. Тогда Р(ф1 А ф2|^i) = у, Р(Ф1|К1) • Р (ф2|Д) = j • Заметьте, что ни фЬ ни ф2 в отдельности не дают никакой инфор- мации о классе F! Каждый из этих предикатов определяется
202 III. Теория обучения случайным бросанием монеты. А оба вместе они совершенно точно указывают, из какого класса F взята фигура: если <pi = ср2, то из класса Fb если ф1=/=ф2, то из класса F2. Замечание. Независимость предполагается только в пределах каждого класса Fj. Поэтому если класс F, не задан, то знание одного предиката <р, лго- жет помочь предсказать значение другого. Например, пусть <Р1 = ф2 = 0, если X €= Fi, epi = ср2 = 1> если X е F2. Фактически в пределах каждого класса оба предиката независимы. Однако если предварительно не дано, что X е Fb но известно, что «р, = 0, то можно было бы, конечно, предсказать, что и <р2 = 0, причем это не нарушает нашего допущения о независимости. (Если бы с самого начала знать, что X е Fb то значение пре- диката <р2 можно было бы предсказать сразу, в этом случае знание предиката cpi не влияет на наше предсказание значения <р2.) 12.4.3. Максимально правдоподобное решение при независимых предикатах ср является линейным пороговым предикатом! Допу- стим, что для каждого класса Fj предикаты ф; статистически неза- висимы. Введем следующие обозначения: Рц = Р(Ч>1= 1 IF,), Яа = 1 -р// = р(ф/ = о|р7). Предположим, что мы только что просмотрели вектор Ф= (фь ... ..., фт) и хотим узнать, какому классу F; он соответствует с наи- большей вероятностью. Учитывая формулы (1) и (2), выберем ин- декс /, максимизирующий произведение Ф;=1 ф(. = о I i 4 ' i Так как удобнее оперировать с суммами, чем с произведениями, то перейдем к логарифмам. Поскольку log х — возрастающая функ- ция, мы должны максимизировать J^log-^+flogpy + J^log^/j. (3) i ‘I \ i / Выражение в скобках зависит только от j и не зависит от век- торов Ф, поэтому сумму (3) можно записать в виде + (3')
Гл. 12. Линейное разделение и обучение 203 Пример 1. Если классов F всего два, то можно считать, что .YeF, всякий раз, когда 2 wиф/ + 0] > 2 + 02, т. е. 2(и’л-®»2)ф/>02-0ь (4) и мы получаем линейный пороговый предикат Ф = Г2а(ф;>01. Таким образом, гипотеза взаимной независимости предикатов ф в данном случае привела непосредственно к привычной нам так- тике линейных решений. Пример 2 (вероятности ошибок). Пусть рц = qa Для всех I. Тогда рц будет вероятностью события фг (X) = ф (X), a qn— ве- роятностью события фг(Х) =#i|,(X), т. е. вероятностью того, что фг- допускает ошибку в (индивидуальном) предсказании значения предиката ф = ГХ FJ. Неравенство (4) приобретает здесь вид дап(2ф,- l)>log-^-. (4') i Множитель (2фг—1) приводит к прибавлению или вычитанию Wn в зависимости от значения предиката фг. Поэтому величины w можно представлять себе как веса гирь, которые надо добавлять на правую или на левую чашу весов: Величина log(pa/pi) является «априорным весом» в пользу F2, a Wu — log(Pii/7ii)—«весом признака», свидетельствующего в пользу Fj, если ф, = 1. Заметим, что алгоритм оптимального разделения (при условии, что вероят- ности предикатов <р< независимы) имеет вид линейного порогового предиката (неравенство (4)). Однако нужно, разумеется, понимать, что если fSo^cp > 0]— «оптимальный» предикат, полученный при условии независимости вероятностей, но
204 III. Теория обучения не дающий точную реализацию искомого предиката ф, то это вовсе не означает, что не существует точного разделения [ У а<рСр> б'], полностью согласующегося с ф. (Подобная ситуация показана на рис. 12.3(a).) Дело в том, что неравен- ство (4) «оптимально» ЛИШЬ ПО отношению К тем алгоритмам Арегистрация, КО- торые не используют никакой информации, кроме условных вероятностей {р,} и {р13}, в то время как персептрон вычисляет коэффициенты с помощью нестати- стической поисковой процедуры, чувствительной к отдельным событиям1). Так, например, если ф принадлежит Е(Ф), то персептрон в конечном счете будет работать по крайней мере не хуже любой линейной статистической маши- ны, имеющей преимущества лишь в следующих случаях: 1. Если ф^Е(Ф), то статистическая схема может осуществить хорошее приближенное разделение, а персептрон может дать большие флуктуации. 2. Время, необходимое для достижения приемлемого качества работы, для регистрирующего алгоритма персептрона может оказаться очень большим, по- скольку этот алгоритм является в основном последовательной поисковой про- цедурой. Линейная статистическая машина в своей основе более параллельна, поскольку находит каждый коэффициент независимо от остальных и нуждается только в довольно большой выборке из классов F. (Хотя на первый взгляд ка- жется, что коэффициенты персептрона изменяются независимо один от другого, но на самом деле каждое решение об их изменении зависит от испытания, в ко- тором участвуют все коэффициенты.) 12.4.4 . Многослойные машины. Выражение (3') подсказывает следующую схему машины, вырабатывающей необходимое реше- ние: Устройство D решает, на каком из его входов наибольший сигнал. Каждое из устройств ср, при предъявлении изображения X выра- ) Это замечание авторов может создать у читателя впечатление о том, что возможности статистического решения задачи разделения двух множеств слабее, чем возможности персептрона. Это, конечно, неверно, поскольку метод Байеса дает точное решение задачи о минимуме вероятности ошибки. В рассматривае- мой ситуации (рис. 12.3(a)) плохие результаты статистического разделения объясняются тем, что алгоритм, предназначенный для случая независимых ср, применен для разделения множеств, характеризующихся резко выраженной за- висимостью предикатов <р друг от друга. (В случае независимых <р множества должны изображаться на схемах, подобных рис. 12.3(a), в виде прямоугольников со сторонами, параллельными координатным осям.) Если использовать адекват-
Гл. 12. Линейное разделение и обучение 205 батывает импульс стандартной величины (если <р(Х) = 1). Им- пульсы умножаются на Wij и суммируются в блоках Слагае- мые 0; можно считать поправками, характеризующими величину отклонения вероятностей рц от '/2- Эти поправки объединены с априорными смещениями, соответствующими каждому классу Fy Часто бывает нужно минимизировать стоимость ошибок, а не вероятность ошибки. Если обозначить через Сстоимость решения в пользу F&, когда в дей- ствительности изображение принадлежало классу F3, то, как нетрудно показать, формулы (1) и (2) дадут значение k, минимизирующее I I где Bj = q(j. Интересно, что эта более сложная процедура тоже сводится к многослойной структуре Для оптимизации весов wtJ в этой схеме можно, вероятно, предложить алго- ритм обучения, в котором для сообщения схеме стоимости ошибки используется, скажем, величина сигнала поощрения. Этот вопрос мы не исследовали. 12.4.5 . Процедуры оценки вероятностей. Алгоритм Арегистрация для байесовской линейной статистической процедуры должен вы- числить или оценить вероятности рц и рр фигурирующие в сумме (3), или же другие статистические величины, как, например, отно- шения р/(1—р), характеризующие «веса признаков». Обычно по- добные характеристики нельзя вычислить непосредственно (так как по определению они представляют собой пределы), и поэтому требуется находить оценки. Простейший способ оценить вероят- ность— это найти отношение Н/N числа Н «благоприятных» ное статистическое описание множеств, т. е. вероятности Р(Г3 Л Ф), то БАЙЕСОВСКАЯ процедура даст результаты, по крайней мере не худшие, чем любая другая, включая и ПЕРСЕПТРОН. Поэтому нельзя согласиться с объяснением авто- ров, основанным на якобы «нестатистическон поисковой процедуре, чувствитель- ной к отдельным событиям». Как байесовская процедура, так и персептрон обладают этим свойством в совершенно одинаковой мере. — Прим. ред.
208 111. Теория обучения событий к числу JV всех событий. Если ср1г] — значение предиката <р в f-м испытании, то вероятность Р(ср = 1) после п испытаний мож- но оценить с помощью программы НАЧАЛО: Положить 0 = 0. Положить п=1. „ (п — 1) а + повторение: Присвоить а значение J------———. Присвоить и значение п + 1. Перейти к повторение. Легко заметить, что после каждого события получается новое зна- чение H/N. Недостаток этой программы состоит в том, что при ее выполне- нии необходимо хранить в памяти число опытов п, которое неогра- ниченно возрастает. Чтобы избежать этого, запишем значение сс после n-го испытания в виде а1"1 = —Lj а1"-11 4- -“ф1"1- Тогда появляется возможность заменить эту программу более простой: пусть а|э1 == О а1"1 = (1 — е) аЧ-П 4- е • <p|nl, где 0 < е < 1. С ростом п математическое ожидание, или среднее функции а[га] (обозначим его стремится к. р = (<р). В самом деле, (а1'!) = (1 — е) (а101) 4- е (ср11!) = ер = [1 — (1 — е)] р, <а12,> = (1 — е)[1 -(1 - е)]р 4- ер = [1 -(1 - е)2] р и вообще для всех п — [ 1 — (1 — e)ri] р -> р при п->оо. Итак, процесс (5) дает оценку вероятности того, что ср = 1. При более детальном анализе можно было бы показать, как эта оцен- ка зависит от последних событий, причем влияние давно прошед- ших событий падает по экспоненте (за счет коэффициентов вида (1-е)(,»-«). Поскольку процесс (5) «забывающий», он, разумеется, не ис- пользует свой накопленный опыт «оптимальным образом», но в не- которых обстоятельствах он может «приспосабливаться» к изме- нениям статистических свойств окружающей среды, что само по себе совсем неплохо. Как прямое следствие отмеченного выше спада влияния отдаленных событий, наша оценка приобретает
Гл. 12. Линейное разделение и обучение 207 своеобразное свойство: ее дисперсия о2 не стремится к нулю. В са- мом деле, можно показать, что для процесса (5) а это хотя и не равно нулю, но весьма мало, если мало е. Поло- жение в этом случае в корче отличается от случая оценки H/N, дисперсия которой равна р(1 — и стремится к нулю при п —> оо. Дисперсию можно использовать для сравнения указанных двух процессов. Будем считать, что дисперсии равны, т. е. ~р(1~Р)-±- Тогда Это говорит о том, что процесс (5) обеспечивает почти такую же надежность оценки р, какую можно было бы получить при про- стом усреднении последних 2/е выборочных событий. Следователь- но, можно считать, что число 1/е соответствует постоянной вре- мени забывания. Сходимость к фиксированной точке. Рассмотрим еще одну программу нахождения оценки: начало: Присвоить а произвольное значение. повторение: Если ф = 1, то присвоить а значение а+1. Если ф = 0, то присвоить а значение (1—е)а. Перейти к повторение. Здесь а[п) вычисляется по формуле аМ = (1 — е) а[«—1] (j еа[п-1])ф1Ы1
208 /// Теория обучения Можно показать, что математическое ожидание этой оценки стремится к 1 / р \ е ’ \ 1 - р ) ’ Интересно, что отношение правдоподобия можно непосредственно оценить очень просто: прибавить 1, если ф = 1, и умножить на (1 —е) в противном случае. Дисперсия здесь равна ст2 =____Р________!____ (I — р)2 1 — (1 — е)2 ' 12.4.6 . Компромисс Сэмюэля. В своей классической статье 1959 г. А. Л. Сэмюэль применяет остроумное сочетание методов оценки вероятностей. В его задаче время от времени вводится но- вый признак фг (а старый отбрасывается, поскольку не оказывает заметного влияния на процесс решения). В этом случае необхо- димо предотвратить сильные колебания, вызванные тем, что после одного или нескольких испытаний дисперсия оценки вероятности этого нового признака будет гораздо больше, чем дисперсии для старых признаков, оценки которых построены на лучшем статисти- ческом материале. Для «стабилизации» своей системы Сэмюэль использует следующий алгоритм: он присваивает сс[01 значение '/2 и строит оценку а[п+ц_^1 _ _L\ а(п] -у _L (pln+H, где 16, если п < 32, 2т, если 256, если и 32 п 256, Таким образом, для вероятности в самом начале выбирается значение 'А, как будто бы оно получено на основе нескольких (по- рядка 16) испытаний. Затем в «средний» период алгоритм аппро- ксимирует равномерное взвешивание, а когда п становится поряд- ка 256, наступает экспоненциальное затухание влияния отдален- ных событий, при котором N фиксировано и недавний опыт может перевешивать прежние результаты. (Степени двойки здесь исполь- зованы из соображений удобства программирования на ЭВМ.) Признаки в системе Сэмюэля имеют вид, найденный нами при выводе неравенства (4') из § 12.4.3, а именно 2ф(9 — 1, так что «оценка» изменяется в диапазоне —1 р[(] + 1 и может рас- сматриваться как «коэффициент корреляции». 12.4.7 . Теория простого «синаптического» подкрепления. В этом разделе мы построим простую «нейронную модель», которая должна будет оценить рг] = Р(фг | FJ только на основе информа- ции о событиях Гфг =11 и ГФе РД. «Анатомически» наша модель
Гл 12 Линейное разделение и обучение 209 будет выглядеть так: В пузырьках Вг и С, содержится вещество Е с очень высокой и постоянной концентрацией. Когда приходит нервный импульс от фг или от Fj, стенки соответствующих пузырьков Вг или С} стано- вятся в тот момент «проницаемыми» для вещества Е. Если им- пульс приходит только от <рг, то, в сущности, никаких изменений не происходит, поскольку пузырек Вг окружен тогда непроницае- мым пузырьком С}. Если импульс приходит только от F3, то за счет диффузии некоторая часть вещества Е уходит из С, в окру- жающее пространство. Если а — количество вещества Е в С}, то можно считать (согласно обычным законам диффузии и концен- трации), что теряется некоторая доля е этого количества и остается а' = (1 — е) а, если импульс пришел от F, и фг = 0. Если же импульсы при ходят от фг и от F„ то потеря вещества из пузырька С3 будет при- мерно такой же, как в предыдущем случае. Одновременно за счет диффузии из Вг в Cj попадет некоторое количество b вещества Е. Поэтому а = (1 — е) а + Ь, если импульс пришел от F, и ф, = 1. (Величину b можно считать постоянной, поскольку концентрация вещества Е в В, очень вы- сока по сравнению с концентрацией в С3. Можно придумать мно- жество аналогичных вариантов.) В любом случае а' = (1 — е) а + Ь<р, так что в пределе среднее значение а стремится к. b • р (как это можно видеть из анализа, проведенного в § 12.4.5) и потому мо- жет служить оценкой вероятности рг] = Р(фг | F,). Итак, эта простая схема с мембраной, которая становится про- ницаемой в момент прихода нервного импульса, дала возможность получить оценку соответствующей вероятности. Каким же образом можно осуществить такое представление вероятности с помощью реального нейронного механизма? Не- трудно представить себе различные варианты схем: концентрации ионов (еще лучше — логарифмы этих концентраций!) могли бы превратиться в потенциалы мембран, или проводимости, или даже в вероятности других химических явлений Для получения отно- шений правдоподобия «анатомические» и «физиологические» осо- бенности нашей модели можно непрерывно совершенствовать. Действительно, представить себе различные варианты настолько
210 ///. Теория обучения легко (описанный замысел очень нечувствителен к деталям), что мы не предлагаем эту модель всерьез. Мы просто считаем, что о подобном семействе простых и занимательных моделей нейротео- ретикам следовало бы знать. 12.5. Алгоритмы Арегистрация ДЛЯ Процедуры ИЗОДЕИтА В этом параграфе мы опишем предложенную Боллом и Хол- лом процедуру нахождения куч в неоднородном распределении векторов. Поясним их идею на конкретном примере. Пусть дано двумерное множество точек {Ф}, которое очевидным образом рас- падается на кучи вида Начнем с того, что в качестве некоторых «центров» выберем произвольные точки Ар1, скажем, расположенные вблизи начала координат. Затем разобьем все множество точек Ф на подмноже- ства Rj так, что Ф е R/, если ближайшим к точке Ф центром является А1/1.
Гл. 12. Линейное разделение и обучение 211 Заменим теперь каждый центр А1/' новым центром А1/1, кото- рый представляет собой среднее, или центр тяжести точек Ф из Ri, и обозначим через R® множество точек Ф, ближайших к Af1: Повторяя этот процесс, получаем новый набор точек Aj и под- множеств Ri
212 III. Теория обучения и далее С некоторого момента изменения почти или полностью отсут- ствуют, что свидетельствует о том, что «центры нашли имеющиеся кучи». Болл и Холл предложили целый ряд эвристических усовершенствований про- цедуры, заключающихся в устранении и добавлении центров; например, добавим один центр, если дисперсия множества R чересчур велика, и устраним одну точ- ку, если два подмножества расположены слишком близко друг к другу. Разу- меется, двумерные кучи обычно легко выявить на глаз, но ИЗОДЕИТА может дать хорошие результаты и в n-мерных задачах, где о «визуальном наблюдении» ие может быть и речи. Чтобы использовать эту процедуру для решения рассматривае- мых здесь задач, нужно как-то объединить ее способность к авто- матической классификации с информацией о классах F. Очевид- ный первый шаг в этом направлении: применить процедуру к каж- дому классу F в отдельности и отнести все полученные точки А к этому же классу. Более утонченные схемы, которые могли бы привести к лучшим результатам на стадии АПОиск, нам неизвестны. 12.5.1. Теорема о сходимости изодейты- Существует теорема (нам о ней сообщил Т. Кавер), из которой следует, что ИЗОДЕИТА отыскивает некоторого рода локальный минимум. Для доказательства этой теоремы введем ряд обозна- чений: А И (ф) — центр А'-'1!, ближайший к точке Ф. (Если таких центров не- сколько, возьмем центр с наименьшим индексом I.) Rlnl — множество точек Ф, для которых А^ (Ф) = А^; А^”+11 — среднее (R^)-
Гл. 12. Линейное разделение и обучение 213 Введем, наконец, количественную характеристику разбиения: = I Ф - AW (Ф) |2. все Ф Теорема. Последовательность s^, s^, ..., s^, ... убывает до тех пор, пока, начиная с некоторого п (для которого впервые А^=А^+1^, она не стабилизируется. Доказательство. В самом деле, = 2 21ф-A'rel 12> 2 2 Iф- А?+1) I2- / R[4] i R(«l ибо среднее А^ге + 11 множества минимизирует сумму квадратов расстояний до всех его точек. Далее, 2 2 |ф-А^+,]|2>2 2 |ф-A[re+4|2=s["+4, ! Rl«) i в[Д+1] поскольку каждая точка Ф принадлежит тому множеству к'(ге+1\для которого расстояние |ф —А1ге + Ч| минимально, т. е. для каждого j |ф-А^ + 11 |> |ф-А^+1] |. Следствие. Будучи убывающей последовательностью положительных чи- сел, {si"]} сходится. Если множество точек Ф конечно, то изменение центров А должно прекратиться за конечное число шагов. Действительно, в этом случае число разбиений {RJ конечное. 12.5.2. Методы, основанные на приращениях. По аналогии с ме- тодами «поощрения» из § 12.4.5 процедуру изодейта можно аппроксимировать при помощи следующей программы1): начало-. Выбрать систему исходных точек А,. ПОВТОРЕНИЕ: ВыбрЭТЬ ТОЧКу Ф. Найти А(Ф), т. е. точку А,-, ближайшую к О. Заменить А(Ф) на (1 — е) А(Ф) + еФ. Перейти к повторение. Ясно, что эта программа в качественном отношении ведет себя так же, как изодейта: точки А будут перемещаться по направ- лению к средним своих R-областей. Однако, как и в § 12.4, при таком процессе будет сохраняться некоторая дисперсия, вызван- ная появлением новых точек и забыванием старых. Следовательно, этому процессу присущи те же преимущества и недостатки. Факти- чески таким способом можно аппроксимировать все рассмотренные ') Этот алгоритм, как и процедура, описанная в § 12.5, и теорема § 12.5.1 (в более общем виде) были опубликованы М. И. Шлезингером в его статье «О самопроизвольном различении образов», сб. «Читающие автоматы», изд-во «Наукова думка», Киев, 1965, стр. 38—45. — Прим. ред.
214 III. Теория обучения алгоритмы АрегисТраЧия: по-видимому, всегда имеется широкий диапазон выбора от очень локальных методов, основанных на при- ращениях, до более точных и в некоторой степени менее «адап- тивных» глобальных схем. Итоги проведенного обсуждения мы подведем в § 12.8. 12.6. Взаимосвязь затрат времени и памяти при проверке точного соответствия Предположим, что задан массив информации (назовем его мно- жеством данных), состоящий из 2я двоичных ^-разрядных слов (рис. 12.10); их можно представить себе как 2я точек, выбранных b случайным образом в пространстве, содержащем 2Ь точек (в ка- честве практического примера возьмем миллион, т. е. ~ 220, слов длиной в 100 разрядов). Так как каждое конкретное множество данных выбирается наудачу из всех возможных множеств, то нельзя ожидать никакой избыточной информации о его структуре. Поэтому для полного описания упорядоченного множества данных требуется Ь-2а битов двоичной информации. Но так как порядок слов для нас не важен, то для запоминания такого множества не- обходимо лишь (Ь — а)-2а битов. Нам нужна машина, которая при предъявлении ей случайного ^-разрядного слова w даст ответ на Вопрос 1: Принадлежит ли w множеству данных? *) *) До вопроса 2 мы доберемся минут через пятнадцать,
Гл. 12. Линейное разделение и обучение 215 Нам нужно так сформулировать условия, которым должна удовлетворять эта машина, чтобы можно было отделить вопросы, связанные с вычислениями, от вопросов, связанных с памятью. Поставленной цели достаточно хорошо служит приведенная ниже схема, позволяющая на примерах продемонстрировать, насколько мало знаем мы о связях между временем п памятью. Снабдим нашу машину памятью объемом в Л-1 отдельных би- тов, т. е. одноразрядных двоичных слов. От нас требуется соста- вить (предварительно, еще до того, как увидим множество дан- ных) два алгоритма ^регистрация и Апоиск, удовлетворяющие сле- дующим условиям: 1. Алгоритму Арегистрация предъявляется множество данных. Используя их, алгоритм заполняет информацией М разрядов памяти. Ни указанное множество данных, ни алгоритм Арегистрация вторично не применяются Более того, алго- ритм Апоиск не должен получать никакой информации о работе алгоритма Арегистрация; он может только просматривать содержимое памяти. 2. Затем алгоритму Апоиск предъявляют случайное слово w и требуют дать ответ на вопрос 1 на основании информации, записанной в памяти алгоритмом Арегистрация. НаС Интересует, К какому количеству разрядов алгоритм Апоиск должен будет обратиться в процессе поиска ответа. 3. Конечная цель заключается в оптимизации структуры алгоритмов Арегистрация и Апоиск, чтобы минимизировать среднее (для всех возможных слов w) число обращений к памяти в ходе вычислений, проводимых при ответе на вопрос. 12.6.1. Случай 1: Огромная память. Весьма правдоподобным ка- жется утверждение о том, что чем больше число М, тем меньшим будет среднее число обращений алгоритма Апоиск к памяти. Пусть М^2Ь. Обозначим i-й разряд памяти через т,. Тогда для каждого возможного слова-вопроса w существует разряд tnw, а искомые алгоритмы выглядят так: Арегистрация- Присвоить mw значение 1, если w принадлежит мно- жеству данных; Апоиск: w принадлежит множеству данных, если mw = 1. Таким образом, если память достаточно велика, то для ответа на вопрос 1 требуется только одно обращение к памяти. 12.6.2. Случай 2: Недостаточная память. Предположим, что М<(Ь — а) • 2°. Тогда поставленная задача неразрешима, ибо алгоритм Арегистрация не может запомнить столько информации, сколько не- обходимо для подробного описания множества данных.
216 III. Теория обучения 12.6.3. Случай 3: Логарифмический поиск по основанию два. Пусть М = Ь-2а. Теперь в памяти достаточно места, чтобы запомнить все упорядо- ченное множество данных. Зададим: Арегистрация^ Запомнить слова множества данных в порядке их возрастания. Апоиск: Определить, в какой половине памяти может на- ходиться слово w, затем в какой четверти и т. д. В этом случае требуется не более а = log2 2“ просмотров 6-раз- рядных слов, т. е. а • b поразрядных просмотров. Такой поиск неоптимален, поскольку (1) не обязательно просматривать ка- ждое слово полностью, чтобы решить, к какому слову перейти далее, и (2) не используется однородность распределения, которая (в среднем) присуща пер- вым а разрядам упорядоченного множества данных. В силу (1) требуемое число просмотров снижается от ab до (примерно) а&/2, а в силу (2) это число от ab уменьшается до а(Ь—а). Нам не известно, как можно объединить эти два ре- зультата. 12.6.4. Случай 4: Полный перебор. Пусть М = (Ь - а) • 2а. Такой объем памяти почти достаточен, чтобы запомнить неупоря- доченное множество данных. Например, можно задать: Арегистрация: Расположить слова из множества данных в числовом порядке и вычислить их последовательные разности. Для записи каждой из разностей требуется около b — а разрядов. Чтобы записать всю последовательность разностей, воспользуемся обычной методикой теории информации, скажем кодированием по Хаффмену, а это требует около (Ь — а)-2а разрядов. Для алгоритма Апоиск мы можем придумать только одну схему: Апоиск: Суммировать последовательные разности, записанные в па- мяти, до тех пор пока сумма не станет равной или не пре- высит число w. В случае равенства заключаем, что w при- надлежит множеству данных Этот алгоритм требует -~1/2(6 — а)-2“ обращений к памяти. По-видимому, ясно, что в рассматриваемом случае никакая пара Арегистрация — Апоиск не может работать намного лучше. Иными словами, мы подозреваем, что если нет дополнительной памяти, то для ответа на вопрос 1 в среднем требуется просмотреть половину памяти.
Гл. 12. Линейное разделение и обучение 217 Можно было бы пойти несколько дальше: даже кодирование по Хаффмену нуждается в небольшой дополнительной памяти, а если такая память отсутствует, то алгоритм Арегистрация запоми- нает только некоторое эффективное «число» из всего множества данных. Поэтому можно предположить, что алгоритм Апопск почти всегда должен просматривать почти всю память. 12.6.5. Случай 5: Смешанное кодирование. Пусть теперь М = Ь • 2“ • 2. Тогда имеется существенный запас дополнительной памяти (память примерно вдвое больше, чем это необходимо для хранения всего множества данных). В рассматриваемом случае получается действительно интересный результат (даже можно сказать, опро- кидывающий интуитивные представления), поскольку среднее число обращений к памяти становится крайне малым. При этом используется метод, широко распространенный в среде програм- мистов, применяющих его в «программах группировки» для обра- щений к таблицам символов, но который, по-видимому, мало изве- стен другим специалистам по вычислительной технике. Этот метод называется смешанным кодированием. Существует множество вариантов этой общей идеи. Мы рассматриваем кон- кретную форму, приспособленную к случаю двойной избыточности. В методике смешанного кодирования алгоритм Арегистрация снаб- жается подпрограммой которая для заданных целого числа / и ^-разрядного слова w строит (а + 1)-разрядное слово. Реализуемая подпрограммой R(w,j) функция «псевдослучайна» в том смысле, что для каждого / она отображает множество всех 2Ь входных слов с равномерной плотностью распределения на мно- жество, состоящее из 2а+1 возможных выходных слова, причем для разных / отображения достаточно независимы или ортогональны. Для этой цели можно использовать симметрические функции, сло- жение по модулю или любой другой известный метод получения псевдослучайности’). Предположим теперь, что (Ь • 2а+1) -разрядная память представ- лена в виде ^-разрядных регистров с (а + 1)-разрядными адре- сами. Пусть алгоритм Арегистрация уже занес в память слова Wt, ..., wn и переходит к размещению слова wn+!. Арегистрация! Вычислить R(wn+\, 1). Если регистр с этим адресом пуст, поместить в него ayn+i. Если этот регистр занят, *) Бытует предубеждение, что функция R(wJ) должна обладать какими-то чуть ли не волшебными свойствами, которые можно только аппроксимировать. Действительно, любая конкретная функция R может оказаться плохой на ка- ком-то множестве данных, но в среднем по всем возможным множествам ника- ких трудностей не возникает.
218 111. Теория обучения повторить то же самое с R(wn+l,2), R(wn+i,3), ... и т. д., пока не будет найден незанятый регистр R(wn+I, j)', в него занести wn+l. Апоиск- Вычислить R(w. 1). Если w находится в этом реги- стре, то w принадлежит множеству данных. Если ад- рес R(w, 1) пуст, то w не принадлежит множеству данных. Если R(w, 1) содержит другое слово, отлич- ное от w, то повторить то же самое с R(w, 2), а если необходимо, то и с R(w, 3), R(w,4), ... и т. д. до тех пор, пока не будет найдено или слово w или пустой регистр. В среднем алгоритм АПОиск произведет менее 2Ь обращений к памяти\ Чтобы показать это, заметим сначала, что описанная методика ведет к просмотру в среднем только двух регистров! В самом деле, половина регистров пуста, а так как последователь- ные значения R(w,j) для j = 1, 2, ... независимы (относительно совокупности всех возможных множеств данных), то в среднем нужно просмотреть лишь два регистра, чтобы найти пустой. В действительности среднее время завершения поиска немного меньше, по- скольку для слов w, принадлежащих множеству данных, среднее число просма- триваемых регистров меньше 2. Описанная методика полезна в случае таблиц символов и т. п., когда не только хотят узнать, содержится ли там слово w, но также произвести поиск (возможно, опять методом смешанного кодирования) некоторых других данных, связанных с этим словом. Когда избыточность памяти снижается, например, если М = • b • 2а, п - 1 ’ то пустой становится только (1/«)-я часть ячеек и можно ожидать, что придется просматривать около п регистров. Так как человек приучен к тому, что вычислительные машины в своем большинстве ориентированы на операции со словами (а не с отдельными разрядами) и обычно просматривают b разрядов при каждом обращении к памяти, то нижеследующий анализ (на- сколько нам известно) еще не проводился в случае одноразрядных слов. Когда мы программируем алгоритм АПОиск на поразрядное определение соответствия слов, мы обнаруживаем, что, поскольку половину слов в памяти составляют нулевые слова, такую опера- цию можно ускорить, придавая каждому слову специальный «ну- левой» разряд. Допустим сначала, что для этих дополнительных 2а разрядов в памяти есть место. Теперь предположим, что некоторое слово Wq
Гл. 12. Линейное разделение и обучение 219 не принадлежит множеству данных. (Вероятность этого события равна 1—2а-ь.) Произведем осмотр нулевого разряда слова, на- ходящегося в регистре /?(ау0, 1)- Вероятность того, что в этом разряде нуль, равна '/2. Если же не нуль, то будем поразрядно определять соответствие слова w0 слову, находящемуся по адресу R(w0, 1). Точного соответствия быть не может (ибо wa не принад- лежит множеству данных); несоответствие будет найдено в сред- нем за 1+4+4+ обращения к памяти. Затем повто- рим процесс для регистра R(w0, 2) и т. д. Весь процесс заканчи- вается, когда нулевой разряд некоторого регистра R(w0, j) содер- жит нуль. Среднее число обращений будет равно 1(1 + 2 + 4(1+ 2 + 4 (1 + ...)))+! =3 + 1 = 4. Если wa принадлежит множеству данных (вероятность такого события равна 2а~ь), то потребуется 4 + b обращений, поскольку процесс заканчивается, когда установлено соответствие всех b разрядов слова wa. Среднее число обращений за весь процесс составляет тогда 4(1- 20-6) + (4 + Ь) Т~ь = 4 + b • 2a~6 « 4, так как обычно величина 2а~ъ пренебрежимо мала. Просто удиви- тельно, что столь небольшая избыточность (всего в два раза) при- водит к такому малому числу обращений! Полученные нами оценки завышены, поскольку, в случае когда а>0 принад- лежит множеству данных, «длина пробега» по адресам R(w0,j) примерно вдвое короче, чем это диктуется его случайным характером. Это происходит именно потому, ЧТО адреса были выбраны алгоритмом Арегистрация. С другой СТОрОНЫ, необходимо платить за дополнительные нулевые разряды, присоединенные к имеющимся уже разрядам. Если Л4 = 2Ь-2°, а длина слова становится равной b + 1 вместо Ь, то память заполняется чуть больше, чем наполовину: фактически вместо 4 в нашем результате мы должны поставить что-то вроде 4[(Ь + 1)/(Ь—1)]. Возможно, оба эффекта компенсируют друг друга. Мы не провели еще точных вычислений, главным образом потому, что совершенно не уверены В оптимальности даже ЭТОЙ пары Арегистрация — Апоиск. Подозрительно, конечно, что половина регистров памяти просто пуста! С другой стороны, самое лучшее, чего можно было бы ждать от дальнейшего усовершенствования алгоритмов, так это замены числа 4 числом 3 (или 2?), а ради этого не стоит ломать копья. 12.6.6. Сводка алгоритмов проверки точного соответствия. Чтобы подвести итог полученных результатов, относящихся к вопросу 1, мы установили верхние границы для рассмотренных случаев. Мы полагаем, что нижние границы близки к верхним, но не совсем в этом уверены, особенно в случаях 3 и 4.
220 III. Теория обучения Случай Объем памяти Число поразрядных обращений к памяти Методика 2 < (& - а) • 2а оо Невозможно осуществить 4 (& - а) • 2а J (Ь - а) • 2а Просмотр всей памяти 3 Ь-2а 1 . Логарифмический поиск 5 2Ь-2а 4 + 8 Смешанное кодирование 1 >2& 1 Однократное обращение к таблице 12.7. Взаимосвязь затрат времени и памяти при определении наилучшего соответствия: нерешенная проблема В таблице из § 12.6.6 подведен итог нашему (далеко не полному) пониманию вопроса 1, т. е. задачи проверки точного соответствия. Если построить график зависимости числа обраще- ний к памяти от ее размера, то можно просто поразиться эффек- тивностью даже незначительного увеличения избыточности. Мы не считаем, что к этому следует относиться чересчур серьезно, так как подозреваем, что, слегка изменив постановку задачи, можно получить совершенно другие результаты. Рассмотрим теперь Вопрос 2. Для заданного слова w найти в множестве дан- ных слово w, наиболее близкое к w. Пусть теперь Правила, относящиеся К алгоритмам Арегистрация и Апоиск, будут прежними, а в качестве расстояния возьмем обыч- ную метрику, а именно число разрядов, в которых эти два слова не совпадают. Если х1г . . . , хь и хъ ..., хь — коэффициенты (дво- ичного) разложения точек w и w, то расстояние Хэмминга опреде- ляется по формуле ь d(w, w) = У | xt — &i |. /=i Если в качестве расстояния взять декартово расстояние С(ау, и>), то результат будет тот же, так как [С(щ, щ)]2 == У |х; — |2 = У |хг — &i | = d (w, w), т. e. C(w, w) и d(w. w) минимизируются одним и тем же сло- вом
Гл. 12. Линейное разделение и обучение 221 12.7.1. Случай 1: М = 2Ь • b Алгоритм Арегистрация ставит в со- ответствие каждому возможному слову w группу из b раз- рядов, в которых содержатся соответствующие биты правильного слова w. Алгоритм Апоиск просматривает эту группу разрядов и выпи- сывает w. Это требует b обращений к памяти, и, по-видимому, меньшего уже добиться нельзя. 12.7.2. Случай 2: М < (Ь— а)-2а. Невозможно осуществить по тем же причинам, что и в случае вопроса 1. 12.7.3. Случай 3: М = b • 2а. Неизвестно никаких результатов. 12.7.4. Случай 4: М — (Ь — а) • 2а. По тем же причинам, что и в случае вопроса 1, здесь, по-видимому, требуется (Ь — а)-2а обращений к памяти, т. е. необходим просмотр всей памяти. 12.7.5. Случай 5: (& — а) • 2а < М < b • 2Ь. Никаких результатов, из которых можно было бы извлечь какую-нибудь пользу, мы не знаем. 12.7.6. Пессимистические прогнозы для алгоритмов наилучшего соответствия. Анализ таблицы § 12.6.6 показывает, что даже не- большое увеличение избыточности памяти приводит к резкому увеличению скорости последовательных вычислений, требуемых для отыскания точного соответствия. Поэтому использование па- раллельных вычислительных устройств в данном случае не дает большого преимущества. Действительно, как было показано в § 12.6.5, всего лишь удвоение объема памяти оказывается доста- точным, чтобы уменьшить среднее время поиска ответа до вели- чины, лишь ненамного превышающей наилучшее возможное значение. Однако если заняться нахождением наилучшего соответствия, то все, очевидно, будет по-другому. Мы предполагаем, что даже для наилучших возможных пар алгоритмов Арегистрация—Апоиск приращение скорости за счет большой избыточности памяти очень невелико, и для больших множеств данных, состоящих из длинных слов, практически нет иного выхода, кроме простого просмотра больших частей памяти. Мы приносим извинения за то, что у нас нет ни более точной формулировки этого предположения, ни хороших предложений по поводу способа его доказательства. Это предположение кажется нам вопросом первостепенной важности в теории вычислений, осо- бенно в выяснении различий между концепциями параллельных и последовательных вычислений. Наша уверенность в справедливости такого предположения основана частично на опыте обнаружения ошибок в схемах, пред- лагавшихся в качестве быстрых алгоритмов регистрации и поиска
222 111. Теория обучения для задачи определения наилучшего соответствия. Чтобы пояснить сказанное, мы обсудим сейчас схему, которая очень часто встре- чается при изучении этого вопроса. 12.7.7. Схема, использующая возрастающую числовую последо- вательность. В этой схеме делается попытка естественным образом распространить метод § 12.6.3 (случай 3 проверки точного соот- ветствия) на задачу опредетения наилучшего соответствия. Схема имеет следующий вид: Арегистрация: Записать все слова множества данных в порядке воз- растания соответствующих чисел. Апоиск: Для заданного слова w найти те слова, первые а раз- рядов которых наиболее точно соответствуют первым а разрядам слова w. (Как это проделать, совершенно не ясно, но возникает мысль о рекуррентном способе, поскольку это та же самая задача, но в меньшем мас- штабе!) Далее посмотреть, насколько точно соответ- ствуют слову w остальные разряды этих слов. За- тем ... (?)... Интуитивный замысел сам по себе прост: то слово w из мно- жества данных, которое наиболее близко к w, скорее всего даст более высокую согласованность по первым а разрядам, чем просто случайное слово, так почему бы не просмотреть с самого начала слова, заведомо обладающие таким свойством. Однако намечен- ную программу губят два катастрофических недостатка: 1. В какой момент времени можно прекращать поиск? Что именно следует вписать вместо «затем ...(?)...»? Не известно ни одного нетривиального правила, гарантирующего наилучшее соот- ветствие. 2. Интуитивное представление, разумное на первый взгляд, со- вершенно не обосновано! Оно не приносит заметной пользы даже тогда, когда ищется просто хорошее соответствие, не говоря уже о наилучшем. Чтобы детально вникнуть в пункт 2, рассмотрим следующий пример: пусть а = 20, Ь = 10 000, а слово w для простоты пусть состоит из одних нулей. Слово, принадлежащее множеству данных, в среднем состоит из 5000 единиц и 5000 ну- лей. Стандартное отклонение равно */г(10 ООО) '/г = 50. Таким образом, можно ожидать, что не более одного слова из каждых 2“ — 220 слов будет содержать менее 4750 единиц. Поэтому ближайшее к w слово из множества данных (в сред- нем) будет содержать по крайней мере столько же единиц. Среди первых 20 раз- рядов этого ближайшего слова будет (в среднем) более 20(4750/10 000) единиц, т. е. более 9. Таким образом, вероятность того, что в первых 20 разрядах слова w будет на самом деле мало единиц, очень невелика и с точки зрения снижения общего числа просмотров можно полностью пренебречь тем незначительным поло- жительным эффектом, который получается от просмотра подобных слов в пер- вую очередь. Кроме того, сохраняется еще и возражение 1.
Г л. 12. Линейное разделение и обучение 223 В силу указанных причин упорядочение по первым нескольким разрядам слов не имеет никакого значения. Подобный способ классификации в п-мерном случае равнозначен разбиению пространства на «цилиндры», недостаточно хо- рошо приспособленные для выявления соседних точек. Поэтому мы испробовали разнообразные расположения сфер, но (после дополнительного анализа) столк- нулись с теми же самыми затруднениями. В процессе указанного анализа мы начали подозревать, что в n-мерном пространстве существует какое-то осново- полагающее свойство, накладывающее обескураживающе строгие ограничения на все эти алгоритмы. 12.7.8. Почему наилучшее соответствие так отличается от точ- ного соответствия? Допустим, что наше недоказанное предположе- ние (стр. 221) справедливо. Тогда хотелось бы получить по край- ней мере интуитивное объяснение различий между результатами § 12.6 и § 12.7. Один из подходов к этому вопросу состоит в том, чтобы подчеркнуть, что, хотя «наилучшее соответствие» и «точное соответствие» звучат почти одинаково, на самом деле они в корне отличаются друг от друга. Действительно, при нахо- ждении точного соответствия не допускается никаких ошибок. Благодаря этому мы приходим к интересному явлению: п-мерная задача превращается в одномерную] При нахождении наилучшего соответствия использовалась формула b ь Ошибка = 2 Iх/~ -ПI = 2 1 • I xi — xi |. i=i i=i (Мы ввели множитель 1 специально, чтобы показать, что ошибки по любой из осей координат считаются равнозначными.) Но если ищется точное соответствие и не допускается никаких ошибок, не обязательно приписывать им равные веса: здесь подойдут любые наборы положительных весов! Поэтому при определении точного соответствия мы бы могли с равным успехом записать ь Ошибка = У, 2‘ • | xt — Xi | >=i или даже л Ошибка = У, 2' • (хг- — xt), i=l ибо равенство нулю любой из этих ошибок достигается только при х{ = Х{ для всех i. (Аналогия со стратификацией.) Но в таком случае можно (наконец) переписать последнюю формулу в виде Ошибка = (2 2!х;) — (2 2'х;), так что n-мерный вектор (х\, . . . , хь) отображается в единствен- ную точку на одномерной прямой. Таким образом, математическая сущность этих внешне сходных задач совершенно различна.
224 111. Теория обучения 12.8. Вычисления по приращениям Все рассмотренные алгоритмы Арегистрация обладают следую- щим любопытным локальным свойством. Их можно грубо пред- ставить в виде вычисления запоминаемой информации М как функции большого множества данных: М = Арегистрация (множество ДЭННЫх). Теперь можно придумать алгоритмы, которые для вычисления М использовали бы огромный объем вспомогательной, занимаемой лишь на время памяти (т. е. гораздо больший, чем М или чем не- обходимо для запоминания всего множества данных). В наших алгоритмах Арегистрация делалось не так. Напротив, в них даже не использовалась память, заметно большая, чем М, т. е. заметно большая, чем это необходимо для хранения конечных результатов их работы. Более того, им достаточно было просматривать за раз только один элемент множества данных, причем отсутствовало управление выбором следующего просматриваемого элемента и не делалось никаких дополнительных ухищрений, чтобы избежать запоминания данных. Нам кажется, что это интересное свойство вычислений заслу- живает того, чтобы по праву быть изученным. Просто поразитель- но, как много явно «глобальных» свойств множества данных можно вычислить «по приращениям» в указанном смысле. Мы не будем давать формальных определений, а лучше поясним все это на несложных примерах. Предположим, что нужно найти середину множества, состоя- щего из миллиона чисел, предъявленных в виде длинного неупоря- доченного списка. Стандартное решение должно было бы стре- миться записать в памяти все числа этого множества по порядку. Тогда можно будет прочитать число, служащее серединой. Это не вычисление по приращениям, поскольку для временного запомина- ния требуется в миллион раз больший объем памяти, чем для хра- нения окончательного ответа. Более того, нетрудно показать, что при однократном предъявлении данных не существует методики, основанной на приращениях. Положение меняется, если можно повторять список неодно- кратно (столько, сколько хочется), так как при этом достаточно двух регистров, чтобы найти при первом просмотре наименьшее число, при втором просмотре следующее число и т. д. Имея доба- вочный регистр, достаточно большой, чтобы вести счет до поло- вины общего количества N чисел в списке, нетрудно найти се- редину. На первый взгляд кажется, что вычисление по приращениям неприменимо, если числа предъявляются в случайном порядке, например, извлекаются (с возвращением) из урны, где они хорошо
Гл. 12. Линейное разделение и обучение 225 перемешиваются. Однако с помощью несложных рассуждений можно показать, что если известно общее количество чисел в мно- жестве и существует возможность заранее установить приемлемую вероятность ошибки, то при несколько более расточительной за- трате времени способ «по приращениям» применим и в этом случае. Какие же функции от больших множеств данных позволяют так решительно заменять объем памяти временем? Читателю, воз- можно, будет интересно узнать, что для нахождения наилучшеи плоскости (§ 12.2.3), если заданы случайная выборка образов и границы коэффициентов, требуется лишь втрое больший объем памяти, чем занимает само решение. Примером предиката, кото- рый, по нашему мнению, нельзя вычислить, не имея памяти, до- статочной для хранения всего множества данных, может служить предикат [Числа из множества данных, записанные все подряд в порядке возрастания, образуют простое число]. Если кто-нибудь подозревает, что любые функции можно (в не- котором смысле) вычислить по приращениям, пусть рассмотрит функции, содержащие решения о том, являются ли сигналами остановки для машин Тьюринга сцепления элементов множества данных (т. е. расположения их друг за другом).
ГЛАВА 13. ПЕРСЕПТРОНЫ И РАСПОЗНАВАНИЕ ОБРАЗОВ 13.0. Введение Во многих доказанных нами теоремах утверждалось, что пер- септроны не могут распознать некоторые образы. Значит ли это, что трудно построить машины для распознавания таких образов? Нет. Все рассмотренные нами образы можно распознать с по- мощью очень простых алгоритмов для универсальных вычисли- тельных машин. Значит ли это тогда, что область применимости наших теорем очень узка и ограничена этим маленьким классом линейно-разде- ляющих машин? Вовсе нет. Рассуждать подобным образом — значит полностью упустить из виду главное из того, как математика помогает нам понимать мир! Чаще всего основную ценность теоремы составляет открытие самого феномена, а не определение точных условий, при которых он проявляется. Каждому известно, например, о «феномене рядов Фурье», по- зволяющих представить все функции из весьма обширного класса в виде их линейных разложений по функциям из гораздо более узкого класса (синусы и косинусы). Но лишь очень немногим из нас удастся припомнить точные условия этой теоремы! Те важные знания об этом феномене, которые мы сохранили, скорее эвристи- ческие, нежели формальные: мы помним, что надо найти подходя- щий базис для разложения в ряд. Это звучит весьма убедительно. Но в какой мере можно было бы это отнести к теоремам о персептронах? Например, теорема о стратификации показывает, что порядок определенных предикатов ниже, чем это можно было бы предпо- ложить, основываясь на геометрической интуиции; с помощью очень больших коэффициентов можно закодировать информацию «необычным» способом. Условия теоремы 7.2 несколько произ- вольны, и, даже не соблюдая их в точности, можно реализовать подобным образом многие предикаты. Сама по себе эта теорема служит просто средством, позволяющим глубже понять частный пример более общего принципа кодирования. Относится ли это также и к отрицательным результатам? Да, хотя здесь уже труднее сказать, в каком случае распро- страняются на более общие схемы машин условия, приведшие
Гл. 13. Персептроны и распознавание образов 227 к отрицательным результатам. Некоторые защитники персептрона заявляют, что выводы в нашей книге справедливы только в том случае, когда в точности выполняются поставленные условия, а реальные машины не всегда полностью совпадают с теоретиче- скими. Но рассмотрим, например, условия теоремы и/или. Огра- ничения, вызываемого ими, можно было бы избежать, добавив машине еще один логический слой, допускающий соединение выхо- дов двух персептронов по схеме «и». При этом, вне всякого сомне- ния, потерялась бы суть явления. Разумеется, эта новая машина реализовала бы некоторые предикаты, недоступные более про- стым машинам. Но если внутренний смысл явления и/или ясен, исследователь сразу же спросит: подвержена ли сама новая ма- шина аналогичным запрещающим ограничениям? Мы предпола- гаем, что никакое умеренное расширение схемы машины в таком направлении не сможет в действительности существенно повлиять на ее способность учитывать зависимость от контекста. Мы уверены (хотя и не можем это доказать), что более глу- бокие ограничения распространяются также и на разновидность персептрона, предложенную А. Гамбой. Это мы обсудим в сле- дующем параграфе. 13.1. Персептроны Гамбы и другие многослойные линейные машины В серии статей Гамба и его сотрудники [1960, 1961] описали эксперименты с персептроном ф, в котором каждый предикат ср сам является пороговой мерой, т. е. персептроном порядка 1: Фс = [2 pz/Х/ > ez"|, Ф = [2а<|’2₽г/Х/>0/]>0]. В этой схеме используются физически реализуемые линейные устройства. Например, каждый предикат ср можно реализовать при помощи оптического фильтра и порогового фотодетектора (рис. 13.1). Были предложены разнообразные фильтры: от случайных узо- ров до тщательно подобранных «детекторов признаков», интегра- лов, выражающих моменты, и различных шаблонов. Используя спаренные маски или фазо-когерентную оптику, можно получить даже комплексные значения коэффициентов Нам хотелось бы иметь хорошую теорию таких машин главным образом потому, что с помощью оптических и подобных им методов можно полу- чить весьма экономными средствами очень большие массивы. К сожалению, мы не знаем, как приспособить алгебраиче- ский аппарат, работающий в случае персептронов ограниченного
228 111. Теория обучения порядка, а найти какие-либо другие аналитические средства нам не удалось. Поэтому мы можем сделать только ряд замечаний и задать несколько вопросов. Заметим с самого начала, что если Рис. 13.1. а — светящееся изображение; b — прозрачные фильтры, или маски с —«точечные» отверстия с фотоэлементами. устранить внутренние пороговые операции, то получится просто персептрон первого порядка: az 2 PijXj > О’] = (2 «/PiXi > б] = J"2 a'jxj > 0 j. На явную эффективность нелинейных операций указывает, напри- мер, то, что простая машина Гамбы может распознавать преди- кат ФяВсР0 = Г(1*ЛЛ|>|ХЛ5|) У(|ХЛС|>]ХЛ5|)1, не обладающий, как было показано в гл. 4, конечным порядком. В самом деле, положив ₽1/ “ 1, - 1, если если Xj е А, X/ е В, ₽2/ — О в противном случае; 1, если Xj е С, — 1, если X/ е В, О в противном случае, получим, что машина Гамбы может распознавать предикат флвс = Гф1 + ф2 > 01-
Гл 13. Персептроны и распознавание образов 229 При помощи простых машин Гамбы можно реализовать еще один предикат неограниченного порядка, а именно Фчетность. Действительно, пусть ф(Х) = ф(|Х|), т. е. предикат ф(Х) зависит только от |Х|. Положим Ф(п) (X) = Г|Х | > = rS Xi > «1 и обозначим <*о = Ф (0), а! = ф(1) —ао, п а«+1 = ф(» + 1)- S а;. i = 0 Тогда можно записать ф(*)= •|Я| 3 а/ф(/)>0 • Если не вводить никаких ограничений на количество масок Гамбы, то такие машины могут распознать любой образ, так как для каждой фигуры F можно задать эталонную маску, распознающую именно эту фигуру: фл = Г S xt- 2 |x(eJ' xi(£F | Тогда любой класс F изображений распознается при помощи пре- диката Фт=- = [^Фл >°] • Этот результат неинтересен, так как свидетельствует только о том, что любой класс имеет дизъюнктивную булеву форму, и его можно распознать, если иметь столько масок Гамбы, сколько в классе изображений. Интересно, однако, что зависящие от площади фигур предикаты типа ФЧЕТНость и ФЛ«с требуют, как показано выше, не более |/?| масок. Нетрудно доказать, что для предиката Фчетность требуется по крайней мере log |/?| масок Гамбы, но было бы неплохо получить более точный результат. Мы уверены в том, что машины Гамбы, подобно машинам ограниченного по- рядка, сравнительно беспомощны, если предикаты включают в себя более сложные взаимоотношения между отдельными частями фигур, но нам не удалось найти точную формулировку этого пред- положения. Мы, например, считаем, что для предиката Фсвязность потребовалось бы огромное количество масок Гамбы (быть может,
230 111. Теория обучения почти столько же, сколько существует связных фигур). По-види- мому, с такими предположениями, сформулированными в терми- нах количества предикатов ср в машине, труднее работать, чем с более простыми утверждениями о невозможности проводить распознавание при помощи любого числа масок ограниченного порядка. 13.2. Другие многослойные машины Рассматривались ли «персептроны» со многими слоями! Мы рассмотрели машины Гамбы, которые можно было бы описать как «два слоя персептронов». Мы не обнаружили (рас- суждая самостоятельно и изучая соответствующую литературу) никакого другого класса многослойных машин, действительно пред- ставляющего интерес, по крайней мере ни одного, принципы ра- боты которого были бы существенно связаны с принципами ра- боты персептрона. Чтобы уяснить себе значение этой оговорки, стоит поразмыслить над тем тривиальным самим по себе обстоя- тельством, что универсальную вычислительную машину можно было бы целиком выполнить на линейных пороговых элементах. Последнее никоим образом не сводит теорию вычислений и про- граммирование к теории персептронов. Некоторым лицам, предпо- читающим философский подход к жизни, возможно, захотелось бы выразить соответствующее общее положение при помощи вы- сказывания о том, что вычислительная машина — это намного больше, чем просто сумма ее элементов, и поэтому специалист по вычислительной технике может позволить себе пренебречь приро- дой ее составных частей и рассматривать только принципы их со- единения. Говоря более конкретно, нам хотелось бы обратить вни- мание изучающих этот вопрос на следующие соображения: 1. Многослойные машины с петлями (обратной связи), очевид- но, ставят перед нами все вопросы общей теории автоматов. 2. Система без петель и с ограниченным порядком в каждом слое может вычислять только предикаты конечного порядка. 3. С другой стороны, если, кроме отсутствия петель, никакие другие ограничения не накладываются, то опять поднимает свою голову чудовище бесплодной общности. Проблема расширения (идеи персептрона) не просто техни- ческая, она также и стратегическая. Персептрон уже показал, что его стоит изучать, несмотря на строгие ограничения (и даже бла- годаря им!). Он обладает многими свойствами, привлекающими внимание: линейность, интригующая способность к обучению, очевидная простота персептрона как разновидности устройства для параллельных вычислений. Нет никаких оснований пред- полагать, что любое из этих достоинств распространяется на мно- гослойный вариант. Тем не менее мы считаем важной исследова-
Гл. 13. Персептроны и распознавание образов 231 тельской задачей разъяснить (или отвергнуть) наше интуитивное заключение о том, что обсуждаемое расширение бесплодно. Разве только будет открыта какая-нибудь мощная теорема о сходимости или будет найдена некоторая глубокая причина, в силу которой для многослойной машины невозможно найти «теорему об обуче- нии», представляющую какой-либо интерес. 13.3. Анализ картин окружающей действительности Можно понять, почему математикам интересны такие ясные и простые предикаты, как ^четность и ^связность- ^У’ а если кто-то хочет построить машину для распознавания стульев, сто- лов или людей? Имеют ли наши абстрактные предикаты хоть какое-нибудь отношение к подобным задачам и имеет ли теория простого персептрона хоть какое-нибудь отношение к более слож- ным машинам, которые можно было бы использовать на прак- тике? Это несколько напоминает вопрос, имеет ли теория линейных цепей отношение к проектированию телевизионных приемников. Конечно же, какое-то представление о связности нужно для раз- бора картин, содержащих в себе много объектов, поскольку целое состоит из суммы своих частей и отношений между ними, и, чтобы разделить картину на отдельные части, соответствующие физиче- ски непрерывным объектам, нужен некоторый анализ, относящийся к связности. Должны ли мы в таком случае вывести из отрицательных ре- зультатов гл. 5 заключение, что будет трудно построить машины для анализа картин окружающей действительности? Только если ограничить себя персептронами. Результаты гл. 9 показывают, что для более последовательных машин связность не представляет особого труда. Но если даже допустить, что существуют машины, управляю- щиеся со связностью, разве не существует громадного разрыва между такими машинами и машинами, способными находить объ- екты на объемных картинах? Указанный разрыв не так велик, как могло бы показаться. В качестве объяснения опишем некоторые детали одной из про- грамм для ЭВМ, способной это делать. Методы, которые мы хо- тим описать, относятся к области, именуемой сегодня «эвристиче- ским программированием», или «искусственным мышлением»1). ’) См., например, сборники под ред. Фейгенбаума и Фельдмана [1963] и под ред. Минского [1968].
232 III. Теория обучения Рассмотрим задачу построения машины, способной по фотогра- фии описать объемную картину Было бы желательно, чтобы машина по крайней мере сказала, что картина содержит 4 объекта (3 параллелепипеда и 1 цилиндр), и сообщила что-либо об их относительном расположении. В соответствии с традициями эвристического программирова- ния следовало бы наделить машину определенными способно- стями, например следующими: 1) способностью обнаруживать точки, в которых освещенность меняется настолько быстро, что можно предполагать наличие ребра: 2) способностью подразделять множество упомянутых точек на подмножества, каждое из которых можно принять в качестве гипотетического отрезка прямой или кривой: 3) способностью переходить от контурных линий к связным областям, или граням: 4) способностью группировать грани в объекты (в § 13.4 мы опишем подобный метод, разработанный нашим студентом А. Раз- меном. Эта процедура обладает замечательной способностью ра- ботать и в тех случаях, когда один объект частично заслоняет другой);
Гл. 13. Персептроны и распознавание образов 233 5) способностью распознавать, что определенные детали, на- пример тени, несущественны. Вероятно, наиболее важна 6) способность выносить каждое из указанных выше решений на основе предварительных проб и отказываться от них, если на любой стадии процедуры появится что-либо «неправдоподобное». Например, если окажется, что область, выявленная способно- стью 3), необычайно сложна (по отношению к классу объектов, для которых предназначена данная процедура), то можно подвергнуть сомнению существование прямых, выявленных способностью 2), или предложить другие линии, для проверки чего повторно вос- пользоваться способностью 1), но взять более низкий порог. 7) Все эти процессы можно было бы организовать при помощи распределяющей программы типа «универсального решателя за- дач» Ньюэлла, Шоу и Саймона [1959] или исполнительной про- граммы большой программирующей системы. Система, обладающая подобным набором способностей, принадлежит к клас- су, очень отличающемуся от персептрона, хотя бы из-за многообразия произво- димых ею действий и применяемых форм знания. Людям зачастую кажется, что методы искусственного мышления и методы, связанные с персептроном, не в такой степени противоположны, как мы считаем. К примеру, оии утверждают, что алгоритмы персептронного типа можно было бы использовать на каждом «уровне» для осуществления отдельных процедур различения. Но применение персептрона в качестве составной части высокоорганизованной системы не остав- ляет камня на камне от его претензий быть «самоорганизующейся» системой. Если разрабатывать подобную систему, то при выборе подходящего алгоритма для каждой ступени следовало бы руководствоваться только соображениями практической выгоды. Суть подхода, который мы имеем в виду, иллюстрируется той ролью, которую играют в следующем примере последовательные операции, гипотезы и иерархические описания. 13.4. Газменовский подход к анализу объемных картин В объемных картинах типа OQ7
234 III. Теория обучения где все объекты представляют собой прямоугольные тела, не очень сильно заслоняющие друг друга, можно обнаружить объекты при помощи исключительно локального процесса нахождения всех Y-стыков. Изображение каждого объекта содержит, самое боль- шее, один такой отличительный признак, который может отсут- ствовать вследствие перспективы, как в случае представляющем собой изображение куба, Или в случае (так как мы требуем, чтобы каждый из трех углов Y-стыка был менее 180°). Более серьезная трудность ждет нас в случае пере- крытия, т. е. когда одно тело заслоняет другое, как на рисунке где один из Y-стыков полностью закрыт. Но здесь можно сначала распознать малый куб, затем устранить его, продлить скрытые ли- нии и обнаружить таким образом большой куб. Все это демон- стрирует большие возможности программ, способных принимать иерархические решения! Программа, разработанная Газменом, работает несколько ина- че. Идея Размена заключается в том, чтобы рассматривать раз- новидности локальных конфигураций как источники сведений раз- личной значимости о том, соединяются ли между собой грани
Гл. 13. Персептроны и распознавание образов 235 реального объекта, проекции которых встречаются в данной вер- шине. Например, для следующих трех типов конфигурации вершин I П СтреЛт I D Т конфигурация Y говорит о соединении I и II, II и III, I и III «Стрела» присоединяет только I к II. Конфигурация Т обычно воз никает в результате перекрытия части одного объекта другим, та! что наличие ее свидетельствует об отсутствии соединений I и III II и III (и ничего не говорит о связи I и II). С помощью толькс этих правил можно преобразовать фигуры в соответствующш группы граней следующим способом: представим соединена типа Y прямыми линиями, а соединения типа «стрела» — кривыми (2 8*
236 III. Теория обучения До сих пор установить соответствие между соединенными гра- нями и фигурами было нетрудно. Пользу от наличия разных ти- пов сведений мы ощущаем только в более сложных случаях. В фи- гуре обнаруживается ряд «ложных» соединений, вызванных слиянием вершин разных частей фигуры. Чтобы разорвать такие ложные связи, программа применяет иерархическую схему, которая вна-' чале находит подмножество очень сильно соединенных граней (на- пример, при помощи двух или более связей). Эти «ядра» затем вступают в конкурентную борьбу за более слабо связанные грани. В примерах (1) — (4) не было конкуренций, а в (5) эта процеду- ра разрывает единственную ложную связь между кубами. Лож- ные связи рвутся также и в примере (6). Если бы очень простой алгоритм конкуренции здесь не подошел, можно было бы учесть также и те отрицательные свидетельства, которые оба Т-стыка дают против соединений I—III и II—III. Мы дали только общий набросок схемы Размена. На самом деле Размен использует также и другие типы соединений, на- пример О—/2) Кроме того, он учитывает тот факт, что некоторые вершины видоизменяются при объединении их с другими вершинами. Это
Гл. 13. Персептроны и распознавание образов 237 многообразие средств позволяет программе анализировать объем- ные картины типа (7) в которых некоторые грани полностью разъединены. Метод, применяемый в этой процедуре, может показаться похожим на метод взвешивания данных в персептроне. Но локаль- ный характер такого сходства сильнее всего подчеркивает глубо- кое различие между самими подходами. Действительно, взвеши- вание данных в алгоритме Размена представляет собой лишь ма- лую часть процедуры. Оно позволяет оценить связи между теми абстрактными образованиями, которые названы гранями и кото- рые в свою очередь предоставляет в наше распоряжение другая программа, выясняющая связность. В случае «локально неоднозначных» фигур требуется что-то более близкое к мышлению и решению проблем. Например, чело- век, смотрящий только на центр штабеля кубов на рис. 13.2, мо- Рис. 13.2. жет неверно определить структуру этой фигуры. Однако эту оши- бочную структуру не удается распространить на всю фигуру в це- лом. Это наводит на мысль, что человек тоже применяет процеду- ру, которая в случае неудачи может «вернуться назад» к другой гипотезе. Более подробное обсуждение эвристического программирования выходит за рамки этой книги. Для получения дополнительной ин- формации желающие должны обратиться к библиографическим ссылкам.
238 III. Теория обучения 13.5. Зачем доказывать теоремы? Для чего надо было доказывать все эти сложные теоремы? Разве нельзя было попросту взять персептрон и посмотреть, может ли он распознать связность? Нет. 13.6. Источники идей и их развитие Нашу признательность всем, кто прямо или косвенно помог нам в написании этой книги, лучше всего выразить в виде крат- кого исторического очерка нашей работы. Мы начали сотрудни- чать в 1963 г., когда Маккаллок свел нас друг с другом. Мы бла- годарны ему не только за это, но и за то, что он первым серьезно задумался над проблемами, которые мы рассмотрели. 13.6.1. Теорема об инвариантности относительно групп. Оба мы заинтересовались персептроном с момента его провозглашения Розенблаттом в 1957 г. Мы оба представили доклады, относя- щиеся к «обучению» персептрона, на симпозиум по теории инфор- мации в 1960 г. в Лондоне. Наше серьезное наступление на гео- метрические проблемы персептрона развернулось весной 1965 г. К тому времени было известно, что персептроны первого порядка не могут вычислять никаких функций, инвариантных относительно переноса, кроме функций от |Х|, но не было и намека на то, ка- ким образом это можно обобщить. Если оглянуться назад, то наиболее очевидным препятствием было отсутствие понятия порядка. Первоначальные исследования возможностей персептронов опирались на множества Ф частных предикатов, определенных при помощи стохастических порождаю- щих процессов или отвечающих таким не имеющим никакого от- ношения к делу условиям, как требование, чтобы сами частные предикаты были линейными пороговыми функциями малого числа переменных. Подобные ограничения (в противоположность на- шему | S (ср) | < k) всегда, по-видимому, приводили к ситуациям, плохо поддающимся математической обработке, и тем самым уси- ливали господствующую тенденцию подходить к проблеме стати- стическими средствами, а не алгебраическими. Ближе всего к пе- релому во взглядах, за который мы ратуем, стояли Бледсоу и Броунинг [1959], рассмотревшие строгое ограничение порядка на одной разновидности конъюнктивно-локальной машины. С введением понятия порядка стал возможным общий вид тео- ремы об инвариантности относительно групп. Но сначала нужно было преодолеть по крайней мере четыре других препятствия, раз- личных с эвристической точки зрения. 1. Мы должны были признать важность изучения геометри- чески тривиального предиката ФЧЕТность’ ^Ри Доказательстве тео-
Гл. 13. Персептроны и распознавание образов 239 ремы об инвариантности относительно групп, теоремы и/или, при объяснении принципа стратификации ссылки на этот предикат ло- гически не требуются (и даже бесполезны). Но мы уверены, что эвристически он сыграл решающую роль. Его абсолютная геомет- рическая тривиальность позволила нам увидеть алгебраические идеи, лежащие в основе изучаемых ситуаций. То же относится и к роли положительной нормальной формы: все наши результаты можно доказать без ее помощи. Но тогда, когда мы были в совер- шеннейшем замешательстве относительно всего на свете, она по- зволила нам взамен ставящего в тупик разнобоя множества всех логических функций иметь дело лишь с простыми комбинациями масок. 2. Замысел усреднения мы вынашивали с тех самых пор, как прочли Питтса и Маккаллока [1947]. Его подкрепило красивое до- казательство, предложенное Мериллом в ответ на наши первона- чальные соображения по этому поводу, высказанные на семинаре в Массачусетском технологическом институте. Мерилл заметил, что если |S(cp) | < |Д| для всех ср, то в множестве {Х|ср(Ал)} фи- гур X с четным числом точек столько же, сколько и с нечетным. Отсюда немедленно следует, что для любого множества Ф таких предикатов ср два множества векторов {Ф(Х)||Х | — четное число} и {Ф (Х)| |Х | — нечетное число} должны иметь один и тот же центр тяжести. Поэтому их нельзя отделить гиперплоскостью! Это доказательство, хотя и наталкивает на полезные размыш- ления, все еще отличается основной слабостью, присущей всем пер- воначальным рассуждениям о персептронах: с самого начала при- нимается, что предикаты представляются как множества точек в |Ф|-мерном евклидовом пространстве. Чтобы прийти к теореме об инвариантности относительно групп, нам нужно было покончить с этим представлением. Доказательство Мерилла усредняло по всему множеству |Ф|-мерных точек, наше же — по множеству функционалов, определенных на подмножествах пространства R. 3. Из-за отсутствия точек соприкосновения с классическими математическими методами, глубина которых проверена, возни- кали препятствия совсем другого рода. Общность фундаменталь- ных свойств многочленов, неприводимых кривых, интегралов Хаара и т. п. создавала ощущение настоящей математики в противопо- ложность чисто комбинаторным методам ранних работ по персеп- тронам. В науке о вычислительных машинах это встречается слиш- ком редко и потому имеет большое значение. Мы убеждены, что уважение к настоящей математике является мощным эвристиче- ским принципом, но оно должно соизмеряться с практическими соображениями.
240 111. Теория обучения 4. Мы с большой неохотой присоединили к теореме об инва- риантности относительно групп условие замкнутости множества Ф относительно группы, так как оно казалось нам сильным ограни- чением, Некоторое время спустя мы поняли, что это скорее уси- лило, нежели ослабило теорему (!), поскольку последняя исполь- зуется главным образом для того, чтобы показать невозможность реализации различных предикатов при помощи тех или иных пер- септронов. В этом случае условие замкнутости означает, что не- который предикат нельзя реализовать даже при помощи персеп- трона, содержащего все соответствующие предикаты ср каждого типа. Поэтому такой предикат нельзя реализовать и никаким меньшим персептроном, скажем, полученным случайным выбором из подобных частных предикатов. 13.6.2. Предикат с|)связность. Наши первые неуверенные поиски были в значительной мере стимулированы тем, что мы очень рас- строились своей неспособностью доказать даже эвристически тот очевидный факт, что предикат Фсвязность не обладает конечным порядком. Уход в сторону предиката ФЧЕТНОсть мотивировался отчасти желанием отыскать более простой случай для изучения, отчасти надеждой найти способ свести его к интересующему нас предикату с помощью переключательных элементов1), похожих на те, которые использовались при доказательстве теоремы в случае ограничения по диаметру, К нашей первой теореме о порядке пре- диката Фсвязность мы пришли другим путем, через теорему «один- в-блоке». Это (в логическом смысле) решило исходную задачу, но мы продолжали изучать переключательные элементы, опираясь на интуицию, и позднее это окупилось сторицей. В то же время мы не можем сделать вид, что получили именно то, что ожидали. Пока мы разрабатывали довольно сложные переключательные цепи (гл. 5), мы полностью упустили из виду то более простое соображение, которое нам предложил Хаффмеи (§ 5.5). Хотя его построение дает только слабую нижнюю границу для скорости, с которой возрастает порядок предиката Фсвязность, оно достаточно, чтобы доказать, что этот предикат не обладает конечным порядком. Более того, оно показывает, как можно свести любой предикат на сетчатке из IR | точек к вычислению предиката Фсвязность на сетчатке примерно из 2^1 точек. Тем самым формально показана определенная универсальность этого пре- диката для изучаемых параллельных машин, напоминающая универсальность поиска по дереву в случае обычной последовательной машины (причем обе про- цедуры в равной мере наталкиваются на трудности, связанные с экспоненциаль- ным ростом). 13.6.3. Еще раз о топологии. Изучая свойство связности, мы по- лучили привлекательный (и, быть может, загадочный) положи- *). Видимо, авторы имеют в виду сведение связности к четности с помощью «переключаемых» частей фигуры, подобных тем, которые описаны в § О.8.- Прим. ред.
Гл. 13. Персептроны и распознавание образов 241 тельный результат, относящийся к предикату Эйлера. В раннем наброске этой книги мы добавили к этому результату неверное доказательство того, что в классе L (Ver 9sVg-jVgzr не может быть никаких других топологических инвариантов. Доказав теорему (§ 8.4) о том, что нет никаких других топо- логических инвариантов, ограниченных по диаметру, мы реши- тельно выдвинули предположение, что для случая ограниченного порядка понадобятся совершенно другие методы. Мы поэтому очень удивились, когда Майк Петерсон, молодой британский тео- ретик в области вычислений, которому предложили прорецензиро- вать нашу рукопись, показал, как можно применить идеи § 5.7, чтобы свести все к переключательной цепи, предназначенной для проверки четности, и доказать тем самым теорему из § 5.9. 13.6.4. Стратификация. Это та область, в которой наши перво- начальные интуитивные представления оказались катастрофически неверными. Основные результаты нашей книги были впервые формально представлены в апреле 1966 г. на симпозиуме по математическим аспектам науки о вычислительных машинах, проведенном Амери- канским математическим обществом. К этому времени мы смогли доказать, что предикат Фсвязность не обладает конечным поряд- ком, и предположили, что то же верно и для таких явно «глобаль- ных» предикатов, как ^симметрия и Фвлизнецы (§ 7.3 и 7.5). Нас обрадовал и подбодрил восторженный прием, оказанный нам многими из коллег на симпозиуме Американского математи- ческого общества, и в не меньшей степени обрадовал скорбный прием аналогичного выступления на совещании по бионике. Но поскольку нас включили в организацию лаборатории искусствен- ного мышления при Массачусетском технологическом институте, в значительной мере направленной на разработку реальных «видя- щих машин», мы не уделяли никакого внимания персептронам, пока однажды не посетили рабочее совещание по распознаванию образов, организованное Институтом инженеров по электротехнике и радиоэлектронике США в самом начале 1967 г. в Пуэрто-Рико. Напуганные стойким влиянием персептронов (и подобных на- правлений мысли) на прикладное распознавание образов, мы решили выпустить нашу работу в виде книги. По иронии судьбы первыми результатами, полученными на этой новой стадии нашего увлечения, оказались псевдоположительные приложения страти- фикации.
242 ///. Теория обучения Мы впервые столкнулись с этим явлением, когда наш студент Джон Уайт показал, что порядок предиката Фподыи квадрат Ра" вен трем. Мы были убеждены, что у этого предиката порядок 4. Наша уверенность станет понятной читателю, если он попытается реализовать этот предикат, используя ограниченные коэффициенты, причем ограничения не должны зависеть от размеров квадрата. Возможно, мы были настолько уверены в исключительной парал- лельности персептрона, что не хотели видеть, что можно закоди- ровать в алгоритме персептрона некоторые ограниченные формы последовательных вычислений, если построить иерархию подчине- ния по размерам. Короче говоря, мы потратили не один месяц, чтобы выявить сущность стратификации и тем самым понять, почему нас по- стигла неудача при доказательстве теоремы об инвариантности относительно групп в случае бесконечных сетчаток. Ясно, что стратификация — это не просто «хитрая уловка», помогающая сни- зить порядок предиката: неограниченные коэффициенты позво- ляют осуществить гораздо более широкий диапазон последова- тельных (условных) вычислений, правда, такой ценой, что это представляет только математический интерес. Мы убеждены, что большинство предикатов из гл. 7 при условии ограниченности коэффициентов не обладают конечным порядком, а стратификация проводит различие между конечностью и бесконечностью поряд- ков. Впрочем, это еще не доказано. 13.6.5. Обучение и память. Теория, изложенная в гл. 11 и 12, резко отличается по духу от нашей геометрической теории. Прежде всего, противоположны цели исследования: формулировки теорем об обучении имеют вид: «.Если данный предикат принадлежи! £(Ф), то некоторая методика дает возможность найти набор коэф- фициентов, реализующий этот предикат», тогда как основная часть наше'й работы состояла в том, чтобы выяснить, когда и по- чему определенные предикаты принадлежат определенным клас- сам £(Ф). Кроме того, подходящим языком для теории обучения, по-видимому, в самом деле служит язык «-мерного пространства коэффициентов, в котором фигуры и предикаты трактуются как точки и гиперплоскости. Мы уже неоднократно подчеркивали, что добиться успехов в отношении геометрической теории предикатов мы могли только тогда, когда отбрасывали подобное представле- ние. Тем не менее мы сначала решили обсудить теорему о сходи- мости в основном по той причине, что нас не удовлетворяла не- четкая форма всех прежних ее формулировок. В частности, стало обычаем не обращать внимание на следующие вопросы: Является ли персептрон эффективным средством запомина- ния?
Гл. 13. Персептроны и распознавание образов 243 Не становится ли время обучения слишком долгим и потому практически не оправданным, даже если разделение в принципе возможно? В какой мере результаты по сходимости персептрона выдер- живают сравнение с результатами, полученными на основе более тщательно разработанных методов? Какова взаимосвязь персептрона с другими вычислительными устройствами? Чем дальше, тем все более и более важным становился для нас последний вопрос. Сравнение с гомеостатом усилило наш ин- терес к персептрону скорее как к хорошему объекту для изучения в математической теории вычислений, чем как к практической машине, и мы стали задаваться такими вопросами: могли ли бы мы рассматривать теорему о сходимости персептрона как яркое проявление конечности числа состояний? как она связана с подъ- емом на холм и другими методами поиска экстремума? отличается ли она коренным образом от других способов решения линейных неравенств? Мы несколько самонадеянно считали, что на первый вопрос легко дать ответ, пока наша студентка Терри Бейер не привлекла наше внимание к ряду трудностей. Она здраво рассудила, что вы- ходом из положения было бы доказательство чего-то такого, что в конце концов превратилось бы в теорему 11.6. Общими усилиями при помощи Доны Штраусс было получено интересное, но непри- годное для публикации доказательство. Вскоре затем мы узнали, что Брэдли Эфрон уже доказал подобную теорему, и обнаружили, что, беря на вооружение его идею, мы можем получить доказа- тельство, приведенное в § 11.6. Эфрон, не опубликовавший свое доказательство, считает себя обязанным Нильсу Нильсону за одну догадку, которая привела его к этой теореме. Теорему об обучении персептрона мы сейчас рассматриваем как простой пример более широкой проблемы памяти (хранения и поиска информации), подобно тому как необучающийся персеп- трон служит исходным пунктом в теории вычислений. Главу 12 можно считать декларацией важности этой проблемы. 13.7. Вычислительная геометрия Нам приятно думать, что персептрон воочию демонстрирует возможность более согласованного взаимодействия между тради- ционными разделами математики и вычислительной математикой. Когда мы первоначально рассматривали предикат Фсвязность’ мы считали, что изучаем единичный факт, касающийся разновидности вычислительного устройства. Через некоторое время, когда мы уже выдвинули некоторые предположения и приступили к дока- зательству того, что единственными топологическими предикатами
244 III. Теория обучения конечного порядка служат предикаты Эйлера, мы ощутили, что изучаем геометрию. Можно было бы принять это за нездоровую тенденцию людей, воспитанных на классической математике, пере- носить новую вычислительную дисциплину обратно на знакомую им почву. С другой стороны, это можно рассматривать как черты вычислительной математики будущего не просто как новой и са- мостоятельной науки, но и как способа рассуждений, который проникнет во все остальные отрасли знания. Истина должна находиться где-то между этими крайностями. В любом случае неуклонный рост и успех исследований, который мы наблюдаем в Массачусетском технологическом институте, убе- ждает нас как в жизненности концепции вычислительной геомет- рии, так и в способностях наших коллег и учеников. 13.8. Благодарности Блюм и Хьюитт получили первый новый результат о геометри- ческих способностях машин с конечным числом состояний. Позже Блюм, Хеннеман и Фелл обнаружили интересные соотношения между фигурами на евклидовой плоскости при наложении дискрет- ной сетки. Бейер открыла весьма неожиданные алгоритмы для геометрических вычислений в итеративных ансамблях автоматов. Не приходится и говорить, что эти лица внесли свой вклад в тео- рию, изложенную в этой книге как своим влиянием на творческую атмосферу, в которой создавалась книга, так и большим числом советов, замечаний и критических высказываний. Многие детали математических построений и изложения улучшены благодаря со- ветам Армстронга, Берда, Лайонса, Петерсона и Сассмена. Наряду с названными выше коллегами мы также многим обя- заны Бледсоу, Штраусс, Селфриджу, Соломонову, Фано. Из дипломатических и эвристических соображений мы хотели бы отметить, что большинство новых идей возникало в новой для нас обстановке: на пляжах, среди болот, на вершинах гор. Организация перспективных исследовательских проектов (Advanced Research Projects Agency) не только поддержала нас в финансовом отношении. Мы хотим отметить выдающуюся роль в развитии вычислительной математики ее отдела Информацион- ных наук, и особенно группы основателей этого отдела: Ликлай- дера, Сазерленда, Тейлора, Робертса. Финансирование большей части нашей работы осуществлялось организацией ARPA через Массачусетский технологический институт и Управление военно- морских исследований.
Библиографический очерк1) В настоящем разделе мы хотим ознакомить читателя с лите- ратурой по данному вопросу. Эти заметки не следует рассматри- вать как серьезное исследование по истории вопроса, поскольку в этом направлении мы не предпринимали никаких шагов. Во время десятилетнего изучения семейства машин, беспечно названных персептронами, мы наблюдали эволюцию и совершен- ствование двух взаимодействующих идей: идеи реализации пре- диката в виде линейной пороговой функции от более локальных предикатов и, во-вторых, идеи теоремы о сходимости, или теоремы «обучения». Чаще всего историю этого вопроса представляют себе таким образом, что персептрон был однажды изобретен Розен- блаттом, а доказательство теоремы о сходимости лишь оправдало его интуицию перед лицом скептически настроенного научного мира. Такое представление является архиупрощенным в особен- ности потому, что понятие персептрона считалось в нем статичным. На самом же деле ключом к доказательству теоремы о сходимо- сти было формирование самого понятия персептрона. (Действи- тельно, очень часто «поиск доказательства» некоторого предполо- жения состоит в приведении этого предположения к виду, пригод- ному для доказательства.) В ранних статьях встречается масса разнообразных машин и способов «обучения», однако по мере совершенствования матема- тического описания они свелись к простым концепциям, которые и изложены в этой книге. Те, кому интересна эта эволюция взгля- дов, могут прочесть работы Розенблатт (Rosenblatt F.), Two theorems of statistical separability in the perceptron, Proceedings of a Symposium on the Mechanization of Thought Processes, London, 1959, pp. 421—456; Розенблатт Ф., Принципы нейродинамики, «Мир», М., 1966 (1962). В многочисленных работах описывались и другие эксперименты по обучению персептронного типа. Довольно известной стала статья ') При цитировании работ, вышедших в русском переводе, в скобках ука- зывается год издания оригинала; он же дается при ссылках в основном тексте. —• Прим. ред.
246 Библиографический очерк Сэмюэль А., Некоторые исследования возможности обучения машин на примере игры в шашки, сб. «Вычислительные машины и мышление», «Мир», М., 1967 (1959), стр. 71—110. В этой статье приведено множество способов коррекции оши- бок, использующих прибавление дополнительных векторов. В статье Сэмюэль (Samuel A.), Some studies in machine learning using the game of checkers, IBM Journal of Research and Development, 11, № 4 (1967), 601—618; представлены исследования, направленные на обнаружение более сложных взаимодействий между частными предикатами. Простые многослойные машины, подобные персептрону, которые мы рас- сматривали в гл. 13, изучаются в статьях Пальмиери, Санна (Palmieri G., Sanna R.), Automatic probabi- listic programmer-analyzer, Methodos, 12, Xs 48 (1960); Гамба, Гамбертини, Пальмиери, Санна (Gamba A., Gam- bertini L„ Palmieri G., Sanna R.), Further experiments with PAPA, Nuovo Cimento Suppl., 20, № 2 (1961), 221—231. Более ранние машины, изменяющие свое поведение в зависи- мости от подкрепления, но более далекие от окончательной струк- туры персептрона, описаны в работах Эшби У. Р., Конструкция мозга, ИЛ, М., 1962 (1952); Кларк, Фарли (Clark W., Farley В.), Generalization of pattern recog- nition in a self-organizing system, Proceedings of the Western Joint Computer Conference, 1955, pp. 85—111; Минский (Minsky M.), Neuron nets and the brain-model problem, Prin- ceton, New Jercy, 1954. А т т л и О., Машины условной вероятности, сб. «Автоматы», ИЛ, М., 1956 (1956), стр. 326—351. Другим примером подобной эволюции служит доказательство теоремы о сходимости (теорема 11.1). В абстрактном математиче- ском смысле и сама теорема, и ее доказательство уже существо- вали задолго до появления персептрона, поскольку довольно часто выдвигалась идея решения системы линейных неравенств при помощи метода релаксации (последовательных коррекций, анало- гичных тем, которые используются в персептроне). Этому посвя- щена изящная статья А гм он (A gm on S.), The relaxation method for linear inequalities, Cana- dian Journal of Mathematics, 6, № 3 (1954), 382—392. По методу Агмона вычисляется вектор Ф, дающий наибольшую численную ошибку, т. е. в наибольшей степени не удовлетворяю- щий линейному неравенству, а затем кратное этого вектора исполь- зуется для коррекции (см. § 11.4). Мы не считаем себя достаточно компетентными, чтобы высказать мнение о том, следует ли этой статье отдать приоритет в открытии теоремы о сходимости. Однако, вне всяких сомнений, эта теорема немедленно стала бы очевидной,
Библиографический очерк 247 если бы кибернетики, занимающиеся персептронами, знали о ра- боте Агмона. Во всяком случае в кругах кибернетиков первоначальные до- казательства теоремы о сходимости предлагались абсолютно не- зависимо от работ по линейным неравенствам. См., например, Блок (Block Н.), The perceptron: a model for brain functioning, Reviews of Modern Physics, 34, № 1 (1962), 123—135. Доказательство Блока чрезвычайно сложно. Более простой способ анализа, приведенный в § 11.1, насколько нам известно, был впервые использован в статье Пейперт (Ра pert S.), Some mathematical models of learning, Proceedings of the Fourth London Symposium on Information Theory, New York, 1961. Любопытно, что эта статья не упоминается ни одним из позд- нейших комментаторов (включая и, как правило, эрудированного Нильсона), за исключением лишь Розенблатта в его «Принципах нейродинамики». Теорему о сходимости в разнообразных форму- лировках, включая и целый ряд исторических справок, подробно рассмотрел Нильсон Н., Обучающиеся машины, «Мир», М., 1967 (1965). В статье Минский, Селфридж (Minsky М., Selfridge О.), Learning in neural nets, Proceedings of the Fourth London Symposium on Information Theory, New York, 1961; обсуждается взаимосвязь между сходимостью и подъемом на холм. Хотя мы еще не были знакомы друг с другом, наши статьи в трудах этого симпозиума перекрываются: в них доказывается одна и та же теорема о байесовской оптимальности линейного разделения. Но наше позднейшее сотрудничество не связано с этим совпадением. Подобно тому, как Агмон предвосхитил идею обучения персепт- рона, Селфридж предвосхитил характерную особенность персепт- рона объединять локальные свойства для получения явно гло- бальных свойств. Это видно, например, из статьи Селфридж (Selfridge О.), Pattern recognition and learning, Procee- dings of the Third London Symposium on Information Theory, New York, 1956, p. 345. Между прочим, мы считаем, что эти кибернетические идеи во многом повлияли на общее направление развития основных пред- ставлений и на открытия в области физиологии зрения. Последние представлены, например, в работах Леттвин, Матурана, Маккаллок, Питтс (Let tvin J., Matu- rana H., McCulloch W., Pitts W.), What the frog’s eye tells the frog’s brain, Proceedings of the IRE, 47 (1959), 1940—1951;
248 Библиографический очерк Хьюбель, Визель (Hubei D., Wiesel Т.), Receptive fields of single neurons in the cat’s striate cortex, Journal of Physiology, 148 (1959), 574—591. Другие идеи, использованные в настоящей книге, заимствованы из описаний ранних моделей физиологических явлений, особенно из статьи Питтс, Маккаллок (Pitts W., McCulloch W.), How we know universals, Bull. Math. Biophys., 9 (1947), 127—147. В этой статье, насколько нам известно, распознавание, инва- риантное относительно группы, впервые рассматривается с точки зрения интегрирования, т. е. суммирования предикатов по всей группе. Эта статья, статья Дж. Леттвина и др., а также некоторые ранние попытки перехода от локального к глобальному на основе схемных соединений простых в отдельности устройств, перепеча- таны в сборнике Маккаллок (McCulloch W.), Embodiments of mind, Cambridge, Mass., 1965. В этом сборнике помещена также статья Маккаллок У. С., Питтс У., Логическое исчисление идей, относящихся к нервной активности, сб. «Автоматы», ИЛ, М., 1956 (1943); в которой можно найти прототипы линейных пороговых функций. Читатели, незнакомые с этой теорией или с теорией машин Тью- ринга, найдут элементарное изложение этих вопросов в книге Минский (Minsky М.), Computation: finite and infinite machines, New York, 1967. В последние годы переход от локального к глобальному при- обрел главенствующую роль в ряде областей биологии. Наиболее характерным примером может служить общее направление ана- лиза поведения животных, которое связано с именем Тинбергена и отражено, в частности, в его классическом труде Тинберген (Tinbergen N.), The study of instinct, Oxford, New York, 1951. Если говорить о технических аспектах персептронов, то наша основная тема вообще не отражена в литературе. Нам неизвестно ни одной статьи, доказывающей, что нетривиальный персептрон не в состоянии решить некоторую задачу, а также ни одной статьи, в которой на основе математического анализа было бы показано, что можно построить персептрон для вычисления ка- кого-нибудь значительного геометрического предиката. Существует обширная литература, содержащая экспериментальные резуль- таты, однако последние, как правило, столь неубедительны, что мы лучше воздержимся от цитирования конкретных статей. Можно показать, что в подавляющем большинстве «успешных» на первый взгляд случаев исходные данные позволяют осуществить разделе-
Библиографический очерк 249 ние при помощи предиката первого порядка или даже конъюнктив- но локальное разделение! Во всех таких случаях авторы об этом не упоминают, хотя кажется непостижимым, чтобы они могли не заметить этого! Подход, наиболее близкий к нашему (хотя и достаточно отли- чающийся от него), изложен в работе Бледсоу, Броуиииг (Bledsoe W., Browning I.), Pattern recogni- tion and reading by machine, Proceedings of the Eastern Joint Computer Confe- rence, 1959, pp. 225—232. В статье Робертс Л. Дж., Распознавание изображений при помощи приспосабли- вающихся систем, Кибернетический сб. № 4, ИЛ, М., 1962 (1960), стр. 212—218; подчеркивается (этим фактом по непонятным причинам обычно пренебрегают), что частные предикаты работают лучше, если дей- ствительно соответствуют рассматриваемой задаче. В своей книге «Принципы нейродинамики» Розенблатт изучал вероятность, с которой персептрон, распознающий определенный класс фигур, будет также распознавать и другие фигуры, в неко- тором смысле подобные первым. В работе Розенблатт Ф., Обобщение восприятий по группам преобразований, сб. «Самоорганизующиеся системы», изд-во «Мир», М., 1964 (1960), стр. 65—112; он рассмотрел образы, инвариантные относительно группы, но не подошел достаточно близко к теореме об инвариантности относи- тельно групп и потому не получил убедительных результатов. К нашим отрицательным результатам и методам наиболее бли- зок анализ предиката ФЧЕТНость’ который проведен в монографии Дертоузос М., Пороговая логика, изд-во «Мир», М., 1967 (1965). Прочитав эту монографию, можно понять, Как оперировать с линейными пороговыми функциями, отвлекаясь от геометриче- ских аспектов персептронов. В частности, иногда бывает нужно знать коэффициенты пороговых функций (первого порядка); в до- казательстве теоремы § 10.1 мы использовали идею, изложенную в статье Майхилл, Котц (Myhill J., Kautz W.), On the size of weights re- quired for linear-input switching functions, IRE Trans. Elect. Comp., 10, № 2 (1961), 288—290. Коэффициенты предикатов первого порядка изучаются далее в работе Мурога, Тода (Muroga S., Toda I.), Lower bounds on the number of threshold functions, IEEE Trans. Elect. Comp., EC-15, № 5 (1966), 805—806. Полученные там результаты улучшают результат работы Мурога (Muroga S.), Lower bounds on the number of threshold func- tions and a maximum weight, IEEE Trans. Elect. Comp., EC-14, № 2 (1965), 136—148,
250 Библиографический очерк В этих двух работах обсуждается также и другой вопрос: какая часть булевых функций (от п переменных) оказывается функциями первого порядка. Насколько нам известно, аналогич- ная проблема для функций более высокого порядка в литературе не рассматривалась. В гл. 13 немного затрагивалась обширная область искусствен- ного мышления и эвристического программирования. Нам ка- жется, что именно в рамках этого направления следовало бы вести поиск перспективных идей, касающихся распознавания об- разов и обучения. Все, что известно в этой области, далеко не си- стематизировано, но можно порекомендовать несколько общих библиографических ссылок. Положение дел в этой области (до 1962 г.) отражено в сборнике статей «Вычислительные машины и мышление», под ред. Фейгенбаума Э. и Фельдмана Дж., изд-во «Мир», М., 1967 (1963). Более новые работы (в основном, диссертации), содержащие программы для ЭВМ, манипулирующие со словесными и символь- ными описаниями, представлены в сборнике Минский (Minsky М.), Semantic information processing, Cambridge, Mass., 1968. Каждый, кого интересует эта область искусственного мышле- ния, должен также знать классическую работу1) Ньюэлл, Шоу, Саймон (Newell A., Shaw J., Simon Н.), Report on a general problem-solving program, Proceedings of International Conference on Information Processing, UNESCO House, 1959, pp. 256—264. Программа, о которой говорилось в гл. 13, подробно описана ее автором в статье Размен (Guzman A.), Decomposition of a visual scene into bodies, Pro- ceedings of the Fall Joint Computer Conference, 1968. Наконец, следует упомянуть две ранние работы, оказавшие достаточно глубокое влияние на развитие кибернетики. Необы- чайно простое понятие гомеостата (§ 11.6) описано в монографии Э ш б и У. Р., Конструкция мозга, ИЛ, М., 1962 (1952). Эшби рассматривал только очень простые машины, и впервые эта тема была изложена четко и ясно. В другую крайность, по- видимому, ударился Хебб в своей книге Хебб (Hebb D.), The organization of behavior, New York, 1949. Он дал набросок иерархии понятий, предлагаемых для объяс- нения глобальных состояний в терминах чрезвычайно локальных ') Более поздние работы этих авторов, посвященные общей программе ре- шения задач, переведены на русский язык в сборниках «Вычислительные машины и мышление», изд-во «Мир», М., 1967, и «Вычислительные устройства в биологии и медицине», изд-во «Мир», М., 1967. — Прим, перев.
Библиографический очерк 251 нейронных событий. Хотя до окончательной детальной разработки это начинание не было доведено, для многих исследователей схема Хебба послужила поворотным пунктом в переходе от поиска един- ственного простого принципа организации мозга к более реалисти- ческим попыткам построения иерархий принципов (или, скорее, гетерархий, т. е. иерархий разнородных принципов, на чем на- стаивал Маккаллок), которые могли бы дать основу вычислениям, необходимым для мышления. Примечание редактора Поскольку отечественные работы, в той или иной степени от- носящиеся к теме этой книги, полностью выпали из поля зрения авторов, следует упомянуть следующие основные публикации. Возможностям обучения и самообучения простых дискретных персептронов посвящен ряд работ академика В. М. Глушкова, в частности: Глушков В. М., Теория обучения одного класса дискретных персептро- нов, ЖВМиМФ, 2, № 2 (1962); Глушков В. М., К вопросу о самообучении в персептроне, ЖВМиМФ, 2, № 6 (1962). Эти же вопросы рассмотрены в монографии Глушков В. М., Введение в кибернетику, изд-во АН УССР, Киев, 1964. Теории обучения распознающих систем, подобных персептрону, посвящены работы: Айзерман М. А., Браверман Э. М., Розоноэр Л. И., Теоретические основы метода потенциальных функций в задаче об обучении автоматов разде- лению входных ситуаций на классы, Автоматика и телемеханика, 25, № 6 (1964); Айзерман М. А., Браверман Э. М., Розоноэр Л. И., Вероятност- ная задача об обучении автоматов распознаванию классов и метод потенциаль- ных функций, Автоматика и телемеханика, 25, № 9 (1964). В этих работах процесс обучения рассматривается как аппрок- симация решающей функции (понятие, аналогичное изучаемым в этой книге предикатам) с помощью функциональных рядов. Большой интерес представляют работы В а п н и к В. Н., Лернер А. Я., Ч е р в о н е н к и с А. Я., Системы обучения распознаванию образов при помощи обобщенных портретов, Изв. АН СССР, Техническая кибернетика, I (1965); В а п н и к В. Н„ Лернер А. Я., Ч е р в о н е и к и с А. Я., Об одном классе персептронов, Автоматика и телемеханика, 25, № 1 (1964). Здесь, в частности, предложены эффективные алгоритмы раз- деления точечных множеств гиперплоскостями и исследованы воп- росы сходимости этих алгоритмов. Теоретические и экспериментальные исследования, близкие по духу к работам М. А. Айзермана и его соавторов, представлены в работах:
252 Примечание редактора Якубович В. А., Некоторые общие теоретические принципы построения обучаемых опознающих систем, сб. Трудов семинара «Проблемы расширения возможностей автоматов», изд-во ИАТ (ТК) АН СССР, 1965; Якубович В. А., Машины, обучающиеся распознаванию образов, сб. «Ме- тоды вычислений», ЛГУ, 1963; Якубович В. А., Три теоретические схемы обучаемых опознающих -си- стем, сб. Трудов III Всесоюзн. совещ. по автом. управл. (техн, киб.), нзд-во «Наука», М., 1967. Можно было бы продолжить этот список важных и интересных исследований советских авторов в области распознавания образов, но мы остановимся на этом, так как остальные работы более да- леки от рассматриваемых в настоящей книге вопросов.
ИМЕННОМ УКАЗАТЕЛЬ Агмон (Agmon S3 176, 246 Айзерман М. А. 251 Армстронг (Armstrong W.) 244 Аттли (Uttley А. М.) 246 Мерилл (Marill ТЗ 239 Минский (Minsky М3 5, 6, 238. 246 247, 248 Мурога (Muroga S.) 249 Бейер (Beyer Т.)' 148, 182, 243, 244 Берд (Beard В.) 244 Блюм (Blum М.) 142, 244 Бледсоу (Bledsoe W. W.) 238, 244, 249 Блок (Block Н. D.) 247 Болл (Ball G.) 210, 212 Браверман Э. М. 251 Броунинг (Browning I.) 238, 249 Нильсон (Nilsson N.)' 182, 243, 247 Ньюэлл (Newell А.) 233, 250 Пальмиери (Palmieri G.) 246 Пейперт (Papert S.) 5, 6, 238, 247 Петерсон (Paterson М.) 95, 241, 244 Питтс (Pitts W.) 58, 102, 239, 247, 248 Вапник В. Н. 251 Визель (Wiesel Т.) 248 Размен (Guzman А.) 232, 250 Гамба (Gamba А.) 18, 227—230, 246 Гамбертини (Gambertini L.) 246 Глушков В. М. 251 Дертоузос (Dertouzos М.) 249 Кавер (Cover Т.) 212 Котц (Kautz W. Н.) 162, 249 Кларк (Clark W. А.) 246 Лайонс (Lyons L.) 244 Лернер А. Я- 251 Леттвин (Lettvin J. Y3 244 Ликлайдер (Licklider J. R.) 244 Робертс (Roberts L. G.) 244, 249 Розенблатт (Rosenblatt F.) 5, 10, 18, 25, 238, 245, 247, 249 Розоноэр Л. И. 251 Сазерленд (Sutherland I. Е.) 244 Саймон (Simon Н. А.) 233, 250 Санна (Sanna R.) 246 Сассмен (Sussman G.) 244 Селфридж (Selfridge О. G.) 180, 244, 247 Соломонов (Solomonoff R.) 244 Сэмюэль (Samuel А.) 208, 246 Тейлор (Taylor R. W.)' 244 Тинберген (Tinbergen N.) 248 Тода (Toda I.) 249 Уайт (White J.) 125, 242 Майхилл (Myhill J.) 162, 249 Маккаллок (McCulloch W. S.) 58, 102, 238, 239, 247, 248, 250 Матураиа (Maturana Н.) 247 Мейер (Меуег А.) 147 Фано (Fano R. М.) 244 Фарли (Farley В. G.) 246 Фейгенбаум (Feigenbaum Е. А.) 231, 250 Фелл (Fell Н.) 244
254 Именной указатель Фельдман (Feldman J.) 231, 250 Флойд (Floyd R.) 147 Хаффмен (Huffman D.). 82, 83, 115, 216, 240 Хебб (Hebb D. О.) 25, 250, 251 Хеннеман (Henneman W.) 244 Холл (Hall D.) 210, 212 Хьюбель (Hubei D. Н.) 248 Хьюитт (Hewitt С.} 142, 244 Червоненкис А. Я- 251 Шлезингер М. И. 213 Шоу (Shaw J. С.) 233, 250 Штраусс (Strauss D.) 80, 243, 244 Эфрон (Efron В.) 182, 243 Эшби (Ashby W. R.) 181, 246, 250 Якубович В. А. 252
предметный указатель Адаптивный 21, 25 Алгебраическая геометрия 69 Анализ объемных картин 106, 231—237 Ассоциативная память 8; см. также Смешанное кодирование байесовская процедура 193, 195, 196, 199—205 Безу теорема 69 Бесконечные группы 48, 52, 100, 102, 117 — множества 17, 32, 41, 100, 117, 160 Бионика 241 ближайшее соседство 194, 197— 199; см. также Соответствие наилуч- шее Близнецы 117, 129, 241 Вектор 165, 189 — решения 167 Векторных пространств теория 167 Вероятностей теория 20, 21, 167, 193— 209, 238 Вероятность см. Вероятностей теория Вес 16 — признака 203 Время, затрачиваемое на выполнение вычисления 138, 145—149, 214—221 Выпуклость 12, 13, 40, 106—107, 135, 143—144 Вычисление по приращениям 213, 224— 225 Вычислительная машина 230; см. также Программы Гёделя число 73 Геометрическое свойство 102 Гештальт 24—25 Гиперплоскость 20, 191, 195, 239 Глобальный 8, 23, 25, 241; см. также Локальный Гомеостат 181, 243 Группа вращений 46, 99, 102, 105, 123, 130 — переносов 45, 50, 99, 100, 104, 108, 117, 121—123, 126—127, 160 — перестановок 28, 44, 50, 59 — подобия 102 — преобразований 27, 28, 43, 45—48. 101, 117, 129—130 — растяжений 102, 126—127 Группы транзитивность 56, 58 Допустимые отклонения 75, 127, 136, 143 Дыра (в компоненте) 90 Забывание 207, 213 Замкнутый относительно группы 51, 240 Зеркальная симметрия 120 ИЗОДЕйТА 194, 210—213 Инвариант групповой 45 — топологический 73, 89, 95—98 (Интуитивное определение: любой предикат, не изменяющийся при де- формациях фигуры, которые не на- рушают ни свойств связности, ни отношений «внешний—внутренний» между ее элементами.) Инвариантный относительно переноса 50, 238 Интеграл 57, 74, 135 Искусственное мышление 231, 241; см. также Эвристическое программирова- ние Исправление ошибок 165 ИСТИНА 31 Квадрат геометрический 108, 125, 242 — элемент сетчатки 48, 74 Класс эквивалентности 49 Компактный 67, 161, 185
256 Предметный указатель (Бесконечные последовательности точек из компактного множества всегда сходятся к предельным точ- кам из этого же множества. Ком- пактными являются сферы и замк- нутые отрезки прямой. Понятие компактности рассматривается в лю- бой книге по топологии и по ана- лизу функций вещественных пере- менных, исключая разве лишь са- мые современные издания.) Компонента (связная) 90 Конечное число состояний 21, 142 Конечный порядок см. Порядок Контекст 101, 113—116 Контур замкнутый (петля обратной связи) 9, 147, 230 Конъюнктивная нормальная форма 82 Конъюнктивно локальный 13, 14, 15, 17 106, 108, 132, 144 Коэффициенты 32, 73, 100, 129, 160, 242 — величина 21, 23, 24, 120, 153—162 Кривизна 107, 135 Критика (работ по персептронам) 10, 20, 21, 22, 167, 181, 188, 241 Куча 191, 210. Линейная пороговая функция 32, 35 Логарифмический поиск 216 ЛОЖЬ 31 Локальный 8, 13, 16, 23, 76, 165, 234; см. также Глобальный Максимальное правдоподобие 199, 202; см. также байесовская процедура Маска 27, 36, 39, 155, 157, 239 Машина Тьюринга 141, 144 Мера 58, 227 — Хаара 58 Метрическое свойство 74 Многослойный 227, 231 Многочлен 29, 43, 60, 63, 66 Множество данных 189, 214 Момент 58, 102 НАИЛУЧШАЯ ПЛОСКОСТЬ 193 Наилучшее соответствие 220, 223 Независимость (статистическая) 200 Нейрон 208 Неограниченный 129 Неприводимая алгебраическая кривая 63 Неразделимость 181 Нормализация 120, 129 Носитель 32 Обратная связь 9, 164 Обучение 20, 21, 22, 24, 152, 163, 242, 243 Ограничения (налагаемые на персеп- троны) 11, 15, 18, 230 Ограниченного порядка (персептрон) 18 Ограниченный по диаметру 15, 18, 76, 107, 108, 133—137 Описание 232 Отношение правдоподобия 208 Оценки 105; см. также Вероятность Память 138, 143, 147, 214, 215; 242; см. также Обучение Параллельный 8, 9, 11, 22, 144—151, 230 240; см. также Последователь- ный Переключательная цепь 83, 240 Персептрон 18 Персептроны Гамбы 18, 227—230 Перспектива 234; см. также Трехмер- ные предикаты Площадь 57, 102, 132, 134 Повторная стратификация 124 Подъем на холм 165, 179, 243 ПОЛНОЕ ЗАПОМИНАНИЕ 189 Положительная нормальная форма 38, 39 Поощрение 163, 205, 213 Порог 16 Пороговая логика (название теории линейных пороговых функций) 61 Порядок 18, 35, 41, 59, 65, 81, 238— 240 Последовательный 23, 100, 130 139, 240 242 Предварительная обработка 46 Предикат 12, 31, 32 Предикатная схема 30, 41 Проверка четности см. Четность Программы 15, 20, 138—141, 166—169, 233 Прямоугольник 107, 132, 136 Разрешающая способность см. Допу- стимые отклонения Распознавание образов 120, 226, 241 Расстояние 192, 220 Самоорганизация 21, 25, 233 Связность 12, 14, 18—20, 72—98, 136, 151, 231, 237, 240 Сетчатка 70 Симметрия 120, 241
Предметный указатель 257 Слово-вопрос 188 Смежные квадраты 77, 90 Смешанное кодирование 190, 217—219 Соответствие наилучшее 220—223; см. также ближайшее СОСЕДСТВО — точное 214, 219; см. также Смешан- ное кодирование Спектр 80, НО, 136 Спектры переноса 108 Статистика см. Вероятностен теория Стоимость ошибок 205 Стратификация 117—130, 158, 226 Топология, топологический 15, 72, 73, 75, 89—98, 136—137, 240—241 Тор, тороидальный 23, 48, 83, 88, 100, 129 Точное соответствие см. Соответствие Транзитивная группа 56—58 Треугольник 132 Трехмерные предикаты 89, 151, 231 Физиология 20 Фильтр 227 Теорема 238 —и/или 40, 65, 89, 113, 227, 239 — об инвариантности относительно групп 28, 51—56, 100, 102, 104, 238— 240 — «один в-блоке» 62—64, 72, 78, 115 — о «зацикливании» 182—187 -----сжатии 80—82 -----сходимости персептрона 21, 166— 187, 242 Четность 59—62, 87, 153, 177, 229, 238, 240 Эвристическое программирование 232, 237 Эйлерова характеристика 73, 89, 135— 137, 241 Эквивалентность предикатов 50 — фигур 49, 117, 126
УКАЗАТЕЛЬ ОБОЗНАЧЕНИИ А* — решение или разделяющий век- тор 166, 169 Арегистрация 189 Ацоиск 189 Cj — класс стратификации 118 D — диаметр 132 F 31 F+ 167 F- 167 gT' 46 gX 46 G(X) 90 G-эквивалентность 49 hG 47 i* 139 I(X)—постоянная (=1) тождествен- ная функция 34 k, К используются для обозначения по- рядка персептрона или степени мно- гочлена £(Ф) 20, 33 Nt(X) 66, 111 R 11, 30 — число точек в R х — точка сетчатки R 30 х е= X 32, 36 X — рисунок, фигура, изображение (т. е. подмножество точек сетчатки R) 11, 30 йф—коэффициент частного предиката <р(Х) 16, 52 а(<р)—другое обозначение для Яф ф 11, 31 фм 37 ^ОКРУЖНОСТЬ 12 ^СВЯЗНОСТЬ 12' 13 ^ВЫПУКЛОСТЬ 12 ^ЧЕТНОСТЬ 41 ^СИММЕТРИЯ 120 <р — частный предикат 31 Фл(-¥)—предикат Г~ 4сХ”| 13 Ф — семейство предикатов 14, 16, 31 Ф,- — класс эквивалентности предикатов 55 Ф — вектор из семейства F Ф— единичный вектор 168 Л; 118 ©—булев предикат неэквивалент- ности (неравнозначности) 36 ss — булев предикат эквивалентности (равнозначности) 32, 36 Г “I — предикатные скобки 31
ОГЛАВЛЕНИЕ Предисловие редактора перевода......................................... 5 0. Введение...................................................7 0.0. О читателях..................................................7 0.1. Реальные, абстрактные и мифические вычислительные машины . 8 0.2. Математическая стратегия.....................................9 0.3. Кибернетика и романтика.....................................10 0.4. Параллельное вычисление.....................................11 0.5. Некоторые геометрические образы; предикаты..................11 0.6. Простое понятие «локального»................................13 0.7. Некоторые другие понятия локального.........................15 0.8. Персептроны ................................................16 0.9. Привлекательные стороны персептронов........................20 0.10. Общий план книги............................................26 I. Алгебраическая теория линейных параллельных предикатов...............27 Предисловие к части I.............................................27 Г тава 1. Теория линейных булевых неравенств............................30 1.0 30 1.1. Обозначения и определения 30 1.2. Функции, линейные относительно класса предикатов 32 1.3. Понятие порядка 35 1.4. Маски и другие примеры линейного представления 35 1.5. Теорема о положительной нормальной форме 38 1.6. Предикаты конечного порядка 4] Глава 2. Инвариантность булевых неравенств относительно групп .... 43 2.0 43 2.1. Пример: Коэффициенты, усредненные по симметрии 43 2.2. Классы эквивалентности изображений и предикатов 49 2.3. Теорема об инвариантности относительно групп 51 2.4. Тривиальность инвариантных предикатов порядка 1: первое при- менение теоремы об инвариантности относительно групп .... 56 Глава 3. Предикаты «четность» и «один-в-блоке»..........................59 3.0...............................................................59 3.1. Функция, определяющая четность...............................59 3.2. Теорема «один-в-блоке».......................................62 Глава 4. Теорема «и/или»................................................65 4.0 65 4.1. Леммы 65 4,2. Применение теоремы Безу 69
260 Оглавление 11. Геометрическая теория линейных неравенств...................... 72 Введ ение в часть II............................................72 Пред ставление геометрических образов...........................74 Глава 5. Предикат Фсвязность: геометрическое свойство неограниченного порядка ..............................................................76 5.0. Введение ....................................................76 5.1. Теорема о связности..........................................77 5.2. Пример.......................................................78 5.3. Связность на основе рассечения...............................80 5.4. Сведение одного персептрона к другому........................80 5.5. Построение предиката Фсвязность п0 Хаффмену...............82 5.6. Связность на тороидальной сетчатке....................... . 83 5.7. Лучшая граница для предиката Фсвязность на плоскости . . 84 5.8. Топологические предикаты.....................................89 5.9. Топологические ограничения персептронов......................95 Глава 6. Геометрические образы малого порядка: спектры и контекст ... 99 6.0. Введение к главам 6 и 7......................................99 6.1. Геометрические образы порядка 1.............................102 6.2. Образы порядка 2, спектры расстояний......................102 6.3. Образы порядка 3............................................106 6.4. Образы порядка 4 и выше.....................................110 6.5. Теоремы о спектральном распознавании.........................НО 6.6. Фигуры в контексте..........................................113 Глава 7. Стратификация и нормализация.................................117 7.1. Эквивалентность фигур......................................117 7.2. Теорема о стратификации....................................118 7.3. Приложение 1. Симметрия на прямой..........................120 7.4. Приложение 2. Конгруэнтность при переносе вдоль прямой . . 121 7.5. Приложение 3. Перенос на плоскости.........................123 7.6. Повторная стратификация...................................124. 7.7. Приложение о. Квадраты со сторонами, параллельными осям координат .....................................................125 7.8. Приложение 6. Фигуры, эквивалентные относительно переноса и растяжения.....................................................126 7.9. Эквиваленты данной фигуры..................................128 7.10. Кажущийся парадокс.........................................129 7.11. Проблемы .................................................1'29 Глава 8. Персептрон, ограниченный по диаметру . ......................131 8.0..............................................................131 8.1. Положительные результаты ...................................131 8.2. Отрицательные результаты ...................................133 8.3. Интегральные инварианты, ограниченные по диаметру...........135 8.4. Доказательство единственности эйлеровых инвариантов для пер- септронов, ограниченных по диаметру.............................136 Глава 9. Геометрические предикаты и последовательные алгоритмы . . .138 9.0. Связность и последовательные вычисления.....................138 9.1. Последовательный алгоритм проверки связности................139 9.2. Вариант алгоритма проверки связности для машины Тьюринга . 141 9.3. Требования к ленточной памяти в случае предиката Фвыпуклость*4^ 9.4. Связность и параллельная техника............................144 9.5. Связность в итеративных массивах . , 148
Оглавление 261 111. Теория обучения..................................................152 Предисловие к части III.........................................152 Глава 10. Величина коэффициентов......................................153 10.1. Коэффициенты предиката, определяющего четность.153 10.2. Коэффициенты могут расти с ростом IRI даже быстрее, чем экспоненциально ................................................ 155 10.3. Предикат с максимально возможными коэффициентами . . . 158 10.4, Теорема об инвариантности относительно групп и ограниченные коэффициенты иа бесконечной плоскости............................160 Глава 11. Обучение....................................................163 11.0. Введение ................................................163 11.1. Теорема о сходимости персептрона.........................166 11.2. Доказательство теоремы о сходимости......................170 11.3. Геометрическое доказательство (факультативно)............172 11.4. Другие варианты теоремы о сходимости.....................176 11.5. Приложение. Обучение предикату Фчетность.................. 11.6. Процесс обучения, рассматриваемый как подъем на холм . . 179 11.7. Персептроны и гомеостаты.................................181 11.8. Случай неразделимости....................................181 11.9. Теорема о «зацикливании» персептрона.....................182 11.10. Доказательство теоремы о «зацикливании»..................183 Глава 12. Линейное разделение и обучение..............................188 12.0. Введение .................................................188 12.1. Информационный поиск и индуктивный вывод..................188 12.2. Многообразие алгоритмов классификации.....................192 12.3. Эвристическое описание методов линейного разделения . . . .194 12.4. Решения, основанные на вероятностных значениях предикатов 199 12.5. Алгоритмы Арегистрация Для процедуры изодейта .... 210 12.6. Взаимосвязь затрат времени и памяти при проверке точного со- ответствия ......................................................214 12.7. Взаимосвязь затрат времени н памяти при определении наилуч- шего соответствия: нерешенная проблема...........................220 12.8. Вычисления по приращениям.................................224 Глава 13. Персептроны и распознавание образов.........................226 13.0. Введение..................................................226 13.1. Персептроны Гамбы и другие многослойные линейные машины . 227 13.2. Другие многослойные машины................................230 13.3. Анализ картин окружающей действительности.................231 13.4. Газменовский подход к анализу объемных картин.............233 13.5. Зачем доказывать теоремы?.................................238 13.6. Источники идей и их развитие..............................238 13.7. Вычислительная геометрия..................................243 13.8. Благодарности ............................................244 Библиографический очерк...............................................245 Именной указатель.....................................................253 Предметный указатель................................................ 255 Указатель обозначений ............................................... 258
УВАЖАЕМЫЙ ЧИТАТЕЛЬ! Ваши замечания о содержании книги, ее оформлении, качестве перевода и другие просим присылать по адресу: Москва, И-278, 1-й Рижский пер., д. 2. Издательство «Мир»,
М. Минский, С. Пейперт ПЕРСЕПТРОНЫ Редактор Л. Б. Штейнпресс Художник А. Г. Антонова Художественный редактор В. И. Шаповалов Технический редактор Г. Б. Алюлина Корректор Н. И. Баранова Сдано в набор 19/Х 1970 г. Подписано к печати 2/IV 1971 г. Бум. кн. жури. 60X90716=8.25 бум. л. 16,5 печ. л. Уч.-нзд. л. 14,39. Изд. № 1/5607 Цена 1. р 35 к. Зак. 837 ИЗДАТЕЛЬСТВО «МИР» Москва, 1-й Рижский пер., 2 Ордена Трудового Красного Знамени Ленинградская типография № 2 имени Евгении Соколовой Главполиграфпрома Комитета по печати при Совете Министров СССР Измайловский проспект, 29
В ИЗДАТЕЛЬСТВЕ «МИР» в 1972 г. выйдет в свет книга Бенерджи Р. Теория решения задач. Подход к созданию искусственного интеллекта. Нью-Йорк, 1969, перев. с англ., 12 л. В книге сделана попытка аксиоматически построить теорию искусственного интеллекта. Используя аппарат алгебры и элемен- тарные теоретико-множественные понятия, автор с единых позиций описывает задачи и методы решения, возникающие в различных об- ластях умственной деятельности. Особое внимание уделено соб- ственно теории решения задач, в частности, стратегиям поиска ре- шений, теории игр двух лиц и проблемам, связанным с распознава- нием образов и обучением понятиям. Книга представляет интерес для математиков различных специальностей, а также для научных работников и инженеров, за- нимающихся теорией управления, распознаванием образов и проб- лемами программированного обучения. Она доступна студентам старших курсов. На книги, которые Вы желаете приобрести, оставьте в книжном магазине предварительный заказ. Своевременно оформленный заказ гарантирует приобретение нужной Вам литературы.