Текст
                    

Б 79 Ж 'ЫСШЕЕ ПРОФЕССИОНАЛЬНОЕ ОБРАЗОВАНИЕ /'lU Н.Н.ЛЕОНТЬЕВА АВТОМАТИЧЕСКОЕ ПОНИМАНИЕ ТЕКСТОВ СИСТЕМЫ, МОДЕЛИ, РЕСУРСЫ Москва ACADEMA 2006
УДК 800(075.8) ББК 81.1Я73 Л478 Рецензенты: доктор филологических наук, профессор, зав. кафедрой лингвистической семантики Московского государственного лингвистического университета Б. Ю. Городецкий'. доктор филологических наук, профессор, главный научный сотрудник Института русского языка им. В.В.Виноградова РАН В. М. Андрющенко Леонтьева Н. Н. Л478 Автоматическое понимание текстов: системы, модели, ресурсы: учеб, пособие для студ. лингв, фак. вузов / Нина Ни- колаевна Леонтьева. — М.: Издательский центр «Академия», 2006.-304 с. ISBN 5-7695-1842-1 Учебное пособие обобщает опыт создания отечественных и зарубеж- ных систем, реализующих автоматическое понимание текстов. Эти слож- ные «интеллектуальные» системы выделяются из множества систем, в которых просто используется автоматическая обработка текста, посколь- ку автора интересует именно качественный аспект понимания. Рассмот- рены те компоненты процесса АПТ, которые могут быть заданы в вер- бальном виде. В основе пособия — идея «мягкого» понимания текста; пред- ставлена экспериментальная лингвистическая система ПОЛИТЕКСТ, осу- ществляющая гибкое соединение лингвистических и предметных знаний. Для студентов лингвистических факультетов вузов. Может быть реко- мендовано для тех, кто интересуется искусственным интеллектом, струк- турной и прикладной лингвистикой, информатикой. УДК 800(075.8) ББК81.1я73 Оригинал-макет данного издания является собственностью Издательского центра «Академия», и его воспроизведение любым способом без согласия правообладателя запрещено ISBN 5-7695-1842-1 © Леонтьева Н. Н., 2006 © Издательский центр «Академия», 2006 Донецкая го«_» дажгвьнная ом> ммчмая бнвлиотиа М. 4.К Круягдсй
ПРЕДИСЛОВИЕ В данном учебном пособии прослежен лингвистический аспект учебной дисциплины «Автоматическая обработка текстов» (АОТ). 11а примере некоторых представительных систем и моделей рас- сматриваются компоненты, из которых складывается полный цикл процесса автоматического понимания текста (АЛТ), и лингвисти- ческие ресурсы, необходимые для его компьютерной реализации. На фоне беглого изложения разных подходов к решению лингви- стических проблем построения систем АПТ даются развернутые иллюстрации из авторских работ. Рассматриваются отдельные труд- ные участки процесса АПТ. Такой жанр обсуждения с читателем трудностей, а не сообщения готовых истин вполне оправдан, так как в проблемной области под названием АПТ еще слишком ве- лик разброс мнений по ее ключевым проблемам: так, не сформи- ровалось единого взгляда на природу метаязыка (интерлингвы), на котором желательно представлять содержание любого текста; не определен статус баз знаний; нет согласия в том, что считать собственно семантическим компонентом понимания и где грани- цы его компетенции, и т.д. В книге представлен авторский взгляд на состав и роль се- мантического компонента как наиболее содержательного участка компьютерного понимания, определяющего функции всех ос- тальных. Опыт преподавания различных прикладных дисциплин на отделениях структурной и прикладной лингвистики (курс «Ин- форматика» на факультете совершенствования переводчиков МГПИИЯ, основные и спецкурсы в РГГУ и МГУ по прикладной семантике, информационному анализу текста, системам генера- ции текстов, словарям для систем АПТ и др.) убедил автора в том, что студентов интересуют не столько уже реализованные системы (индексирования, поиска, морфологического анализа, коррекции ошибок и т.п.), сколько вопросы о том, как повысить уровень понимания текстов в прикладных системах. При тестиро- вании программ синтаксического анализа после ввода фраз типа Дети пошли в школу студенты быстро переходят к очень сложным примерам, нащупывая слабые места парсинга (синтаксического анализатора) или системы машинного перевода. Им мало интере- сен вывод Петя поглощает яблоки (значит) Мальчик ест фрук- ты, а ведь даже такие простые выводы требуют введения сложных семантических данных в систему АПТ. 3
Однако можно задать множество тонкостей и деталей своей (лингвистической или переводческой) науке, но не владеть ис- кусством синтеза этих знаний в практических компьютерных за- дачах из-за отсутствия цельного взгляда на комплекс проблем, связанных с содержательной обработкой «живых» текстов и мас- сивов. Поэтому пособие адресовано в основном тем из студентов, лингвистов и программистов, кто ищет новые интересные реше- ния трудных семантических проблем, а тем более возможности их реализации. Не последняя задача данного учебного пособия — выз- вать интерес молодых специалистов к гибкому включению линг- вистической теории в проектирование компьютерных интеллек- туальных систем. Структура книги. В главе 1 обосновывается теоретическая мо- дель, которая легла в основу учебной экспериментальной систе- мы ПОЛИТЕКСТ. Стержень, на котором держатся излагаемые частные реше- ния, — это идея «мягкого» понимания текста. Коротко, она выра- жается в том, что один и тот же текст допускает разные результа- ты понимания в зависимости от разных условий и составляющих процесса понимания. Лингвистический характер системы и всех ее механизмов состоит в том, что мы всегда имеем дело со срав- нением и преобразованием текстов и текстовых структур. Совокупность «текстов» (в широком смысле, включая тезауру- сы и списки, текст либо структуру вопроса и лексикон баз дан- ных), вовлеченных в сеанс получения информации из заданного источника, образует информационное пространство (ИнфПрост) текста. Минимальный состав ИнфПрост — сам анализируемый текст и «встречный» текст (например, текст вопроса), в единицах которого должны пониматься исходный текст и строиться инфор- мация. Каждый уровень понимания имеет свою сферу действия и вы- членяет специфические для данного уровня единицы. Глава 2 посвящена краткому описанию традиционных систем автоматического, или машинного, перевода (МП). Это первая наиболее полная разновидность АПТ-систем. Принятое нами рас- ширение стандартной переводческой модели стало основой сис- темы ПОЛИТЕКСТ и схемы мягкого понимания. Главы 3, 4, 5 и 6 освещают конкретные аспекты разработки экспериментальной лингвистической системы ПОЛИТЕКСТ, которая ответственна за гибкое соединение лингвистических и предметных знаний. Глава 3 описывает специфику анализируемых массивов текстов и работу первой подсистемы — графематиче- ского анализа. В главе 4 рассматриваются способы морфологиче- ского анализа, решения (в том числе нестандартные) задач лек- сического и морфологического этапов анализа и их представле- ний, а также те семантические проблемы, которые возникают 4
уже на двух ранних стадиях. Глава 5 освещает проблематику син- таксического анализа (СинАн) предложений. В составе предло- женной автором информационно-лингвистической модели (ИЛМ) синтаксис рассматривается как опора для понимания и поэтому может быть неполным. Объясняется механизм взаимодействия син- таксической и семантической структур, при котором построен- ные формально синтаксические связи интерпретируются в пер- вичном семантическом представлении (СемП), строятся семан- тические узлы, после чего можно вернуться к синтаксическому представлению (СинП) и достроить единицы СинП, уточнив их как члены предложения, аттестованные семантически (как об- стоятельства места, времени и т.п.). Глава 6 подробно разбирает состав и функционирование семантического компонента систе- мы в составе ИЛМ. Это только локальный (в пределах каждого отдельного предложения) анализ, но он вводит свой метаязык, с помощью которого строятся все дальнейшие семантические представления. Семантический компонент — центральная часть информаци- онно-лингвистической модели, объясняющей мягкое автомати- ческое понимание текста. Он обеспечивает функции многомерно- го, неоднозначного, неполного, выборочного и других видов ес- тественного понимания. Его основное назначение — справляться с разноязычием, которое может быть естественно-языковым (на- пример, английский текст — русский реципиент), профессио- нальным, проблемно-ориентированным (поскольку каждая пред- метная область или задача вводит свой профессиональный язык) и ценностным (у каждого реципиента свои информационные ус- тановки и ценности, «в пользу» которых может строиться СемП). Последовательность всех локальных интерпретаций единиц тек- ста в виде семантического пространства (СемПрост) текста — пер- вая реальная, строящаяся программно, а не только теоретически целотекстная структура. Описанный в главе 7 процесс создания глобальной структуры текста сводится с технической точки зрения к устранению свойств неидеальности СемПрост текста. Это устранение избыточности, уточнение отношений иерархии, устранение единиц, получив- ших в ходе анализа малый информационный вес, и др. Основная содержательная операция глобального анализа — синтез новых единиц типа СИТ (ситуация). Высшей единицей, представляю- щей текст во внешней среде, предложено считать текстовый факт (ТФ). Это и лингвистическая единица, и кандидат на включение в базу знаний определенной предметной области (ПО), т.е. объект, традиционно относящийся к экстралингвистическим единицам. Лишь на глобальной структуре могут проводиться важнейшие процессы сравнения содержания разных текстов, приводящие к построению «текста информации». Это структура, получаемая в 5
результате «вычитания» СемП вопроса из СемП текста, из кото- рой можно сгенерировать текст ответа пользователю. В главе 8 показано несколько способов структурирования спе- циальных знаний, характеризующих ту или иную предметную область. В основном это массивы предметной, энциклопедиче- ской информации, собранные в базы данных (БД). Это и словари терминов данной ПО, и БД, в которые включены имена и описа- ния разных спецобъектов в их иерархических связях. Подробно описан Тезаурус общественно-политической терминологии (Ру- Тез), являющийся главным компонентом действующей системы РОССИЯ как инструмент индексирования, рубрицирования и ин- формационного поиска. Все описанные в главе 8 системы иллюстрируют не только спо- собы представления специальных знаний, но и разные приемы смыслового сжатия текста. Глава 9 посвящена описанию нескольких информационных процессов, родственных процедуре автоматического сжатия тек- стов. Это системы индексирования, рубрицирования, аннотиро- вания и реферирования; к получаемому результату обычно до- бавляют элемент квази-, квазианнотация, квазиреферат и т.д. Ос- новную роль в этих процессах играет морфологический, статисти- ческий и терминологический анализ. Эти работы очень важны, так как они имеют дело с естественным входным материалом (дей- ствительно значительно сжимая его), с естественным пользовате- лем, а главное, они надолго определили методику работы с мас- сивами текстов. Как и системы машинного перевода, они проло- жили путь следующим более интеллектуальным системам АПТ (потенциал которых, однако, еще не реализовался), это системы Information Extraction (IE), text mining, data mining, knowledge discovery, knowledge aquisition и др. В общем виде их задача состоит в извлече- нии частичных знаний из больших массивов текстов, т.е. в обна- ружении таких фрагментов текста, которые отвечают заданной информационной установке и могут быть помещены в формат баз данных. Глава 10 кратко описывает системы генерации текстов (СГТ) и содержит обзор проблем, встающих при синтезе информации из разных типов баз данных и представлении результатов в виде естественных текстов (ЕТ). СГТ обеспечивают автоматическое по- рождение связных текстов на естественном языке (ЕЯ). Основой для работы СГТ могут служить разнообразные семантические и концептуальные структуры, в частности базы данных и знаний, из которых пользователь хочет извлечь интересующую его инфор- мацию уже в словесном виде. Те параметры текста, которые нужно учитывать при генера- ции, обостряют требования к семантическому анализу и форми- рованию его результатов. 6
По сути дела, СГТ — это вторая часть того подхода, который принят в системах АПТ типа «перевод-реферат на основе базы знаний». Глава 11 завершает рассмотрение систем и методов АПТ ав- торским эскизом такой интегральной информационно-перевод- ческой системы, работа которой состоит в постоянном наполне- нии Базы текстовых фактов (БТФ). «Текстовой» она названа не только потому, что создается при анализе текстов и включает те знания, которые несет конкретный текст, но и потому, что зна- чения ее полей могут быть заполнены свободным текстовым ма- териалом, не скованным заранее заданными форматами в ос- новном количественного характера, как в стандартных БД. БТФ собирает информацию из текстов общего пользования и гумани- тарного характера. В качестве примера были проанализированы тексты СМИ, дана иллюстрация возможных результирующих записей в такой БТФ. Архитектура БТФ позволяет использовать ее в разных прикладных задачах: реферирования, перевода, ин- формационного поиска и обобщения данных, синтеза на ее ос- нове других частных баз данных, генерации новых текстов и т. п. В задаче построения БТФ и производных от нее «продуктов» и подсистем должны быть использованы все наработанные к на- стоящему моменту и охарактеризованные в данном пособии линг- вистические ресурсы. Глава 12 дает представление о комплексе словарей, обслужи- вающих систему АПТ полного состава (от ЕТ до получения Ин- формации адресатом). Последовательность процедур анализа дол- жна обслуживаться комплексом соответственно ориентированных словарей, каждый из которых имеет дело со специфическими для данного уровня единицами и информацией к ним. Подробно опи- сан основной инструмент семантического анализа текста в систе- ме ПОЛИТЕКСТ — словарь РУСЛАН, поскольку состав полей этого словаря близок к универсальному. Он содержит исчерпыва- ющую лингвистическую информацию, сведения об энциклопе- дических и информационно-тезаурусных связях слов, а также дан- ные, позволяющие строить единицы типа Ситуация и настраивать словарь на разные задачи. Описание слов в словаре ведется «сверху вниз», в соответствии с уровнями лингвистического анализа. Ос- новная направленность разрабатываемой версии РУСЛАНа — обес- печить построение Базы текстовых фактов для заданного массива русских текстов. Продолжением этого общеязыкового словаря являются спецсловари того типа, который описан в главе 8. Глава 13 называет те лингвистические ресурсы, на которые может опираться любая система АПТ (reusable resources), к их чис- лу относятся массивы одно- и двуязычных общих словарей, тер- минологических словарей и тезаурусов. Но главным ресурсом счи- таются большие корпуса собственно текстов, их изучением зани- 7
мается новая дисциплина «Корпусная лингвистика». Хотя она и не имеет непосредственного отношения к системам АПТ, но пользуется многими ее плодами, например, создавая специаль- ные производные корпуса аннотированных текстов. О литературе. В конце каждой главы дана рекомендуемая лите- ратура по теме. Не все источники имеют одинаковую ценность, так как в АПТ как дисциплине рано ставить хотя бы временную точку. Скорее, это перечень источников, на основании которых сложились авторские обобщения. Работы не делятся на обязатель- ные и факультативные, в списках к разным главам возможны по- вторы. Для учебных целей достаточно выборочного знакомства с двумя-тремя публикациями по каждой теме. В качестве рекомен- дуемой литературы приводятся и работы, которые были выпол- нены в ранний период довольно идеалистических представлений о возможностях компьютеров, но и в старых работах можно найти иногда добротные и полезные решения по лингвистическому обес- печению систем АПТ. Частые ссылки на работы автора объясня- ются жанром (обобщение спецкурсов) и доступностью собствен- ного материала, иллюстрирующего идею книги. Вопросы по всем главам, необходимые в жанре пособия, рас- положены перед приложением. * * * Хочу поблагодарить заведующего кафедрой теоретической и прикладной лингвистики РГГУ С. И. Гиндина за идею изложить основные положения спецкурсов в виде отдельного пособия. Ряд семантических положений докладывался и обсуждался на семи- нарах под руководством А. И. Новикова в Институте языкознания РАН. Книга была прочитана рецензентами В. М. Андрющенко и Б. В. Городецким, а также С. Е. Никитиной, заострившей ряд ин- тересных теоретических вопросов, и Н. В. Перцовым, высказавшим замечания по главе 5. Всем им я признательна за поддержку жанра пособия (авторское обобщение подходов к созданию систем АПТ) и полезные советы и замечания. Выражаю благодарность Л. Н. Иор- данской, Р. Киттреджу, С.Ниренбургу и А.Я.Шайкевичу за по- мощь с современной литературой и материалами конференций, которые позволили следить за уровнем разработок по теме сис- тем АПТ. Моим коллегам по инициированной Т. Н. Юдиной ра- боте над системой ПОЛИТЕКСТ (программистам Ж. Г. Аношкиной, А. В. Сокирко и др., лексикографам М. Г. Шаталовой, Е.М.Сморгу- новой, С. Ю. Семеновой, А. С. Паниной, Е. В. Горелик, равно как всем участникам проектов прошлых лет — они названы в соответ- ствующих разделах книги) особое спасибо за преданность идее семантического анализа и вклад в конкретные результаты. Также я признательна руководству НИВЦ МГУ им. М. В. Ломоносова и сво- 8
им коллегам за поддержание обстановки, благоприятной для на- учных работ и полезных контактов со студентами. Студенты РГГУ тоже внесли лепту в развитие системы своим участием в дискуссиях и вводе словарных статей в БД Русский общесемантический словарь (РОСС), а также рядом курсовых и дипломных работ. В 2000—2001 гг. группой выпускников РГГУ была создана на основе проекта ПОЛИТЕКСТ пробная версия систе- мы МП с русского языка на английский ДИАЛИНГ, а затем и ее версия в сети Интернет (www.aot.ru). Она была выполнена на со- временном программистском уровне с добавлением этапа собствен- но перевода, с рядом изменений, с упрощением синтаксиса и др. В нем ценен семантический компонент, который берет на себя часть проблем, не решенных синтаксическим анализом, хотя си- стема и не была доведена до окончательного вида по экономиче- ским причинам. Без поддержки неформального коллектива рядом грантов рабо- та не могла быть проделана. Так, работы по проекту ПОЛИТЕКСТ велись при поддержке грантов Фонда Макартуров (до 1996 г.), а также Российского фонда фундаментальных исследований (РФФИ: 97-06-80093 и 99-06-80296а «Исследование информационных свойств естественного текста методом построения лингвистических струк- тур»). Работы по созданию компьютерной базы РОСС поддержива- лись также Фондом «Культурная инициатива» (в 1995 г.) и Рос- сийским гуманитарным научным фондом (РГНФ: 96-03-12103в) до конца 1999 г. В 2001 — 2004 гг. работы по ведению и развитию ав- тономной словарной базы, названной «РУСЛАН-1», поддерживал грант РГНФ (01-04-16252а). Следующий грант РГНФ 04-04-00185а выделен коллективу на поддержание работ по развитию и форма- лизации метаязыка семантических и концептуальных отношений.
ВВЕДЕНИЕ Автоматическая обработка или понимание текста? В предлагаемом учебном пособии сделана попытка обобщить опыт создания отечественных и зарубежных систем, реализующих автоматическое понимание текста. К ним относятся системы ма- шинного перевода, системы автоматического индексирования, системы информационного анализа массивов официальных доку- ментов и текстов СМИ, фактографические системы, системы общения на естественном языке с базами данных и знаний и дру- гие сложные интеллектуальные системы. Они выделяются из мно- жества систем, в которых просто используется автоматическая обработка текста, включающая техническое сжатие текста, сор- тировку слов по частоте, длине и т.п., любой статистический ана- лиз, исправление грамматических ошибок и другие частные зада- чи, а также различные исследовательские приемы работы с тек- стом, выполняемые на компьютере. Нас интересует не количе- ственный, а качественный аспект понимания. В системах АПТ дей- ствительно моделируются некоторые функции человеческого по- нимания, а общение с ЭВМ предполагает использование есте- ственного языка на входе и/или на выходе работы системы. Если некая система АПТ реализовала лишь один такт понимания, она должна хотя бы в модели объяснять весь цикл процесса, в кото- рый встраивается этот такт АПТ. В отличие от многих других сис- тем АОТ системы АЛТ обладают максимальным набором лингви- стических компонентов — это полные системы. В центре внимания — лингвистический аспект Подводя итоги полувековому опыту исследований и работ по автоматической обработке текста, приходится признать, что тех- нологии существенно опередили содержательный аспект: нарабо- тано очень много отдельных приемов и методов обработки тек- стов без объяснения их функционирования в составе целой систе- мы, понимающей текст. Конечно, естественные тексты слабо под- даются формализации, и поэтому во многих сложившихся и дей- ствующих подходах преобладают эмпирические решения. В пособии не ставилась задача рассмотреть все идеи и решения, которые были воплощены в какую-либо систему АПТ, но по воз- можности охвачено все разнообразие типов систем, включая сис- темы анализа и системы генерации текстов последних лет. Пест- 10
рую и неравномерную картину лингвистического обеспечения в разных системах (с учетом тенденций и провозглашаемых намере- ний авторов систем АПТ) мы сочли полезным «дотянуть» до це- лостной, связной модели, воссоздав некую идеальную систему общения человека с компьютером для получения важной для пользователя информации из массива естественных текстов. Лингвистическому обеспечению системы АПТ приходится брать на себя решение тех задач, которые поставлены теоретической лингвистикой последнего времени. Как включить в систему такие неформальные составляющие, как действительность, автор тек- ста, адресат текста? Лингвистическое решение состоит в том, что к рассмотрению принимаются лишь такие компоненты процесса АПТ, которые могут быть заданы в вербальном виде. Это означает, что они могут быть учтены системой, если они заданы в виде текстов или соотносимых с ними структур, поскольку лингвисти- ческое обеспечение системы оперирует только с текстовыми объек- тами. Начиная с семантического компонента системы мы вступаем в область мало изученного или неустоявшегося: ведь даже термин «семантическое представление» (СемП), который с легкой руки И. А. Мельчука вошел в обиход компьютерной лингвистики, по- нимается создателями систем АПТ неоднозначно, а такими поня- тиями, как представление знаний, теоретическая лингвистика вовсе не занималась, их определение, а также способы построе- ния обычно отдаются на откуп когнитологам и специалистам в определенных узких областях знаний. Между тем в такой важной и актуальной сфере, как автоматическое извлечение знаний из мас- сивов естественных текстов, трудно ждать успеха без серьезной лингвистической основы. Теория или модель должны учитывать все реалии процесса АПТ — от особенностей поступающего в си- стему массива текстов до представления результата понимания, выдаваемого пользователю. О модели В книге предложен один из вариантов цельной модели АПТ. Это модель «мягкого» понимания текста. Концепция АПТ, явля- ющаяся основой предлагаемого учебного пособия, отрабатыва- лась в процессе последовательных работ над разными типами си- стем, руководителем и непосредственным участником которых был автор. Как результат обобщения или как теоретическое обоснова- ние разных типов прикладных систем предложена абстрактная мо- дель, названная информационно-лингвистической моделью, в рам- ках которой прослеживаются по шагам все звенья автоматическо- го понимания ЕТ. Начиная с семантического компонента и далее проводится авторский взгляд на состав системы АПТ, намечают- 11
ся способы построения таких компонентов модели, как Инфор- мация и Смысл текста. Суть концепции состоит в объяснении (при- менительно к системе АПТ) такого естественного феномена, как неоднозначное восприятие текста, состоящего в том, что разные пользователи извлекают свою индивидуальную информацию и свой индивидуальный смысл из одного и того же текста. Для этого тре- буется соединить лингвистические механизмы понимания, стре- мящиеся к точности и сохраняющие эквивалентность при всех преобразованиях, с информационными, моделирующими устране- ние сведений, не нужных пользователю. В рамках принятой модели процесс анализа заканчивается по- строением множественной, или многомерной, структуры, в ко- торой представлены разные возможные прочтения заданного тек- ста. Неоднозначность (в широком смысле) мы считаем не досад- ной помехой в системе АПТ, но скорее конструктивным факто- ром, помогающим моделировать построение разных индивидуаль- ных интерпретаций текста, разных информаций и индивидуальных смыслов. Такая трактовка понимания противопоставлена жесткому соответствию «один текст — один смысл», где смыслом объявля- ется семантическое представление текста, т. е. одна, хотя и слож- ная, формула. В нашей модели понимания СемП, как бы его ни определять, — это еще не Смысл. Согласно предложенной модели компьютерного понимания именно во взаимодействии лингвистических уровней проявляется механизм смыслообразования; эта проблема представляется авто- ру необходимой составляющей также и теории лингвистической семантики. О проекте ПОЛИТЕКСТ Одна из установок пособия — подавать материал не как конг- ломерат разных возможных приемов анализа, а как последова- тельность или более сложное объединение частей (компонентов), выполняющих функционально различные задачи в составе едино- го механизма, имеющего заданную цель. Для этого рассматрива- ется учебная экспериментальная система, которой мы дали имя ПОЛИТЕКСТ, и большинство примеров приводится из этой не до конца реализованной системы автоматического понимания тек- стов на русском языке. В ее рамках иллюстрируются основные по- ложения информационно-лингвистической модели. ПОЛИТЕКСТ — это система? Слово «система» имеет в контексте компьютерной лингвисти- ки два значения. В первом значении это конкретный отлаженный и работающий на ЭВМ комплекс программ, выполняющий оп- 12
поделенную задачу, принимающий на входе данные в определен- ном формате, и т.д. Как правило, такой комплекс имеет полное узаконенное технологическое обеспечение, начиная от способа । юлучения входных данных и кончая установленным кругом пользо- вателей, с учетом требований которых этот комплекс создавался. Такой комплекс всегда имеет сопровождение, т.е. группу работ- ников, обеспечивающих его бесперебойное тестирование и функ- ционирование. В группу сопровождения обычно входят и авторы разработки, которые, во-первых, ответственны за концептуальную сторону системы, а во-вторых, получают полезные сведения о результатах работы, о том, как ее оценивают пользователи и т.д., — все эти сведения могут быть учтены для улучшения данной или при разработке следующей версии системы. «Система» в таком понимании имеет обычно собственное имя, чему мы знаем мно- жество примеров (системы машинного перевода СИСТРАН, АРИ- ЭЛЬ, ЭТАП, ФРАП, ЯРАП, ПРОМТ, а также ИПС: СКОБКИ, БИТ и др.). Во втором значении это слово не имеет конкретного денотата, а обозначает нечто целое, т. е. организованную по определенным законам совокупность, сложно организованный абстрактный ком- плекс, а потому требует указания при нем конкретной сущнос- ти, ср.: система взглядов, бухгалтерская система, система правил, взаиморасчетов и т.д. В этом абстрактном смысле система не имеет имени. Работы над проектом ПОЛИТЕКСТ велись с начала 1990-х гг. в рамках Центра информационных исследований (ЦИИ), который был учрежден в Институте США и Канады РАН (ИСКРАН). Преж- де чем реализовывать систему в первом значении, т. е. как дей- ствующее устройство, мы спроектировали систему во втором зна- чении этого слова — как систему установок и решений, позволя- ющих видеть проблему АПТ достаточно широко. Выросшая из одного корня, работа расслоилась на два потока: лингвистическое и тематическое (информационное) направления в анализе массивов политических текстов. По замыслу, они долж- ны были дополнять друг друга, а будущей системе было дано имя РОССИЯ. При переходе в НИВЦ МГУ было сохранено одно, ин- формационное, направление, ставшее университетской инфор- мационной системой РОССИЯ (УИС РОССИЯ). На основе лингвистической ветви проекта ПОЛИТЕКСТ в 2000—2001 гг. была создана пробная версия системы МП с рус- ского языка на английский ДИАЛИНГ, в которой реализован полный цикл понимания с семантическим компонентом, опира- ющимся на Русский ОбщеСемантический Словарь и построен- ный по его модели английский словарь [Сокирко, 2001]. В рассы- панном виде проект ПОЛИТЕКСТ продолжает жить и развивать- ся в составе разных коллективов и систем. 13
Использование в данном пособии термина «система» в первом значении не только естественно, но и удобно по ряду соображе- ний. Во-первых, в терминах «система», «подсистема», «модули», «процессоры», «словари», «базы данных» и т.п. современному читателю гораздо легче понимать и представлять себе строение этой будущей системы, а автору удобнее описывать ее. Во-вторых, конечной, пусть и отдаленной, целью всех работ является единая многоканальная система понимания текстов и автоматического извлечения информации из текстов. В-третьих, имя ПОЛИТЕКСТ (сложный, многослойный текст; много текстов в одном тексте) дает представление о главной презумпции используемой модели и реализованной части разработки: допущение неоднозначного понимания одного и того же текста (работа начиналась с анализа политических текстов) разными читателями/пользователями. Текст может быть понят с разной степенью подробности, с разными оценками, с разными фокусами внимания, с точки зрения раз- ных предметных областей. Для автоматических процедур это очень сложная задача, как минимум, она требует распараллеливания работы лингвистических процессоров и обмена результатами. Но предлагая авторский взгляд на те компоненты модели, для кото- рых нет пока хороших решений, мы считали необходимым рас- суждать с позиций строящейся и в принципе реализуемой систе- мы в первом значении (этим объясняется частое обозначение тако- го виртуального объекта словом, написанным с заглавной буквы: Система). И она должна уметь развиваться, чтобы обладать семан- тической силой, достаточной для полезного ее функционирова- ния. Даже в периоды вынужденной безработицы (отсутствие слож- ных и дорогостоящих экспериментов) уровень интеллектуальнос- ти системы АПТ должен повышаться; многие гипотезы могут быть проверены теоретически и «вручную». Место семантики От выбранной семантической модели зависят организация всех других компонентов, цели каждого из них. Поэтому проектирова- ние системы АПТ предлагается начинать «сверху вниз», опреде- лив сначала функции семантического компонента. В цепи стадий понимания текста ему принадлежит основная роль. При описании компонентов системы, предваряющих семантический анализ, внимание уделяется не столько технологическим и реализацион- ным аспектам обработки текстовых элементов, сколько роли каждого из них в осмыслении текста: уже начиная с графематиче- ского уровня каждый выделенный элемент имеет шанс попасть в целевые (т. е. семантические и концептуальные) структуры текста.
ГЛАВА 1 ВЗГЛЯД «СВЕРХУ» НА СИСТЕМЫ АВТОМАТИЧЕСКОГО ПОНИМАНИЯ ТЕКСТА § 1. Прикладная и теоретическая лингвистика Феномен человеческого понимания объясняет в первую оче- редь теоретическая лингвистика; ее роль возрастает, если объек- том понимания являются тексты на естественном языке. Если мы хотим какой-то из процессов понимания реализовать на ЭВМ, необходимо обращение к компьютерной лингвистике. Новая ветвь лингвистики — современная компьютерная линг- вистика (КЛ), или вычислительная лингвистика (ВЛ), или алгеб- раическая лингвистика (термин, используемый в Пражской шко- ле) — утвердилась, когда вошли в жизнь компьютеры и была осознана необходимость и возможность не только хранить, но и перерабатывать с их помощью большие массивы информации. ВЛ и КЛ включаются в более широкую дисциплину — Прикладная лингвистика (ПЛ) [см.: Баранов, 2001], или прикладное языко- знание [см.: Бондарко, Вербицкая, Мартыненко и др., 1996]. Из всех прикладных проблем мы будем рассматривать лишь решение задач, которые ставятся перед так называемыми «интеллектуаль- ными» системами автоматической обработки текста, реализую- щими автоматическое понимание текста. Если ниже мы использу- ем термины и сокращения ПЛ, ВЛ и КЛ, то в этом суженном смысле и как синонимы. При этом для обозначения дисциплины, занимающейся разработкой систем АПТ, ВЛ [см.: Демьянков, 1985; и др.] предпочтителен как более точный и неомонимичный (ведь аббревиатурой КЛ обозначается теперь и корпусная лингвистика (см. гл. 13). Термин «вычислительная лингвистика» принят также в книге Р.Шенка [см.: Шенк, 1980]. Чтобы создать общую модель процесса автоматического пони- мания, нужна теория, объясняющая, на какие кванты делится процесс понимания и какие именно звенья этого процесса мож- но передать автомату. Как же в этой новой теории взаимодейству- ют теоретическая и прикладная вычислительная лингвистика? Существенная часть понятий ВЛ совпадает с теми, которые использует современная теоретическая лингвистика (ТЛ) как на- ука о естественном языке, но многое приходится переопределять или уточнять. Ведь компьютерная лингвистика вынуждена форма- 15
лизовать все исходные понятия и все шаги их обработки. Наиболь- шие различия между ТЛ и ВЛ наблюдаются на первых, простей- ших уровнях анализа (так, понятие «слово» по-разному определя- ется в них и с формальной, и с содержательной точек зрения), а также на последних, когда появляются понятия «смысл», «ин- формация», «знание». Архитектура и общее строение системы АПТ часто зависят от того, как определены важнейшие лингвистиче- ские объекты. Системы АПТ развиваются быстрее, чем обеспечивающая их те- ория. Авторы систем АПТ слишком вольно пользуются словами смысл, знание, семантический анализ и другими, обозначающими высшие уровни понимания текста. Эти понятия затрудняется определить од- нозначно и теоретическая лингвистика, вернее, и ТЛ, и ВЛ дают много разных определений. Так, иногда разработчики могут назвать только морфологический анализ «смысловой обработкой» текста, но этому этапу АОТ нужно еще долго добираться до смысла. Поня- тие «смысл» вряд ли скоро получит формальный статус. Отношение к действительности является еще одним источни- ком расхождений ТЛ и ВЛ. Принятое в ТЛ определение значения как «отношения знака к действительности» неприменимо к ВЛ: в компьютер нельзя поместить никакой «фрагмент действитель- ности». Но это определение можно адаптировать, применив к «миру текстов» (кодов, знаков, адресов, структур, вычислительных опе- раций). Так, значение слова в системе АПТ — это либо тексты всех его словарных статей, либо часть текстовой структуры, соответ- ствующая одному из выбранных (или вычисленных системой) вариантов словарных описаний. Чтобы объяснить (и в дальнейшем ввести в Систему) назван- ные понятия из области семантики, необходимо включить в мо- дель АПТ некоторое воспринимающее устройство (ВУ), или ад- ресата информации, того, кому адресованы знания, информация и который увидит или не увидит «смысл» в продукте, созданном системой понимания текста. То же относится и к автору текстов, вводимых в ЭВМ для обработки. Эти сведения, равно как «момент речи», «знание» и т.д., есть те самые элементы действительно- сти, без обращения к которым трудно или невозможно объяснить многие собственно языковые и текстовые значения. Автор текстов, адресат текстов, их интересы и цели — это но- вые объекты, которые вошли в науку последних десятилетий. Эти составляющие человеческого понимания уже подробно описаны в ТЛ и даже образовали отдельную дисциплину «Прагматика». КЛ/ВЛ, которая тоже постепенно осваивает эти сложные поня- тия, предоставляет богатую экспериментальную базу для их тео- ретического осмысления и введения более глубоких, чем синтак- сис, уровней описания языка. Вопрос в том, как именно их мож- но ввести в систему. Полезные уточнения могут быть найдены в 16
опытах реализации цельных систем АПТ. Больше всего сейчас не- достает как раз моделей АПТ высших уровней. Итак, на вопрос Что же вычисляет вычислительная лингви- стика! хотелось бы услышать такой ответ: ВЛ вычисляет: а) Информацию, которую передает текст и массив; б) Смысл, который имеет эта Информация для данного (про- извольного) реципиента; в) Знание, которое адресат/реципиент может занести в свою или в заданную (произвольную) базу знаний; г) Краткое содержание анализируемого текста и т. п. Результатом работы системы АПТ могут быть разные интел- лектуальные продукты (в том числе и перевод на другой язык), свидетельствующие о том, что исходный текст в какой-то мере • был понят. Основной метод КЛ/ВЛ — построение действующих моделей, f а затем и компьютерных систем понимания текста. Самая простая ' схема системы автоматического понимания текста выглядит как I ' преобразование входного текста (Т1), имеющего своего автора, в \ , выходной текст (Т2), понятный адресату: ’ Автор —— Т1 —- Компьютер —— Т2 —— Адресат ПЛ/ВЛ/КЛ нуждается в собственной теории, объясняющей эти процессы. § 2. Что значит «автоматическое понимание текста» Прежде чем рассматривать основные этапы (или уровни) не- которой действующей модели понимания естественного текста, попробуем определить, что значит ЭВМ поняла текст. Мы опре- делим его через результат, который может или стремится постро- ить компьютер. Результат должен быть другим объектом, отличным от входно- го текста, т.е. Т2 отличается от Т1 (см. выше). Так, если мы ввели какой-то текст с клавиатуры в ЭВМ, а затем распечатали его на принтере, подключенном к этой ЭВМ, мы не считаем, что текст понят. Но если мы ввели текст на одном языке (скажем, англий- ском), а ЭВМ после работы системы выдала текст на другом язы- ке (например, русском), то можно уже говорить о понимании. Правда, тут важна степень понимания: если машина выдала та- кой нечленораздельный текст по-русски, который называют аб- ракадаброй, мы скажем, что она «ничего не поняла». Качество результата должен оценивать человек, а оценка всех промежуточ- ных структур — внутреннее дело самой Системы.
Но пока отвлечемся от качества конечного продукта, будем считать, что мы получаем приемлемые результаты, содержатель- но понятные адресату. О каких еще результатах машинного понимания, кроме авто- матического перевода, можно говорить сейчас? Будем считать, что машина поняла входной целый текст, если в результате она выдала сжатое изложение (реферат) этого текста. Машина поняла текст, если она может отвечать на вопросы к этому тексту. Машина поняла текст (например, описывающий какую-то картинку или схему), если она может по описанию на- рисовать эту картинку либо схему. Машина поняла текст, если она может описанные в тексте сведения (например, о занятости населения нашего города) изобразить в другой форме, например в форме таблицы. Машина поняла текст, если она может сравнить содержание двух разных текстов и сообщить, что в них общего и чем они различаются. Машина поняла текст, если в результате анализа одного, а тем более разных текстов она смогла извлечь такие знания, которые можно поместить в некую копилку чело- веческих знаний (базу знаний). Суммируем названные виды понимания: : На входе (Т1) На выходе (Т2) Естественный текст ---------— 1) текст перевода 2) реферат 3) ответы на вопросы 4) рисунок или таблица Рисунок или таблица --------— текст Несколько текстов ----------— результат сравнения: общее/разное фрагмент базы знаний Чтобы реализовать любой из этих видов понимания, нужно задать много исходных сведений: в виде лингвистических знаний, а также знаний предметных, принадлежащих той предметной об- ласти, к которой относится текст. Прежде всего лингвист должен подготовить исходные данные (словари, грамматики, алгоритмы) и сформулировать их так, чтобы их можно было перевести на язык программ, выполнение которых приведет к желаемому результату. Сообщить эти знания компьютеру, который понимает только язык машинных кодов, может программист, который выполняет функ- цию переводчика, создавая тексты программ. ЭВМ «поняла» текст программы, если она начинает выполнять заданные в программе действия, приводящие в итоге к хорошему или приемлемому Т2. В одном цикле перехода от входного текста к любому из пере- численных нами возможных результатов содержатся десятки та- ких преобразований. 18
Нас интересует, в какой мере за всеми этими переходами сто- ит единый механизм. Ведь чтобы придти к пониманию в конце цепочки, необходимо, чтобы на всех переходах (от уровня к уров- ню) также достигалось «понимание». Эту задачу отнесем к компе- тенции теории АПТ. § 3. Основные задачи и классы систем АПТ Вычислительная лингвистика еще не устоялась как научная дисциплина; ее методы, приемы, понятия оттачиваются в много- численных опытах создания разных систем АПТ. С одной стороны, машинные ресурсы сейчас так велики, что позволяют хранить в компактном виде все то, что человечество накопило в текстовом виде. С другой стороны, далеко не все тек- сты заслуживают того, чтобы их хранить в оригинале, и вычисли- тельные способности ЭВМ, а также интеллектуальный потенци- ал человека открывают возможность преобразовывать тексты со- всем в другой вид, не эквивалентный исходному, но зато или более краткий (аннотации, рефераты), или более удобный для дальнейшего использования в формальных системах (например, в форме баз данных, баз знаний). Конечно, в каждой культуре существует огромный класс худо- жественных произведений, которые являются национальным бо- гатством и которые всегда хранятся полностью, образуя полнотек- стовые базы данных. Так, в Институте русского языка Российской академии наук создан и наполняется Машинный фонд русского языка, где основную часть составляет Фонд художественных про- изведений [см.: Машинный фонд..., 1986]. Чтобы получить сведе- ния о том, каков словарный запас каждого автора, какие у него излюбленные слова и выражения, какие слова он ввел в обиход и в каких контекстах они встречаются, какие употребляемые им сло- ва вышли из обихода, и другие подобные сведения, не нужно про- сматривать все тексты подряд, достаточно запросить информацион- но-поисковую систему. Работу такой системы в значительной мере обеспечивает ВЛ, выполняя довольно простые функции, в основ- ном морфологического уровня (например, сводит все словоформы одного слова к его основному, словарному виду для последующего подсчета, сравнения и др.). Но если бы мы захотели сравнить два произведения по содержанию, потребовалась бы гораздо более слож- ная система, таких систем АПТ пока не существует. Есть и другие виды текстовых источников, которые требуют хранения полнотекстовых массивов. Это, например, все распоря- дительные документы (указы президента и постановления и рас- поряжения правительства) какого-либо государства, а также вся юридическая документация (законопроекты, законы, постанов- 19
ления и т.п.). Но именно необходимость постоянно обращаться к таким источникам ставит перед ВЛ более серьезные задачи, чем простое хранение. Задача ведения и поиска в таких массивах лежит на информа- ционной системе-, она должна уметь быстро найти все документы, в которых, например, рассматривается тема снятия с должности лиц высокого ранга или тема налогообложения на сверхприбыли и т. п. Такие задачи, как тематический анализ, решаются систе- мами автоматического индексирования и рубрицирования. Первые создают самые простые информационные структуры, называемые поисковым образом документа (ПОД); вторые относят все тексты массива к рубрикам, заданным как значимые для данной пред- метной области или для данного типа текстов. В таком массиве очень важно также быстро находить все те доку- менты, на которые явно или неявно ссылается анализируемый текст. Это означает, что массив должен быть снабжен гипертекстовой системой, хранящей связи между текстами и осуществляющей со- ответствующий поиск. В имеющихся системах гипертекстовые связи проставляются в основном человеком, но это очень трудоемкая задача, к тому же такой подход страдает субъективностью и разно- стильностью, поэтому развитые системы АПТ ищут способы авто- матического построения гипертекстовых связей. В этой актуальной задаче основная нагрузка ляжет на лингвистический аппарат. Что касается обработки научно-технической литературы и до- кументации, то здесь возникает много вопросов, относящихся к компетенции систем АПТ. Хранить в машинах все, что создано че- ловеком до сегодняшнего дня, не только очень громоздко, но и не нужно: ведь именно технические сочинения очень быстро устаре- вают, о них достаточно оставить внешнюю информацию: напри- мер, такой-то автор писал на такую-то тему или сделал такое-то открытие. Еще больше это относится к потокам сообщений обще- ственно-политического характера: их нужно сортировать на разные массивы по общим темам или источникам (регионам), из которых они получены, нужно сжимать содержательную информацию, фор- мализовать записи и помещать в базы данных и знаний, откуда система будет извлекать и выдавать ответы по запросам. Таким образом, в задачу автоматической обработки текстов входит и задача автоматического сжатия текстовой информации. Ее выполняют системы автоматического аннотирования и рефе- рирования. Этот класс информационных задач (не квазирефериро- вание, а смысловое сжатие текстов) значительно труднее назван- ных выше, он требует глубокого лингвистического анализа доку- мента, который должен выявить в конечном счете наиболее ин- формативные, наиболее важные части содержания текста. А это уже основная область интересов ВЛ. До настоящего решения та- кой задачи (т. е. до работы на произвольном корпусе текстов) ВЛ 20
еще не доросла, эта задача относится к компетенции сложных интеллектуальных систем АПТ. Системы искусственного интеллекта (ИИ), работающие с тек- ( говым материалом, опираются на такие компоненты, как базы данных и базы знаний. Они могут задаваться заранее, искусствен- но вводиться человеком и затем использоваться в автоматическом режиме анализа текста, построения выводов, рекомендаций и т.д. Гак они задаются в различных экспертных системах (например, в медицинских диагностических системах), которые могут опираться на сильную формальную логику, но, как правило, не используют лингвистический анализ. Другая разновидность систем ИИ рабо- 1ает с текстом как источником определенных предметных зна- ний, которые должны быть извлечены в ходе автоматического лингвистического анализа и собраны в структуры баз знаний. Си- стемы такого типа обычно имеют дело с ограниченным корпусом текстов. Эта задача безусловно относится к компетенции интел- лектуальных систем АПТ. С автоматически построенной структурой текстовых знаний связана задача автоматической генерации выходного текста. Сис- темы генерации текста — наиболее распространенный сейчас тип систем из класса АПТ. По этой парадигме строятся в настоя- щее время многие системы машинного перевода — это системы класса «МП на основе знаний». Лингвистические модели таких систем используют весь арсенал собственно лингвистических средств, а также заставляют разработчиков в срочном порядке ре- шать задачи, которые встали перед лингвистикой впервые (в основном это стыковка с предметными областями). Итак, вот перечень классов систем, содержательным центром которых является автоматическая обработка текста. 1. Хранение текстов. Полнотекстовые базы данных и интеллек- туальный поиск. 2. Системы автоматического индексирования и рубрицирова- ния. 3. Системы автоматического аннотирования и реферирования. 4. Информационно-поисковые системы (ИПС). 5. Системы машинного перевода. 6. Системы класса «Искусственный интеллект» (Текст -> База знаний). 7. Системы генерации текста (База знаний —> Текст). § 4. Типы текстовых структур в системах АПТ Общение на естественном языке заложено в том или ином виде во все современные системы класса «искусственный интеллект» — экспертные, системы общения с банками данных, системы ма- 21
шинного перевода и др. [см.: Виноград, 1976; Попов, 1982; Маль- ковский, 1985 и др.]. В справочнике «Искусственный интеллект» они названы «естественно-языковыми системами» [см.: Искусст- венный интеллект, 1990]. Многие из них работают не только с отдельными предложениями, но и с их объединением, получив- шим новое качество «связный естественный текст». Процесс ана- лиза в этих системах должен заканчиваться построением семанти- ческой структуры, в которой по идее фиксируется «смысл текста». Коротко охарактеризуем некоторые структуры и вклад каждой из них в теорию понимания текста: А. Лингвистические структуры предложений текста (локальное понимание). Б. Семантические сети целого текста (глобальное размытое по- нимание). В. Информационные структуры целого текста (глобальное обоб- щенное понимание). Г. Структуры баз данных и знаний (выборочное специальное понимание). Д. Структуры систем машинного перевода (параллельное мно- гоязыковое понимание). Структуры типа А (лингвистические структуры предложений тек- ста) фиксируют результат «буквального» локального (т. е. ограни- ченного пределами предложения) понимания. Лингвистические процессоры, опирающиеся на сложные и богатые словари, стре- мятся к полноте интерпретации каждого отдельного предложения исходного текста, к сохранению всей сколь угодно подробной ин- формации о единицах и связях в пределах предложения. В основе лингвистических моделей лежит синтаксическое (или синтакти- ко-семантическое) представление предложения. Будем считать классическими лингвистическими те семантические структуры, в основе которых лежит лингвистическая модель, или теория, «Смысл <=> Текст» [см.: Мельчук, 1999] (далее МСТ или ТСТ). Главное достоинство лингвистических структур — детальность анализа, отражаемая в форме дерева: синтаксического и в идеале семантического представления предложения (далее СинП и СемП соответственно). При наличии словарных статей для всех слов пред- ложения и при условии, что заданная на входе цепочка слов яв- ляется правильным предложением входного языка, модель и ос- нованная на ней система автоматического перевода строят пра- вильную синтаксическую структуру, сначала поверхностную, за- тем глубинную (ГСС). Если все узлы ГСС заменить их толковани- ями из словаря (например, узел ПОИТЬ — на поддерево «X не- посредственно каузирует У пить Z»), оставив все связи из ГСС и только слегка изменив нотацию (актантные 1, 2, 3, 4; 5 — ATTR, 6 — COORD), мы получим семантическую структуру. Благодаря симметричности процессов анализа и синтеза в МСТ можно идти 22
от Смысла к Тексту (как в книге И. А. Мельчука), т. е. от заданного СемП к его разверткам в ГСС и далее (см. приложение 1). В варианте МСТ, реализованном в системе ЭТАП-2 [см.: Апре- сян, Богуславский, Иомдин и др., 1989], авторы отказались от двухуровневого синтаксиса; единая синтаксическая структура (ав- торское сокращение — СинтС) помещает в узлах слова исходной фразы и сохраняет подробные связи поверхностной структуры (см. приложение 2). Эти связи, даже если они и имеют грамматиче- ский характер, достаточно дифференцированные, и их можно пе- ревести в семантический план, тем более что все они бинарны, а соединяемые ими слова снабжены семантическими характери- стиками в комбинаторном словаре. В названных подходах получающуюся структуру — СемП, ГСС или СинтС — правильнее было бы квалифицировать как синтак- тико-семантическое представление (СинСемП), поскольку ее ос- новой остается синтаксическое дерево предложения, но в первом случае имеющее «семантичные» узлы, во втором — «семантич- ные» связи1. Неоспоримым достоинством классических лингвистических моделей является возможность сопоставлять любому предложе- нию обрабатываемого текста его формальный структурный образ. При этом структуры сохраняют всю информацию исходного объек- та для дальнейшей автоматической обработки. Благодаря заложен- ному в модель и систему формальному аппарату описания линг- вистических сущностей обеспечен воспроизводимый результат. Излишне говорить, насколько мощный импульс это дает иссле- дованиям в теоретической лингвистике. Но сейчас нас интересует теория прикладного понимания. С этой точки зрения лингвистические единицы оказываются достаточно жесткими (это древесные структуры), в них можно моделировать лишь понимание в пределах предложения, понимание без обоб- щений, в котором нельзя опустить ни одно звено. Эти структуры не допускают и характерного для естественного процесса пони- мания выборочного подхода, «выхватывания» лишь интересую- щей человека части содержания. «Чисто лингвистическое» пони- мание является необходимым, но только первым шагом понима- ния целого текста. Реализация такой идеальной лингвистической модели крайне трудоемка, даже если система предполагает очень ограниченное понимание естественного текста. Другое узкое место лингвистических моделей — слабая корре- ляция с единицами представления знаний. Не исключено, что для 1 В приложении 1 воспроизведены примеры СемП одной русской фразы и двух из соответствующих ей ГСС [см.: Мельчук, 1999, 303—306]. В приложении 2 приводятся СинтС одной английской фразы и вариант соответствующей ей нор- мализованной русской СинтС [см.: Апресян, Богуславский, Иомдин и др., 1989, 152—153]. Все пояснения читатель найдет в оригиналах. 23
общения с каждой конкретной базой данных или для записи в БД информации из текста потребуется создавать отдельную систему перевода. А какой реальный вид имеет СемП целого текста в чисто линг- вистических системах? Пока реально достижимое СемП целого — это последовательность СинСемП всех подряд предложений текста. Если же зафиксировать в СемП сведения о теме-реме (в при- ложении 1 соответственно 1 и И), об эмфатических акцентах и т. п. или даже установить хотя бы только референтные связи между структурами соседних предложений, мы выходим в структуру типа Б (семантическую сеть целого текста). Переведя СинСемП всех предложений текста на язык более элементарных единиц (как пред- лагается в МСТ, и именно результат такого перевода, его СемП, объявляется «смыслом» текста), мы получим сеть, глобальную «размытую» структуру. В работе Н. Н. Перцовой утверждается, что модель понимания текста должна включать наряду с поверхностно-семантическим компонентом и глубинно-семантический компонент со своим представлением (ГСемП), объединяющим информацию собствен- но языковую и энциклопедическую (= общность сведений о дей- ствительности, которые имеются у отправителя и получателя тек- ста) [см.: Перцова, 1980]. Это не могут не учитывать системы типа «вопрос-ответ». В приложении 3 воспроизводится пример несколько упрощен- ной структуры ГСемП для текста, состоящего из пяти фраз. Спо- соб изображения узлов и связей приближается к принятому в МСТ (узлы более содержательны и эксплицитны, чем связи). Работа с таким объектом оказывается пока практически невыполнимой даже в рамках одного предложения. Это естественно: в глобальном се- мантическом пространстве целого текста действуют другие зако- ны, чем в пределах предложения. Рассмотрим другой путь построения «смысла» текста — путь «сверху вниз». Он реализован и реализуется сейчас в разных ин- формационных системах. Структуры типа В (информационные структуры целого текста) фиксируют результат глобального понимания текста и потока тек- стов в единицах терминологии выбранной предметной области. Термины сосредоточены в источниках, задаваемых отдельно от текста: классификаторах, тезаурусах, рубрикаторах и др. (см. гл. 8 — 9). Работающие с этими структурами системы автоматичес- кого индексирования и на их основе информационно-поисковые системы имеют дело с реальными текстовыми информационны- ми массивами. Исходный текстовый материал подвергается сжа- тию: лексический материал текста, не совпавший с единицами тезауруса, просто отбрасывается. Результирующие структуры вы- ражаются в единицах знаний, релевантных для пользователя: дес- 24
крипторы, термины информационно-поискового тезауруса (ИПТ). И нформационный тип моделей — достаточно гибкий: а) с точки зрения входного анализируемого материала (при- 11 имаются естественные тексты без каких-либо структурных огра- ничений и с довольно большим тематическим разбросом); б) с точки зрения выходных структур, называемых поисковым образом документа: обычно ПОД представляет собой свободную структуру, элементами которой являются слова ЕЯ, в основном термины, т. е. такие единицы, которые приняты и в естественном понимании. Они не такие мелкие, как в лингвистических моде- лях, и не такие крупные и подчас отражающие специфическую действительность, как в системах ИИ, они «средние» и обычно имеют переводные эквиваленты в других ЕЯ; в) с точки зрения средств анализа они не привязаны к конк- ретной тематике, а достаточно универсальны (так, в некоторых ИПС реализован бестоварный статистический анализ лексиче- ского материала, строящий ПОД для текстов любой тематики). Очень важным параметром ИПС являются реальные, не игру- шечные масштабы, наличие компонента «реальный пользователь», с которым у системы может быть организована обратная связь, а это является началом обращения информации. Наличие пользова- теля (хоть и вне системы) создает реальные критерии оценки ка- чества работы ИПС, что влияет на изменение параметров, учи- тываемых в работе ИПС. Эти параметры ИПС необходимо учиты- вать при создании моделей понимания произвольного текста. Уз- ким местом таких систем является небольшой смысловой потен- циал (см. об этом в гл. 9). Структуры типа Г (структуры баз данных и знаний) еще ближе к задачам пользователей и составляют часть реквизита их произ- водственной деятельности. Их можно назвать специализирован- ными, экстралингвистическими структурами, они отображают часть действительности, являются квазиденотатом, который можно привлекать при анализе естественного текста как дополнительное знание. Структуры баз данных — это формальные, жесткие, фик- сированные структуры (например, таблицы с описанием кадро- вого состава учреждения, таблицы занятости населения и др.), поэтому над ними возможны формальные, математически обо- снованные операции. Над структурами типа БД можно надстроить лингвистическую систему, генерирующую текст на ЕЯ (см. гл. 10). Среди них есть и полужесткие структуры динамического типа. Это сценарии, схемы, ситуации или их части — «фреймы». Они образуют базы знаний (БЗн) системы. Такие структуры получили широкое распространение в системах класса ИИ, они отобража- ют сюжет целого текста, который, как известно, безразличен к членению на предложения. При использовании их в качестве ин- струмента анализа задаваемая жестко схема сюжета дополняется 25
лингвистическими спецификациями, позволяющими извлекать из текста и вносить в БЗн недостающую информацию. Большинство подобных структур имеют целью узнавание оп- ределенного сюжета в тексте [см.: Семантический компонент..., 1982; Шенк, 1980], как, например, в многочисленных системах Р. Шенка. Путь внешнего понимания, опирающегося не на линг- вистическую структуру, а на совпадение лексического состава воп- роса и текста при заданной тематике диалога, реализовали мно- гие отечественные коллективы [см.: Нариньяни, 1995; и др.]. Достоинством моделей четвертого типа является возможность сравнения содержания анализируемого текста с разными источ- никами информации, в частности с другими текстами на ту же тему. Задаваемая тема является как бы квазиденотатом, и такой подход называют иногда денотативным [см.: Новиков, 1983; Файн, 1987]. Семантические структуры, которые стремятся по- строить подобные модели, называют (и мы будем в дальнейшем называть) концептуальными структурами. Главным понятием денотативных (концептуальных) моделей является ограниченный естественный язык (ОЕЯ) [см.: Попов, 1982]. Как ни странно, имеются в виду не столько ограничения на язык, сколько ограничения на мир. Так, системы Шенка узнают «свой» сюжет в текстах любой синтаксической сложности, лишь бы текст был полузеркальным отображением тех сюжетов, кото- рые заложены в базы знаний, их более или менее прямым лекси- ческим соответствием. Переход к новой предметной области тре- бует почти полной смены лингвистического обеспечения подоб- ной системы АПТ. Денотативный анализ не будет иметь успеха и в том случае, когда текст, относящийся к нужной предметной об- ласти, формирует «денотат», которого еще нет. Экстралингвисти- ческие модели могут хорошо работать в отдельных конкретных задачах, ограниченных набором однотипных текстов, они иллюс- трируют зависимость понимания текста от предварительных зна- ний о предмете, но они плохо или никак не моделируют понима- ние несюжетных текстов, к которым относятся, в частности, на- учно-технические тексты. Эти последние имеют тонкие различия с точки зрения аппарата систем АПТ: у них одна лексическая основа, одна база знаний, к ним применимы одни и те же логи- ческие выводы, но они передают разные мысли и несут подчас противоположную информацию для читателя. Никакие упроще- ния поверхностно-языковых средств в виде самого простого ОЕЯ не сделают задачу их понимания доступнее. Структуры типа Д (структуры систем машинного перевода) ис- пользуются в системах и моделях автоматического перевода (АП), реализующих самую полную цепочку работы с текстом: от вход- ного текста до выходного, принадлежащего другому ЕЯ. Они фик- сируют лексические и синтаксические соответствия (и расхожде- 26
ни я) между единицами и структурами двух языков правилами фансформационного типа Т1 —> Т2 (см. схему 1). Еще большее расхождение между входными и выходными единицами можно наблюдать в структурах информационно-переводческих систем, если они осуществляют перевод со сжатием, опираясь на базы ланий: единицы Т1 и Т2 принадлежат разным естественным язы- кам (ЕЯ-разноязычие), отражают разные объемы содержания (ин- формационное разноязычие), могут различаться фокусами вни- мания (ценностные, прагматические различия). Такого рода сис- темы АП, основанные на знаниях (англ, knowledge based machine translation systems) и совмещающие в себе полноту лингвистиче- ского анализа текста с механизмами работы со структурами зна- ний, являются наиболее перспективными системами автомати- ческого понимания текста [см.: Nirenburg, Carbonell, Tomita et al., 1992]. Но в них тоже не найден пока оптимальный вариант совме- щения этих разнородных источников знаний. Не предложен также оптимальный или приемлемый вариант языка-посредника (ЯП), который мог бы служить промежуточным звеном при переводе с любого ЕЯ на любой другой. Предлагаемые разными системами варианты ЯП мало отличаются от лингвистических синтаксичес- ких структур. § 5. Состав компонентов стандартных систем АПТ Итак, в стандартных системах понимания текста класса ИИ (правильнее было бы говорить об экспериментальных моделях та- ких систем) на вход поступает текст на ограниченном естествен- ном языке. В качестве средств его анализа (понимания) привлека- ются, с одной стороны, лингвистические знания (ЛингвЗн) в виде словарей и грамматик, с другой стороны, специальные зна- ния в выбранной предметной области (СпецЗн) в виде структур ситуаций той предметной области, к которой принадлежит и текст на ОЕЯ. Предметная область, как правило, ограничивается одним сюжетом (например, посещение зубного врача, посещение рес- торана, крушение поезда, некоторая политическая ситуация и т. п.). В ответ на конкретный вопрос к тексту или на постоянный ин- формационный запрос (заданный в виде той же схемы предмет- ной области) строится выходная структура конкретного текста, которая и фиксирует результат «понимания» данного текста (схе- ма 1). Характер системы, т.е. используемые инструменты анализа и тип выходных структур, часто определяется тем, кто был разра- ботчиком — лингвист или специалист в выбранной предметной области. Основой лингвистического подхода является какая-либо синтаксическая модель, а схема предметной области использует- 27
Схема 1 Упрощенная схема компонентов стандартной системы АПТ Вход — Текст на ОЕЯ ЛингвЗн: словари, грамматики, алгоритмы СпецЗн: семантическая сеть, фреймы, тезаурусы Выходная структура: СинСем структуры (ЛингвЗн) Концептуальные структуры (СпецЗн) т Пользователь ся стихийно, набегами, в виде фильтров, уменьшающих неодно- значность синтаксического анализа. Выходная структура в терми- нах ЛингвЗн — это синтактико-семантические представления, которые могут быть основой для перевода (буквального, пофраз- ного) на другой язык; достижим также квазиреферат исходного текста, состоящий из предложений или частей предложений, со- держащих нужные слова схемы предметной области. Для специалиста в предметной области основным средством анализа является семантическая сеть, а морфолого-синтаксиче- ские признаки и структуры привлекаются в несистематичном виде: как фильтры, как правила локального контекстного разбора, за- дачей которого является заполнение оставленных в схеме пред- метной области пустых мест, т.е. слотов подходящих фреймов. Выходная структура в терминах СпецЗн — это фрагмент семанти- ческой сети с заполненными слотами, которую называют уже концептуальной структурой и развертывание которой в текст мо- жет достигаться иными средствами, чем использованные в исход- ном тексте. При этом моделируется не столько понимание, сколь- ко узнавание заданной схемы сюжета, а понимание сводится к поиску в тексте значений некоторых переменных (Поезд шел из Вены в Париж, в результате крушения погибло 10 человек, ранено 120 и т.д.). Понимание произвольного текста такие системы не моде- лируют. Элементы СпецЗн образуют большую гамму переходов — от атомов смысла (есть словесные атомы, текстовые атомы, у Р. Шен- ка — спецатомы для каждой узкой проблематики) до самых круп- ных концептуальных единиц (гиперфреймы, планы, сценарии). Самой популярной единицей словаря в системах АПТ оказался фрейм, так как это средняя единица и по величине, и по глуби- не, и по разнородности своих дифференциальных признаков. 28
Стандартным решением проблемы понимания в таких систе- мах АПТ является «ранняя специализация» словарей и грамматик. )ю значит, что слова с самого начала вводятся в систему только н icx значениях, которые ожидается встретить в данной узкой об- ласти, а грамматики настроены на узнавание лишь тех ситуаций, । о горые описаны в СпецЗн. Такое решение может привести к тому, •но при выходе за пределы уже обработанных текстов система перестает узнавать и свое, и чужое, т.е. и специальное, и обще- шачимое. Вывод грустный: чтобы угнаться за реальными текста- ми, нужны все новые и новые словари и грамматики, так что средств анализа окажется больше, чем текстов, которые обраба- । ываются этими средствами. § 6. Модель «мягкого понимания» текста Охарактеризованные нами несколько типов структур в систе- мах АПТ и способы их построения вовсе не являются конкуриру- ющими или взаимоисключающими. Все они сочетаются в слож- ном процессе восприятия и понимания текста человеком: а) пофразное, буквальное, поэлементное чтение и понимание ВТ; б) столь же подробное понимание, но в масштабе текста и с отождествлением сущностей, упоминаемых в разных фразах; в) беглое чтение, выбирающее из ЕТ нужные терминологич- ные элементы; г) чтение «крупным взглядом», глазами специалиста, выхва- тывающего из ЕТ лишь те сюжеты, которые его интересуют; д) понимание иноязычного текста в единицах своего языка. Все эти аспекты должны присутствовать в модели понимания произвольного текста произвольным читателем. В этом необходи- мом наборе приемов понимания отсутствует одно очень важное 1вено — внутреннее согласование единиц, составляющих сам ЕТ, построение того, что в лингвистике текста называют сверхфразо- выми единствами (СФЕ) и межфразовыми связями, и построение на их основе содержательного фокуса текста. Нет той структуры, которую сам ЕТ формирует как свой стержень. Именно он должен «защитить» ЕТ от попыток понять в нем как главное то, что упомя- нуто между прочим или как пример. Так, нельзя из текста ариф- метической задачи на вычисление объема воды, вытекающей из бассейна А в бассейн Б, извлекать информацию об устройстве бассейна. Необходимо вместе с перечисленными приемами пони- мания ЕТ ввести еще один компонент, вычисляющий фокус ЕТ на основе не внешних, а внутренних свойств единиц текста. Эта функция информационного синтеза результатов локального пони- мания относится скорее к глобальному этапу (см. гл. 7). 29
Модель «мягкого понимания» текста должна сочетать все эти аспекты, совместить в одной схеме свойства названных структур и механизмов, порождающих их. Для системы «мягкого автоматического понимания» текста кри- тичной является также проблема «нового», т. е. проблема обработ- ки тех явлений заданного текста, которые описаны неполно или совсем не содержатся в словарях системы. Требуется и адекватная реакция системы на текущий текст, если в нем задана новая ин- формация. Автоматическое накопление этой новой информации для корректировки имеющейся понятийной структуры проблем- ной области также входит в задачи «мягкой» системы АПТ. Итак, в модели «мягкого понимания» текста необходимо соче- тание двух подходов — информационного и лингвистического. § 7. Синтез информационного и лингвистического подходов Как результат обобщения, или как теоретическое обоснование разных типов прикладных систем, разработана абстрактная мо- дель, названная информационно-лингвистической моделью, в рам- ках которой можно проследить по шагам все звенья автоматичес- кого понимания текста. Коротко, ее смысл сводится к тому, что из одного и того же естественного текста система может извлекать разную информацию для разных пользователей, в зависимости от их интересов, объема знаний, т.е. от того, какие модули компью- терного знания подключены к процессу понимания ЕТ. Такой подход (возможность извлечения разных «смыслов» из единого множества текстов, своего рода лингвистическая относительность) обосновывается и практической необходимостью (действительно, разным пользователям нужна разная информация из текстов), и соображениями конструктивного характера: отдельные части со- здаются как самостоятельно работающие подсистемы, которые включаются и выключаются в разных режимах работы системы. Модель мягкого понимания текста, к которому стремятся линг- висты, состоит в способности порождать различные осмыслен- ные интерпретации исходного объекта в зависимости от разных условий и составляющих процесса его восприятия. Модель должна сочетать в себе структуры последовательного, буквального, по- элементного понимания, с одной стороны (узколингвистический подход), и чтение «крупным взглядом», глазами специалиста, с другой стороны (информационный подход, экстралингвистиче- ское понимание). Концептуальные структуры текста желательно создавать на основе хороших лингвистических представлений текста. Это озна- чает не только учет всех свойств текста от графематических осо-
ценностей и т.д. вплоть до свойства связности текста (это знает пшгвист), но и привлечение описаний объектов предметной об- |.'1сти в виде тезаурусов или других способов задания специальных знаний (концептуальные структуры, которые умеет строить спе- циалист в данной ПО). Кроме того, концептуальные структуры необходимо соотносить с возможными запросами пользователя (>то сфера информатики) и с языком адресата информации (си- стема перевода). Важно также знание того, каковы внутренние установки и цели автора текста (а это прагматика как сравнитель- но новая область теоретической лингвистики). Пока никому не удалось реализовать такую модель, но тем бо- чсе важно рассмотреть с теоретической точки зрения, из каких блоков складывается механизм автоматического понимания. Главная идея ИЛМ — нащупать новый, плюралистический под- ход к пониманию ЕТ и примирить методы собственно лингвисти- ческого анализа (подробный разбор предложений текста по уров- ням) и более грубый информационный анализ. Если первый стре- мится к сохранению и максимальной дифференциации выражен- ного в тексте содержания, то второй дает взгляд на текст и даже на корпус текстов как на целое, содержание которого может быть представлено с разной степенью подробности или обобщения. В термин «понимание» вкладывается примерно тог же смысл, что и в термин «информационный анализ»: имеется в виду после- довательность операций, приводящих к извлечению из произволь- ного текста произвольным читателем релевантной информации. Информационный анализ, понимаемый как построение «тек- ста Информации», неизбежно сопряжен с потерей части содер- жания. Чтобы эти потери не были случайными, должны быть за- даны правила построения наиболее информативных единиц. Та- кие правила дает лингвистика. Смысл строится только при вос- приятии текста некоей другой, внешней по отношению к тексту, интеллектуальной системой и зависит от ее установки, ее целей, ее языка и т.д. Те составляющие, которые не работают на смысл, можно «потерять», — этот процесс мы называем «информацион- ным сбросом». Основное назначение лингвистических структур в такой системе АПТ состоит в том, чтобы создавать контекст, не- обходимый и достаточный для вычленения на каждом уровне ин- формативных единиц, которые переходят в структуры следующе- го уровня. Сочетание этих двух тенденций — лингвистической (стремле- ние удержать все) и информационной (стремление утратить, сбро- сить ненужное) — и есть необходимое условие смыслообразования. Оно не только проявляется на завершающей стадии процесса по- нимания текста, но и присутствует на всех стыках понимания: например, при переходе от синтаксической структуры к семанти- ческой, от семантической к концептуальной и т.д. 31
Добавление компонента «информационный», усложняя модель в целом, позволит упростить собственно лингвистическую часть, причем не эмпирическим путем, а опираясь на закономерности построения лингвистических объектов и на законы формирова- ния информации. С практической точки зрения принятый подход (возможность информационного сброса при лингвистическом контроле) позво- ляет продолжать работу при разных отступлениях от идеальных условий: система может принимать на входе синтаксически не- правильные предложения, местоименные и содержащие иные виды неполноты, может работать с неполными словарями, с недоукомп- лектованными базами знаний и т.д., поскольку какой-то степени понимания можно достичь даже при неполном контексте. § 8. Процесс понимания как взаимодействие текстов Чтобы модель понимания ЕТ, не утрачивая свойств «мягко- сти», могла стать инженерным (реализуемым на ЭВМ) объектом, необходимо ввести некоторое ограничение на характер компо- нентов модели. Примем, что все компоненты модели присутству- ют в ней в виде текстов и/или структур, переводимых в тексты. Это вербальная модель. Как известно, в процессе общения участвует довольно боль- шое количество составляющих: сам текст, действительность, го- ворящий (автор текста), адресат (читатель), коммуникативная среда, база знаний, мотивы и цели говорящего и т.д. Это все раз- нородные сущности; включить их в одну модель возможно, лишь приведя к одному знаменателю. В поисках такой однородности ограничимся рассмотрением вер- бального мира интеллектуальных систем: составляющие процесса общения будут учитываться в модели лишь в той мере, в какой их можно представить в виде текстов или соответствующих им структур. В модель вовлекается не действительность, а текст, описываю- щий фрагмент действительности; не знания, а текст, описываю- щий определенный фрагмент знаний; не цель, а текст, формули- рующий цель, и т. д. Понятия «информационная потребность» или «побудительный мотив» могут быть восприняты вербальной сис- темой, если их сформулировать в словесном (или переводимом в словесную форму) виде. Только в этом случае они войдут в систе- му понимания ЕТ как полноценные составляющие. Входной объект «естественный текст» обладает наиболее пол- ным комплектом признаков вербальности, или «текстовости» (он имеет автора, размер, композицию, главную тему, входит в ка- кой-то массив и т.п.). 32 Если принять ограничение по признаку «текстовости», база знаний определенной ПО будет представлена в информационной модели множеством записей, переводимых в высказывания как фрагменты ЕТ, которые можно далее объединять в хорошие или не очень хорошие тексты. Любая порция знания, добавляемая в оазу знаний, тоже должна удовлетворять признаку текстовости. 1^вербализуемый, не переводимый в форму естественно-языко- вого высказывания фрагмент структуры не будет считаться ин- формацией в вербальной модели. Знания читателя (пользователя системой АПТ) могут присут- ствовать в модели в виде множества текстов на разные темы, сре- ди них есть «хорошие» тексты (хорошо структурированные зна- ния), есть «плохие» тексты (им соответствуют обрывочные зна- ния), есть связные, допускающие или не допускающие обобще- ния, и т.д. Вопросы, которые пользователь адресует системе, суть фраг- менты того или иного «текста его личных знаний». Одно из объяс- нений «трудных» вопросов состоит в том, что текст вопроса при- надлежит одновременно двум разным «текстам знаний». Множество текстов, привлеченных к процессу понимания не- которого ЕТ, назовем информационным пространством этого ЕТ. Текст, в терминах которого должен быть представлен результат понимания данного ЕТ, назовем встречным текстом', самый оче- видный пример встречного текста — это текст вопроса. Принятие ограничения на «текстовость» позволяет представить разносортные компоненты системы АПТ как однородные сущно- сти, а их взаимодействие — как сравнение и взаимодействие обо- зримых и вполне формализуемых объектов: текстов и их частей (высказываний). Внутренним строением текстов и их сравнением занимается (или должна заниматься) лингвистика. Поэтому к единицам зна- ний могут применяться категории оценок, разработанных в линг- вистике: например, хорошее знание устроено подобно хороше- му тексту или любая порция знания должна быть лингвистиче- ски обоснованным объектом. Вытекающие из принципа тексто- вости следствия имеют содержательный характер и должны вы- полняться на этапе формирования знаний до того, как будут применяться чисто логические требования строгой однозначно- сти, единственности, непротиворечивости и правильности запи- сей в базе знаний. Свойство вербальности распространяется и на минимальные еди- ницы информационной модели: элементарная единица и тексто- вых структур, и структур знаний имеет вид R(A,B), что переводи- мо в простейшее высказывание на естественном языке, посколь- ку все составляющие этой формулы принадлежат единицам ЕЯ. Свойства этого метаязыка ИЛМ будут рассмотрены в главе 6. 2 Леонтьева 33
Литература Анохин П.К. Избранные труды. — М., 1978. Апресян Ю.Д. Идеи и методы современной структурной лингвис- тики (краткий очерк). — М., 1966. Апресян Ю.Д., Богуславский И.М., Иомдин Л. Л. и др. Линг- вистическое обеспечение системы ЭТАП-2. — М., 1989. Баранов А.Н. Введение в прикладную лингвистику: Учеб, посо- бие. — М., 2001. Бондарко Л.В., Вербицкая Л.А., Мартыненко Г.Я. и др. Прикладное языкознание: Учебник / Отв. ред. А. С. Герд. — СПб., 1996. Виноград Т. К процессуальному пониманию семантики // Новое в зарубежной лингвистике. — М., 1983. — Вып. 12. Виноград Т. Программа, понимающая естественный язык. — М., 1976. Городецкий Б.Ю. Компьютерная лингвистика: моделирование язы- кового общения // Новое в зарубежной лингвистике. — М., 1989. — Вып. 24. Демьянков В.З. Основы теории интерпретации и ее приложения в вычислительной лингвистике. — М., 1985. Искусственный интеллект: Справочник: В 3 кн. — М., 1990. Кибрик А. Е. Очерки по общим и прикладным вопросам языкозна- ния. — М., 2001. Лахути Д.Г. и др. Автоматизированные документальные ИПС: сис- тема «Скобки». — М., 1985. Леонтьева Н.Н. О моделировании «мягкого» понимания текста // Теория и практика общественно-научной информации. — М., 1993. — Вып. 8. - С. 80-97. Мальковский М.Г. Диалог с системой искусственного интеллек- та. — М., 1985. Машинный фонд русского языка: идеи и суждения. — М., 1986. Мельчук И.А. Опыт теории лингвистических моделей «Смысл <=> Текст». — М., 1999. Моделирование языковой деятельности в интеллектуальных системах / Под ред. А Е. Кибрика, А. С. Нариньяни. — М., 1987. Нариньяни А. С. Проблема понимания ЕЯ-запросов к Базам дан- ных решена // Труды Международного семинара ДИАЛОГ-1995. — Ка- зань, 1995. Новиков А.И. Семантика текста и ее формализация. — М., 1983. Новое в зарубежной лингвистике. Компьютерная лингвистика / Под ред. Б.Ю.Городецкого. — М., 1988. — Вып. 24. Падучева Е.В. Высказывание и его соотнесенность с действитель- ностью. — М., 1985. Перцова Н.Н.К построению глубинно-семантического компонен- та модели понимания текста // Проблемы вычислительной лингвисти- ки и автоматической обработки текста на естественном языке. — М., 1980.-С. 3-89. Попов Э.В. Общение с ЭВМ на естественном языке. — М., 1982. Поспелов Д.А. Логико-лингвистические модели в системах управ- ления. — М., 1981. 34
Семантический компонент в системах автоматического понимания к истов. Обзорная информация. — М., 1982. — Вып. 6. Структурная и прикладная лингвистика / Под ред. А.С.Герда. — СПб., '004. — Вып. 6. Файн В. С. Распознавание образов и машинное понимание естествен- ного языка. — М., 1987. Шенк Р. Обработка концептуальной информации. — М., 1980. Nirenburg S., Carbonell J., Tomita M. etal. Mashine Traslation: Knowledge-Based Appach. — Pittsburgh, 1992.
“I ГЛАВА 2 МАШИННЫЙ ПЕРЕВОД КАК СРЕДА СОЗДАНИЯ СИСТЕМ АВТОМАТИЧЕСКОГО ПОНИМАНИЯ ТЕКСТА Машинный перевод, или автоматический перевод (АП), — это интенсивно развивающаяся область научных исследований, экс- периментальных разработок и уже функционирующих систем ма- шинного перевода (СМП), в которых основная часть процесса перевода с одного естественного языка (ЕЯ1) на другой (ЕЯ2) выполняется компьютером. СМП призваны обеспечить быстрый и систематический доступ к информации, содержащейся в боль- ших потоках текстов на иностранном языке. Промышленные СМП, переводя в основном научно-технические тексты, опираются на большие терминологические банки данных, поддерживая едино- образие в переводе терминологической и специальной лексики. Они обычно требуют привлечения человека в качестве пред-, ин- тер- и/или постредактора. Помимо практической потребности делового мира в системах МП существуют и чисто научные стимулы к их развитию: экспе- риментальные СМП являются опытным полем для проверки раз- личных аспектов теории компьютерного понимания, речевого общения, методов преобразования информации, а также для со- здания новых, более эффективных моделей самого машинного перевода. Современные СМП, использующие базы предметных знаний в качестве промежуточного звена, относят к классу сис- тем искусственного интеллекта. § 9. Об истории СМП В 1954 г. в США был осуществлен знаменитый Джорджтаунс- кий эксперимент по машинному переводу с русского языка на английский. Хотя был задействован маленький словарь (250 слов) и тщательно отобраны фразы для перевода, этот первый опыт обеспечил бурное развитие работ по МП в течение десяти бли- жайших лет. В 1955 г. прошел первый эксперимент по МП в СССР (англо-русский, со словарем 2300 слов из области прикладной математики, в дальнейшем эти разработки вошли в состав систе- 36
мы АМПАР). Начались работы по МП в Институте прикладной математики, где созданы три экспериментальные системы (с фран- цузского на русский ФР-1 и ФР-2 и с английского на русский) под руководством О.С.Кулагиной и И.А.Мельчука. Заслуга этих гченых состояла еще и в том, что они положили начало формиро- ванию теории МП. В 1959 г. открывается Лаборатория машинного перевода в МГПИИЯ им. М.Тореза (сейчас МГЛУ), где на материале разных выков строятся модели систем МП, создаются словари, разра- батываются концепции семантического языка-посредника. Из мас- штабных работ созданы лингвистическое обеспечение и словарь «ля системы англо-русского перевода (АРАП), но машинная реа- лизация лингвистических разработок отложена на многие годы виду отсутствия техники. С 1966 г. работы по СМП в США были приостановлены (как следствие выводов специальной комиссии о нерентабельности МП по сравнению с обычным переводом), переориентированы были и работы в СССР. Но к середине 1970-х гг. интерес к проблеме МП возродился, начинается бурное развитие систем во многих запад- ных странах. Всплеск исследований и работ по СМП наблюдается в Японии и Китае. К концу 1980-х гг. в Японии было уже около ipex десятков систем МП, в Китае — около 10, из них две — 11 ромышленные. В США работает в промышленном режиме несколько десятков । истем, первая и наиболее известная из них — СИСТРАН — экс- плуатируется с 1970 г. Интенсивно развертываются работы по МП в Гренобле (Фран- ция). Создаются системы GETA (СЕТА), работающие на основе синтаксического анализа [см.: Boitet, Nedobejkine, 1980], затем СМП ARIANE 78 [см.: Muller, 1983] — это МП с русского языка на французский. В 1976 г. в Монреале (Канада) начинает работать первая полно- сгью автоматическая система МП TAUM-METEO, переводящая । ексты метеосводок с английского языка на французский. И в России активизировался машинный перевод. Группы ма- шинного перевода возникают почти во всех крупных университе- iax страны. Многообещающие работы ведутся в Ленинграде, Кие- ве, Тбилиси, Ереване. В 1975 г. во Всесоюзном центре переводов (ВЦП) начата разработка трех систем промышленного масштаба: англо-русской (АМПАР), немецко-русской (НЕРПА) и француз- ско-русской (ФРАП) — они описаны в книге У.Хатчинза [см.: I lutchins, 1986]. Было сдано в эксплуатацию по две версии каждой системы, а системы АМПАР и ФРАП начали выполнять реаль- ные заказы. С наступлением эры персональной техники и новых жономических условий практически все эти работы были свер- нуты, а коллективы переориентировались на другие задачи. 37
В 1974 г. начались работы по МП в ИНФОРМЭЛЕКТРО, в дальнейшем коллектив перешел в ИППИ РАН, где под руко- водством Ю.Д. Апресяна создано семейство систем ЭТАП (вер- сии 1, 2, 3) — систем МП с французского и с английского язы- ков на русский — они успешно развиваются по настоящее время. В Институте востоковедения РАН также успешно идут работы по японско-русскому автоматическому переводу (ЯРАП) под ру- ководством 3. М. Шаляпиной. На рубеже XX и XXI вв. разработки ленинградских коллективов (при иностранной поддержке) дали начало отечественной про- мышленной системе ПРОМТ. В ряде российских фирм начаты ра- боты по МП с турецкого языка на русский и английский. История МП хорошо документирована. Начало этому положе- но И. А. Мельчуком и Р. Д. Равич в двух томах полной библиогра- фии работ, связанных с МП как научной дисциплиной, с аттес- тацией содержательных операций во всех имеющихся к этому моменту системах и разработках. Обзор охватывает период 1949 — 1970 гг. В справочнике по системам ИИ приведен перечень около 70 основных систем МП, созданных к концу 1980-х гг., с их пара- метрами: организация и страна разработки, направления перево- дов, состояние разработки, основная литература по каждой сис- теме [см.: Искусственный интеллект, 1990]. Все перечисленные СМП кратко охарактеризованы по типу лингвистической страте- гии и т. п. Следующие сколько-нибудь полные обзоры на русском языке по МП нам неизвестны. Летопись СМП вел и продолжает вести У.Хатчинз [см.: Hutchins, 1986]. Частные проблемы МП обсужда- ются постоянно в материалах периодических конференций — COLING, Computational Linguistics, ACL-Proceedings, Пражский Бюллетень по математической лингвистике, МЕТА (Канада), ДИАЛОГ и др. Более или менее полные описания СМП содержат- ся в технических отчетах. § 10. Периодизация и классификация СМП Системы машинного перевода можно классифицировать по нескольким основаниям. Одно из них — принятая в системе линг- вистическая стратегия. С точки зрения ее развития выделяется че- тыре периода. Начальный период «бурного развития» (до середины 1960-х гг.) характеризуется преимущественным развитием прямых систем МП, обеспечивающих результаты, близкие к пословному перево- ду. Это системы МП первого поколения. В них операция перевода требует минимума преобразований: исходный текст постепенно 38
превращается в текст на выходном языке путем замены всех его моментов, найденных в словаре, на переводные эквиваленты. Учет шкального контекста позволяет собрать некоторые сложные еди- ницы — обороты, поэтому такой перевод называют еще пословно- шюборотным. Наличие неполного синтаксического анализа отно- U г систему уже к полуторному поколению. Эти СМП бинарны, ^диовариантны, не имеют промежуточных структур. Второй период (середина 1960—1970-х гг.) отмечен интенсив- ным развитием синтаксических теорий и разработкой на их осно- пе СМП второго поколения. В них переводные соответствия уста- навливаются не прямым способом, а через построенную для каждого предложения синтаксическую или синтактико-семанти- ческую структуру (или несколько вариантов такой структуры). Анализ и синтез в них независимы: анализ, как правило, мно- овариантный, ведется в категориях входного языка, синтез — о категориях выходного. Связь того и другого этапов обеспечива- ется третьим компонентом — этапом межъязыковых операций (трансформаций), это собственно перевод, или трансфер. Третий период (середина 1970 — 1980-х гг.) можно назвать пе- риодом экстенсивного развития СМП: они выходят в промыш- ценность. Техника морфологического и синтаксического анализа чорошо освоена, но остро ощущается недостаток семантики. Од- нако ожидаемого выхода к СМП третьего поколения, который (>ы осуществлял перевод через семантический язык-посредник, универсальный для разных пар естественных языков, не произошло. Такой путь не был обеспечен единой общепризнанной теорией. 11а этом лингвистические основания классификации СМП пре- рвались. В качестве компенсации получают развитие интерактивные СМП, комбинирующие труд человека и ЭВМ. Другое внешнее решение семантических трудностей — ориентация на перевод ог- раниченных классов текстов, охватывающих узкую предметную область. Четвертый период (со второй половины 1980-х гг.) характери- >уется возрастанием интереса к МП как с практической, так и с теоретической точки зрения. МП — сложная область, на которой отрабатываются новые информационные технологии. Большие надежды возлагаются на мощные лексические и терминологичес- кие базы данных и базы знаний. В МП привлекаются семантичес- кие теории из узких предметных областей или из экспертных и других систем ИИ. В отдельный класс выделяются системы МП, основанные на шаниях (knowledge-based МТ, или КВМТ systems), создается не- сколько экспериментальных систем МП, использующих интер- лингву (язык-посредник) и структуры представления знаний [см.: Nirenburg, 1989; и др.]. Входят в моду концептуальные структуры, 39
концептуальные сети. Но этот термин допускает разные понима- ния; часто структура, названная концептуальной, мало отличает- ся от синтаксической. По количеству привлекаемых языковых пар СМП делятся на двуязычные (ориентированные только на данную пару языков) и многоязычные. Те и другие могут быть бинарными (если анализ вход- ного языка ведется в категориях выходного) или универсальными (если устройство анализа не зависит от выходного языка). Так, система СИСТРАН многоязычная, но не универсальная, так как состоит из совокупности бинарных СМП. По тематической ориентации различают системы монотема- тические, настроенные на одну ПО (таких большинство: TAUM- МЕТЕО, METAL, TITUS, SPANAM), и политематические. Не- которые СМП имеют ограничения на структуру вводимых тек- стов — это системы с ограниченным ЕЯ. Так, TITRAN переводит только заголовки. По степени участия человека можно говорить о полностью автоматическом переводе и человекомашинном переводе. Пред- ставителем первого является система TAUM-METEO, переводя- щая сводки погоды (в двуязычной Канаде) , с английского на французский, — это единственная полностью автоматическая СМП. Сейчас на ее основе работает система FoG, генерирующая тексты на этих двух языках из общей базы данных метеосводок (см. гл. 10). С точки зрения степени разработанности СМП образуют три класса: промышленные, развивающиеся и экспериментальные. Особый класс образуют СМП, основанные на образцах (example- based), или прецедентах. Несмотря на заманчивость и кажущуюся легкость реализации такого подхода (текст-текст, шаблон-шаб- лон), они остаются экспериментом [см.: Михеев, 2004], хотя во многих системах такой компонент так или иначе присутствует. § 11. Лингвистическое обеспечение СМП Процесс МП представляет собой последовательность преобра- зований, применяемых к входному тексту и его структурам и превращающих его в текст на выходном языке, который должен максимально воссоздавать смысл и, как правило, структуру ис- ходного текста, но уже средствами выходного языка. В классиче- ских СМП, осуществляющих непрямой перевод по отдельным предложениям (пофразный перевод), каждое предложение прохо- дит последовательность преобразований, состоящую из трех час- тей, или этапов: АНАЛИЗ —> ТРАНСФЕР (межъязыковые операции) —> СИНТЕЗ 40
Цель этапа анализа — построить структурное описание (про- межуточное представление, внутреннее представление, обычно это < инП — синтаксическое представление) входного предложения. Мдача этапа трансфера (собственно перевода) — преобразовать » фуктуру входного предложения во внутреннюю структуру вы- годного предложения. К этому этапу относятся и замены лексем входного языка их переводными эквивалентами (лексические ш'жъязыковые преобразования). Цель этапа синтеза — на основе полученной в результате анализа структуры построить правиль- ное предложение выходного языка. Как правило, этапы анализа и синтеза строятся зеркально (см. обобщенную схему МП в приложении 4). Первыми такую схему t гали использовать 3. М. Шаляпина и Б. Вокуа еще в 1970-х гг. Эта основа варьировалась и детализировалась в разных системах. Ана- । из проходит цепочку этапов: ДоСинАн — СинАн — иногда СемАн (или даже Концептуальный Анализ — только для узких ПО). Но это теоретически. Практически же в работающих системах реализован путь от СинП входного предложения до СинП и да- iee цепочки слов выходного предложения. А поскольку многие проблемы синтаксиса не могут быть решены без привлечения i смантики, то в разных системах МП, не имеющих отдельного семантического или концептуального уровней анализа, состав i интаксического компонента сильно разнится (см. приложения '-9). Различия могут объясняться способом задания грамматики (в виде словарных статей, или последовательностью правил не- посредственно составляющих, или системой алгоритмов и т.д.). ()бычно СМП не ограничиваются одним способом, а используют несколько разных способов в разных комбинациях, включая эм- пирические правила, особенно этим грешат промышленные сис- । емы, о принципах работы которых почти ничего не сообщается (СИСТРАН, ПРОМТ). В экспериментальных системах различают системы, работающие «под управлением» словаря, правил, сис- 1емы, основанные на синтаксисе, семантике, знаниях, образцах и т.д. (lexicon-driven, rule-driven, syntax based, semantics based, knowledge based, example-based, etc.). Системы МП второго поколения и выше отличает высокая модульность, что выражается в том, что изменения внутри моду- ля (будь то алгоритм, словарь, грамматика или любое промежу- । очное представление) не влияют на вид информации, подавае- мой на его вход и выдаваемой на его выходе, так что отдельные части грамматик и словарей можно менять и дополнять, не меняя всей системы. Конкретные соотношения различных модулей системы (слова- ри — грамматики, грамматики — алгоритмы, алгоритмы — про- граммы, декларативные — процедурные знания и др.), включая 41
распределение лингвистических данных по уровням, — это то ос- новное, что определяет специфику СМП. § 12. Внешняя и внутренняя оценка СМП В том большом эксперименте, который представляют собой СМП, для каждой полной системы должны быть сформулированы критерии оценки — внешней (оценка результатов работы системы пользователем) и внутренней (оценка самой системой результа- тов каждого этапа — для экспериментальных систем). В исследовании О. Кулагиной рассматриваются основные пара- метры качества, по которым давалась внешняя оценка результа- тов во многих СМП [см.: Кулагина, 1979]. Это понятность и пра- вильность, или адекватность, перевода. При пофразной оценке переводов на массиве 15 тыс. слов, выполненных системой GETA (Франция), вполне понятных фраз оказывалось 50%, не совсем понятных — 28%, совсем непонятных — 22%. Разбиение на клас- сы качества достаточно субъективно. В оценке системы ФР-2 учи- тывались три категории качества: понятность, адекватность и грам- матическая правильность — и проводилось разбиение на катего- рии самих экспертов: лингвисты, математики (т. е. специалисты в той ПО, которой принадлежали тексты) и смешанные группы. Оценка усложняется, если система выдает несколько переводов одной фразы. Возможна и внутрисистемная оценка самой системой резуль- татов каждого этапа. Эту функцию выполняет часто специаль- ный компонент «Аксептор». Самым очевидным случаем самооцен- ки является принцип «все или ничего», т.е. приятие или непри- ятие следующим этапом результатов предыдущего. Таким жест- ким принципом долгое время руководствовались системы второ- го поколения. Если строится дерево предложения, оно поступает на синтез; если же хотя бы на одном участке неудача, вся фраза отбраковывается. В дальнейшем этот принцип был смягчен ис- пользованием эвристик, приписыванием весов, выходом на бо- лее простой режим перевода (перевод по синтаксическим груп- пам, пословный и т.п.), а также особой организацией грамма- тики, когда первым выдается самый лучший вариант (напри- мер, в системе ЭТАП). В сборнике «Машинный перевод и прикладная лингвистика» пред- лагается проводить внутрисистемную оценку (пока теоретически) по основному параметру каждого уровня понимания [см.: МП-271]. Текст перевода должен оцениваться мерой отступления от иде- альных требований: а) непрерывность — это отсутствие вариантов перевода одной и той же единицы; б) грамматическая правильность — отсутствие нарушений за- конов построения синтаксической структуры выходной фразы; в) семантическая связность — отсутствие нарушений правил семантической грамматики и отсутствие разрывов в семантиче- ском графе целого текста; г) осмысленность в данной ПО — возможность непротиворечи- вых интерпретаций структуры целого текста в единицах данной предметной области. § 13. Нерешенные проблемы автоматического понимания и перевода В настоящее время в России существуют и развиваются серь- езные (т. е. с полноценным лингвистическим обеспечением) СМП семейства ЭТАП [см.: Апресян, Богуславский, Иомдин и др., 1989] и система ЯРАП [см.: Шаляпина и др., 2001]. Начато со- щание нескольких «молодых» СМП (с татарского и турецкого языков, по которым появляются робкие заявления и публика- ции), авторы которых заново проходят уже пройденные пути и снова преодолевают те трудности, которые детально описало старшее поколение. На помощь им приходят новые информаци- онные технологии, огромные размеры машинной памяти, кор- пусная лингвистика. Но с помощью только информационных технологий невозможно решить принципиальные узловые про- блемы автоматического понимания текста. Главные проблемы щесь следующие: а) решение неоднозначности формального синтаксического анализа изолированных предложений текста; считается, что фор- мальная неоднозначность решается выходом к семантической ин- терпретации; если таковой нет, синтаксический уровень нужно строить так, чтобы первым выдавался самый правильный вариант — он и поступает на перевод; б) преодоление структурной и смысловой неполноты локаль- ных участков (предложений) текста; видимо, она может быть вос- полнена выходом к межфразовому анализу; для перевода это в первую очередь проблема правильного восстановления антецеден- тов местоимений; в) организация гибкого подключения разных предметных об- ластей к процессу понимания и перевода; эту проблему предлага- ется решать организацией общей онтологии в сочетании с част- ными базами знаний; г) необходимость понимания текста как целого образования (в противоположность псевдопониманию изъятых из него частей). Это необходимо для правильного перевода заголовков, подписей под схемами и другими изолированными частями текста. Решение 43 42
этой проблемы необходимо и для реализации систем перевода класса КВМТ. Эти проблемы нужно решать в комплексе, заранее определяя место для каждой из них в сложной архитектуре системы. При отсутствии общего проектирования названные проблемы будут возникать при анализе каждого отдельного предложения и долж- ны будут решаться эмпирически (т. е. требовать немалых затрат и «заплат»). Первой самой необходимой задачей является поиск способа включения знаний предметной области в лингвистические про- цессоры. § 14. Новая парадигма СМП Мы считаем, что именно осознание факта несимметричности процесса понимания текста привело разработчиков систем МП к смене традиционной парадигмы (в которой анализ и синтез трак- туются как симметричные, хоть и достаточно независимые про- цессы) на несимметричные типы систем. В МП стали преобладать системы перевода через базы знаний — КВМТ (Knowledge-Based Machine Translation), вместо компонента синтеза появились сис- темы типа генераторы текстов [см.: Nirenburg, 1989; и др.]. В но- вой парадигме обострилось внимание к специальным знаниям, к прагматическому аспекту знаний и т.д., что помогает уточнить само понятие семантической структуры текста, разделить поня- тия семантической и концептуальной структур. К компоненту син- теза, или генерации, текста стали предъявлять требования пра- вильно построенного дискурса независимо от того, каков источ- ник информации: семантическое представление ранее проанали- зированного текста, протокол машинного эксперимента, запись в базе данных или даже нетекстовый объект из арсенала средств Multimedia [см.: Roesner, 1987; McKeown, 1988]. Задачи АПТ в свете этой новой парадигмы можно обобщить так: 1. Анализ исходного ЕТ, который обеспечивает построение лингвистических структур, в том числе разных семантических структур, полных, частичных, сжатых, стремящихся представить содержание текста в форме баз данных, в виде концептуального графа и т. д. 2. Сравнение лингвистических структур текста со специальны- ми или с индивидуальными знаниями, также представленными в форме БД. 3. Генерация текстов на основе информации, заключенной в традиционных реляционных БД, а также в концептуальных тек- стовых структурах или в индивидуальных базах знаний. 44
§ 15. Включение предметной области как задача информационно-переводческой системы За подключение любого компонента специальных знаний к процессу понимания исходных естественных текстов ответствен- на лингвистика, это она должна обеспечивать общение друг с рутом «разноязычных» систем: ведь очень непросто включить в ишгвистические структуры экстралингвистические знания, име- ющие совсем другую природу. Правда, в вербальную систему до- пускаются только словесно оформленные знания, но в каждом । иучае система должна преодолевать информационное разноязы- чие: в пределах одного языка, в нашем случае русского, система понимания должна уметь преобразовывать друг в друга объекты разной природы — лингвистические и специальные. Именно поэтому за основу модели «мягкого» (адаптируемого к разным ПО) понимания должна быть взята не просто модель си- > 1см автоматического перевода, реализующих самую полную це- почку работы с текстом, а схема информационно-переводческих > истем. Отказываясь от задачи полного, точного, со всеми линг- вистическими нюансами перевода, эти системы не отказываются «и задачи извлечения и перевода информации, заключенной в и-ксте. Язык, удовлетворяющий как задачам общения текста с разны- ми базами данных, так и задачам перевода с одного ЕЯ на дру- । ой, должен быть информационным языком-посредником. Тогда информационно-переводческие системы смогут осуществлять пе- ревод со сжатием и с использованием баз знаний; при этом вход- ные и выходные единицы (тексты) могут принадлежать разным 11 гественным языкам, отражать разные объемы содержания, мо- । \ г различаться структурами, фокусами внимания и т. д. Структу- ры выходного языка оказываются в этом случае воспринимающей • истемой, т. е. необходимым компонентом информационного ана- II1 за. В приложении 9 схематически показано совмещение функ- ций системы МП, привлечения специальных знаний и сжатия и* кета. До сих пор не создан ни один проект МП, дающий удовлетво- рительное качество перевода. Однако современные системы МП, • н-нованные на детальном, полном анализе текста, содержат в себе большой потенциал, они в принципе многофункциональны. Пути развития систем МП характеризуются большим разнообразием. <) щи системы начинаются с собственно системы машинного пе- ревода и постепенно образуют среду для создания любых прило- 45
жений — не только МП, но и обучающих систем, средств анно- тирования (пока морфо-синтаксического) больших корпусов тек- стов, автоматического редактирования, посредника для общения с базами данных типа SQL, информационного поиска и т. п. Та- ковы цели, которые ставятся сейчас перед лингвистическим про- цессором ЭТАП-3 [см.: Apresian, Boguslavsky, lomdin et al., 2003]. По-видимому, коллектив связывает большие надежды с перехо- дом на сетевой язык межнационального общения UNL. Другие проекты сразу планируются для широкого круга задач. Такова си- стема ПОЛИТЕКСТ, которая получила к настоящему моменту продолжение в виде двух систем: информационной системы РОС- СИЯ и системы МП с русского языка на английский ДИАЛИНГ. Третьи системы сосредоточены на идее перевода через язык-по- средник и базы знаний и развивают методы организации онтоло- гических знаний, общих для разных языков [см.: Nirenburg, Carbonell, Tomita et al., 1992]. В системах МП, работающих в реаль- ном масштабе, главное внимание уделяется средствам автомати- зированного создания больших терминологических банков. В сис- темах, создаваемых в последнее время, возродился интерес к ис- пользованию параллельных корпусов — источника готовых пере- водов словосочетаний, трудных для синтаксического анализа. От- метим и неослабевающий научный интерес к поиску более эко- номной организации комплекса словарей как пока основного ис- точника информации, необходимой для работы систем АПТ. В ра- ботах 3. М. Шаляпиной и С. А. Крылова развиваются более реали- стичные идеи о путях совершенствования систем МП [см.: Шаля- пина, 1996; Крылов, 2004]. Что касается второй работы, то она предлагает гибкое сочетание человеческого и машинного методов с постепенным обучением системы МП. М. Нагао видит будущее МП в создании частных систем [см.: Синтаксический компонент..., 1981]. Этот путь мы далее не рассматриваем, так как нас интересу- ют теория и механизмы создания лишь полностью автоматиче- ских систем. Литература Автоматический перевод: Сб. статей / Под ред. О. С. Кулагиной и И. А. Мельчука. — М., 1971. Актуальные вопросы практической реализации систем автоматиче- ского перевода // Материалы Первого совместного советско-француз- ского семинара, состоявшегося в Москве в 1977 г.: В 2 ч. — М., 1982. Апресян Ю.Д., Богуславский И.М., Иомдин Л.Л. и др. Лингвистическое обеспечение системы ЭТАП-2. — М., 1989. Иомдин Л.Л. Уроки русско-английского (из опыта работы системы машинного перевода) // Труды Международной конференции ДИАЛОГ- 2002. - М., 2002. - Т. 2. - С. 234-244. Искусственный интеллект: Справочник: В 3 кн. — М., 1990. 46
Крылов С. А. Обучаемость системы АЛ как основа осуществимости безошибочного автоматического перевода, или О переходе количества в качество. — М., 2004. Кулагина О.С. Исследования по машинному переводу. — М., 1979. Леонтьева Н.Н. Система французско-русского автоматического перевода (ФРАП): Лингвистические решения, состав, реализация // МП- 271. - М., 1987. - Вып. 271. - С. 6-25. Леонтьева Н.Н., Никогосов С.Л. Система ФРАП и проблема оценки качества автоматического перевода // Машинный перевод и при- кладная лингвистика. — М., 1980. — Вып. 20. — С. 57 — 78. Машинный перевод и прикладная лингвистика. — М., 1958—1985. Мельчук И.А. Опыт теории лингвистических моделей «Смысл « Текст». — М., 1999. Мельчук И.А., Равич Р.Д. Автоматический перевод (1949—1963): Критико-библиографический справочник. — М., 1967. Михеев М.Ю. Перевод на основе базы прецедентных словосочета- ний, или переводных фрагментов // Труды международной конферен- ции ДИАЛОГ-2004. - М., 2004. МП-271 — Машинный перевод и прикладная лингвистика. Проблемы создания системы автоматического перевода: Сб. науч, трудов МГПИИЯ им. М.Тореза. — М., 1987. — Вып. 271. Проблемы анализа и синтеза целого текста в системах машинного перевода, диалоговых и информационных системах. Обзорная информа- ция / Сост. С. И. Гиндин, Н.Н. Леонтьева. — М., 1978. Синтаксический компонент в системах машинного перевода. Обзор- ная информация / Сост. Н.Н.Леонтьева, З.М.Шаляпина и др. — М., 1981. — Вып. 5. Слокум Дж. Обзор разработок по машинному переводу: история вопроса, современное состояние и перспективы развития // Новое в зару- бежной лингвистике. Компьютерная лингвистика. — М., 1989. — Вып. 24. — С. 357-408. Чернов Г. В. Основы синхронного перевода. — М., 1987. Шаляпина З.М. Автоматический перевод: эволюция и современ- ные тенденции // ВЯ. — 1996. — № 2. — С. 105 — 117. Шаляпина З.М. Макет лингвистического обеспечения системы японско-русского АП ЯРАП. — М., 1980. Шаляпина З.М. и др. Экспериментальный комплекс ЯРАП для лингвистических исследований в области японско-русского автомати- ческого перевода: первая очередь. — М., 2001. Apresian J.D., Boguslavsky I.M., lomdin L.L. et al. ETAP-3 Linguistic Processor: A Full-Fledged NLP Implementation of the Meaning <=> Text Theory // First International Conference on Meaning-Text Theory. — Paris, 2003. - P. 279-288. Bernard Vanquois et la TAO. Vingt-cing ans de Traduction Automatique: Analectes / Ed. Ch. Boitet. — Grenoble, 1989. Boitet Ch., Nedobejkine N. Russian-French at GETA: Outline of the Method and Detailed Example // Proceedings of the 8-th International Conference on Computational Linguistics. — Tokyo, 1980. — P. 437—446. 47
Hutchins W.J. Machine Translation: Past, Present, Future. — New York, 1986. Isabelle P., Bourbeau L. TAUM-AVIATION: Its Technical Features and Some Experimental Results // Computational Linguistics. — Grenoble, 1985.-Vol. IL —№ l.-P. 18-27. King M. (ed.), Machine translation today: the state of the art. — Edingurgh, 1987. Kittredge R. The significance of sublanguage for automatic translation. — Pittsburgh, 1987. McKeown K. Text Generation. — Cambridge, 1988. Mel’c’uk LA., Ravic’ R.D. Traduction Automatique (1967—1970) / Ed. A. V. Gladkij. — Montreal, 1978. M й 11 e r A. ARIANE-78, systeme de traduction assistee par ordinateur. — Paris, 1983.-V. 21.-№3. Nirenburg S. Knowledge-Based Machine Translation // Machine Translation. — Pittsburgh, 1989. — № 1. Nirenburg. S., Carbonell J.,Tomita M. etal. Machine Translation: A Knowledge-Based Approach. — Pittsburgh, 1992. Roesner D. The Generation System of the SEMSYN Project: Towards a task — independent Generation for German // 1st European Workshop on Language Generation. — 1987. Slocum J. A Survey of Machine Translation: Its History, Current Status, and Future Prospects// Computational Linguistics. — Grenoble, 1985. — Vol. 11, —№ 1. Sumita E. and lida H. Experiments and Prospects in Example-Based Machine Translation // Proceedings of ACL-91. — P. 185—192. Vauquois B., Boitet Ch. Automated Translation at Grenoble University // Computational Linguistics. — Grenoble, 1985. — Vol. 11. — № 1. — P. 28-36.
ГЛАВА 3 КОМПОНЕНТ ПЕРВИЧНОГО АНАЛИЗА ТЕКСТА Автоматический анализ текста в системе АПТ начинается с разбора поступившего в систему массива текстов', первичного анализа самого массива и далее каждого текста в отдельности. Первичный анализ текстов при всей своей кажущейся просто- if содержит много подводных камней и, как всякий лингвисти- ческий алгоритм, представляет собой довольно сложный и гро- моздкий механизм. Важность этого этапа была осознана не так давно, а именно, когда от экспериментальных упражнений с анализом отдельного предложения внимание разработчиков систем переключилось на проблемы обработки реальных массивов естественных текстов. 11 режде всего с проблемой массива и «целого текста» во всех тех- нических деталях столкнулись работающие системы машинного перевода, принимающие на входе массивы текстов на машиночи- ысмых носителях в разных форматах. Массив, или корпус, текстов стал главным объектом исследо- вания в так называемой «корпусной лингвистике» (англ, corpus linguistics') (см. гл. 13). Но корпусная лингвистика и МП имеют раз- ные цели, и если первая может ограничиться упрощенным под- ходом к обработке сырого текстового материала в больших объ- емах, то для МП важно значение каждого знака препинания: так, неправильное определение границ предложений приводит к ис- кажению перевода. В общем случае система АПТ должна быть снабжена компонен- том, классифицирующим входные тексты по разным основаниям — но языку, жанру, по принадлежности к вышестоящему массиву, по времени создания, автору и т.д. В дальнейшем для разных под- массивов могут потребоваться разные процедуры обработки. Задачу разбиения массива на подмассивы нельзя считать «внеш- ней»: ведь подобное вычленение система должна проводить и внут- ри каждого текста, выделяя заголовки, подзаголовки, имена ав- юров, сноски, эпиграфы и другие лингвистически значимые ча- с ги. Подобно сложным предложениям, состоящим из нескольких простых предложений, существуют и сложные тексты, состоящие 49
из нескольких простых текстов, да еще принадлежащих разные жанрам (стихотворение, вставленное в прозаический текст, списга- и т.п.). Обработку массива и текста, выделяющую самые крупные единицы, можно назвать композиционным или структурным ана- лизом массива и текста. К нему относится выделение в составе текста схем, таблиц и рисунков с подрисуночными надписями сносок, примечаний, приложений и т. д., сюда же отнесем и уточ- нение границ абзацев, которые могут быть разорваны разными вставками (рисунками, формулами, длинными списками...). В си- стемах МП их выносят в «посттекст», чтобы переводить отдельно а затем вставлять в текст на нужные места (когда возникает необ- ходимость выравнивания (alignment) исходного текста и текста пе- ревода). Эту трудоемкую работу мы стремимся переложить на Си- стему, но для исправления ошибок и принятия решений в труд- ных ситуациях (склеенные тексты, несколько заголовков у тек- ста, путаница в нумерации разделов в технической документации и др.) приходится иногда обращаться к человеку. От самых крупных перейдем к самым малым текстовым едини- цам — словам (tokens), определяемым на первом шаге как цепоч- ки знаков от пробела до пробела. Процедура разделения потоке знаков на слова или приравненные к ним единицы названа в за- падной литературе токенизацией (tokenization)', в русской тради- ции ее принято называть графематическим анализом (ГрафАн). иногда и весь первичный анализ называют так же. Собственно ГрафАн имеет целью анализ и классификацию тек- стовых единиц; в этой классификации важно выделить класс слов (словоформ), которые станут далее объектом морфологического анализа. Наконец, к средним единицам относятся предложения и похо- жие на них образования, определяемые как «цепочки слов, окан- чивающиеся знаком конца предложения (точка, вопросительный и восклицательный знаки)». Ясно, что этого типографского опре- деления недостаточно для систем типа АПТ, и алгоритмы сегмен- тации, или фрагментации текста (англ, text segmentation), гораздо сложнее; они являются уже началом синтаксического анализа. Эти и другие подобные задачи объединяют в отдельную подси- стему, называемую препроцессором (preprocessing). В полной систе- ме АПТ многие из таких задач завершаются только в самом конце работы; именно на начальных и конечных этапах работы системы МП больше всего привлекается человек; в англоязычной литера- туре по СМП для них использовался термин front-end processors. Массив текстов как целое имеет свою семантику, поэтому не первых шагах в любой системе АПТ важно выявить и зафиксиро- вать все свойства данного текста. И лишь следующие уровни ана- лиза могут уточнить роль той или иной текстовой единицы либс способа ее выделения. Так, слово, написанное в разрядку (напри- 50
мер, приказываю), нарушает типографское определение слова i лк «цепочки знаков между двумя пробелами». Такие слова или пыделенные как-то иначе (жирный шрифт, подчеркивание и др.) юлжны получить больший информационный вес на соответству- ющем уровне, но сначала их надо опознать по словарю как обыч- ные слова. Для этого нужно убрать лишние пробелы, но оставить информацию о том, что они были. И это только одна маленькая <адача первичного анализа. § 16. Состав компонента первичного анализа текста Компонент первичного анализа выполняет следующие задачи. 1. Структурирование массива, или документный анализ корпу- са. Каждый выделенный (или выбранный для анализа) текст объяв- ляется документом и снабжается идентификаторами, принятыми в Системе. 2. Сегментирование (фрагментация) текста. Текст делится на предложения или близкие к ним фрагменты, для которых можно пытаться строить синтаксическую структуру. 3. Собственно графематический анализ. Поток текстовых зна- ков делится на слова (или псевдослова), т.е. минимальные линг- вистически значимые элементы текста. Перечисление процедур дано здесь «сверху вниз», от анализа крупных объектов к самым мелким. Развитие корпусной лингвис- тики приведет в конечном счете к тому, что поступающие в сис- тему АПТ массивы будут уже структурированы и в значительной степени (хотя бы на морфологическом уровне) проиндексирова- ны. Но пока мы будем исходить из того, что на вход системы поступает мало структурированный или совсем неструктуриро- ванный массив. Анализ текста обычно начинается с определения свойств самых мелких единиц, но в каждой задаче и для каждого типа обрабатываемого массива могут быть найдены свои наиболее эффективные комбинации реальных процедур. В качестве иллюстрации функций первичного анализа рассмот- рим комплекс начальных процессоров системы ПОЛИТЕКСТ. Компонент первичного анализа в ней был настроен на анализ сложного и специфического корпуса текстов официальных и пра- вительственных документов, но в принципе он принимает на входе любые (неразмеченные) тексты, стремясь к исчерпываю- щей подробности анализа. Он включает: а) предварительную (автоматическую и автоматизированную) обработку массива; б) автоматическое формирование «шапки» (или внешней дес- крипции) для каждого документа входного корпуса; 51
в) ГрафАн (tokenizatiori), подготавливающий контекст для ра- боты следующих этапов (морфологического анализа, этапа срав- нения с базами данных и др.); г) композиционный анализ, устанавливающий иерархию еди- ниц типа «абзац» и «предложение» и создающий основу для даль- нейших этапов, в основном для синтаксического анализа. Полученные данные заносятся в отдельные структуры, кото- рые могут быть в дальнейшем предметом обращения к ним из ИПС, а также из разных лингвистических процессоров. Препроцессор: подготовка массива Все документы массива проходят предварительную обработку, которая включает три шага. 1. Сложные документы автоматически разбиваются на части (основной текст и каждое приложение в отдельности). Эти части объявляются самостоятельными документами и помещаются в отдельные файлы с уникальными именами, отражающими связи приложений с основным документом. 2. Для каждого такого самостоятельного документа автомати- чески строится шапка, в нее записываются формальные призна- ки документа. Для основного документа — это тип документа, заголовок, место и дата подписания, подписывающая инстанция, номер, дата, имя соответствующего файла, количество приложе- ний; для приложений (и подприложений, т.е. приложений к при- ложению) также указывается порядковый номер приложения, его заголовок. При этом выводятся в отдельный файл для дальнейше- го просмотра нестандартно или ошибочно оформленные внешние реквизиты документа. Таких «плохих» ситуаций немного: напри- мер, документ со следующим номером отсутствует в массиве; нет подписи; объявлено, но отсутствует приложение, и т.п. Их выяв- ление важно для обеспечения полноты и чистоты массива. 3. Проверяется и корректируется орфография документов; про- сматриваются «плохие» ситуации; недостающие части досыпают- ся в основной массив. Препроцессор: создание внешней дескрипции документа После этапа предварительной обработки сложный документ из базы исходных текстов разбит на относительно независимые ком- поненты, один из которых (обязательный) является основным документом, а остальные (если они есть) — документами-прило- жениями. С каждым документом связан свой набор реквизитов. Описание документа складывается из двух частей — внешней и внутренней дескрипций. Первая включает набор внешних реквизи- тов, куда входят такие параметры, как имя массива, дата выпуска 52
i умента, название инстанции, выпустившей этот документ, и < Эти данные вводятся в явном виде, называются шапкой доку- । 111 а и помещаются в файл с расширением *.hdr. Массив шапок <1». । *ует отдельный файл с именем HEADER. Внутренняя дескрип- I I - это набор внутренних характеристик, структуры разных уров- I I анализа текста (морфологическая и следующие), построенные । юмой на данный момент. В файле *.hdr отражены лишь сведе- 11 о наличии соответствующих структур с отсылкой к ним. I е и другие данные становятся внешними реквизитами доку- in га. Все реквизиты представлены в виде полей и их значений, и г । этически все могут использоваться как поисковые характери- 1ки, представляющие интерес для разных категорий пользова- н’й. Ниже перечислены поля внешней дескрипции документа. МАССИВ КЛАСС_ДОК Название массива документов Класс документа. Здесь используется клас- сификация, которая принята у выпускающей этот документ организации, например: указ, распоряжение инет Инстанция: организация или орган, выпус- тившие этот документ, например: Президент РФ, Государственная Дума РФ 1 ИПЛОК Тип документа. Значение этого параметра выводится из предыдущих двух, при этом учитывается, что организаций, связанных с документом, может быть больше одной. На- пример: Соглашение между Правительством и профсоюзом шахтеров 1ИП_ПРИЛ Тип приложения, например: проект, пере- вод, форма, график, смета и т.д. Этот пара- метр определен только на приложениях подпись ЮЛЖ-ПОДП Имя деятеля, подписавшего документ Должность государственного деятеля, подпи- савшего документ 1АТА_ПОДП МЕСТО_ПОДП Дата выпуска (или подписания) документа Место подписания документа, например: Москва, Кремль СТАТУС Статус документа, например: одобрено, при- нято', организация, утвердившая этот статус; дата утверждения N_TEKCT Номер документа в системе выпустившей его организации, например: 125-рп РАЗМЕР МВХОД Размер документа (в байтах и строках) Отсылка к файлу, в котором находится вход- ной текст документа МВЫХОД Отсылка к файлу, в котором находится текст компоненты, связанной с этим набором внеш- них реквизитов 53
ЗГЛ Заголовок текста компоненты КВА_ТИП Условный тип документа, например: мемо- рандум, протокол. Это деление разбиваем документы на более мелкие по сравнению с признаком ТИП^ЦОК классы Часть внешней дескрипции документа, начиная с поля СТРУКТ, содержит поля, отсылающие к тем структурам внутренней де- скрипции, которые уже реализованы в системе. СТРУКТ Отсылка к файлу макроструктуры *.str • ЛЕКС Отсылка к файлу лемматизации *.1ет ТЕМЫ Отсылка к файлам с тематическим представ- лением *.pod СЕМ Отсылка к файлам семантических объектов *.sem СИТ Отсылка к файлу ситуаций *.sit ССЫЛКИ Отсылка к файлу с именами документов, на которые ссылается данный документ *.ref Значения многих параметров, определенных для основного документа, наследуются приложениями. Так, например, параметр ДАТАПОДП будет одним и тем же для основного документа и для его приложений. Из перечисленных выше только два параметра имеют самосто- ятельный статус для приложений — это ЗГЛ и ТИП_ПРИЛ. Пер- вый параметр имеет такой статус, потому что приложение само может иметь заголовок, отличный от заголовка основного доку- мента, а второй — потому что ТИП_ПРИЛ не определен для ос- новного документа. Кроме полей, содержащих значения параметров документа, в файл *.hdr включены поля, играющие вспомогательную роль. НАЧАЛО Поле, которое в записи файла *.hdr всегда стоит первым. Его значением является уни- кальный номер этого файла, который стро- ится для всякого выходного файла програм- мы HEADER КОНЕЦ Поле, которое в записи файла *.hdr всегда стоит последним. Его значением является дата построения этого файла КОММ Поле комментария ГЛАВ_ДОК Поле отсылки к тексту основного документа. Это поле появляется только в реквизитах приложений С каждым полем связан некоторый тип значения. Если нужно вклю- чить в файл два значения для полей с одинаковым названием, их различают с помощью идентификаторов значений, например: 54
АВТОР[0] Б. Ельцин ЛВТ0Р[1] Е. Гайдар Пример внешней дескрипции: НАЧАЛО инет КЛАСС_ДОК типлок ДАТА_ПОДП ЗГЛ М_ВХОД N_TEKCT N-ВЫХОД ПОДПИСЬ = 1002513 = Правительство РФ = Распоряжение = Распоряжение Правительства РФ = 01/1211992 = нет = C:\PROCESS\IN;unknown.aij;_S2012000.TXT = 120-р = C:\PROCESS\OUT;unknown.aij;_S201200.TXT = С. Шахрай МЕСТО_ПОДП = Москва ДОЛЖ_ПОДП КОЛ_ПРИЛ МАССИВ РАЗМЕР КОНЕЦ = Заместитель Председателя Правительства РФ = 0 = Собрание законодательных актов РФ = 652 байт 88 строк = 07/08/1996 Стандарты оформления документов Узнавание границ документов опирается на понятие стандарта оформления документов, который в свою очередь определяется расположением таких частей документа, как заголовок, подпись, гриф и т.п. Для проведения успешного анализа текста программа HEADER каждый раз должна определять, какому стандарту удовлетворяет загруженный в нее документ. Программе заранее задано несколь- ко стандартов, и перед запуском пользователь может указать но- мер стандарта, по которому нужно анализировать входной текст. Программа работала с пятью стандартами: 1. Стандарт законодательного акта «Дата вверху». 2. Стандарт законодательного акта «Дата внизу». 3. Стандарт законов «Со статусом». 4. Стандарт советско-американских документов. 5. Свободный текст. Количество и вид стандартов должны задаваться в зависимости от того, с какими массивами имеет дело реально работающая си- стема. Программа HEADER, перебирая все известные ей стандарты, пытается найти самый подходящий. Им будет стандарт, по кото- рому опозналось наибольшее число частей текста, при этом ни их размеры, ни их расположение в тексте можно не учитывать. По- этому если входной документ полностью удовлетворяет какому- то из заданных стандартов, программа сможет найти его. При выде- 55
лении единиц типа ЗГЛ программа использует признак «центри- рованности» записи и выдает сигналы возможной ошибки. В комплексе правил, задающих стандарт документа, могут быть учтены и более тонкие различия, например жанровые особенно- сти текста. После того как проработал комплекс программ-препроцессо- ров и человек снял все вопросы, о которых сообщила система, процесс переходит в полностью автоматический режим, в составе которого тот же комплекс ГрафАн работает уже не на структури- рование массива и создание внешних дескрипций, а как начало лингвистического этапа создания внутренней дескрипции текста. § 17. Собственно графематический анализ На вход этапа ГрафАн текста поступает массив документов, в котором каждый документ имеет свое имя с расширением *.txt. На выходе будет создан файл, имеющий то же имя, но с расши- рением *.gra. ГрафАн выполняет следующие функции: а) делит поток текста на псевдослова, одновременно класси- фицируя их. Этим единицам уже на этой стадии приписана какая- то информация для последующего анализа (например, ББ — сло- во, состоящее из заглавных букв, Бб — слово, начинающееся с заглавной буквы, и т.д.). Для этого задаются списки элементов, которыми являются буквы основного, в нашем случае русского, алфавита, буквы латинского и других алфавитов, цифры, знаки препинания и т.п.; б) упорядочивает по частоте все выделенные лексемы текста; в) объединяет некоторые комбинации слов в более крупные единицы — «устойчивые обороты» (ставит признаки начала и конца оборота: ОБ1...ОБ2); г) дает специальный признак словам — потенциальным име- нам (ИМ?); д) в ряде очевидных случаев снимает омонимию точки (ставит признак ЛЖ — ложная точка); е) ведет счет и контроль пунктов перечислений; ж) выделяет и нумерует абзацы. Начальное слово абзаца имеет признак АБЗ с соответствующим номером, конечный элемент — признак УП, что означает условно-предложение. В рассматривае- мом корпусе текстов абзац состоит, как правило, из одного пред- ложения. УП выделяются на основе расположения пустых и крас- ных строк текста. На выходе ГрафАн строится несколько файлов, из них основ- ной — Графематическое представление. Это первая из множества структур, образующих внутреннюю дескрипцию текста. Пример 56
I рафП приведен в конце следующей главы: это структура после риооты ГрафАн и следующего за ним этапа. Кроме небольших словариков графических знаков программа I рафАн использует список устойчивых неизменяемых оборотов, [ огорые нужно узнать в тексте. Их около 500, на уровне ГрафАн i и' используется информация всей словарной статьи (см. гл. 12). В отдельные единицы должны быть также выделены выраже- ния внутри скобок, внутри кавычек и другие отмеченные графи- чески (например, особым шрифтом) единицы: все они могут быть • емантически значимы, что выяснится только на следующих уров- нях анализа. Основной массив знаков текста составляют буквы основного с гественно-языкового алфавита, их непрерывные цепочки явля- югся нормальными словами. В том же тексте возможны цепочки, принадлежащие разным ЕЯ-алфавитам, хотя даже в составе одной цепочки возможна комбинация знаков разных ЕЯ-алфавитов (на- пример, AKadeMux). Другие частые знаки — это цифры и знаки препинания. Реже в кющих текстах встречаются разные специальные знаки (например, ооозначения градуса, знаки >, = ,<,№ и т.п. — их можно объеди- нить со знаками препинания, сокращенно ЗПР). Будем считать их иементарными текстовыми единицами, включим в их число так- : е знак пробела, признак абзаца, признак конца строки и др., । с. все те, которые выполняют какие-то смыслоразличительные ипи структурные функции. Первичное определение слова как последовательности знаков между двумя пробелами подвергается процедурным поправкам. Во- первых, при автоматической обработке все знаки препинания юлжны быть отделены от буквенных цепочек и друг от друга про- белами, чтобы знаки препинания тоже стали (квази) словами и им можно было приписать необходимую информацию. Так, цепочка знаков «(ссылка),-» будет разбита на следующие слова»: « — открывающая кавычка; ( — открывающая скобка; ссылка — нормальное слово (лексическая единица); ) — закрывающая скобка; , — запятая; — дефис; » — закрывающая кавычка. Каждому из таких слов приписана определенная информация, необходимая для понимания их роли на синтаксическом и/или семантическом уровне. Во-вторых, некоторые разделенные про- оелами буквы надо соединить (это относится к словам, написан- ным в разрядку, например, постановляю). 57
Цепочки цифровых знаков требуют несколько иных правил обработки. Например, точка и запятая между цифрами не должны рассматриваться как разделители, т.е. как отдельные «слова»: 10,325 — одно слово (с информацией «цифровой комплекс» — ЦК), 1.000.000 — то же. Знаки >,+, = , — и другие арифметические знаки и их комби- нации являются отдельными словами с отчетливой семантикой (это операции). Поэтому, задавая словники и словари для ГрафАн, необходи- мо настраивать их на тип текстов. Перечислим вычленяемые в данной системе типы единиц, вклю- ченные в систему детального анализа текста. ЛЕ — однословная лексическая единица, состоящая из букв одно- го алфавита (президент, приказывать, стал, зависимый, пока, пора, над, от, что)', ИЛЕ — иноязычная лексема (alibi)', ЧЛЕ — часть лексемы (например, квази-, не-, голубо-, -градусный)', ЦК — цифровой комплекс (например, 1989, 21/03/85)-, ЦБК — цифробуквенный комплекс (БЭСМ-6, ТУ-154); АББР — аббревиатура (477, ИНФОРМЭлектро, РАН, СМИ); СЛУ — сложный узел (например, D'.\Comp\Rus-45), если необхо- димо представить подобный фрагмент как одну единицу; СЛСЧ — словосочетание (в зависимости от, в связи с, на высшем уровне, в соответствии с, и т.п.), приравниваемое к нормальной ЛЕ (если за- дан список таких неизменяемых цепочек слов). Все такие единицы могут в дальнейшем быть входами в семан- тический словарь, где даются их дифференцированные описания. Если их нет в словаре, анализ вынужден довольствоваться инфор- мацией к самому символу: ЛЕ, ИЛЕ, ЦБК, АББР и др. Детальный анализ мелких текстовых единиц с содержательной точки зрения и разрешение создаваемых ими всевозможных не- однозначностей описаны в ранней работе В. 3. Санникова [см.: Сан- ников, 1969]. Ряд проблем ГрафАн затронут в статьях С. А. Крыло- ва [см.: Крылов, Старостин, 2003]. § 18. Макросинтаксический анализ Важнейшей задачей первичного анализа является сегментация текста на отдельные предложения. Самое простое (школьное и типографское) определение предложения — цепочка слов, оканчи- вающаяся одним из знаков конца предложения, т. е. точкой, воп- росительным или восклицательным знаком. В реальных текстах, которые становятся документами системы АПТ, существует мно- го единиц типа «предложение», нарушающих это определение. 58
В рассматриваемом нами иллюстративном массиве основной । кст поделен на абзацы, которые в основном равны предложе- ниям, но не всегда, поэтому они названы условно-предложения- ш. Это естественное деление (каждый абзац равен УП) облегчает । щачу сегментирования. В системе ПОЛИТЕКСТ работал этап цикросинтаксического анализа (МакСинАн), который не только иыделял крупные фрагменты документа, но и устанавливал их иерархию. На вход МакСинАн подается текст, разбитый на фрагменты шумя различными способами: первый («сверху-вниз») вычленяет имые крупные единицы документа, отделяя внешние реквизиты • «г тела текста, т.е. от самого текста; второй («снизу-вверх») фор- мирует самые мелкие единицы документа по графематическим при- знакам как внутри тела текста, так и в составе каждого реквизита. Задача сводится к вычленению средних по величине единиц в ц’ле текста и установлению макроотношений, связывающих доку- мент (ДОК), множество УП и внешние реквизиты (квазиедини- ны), т. е. связывающих крупные части текста в единый документ. Каждое из УП приписывается к некоторому типу. Их, как и пшов границ, немного, перечислим их (справа названы наиболее существенные признаки): 1. Квазитекстовый Тип: УП должно иметь пересечение с каким- нибудь Квазитекстовым отрезком, т.е. внешним реквизитом, найденным на предыдущем этапе анализа. 2. Заголовочный Тип: Центрированность относительно УП внутри текста, отделенность УП с обеих сторон пустыми строчками и т. п. 3. Вводящий Тип: УП заканчивается двоеточием. 4. Выделительный Тип: Все УП, полностью заключенные в пар- ные знаки препинания (кавычки, скоб- ки). 5. Простой Тип: Все остальные УП, кроме вышеперечис- ленных. 6. Перечислительный Тип: УП введено каким-то знаком перечис- ления. Например, МакСинАн так разобьет на УП следующий текст: Квази1 СОВЕТ МИНИСТРОВ - ПРАВИТЕЛЬСТВО РОССИЙ- СКОЙ ФЕДЕРАЦИИ Квази2 ПОСТАНОВЛЕНИЕ КвазиЗ от 5 апреля 1993 г. № 274 г. Москва ЗГЛ1 Об участии российской делегации в дипломатической кон- ференции по рассмотрению и принятию Протокола 1993 года к Торремолиносской международной конвенции по безопас- ности рыболовных судов 1977 года 59
Ввод1 Совет Министров — Правительство Российской Феде- рации постановляет-. , УП2 1. Принять предложение ККомитета Российской Феде- рации по рыболовству об участии российской делегации в дипломатической конференции по рассмотрению и при- нятию Протокола 1993 года к Торремолиносской между- народной конвенции по безопасности рыболовных су- дов 1977 года. УПЗ Назначить руководителем российской делегации на ука- занной конференции заместителя председателя Комитета Российской Федерации по рыболовству Ширяева Евгения Дмитриевича. УП4 2. Одобрить проект Протокола 1993 года к Торремолинос- ской международной конвенции по безопасности рыболов- ных судов 1977 года (прилагается). УП5 Разрешить вносить в текст проекта Протокола измене- ния и дополнения, не имеющие принципиального характера. УП6 Комитету Российской Федерации по рыболовству подпи- сать от имени Правительства Российской Федерации Про- токол, предусмотренный настоящим постановлением, с ого- воркой о последующем его одобрении в установленном за- конодательством Российской Федерации порядке. Квази4 Председатель Совета Министров — Правительства Рос- сийской Федерации В. Черномырдин Программа МакСинАн различает три типа макроотношений: однородность, или вхождение перечислительных УП в множе- ственный узел МНУ{УП52,УП53,УП54}; управление (=»), т.е. подчинение узлов типа МНУ вводящему УП; все квазиединицы тоже образуют множественный узел, кото- рый управляется символом документа; примыкание (->), т.е. простое следование (УП54-УУП55). Макросинтаксическая структура для приведенного текста бу- дет следующей: Док => МНУ (Квази!,Квази2,КвазиЗ,ЗГЛ1,Квази4) ЗГЛ1 => Ввод! Ввод! => МНУ (УП2,УП4) УП2 -» УПЗ УП4 -» УП5 УП5 -» УП6 § 19. Проблема анализа прерванных высказываний После работы этапа МакСинАн многие предложения оказыва- ются разорванными, «размытыми» по нескольким абзацам. Они попадают в разные УП, как в примере выше: Совет Министров... постановляет (УШввод) 1) Принять пред- ложение... (УП2) 2) Одобрить проект... (УП4). 60
Для нормального синтаксического анализа такие разорванные (предложения надо собирать из разных УП (абзацев). Эти трудности при анализе массива официальных документов, I t акже большинства научно-технических текстов возникают из- м несовпадения разных членений текста на крупные единицы: предложение (максимальная единица синтаксического уровня) — высказывание (единица семантического уровня) — абзац (едини- >1.1 композиционной структуры текста). Естественное членение «скета на абзацы — а именно его проводит первичный анализ I г кета в системе ПОЛИТЕКСТ — не совпадает в общем случае ни । синтаксическим членением на предложения, ни с семантиче- ким членением на высказывания. Трудными для анализа оказы- щ, потея не только длинные и запутанные предложения, но и слиш- । ом короткие, синтаксически неполные, получившие формаль- ный статус предложения. Пример 1: ...7. Правительству Москвы в месячный срок: а) осуществить передачу комплекса зданий по адресу: Лучников пер., ihnta 2,4; Большой Комсомольский пер., дом 8; Новая площадь, дом 6; Боль- шой Черкасский пер., дом 5, на баланс Российского общественно-полити- ческого центра; б) начать строительство... Пример 2: .. .3. Главное управление принимает необходимые меры по созданию ус- ювий для: реализации Президентом Российской Федерации полномочий гаранта прав и свобод человека и гражданина; решения Президентом Российской Федерации вопросов гражданства... В данных примерах мы имеем дело с прерванными высказыва- i । иями. Так, в примере 2 все три абзаца — предполагаемые макси- мальные единицы, за пределы которых не выходит синтаксиче- i кий анализ. Для первого из них синтаксис построит структуру, которая будет отброшена как неправильная (не найдено управляе- мое предлогом имя), а во втором и третьем будет выбран из двух возможных неправильный вариант (т. е. для словоформы реализации оудет выбрано значение именительного падежа как для вершины самостоятельного предложения, то же самое для словоформы ре- шения). Семантически же ни одно из них ни порознь, ни вместе не образуют законченного высказывания. Иначе говоря, и синтакси- чески, и семантически все они — неполные, неполноценные еди- ницы. Чтобы соединить разрозненные части высказывания в одну полноценную единицу, нужно найти части прерванного высказы- вания и установить характер неполноты (отсутствует предикат, опущены обязательные актанты, нет главного члена группы и др.). 61
Ту же задачу, но уже в рамках СинАн решают процедуры сег- ментации сложных предложений. Их цель — определить правиль- ные структуры простых высказываний в составе сложного пред- ложения, чтобы в дальнейшем сопоставить им структуры Ситуа- ций. В алгоритме, предложенном Л. Н. Иорданской, межсегмен- тантный анализ опирается на свойства правильной синтаксиче- ской структуры [см.: Иорданская, 1967], а в работе Т.Ю. Кобзаре- вой и ее программной реализации, выполненной И. М. Ножовым, анализ сегментной структуры использует свойство рекурсивности линейной структуры русского предложения [см.: Кобзарева, 2004. Ножов, 2003]. Хотя многие признаки прерванности и оказывается возможным определить по результатам ранних стадий анализа, нс окончательная композиционная структура текста в сложных слу- чаях формируется в ходе полноценного синтаксического и даже семантического анализа. Итак, чтобы иметь выход к задачам разной степени сложности, первичный анализ должен иметь установку ничего не потерять. В результате работы только первичного анализа мы получаем хорошо структурированный массив, который может служить ос- новой для работы любых систем АПТ. Многие, казалось бы, тех- нические решения имеют лингвистический смысл, они связаны с общей моделью системы, определяют характер задач, которые может решать данная система. Если их дополнить этапом морфо- логического анализа, они образуют большой комплекс, который можно назвать досинтаксическим компонентом. Такой комплекс, созданный еще в 1997 г. и реализованный программистами А. Со- кирко и Ж. Аношкиной, до сих пор устойчиво работает в составе УИС РОССИЯ, а также включен в ряд других систем. Макросинтаксический анализ представляет собой мощное сред- ство обработки текста: разбивая текст на структурно подобные фрагменты, он облегчает задачи и синтаксического анализа (у пе- речислительных пассажей особый синтаксис и т.д.), и семанти- ческого (семантика знает, к какому фрагменту нужно обратиться для восстановления опущенных на данном участке частей смыс- ла). Он позволяет также корректировать ошибки оформления стан- дартных или официальных документов. Поскольку работающий далее полный цикл лингвистического анализа (или лингвисти- ческой экспертизы) строит структуры отдельно для каждой мак- росинтаксической единицы, это позволит при поиске выдавать ответ с точностью до абзаца и предложения. Заметим, что модуль МакроСинАн настроен не на предметную область, а на корпус текстов со своей структурой. Подобную слож- ную структуру имеет и техническая документация. 62
Литература Иорданская Л.Н. Автоматический синтаксический анализ. Меж- । ментный синтаксический анализ. — Новосибирск, 1967. Кнорина Л.В. Особенности употребления и возможности обработ- н неизменяемых имен (на материале текстов по информатике) // НТИ. — нр. 2. - 1972. - № 6. Кобзарева Т.Ю. Принципы сегментационного анализа русского пред- ! « нения // Московский лингвистический журнал. — М., 2004. — Т. 8. — № 1. Крылов С.А., Старостин С.А. Актуальные задачи морфологи- « ского анализа и синтеза в интегрированной информационной среде d ARLING И Компьютерная лингвистика и интеллектуальные техноло- «ии. Труды Международной конференции ДИАЛОГ-2003. — Протвино, 2003. Леонтьева Н.Н. «ПОЛИТЕКСТ»: информационный анализ поли- тических текстов // НТИ. — 1995. — Сер. 2. — № 4. Ножов И. М. Реализация автоматической синтаксической сегмента- <ши русского предложения. — М., 2003. Санников В.З. О выделении фраз и морфологическом анализе гра- фических сокращений в русском тексте // Машинный перевод и при- глядная лингвистика. — М., 1969. — № 12. — С. 150—175. Сокирко А.В. Графематический процессор в системе ПОЛИТЕКСТ. Курсовая работа. — М., 1993. International Journal of Corpus Linguistics (IJCL) // Ed. W. Teubert. — Amsterdam, 1996 — 2001.
ГЛАВА 4 КОМПОНЕНТ МОРФОЛОГИЧЕСКОГО АНАЛИЗА Морфологический анализ (МорфАн) в системах АПТ прово- дится вслед за графематическим, а вместе они образуют комп- лекс первичного, досинтаксического анализа. Цель морфологического анализа в системе АПТ состоит в том, чтобы для каждого текстового элемента, выделенного графемати- ческим анализом как словоформа основного языка, определить: а) полную морфологическую характеристику (морфолого-син- таксический класс плюс полный набор значений для категорий, свойственных этому классу); б) лемму (или основную форму слова). Если словоформа имеет несколько морфологических прочте- ний, ей должны быть сопоставлены все омонимичные «лемма плюс морфологические характеристики». наборы Структуру, полученную как результат проведения МорфАн по всему тексту, принято называть морфологическим представлением текста (МорфП). По цели «а» более корректно говорить о МорфП словоформы, поскольку морфологические характеристики получа- ют не текст и даже не все единицы текста, а только словоформы1: Словоформы ЛЕММЫ МорфП словоформ потом ПОТОМ пот Наречие, неизм. Сущ., но, ед., тв. берегу БЕРЕГ БЕРЕЧЬ Сущ., но, ед., дат. Гл., наст., несов, 1 л., ед. дорогой ДОРОГА ДОРОГОЙ Сущ., но, ед., тв. Прил., ед., им.-вин. Не менее важно то, какую словарную единицу (лемму, лексе- му) представляет данная словоформа, поэтому весь набор слов/ лемм, выявленных в тексте, как узнанных по словарям, так и не опознанных, можно назвать лексическим представлением (ЛексП) 1 Сокращения грамматических терминов даны так, как это было принято в системе ФРАП. 64
I'lsi'k-cma по цели «б». Но если учесть наличие других типов единиц н'ксте (цифры, знаки препинания и др.; см. гл. 3), то уместно и »I I ее осторожное название — поэлементное представление пред- шжения и текста (эта терминология была принята в системе ОРАП). Поэлементный состав текста, полученный после первич- , «н о этапа (ГрафАн + МорфАн), в ходе дальнейшего анализа уточ- няется, многие варианты отбраковываются и в идеале должно ктаться истинное и неизбыточное ЛексП. В корпусной лингвистике для процедуры МорфАн используют и рмины индексирование и тегирование (приписывание морфоло- к» синтаксических классов — тэгов, или тегов, англ. tag). Резуль- I I г тегирования всего корпуса называют также морфологически 1‘взмеченным или аннотированным корпусом. В дальнейшем эти ц'рмины стали применять и к следующим уровням разметки: на- пример, говорят «синтаксическая аннотация», «семантические I )ГИ». § 20. Подходы к МорфАн В системах АПТ приняты два метода проведения МорфАн: 1) словарный — при этом морфологический словарь может быть .адан как: а) словарь словоформ; б) словарь основ; 2) бессловарный. Так называемый бессловарный метод тоже без словарей не об- ходится: не задается только словарь значимых элементов (основ или полных словоформ), но задается словарь возможных оконча- ний (псевдоокончаний, или «хвостов») с приписанной им ин- формацией о возможных грамматических значениях. Каждый из этих методов имеет свои преимущества и недостат- ки или трудности. В начале, когда нужно было экономить память машин, развивался метод анализа со словарем основ, но по мере того как была снята проблема дефицита памяти, а развитие ин- формационных технологий дало возможность быстро формиро- вать словники словоформ из любого текста для любого языка, в крупных системах стали преобладать словари словоформ даже для таких развитых флективных языков, как русский. Объясняется это большей простотой (не нужно создавать сложных правил учета чередований в основе слов и т.д.) и большей универсальностью алгоритмов работы морфологического уровня: одни и те же про- граммы могут использоваться для морфологического анализа тек- стов на разных языках. Лингвистическое обеспечение (приписы- 3 Леонтьева 65
вание морфологических информаций каждой новой словоформе, превратилось в техническую задачу благодаря наличию в маши- ночитаемом виде словарей, создаваемых на основе Грамматиче- ского словаря А. А. Зализняка [см.: Зализняк, 2003]. Однако как бы ни задать словарь (основ или словоформ), вста- нет проблема анализа новых, т. е. не найденных в словаре, ело! (в частности, собственных имен, искаженных слов, аббревиату! и т.д.). Типичный прием морфоанализа неопознанных слов — это создание гипотетических информаций по аналогии с известными.’ Бессловарный метод МорфАн более прост, но он дает больше «шума», т. е. вариантов анализа, поскольку все слова оказываются новыми. Ниже некоторые подходы рассматриваются подробнее. МорфАн со словарем основ и словарем окончаний Это наиболее лингвистический путь. На входе — словарь основ (с разделением на типы основ) и словарь окончаний (со всеми информациями, которые может иметь каждое из них). Обычно словарь основ включает квазиосновы, а в словарь окончаний (аф- фиксов) помещают квазиокончания, если это упрощает узнава- ние. Из-за развитой омонимии окончаний с самого начала в слова- ре основ каждой основе приписываются типы основ (разные для существительных, глаголов и прилагательных), а каждому аффиксу приписана информация о том, с какими типами основ он может сочетаться. Алгоритм МорфАн имеет в общих чертах следующую структуру. 1) последовательное отделение от конца словоформы возмож- ных (заданных списком) аффиксов; оставшиеся части объявля- ются гипотетическими основами; 2) поиск полученной основы (основ) по словарю основ на совпадение; 3) определение совместимости информаций к аффиксам и ос- новам, разрешение дизъюнкции информаций к аффиксу в зави- симости от типа основы; возможные конфликты совместимости решаются алгоритмически. Как результат выдаются все те варианты анализа, в которых информация к основе совместима с информацией к окончанию. Возможны и другие стратегии: например, сначала каждая еди- ница текста сравнивается со словарем основ, а оставшаяся правая часть объявляется гипотетическим окончанием и т. д. Чередования внутри основы при анализе могут учитываться по- разному: включением в словарь нескольких видов основы (бег-/ беж, воз-/вож-/вожд~) или заданием отдельной таблицы чередо- ваний. 66
Остановимся на некоторых конкретных реализациях. Лингвистический путь МорфАн был принят и развивается в си- » 1емах МП комплекса ЭТАП для французского, английского и рус- > кого языков. Эти работы реализовали метод подробного МорфАн, разработанный в модели «Смысл<=>Текст» и ставший классиче- । ким; он подробно описан в доступной литературе, например в работах Московской семантической школы, поэтому излагать его чесь не будем. На этом пути происходит естественная стыковка с интаксическим компонентом, так как основе со всеми ее мор- фологическими особенностями в пределах одной словарной ста- । ьи можно приписать и специфическое синтаксическое поведе- ние. Система ФРАП тоже работала со словарем основ [см. МП- *71, 1987]. Такой подход свойствен системам МП, анализ в кото- рых относят к системам анализа под руководством синтаксиса. В систему TULIPS, которая была первой машинной реализа- цией Грамматического словаря А. Зализняка, кроме доскональ- ного МорфАн введен обучающий компонент [см.: Мальковский, 1985]. Но началом работы было создание машинного варианта са- мого словаря. При анализе текста программа М0РФ1 строит все возможные разбиения входной словоформы на основу и флексию и ищет со- ответствующие части в словаре: сначала М0РФ1 пытается найти в словаре совпадающее со словоформой неизменяемое слово, а 1атем последовательно рассматривает словоформу как основу слова с пустой флексией, основу с флексиями длиной 3, 2 и 1. Проверку правильности разбиения — сочетаемости основы и флексии — осуществляет вспомогательная программа, она же ус- танавливает значения грамматических признаков (ГП), определя- емые флексией. Когда М0РФ1, отделив флексию, не может най- 1И полученную основу в словаре, происходит обращение к под- программе, применяющей к основе правила чередования. Если и после применения правил чередования найти основу в словаре не удалось, слово признается незнакомым и формируется обраще- ние к программе морфологического анализа незнакомых слов МОРФ2, которая выдает варианты трактовки словоформы (грам- матически корректные разбиения на основу и флексию либо ре- шение, что это неизменяемое слово). Результат работы М0РФ1 для знакомого слова — это список вариантов анализа, каждый из которых содержит грамматические признаки словоформы и ссылку на словарную статью, описываю- щую семантическое значение слова, например1: стекла —» (7 2 3 1 2) — существительное (неодуш., ср.род) стекло в форме: ед.число, родит.падеж 1 Сокращения грамматических терминов даны так, как это принято в систе- ме TULIPS. 67
(7232 (14))- существительное (неодуш.,ср.род) стекло в форме: мн.число, именит, или винит.падеж (9113211)— глагол стечь в форме: прош.вр., женск.род, ед.число Упрощенный вариант программы МОРФ1 программа МОРФЗ — решает так называемую задачу лемматизации: опреде- ляет только начальную форму слова, не формируя список грам- матических характеристик словоформы, например: стеки стекла стеками стек, стечь стекло, стечь стек Программа М0РФ2 работает со словами, не идентифициро- ванными по словарю. Для уточнения грамматических признаков незнакомых слов она учитывает следующие составляющие осно- вы (диагностические сегменты): префикс, суффикс или некото- рую цепочку букв в конце основы, последнюю букву основы. Если анализируется не отдельно взятое слово, а слово в соста- ве предложения, появляется возможность учета контекста, т.е. синтаксических связей данного слова с соседними. Информация о контексте передается программам морфологического анализа от следующих за ними программ синтаксического анализа с помо- щью предсказаний — списка ожидаемых грамматических призна- ков обрабатываемого слова. Так, при анализе незнакомого слова Верхневартовск в контексте приехала из далекого Верхнееартовска ожидаемые характеристики последнего слова фрагмента таковы: неодушевленное существительное в форме единственного числа родительного падежа. В таких ситуациях результат работы МОРФ2 сопоставляется с предсказаниями и в случае соответствия запоминается. Если же предсказание не подтвердилось, начинает обрабатываться другой вариант разбиения словоформы. Если ожидаемый результат не получен, то либо слово признается неизменяемым, либо в нем ищутся и исправляются ошибки. В системе работает диалоговая программа, позволяющая вносить новые слова и уточняющие при- знаки. МорфАн только со словарем окончаний Для флективных языков, в том числе русского, стал популяр- ным независимый флективный анализ как более экономичный, без использования словаря основ или словоформ. Метод позволя- ет одинаковым образом обрабатывать все слова как «новые» сло- ва, не найденные в словаре. Для этого задаются списки граммати- ческих морфем языка: флексий, предлогов, союзов, частиц, а также знаков препинания. Такой анализ уже содержит элементы 68
। ннтаксического анализа. Так, цепочка В -ом -е -ют(ся) -ие и -ые ы говорит о вполне определенной синтаксической структуре К // уютном доме собираются ловкие и веселые студенты и др.) [см.: Мельчук, Равич, 1967, 251]. Но такой метод не имеет выхода к । ' мантическому анализу, для которого нужно знать леммы, а пра- вильное вычисление лемм — тоже отдельная проблема. Таким путем развиваются многие системы АИ и МП в ВИНИТИ |гм.: Белоногов, Зеленков, 1985]. Из последних работ также представляют интерес работы по морфологическому тегированию русских текстов в Грузии [см.: Чикоидзе, 1997], где обосновывает- ся сетевой подход к представлению языковых процессоров, и осо- бенно к МорфАн. Одно из преимуществ данного подхода авторы видят в том, что он образует хорошую основу для построения дву- направленных (анализ/синтез) морфологических процессоров. Этот подход опирается на статистику в больших текстовых массивах {corpora based NLP), в частности на использование статистических чанных, касающихся порядка следования наборов морфологиче- ских характеристик в тексте, но предполагает привлечение челове- ка-оператора. Подход имеет и другие приложения, например обу- чение. В том числе он может быть также приложим к синтаксиче- скому анализу, основанному на конфигурациях [см.: Мельчук, 1964]. МорфАн «по аналогии» Восстановление леммы для «новых» слов (не найденных в ос- новном морфологическом словаре) или для всех слов при «сле- пом» узнавании происходит по методу аналогии с уже проанали- шрованными. Рассмотрим ниже варианты МорфП слова КРОВАТЬ, которые выдаются в системе М. Мальковского, если это слово не найдено в словаре: вариант 1 спряжение по образцу слова ПИРОВАТЬ * значение грамматического признака (ГП) «вид» неизвестно * (выбран несовершенный вид) КРОВАТЬ КРУЙ КРУЙТЕ КРУТО (БУДУ КРОВАТЬ) КРУЕШЬ (БУДЕШЬ КРОВАТЬ) КРУЕТ (БУДЕТ КРОВАТЬ) КРУЕМ (БУДЕМ КРОВАТЬ) КРУЕТЕ (БУДЕТЕ КРОВАТЬ) КРУЮТ (БУДУТ КРОВАТЬ) КРОВАЛ КРОВАЛА КРОВАЛО КРОВАЛИ КРУЯ КРОВАВ 69
ВАРИАНТ 2 I склонение по образцу слова ПЕЧАТЬ I * значение ГП «одушевленность» неизвестно * 1 КРОВАТЬ КРОВАТИ 1 КРОВАТИ КРОВАТЕЙ I КРОВАТИ КРОВАТЯМ 1 КРОВАТЬ КРОВАТЕЙ / КРОВАТИ 1 КРОВАТЬЮ КРОВАТЯМИ 1 КРОВАТИ КРОВАТЯХ I ВАРИАНТ 3 I КРОВАТЬ | как неизменяемое слово (по аналогии с ДЕСКАТЬ) 1 В результате проведенного МорфАн текста и/или массива остач ется много неопределенных или даже неправильных интерпрета-1 ций. Так, собственные имена получают неправильную лемму, если они омонимичны с обычными словарными входами (Лужков — лемма ЛУЖОК, Крючков — КРЮЧОК), поскольку эти слова на-1 ходится в числе словоформ. Неузнанные слова получат много ва-| риантов неверных лемм: Джавахарлал опознается как глагол джа- вахарлать, джавахарласть и т.д.; Первомай восстанавливается как Первоматъ, по аналогии с поймай — поймать, а гуся — бабуся — как возвратные глаголы и т. п. Все эти ошибки можно исправить или вручную, или выходом на следующие уровни, проверяющие связ- ность текста. \ МорфАн со словарем словоформ в системе ПОЛИТЕКСТ1 Морфологический компонент системы, принимая на входе результаты ГрафАн, проводит МорфАн, т.е. приписывание сло- воформам морфологических информаций, и лемматизацию — при- ведение текстовых форм слова к словарным. В пособии Ж. Анош- киной также описаны принципы морфологического анализа тек- ста с целью подготовки частотных словарей и конкордансов [см.: Аношкина, 1995]. На вход поступает графематическое представле- ние текста (см. гл. 3) и Грамматический словарь А. А. Зализняка, вернее, его машинная версия в значительно ужатой форме пред- ставления морфологической информации. Состав словаря был се- рьезно скорректирован. В нем убраны просторечные и устаревшие слова, дополнена лексика политической ПО, введен словарь соб- 1 Здесь описан вариант МорфАн, выполненный Ж. Г. Аношкиной для систе- мы ПОЛИТЕКСТ, по состоянию на 2000 г. Далее он вошел в состав УИС РОС- СИЯ, СМП ДИАЛИНГ, а также стал основой Интернет-версии в модернизиро- ванном и открытом для доступа и понимания виде [см.: Сокирко, 2004]. 70
। ii венных имен, отчеств и фамилий, а также географических имен, юбревиатур и т.п. Лемматизация осуществляется с помощью словаря словоформ, ,1ждой из которых сопоставлена лемма. Словоформы, не найден- ные в словаре, анализируются по аналогии с теми имеющимися в - новаре словоформами, с которыми у них обнаруживается наи- большее совпадение с конца. Объем основного словаря составлял к 2000 г. 2 млн словоформ. Кроме основного словаря, состоящего из двух частей: малого сло- варя и большого словаря, — используется словарь имен, включа- ющий в себя имена собственные. Словоформа из текста ищется сначала в так называемом малом гдоваре. Этот словарь составляют слова замкнутых классов (место- имения, числительные, предлоги, союзы, частицы, а также наи- более частые многозначные слова), и в нем слово проверяется юлько на полное совпадение. Если слово найдено, его лемма и морфологическая информация выдаются с пометой «=», означа- ющей, что слово найдено именно в малом словаре. Далее, незави- симо от результатов предыдущего этапа, слово ищется в словаре имен. Если слово найдено в нем, его лемма и морфологическая информация выдаются с пометой «*». Третий заход — поиск того же самого слова в большом словаре. Если слово было найдено в малом словаре и/или в словаре имен, то в большом словаре оно проверяется только на полное совпадение. Когда же слова нет ни н одном словаре, то в последнем, большом, словаре ищется сло- во, максимально совпадающее с данным с конца. В этом случае выдаются предположительные результаты анализа, помечаемые шаком «-». Таким образом, система помет следующая: = слово найдено в малом словаре * слово найдено в словаре имен + слово найдено в большом словаре - слово не найдено, результат предположительный При омонимии словоформ выдается несколько вариантов ана- лиза. Состав Грамматического словаря постоянно пополняется и кор- ректируется, настраиваясь на заданную предметную область, прежде всего ПО «Политика». Эта настройка потребовала, в частности, расширить лексический состав словаря за счет введения большего количества собственных имен (в основном лиц верхнего этажа власти), ведь ими изобилуют тексты данной ПО. Для упрощения будущих сравнений с базами и облегчения синтаксического анали- за произведено разделение словаря имен, используемого при мор- фологическом анализе, на три словаря: географические названия, личные имена и названия организаций. Словам текста, совпавшим 71
с входами в эти специальные словари, приписываются пометы, соответственно, «g», «п», «о». В связи с этими изменениями слова- ря были модифицированы программы морфоанализа и программы пополнения базовых словарей. Особым образом обрабатываются дефисные слова, частям ко- торых графематический анализ ставит пометы ДЕ1, ДЕ2... Снача- ла ищется полное дефисное слово по всем словарям на полное совпадение. Если таковое нашлось, то части дефисного слова уже не ищутся. В противном же случае, если полного дефисного слова не нашлось ни в одном словаре, оно анализируется по частям опять по всем словарям. Если среди результатов последней части дефисного слова есть прилагательное, а среди результатов осталь- ных частей есть краткое прилагательное, неизменяемое прилага- тельное или наречие, то считается, что это сложное прилагатель- ное типа экономико-статистический или японско-китайско-россий- ские, поэтому выдается только этот вариант (сложное прилага- тельное) с морфологической характеристикой последнего слова. При этом помета состоит уже из нескольких символов (= * + -), характеризующих каждую часть дефисного слова. Варианты лемм неопознанных словоформ выдаются в порядке уменьшения длины найденного в словаре «хвоста» словоформы. При одинаковой длине совпадений варианты упорядочиваются по частям речи: прилагательные, существительные, глаголы, про- чие. Обороты при МорфАн пропускаются, так как они найдены на этапе ГрафАн; грамматическая информация для них извлекается из словаря оборотов. Результаты помещаются в файл с именем текста и расширением *.1ет. Как правило, вслед за МорфАн следует программа постморфо- логического анализа, которая разрешает часть неоднозначностей, учитывая ближайший грамматический контекст, объединяет в один морфологический узел глагольные группы с аналитически выра- женным временем, а также именные группы типа «инициалы-имя». В системе ПОЛИТЕКСТ результат ее работы фиксируется в файле *.plm. Она осуществляет следующие проверки: 1) проверяется согласование по числу, роду и падежу пар при- лагательное — существительное. Не совпадающие у них морфоло- гические информации (МИ) отбрасываются; 2) проверяются падежи прилагательных и существительных, стоящих после предлогов: соответствуют ли они падежам, задан- ным в списке падежей, где для каждого предлога указаны управ- ляемые им падежи; 3) аналитические формы глагола (будущее время и страдатель- ные формы с причастием) преобразуются в одно слово, т.е. две словоформы объединяются в одну строку и ей приписывается одна лемма: например, был-подписан — ПОДПИСАТЬ; 72
4) дефисное написание числительных (цифры-окончание) преобразуется в одно слово, в качестве леммы пишется число. Например, 17-ому — 17, с соответствующей морфологической информацией; 5) если словоформе соответствует несколько одинаковых лемм, отличающихся только МИ, одинаковые леммы объединяются в одну строку с приписыванием ей всех МИ; 6) проверяются отдельные конкретные слова. Например, сло- воформе его соответствуют леммы ЕГО и ОН (или ОНО). Если перед этим словом есть предлог, то оставляется только лемма ЕГО, гак как после предлога лексемы он или оно были бы представлены словоформой него. На этап постморфологического анализа переданы также две неморфологические функции: 1) вызов семантического словаря (по имени леммы, которое является также входом в Русский общесемантический словарь, к информации которого могут обращаться следующие прикладные программы. Словам, совпавшим со входами в семантический сло- варь, приписывается их адрес (номер байта) в этом словаре; 2) сравнение с БД: если некоторая последовательность лемм совпала со входами в одну из БД, то начальная и конечная леммы найденного словосочетания отмечаются соответствующими индек- сами (tl...t2, nl...n2,gl...g2). Все сложные единицы ЛексП с пометами должны интерпрети- роваться на этапе семантического анализа. Так, сложный узел ЛексП (американо-китайско-индийско-советское) станет одним синтаксическим узлом и введется отношением «определение» в СинП, но в СемП может быть снова разбит на части, между кото- рыми установятся семантические отношения. Такие единицы, если в их составе один знак «-» (дефис), ищутся в словаре сначала игнорируя дефис, так система справляется со знаком переноса, затем включая его, так должны быть опознаны устоявшиеся и потому включенные в словарь образования типа Ин-т, Ун-т и др. В эту же категорию попадут в числе прочих и случайным обра- зом сокращенные слова, такие, как соотв-щих, след-щий, лаб-рии и другие сокращения, встречающиеся в бюрократических докумен- тах. Восстановление в автоматическом или диалоговом режиме до канонического вида слова приведет к изменению его лексическо- го типа: сложный узел становится лексемой и затем синтаксичес- ким узлом. Добытая на этапе первичного анализа информация идет даль- ше по двум разным каналам: уточненная морфологическая ин- формация идет в синтаксический анализ, а леммы — в семанти- ческий словарь и далее — в семантический анализ (СемАн). Эти два процесса могут быть реализованы параллельно. 73
Ниже приведен небольшой фрагмент структуры, полученной в результате работы этапов первичного анализа. 1 РЗД ПРБ Правительство 13 ЛЕ Бб tl + ПРАВИТЕЛЬСТВО 1 РЗД ПРБ Российской 10 ЛЕ Бб gl + РОССИЙСКИЙ 1 РЗД ПРБ Федерации 9 ЛЕ Бб t2 g2 + ФЕДЕРАЦИЯ 1 РЗД ПРБ постановляет 12 ЛЕ бб + ПОСТАНОВЛЯТЬ 1 ЗПР УПввод1 1 РЗД КСТ 5 РЗД ПРБ Установить 10 ЛЕ Бб ИМ? АБ36 + УСТАНОВИТЬ 1 ЗПР 1 РЗД ПРБ что 3 ЛЕ бб = ЧТО Добавим некоторые пояснения к записи (частично они даны в гл. 3 и 4): 1) в структуре фиксируются тип разделителя и количество зна- ков в нем (1 РЗД КСТ означает один разделитель типа «конец строки»; 12 РЗД ПРБ — пробел из 12 позиций); 2) прописными буквами обозначена ЛЕММА. § 21. Семантические проблемы в МорфАн Использование словаря основ и словаря окончаний — лингви- стически более красивый метод, чем задание полного словаря словоформ, хотя это достаточно сложный путь, особенно для раз- витых флективных языков. Однако словарь основ полезен с семан- тической точки зрения, так как позволит более гибко решать про- блему производности (нам неизвестны ее лингвистически краси- вые решения). Усложняет картину МорфАн наличие префиксов и префиксо- идов. Префикс (в-, вое-, до-, за-, на- и др.) как предшествующая кор- ню часть основы не только имеет словообразовательный харак- тер, но и меняет значение. Поэтому все префиксные образования приходится помещать в семантические словари как отдельные входы, даже если у глагола префикс меняет только грамматиче- ский вид (см. гл. 12). Префиксоиды в отличие от префиксов имеют вполне самосто- ятельные значения; они пишутся слитно с корнем (электрогене- ратор) или через дефис (дизель-мотор), а по семантике близки к прилагательным-определениям (электрический генератор, дизель- 14
иый мотор). Многие префиксоиды могут выступать и как отдель- ные самостоятельные слова (ср.: дизель и дизель-мотор), а некото- рые не могут (электро-, вибро-, псевдо-). Если в морфологическом словаре первые легче исчислить, при- писав каждой основе набор префиксов, которые могут сочетаться ней, то вторые соединяются более свободно, ср.: виброэлект- цодвигатель, светло-малиновый берет, тяжелотонный грузовик, фран- 1>о-немецко-японско-русские переговоры и т.п. В словаре можно за- фиксировать некоторое количество частотных сложных слов (про- тивоправный, многонациональный, антимонопольный), но большин- 11 во подобных, почти свободных образований (полупопулярный, ква- штеория, суперинтеллигент, виномания и другие -мании, -фобии и ।. п.) останется за бортом, и для них все равно требуется отдель- ное решение, словарное и алгоритмическое. Помещение всех или многих таких слов в словарь словоформ привело бы к колоссальному увеличению его объема, да и невоз- можно успеть за всеми окказиональными соединениями смыслов (противнокисленький вкус, изматывающедлинная зевота). Такая же проблема встает в отношении сложносокращенных слов типа Нар- ьомпрос, Транссибнефть и т.п., хотя они связаны больше с опре- деленными предметными областями и при настройке на тип мас- сивов можно даже задать список продуктивных словообразующих частей. Но если даже эта проблема решена компактным образом в морфологическом плане, она встанет на уровне семантической интерпретации, ведь каждый префикс несет с собой нерегуляр- ное изменение в значении слова. После проведения синтаксического анализа и, возможно, сле- 1ующих этапов система может вернуться к МорфП. Это будет вто- ричный, уточненный морфологический анализ. Он позволит дать окончательную информацию о текстовой форме (или несколько наборов информаций при неоднозначном разборе всего предло- жения) и каноническую форму — с новым вычленением основы. )та операция особенно нужна для слов, относящихся к типу ФИО, или других не опознанных по словарю слов. Подобные трудности увеличивают неоднозначность уровня ГрафАн. Так, во фразе Са- йт Диванов обнаружился также на Ленинском проспекте первые два слова могут быть признаны именем с фамилией, как Соломон Иванов. В нашей системе они получат сначала признак «ИМ?», означающий «не имя ли это?» После нахождения этих слов в сло- варе эта гипотеза скорее всего будет снята. Но такая гипотеза дол- жна быть выдвинута в системе, не имеющей основного словаря (основ или словоформ). На дальнейших этапах, при выходе на межфразовый уровень, может уточниться основная форма слова (ср.: Горбачевский фонд и министр Горбачевский). Правильная лемма, если она будет найде- 75
на для этих слов при вторичном МорфАн, важна не только као учебное завершение этапа морфологического уровня понимания! но и для практических целей: например, позволит осуществить! правильный выбор в базах данных имен {Горбачев — это не ГорбаЛ невский). I Возврат к первичным результатам желателен и для разрешения] других морфологических проблем: например, возникших при ана-1 лизе сокращений. Ведь поэлементный состав текста, полученный! после первичного этапа анализа (ГрафАн + МорфАн), не останет-1 ся неизменным в ходе дальнейшего анализа. | * * * I МорфАн — это устоявшийся уровень лингвистического анали-1 за, имеющий свою специфику и свой инструментарий. Во многих системах ИПС это единственный полностью лингвистический ком- понент. Но если для ИПС после МорфАн нужны лексемы, а не их| морфологические характеристики, то для полных систем АПТ] важно получить «полностью характеризованные лексемы» (ПХЛ)| (термин модели И. Мельчука). Часто точную информацию можно! получить лишь при вторичном проходе. 1 Морфологический синтез проще анализа, если на вход посту-1 пила однозначная информация в виде ПХЛ. Решение задачи рус-'] ского морфологического и морфолого-синтаксического синтеза! по неполной и/или неточной входной информации смотрите в! работе 3. М. Шаляпиной [см.: Шаляпина, Канович, 1997]. 1 Литература 1 Аношкина Ж.Г. Морфологический процессор русского языка //1 Альманах «Говор». — Сыктывкар, 1995. — С. 17 — 23. I Аношкина Ж. Подготовка частотных словарей и конкордансов на] компьютере: Пособие для филологов. — М., 1995. I Белоногов Г.Г., Зеленков Ю.Г. Алгоритм морфологического! анализа русских слов // Вопросы информационной теории и практики. —I М., 1985.-№ 53.-С. 62-93. I Доквадзе Е.А., Лордкипанидзе Л.Л., Чикоидзе Г.Б.Бес-1 словарный сетевой морфологический тегер // Труды Международного! семинара ДИАЛОГ-2001. - М., 2001. - Т. 2. - С. 100-110. ] Дудковский В.И. Автоматический морфологический анализ тек-] стов без словаря // НТИ. — М., 1990. — Сер. 2 — № 2. — С. 36 — 40. 1 Зализняк А. А. Грамматический словарь русского языка. Словоиз-1 менение. — М., 1977; 2003. | Крылов С.А., Старостин С.А. Актуальные задачи морфологи-] ческого анализа и синтеза в интегрированной информационной среде! STARLING // Компьютерная лингвистика и интеллектуальные техно-! тогии // Труды Международной конференции ДИАЛОГ-2003. — Про- шино, 2003. Мальковский М.Г. Диалог с системой искусственного интеллек- та. — М., 1985. Мельчук И.А. Автоматический синтаксический анализ. — Новоси- бирск, 1964. — Т. 1. Мельчук И.А., Равич Р.Д. Автоматический перевод (1949—1963): Критико-библиографический справочник. — М., 1967. МП-271 — Машинный перевод и прикладная лингвистика: Сб. науч, трудов МГПИИЯ им. М. Тореза. — М., 1987. — Вып. 271. Ножов И.М. Прикладной морфологический анализ без словаря // Труды Конференции по искусственному интеллекту-2000. — М., 2000. — Т. 1. — С. 424 — 429. Санников В.3.0 выделении фраз и морфологическом анализе гра- фических сокращений в русском тексте // Машинный перевод и при- кладная лингвистика. — 1969. — № 12. — С. 150—175. Сокирко А.В. Морфологические модули на сайте www.aot.ru. //Тру- ды Международной конференции ДИАЛОГ-2004. — М., 2004. Чикоидзе Г.Б. Сетевое представление морфологических процессо- ров. — Тбилиси,2004. Шаляпина З.М., Канович М.И. Русский морфологический и морфолого-синтаксический синтез по неполной и/или неточной вход- ной информации // Русский язык как иностранный: лингвистические проблемы. — М., 1997. — С. 137—147. Шереметьева С.О., Ниренбург С. Эмпирическое моделиро- вание в вычислительной морфологии // НТИ. — М., 1996. — № 7. — Сер. 2. 76
ГЛАВА 5 СИНТАКСИЧЕСКИЙ КОМПОНЕНТ К синтаксическому компоненту (СинКомп) относятся те час- ти системы АПТ, которые ответственны за построение синтакси- ческой структуры, или синтаксического представления, для всех предложений заданного текста при его анализе. СинКомп — основ- ная и наиболее сложная часть систем машинного перевода второ- го поколения. Он ответствен и за развертывание СинП в линейно организованную последовательность лексем с их морфологиче- скими характеристиками при синтезе предложений выходного тек- ста. Такую же роль СинКомп выполняет при порождении, или генерации, текста из структур баз данных в системах генерации текста. Сфера действия законов СинП ограничена предложением. Ми- нимальной единицей СинП является синтаксическое отношение, или синтаксическая связь, между двумя словами или приравнен- ными к ним единицами. Максимальная единица — структура, со- поставленная предложению. Синтаксический анализ на входе имеет линейно упорядочен- ное лексическое представление предложения, в котором в идеале все текстовые единицы получили с предшествующих уровней ин- формацию о типе единицы и грамматических характеристиках (ГХ): словоформы представлены леммами с вычисленной или получен- ной из словаря морфологической информацией, а все другие типы единиц (словосочетания, числа, знаки препинания и др.) снаб- жены символами соответствующих классов и подклассов. В иде- альном случае синтаксический анализ построит одно, связное и правильное СинП, или дерево предложения: ЛексП (+ МорфП) => этап СинАн => СинП. В системах машинного перевода (МП) к СинКомп относится также этап преобразований СинП входного языка. Обычно вход- ное СинП приводится к более стандартному виду, т. е. специфи- ческие конструкции входного языка заменяются либо на базис- ные для входного языка, либо сразу на соответствующие им кон- струкции выходного СинП: СинП вх. =? этап Преобразований =? СинП станд. => СинП вых. 78
На этом же этапе происходит смена лексики (собственно пере- вод): ЛексП вх. => этап Перевода =? ЛексП вых. Выбор тех или иных лексем и конструкций может влиять на выходное СинП и перестраивать его, поэтому необходима грам- матика взаимодействий лексики и синтаксической структуры. В системах МП этап преобразований завершается этапом син- таксического синтеза, формирующего структуру выходного пред- ложения, на которой задано отношение линейного порядка (СинП вых. лин.). Все лексические единицы принадлежат уже выходному языку и имеют полный набор характеристик, необходимых для синтеза словоформ: СинП станд. => этап СинСинтез => СинП вых. лин. Морфологический синтез строит далее словоформы выходного языка. Синтез при МП или генерация СинП из баз данных при хоро- ших, т.е. однозначных и т.п., исходных данных легче, чем задача анализа или «понимания» на синтаксическом уровне, поэтому дальше в этой главе рассматриваются в основном проблемы и труд- ности этапа анализа. § 22. Проблема синтаксической омонимии при анализе При анализе естественного текста нормой является неодно- значность отдельных его единиц. Это может быть грамматическая омонимия словоформы (сети — сущ. ед. ч. род./дат./предл. падежа или сущ. мн. ч. им. или вин. падежа) или лексико-грамматическая (подряд — сущ. и наречие; перед — сущ. и предлог, бегом — форма сущ. бег или наречие — бегом-, печь — сущ. и глагол). Если единица ЛексП имела несколько цепочек гипотетических информаций, создается не единственная структура, а множество интерпрета- ций, или гипотез. Возможное множество вариантов структур/под- струкгур обозначим фигурными скобками: {ЛексП + МорфП} => этап СинАн => {СинП}. Итак, под синтаксической омонимией (неоднозначностью) фразы понимается возможность приписать фразе более чем одну правиль- ную синтаксическую структуру {СинП}. Конечно, оценка фразы как омонимичной зависит от того, как определена правильная синтак- сическая структура на заданной грамматике, а также от свойств этой грамматики, например, важно, где проводится граница меж- ду синтаксическими и семантическими характеристиками фразы. Построение достоверных синтаксических структур, или пред- ставлений, всех подряд предложений текста — очень важная и нужная ступень в автоматическом понимании текста, но получить хорошие результаты СинАн для всех предложений естественного, 79
непрепарированного массива текстов оказывается практически невыполнимой или безмерно сложной задачей. Причин тому мно- го. Это и негладкость (и даже неправильность) построения мно- гих реальных предложений, так что они не укладываются в задан- ную формальную грамматику, и зачастую невозможность правиль- но провести формально границы предложений в сложных текстах (см. гл. 3), и, самое главное, очень большая локальная не- однозначность. В сборнике статей, посвященных проблематике машинного перевода, показано, как велико количество неоднозначных ре- шений при использовании только формального аппарата СинАн на материале английского языка [см.: Автоматический перевод, 1971]. Что касается русского языка, то «в русском языке встреча- ются почти все теоретические мыслимые — в рамках русской си- стемы синтагм — синтаксически неоднозначные фрагменты» [Иор- данская, 1967]. • Если «окончанием» СинАн считать построение единственного и правильного синтаксического дерева для всех предложений тек- ста, то без взаимодействия в том или ином виде хотя бы с эле- ментами семантического анализа или радикального вмешатель- ства извне, например интерредактирования, задачу синтаксичес- кого анализа текста невозможно довести до конца. Ведь множе- ственность синтаксических интерпретаций зачастую определяется естественной смысловой неоднозначностью предложения. Рассмотрим несколько показательных примеров. (1) Привет освободителям города от немецко-фашистских захватчи- ков (текст лозунга); (2) Немцову пришлось вернуться из своей командировки на север в Моск- ву, так как... (из сообщений по радио); (3) Уступки исполнительной власти, Защита Белого дома и т.п. (из газет). В примере (1) мы имеем конфликт на обоих уровнях — Син и Сем. Синтаксис должен установить две альтернативные (но обе сильные) связи: Привет (кому) от (немецко-фашистских захват- чиков) либо Освободители (кого-чего) от (...захватчиков). Обе связи имеют нормальные, но несовместимые семантические интерпре- тации. Разрешить эту неоднозначность можно «выходом в действи- тельность», например в базу знаний, где записано, кто кого по- бедил в такой-то войне, наряду со многими другими сведениями. В примере (2) неоднозначность еще более хитрая: то ли вер- нуться на север в Москву, то ли командировка была на север в Москву, то ли командировка на север, а вернуться пришлось в Москву. Последний вариант правильный, но ничуть не предпоч- тительней — ни по законам синтаксиса, ни по законам лингвис- тической семантики. В базу знаний обращаться тоже бесполезно, 80
потому что не такое это важное событие, чтобы быть в ней зафик- < нрованным. В примере (3) любой СинАн поставит однозначно направле- ние синтаксической связи, а именно: Уступки власти испол- нительной. В терминах более подробного синтаксиса, например модели «Смысл <=> Текст», уже неясно, как обозначить связь Ус- тупки => власти: комплетивное это отношение (и тогда 1-е или ' е) или агентивное. Чтобы понять, исполнительная власть усту- пила (кому-то в чем-то) или ей кто-то (например, Дума) усту- пил, нужно «выйти (или войти) в текст», т.е. передать решение одному из следующих этапов уже семантического анализа. На > интаксическом уровне неоднозначность примеров (2) и (3) не- разрешима: для уточнения именования связи нужно проделать । рансформационный анализ и «заглянуть в СемП» всего текста. Эти и бесконечное количество других примеров {Защита Бело- го дома, Письмо матери и др.) свидетельствуют о том, что обра- щение к семантике (а следовательно, к целому тексту) и даже к прагматическим знаниям необходимо для любого лингвистиче- i кого процессора, анализирующего естественные тексты. Немногочисленные коллективы, которым оказалось «под силу» нести работу над синтаксисом в новых экономических условиях, продолжают искать разные варианты и комбинации компонентов ('интаксис — Семантика — Прагматика. § 23. Модели автоматического СинАн Синтаксический анализ обеспечивает в системах АПТ три ос- новных типа информации о структуре предложения, как это опи- сано, например, в работе У.Хатчинза [см.: Hutchins, 1986]: 1) линейные отношения как цепочки грамматических элемен- । ов, задаваемых в терминах классов слов: артикль + прилагатель- ное + существительное; глагол + предлог + существительное... или в терминах функциональных элементов: подлежащее + сказуемое + дополнение; 2) группировку грамматических элементов: например, имен- ная группа, включающая существительное, артикль, прилагатель- ное и другие модификаторы; предложная группа, состоящая из предлога и именной группы, и так далее до уровня предложения. Это отношения составляющих; 3) отношения зависимости (доминации, иерархические), когда главный член группы определяет форму своих зависимых. С теоретической точки зрения каждый уровень представления текста, в том числе синтаксический, должен быть описан в трех аспектах. В исследовании И. Б. Долининой выделены следующие аспекты [см.: Долинина, 1977]: 81
а) природа единиц данного уровня; б) минимальные и максимальные единицы данного уровня (д® всех типов единиц, например, для узлов и для связей); в) иерархия минимальных единиц в составе максимальной еди ницы. В зависимости от способа решения этих вопросов выбирается та или иная синтаксическая теория (если, конечно, в качестве! основы реализации системы АПТ взята именно синтаксическая модель). При анализе русских текстов в том или ином виде использу- ются в системах АПТ такие разновидности синтаксических мо-j делей: ! 1) грамматика (непосредственно) составляющих (НС, цело-1 чечная грамматика); 2) варианты грамматики зависимостей, в том числе: а) грамматика Л.Теньера; б) модели, реализующие традиционную грамматику (А. М. Пеш- ковского); в) размеченные грамматики зависимостей, в том числе теории «Смысл <=> Текст» И. А. Мельчука; 3) теория синтаксических групп (А. В. Гладкого). У каждой из этих моделей есть свои достоинства и недостатки, подробнее об этом можно прочесть в обзорных работах [см.: Син- таксический компонент..., 1981; и др.]; при разработке системы АПТ в реальном масштабе приходится не столько выбирать между ними, сколько комбинировать. Аппарат грамматики НС удобно использовать на начальных ста- диях СинАн, так как он формирует составные единицы: ведь син- таксические узлы как единицы СинП не обязательно совпадают q лексемой как единицей ЛексП, это могут быть синтаксические группы. Грамматика зависимостей задает локальную иерархию единиц, которая является основой для дальнейшего пересчета и вычисле- ния информационного веса единиц следующего уровня (семанти- ческих узлов) в составе высказывания и далее в тексте. Грамматика Теньера собирает группы как заготовки к постро- ению «средних» единиц семантических структур — многоместны: предикатов, фреймов. Традиционная грамматика членов предложения определяет гло- бальную иерархию единиц (синтаксических групп) в составе вы- сказывания: подлежащее — сказуемое — второстепенные члень предложения. Наиболее устойчивыми до настоящего времени остаются раз- новидности грамматик НС, которые по определению имеют стан- дартное технологическое обеспечение (в виде автоматов с конеч- ным числом состояний). 82
§ 24. Составляющие синтаксического компонента Главные составляющие названных этапов работы СинКомп: 1) грамматика входного языка, включающая перечень приня- । ых единиц: синтагмы, конфигурации, непосредственные состав- 1ЯЮщие, линейные цепочки, заданные в символах предшествую- щих уровней; 2) грамматика выходного языка; она может содержать те же 1иницы (имена синтагм и др. — как во входном языке), но отли- ыется способом их поверхностной реализации, например линей- ным порядком; сравните, например, атрибутивную конструкцию русского и французского языков; 3) грамматика СинП, понимаемая как множество законов и нойств правильно построенной синтаксической структуры (не- иересечение стрелок и др.); 4) система фильтров, которую можно назвать «отрицательной < рамматикой», так как она перечисляет неразрешенные (или ме- нее предпочтительные) комбинации связей; 5) грамматика преобразований, задающая соответствие еди- ниц входного языка единицам выходного; это может быть так на- пиваемая «контрастивная» грамматика, фиксирующая расхожде- ния в структурах входного и выходного языков; 6) словари, содержащие данные, необходимые для построе- ния СинП в анализе и/или синтезе, а в системах МП задающие ыкже стандартные переводные эквиваленты для лексического материала входного языка; 7) алгоритмы, задающие порядок обращения к информации названных компонентов, а также способы выхода из нештатных »итуаций. Как правило, этапы анализа и синтеза обслуживаются одним формальным аппаратом. § 25. О некоторых отечественных реализациях СинАн Синтаксический анализ, развиваемый с конца 1950-х гг. таки- ми выдающимися лингвистами, как И. А. Мельчук, Л.Н.Иордан- »кая и др., и затем ставший основой модели «Смысл <=> Текст», имеет два уровня: после построения поверхностно-синтаксической структуры (ПСС) в нем строится глубинно-синтаксическая струк- тура [см.: Мельчук, 1964; Иорданская, 1964]. Существенной чертой поверхностно-синтаксической структу- ры модели «Смысл <=> Текст» является то, что все (кроме знаков препинания) текстовые единицы, и только они, переходят в нее как узлы дерева, между которыми устанавливаются поверхност- 83
но-синтаксические отношения (ПСО). В книге И. А. Мельчука опи саны 42 таких ПСО. ПСС достаточно семантична за счет подроб ной классификации связей [см.: Мельчук, 1999]. Прежде выделя лось около 70 отношений непосредственной доминации, в даль нейшем они стали называться ПСО [см.: Иомдин, Мельчук, Пер цов, 1975]. В глубинно-синтаксической структуре они сводятся шести обобщенным и менее эксплицитным типам связей (цифра ми 1, 2, 3, 4 обозначаются актантные связи, цифры 5 и 6 исполь зуются для атрибутивной и координативной связей соответствен но). Зато в ГСС более содержательные узлы. В узлы переходят толь ко значимые лексемы, а предлоги, оформляющие синтаксичес кую роль, исчезают. В конструкциях вида развязать войну или кро вопролитный бой значения лексических функций (ЛФ) заменяют ся их обобщенными именами: Incep — 2 —> война и Magn <— 5 - бой. Это приближает ГСС к принятому в модели семантическом представлению (см. также приложение 1). В СемП модели «Смысл <=> Текст» связи тоже, как и в ГСС, н имеют семантической маркировки, а их значение можно вычис лить из имеющихся в толково-комбинаторном словаре подробны толкований соединяемых слов, в основном это многоместны предикаты со своими актантами. Часть синтаксических узлов ГСС переходя в СемП, представлена семантическим поддеревом в со ответствии со своим толкованием из словаря: «ПОИТЬ — X непо средственно каузирует Y пить Z» [см.: Мельчук, 1999, 70], пр] этом в узлах появляются семы (элементарные семантические еди ницы), не всегда соответствующие словам ЕЯ. В лингвистическом процессоре ЭТАП, строящемся по модел] «Смысл <=> Текст», центральным тоже является развитый и обога щенный семантическими признаками синтаксический компонент В системах МП, построенных по идеологии ЭТАП, хорош* стыкованы грамматики со словарной информацией, в соответ ствии с принципами интегрального описания, сформулирован ными Ю.Д. Апресяном [см.: Апресян, 1995]. Система ЭТАП-2 использует формальное представление син таксической структуры в виде размеченного и расположенной дерева зависимостей. Главные средства анализа — синтагмы 1 правила предпочтения — опираются на ключевое понятие синтакси ческого отношения. Состав и семантика отношений (а всего их 50 раскрыты в описании системы ЭТАП-2 [см.: Апресян, Богуславс кий, Иомдин, 1989]. На этапе синтаксического анализа вызываете: комбинаторный словарь, который вводит модели управления слов Этот классический подход к СинАн подробно отражен в лите ратуре, поэтому мы не будем приводить примеры, а только со шлемся на широко известные публикации представителей этой научного и практического направления Московской семантиче ской школы. 84
Принятый в ней подход к СинАн сложен для реализации, так как стремится к построению полного и абсолютно правильного черева для каждого предложения и требует идеальных условий на входе: 1) все слова должны быть обеспечены словарными статьями комбинаторного словаря с полной синтаксической исходной ин- формацией; 2) анализируемое предложение должно быть правильным пред- ложением русского языка. Эти жесткие условия в последних реализациях модели ослабля- ются, СинАн становится более устойчивым: в версии ЭТАП-3 для перевода с русского языка предложен новый алгоритм СинАн, введен синтаксический корректор, дополненный алгоритмиче- ской процедурой, позволяющей справляться со словами, отсут- ствующими в комбинаторном словаре [см.: Цинман, Сизов, 2000; Григорьев, 2000]. Вариант совмещения поверхностной и глубинной синтакси- ческих структур, названный комбинированной синтаксической структурой (КСС), был введен в системе АРАП и в настоящее время используется в системе японско-русского перевода ЯРАП [см.: Шаляпина, 1974; 2001; и др.]. В обеих системах принят лек- сикографический способ лингвистического описания, лексика и грамматика задаются в виде словарных статей единой структу- ры и отличаются лишь степенью общности. Синтагматика задана в виде валентностных свойств всех единиц, включая знаки пре- пинания, участвующих в процессе анализа. Это значит, что об- работка текста осуществляется «под управлением словаря», од- новременно учитывается информация разных языковых уровней. Коллектив Лаборатории математической лингвистики (Ленин- градский государственный университет) под руководством Г. С. Цейтина проводил эксперименты по машинному переводу и анализу текстов в ограниченных предметных областях, что позво- лило существенно продвинуться в реализации подхода «сверху- вниз» [см.: Цейтин, 1985; Железняков, Невлева, Новицкая и др., 1988]. Если проход «снизу-вверх», который обеспечивается слова- рем и морфологическим анализом, не давал единственного реше- ния, система строила ассоциативную сеть, узлами которой были конкретные объекты этой предметной области с привязанными к ним процедурами предсказаний и наследования, и строилась оче- редь вызова разных процедур. В этой сети сосуществует информа- ция разных уровней: морфология, синтаксис и семантика, пони- маемая как прагматика. При построении единиц высших уровней нижние единицы не уничтожаются, что позволяет семантике уп- равлять синтаксисом и наоборот. Важно то, что в сети склеивались повторяющиеся объекты, т. е. синтаксический анализ выходил на межфразовый уровень. К 1990-м гг. эти работы прервались. 85
Продолжались попытки реализовать теорию синтаксических групп А. В. Гладкого [см.: Гладкий, 1985]. Для нее, однако, не оп- ределен способ включения семантических знаний, тогда как сис- темы АПТ без них не работают. Сложность и трудоемкость разработки исчерпывающего СинАн заставляет искать новые и более простые пути, чем подход «ана- лиз под управлением синтаксиса» {syntax driven). Один из таких новых путей — создание адаптивных синтаксических анализато- ров, которые начинают работать с заданной базовой граммати- кой и постепенно накапливают открытые лингвистические зна- ния, адаптированные к данной предметной области. Так, в рабо- те И. А. Волковой и др. описан такой анализатор, где базовые знания о синтаксисе заданы в виде сетевой грамматики — рас- ширенной сети переходов (РСП), а источником данных для адап- тации системы являются результаты анализа базовой граммати- кой больших корпусов текстов [см.: Волкова, Мальковский, Один- цев, 2003]. Адаптация анализатора состоит в пополнении его сло- варя, пополнении набора используемых моделей управления, смягчении условий проверки грамматических признаков и т.д. Это позволяет работать с «плохими» (нарушающими граммати- ческую правильность) текстами, что не способствует поддержа- нию культуры письма, но вызвано условиями современной Ин- тернет-культуры. Но и такой путь содержит много подводных кам- ней (например, требует привлечения интерредактора и т.д.), не говоря уже о том, что такая формально-частотная адаптация к ПО не отменяет необходимости семантической интерпретации. Из других подходов к СинАн опишем менее известные модели. Ниже охарактеризованы синтаксические системы, принятые в информационно-лингвистической модели, где пониманием заве- дует семантический компонент (подход semantics driven), а син- таксис — лишь ступенька для понимания. Это иллюстрации сред- него подхода к практической реализации синтаксиса, а успехи и недостатки такого подхода могут быть поучительными для разра- ботчиков. § 26. Синтаксические процессоры в ИЛМ В реализуемых нами системах выбор синтаксической модели определялся эффективностью взаимодействия с единицами семан- тического уровня. Именно поэтому к синтаксическому компонен- ту не предъявлялись чрезмерные требования: он должен был де- лать то, что достижимо средствами морфологического и синтак- сического уровней. Для разных аспектов семантической интерпре- тации удобным оказывается то один, то другой способ синтакси- ческого представления, поэтому на разных этапах СинАн исполь- зовались разные модели. 86
СинАн в составе ИЛМ осуществлялся в две стадии — СинАн 1 и I инАн2. Первая часть анализатора (СинАн 1 — анализ именных групп) использует грамматику НС, а СинАн2 опирается на грамматику за- писимостей (расставляет локальные связи зависимости) и функцио- нальный синтаксис (формирует группы членов предложения). Между двумя частями СинАн происходит выход к первичному семантическому анализу (СемАн1), который точнее можно на- звать синтактико-семантическим анализом (СинСемАн). Таким образом, построение окончательного синтаксического представления происходит при взаимодействии с семантическим представлением, которое строится в ходе СемАн. Взаимодействие названных уровней анализа таково: СинАн! — СемАн! (или СинСемАн) — СинАн2 — СемАн2 Соответственно, построение структур предложения идет в сле- дующем порядке: СинШ (первичное СинП) — СинСемП — СинП2 (вторичное) — СемП В отличие от большинства систем МП, использующих одну грам- матику для анализа и для синтеза, в системе ФРАП анализ и син- тез устроены незеркально, несимметрично. Если СинАн имеет дело с неполной, неоднозначной, недостоверной и т.д. информацией и представляет собой сложный вычисляющий процесс, то синтез в основном можно охарактеризовать как исчисление возможно- стей, заданных в грамматике и словарях. Синтаксический компонент системы ФРАП1 Главная особенность СинКомп системы ФРАП определяется наличием в ней развитого семантического компонента. Удобной моделью СинАн, поддающейся непосредственной интерпретации в терминах СемП, оказался функциональный синтаксис, допол- ненный элементами грамматики Л.Теньера. Иерархия единиц в составе высказывания (подлежащее, сказуемое, второстепенные члены предложения), задаваемая традиционной грамматикой, важна для построения в дальнейшем основных единиц СемП тек- ста — ситуаций и текстовых фактов. 1 Формальное описание грамматики СинАн и разработка алгоритмов всего процесса выполнены Е. Г. Соколовой, отражены в ряде публикаций, в том числе в совместных, и в ее диссертации. Разработка и отладка алгоритмов процесса СинСемАн системы ФРАП были выполнены И. М. Кудряшовой. Формальный язык для их записи разработан и реализован О. Б. Малевич [см.: МП-271, 1987]. С на- ступлением эры персональных компьютеров (в России в 1990 г.) система ФРАП была оставлена. 87
На вход СинАн поступает фраза после обработки графематиче- ским и морфологическим анализом, которые вместе образуют этап досинтаксического анализа (ДоСинАн). Преобразование фразы в этих компонентах можно вкратце описать следующим образом. Объект анализа — фраза текста — состоит из слов. Слово характеризуется порядковым номером во фразе, т.е. номером исходной словофор- мы, формулы или знака препинания. В процессе ДоСинАн слову сопоставляется один или несколько узлов — наборов характеристик. Основной характеристикой узла является синтаксический класс (СинКл). Кроме того, почти все узлы имеют отсылку к семанти- ческому словарю. Отсылка совпадает со словарным видом лексе- мы, но у некоторых из них через косую черту указан СинКл для различения отсылок в случае омонимии: например, ceramique/AJ, ceramique/Sb (имеющих, соответственно, разные переводы: кера- мический/прилаг., керамика/сущ.). Если слово содержит только один узел, этот узел называется простым; если слово содержит два или более узлов, все эти узлы называются сложными. Если объектом рассмотрения является не- который сложный узел (назовем его У,), то все остальные узлы из этого же слова называются смежными по отнощению к Уь Таким образом, на вход СинАн поступает линейно упорядо- ченное множество, каждый элемент которого является либо про- стым узлом, либо объединением смежных между собой сложных узлов. Последним элементом в этом множестве является искусст- венный узел @, репрезентирующий предложение. СинАн проводится на основе французского морфолого-син- таксического словаря, из которого в СинАн используется около 130 признаков, среди них собственно синтаксические классы и подклассы, грамматические категории, признаки, вырабатываемые в ходе СинАн, признаки, задающие непредложное управление, и др. Предложное управление задается указанием на обобщенный класс управляемого слова — имя или инфинитив — и конкретный предлог. Значения лексем в этом словаре не выделяются, поэтому возмож- ные сильные управления заданы в виде обобщенной обоймы: на- пример, сопоставить что, чему, с чем. Семантическая информация в этом словаре не задается и в СинАн не используется. Задачи первичного синтаксического анализа (СинАн1): пост- роить множество узлов СинП, провести функциональные и вспо- могательные связи на множестве узлов, интерпретировать узлы как члены предложения. В ходе СинАн 1 производится сегмента- ция предложений. Для выполнения первой задачи СинАн, необходимо, во-пер- вых, объединить в один узел узлы следующих типов: 1) части неразложимых фразеологических сочетаний; 2) вспомогательные и полнозначные части аналитических грам- матических форм; 88
3) служебные слова — предлоги, артикли — с полнозначными । иовами, к которым они относятся; 4) подчинительные союзы с полнозначными словами или при- 1аточными предложениями, которые они вводят; 5) сочинительные союзы со словами или предложениями^ ко- юрые они присочиняют. В последующем изложении эти узлы будут называться соответ- сгвенно узлами типа 1, типа 2 и т.д. Во-вторых, для каждого неглавного простого предложения нуж- но сформировать нетерминальный узел Y, который будет пред- ставлять его целиком как единый член предложения в главном по отношению к нему простом предложении таким образом, что слож- ная фраза предстанет как специального вида объединение про- стых предложений. Искусственные узлы введены также для глав- ного предложения фразы. При них указываются значения характе- ристик соответственно главного предложения и всей фразы, от них могут зависеть в синтаксической структуре вводные слова. Процесс синтаксического анализа начинается с обработки фразем и грамматических форм, более конкретно, тех из них, которые могут быть проанализированы без обращения к синтак- сической структуре, путем анализа последовательности лексем (узлы типа 1 и 2). Это происходит на этапе анализа оборотов и аналитических форм (I этап СинАн). Этап анализа оборотов обыч- но относят к досинтаксическому анализу. Одновременный анализ । рамматических форм оправдывает включение его в этап СинАн. Объединение узлов типа 3, 4, 5 происходит соответственно на папах: II — анализ предложно-именных групп, III — анализ слож- ного предложения, IV — анализ простого предложения. К началу IV этапа завершено выделение простых предложений в составе сложных, и дальнейший анализ имеет дело только с простыми предложениями. Из четырех названных этапов только папы, имеющие дело с синтаксической структурой (т.е. II, III, IV), используют методику фильтрового анализа и выполняют три основные функции: исчисление связей, обработка связей, оцен- ка полученной структуры. Соответствующими средствами выпол- нения этих функций являются анализаторы, алгоритмы, блоки оценки полученной структуры. Реально, однако, средства, выпол- няющие эти функции, не всегда формально разделены. Анализаторы именных синтагм, подчинительных синтагм, со- чинительных синтагм имеют форму списков синтагм специально- го вида, два последних лишь немного отличаются от анализаторов системы ФР-П [см.: Кулагина, 1987; и др.]. Алгоритмы, управля- ющие применением анализаторов и интерпретирующие проме- жуточные результаты СинАн, а также фильтры заданы в форме лингвистических блок-схем. Формальный язык для их записи тот же, что для СемАн. 89
В построенном СинШ отыскиваются фразеологические и терми-1 нологические словосочетания, заданные в словаре французски» словосочетаний (ФСЧ): например, passer еп revue, champ electriqueA Для их анализа требуется в отличие от анализа оборотов инфор-1 мация о связях между компонентами. I Последней частью процесса СинАн1 была программа построе-| ния анафорических связей для местоимений. Она работает на! СинШ, используя таблицы, входом в которые являются конк-| ретные местоимения (их около 20), а выходом — отношение «ant», l идущее от соответствующего антецедента к местоимению. Усло-| вия преобразования заданы в терминах синтаксических классов,! ролей и связей. Естественно, что анафорические связи нарушают! свойство древесности СинШ. В реализованной первой версии си-| стемы ФРАП на вход синтаксического синтеза поступало описан-1 ное выше СинШ, на котором установлены анафорические связи.! Специальная программа устраняет в этом представлении неодно-1 значность, преобразуя множественный результат СинАн 1 в дере-| во, которое и поступает на перевод и синтез (см. приложение 6). 1 Итак, СинШ — квазидерево, задаваемое множеством узлов и 1 множеством связей. Узлами СинШ могут быть: 1 1) нетерминальные символы: @ с синтаксическим знаком! PH — символ всей фразы; Y с синтаксическим классом CL — 1 символ простого предложения в составе сложного; EL с вычисля-1 емым синтаксическим классом, представляющим элидированный | в предложении элемент структуры при наличии зависимых от него; | 2) лексические узлы, причем лексема представляет собой еди-1 ницу с нерасчлененными значениями. 1 Связи СинШ следует охарактеризовать подробнее. Промежу-1 точное СинШ может иметь связи четырех видов. | 1. Связи промежуточные, нефункциональные, не входящие в! список связей грамматики членов предложения. В полной версии ] системы они не должны входить в окончательное СинП фразы. | Например, prep (А,В) — отпредложная связь, где А — имя или] инфинитив, В — предлог (pour marcher, sur la table). I 2. Функциональные связи (наряду co вспомогательными, см. ниже) описывают результирующее СинП в терминах членов предложения: attr (А,В): А — согласованное определение В (mesures effectuees); 1 арр (А,В): А — аппозитивный член В (appareil МВ С) ', I suj (А,В): А — именное подлежащее В (La machine marche bien.)', od (А,В): A — прямой объект В, выраженный именем, инфи- нитивом, союзом или союзным словом (etablir ип diagramme, savoir s’il estparti). 3. Вспомогательные связи необходимы для представления мак- | симальной единицы как единого члена предложения, а также для I привязки знаков препинания. Наряду с функциональными связя-1 ми они входят в окончательную синтаксическую структуру. На- | 90
пример, ref (А,В) — связь от искусственного узла, представляю- щего во фразе простое предложение, к его глагольной вершине пли от узла, представляющего всю фразу, к узлу, представляю- щему главное предложение. 4. Рабочая связь: нес (А,В) — отношение несовместимости, ус- танавливаемое между двумя (омонимичными) синтаксическими интерпретациями одной последовательности слов: например, услов- ного оборота: alors que, ainsi que и др. Эта связь в окончательную с груктуру не входит. Отношение несовместимости введено для того, чтобы сохранить на этапе СинАн единое представление для фразы, а не «расслаивать» его на несколько вариантов синтаксических прочте- । гий. Такое расслоение нужно отнести на возможно более поздний пап, когда оно будет осмысленным, т. е. разные варианты структу- ры будут соответствовать разным пониманиям фразы; на промежу- точных стадиях работы с СинП техническое расслоение на вариан- ты было бы потерей важного для анализа структурного контекста. В окончательном СинШ нефункциональные связи (I тип) устра- няются, а присоединяемые ими неполнозначные элементы текста «втягиваются» в полнозначные узлы, становясь частью граммати- ческой информации последних; функциональные и вспомогатель- ные связи остаются; рабочая связь нес (А, В) сохраняется до разре- шения неоднозначности рассматриваемого синтаксического узла. Квазидерево СинШ может содержать не только синтаксическую омонимию узлов, но и омонимию связей, которая выражается в наличии в СинП двух или более конкурирующих формул: г1 (а,в) и г2 (а,с), где b и с — два гипотетических хозяина для а, т. е. нес (г1, г2). СинШ может быть непроективным и может быть несвязным, г. е. представлять собой несколько поддеревьев. Маркировку связей дополняет маркировка узлов (синтаксиче- ская роль) подобно тому, как это делалось в системе русско-фран- цузского МП ARIANE [см.: Vauquois, 1975; и др.]. Так, например, функции подлежащего и прямого дополнения передаются связя- ми suj и od, а узлы имеют синтаксические роли ACTG или ACTD (левый актант и правый актант), означающие, что эти узлы за- полняют сильные валентности предиката. Маркировка узлов мо- жет уточнять маркировку связей. Например, причастие, завися- щее по атрибутивной связи (attr), может быть простым определе- нием или вершиной определительного причастного оборота и иметь роли, соответственно, ATRIB или TOURS. Синтаксическая роль узла СинШ — это прообраз будущего члена предложения (в СинШ). СинШ поступает на вход СемАн1, который интерпретирует узлы и связи СинШ. Результаты этой интерпретации учитывают- ся компонентом СинАн2, который строит СинШ. 91
СинП2 фразы — это одна или несколько древесных структур (несколько — в случае разных осмыслений фразы) с узлами двух типов — нетерминальными и терминальными. Нетерминальными узлами вводятся все члены предложения (под- лежащее, сказуемое, обстоятельство места, обстоятельство причи- ны и т.д.), простые или распространенные. Первые представлены одним терминальным лексическим узлом, вторые — поддеревом, подчиненным синтаксически главенствующему узлу. Главный (или единственный) лексический узел подчинен нетерминальному симво- лу фразы связью ref. Остальные связи СинП2 — функциональные. Все лексические узлы СинП2 — это уже слова-значения, т. е. начальные семантические узлы (СемУ или СемУзлы), которые в дальнейшем тоже могут уточняться. Семантическая характеристи- ка СемУ позволяет к чисто синтаксической роли (функции) узла добавить семантическую, т.е. уточнить, например, функцию «об- стоятельство» как«обстоятельство времени» и т.д. Это относится не только к обстоятельственным связям, но и к сильным актантным. Так, роль подлежащего может быть уточ- нена как «подлежащее — агенс», «подлежащее — пациенс» и т.п. Во второй версии системы ФРАП включалась частичная семантическая интерпретация, подобная описанной в главе 6, уточнявшая перевод для найденных в словаре единиц. Однако СемАн 1, использовавший небольшой семантический словарь, не вошел в систему ФРАП опытно-промышленной версии, выпол- нявшей реальные заказы на перевод. Синтаксический синтез ФРАП опирался на СинШ, в котором установлены анафорические свя- зи. Специальная программа устраняла в этом представлении не- однозначность, преобразуя неполный или множественный резуль- тат СинАн! в структуру дерева (см. приложение 6). Синтаксический компонент системы ПОЛИТЕКСТ1 Как и в СМП ФРАП, выбор формальной модели синтаксиче- ского анализа русских текстов определялся наличием компонента семантической интерпретации (см. гл. 6). В проекте ПОЛИТЕКСТ было решено использовать формальный аппарат систем синтак- сических групп (ССГ) [см.: Гладкий, 1985]. Этот формализм, яв- ляясь объединением систем составляющих и деревьев подчине- ния, позволяет явно указывать словосочетания, из которых со- 1 При заданной грамматике разработка алгоритмов и программ всего процес- са была выполнена Н.Ф. Сущанской. Прототип этой программы СинАн — линг- вистический препроцессор ФЕЯ — был реализован ею в конце 1980-х гг. на машинах серии ЕС ЭВМ [см.: Сущанская, 1989]. Работа по СинАн для системы ПОЛИТЕКСТ велась с 1992 по 1996 г. с перерывами, параллельно с развитием СемАн, после чего лингвистический путь развития системы был заморожен (по экономическим мотивам) и уже не возобновился. Далее описаны результаты, 92
i юит предложение, а также синтаксические связи как между эти- ми словосочетаниями, так и между словами внутри них. «Структура предложения в идеале описывается помеченным ориентированным графом без петель, вершинами которого яв- шются синтаксические группы (СГ), а дугами — направленные « вязи между ними. Описание синтаксической структуры предаю - Кения в терминах ССГ относится к поверхностно-синтаксиче- । кому уровню, однако оно обладает «степенью семантичности», олизкой к традиционной (неформальной) грамматике. Это про- исходит в силу того, что при построении СинП аппарат ССГ по- толчет учитывать некоторые семантические соображения» [см.: Сущанская, 1989]. Результат синтаксического анализа зависит от очередности применения правил построения СГ, поэтому в алгоритме учтена последовательность их выполнения. Анализ проходит в несколько налов: сначала строятся СГ, которые могут быть элементами СГ первого ранга, затем сами СГ первого ранга, потом ядра СГ вто- рого ранга, затем связные СГ и, наконец, определяется структура всего предложения. Сегментация текста на предложения считает- ся заданной — это разделение на единицы, названные условно- предложениями (см. гл. 3). В результате работы СинАн анализируемый текст представля- ется в виде упорядоченного множества связных синтаксических । рупп — предполагаемых узлов строящейся системы СГ, причем каждому узлу приписан список меток — грамматических характе- ристик TXi-тых. Там, где программа выявила синтаксические свя- ш, они приписаны соответствующим дугам. Результат СинАн за- писывается в файл и передается для обработки семантическому анализу, который должен подтвердить правильность собранных синтаксических конструкций, после чего синтаксический ана- 1из сможет установить окончательную структуру связных групп и отношения между ними, а также выбрать наиболее адекватную с । очки зрения семантической интерпретации синтаксическую струк- туру (если оставалась неоднозначность), что и составляет конеч- ную цель синтаксического анализа. Основное требование к процедуре построения ССГ: группы дол- жны строиться так, чтобы выполнялись аксиомы А. В. Гладкого. В работе СинАн использовались словари системы: семантиче- ский словарь (РОСС), словарь оборотов, словарь предлогов, из полученные к началу 1997 г. Мы считаем полезным изложить реализованный подход к СинАн, так как на его результатах основывалась программа семан- । ической интерпретации, начатая Ж. Г. Аношкиной. Хотя развитие СемАн (см. гл. 6) тоже было остановлено, целесообразно описать оба комплекса, так как нам неизвестны другие «семантически ориентированные» (semantics driven) систе- мы АПТ в России. Оба комплекса (СинАн и СемАн) программировались на C++. 93
которых извлекалась лишь информация о синтаксических спосо-1 бах реализации смысловых валентностей, о предсказываемых син-| таксических отношениях и о других грамматических признаках. Эти сведения расширяют грамматику (см. приложение 13). I Как строительный материал для образования системы синтак-| сических групп был задан список элементарных синтаксических] единиц, для каждой из них существует включенный в программу! алгоритм сборки. 1 Ниже перечислены коды большинства синтаксических отно-1 шений (СинО) вида г(а,Ь), где а — зависимое, b — хозяин, с| минимальными пояснениями и примерами: | 1 с_опр (местоимение, сущ.) *согласованное определение | 2 с_опр (прилагательное, сущ.) | 3 с_опр (причастие, сущ.) | 4 с_опр (наречие, глагол) | 5 с_опр (наречие, прилагательное) ] 6 нс_опр (ИГ, ИГ) *несогласованное определение 7 прилож (ИГ, ИГ) Москва-река | 8 квантр (числительное, сущ.) | 9 квантр (местоимение, сущ.) I 10 опр_к (квантор, сущ.) *кванторное определение ] 11 обет (деепричастие, глагол) 12 обет (придаточное предложение, глагол) | 13 обет (ПГ, глагол) *ПГ — предложная группа 1 14 пр_доп (сущ. вин. падеж, переходный глагол) I 15 пр_доп (сущ. род. падеж, не + глагол) *прямое дополнение 1 16 к_доп (ПГ, глагол) *косвенное дополнение 17 к_доп (ПГ, сущ.) 18 к_лоп (ПГ, прилагательное) 19 предик (подлежащее, сказуемое) 20 отпредл (зависимое сущ., предлог) j 21 отсоюзн (предложение, союз) 22 отсоюзн (сравнит, степень наречия, союз) чем быстрее 23 присв-г (краткое прич., связка) *присвязочный глагольный член, согласуется в роде и числе | 24 приев-с (сущ., связка) *присвязочное существительное 25 присв-п (прилагательное, связка) *присвязочное прилагательное 26 реф (сказуемое, символ предложения) *референтное 27 одн_и (n+1 однородный член, n-й однородный член) 28 одн_или (п+1 однородный член, п-й однородный член) 29 одн_атакже (п+1 однородный член, п-й однородный член) 30 одн_, (п+1 однородный член, п-й однородный член) 31 одн_ни (п+1 однородный член, п-й однородный член) ни сидеть,] ни стоять ] 32 диет (вторая часть дистантного союза; первая часть союза) чем! меньше, тем лучше | 33 сравн (сущ. род. пад., сравн. степ, наречия) Петра быстрее 34 вводи (вводное слово, предложение) 94
35 примк (правое, левое) *примыкание, если слова стоят рядом и никакая другая связь не подходит В следующей версии СинАн обмен информацией между струк- турами СинП и СемП решено было проводить раньше, сразу после построения синтаксических групп первого и второго ранга, т. е. согла- совательных групп и групп с управлением, но собранных как не- посредственные составляющие. Это позволяло представлять терми- нологические группы как один узел СинП и давало быстрый выход в информационную систему. Процедура стыковки лингвистических и предметных знаний оставалась и остается до сир пор главной проблемой во всех ведущихся экспериментальных разработках. Оптимальное соотношение операций СинАн, сравнения с БД и локального СемАн при построении искомых объектов (геогра- фических и др.) еще предстояло установить по окончании всех стыковочных работ. Компонент СинАн должен был не только при- нимать и учитывать все изменения (в том числе форматов струк- туры) предшествующих уровней, но и развиваться содержатель- но, включая в обработку все больший крут сложных синтаксиче- ских явлений русского языка. Хотя продолжение работ в этом на- правлении было приостановлено по внешним обстоятельствам, это совпало и с кризисом жанра: а) слишком сложной, необозримой оказывалась полная син- таксическая структура, особенно для трудных, длинных, неодно- значных предложений, лингвисты уже не могли учесть все послед- ствия сравнений с базами данных, с семантическим словарем; б) термины, имена и другие сложные и имеющие свою внут- реннюю структуру единицы, попадая в синтаксическую структу- ру, часто «ломали» дерево синтаксических связей, и программа СинАн «нервничала», не зная, что предпочесть: сведения нижне- го уровня или поступающую из предметной области информацию «сверху». Было принято решение перейти на упрощенный СинАн; он был реализован уже в другой системе (ДИАЛИНГ). Синтаксис в системе ДИАЛИНГ Задача упрощенного СинАн была реализована уже в составе системы русско-английского МП ДИАЛИНГ, выполненной в ос- новном студентами и аспирантами РГГУ — бывшими участника- ми проекта ПОЛИТЕКСТ — Л. Гершензоном, Д. Панкратовым, А. Сокирко и др.). Эта реализация опиралась практически на ту же грамматику СинАн, но использовала новые технологические ре- шения. При том же разделении уровней СинАн и СемАн все ком- поненты, включая предшествующие синтаксису, были перепро- граммированы, а работа на порядок ускорена и упрощена. Полно- стью обновлен этап сегментации, так как расширился характер и тип текстов. Теперь всем доступна Интернет-версия системы АПТ 95
русских текстов (см. страницу в Интернете www.aot.ru). Системе работает устойчиво, для большинства неполных синтаксические групп и разорванных структур предложений этап СемАн восстав навливает связи, обеспечивая тем самым этапы синтеза и перевоЯ да на английский язык. Хотя в системе ДИАЛИНГ обеспечения многие параметры промышленных систем, назвать ее промышЯ ленной нельзя: СинАн и СемАн этой системы нуждаются в серьезЯ ной доработке и с содержательной, и с технической точек зренияЯ Недостатки СинАн реальных текстов часто состоят в недостаЯ точном внимании к проблеме сегментации сложных предложеЯ ний. Эта тема стала одной из основных линий совершенствования и развития системы ДИАЛИНГ. В работах российских лингвистоЯ был учтен опыт наиболее частых ошибок в имеющихся СинАн, Я в основу реализуемой ими системы положена идея хорошей сегЯ ментации реальных предложений естественного текста [см.: КобЯ зарева, Лахути, Ножов, 2001; Ножов, 2003]. Любое предложениЯ в системе описывается двумя графами: графом синтагм и графодЯ сегментов. Узлами графа синтагм являются терминальные единиЯ цы (словоформы), дуга в графе образует синтагму и задает тигЯ связи. Узлами графа сегментов являются нетерминальные единиЯ цы — сегменты, дута в графе задает межсегментную связь. ГрамЯ матическое сочинение терминальных единиц в графе синтагм 1Я сочинение однородных сегментов в графе сегментов нарушают дреЯ весность графов, так как каждый элемент множества узлов, обраЯ зующих сочинительную связь, попарно связан со всеми остальЯ ными элементами множества и одновременно является как слуЯ гой, так и хозяином всех узлов, принадлежащих множеству сочиЯ нения. Таким образом, граф синтагм и граф сегментов — ориенЯ тированные графы, содержащие контуры и замкнутые пути. СвязЯ ность графа не является обязательным условием анализа. Базовым ограничением, на котором строится анализ в процессоре, являет- ся проективность сегментной структуры предложения. После за- вершения сегментации возможно проведение полного синтакси- ческого анализа внутри выделенных типов сегментов. § 27. Трудности, связанные с развитием синтаксического компонента В отдельных экспериментах проработаны на серьезном уровне некоторые частные, но играющие решающую роль в процессе! СинАн задачи, например, задача фрагментации текста и анализ сложных предложений [см.: Кулагина, 1987; Агранат, Кулагина^ 2001, а также упомянутые выше работы]. В системах ИИ уже давно используется неполный, но надежно работающий синтаксис, в последние годы его называют robust 96
• fltax: синтаксис собирает лишь такие части структуры, которые орошо ложатся в заданную формальную грамматику. Часто ана- 1И 1 предложения не доводится до окончательного СинП, тем са- мым резко снижается число вариантов разбора. Но при этом обя- .1 цельна какая-то другая поддержка — не «снизу», а «сверху». Ею шляются схемы и структуры предметной области, которые при тализе наполняются материалом «узнанных» лингвистических мЬьектов. Этот подход можно назвать тенденциозным понимани- м: несмотря на свою размытость, приблизительность, он жестко интерпретирует текст. Подобный метод сейчас широко использу- йся в системах типа Information Extraction (см. гл. 9). При этом пропускается этап, который мы считаем общесемантическим ана- шзом текста, он заменен специальным, или концептуальным, шализом, который проводится сразу в терминах ПО. С практической точки зрения стратегия, в которой синтаксис »ущественно обогащен элементами семантического уровня, мо- |.ет быть — самая эффективная, особенно для систем машинного перевода. Заметим, однако, что подход, реализованный в систе- мах ЭТАП-2 и ЭТАП-3, создавался и постепенно оттачивался не один десяток лет, работа и сейчас продолжается, в ней задей- с гвован большой и сильный лингвистический коллектив. Повто- рить новому коллективу разработку, подобную синтаксису моде- ми «Смысл <=> Текст», очень трудно, если не невозможно. Комби- наторный словарь, как и все словари семантического анализа (см. । л. 12), трудно расширяем в массовом масштабе. Но жизнь разви- вается с такой быстротой, что задачи и методы интеллектуальной обработки текстового материала да и сами способы хранения зна- ний и т.д. за это время уже претерпели и еще могут претерпеть кардинальные изменения. * * * Синтаксис, как и морфология, — хорошо разработанный ком- понент АПТ. Мы склонны утверждать, что с точки зрения даль- нейшей семантической интерпретации все равно, какую синтак- сическую модель выбрать (тем более не важно, какова была стра- тегия морфологического анализа). Важно, как семантический ком- понент сможет интерпретировать то, что осталось незавершен- ным с предшествующих уровней анализа. Взаимодействие синтаксической структуры с единицами се- мантического уровня, т. е. концепция связи СинАн и СемАн, по- падает в центр внимания в особенности потому, что настройка синтаксических процессоров на специфику анализируемых мас- сивов оказалась очень дорогостоящей и не очень эффективной процедурой. Видимо, проще исчислить даже большое количество специфических для разных ПО объектов и способ подключения 4 Леонтьева 97
такой информации к результатам СинАн, чем настраивать chh- таксический процессор на разные стилевые и жанровые особен-1 ности больших массивов текстов. i Параллельно с эмпирическим преодолением синтаксических' трудностей в практических системах продолжается разработка И проверка разных синтаксических теорий, в том числе в аспекте типологии. Книга Я. Г.Тестельца «Введение в общий синтаксис» дает подробное описание синтаксических явлений и аттестацию многочисленных созданных к настоящему моменту теорий и фор-' мальных моделей, многие из которых реализованы или проходят тестирование [см.: Тестелец, 2001]. В основном это СинАн для- английского языка. Подробный обзор трех зарубежных систем1 СинАн, доступных в Интернете, дан в работе Н.М. Ножова [см.:-! Ножов, 2003]. Новые пути СинАн разрабатывает и корпусная лингвистика, отказываясь почти от всех достижений так называемых концепту- альных теорий (см. гл. 13). Литература Автоматический перевод: Сборник статей / Под ред. и с предисл. О.С.Кулагиной и И.А.Мельчука. — М., 1971. Агранат Т.Б., Кулагина О.С. Об электронном словаре сочета- емости сложносочиненных и сложноподчиненных предложений // Труды Международной конференции ДИАЛОГ-2001. — М., 2001. — Т. 2. — С. 13-15. Апресян Ю.Д. Интегральное описание языка и системная лекси- кография // Избранные труды. — М., 1995. — Т. 2. Апресян Ю.Д., Богуславский И.М., Иомдин Л. Л. и др. Линг- вистическое обеспечение системы ЭТАП-2. — М., 1989. Волкова И.А., Головин И.Г. Синтаксический анализ фраз есте- ственного языка на основе сетевой грамматики // Труды Международ- ного семинара ДИАЛОГ-1998. - М., 1998. -Т. 2. - С. 438-447. Волкова И.А., Мальковский М.Г., Одинцев Н.В. Адаптив- ный синтаксический анализатор // Труды Международной конферен- ции ДИАЛОГ-2003. — Протвино, 2003. — С. 476—480. Гершензон Л.М., Панкратов Д.В. Фрагментационный анализ русского предложения в системе ARTEFACT // Труды Международной конференции ДИАЛОГ-2002. - М., 2002. - Т. 2. - С. 126-132. Гладкий А.В. Синтаксические структуры естественного языка в ав- томатизированных системах общения. — М., 1985. Григорьев Н.В. Аварийные механизмы для синтаксического ком- понента системы ЭТАП-3 // Слово в тексте и в словаре. — М., 2000. — С. 485-490. Долинина И.Б. Системный анализ предложения. — М., 1977. Ермаков А.Е. Неполный синтаксический анализ текста в инфор- мационно-поисковых системах // Труды Международной конференции ДИАЛОГ-2002. - М., 2002. - Т. 2. - С. 180-185. 98
Железняков М.М., Н е вл ева Т.Н., Новицкая И.М. и др. Опыт построения модели типа «текст => действительность» с использованием ассоциативных сетей // Машинный фонд русского языка: предпроектные исследования. — М., 1988. — С. 140—167. Иомдин Л.Л., Мельчук И.А., Перцов Н.В. Фрагмент модели русского поверхностного синтаксиса // НТИ. — М., 1975. — Сер. 2. — № 7, II. Иомдин Л.Л., Сизов В.Г.^Цинман Л.Л. Использование эмпи- рических весов при синтаксическом анализе // Труды конференции «Ког- нитивное моделирование». — Геленджик, 2001. Иорданская Л.Н. Свойства правильной синтаксической структу- ры и алгоритм ее обнаружения // Проблемы кибернетики. — М., 1964. — Вып. 11.-С. 215-245. Иорданская Л.Н. Синтаксическая омонимия в русском языке (с точки зрения автоматического анализа и синтеза) // НТИ. — М., 1967. — №5.— С. 9—17. Искусственный интеллект: Справочник: В 3 кн. — М., 1990. Кулагина О.С. Об автоматическом синтаксическом анализе рус- ских текстов // Препринт № 205. — М., 1987. Кунце Ю. Введение семантических критериев в синтаксические пра- вила // НТИ. - М., 1981. - Сер. 2. - № 6. Кобзарева Т.Ю., Лахути Д.Г., Ножов И.М. Модель сегмента- ции русского предложения // Труды Международного семинара ДИА- 1ЮГ-2001. - М., 2001. - Т. 2. - С. 185-194. Леонтьева Н.Н., Соколова Е.Г., Кудряшова И.М. Синтак- сическое представление в системе французско-русского автоматическо- । о перевода (ФРАП) // Explicite Beschreibung der Sprache und automatische I'extarbeiterung. VIII: Proceedings of the 10th Meeting on Automatic Text Processing (Prague, 1981). — Praha, 1982. — P. 147—157. Мельчук И.А. Автоматический синтаксический анализ. — Новоси- оирск, 1964. Мельчук И.А. Опыт теории лингвистических моделей «Смысл <=> Текст». — М., 1999. МП-271 — Машинный перевод и прикладная лингвистика. Пробле- мы создания системы автоматического перевода: Сб. науч, трудов. МГПИИЯ им. М. Тореза. — М., 1987. — Вып. 271. Ножов И.М. Реализация автоматической синтаксической сегмен- тации русского предложения: Автореф. дис. ... канд. техн. наук. — М., 2003. Синтаксический компонент в системах машинного перевода: обзор- ная информация // Сост. Н.Н.Леонтьева, З.М.Шаляпина и др. — М., 1981. — Вып. 5. Соколова Е.Г. Моделирование синтаксической структуры для ав- томатического анализа текста (на базе системы «ФРАП-2»): Автореф. дис.... канд. филол. наук. — М., 1986. Сущанская Н.Ф. Программный препроцессор для естественно-язы- ковых интерфейсов: Автореф. дис.... канд. техн. наук. — Киев, 1989. Теньер Л. Основы структурного синтаксиса. — М., 1988. Тестелец Я.Г. Введение в общий синтаксис. — М., 2001. 99
Цейтин Г. С. Программирование на ассоциативных сетях // ЭВМ в про- ектировании и производстве / Под ред. Г. В. Орловского. — Л., 1985. — Вып. 2. — С. 6-48. Цинман Л.Л., Сизов В.Г. Лингвистический процессор «ЭТАП»: процедуры ослабления синтаксических правил и их использование // Слово в тексте и в словаре. — М., 2000. — С. 485—490. Шаляпина З.М. Семантико-синтаксический анализ в системе ан- гло-русского автоматического перевода (АРАП). — М., 1974. — Вып. 47. Шаляпина З.М. Экспериментальный комплекс ЯРАП для линг- вистических исследований по японско-русскому автоматическому пере- воду (первая очередь). — М., 2001. Hutchins W.J. Machine Translation: Past, Present, Future. — New York, 1986. M e 1 ’ c ’ u k, I. Dependency Syntax: Theory and Practice. — Tirana, 1988. VauquoisB. La traduction automatique й Grenoble. — Grenoble, 1975.
ГЛАВА 6 ЛОКАЛЬНЫЙ СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТА Семантический компонент (СемКомп) — главный компонент Системы автоматического понимания текста. Его роль — посред- ническая, он должен согласовать три разных «языка»: а) язык построенных системой лингвистических структур (плюс другие лингвистические знания), которые он получает на входе; б) язык той предметной области, к которой относится текст и термины которой желательно использовать при построении вы- ходной структуры; в) язык пользователя, для которого система АПТ должна по- строить Информацию (схема 2). Информация, которую система АПТ получает из текста, дол- жна быть изложена на языке, понятном пользователю как с есте- ственно-языковой точки зрения, так и с точки зрения той ПО, которой он владеет как специалист. Иначе результат работы сис- темы не может быть назван Информацией для этого конкретного пользователя (адресата Информации). СемКомп должен адаптироваться к постоянно меняющимся внешним условиям процесса понимания текста и вычислять ре- 1ультат в зависимости от того, какие компоненты подключены к Схема 2 Сфера действия Семантического компонента Текст 101
системе АПТ: может меняться ПО, может давать разные установ ки адресат. Для выполнения функции адаптации необходим спе циальный метаязык, на который и с которого возможны перево ды разных источников текстового характера (напомним, что вс компоненты системы АПТ задаются в вербальном виде). Единицы, которые строятся только лингвистическим анали зом, назовем внутренними единицами текста. К внешним единица/ отнесем те, которые задаются «встречным текстом»: система понятий конкретной области знаний, заданной семантическо: сетью или единицами индивидуальных знаний того, кто форму лирует вопрос к тексту. Внутренние единицы строятся методом «снизу-вверх» и в ре- альных системах АПТ доходят в лучшем случае только до син- тактико-семантических представлений отдельных предложений Лингвистам для каждой конкретной задачи, для каждой скол) угодно узкой предметной области приходится строить новую си- стему «перевода» между лингвистическими структурами (вед] вариаций СинП или СинСемП очень много) и единицами ба: данных, которых еще больше. Это напоминает системы бинар- ного машинного перевода. Внешние единицы, например запист в БД, чаще всего опознаются в текстах методом «сверху-вниз» который сводится к простому узнаванию заданных извне лекси ческих единиц, игнорирующему структуры и деление на предло жения, подобно тому, как строится поисковый образ документ в информационно-поисковых системах. Два языка — внутренни] и внешний — часто оказываются не в состоянии «договориться друг с другом, и системы АПТ весь свой искусственный интел лекг тратят на преодоление этого разрыва. Поэтому так важн< найти общее решение задачи. § 28. Три структурных отображения текста: семантическое, информационное, когнитивное В прикладных семантических системах наибольшие расхожде ния наблюдаются во взглядах на окончательное семантическое представление целого текста. Термином «семантическое представ ление» обычно называют и любую из структур семантической уровня (в том числе СемП целого текста), и результат первично! семантической интерпретации, т.е. синтактико-семантическут структуру предложения, и любую промежуточную структуру н пути к СемП целого текста. В любом случае это граф, семантичес кая сеть, элементарная единица которой — отношение между двум узлами (х — Р — у). Но какова природа узлов (х, у) и отношение (Р) между ними? Это зависит от того, с каким уровнем семанти ческих структур мы работаем. 102
В развиваемой нами информационно-лингвистической модели понимания текста предлагается различать, как минимум, струк- туры двух уровней: семантическое представление текста и инфор- мационное представление (ИнфП) текста. То и другое — законные семантические структуры текста. СемП — это внутреннее пред- ставление содержания текста, результат чисто лингвистического (средствами лингвистического аппарата) понимания, выражен- ный лексическим материалом текста. ИнфП — его внешнее пред- ставление, отражающее то, как текст воспринимается внешней средой. ИнфП отличается от СемП текста тем, что в нем отраже- но в сжатом виде не все содержание текста, а только тот его фрагмент, который соответствует заданной извне точке зрения, формулировке, запросу и т.п. ИнфП — результат относительного понимания, оно должно быть выражено в единицах воспринима- ющей системы (т.е. в единицах «встречного текста»). Та и другая структуры — сжатые представления текста, но кри- терий сжатия в СемП определяется внутренними ресурсами сис- темы, — это результат лингвистического сжатия, задаваемого I рамматическими и словарными средствами. В ИнфП критерий сжатия задается требованиями внешней системы (вопросом пользо- вателя, заданием аспекта предметной области), в терминах кото- рых должно быть переформулировано СемП. Так, СемП ответа на вопрос к тексту есть одно из возможных ИнфП этого текста, если »то СемП сформулировано в единицах, понятных автору вопроса. В рамках ИЛМ есть необходимость выделить еще одну — когни- тивную (или концептуальную) структуру, или базу знаний текста; возможны другие эквиваленты (так, в нашем подходе это База 1СКСТОВЫХ фактов). БТФ должна представить основное содержание |скста, по возможности полно, в той традиции, той форме и на |ом языке, которые сложились к настоящему моменту в науке о представлении общечеловеческих знаний. Очевидно, что в нее полжны попадать лишь те сведения из текста, которых там до это- । о не было, эти новые знания дополняют или изменяют содержи- мое имеющейся базы знаний. Если БЗн по данной области знаний еще не существует, текстовые когнитивные структуры будут ее началом. Именно лингвистам принадлежит первое слово, как оп- ределить ту идеальную (близкую к идеалу) форму фиксирования таний в разных областях, которая позволит входить в разные участки сложной сети общих знаний, сравнивать их, дополнять, включать более конкретные сведения из одной ПО в другую и т.п. Окончательная структура текста — это граф, вершинами и реб- рами (или узлами и связями) которого должны оказаться только полноценные единицы, т. е. наиболее значимые и для содержания самого текста как целого, и с точки зрения информационной сре- 1ы, подключенной к анализу этого текста, и с учетом характера । 1иниц, помещаемых обычно в базы данных. 103
Построение последовательно трех результатов понимания (се-1 мантическая — информационная — концептуальная структуры) в режиме автоматического анализа текста для задачи формирова- ния базы знаний сопровождается оценкой строящихся единиц, т. е. требует их градации по значимости в контексте целого. Чтобы строить полноценные единицы и выражаемое ими содержание текста перекачивать в такие базы, требуется серьезное сжатие лек- сического материала текста. Чтобы потери информации при ежа- тии были контролируемыми, т. е. не отбрасывалось то, что отно- ’ сится к основному содержанию текста, нужны критерии сжатия. Относительный информационный вес узлов и связей, а также составленных из них фрагментов задается в словарях и граммати-, ке смысловых отношений и вычисляется при локальном, а затем! глобальном семантическом анализе текста. § 29. Состав семантического компонента Перечислим те требования и составляющие, без которых СемКомп; представляется нам неполноценным, по крайней мере, в задан- ной нами парадигме. 1. Метаязык семантических структур, на который переводимы все привлекаемые к анализу текстовые источники. Задание грам- матики этого метаязыка. 2. Общая стратегия семантического анализа, которую задает управляющий алгоритм. 3. Описание свойств или требований к входу в СемКомп: ка; минимум, входной текст должен подвергаться графематическо му, морфологическому и хотя бы частичному, неполному син таксическому анализу. Будем считать, что на вход поступает неко торый вид СинП, необязательно идеальный. 4. Общесемантические словари, ответственные за перевод все единиц ЕЯ (и/или единиц заданной входной структуры) на при нятый семантический метаязык. 5. Правила интерпретации входных структур, т.е. правила по строения и укрупнения единиц СемП. В задачи интерпретации вхо дит сборка самих СемУзлов, получение их семантических харак теристик (СХ) и валентностей, т.е. имен семантических связей выходящих из построенного СемУзла. 6. Вычисление степени «полноценности» собираемых едини] СемП. 7. Правила вывода, коррекции, сжатия и других логико-семан тических операций над семантическими структурами. Это отно сится больше к глобальному этапу анализа, но некоторые прави ла применимы и к фразовому анализу. Мы остановимся ниже только на некоторых аспектах. 104
§ 30. Метаязык семантических структур Задание метаязыка представления структур является одной из важнейших функций лингвистического транслятора, так как он во многом определяет принципиальную семантическую силу модели. Операции перехода от одного уровня СемП к другому, а также операции сравнения СемП текста со встречными текстами воз- можны при условии использования одного метаязыка представ- ления содержания во всех компонентах; или это должен быть ме- таязык, легко адаптируемый к разносортным компонентам про- цесса понимания. Мы пошли по пути создания языка, пригодного оя решения наиболее сложных информационных задач, к кото- рым относятся накопление и классификация информации, ее преобразование и сжатие, фактографический поиск, докумен- I альный поиск, автоматический перевод с одного языка на дру- 10й, в частности на тот же самый, но с заданными критериями потерь. Заметим, что в это перечисление входит и задача автома- I ического реферирования иноязычных текстов: его можно опре- делить как перевод, сопровождающийся сжатием информации. Чтобы отличить такой многофункциональный метаязык от стан- дартного информационного языка (ИЯ), мы называем его ИЯП (информационный язык-посредник). Создание универсального ИЯП должно предполагать возмож- ность автоматического перехода к нему от естественных текстов и обратно. Структура ИЯП должна быть подобной, соизмеримой со струк- । урой ЕЯ. Только при этом условии можно построить алгоритм, который за одно или несколько последовательных преобразова- ний заменит текст на ЕЯ записью на ИЯП. Функции и структура ИЯП Поясним, почему мы назвали его информационным языком- посредником. Информационным он назван потому, что его глав- ная единица — формула Р(А,В) — является минимальной порци- ей Информации, или элементарным высказыванием: о единице А сообщается, что она находится в отношении Р к единице В. Как Язык (даже и метаязык) он имеет свою грамматику (синтагмати- ку и парадигматику) и соотносится с естественным языком: воз- можен перевод с ЕЯ на ИЯП и наоборот. Посредником он назван потому, что является языком общения между текстами, частями юкстов, а также между текстом и его адресатом, текстом и раз- ными предметными областями, анализируемым текстом и базами шаний. В отличие от языка элементарных смыслов в СемП модели Смысл <=> Текст» описываемое ниже СемП стремится к тому, 105
чтобы его узлами были не элементарные единицы, а сложные семантические единицы — понятия, имеющие внутреннюю струк- туру, — только они обладают свойством сравнимости с единица- ми других текстов или баз знаний. Если что-то и можно отнести к элементарным смыслам в ИЯП, так это единицы в позиции Р, т.е. сами смысловые отношения (СемО или СО): они универсаль- ны, легко переводимы на другие языки (поскольку все они би- нарны), их относительно немного. Пример: ПРИЧИНА (взрыв АЭС, катастрофа)', ЛОКАЛИЗАЦИЯ (Чернобыль, АЭС)', ВРЕМЯ (?, взрыв)', ПРИЧИНА (?, взрыв). Тот же набор СемО описывает и композиционные отношения между частями текста, и содержательные отношения между ин- формационными объектами: ЧАСТЬ (Высказывание!, Текст!); РЕпрезент (СИТ2, ВЫСК1); ЧАСТЬ (улица, город); РЕ (Президент, Государство). Набор СемО формируется из средств естественного языка. Информационный язык-посредник задается не лексически, а структурно, формулой минимальной порции информации, ми- нимального утверждения: Р(А,В), которая читается так: «А нахо- дится в отношении Р к В», или как ее частный случай: «А есть В». Синтаксис такого языка — монотонный: из всего арсенала ЕЯ, взята одна синтаксическая конструкция. В результате текст на ИЯП' состоит из предложений одинаковой длины, что делает стандарт-;' ной процедуру сравнения разных частей одного текста или разны текстов. Позиции членов формул функционально значимы. Еди ницы, стоящие в позиции Р, — это смысловые отношения, ] позиции А и В стоят лексические единицы (термы) или боле< крупные семантические единицы (от атомарных формул до слож ных единиц типа «текстовый факт»). Активно используемых СемО инвариантных относительно тематики текстов, сравнительно не много (порядка 50). Их список может быть получен интерпретаци ей (лексикализацией) значений грамматических связей любой ЕЯ. Для русского языка первый список текстовых СемО был по лучен как результат интерпретации значений всех служебных еди ниц естественного языка (предлогов, союзов и др.), граммати ческих значений (время, падежи) и иных показателей связи (о местоимений к их антецедентам и др.) [см.: Леонтьева, 1967; 1999 и др.]. В предложенной смысловой грамматике соблюдается принци «естественности смыслового языка», выдвинутый А.ВежбицкоЙ формулы ИЯП допускают естественное прочитывание, а каждо парадигматическое отношение между самими СемО легко экс плицируется в форме естественных вопросов и ответов. Допуска ются синонимичные способы выражения на ИЯП, СемО могу 106
быть неоднозначными, т. е. частично сохраняют свойственную ЕЯ нестрогость. Язык СемО может быть использован наиболее эффективно именно на глобальном, текстовом, уровне. Он является основой для формирования языка представления знаний. Он служит также основой словарных описаний, в которых должны быть сформули- рованы условия перехода к концептуальному представлению и место, которое в нем может занять данное слово (развитие дан- ной темы см. в гл. 12). Приведем несколько СемО с текстовыми примерами. Автор (А,В) — Есть ли у Иванова (А) статьи (В)? Агент (А,В) — Администрация (А) предлагает (В) Адресат (А,В) — Сообщить (В) Совету (А) ветеранов В_ведении (А,В) — управления (А) министерства (В) Время (А,В) — отпуск (В) в марте (А) Единица измерения (А,В) — цена (В) в рублях (А) Значение (А,В) — семейное положение (В) — холост (А)... Смысловая грамматика Синтагматика и парадигматика единиц ИЯП задают ту смыс- ловую грамматику, которую можно использовать при анализе тек- ста в системе АПТ. Синтагматическая организация ИЯП задается в основном све- дениями о том, какие СХ (семантические характеристики: призна- ки, отношения, формулы) допускаются в норме на первом и вто- ром местах каждого СемО. Так, в отношениях Автор (А,В), Агент (А,В) и Адресат (А,В) на первом месте должен быть СемУзел, имеющий СХ = ОДУТПевленность, а на втором — СХ = ДЕЙСТвие. Для СемО «В_ведении (А,В)» А и В имеют СХ = Организация, а в СемО «время (А,В)» СХ(А) = ОТРезок времени, СХ(В) = СИТуация. Ниже приведен фрагмент списка семантических характеристик: Абстрактность — причина, данные Вещество — вода, уголь Вместилище — комната, сумка, шкаф, здание Восприятие — слышать, видеть Движение — поездка, бежать... Организация — Дума, спецшкола, Федеральное собрание, ООН... Парадигматическая организация элементов ИЯП задается дву- мя отношениями: «иерархия» и «сопряженность». Иерархия семантических характеристик: действие > изменение действие > каузация информация > носитель информации 107
одушевленность > организация отношение > связка предмет > устройство ситуативность > отношение ситуативность > процесс > действие > движение устройство > деталь устройства Иерархия позволяет формулировать требования к заполнении валентностей в более общих СХ и удовлетворять их единицами более частными СХ. Так, Объектом чтения объявляется СемУ < признаком «информация» {прочитал сообщение), но возможн! присоединение СемУ с признаком «носитель информации» {про читал статью). Иерархия смысловых отношений: Актант (А,В) > Субъект (А,В) > Агенс (А,В) Актант (А,В) > Объект (А,В) > Пациенс (А,В) Актант (А,В) > Адресат (А,В) Актант (А, В) > С помощью (А, В) > Инструмент (А, В) В сопоставлении с (А, В) > Больше (А, В) Параметр (А,В) > Значение (А,В) Параметр (А, В) > Время (А, В) Параметр (А,В) > Кличество (А,В) Идентификатор (А,В) > Имя (А, В) Исходная точка (А,В) > Причина (А,В) Конечная точка (А,В) > Цель (А,В) Принадлежность (А,В) > Параметр (А,В) Содержание (А,В) > Тема (А,В) Сходно (А,В) > Равно (А,В) На этапе коррекции промежуточного СемП иерархия едини! позволяет уточнить значение связи. Отношение «сопряженности» (*>) вводится для обозначена более слабой, чем иерархия, парадигматической связи. Оно озна^ чает, что две соединяемые им формулы могут быть взаимозамен нимы при определенных условиях, оговоренных особо (в словари или грамматике). Это отношение редко возникает между отд ель ными признаками (например, «абстрактность» *> «информация») поскольку всегда есть стремление сделать признаки непересекак> щимися, но вполне естественно между их комбинациями. И есл1 иметь в виду анализ текста, необходимо предусмотреть его междз СемО. Примеры: ; Локализация (,) Ограничение (,) Условие (,) * > Исходный пункт (,) Конечный пункт (,) * > Условие (,) * > Время (,В) и/или Локализация (,В) 108
Естественное толкование отношения сопряженности в приме- нении к анализу текста может быть, например, таким: 1. Говорить о локализации некоторого действия (например, действия перемещения) — в некотором смысле то же самое, что говорить об исходном и конечном пунктах этого действия; валент- ность «Лок (?АЗ,С)», если она еще не была заполнена, будет счи- таться «погашенной». 2. В ответ на вопрос об условиях протекания некоторого про- цесса можно называть время и/или место его протекания и др. Ряд СемО обладает свойством транзитивности [например, Ло- кализация (,), Часть (,), Множество (,)]; ряд других — свойством симметричности [Вместе (,), Равно (,), Связано с (,)], они же гранзитивны. О некоторой избыточности (впрочем, полезной) набора СемО говорит наличие конверсных отношений: например, Часть (А,В) ~ Conv* > Состав (В,А). Итак, смысловая грамматика позволяет эксплицировать связи по всему тексту, выявлять смысловые опущения. В большой мере текстовая избыточность выражается в повторении смысловых от- ношений. Знание смысловой синтагматики позволяет восстано- вить части смысла, опущенные на локальных участках текста, со- брать сложную единицу СемП в масштабе всего текста. При этом надо проверять условия непротиворечивости набора СемО, отно- сящихся к одному терму. Сделанный нами набросок смысловой грамматики является тем минимальным багажом, с которым можно приступить к анализу ЕТ. Полное описание грамматики можно создать после большой жспериментальной работы с естественными текстами и формаль- ных уточнений записей на ИЯП. § 31. О единицах СемАн Важнейшей характеристикой любого, в том числе семантиче- ского, анализа текста (даже при нашем неполном знании того, какой конкретный вид примет окончательное СемП текста) яв- ляется определение структуры минимальных и максимальных еди- ниц текста. Минимальной единицей является выражение, удовлетворяющее формуле семантического языка — Р(А,В). Если вместо всех трех членов подставить лексические выражения, получим элементар- ную ситуацию (ЭСит). Локальный СемАн проводится в границах каждого предложе- ния; их последовательность образует семантическое пространство текста; на этой структуре строится уже ситуативное представле- ние (СитП) и формируется новое деление структуры текста — на высказывания. Пока интерпретация ограничивается рамками от- 109
дельных предложений (высказываний), мы остаемся в области локального анализа. Максимальная единица — семантический граф целого текста: первичная текстовая структура СемПрост постепенно преобразу- ется в СитП; а высшей единицей, представляющей текст во внеш- ней среде, считается текстовый факт (ТФ). Мы начинаем с синтаксической структуры, поскольку в ряду всех преобразований исходного текста она первая вводит связи между элементами, а без связей нельзя построить полноценной семантической структуры. Хотя многие разработчики систем АПТ исходят из нераздели- мости уровней СинАн и СемАн (интегральный СемАн), мы счи- таем, что между ними возможно лишь определенное взаимодей- ствие, но что результат взаимных уточнений должен поступать в две разные структуры, каждая со своим специфическим метаязы- ком. Языком СитП остается та же грамматика СемО, но могут измениться состав и иерархия узлов и отношений. Разницу трех важнейших лингвистических структур — СинП, СемП и СитП — проиллюстрируем на примере упрощенного раз- бора первой фразы из текста рецепта: Ложку травы залить двумя стаканами кипящей воды. Если строить реферат для каждой из струк- тур по правилу «Отбирать в реферат только главные единицы структу- ры», то для СинП он построится как «Ложку залить стаканами». СинП: Лоиоо^авы залить двумястаканами кипящей воды Для СемП этой фразы по тем же правилам получим другой реферат: «Траву (в количестве одна ложка) нужно залить водой (в количестве два стакана)». СемП: 1. Колич (один, ложка) 2. Колич (1., трава) 3. Колич (два, стакан) 4. Колич (3., вода) 5. Призы (кипящий, вода) 6. Модал (НЕОБХ., заливать) 7. Агент (?, заливать) 8. Об (4., заливать) 9. Конеч_т (2., заливать) 10. Цель (?, заливать) Цифра в составе формулы означает, что членом названного СемО является другая формула с соответствующим номером. Так, Конечной точкой действия «залить» является «трава» в количе- стве «одна ложка». 110
А для СитП получим структуру следующего вида: Сит Цель Модальность НЕОБХ 1 ложка Конец т заливать ------------ 2 стакана ___ Количество трава ------------• ? Реферат был бы примерно таким: «Траву (неизвестно какую: нет идентификатора для родового понятия трава) нужно залить ки- пятком, пока неизвестно зачем». «То, зачем» — это валентность цели (,) у понятия «необходимость», которое появилось еще в СемП (как интерпретация инфинитива: необходимо залить)-, именно оно претендует на роль главного в данном высказывании, хотя заполнение этой валентности может быть отложено на несколько шагов, вплоть до выхода на уровень прагматики (чтобы пить на- стой..., чтобы лечить... перечисленные в тексте рецепта болезни). Забегая вперед, отметим, что при попытке переписать СитП этой фразы в базу знаний (т. е. построить целую единицу «Тексто- вый факт») степень неполноты только увеличится. Во-первых, недостает Внешней дескрипции (жанр, тип документа, из кото- рого взято это высказывание, автор и т.п.). Во-вторых, даже если системе сообщено, что это рецепт и что информацию из текста нужно помещать в БЗн «Лекарственные травы», в анализируемой фразе мы не найдем ответа на обязательные для заполнения поля базы, которые могут быть, например, такими: 1) наименование лечебного средства; 2) показания (что лечит); 3) способ приготовления; 4) противопоказания. Ответом на вопрос 1 является название рецепта («Шалфей», «Ромашка» и т.п.). Заполнение полей 2—4 может быть получено, если проанализировать весь текст. Наша фраза содержит лишь на- чало ответа на вопрос 3. Каждый переход (от синтаксической структуры, или СинП, к СемП, от СемП к СитП и далее к ИнфП и к БЗн) совершается 111
скачком, изменением состава и характера единиц, а также их иерар- хий в каждой следующей структуре. § 32. Этапы локального СемАн текста СемП предложения (еще больше это относится к СемП всего текста) в общем случае не изоморфно СинП предложения. Это выражается в том, что: а) семантически главенствующим может оказаться не синтак- сически главное слово группы, а подчиненное (ср.: начало работ, край леса, ложка травы, стакан воды и др. — здесь семантическая характеристика группы заимствуется от синтаксически зависимо- го слова: начало работ — это уже работа, край леса — это лес, ложка травы — трава, а стакан воды — вода); б) не все узлы СинП становятся узлами СемП, некоторые пе- реходят в смысловые отношения (быть, равно, соответствовать и др.). Переход узла СинП в отношение (СемО) приводит к серь- езной перестройке структуры начального СемП (см.: СемП2, СемПЗ и т.д. в схеме ИЛМ); в) граница между внутренними (в составе сложного семанти- ческого узла) и внешними (между разными СемУзлами) связями в СемП не обязательно совпадает с границей между сильными и слабыми связями в СинП; г) некоторые семантические узлы, собранные к началу СемАн! по принципу полного совпадения цепочек лемм с единицами БД, а поэтому не обязательно достоверные, могут вступать в конф- ликт с установленными синтаксическими связями и т.д. Эти частные несоответствия дополняются одним глобальным несоответствием: окончательное идеальное СинП предложения всегда замкнуто, полно, СемП отдельного предложения всегда неполно, незамкнуто, так как это и есть форма проявления его содержательных связей с текстом. Поэтому СемП предложения не может быть построено, так сказать, в один шаг, простым перехо- дом единиц СинП в единицы СемП, — иногда приходится про- ходить через ряд промежуточных состояний строящегося СемП. В этом процессе главная роль принадлежит семантическому сло- варю. Итак, имеем на входе СинП, как правило, неидеальное. Ло- кальный СемАн включает следующие части: 1) «прямая» интерпретация единиц СинП; 2) анализ лексических валентностей (сильных связей); 3) интерпретация слабых связей; 4) интерпретация всех единиц простых высказываний как эле- ментов ситуативного представления, т.е. создание первичного СитП. 112
Описание четвертого этапа продолжено в главе 7, поскольку < ИТ — основная единица глобального СемП и в ходе построения ( итП высказывания и текста необходимо применять правила кор- рекции и сжатия первичного СемП. Заметим, что назвать эти части этапами можно лишь услов- но, по традиции. Порядок их применения свободен. Например, для простых случаев можно начинать с построения СИТ, можно комбинировать их иначе, это зависит от многих факторов (задан ни и в каком виде тезаурус, есть ли для слова семантическое описание и т.п.). «Прямая» семантическая интерпретация СинП Первый шаг к построению семантической структуры текста — создание СемП каждого отдельного предложения, оно начинается как прямая, наиболее простая интерпретация построенного до этого (полного или неполного) синтаксического представления. СемАн 1 должен интерпретировать узлы и связи, построенные в СинШ. Результатом интерпретации узлов являются слова-зна- чения (вместо слов с нерасчлененными значениями), которые должны потом перейти в семантические узлы; результатом интер- претации связей — смысловые отношения между узлами СемП: например, ВРЕМЯ(,), ЛОК(,), УГОЧН(,) и др. Если синтаксис не построил групп, каждая связь и каждое слово интерпретиру- ются отдельно, и все эти первичные интерпретации переходят в СемШ предложения. В этом случае первичный СемАн построит, по сути, синтактико-семантическое представление, так как узлы и связи СинП просто получат семантические имена. Тривиальные правила интерпретации единиц СинП в едини- цы СинСемП включают следующие базовые (по умолчанию) опе- рации. 1. Каждое СинО (обозначено г) переходит в какое-либо СемО (R), а связываемые им синтаксические узлы (обозначены а и Ь) становятся простейшими семантическими узлами (А и В): а г b => ARB. Для этого нужно задать таблицу соответствий «СинО => СемО», например: подлежащее(а,в) => АГЕНС(А,В); определение^,в) => ПРИЗНАК(А,В); обстоятельство^,в) => ЛОК(А,В), если А имеет СХ, разрешенные грамматикой; обстоятельство^,в) => ВРЕМЯ(А,В), если СХ(А) = «отрезок време- ни» и т.д. 2. Если же построены синтаксические группы — именная груп- па (ИГ) или глагольная группа (ГГ) — то каждая из них стано- вится первичным СемУзлом: ИГ/ ГГ => СемУ. 113
3. Главное слово синтаксической группы объявляется лека ческим ядром (ЛЯ) семантической группы, или СемУзла: Гла ное слово (ИГ/ ГГ) => ЛЯ(СемУ). Изложенная процедура показывает простейший способ по строения СемУзлов из СинП лингвистическим путем, т.е. «снизу вверх». Включение семантического словаря продолжает перевод с язык синтаксических структур на язык СемП; словарь вводит в рас смотрение семантические категории и смысловые валентност] единиц, образующих словарные входы. Это дает возможность стро ить более крупные и более содержательные СемУзлы. Главная движущая сила СемАн текста — взаимное заполнени валентностей текстовых единиц, включая формальные, компози ционные и содержательные (ситуативные либо энциклопедиче ские) СемО. Оно сопровождается вычислением веса каждой строящегося СемУ. Семантическая интерпретация сильных связей Главная задача СемАн 1 — построение Семузлов по сильны» связям. Упрощая картину, назовем сильными те СемО, которьи входят в описание значений лексем в качестве их валентностей ] семантическом словаре, причем указаны и морфолого-синтак сические (или грамматические) способы реализации валентно стей в пределах предложения, и семантические характеристик] кандидатов на заполнение (КЗ) валентностей. Лексему, имею щую валентности, принято называть предикатным словом. Ha-i бор таких СемО при нем Ч. Филлмор назвал глубинными паде- жами; заполняющие СемО лексемы называют актантами, сово- купность актантов — актантной структурой. Больше всего ва- лентностей имеют слова категории СИТ (ситуации). Если в пред- ложении находятся такие слова-КЗ, которые удовлетворяют объявленным условиям, строится предикатная структура (в на- шей терминологии — СемУ типа СИТ). Процесс интерпретации сильных связей представляет собой последовательную работу алгоритмов, которые обращаются к раз- личным разделам словарной статьи и сравнивают информацию в этих разделах с результатами СинАн и уже проработавших алго- ритмов СемАн1. Процесс состоит из двух частей: интерпретирую- щей и фильтровой. Интерпретирующие алгоритмы достраивают СинП до СинСемП со всеми возможными вариантами интерпре- тации узлов и связей. I Фильтровые алгоритмы анализируют актантные структуры се- мантических узлов и на основании этого отбрасывают некото- рые варианты интерпретации как неверные или менее вероят- ные. 114
В результате сравнения семантического словаря с СинП! фор- мируются гипотезы о заполнении валентностей одних семанти- ке ких узлов другими; это можно представить схемой 3: Схема 3 Синтаксические узлы Семантические узлы Валентности СемУзлов Словарные способы реализации валентностей Лексемы, удовлетворяющие им (КЗ) Алгоритмы фильтровой части, используя определенные кри- и'рии выбора, зафиксированные в семантическом словаре (на- пример, выполнение селективных ограничений), отбрасывают одни омонимичные элементы и объявляют достоверными другие. В частности, в СемАн! могут пересматриваться и достоверные связи, и узлы СинП (обратная связь с синтаксическим компо- нентом), что необходимо в системе МП, если перевод осуществ- ляется через СинП, а семантика используется лишь как фильтр. Описание алгоритмов и программ этапа первичного семантичес- кого анализа в составе системы французско-русского автомати- ческого перевода ФРАП можно увидеть в сборнике «Машинный перевод и прикладная лингвистика», а также в работе И.М.Куд- ряшовой [см.: Кудряшова, 1981]. В этой системе фраза могла не- сколько раз поочередно обрабатываться двумя компонентами, которые играли роль фильтров друг относительно друга [см.: МП-271, 1987]. Рассмотрим французскую фразу Traduire ип texte du francais еп russe «Переводить текст с французского языка на русский», имею- щую однозначную синтаксическую структуру. У слова-значения С {traduire) будут такие валентности: Агенс (А1,С), Объект (А2,С), Источник (АЗ,С), Результат (А4,С). Для каждого А (актанта) в словаре перечисляются семантиче- ские признаки слова, способного заполнять данное место, — в виде разрешений и запрещений, например: СХ (А1), или проще, СХ1 = лицо СХ2 = информация СХЗ = СХ4 = не время, не пространство 115
Это так называемые селективные ограничения, задающие yd ловия построения правильной семантической структуры. В семан! тическом словаре типа ФРАП (а также РУСЛАН, описанный в гл 12) для каждого А, перечисляются способы его возможной сиН' таксической и морфологической реализации в тексте — в вид( совмещенной грамматической характеристики: ГХ(а1), или ГХ1 = подлеж(а1,с): станд (Агенс реализуется стандарт ным способом, т.е. подлежащим al при глаголе-сказуемом в лично! форме) ГХ2 = п_доп (а2,с): станд (Объект — выражается стандартно, прямые дополнением) ГХЗ = к_доп(аЗ,с): de+S ГХ4 = к_уюп(а4,с): ел+S (Источник и Результат — косвенные допол- нения в указанных при них морфологических реализациях «предлог Н существительное»). Если имеет место совпадение всех перечисленных в словаре условий с теми, которые реализуются в данной фразе, происхо- дит «автоматическая» интерпретация, установленные связи счи- таются абсолютно сильными, а весь СемУзел (предикат с актан- тами) получает максимальную оценку (5). Так, для предложения Nicole avail traduit le texte du francais en russe, равно как для его варианта в пассиве, может быть построен СемУзел типа многомест- ный предикат: Traduire (Nicole, texte, francais, russe). Оценка = 5. Мы упростили картину связей; семантически корректнее счи- тать это предложение неполным, тогда СемО Источник и Резуль- тат должны иметь на первом месте формулу, привязывающую текст! к французскому языку и текст2 к русскому, а Объект пере вода должен быть выражен формулой Вместо (текст2, текст!). От несем необходимую коррекцию на этап глобального анализа. Совпадение между заданным в словаре поведением лексемы дает основания в глубинно реальным текстовым синтаксических структурах закрепить за каждым актантом его места в предикатном выражении [см.: нашего примера это будет выглядеть так: определенный Мельчук, 1999]. номер Для Traduire Nicole texte francais russe За номером актанта в ГСС закрепляется негласно также другая смысловая нагрузка — сила связи с предикатом. Здесь у составите- 116
п‘й словарей в разных системах возможны разночтения, что иногда приводит к нестыковке содержательно совпадающих описаний. Другие глагольные формы (инфинитивы, деепричастия и при- частия) наследуют валентности личных форм глагола, но требу- ют некоторых трансформаций способов реализации актантов: так, Агенс у инфинитива выражен не стандартным способом (т. е. под- иежащим при глаголе), а существительным в дательном падеже (Ему идти в школу) или вообще блокируется; причастная форма и пассив требуют других трансформаций. Кроме того, появляются валентности, обусловленные самой частью речи: для дееприча- стия — это валентность Одновременно^,В) или После(В,С), для причастия — Признак(С,В), где В — синтаксически главное слово. Все эти трансформации исчислимы и должны быть заданы в сис- । еме АПТ. Ниже рассмотрены некоторые более сложные случаи. Итак, семантический анализ сильных связей должен реализо- ваться в пределах одного предложения {Иван послал письмо мате- ри), что принято отражать в форме многоместного предиката с фиксированным порядком мест актантов: послал (7. Иван, 2. пись- мо, 3. мать). Если же некоторые аргументы оторваны (например, по стилистическим соображениям, при парцелляции: Иван по- слал письмо. Но не брату. И даже не матери.), они не войдут в состав предикатного выражения. Присоединение таких оторвав- шихся аргументов возможно только при семантическом анализе, выходящем на межфразовый уровень. Не только потому, что они находятся в другом предложении, но и потому, что оторвавшиеся аргументы обрастают дополнительными смыслами (в данном при- мере они выражены словами но, не, и, даже). Их значения можно «прибавить» к соответствующим актантам при выходе за пределы предложения. Чтобы можно было соотносить сильные и слабые связи в со- ставе предложения, а также по всему тексту, в СемП предложе- ния фиксируются в явном виде все смысловые связи предикатов с их аргументами (как в последующем анализе будут представле- ны и слабые связи), причем порядок их перечисления свободный. Он, например, может быть следующим: СИТ = посылать (Al, А2, АЗ) Объект/Содерж (А1, посылать) Адресат (А2, посылать) Агенс (АЗ, посылать). Все те связи, которые не нашлись или не опознаны в предло- жении как сильные (в соответствии со словарным описанием глав- ного слова-предиката), автоматически оказываются слабыми. Так, если в том же предложении говорится, куда, когда и зачем посла- но письмо, то эти три связи окажутся слабыми. Слабые связи в смешанной синтактико-семантической структуре отображаются 117
отдельными предикатами, включающими главный предикат с его аргументами: Конечная точка (D, посылать (А, В, С)) Время (Е, посылать (А, В, С)) Цель (F, посылать (А, В, С)) В структуре разница между сильными и слабыми связями выра- жается в том, что стрелка, направленная к слабому зависимому, не должна находиться на одном уровне со стрелками, идущими к силь- ным аргументам. Требование отображать в СемП или в СинСемП уровень присоединения означает, что в структуру необходимо вве- сти нетерминальные символы: например, символ СИТ, которому подчинен и предикат со своими актантами, и слабые связи: Цель (чтобы..., СИТЗ) и т.п. Это один из доводов в пользу ситуативно- го представления, которое регулирует иерархию в отношениях зависимости (см. описание СИТ в гл. 7). За порогом деления на сильные и слабые остается большая категория связей; любое решение — отнесение их к сильным или к слабым связям — оказывается интуитивно спорным. Рассмот- рим несколько примеров: Он зашел... (Куда? Зачем? К кому?) - домой, в школу (Конечная точка) - ко мне (Адресат) - чтобы узнать..., за книгой (Цель) Этот метод появился... (Где? Когда? Почему?) - впервые в Англии (Локализация) - в конце XIX века (Время) - благодаря открытию ученых (Причина) - тогда, когда стало ясно (Одновременно с...) Связи, которые образуют возможные продолжения, дополня- ющие данные фразы до нормального вида, нужно считать семан- тически сильными, хотя они различаются: а) формой поверхност- ного выражения (и потому не могут считаться абсолютно сильны- ми); б) значениями связи; в) семантическими характеристиками зависимой группы. Приходится разделять связи на: а) абсолютно сильные (синтаксически + семантически); б) только семантичес- ки сильные (как в приведенных выше примерах, где валентность задается в обобщенных СемО); в) факультативные (слабые). Гипотезы о заполнении валентностей могут формироваться не только в результате интерпретации валентных связей СемУзлов, но и при анализе слов-отношений типа одинаковый, цель, в частно- сти, а также при анализе слов — лексических функций Operi, Funci, Ai, Advi [см.: Мельчук, 1999]. Итак, многоместные предикаты (командировать, выбирать, убеж- дать и т.д.) не относятся к СемО. Все они — семантические узлы, 118
обозначающие разные ситуации, в которых предикат сам являет- ся лексическим ядром. Но безусловно относятся к СемО те отно- шения, которые можно установить (дав им названия) между каж- цым из актантов и самим предикатом. Это роли, которые отводят- ся актантам в ситуации, обозначаемой предикатом, или глубин- ные падежи: АВТОР (А, убеждать); АДРЕСАТ (В, убеждать), СОДЕРЖа- ние (С, убеждать). В большинстве таких триад имена СемО — аналоги существительных, и они допускают перифразы типа «А есть АВТОР, «В — это АДРЕСАТ», «С — СОДЕРЖание (дей- ствия убеждать)». СемАн 1 лучше начинать с интерпретации главного члена пред- ложения — со сказуемого, так как вместе со своими актантами он образует главный семантический узел предложения-высказыва- ния. Интерпретация любой группы (глагольной, именной, пред- ложной) начинается с построения внутренних связей; при этом уточняется состав семантических узлов, которые постепенно ук- рупняются, согласно основной тенденции строить более содер- жательные единицы в принятой модели. В процессе семантичес- кой интерпретации могут уточняться или даже пересматриваться и установленные синтаксические связи: СинШ => СинСемП => СинП2. СинП2, в свою очередь, приведет к более точному СемП (т.е. к СемП2). Важной частью взаимодействия СемП и СинП должна быть проверка на непротиворечие между собой результатов интерпре- тации сильных и слабых связей. Семантическая интерпретация слабых связей Вторая, но едва ли не более важная, задача СемАн 1 — интер- претировать слабые связи. Слабые связи проще всего определить как такие, которые не «берутся» механизмом обнаружения силь- ных связей на первом этапе СемАн 1. Очевидна недостаточность определения сильной связи только на основании совпадения предсказанного способа выражения (ср.: Переводить с русского языка на французский и Переводить с листа прямо на машинку и др.). Но нельзя и опираться только на семан- тические характеристики управляемого слова. Так, фраза-заголо- вок Choisir les yeux ouverts (во французской газете) может быть понята и переведена как Выбирать открытые глаза, т. е. в полном соответствии со словарным описанием валентности Объект (вы- бирать можно все что угодно). И единственность гипотезы поддер- живает такое решение. Не поддерживает его только текстовый уро- вень: лингвистический контекст целого текста (перифразой дан- ной лексемы оказываются лексемы выборы и голосование) застав- ляет отказаться от гипотезы о том, что в данной фразе выражен 119
смысловой Объект. Тем самым связь, опознанная как сильная должна перейти в разряд слабых: Выбирать в значении Толосо' вать’, с открытыми глазами', а для Объект/Содерж голосовав и: (за или против) остается неполная формула: ОБ/Содерж(?,йыби рать). В процессе автоматического анализа массива текстов пробле ма распознавания и семантической интерпретации так называе мых слабых связей остается всегда актуальной. Слабыми оказы ваются такие синтаксические группы, которые остались невост ребованными в качестве зависимых при заполнении валентное тей полнозначных лексем. Только тогда происходит обращение 1 семантическим словарным статьям лексико-грамматических эле ментов, которые вводят данную слабую группу. Слабые групш имеют сильную валентность на хозяина, которая представляе собой СемО: необходимо интерпретировать сам способ связи. Са мый большой класс слабых связей образуют слабоуправляемы' предложно-падежные группы, а также узлы, выделенные знака ми препинания. Инструментом интерпретации является словарь отношений, своего рода грамматика слабых связей. Входом в ,этот словарь-ана- лизатор является пара наборов характеристик (для слов А и В, являющихся потенциальными кандидатами на связывание); каж- дый набор может включать их лексико-грамматические характе- ристики (ЛГХ) и семантические характеристики. ЛГХ состоит и: значений морфолого-синтаксических классов и подклассов, вклю- чая лексический оформитель связи (предлог, союз, нулевой пред- лог), СХ состоит из семантических признаков и смысловых отно- шений. Кроме этого, в словарной статье каждого конкретногс предлога могут быть отражены его индивидуальное синтаксичес- кое и позиционное поведение, свойственные этому средству свя- зи способы нарушения смысловой грамматики, а также все осо- бенности перевода на другой язык. Выход — смысловые отношения между А и В. Каждый конк- ретный предлог (или другой элемент, вводящий слабую группу' характеризуется своим набором СемО, что и отражено в его сло- варной статье. Строки словаря (в системе ФРАП их было околс 300) упорядочены для каждого предлога по степени полнота входных наборов информаций, последняя строка каждого пред- лога выдает самое обобщенное значение и перевод «по умолча- нию». При таком словарном описании значений предлогов процеду- ра автоматического распознавания значений (и определение пе- реводного эквивалента) многозначных предлогов в тексте оказы- вается достаточно простой: для каждого предлога отыскивается такая строка в его таблице, в которой СХ членов А и В совпадают с СХ реальных слов — гипотетических членов предложной конст- 120
рукции. Находящееся на этой строке смысловое отношение и есть интерпретация данного предлога. Если словарь дает несколько возможных значений (несколько ( емО) предлога, а ближайший локальный контекст (сама ИГ) не позволяет предпочесть единственный вариант, в структуру t 'смПрост заносятся все альтернативы. То же относится к союзам, такам препинания и значимым грамматическим категориям, так как все они принадлежат семантической категории ОТНОШЕ- НИЕ. Грамматика слабых связей может начинать работать по резуль- । атам достаточно простого синтаксического процессора. Возмож- ная при этом избыточность, когда имя валентности потенциаль- ного хозяина и имя слабого отношения совпадают, не только не вредит, но и наоборот, полезна как свидетельство правильности анализа. В принципе любые зависимые могут рассматриваться как слабые, тогда семантический анализ будет состоять в совмещении имен валентностей с предлагаемыми интерпретациями слабой связи, и это будет гораздо более гибкий механизм, чем соедине- ние по заданным моделям управления. Например, если группа аексем уйти, пойти, выйти и др. требует валентности Конечная_ Точка (??,выйти), т. е. «Куда выйти?», а предложная группа за хле- бом или на охоту имеет одним из значений Цель(охо/ио,??), то они взаимно насытят свои валентности с результирующим СемО Цель(охо/ио, выйти), поскольку в иерархии СемО Цель(,) являет- ся частным случаем СемО Кон_Т(А,В). Из этого можно сделать вывод, что грамматика слабых связей имеет большую семантиче- скую силу, чем грамматика сильных связей (только глубинных падежей). В основе ее лежит понятие «правильной» формулы СемП, т. е. правильного минимального высказывания на принятом семанти- ческом языке. Правильная формула задается теми СХ, которые являются допустимыми для первого и второго членов данного СемО: СемО (СХ1,СХ2). Механизмы интерпретации слабых связей в предложении ин- тересны тем, что являются собственно семантическими механиз- мами, которые нужны и при глобальном семантическом анализе целого текста. Описанный выше механизм прямой интерпретации а г в => A R В позволяет интерпретировать большинство многозначных предлогов в тексте правильно и однозначно. Но это объясняется не столько силой предложенного аппарата, сколько благоприят- ным синтаксическим и позиционным контекстом, позволяющим в большинстве случаев однозначно выбрать кандидата в управля- ющее А, а также соблюдением «семантической правильности» большинством авторов научно-технических публикаций. Если эти идеальные условия нарушены (например, использован прием 121
смысловой компрессии или допущено необычное употребление предлога), таблицы селективных ограничений для предлогов мало помогают. Оказывается, что там, где на синтаксис опереться нельзя и понимание а, следовательно, и перевод, осуществляются действи- тельно «по смыслу», аппарат селективных ограничений оказыва- ется слабым средством. Его роль сводится к чисто фильтровой — он позволяет отбросить некоторые интерпретации, но не дает возможности выбрать из нескольких альтернативных интерпрета- ций одну, даже когда это можно задать семантическим контек- стом фразы. Отброшенными оказываются иногда такие употреб- ления, которые следовало бы объяснить, восстановить и принять (в основном это явления смысловой компрессии). Но для этого нужно «выйти в текст». Так, селективные ограничения в виде СХ могут отбросить все сколько-нибудь переносные, метафоричные употребления сло- ва, тогда как нет никаких оснований объявлять каждое небук- вальное употребление слова другим значением (ср.: бить палкой и бить аргументами). Тот факт, что при разных СХ сильно уп- равляемых слов оба имеют одну интерпретацию связи с глав- ным: Инструмент (палка, бить), Инструмент (аргументы, бить), позволяет описывать их в пределах одной словарной статьи и считать два разных употребления слова бить вариантами одного и того же значения. Чем больше связей в тексте окажутся семантически сильными, тем выше адекватность СемАн текста, так как он подтверждает семантическую связность текста. Эта установка диктует требова- ния к словарному описанию слов: они должны быть достаточно общими, чтобы каждое новое употребление слова не объявлялось новым значением, а каждая связь не оказывалась новой, не име- ющей отношения к уже установленным. Мы не даем более подробного описания проблем первичного СемАн, так как эти вопросы освещены в книге «Машинный пе- ревод и прикладная лигвистика» [см. МП-271, 1987]. Возвращаясь к смысловой интерпретации так называемых сла- бых связей, можно утверждать, что многие слабые связи интер- претируются в смысле незаполненных валентностей главного слова С, из подчиненных нетерминальному символу СИТ они перехо- дят в подчиненные ее лексического ядра и тем самым становятся семантически сильными. Отношение «быть частным случаем», записанное в грамматике СемО, обеспечивает возможность замены одного СемО другим при условии совпадения членов отношений. Отношение «сопря- женности» создает возможность замен при более сложных услови- ях. Но это выводит нас уже к операциям глобального СемАн тек- ста. 122
Проблема неполных актантных структур Набор формул — смысловых валентностей лексемы — стано- вится частью СемП предложения и далее СемПрост текста. Но некоторые валентности, семантически сильные (по определению, раз они записаны в семантическом словаре), не являются силь- ными синтаксически. Идеальные полные предложения редко встре- чаются в тексте, это скорее учебные примеры, конструируемые нингвистами. Если некоторая валентность не заполнилась по ка- ким-либо причинам (нужного слова не было во фразе или оно не удовлетворяло каким-либо — семантическим или грамматиче- ским — словарным требованиям, либо в тексте употреблена сло- воформа с редуцированным составом валентностей), соответству- ющее СемО в нашей модели переходит в СемП с незаполненным местом, т. е. смысловая неполнота фиксируется в явном виде. Так, для фразы Traduire ип texte du francais еп russe в СемП фиксируется отсутствие Агенса: Агенс (?, traduire) Объект (texte, traduire) Источник (francais, traduire) Результат (russe, traduire) Для фразы II traduit de 1963 a 1975 «Он переводит с 1963 no 1975 год» фрагмент СемП, соответствующий набору валентностей сло- ва traduire, должен быть таким: Агенс (il, traduire) Объект (?, traduire) Источник (?, traduire) Результат (?, traduire) Первое место СемО Объект (,) не заполнено, так как слова нет во фразе; Источник (,) и Результат (,) не заполнены, так как при удовлетворении формальных требований (de ... а) не удовлет- ворены семантические требования (1963 и 1975 — обозначают вре- мя). Предложные группы de 1963 и а 1975 останутся несвязанными на этапе интерпретации только сильных связей. В русской фразе (реальном названии документа) Программа работ лаборатории машинного перевода с французского языка на 1975 год синтаксический анализ свяжет обе предложные группы со словом перевод по синтаксической модели управления этого слова; семантический анализ интерпретирует первую связь как Ис- точник (?, перевод), а вторую (на 1975 год) исключит из разряда сильных для лексемы перевод, т.е. переведет в разряд возможных слабых связей именно для этой лексемы. Более успешной будет попытка объявить эту группу сильной для лексем Программа и работа, так как она удовлетворяет всем требованиям (ГХ и СХ) заполнения их валентностей: Время (1975 год, Программа) или 123
Время {1975 год, работа). Дальнейший СемАн снимет конфликт-! ность этих формул, тем что объединит их в один СемУ «Содержа-! ние (работа, программа)». Для лексем типа план, проект, программы и т. п. СемАн предлагает валентность Модальность {программа, рабо-1 та), где лексическим ядром, т.е. семантически главным, является! понятие работа, что в окончательной интерпретации этого СемУ| означает «Работа в 1975 году — в модальности Программа». Есте-1 ственно, что в структуру СемП перейдут неполные формулы ва-| лентностей Агенс (?, работа) и Содержание (?, работа). I Все варианты интерпретации полных и неполных узлов и свя-1 зей в нашей модели объединены в пределах одного представления! фразы, которое, таким образом, содержит неоднозначность раз-] ных типов (одна синтаксическая связь может рассматриваться как! реализующая валентности нескольких семантических узлов, соот-1 ветствующих одному СинУ, и др.). Неоднозначные участки Сем-1 Прост можно также считать разновидностью локальной смысло-1 вой неполноты высказывания. Так, именная группа сопротивление} проводника, однозначная синтаксически (второе слово — косвен- ное дополнение к первому), получит две несовместимые друг с другом семантические интерпретации: , ; 1. Сопротивление-. СХ = действие; проводник'. СХ = лицо; СемО между ними = АГЕНС {проводник, сопротивление). ] 2. Сопротивление'. СХ = ПАРАМЕТР(,) & ДЕТАЛЬ УСТР; про- j водник'. СХ = устройство; СемО между ними = ПАРАМЕТР {сопро-1 тивление, проводник). Чтобы выбрать правильную интерпретацию, нужно тоже «выйти в текст». Развитие и реализация СемАн в каждой конкретной задаче могут принимать разные формы: одни задачи требуют более подробного описания словарных статей, другие — структур Ситуаций, третьи — предметной области, а от выбранной схемы и состава СемКомп зависит, какие требования нужно предъявлять к уровню синтак- сиса. Семантическое представление текста можно начинать строить «снизу вверх», от единиц синтаксического представления, вызвав словарь и интерпретируя узлы и связи всех подряд СинП. Интер- претация узлов сведется тогда к выбору одного из нескольких зна- чений слова-СинУ, а интерпретация связи — к выбору наиболее подходящего имени СемО. Эта процедура остается необходимой частью СемАн, но лишь частью. Следующим за ним шагом должно быть установление референтных связей СемУ с их дальнейшим уточ- нением по всему тексту (глобальный СемАн, завершающий пост- роение внутренней дескрипции текста). 124
Семантический анализ любого естественного текста связан с преодолением двух принципиальных трудностей. Первая — субъек- 1 ивизм исходных семантических описаний — преодолима при учете мконов организации ЕТ как объекта анализа. Вторая — плохое информационное качество конкретных ЕТ — может дать интерес- ный научный и даже практический выход: логическим следстви- ем (пока еще далеким) анализа текстов явится возможность фор- мальной оценки информационных свойств ЕТ: в частности, меры правильности, степени связности текста, а также новизны и цен- ности информации, заключенной в каждом исходном тексте. Особо подчеркнем конструктивную роль такого явления ЕТ, как неполнота. В большинстве прикладных работ она рассматрива- ется как дефект, мешающий автоматическому анализу. На самом целе это одно из фундаментальных свойств любого естественного текста, обнаружение и учет которого помогают осуществлять важ- нейшую функцию АОТ — сжатие и компактное представление содержания текстов. Литература1 Богуславский И.М., Цинман Л.Л. Семантический компонент лингвистического процессора // Семиотика и информатика. — М., 1990. — Вып. 30. - С. 5-30. Ван ДейкТ.Язык. Познание. Коммуникация. — М., 1989. Ворожцова И.Б. Вопросы анализа слабоуправляемых групп при автоматическом переводе с французского языка на русский: Автореф. дис.... канд. филол. наук — М., 1980. Жолковский А.К., Мельчук И.А. О семантическом синтезе// Проблемы кибернетики. — М., 1967. — Вып. 19. — С. 17—238. Звегинцев В. А. Предложение и его отношение к языку и речи. — М., 1976. Ильин Г. М., Лейкина Б.М., Откупщикова М. И. идр. О двух типах внутреннего представления текста // Лингвистические проблемы функционального моделирования речевой деятельности. — М., 1974. — Вып. 2.-С. 48-58. Крылов С. А. Семантическая роль как элемент метаязыков общей и специальной типологии (подготовлено к печати) // 40 лет Санкт-Петер- бургской школе. — М., 2004. 1 В приводимом ниже списке литературы названы не только работы, имею- щие прямое отношение к излагаемой точке зрения на семантический анализ, но и публикации, содержащие материал для дискуссий или обсуждающие важную для нашей темы терминологию. Нельзя считать, что найдены окончательные определения самых важных для СемАн понятий — валентности, партиципанты, актанты, семантические роли и др. Разные подходы к теоретическому определе- нию этих понятий освещены в работах ведущих отечественных лингвистов [см.: Mel’cuk, 2003; Крылов, 2004; Падучева, 2004]. Принимая широкое понимание валентностей и партиципантов, считаю необходимым различать их: ведь первые — имена связей, а вторые — заполнители связи. 125
Кудряшова И.М. Анализ лексических валентностей — первый эи семантического анализа в системе ФРАП // Разработка формально модели естественного языка. — Новосибирск, 1981. Кудряшова И.М., Соколова Е.Г. Взаимодействие синтаксич! ской и семантической структур в процессе лингвистического анализа , НТИ. - 1984. - Сер. 2. - № 6. Лахути Д. Г., Федоров Е. Б., Добронравов И. С и др. Автом! тическое индексирование текстов в документальных ИПС // Кибернети ческая лингвистика. — М., 1983. — С. 84—95. Леонтьева Н.Н. Об одном способе представления смысла текста / ИПС и автоматизированная обработка научно-технической информа ции. - М., 1967. - Т. II. Леонтьева Н.Н.О механизме интерпретации слабых связей в тек сте // Лингвистические проблемы функционального моделирования ре чевой деятельности. — Л., 1982. — Вып. 5. — С. 101 — 124. Леонтьева Н.Н. «ПОЛИТЕКСТ»: Информационный анализ по литических текстов // НТИ. — 1995. — Сер. 2. — № 4. — С. 20—24. Леонтьева Н.Н. Строение семантического компонента в инфор мационной модели автоматического понимания текста: Дис.... д-ра наук. - М., 1999. Леонтьева Н.Н., Кудряшова И.М., Малевич О.Б. Семан тические заготовки к пониманию целого текста // Машинный перевод 1 прикладная лингвистика. Проблемы создания системы автоматическоп перевода: Сб. науч, трудов МГПИИЯ им. М. Тореза. — М., 1987. — Вып. 271. - С. 81-110. Леонтьева Н.Н., Никитина С.Е. Смысловые отношения, пе редаваемые русскими предлогами // SLAVICA, IX. — Дебрецен, 1969. - С. 16-53. Мельчук И.А. Опыт теории лингвистических моделей «Смысл <= Текст». - М., 1974; 1999. Моделирование языковой деятельности в интеллектуальных системах, Под ред. А. Е. Кибрика, А. С. Нариньяни. — М., 1987. МП-271 — Машинный перевод и прикладная лингвистика. Пробле мы создания системы автоматического перевода: Сб. науч, трудов. МГПИИ5 им. М. Тореза. — М., 1987. — Вып. 271. НЗЛ. Компьютерная лингвистика / Под ред. Б. Ю. Городецкого. — М. 1988. - Вып. 24. Новиков А.И. Семантика текста и ее формализация. — М., 1983. Падучева Е.В. Динамические модели в семантике лексики. — М. 2004. Перцова Н.Н. К построению глубинно-семантического компонен та модели понимания текста // Проблемы вычислительной лингвистик] и автоматической обработки текста на естественном языке. — М., 1980. - С. 3-89. Перцова Н.Н. Проблемы глубинной семантики (Материалы ] библиографическому справочнику). Части 1 и 2. — М., 1976. — Вып. 87-88. Рубашкин В.Ш. Семантический анализ текста: Модели и методы // Материалы конференции CORPORA-2004. — СПб., 2004. 126
Семантический компонент в системах автоматического понимания н кстов. Обзорная информация / Н. Н. Леонтьева, М. Б. Бергельсон и др. — М., 1982. - Вып. 6. Ситуационная семантика. Научно-аналитический обзор / В. В. Пет- ров, В. Н. Переверзев. — М., 1988. Тестелец Я.Г. Введение в общий синтаксис. — М., 2001. Тузов В. А. Компьютерная семантика русского языка / Труды Меж- (ународной конференции ДИАЛОГ-2001. — М., 2001. Шаляпина З.М. Структурные валентности как универсальный ин- грумент описания языковой синтагматики (в рамках сущностного под- хода к ее моделированию) // Московский лингвистический журнал. — М., 2001. — Т. 5,-№2. М е 1’ ё и с I. Actants // First International Conference on Meaning-Text Theory, Acts, Proceedings, 2003. — Paris, 2003. — P. 111—127.
ГЛАВА 7 ГЛОБАЛЬНЫЙ СЕМАНТИЧЕСКИЙ АНАЛИЗ И СЖАТИЕ ТЕКСТА Глобальным можно назвать такой уровень семантического ана- лиза текста, который позволяет строить единицы (узлы структу- ры) из материала разных предложений, имея целью в конечном счете сопоставить целому тексту единый связный граф. Глобаль- ный анализ, как правило, сопровождается сжатием лексическо- го материала текста, поскольку окончательное представление со- держания текста должно быть неизбыточным. Глобальный анализ завершает работу локальных механизмов и готовит текст к следующему этапу — сравнению с единицами внешней среды, единицами встречных текстов: структурами (СемП) других текстов, в том числе специальных, записями г базе знаний, формулировками разных информационных запро- сов. Чтобы выйти на уровень межтекстового общения, нужно по- строить единицы, являющиеся полномочными представителями данного текста. С другой стороны, нужно убрать из структуры то, что не относится к основному содержанию анализируемого тек ста. Механизмы глобального СемАн в нашей модели начинают ра ботать на первичной текстовой структуре — семантическом про странстве, — свойства которой, рассматриваемые ниже, опреде ляют характер глобальных операций. Сделаем сначала некоторое отступление от основной темы 1 остановимся на методах содержательного сжатия естественной текста. § 33. Связность и смысловое сжатие текста Задача моделирования и дальнейшей реализации на ЭВМ про цесса адекватного понимания ЕТ требует определения общих прин ципов и механизмов содержательной компрессии. Простым шту! мом конкретных реализаций систем АПТ эта задача не решаете: Так, детальное исследование одного из основных механизмов ш нимания, состоящего в свертывании научной информации, пр< 128
веденное в книге Д. И. Блюменау, позволило автору сделать вы- вод, что «совершенствование методов свертывания на эмпири- ческой основе практически себя уже исчерпало. Необходимо... обращение к теории, которая бы позволила формировать методи- ческий аппарат свертывания информации на качественно иной основе».... «Создание такой теории — дело будущего. Однако лю- оые, пусть незначительные, шаги в этом направлении представ- ляются нам делом исключительной важности» [см.: Блюменау, 1982]. Итак, одним из наиболее востребованных механизмов автома- (ической обработки текста является его сжатие (или компрес- сия), имеющее целью получить более компактную формулировку его содержания. Систему без такой функции трудно назвать систе- мой понимания. Даже пользователям систем машинного перевода часто нужен перевод не полного текста, а его наиболее содержа- к'льных фрагментов. Полный МП большого потока текстов может оказаться экономически невыгодным и технически трудно осу- ществимым, поэтому даже для целей МП встает задача автомати- ческого сжатия. Реферирование и аннотирование текста являются маетными случаями смыслосохраняющего сжатия, поэтому общая н'ория сжатия текста должна быть в основе своей лингвистиче- «кой теорией [см.: Гиндин, 1983]. Потребность в сжатом представ- лении содержания многих текстов на одну тему или даже сжатого тображения содержания больших массивов текстов обострили интерес к семантике целого текста и текстовых массивов. Очевидно, что приемы содержательного сжатия текста долж- ны использовать прежде всего свойства связности текста. Комп- н‘ксного описания всех механизмов связности пока нет, однако р.1 зные конкретные исследования — лингвистические, информа- ционные и работы из области поэтики — так или иначе опирают- « я на явные или неявные свойства связности текста, на внутрен- нюю организацию текста [см.: Гиндин, 1971; 1972; Леонтьева, 1981]. Самые очевидные материальные показатели связности текста — местоименные слова и замещающие местоимения. При анализе и* кета всегда встает задача нахождения антецедентов (и постце- ichtob) местоимений. Этой теме прикладная и теоретическая линг- вистика всегда уделяли большое внимание [см.: Падучева, 1979; 1982; Чехов, 1982]. В работе М. И. Откупщиковой дана классифи- е.щия местоимений в синтаксическом и семантическом плане, г огорая показывает, что семантика местоимений имеет отчетли- во выраженный функциональный характер, который ярко прояв- ляется на объекте «связный текст» [см.: Откупщикова, 1984]. В логической семантике и согласованном с ней лингвистиче- иом плане проблема референции — это «соотнесение высказы- |ния и его частей с действительностью — с объектами, событи- 1 1еонтьева 129
ями, ситуациями и положениями вещей в реальном мире или 1 общем случае в универсууме речи. Референция — это соотнесен' ность с индивидуальными, единичными предметами и ситуация' ми» [см.: Падучева, 1982]. В прикладной лингвистике и особенно в вербальных система: отношение текстового объекта к действительности (референци альный, или денотативный, статус) заменяется отношением меж' ду двумя текстовыми единицами, которое будем называть «ре- ферентной связью». При этом отношение Реф(А,В) в разных ва- риантах используется в лингвистических структурах, сопостав-: ленных высказыванию, для обозначения и более широкого кру- га явлений: например, как имя связи между некоторым нетер- минальным символом структуры и всеми реализующими его тек- стовыми единицами. В системах АПТ может быть использован^ только небольшая часть глубоких теоретических постулатов и выводов относительно свойств этого трудного пласта лексики. Так, если правила восстановления антецедентов опираются на простые линейные свойства (антецедент — это ближайшее слева существительное, согласованное хотя бы по грамматическому роду), они и мало достоверны. Правила восстановления антеце- дентов, опирающиеся только на синтаксические древесные свой- ства, очень ограничены: например, местоименное слово и его антецедент не могут быть соподчинены одному предикату. При выходе на межфразовый уровень принимаются очень осторож-. ные решения: таковые ищутся только в соседнем предложении (слева, редко — справа). При анализе, даже если он работает только с синтаксически-' ми структурами, Структура при этом не сжимается, а, напротив, становится более громоздкой и сложной (анафорические связ1 «ломают» синтаксическое дерево). При синтезе введение место имений сжимает выходной текст. Но для задач смыслового сжати текста нужно работать со структурой. Более серьезные правила восстановления антецедентов, а те* более порождения местоимений при синтезе учитывают комму никативную структуру предложения. Однако для сжатия содержа ния текста нужно установить коммуникативную структуру целой текста, а она не выводится просто из структур отдельных предло жений — здесь более уместен термин Ю.Д.Апресяна «неаддитив ное сложение смыслов». На свойство ожидаемой содержательной (сюжетной) связносп текста опирается разновидность систем ИИ, работающая с поня тиями сцены и даже целого сценария, структура и часть состав: которых задается заранее — в словаре или в больших схемах инте ресующей исследователя ситуации. Очевидно, что эта методик; применима только к очень ограниченным (штучным или искусст венно созданным) массивам текстов. Она требует не лингвистически 130
таний, а задания определенной логики рассуждений, а это субъек- 1 явная категория, зависящая от рассматриваемой ситуации и от интересов пользователя; общей типологии естественных рассужде- ний на лингвистической основе пока не существует. Фрейм — гораздо более гибкая единица. Он понимается как часть схемы/сцены ПО, а в лингвистическом плане — как слово- шачение вместе с набором смысловых валентностей, задающих роли участников какой-то абстрактной связной ситуации (слоты). Описание фрейма в словаре можно задавать перечислением ролей вместе со способами поверхностной (морфолого-синтаксической) их реализации в предложении. Совмещение предсказываемых сло- I ов фрейма с реальными данными анализа используется для сборки частной информации из целого текста в системах типа Information Extraction (IE) (см. гл. 9). Чтобы использовать фреймы для краткого отображения содержания всего текста, необходимо установить смысловые отношения между участниками фреймов-ситуаций, а )то часто уже межфразовые связи. Большой интерес у создателей прикладных интеллектуальных систем вызвала теория риторических структур (ТРС), предложив- шая набор абстрактных предикатов, выражающих содержатель- ные отношения между крупными частями текста, в том числе предложениями [см.: Mann, Thompson, 1987]. ТРС гораздо мень- ше привязана к какой-либо конкретной предметной области, что объясняется самим характером единиц — абстрактных логических отношений между любыми суждениями. Эта теория больше ори- ентирована на синтез. При анализе текста трудно диагностировать то или иное рито- рическое отношение, если не присутствует эксплицитный способ его выражения (слова поэтому, одновременно с этим и другие оче- видные выразители межфразовых связей). Без таких связок прихо- дится возвращаться к трудному пути, учитывающему семантику шачимых лексем, и вычислению сценария произвольного живого Iекста. Простым массовым средством, обозначающим обобщенные югико-композиционные связи частей текста, являются так назы- ваемые опорные слова (включая словосочетания), предложенные в работе И.П.Севбо [см.: Севбо, 1989]. В отличие от именующих слов (стол, интеллект, зеленый, война и др.) опорные слова, или слова-«строители» (итак, резюмируя, особо подчеркнем, все же, так- же, однако и др.), относятся к общеупотребительным, они уча- ствуют в создании любых текстов, в том числе сугубо специаль- ных. Коллекции опорных слов классифицированы по функциям в композиции текста, и на этом автор строит алгоритмы анализа свершенного текста по принципу «беглого просмотра». Результа- том анализа является общая композиционная структура текста, не (ависящая от его конкретного содержания. 131
В научно-технических текстах узкого профиля наиболее весо- мыми словами являются термины; на их выявлении и учете стати- стики встречаемости, распределения по тексту и других внешних признаках основана работа информационно-поисковых систем. Наиболее продвинутые информационные системы учитывают так- же тезаурусные связи между терминами, их статистику, наследо- вание и т. п.; их учет позволяет отбирать из текста наиболее весо- мые фразы. Получаемые таким способом квазирефераты или ква- зианнотации часто смотрятся вполне естественно. Что касается выявления конкретного содержания целого тек- ста, то здесь необходимо опираться на слова, обозначающие опи- сываемые в тексте ситуации и их участников, причем желательно задавать логику развертывания ситуаций. Система, которая могла бы объединить все эти средства связи в единое целое, — дело будущего, но строительные блоки такой системы прорабатываются во многих исследовательских проек- тах. Так, в некоторых работах предлагается способ сжатия доку- мента (Automatic Text Summarization), основанный на анализе пред- варительно автоматически размеченных системой GDA (Global Document Annotation) структурах массива документов [см.: Nagao, Hasida, 1998]. Предложено новое множество признаков («тэгов»), прежде всего обозначающих части речи, вводящих символ отдель- ного предложения и других больших частей текста. Результаты: аннотирования выводятся на экран и могут быть поправлены, так как имеется соответствующий редактор. Система GDA строит внут- ритекстовую сеть, в которой отражены актантные (Агент, Паци- енс, Реципиент) и риторические (Причина, Следование и др.); отношения; их не всегда можно различить, поэтому они заданы; общим списком (Thematic/Rhetorical Relations). Кроме того, уста-: навливаются анафорические и кореферентные связи. По результа- там GDA вычисляется степень информационной значимости от- дельных элементов и целых поддеревьев, которые маркируются, чтобы затем войти в окончательный сжатый текст/реферат. В от личие от информационных систем, где по простым критерия! статистического свойства вычисляется значимость целых предло жений, в данном подходе результирующий текст может быть сге нерирован из частей разных предложений, но в порядке их следо вания по тексту. Процедура сжатия опирается на лингвистически! свойства, т. е. не зависит от ПО, а размер реферата (степень ежа тия) заказывает сам пользователь. Системой GDA могут пользоваться и авторы текстов из Интер нета, тогда их тексты смогут обрабатываться интеллектуальны!! процессом основной системы (содержательный поиск, машин ный перевод, реферирование с указанной пользователем степе нью сжатия и др.). 132
Многие приемы сжатия содержания текста используются в си- стемах СГТ и других системах АПТ, основанных на знаниях. Их описание есть в работах, приведенных в списке литературы; там же указаны некоторые работы по теории связного текста. Особен- ный интерес представляют исследования, проводимые в Колум- бийском университете под руководством К.МакКьюин. Так, на- пример, система SUMMONS (SUMMarizing Online NewS articles) суммирует содержание многих газетных сообщений на одну тему («терроризм») [см.: McKeown, Radev, 1998], но за основу берет не тексты на ЕЯ, а уже готовые фреймы (templates), сравнивая их, убирая дублирующую информацию и принимая решения в случа- ях противоречивой информации (примеры см. в гл. 10). В книге И.Мани подробно рассмотрены сходные методы компрессии тек- ста с опорой на методы АОТ, ИИ, ИПС и с оценкой эффектив- ности использования современных технологий [см.: Mani, 2001]. § 34. Информационный синтез значимых для текста единиц В рамках нашей информационно-лингвистической модели СемП понимается очень широко — как любая структура семантического уровня, начиная с первичной структуры семантического простран- ства и кончая информационным представлением, которое являет- ся результатом отбора и настройки на язык пользователя части со- держания текста. Разновидностью СемП является также строя- щаяся для текста база данных. В этой модели высшей единицей, представляющей текст во внешней среде, предлагается считать текстовый факт. Он может быть собран, синтезирован в результате ряда преобразований — операций над первичной целотекстной структурой. Необходимость построения более крупных единиц СемПрост, чем семантические узлы, была очевидна уже на стадии семанти- ческой интерпретации слабых связей (см. гл. 6). Первые крупные единицы, которые могут приобрести внетек- стовую значимость, — это объекты и ситуации (Сит). Граница между ними не всегда очевидна. Этапы преобразований, на кото- рых происходит сборка этих первых сложных единиц, назовем си- туативным анализом (СитАн); он собирает кирпичики и блоки, из которых строится знание. СИТ — та «средняя» (подчеркнем, что лингвистическая) единица, которая еще сохраняет черты еди- ниц поверхностного уровня и при этом обладает всеми необходи- мыми свойствами единиц высшего уровня понимания, с нее на- чинается синтез единиц типа ФАКТ. Динамика построения еди- ниц текстовых структур такова: СемУ -» ЭСит -» СИТ -» Соб —> ТФ —> Факт(ПО). 133
Эту цепочку преобразований нужно понимать следующим об- разом. При построении семантического узла (СемУ) в соответствии со словарным описанием все валентности СемУ, т. е. формулы вида Р(А, В), становятся элементарными ситуациями (ЭСит). Некото- рые комбинации элементарных единиц ЭСит образуют единицу текстового представления СИТ. Некоторые СИТ могут быть уточ- нены как единицы типа Соб (события) исходя из словарных опи- саний (см. гл. 12), учитывая семантические характеристики их лек- сического ядра, либо по требованию пользователя. Некоторые СИТ и/или Соб переходят в единицы ТФ. Некоторые ТФ могут перейти в базу знаний определенной ПО как единицы Факт(ПО). В даль- нейшем анализе эти последние могут использоваться как фраг- мент грамматики ПО. Этапы построения СемПрост — это семантический анализ. Все преобразования последовательности формул-триад, образующих СемПрост (сжатие и др.), можно уподобить этапу Трансфера в СМП. А всю цепочку преобразований, начиная со сборки тексто- вых СИТ из элементарных ситуаций и вплоть до построения еди- ниц типа T-Факт, правильно назвать информационным синтезом, так как в результате создаются новые объекты и структуры. Про- цессы информационного синтеза — это прежде всего укрупнение и построение новых значимых узлов в семантическом простран- стве текста. Из всех глобальных процессов они выполняют наибо- лее конструктивную роль. Средней единицей глобальной структуры текста, являющей- ся к тому же ядром ТФ, оказывается единица СИТ (ситуация). Если не удалось построить полную единицу ТФ, то именно СитП (или несколько СитП) репрезентирует текст во внешней среде. Место СитП среди структур ИЛМ демонстрирует схема в прило- жении 9. § 35. Ситуация и ситуативное представление Ситуация — одно из самых популярных понятий, его исполь- зуют в лингвистике, психологии, литературоведении, искусствен- ном интеллекте. И везде, в том числе в лингвистической литера- туре, дается обычно экстралингвистическое определение: либо как кусочек действительности, реальной или только мыслимой, либо как определенное лексическое отражение в данном языке некото- рого фрагмента действительности. Не отрицая вторичность языка по отношении к действитель- ности, в данном случае к внеязыковой ситуации, мы ищем спо- соб ее формального отображения в лингвистических структурах. Мы работаем в рамках вербальной системы, она по определению 134
может апеллировать только к знакам и структурам, а не к дей- ствительности, для нее «достаточно изучать внутриязыковые от- ношения и ограничения и на этой основе сопоставлять языковым выражениям их семантические репрезентации» [Кобозева, 2000, 26]. Поэтому нам так важно перевести Ситуацию в ранг лингвис- тических сущностей. Это первая единица, с которой можно вый- ти на межфразовый и межтекстовый уровень. Ситуация — это структура, репрезентирующая содержание ми- нимального текстового высказывания в терминах и в соответствии с грамматикой заданного семантического языка. Полноценная с лингвистической точки зрения Ситуация — это сложный семантический узел, представленный нетерминальным символом СИТ, уточняемый Модальностью, Местом, Временем, также, возможно, другими смысловыми отношениями, описыва- ющими обстоятельства протекания ситуации, и имеющий лекси- ческое или структурное ядро, вводящее участников СИТ. В каж- дом сколь угодно малом высказывании должна быть вскрыта струк- тура СИТ. Другое дело — ее оценка: СИТ может быть дефектной (неполной, несвязной и т.д.), но СемП высказывания нужно стре- миться перевести в категории СИТ. Даже если высказывание со- стоит из одного слова с предметной характеристикой, семанти- ческий анализ должен приписать ему пассивную валентность на СИТ, в которой оно займет позицию согласно своей семантике. Всем выделенным в тексте крупным фрагментам (сложным пред- ложениям, абзацам, главам, разделам, а в пределе — целому тек- сту) будут сопоставлены сложные структуры с вершинами — еди- ницами типа СИТ. Придание Ситуации статуса лингвистической единицы очень важно с точки зрения прикладных задач, связанных с автомати- ческим наполнением баз знаний на основе лингвистического ана- пиза корпуса текстов. Единицы типа СИТ являются теми готовыми блоками, кото- рые могут быть непосредственно перенесены в базу знаний, соот- ветствующую по теме. Они могут быть настроены на определен- ные запросы или перестроены в соответствии с информационны- ми заданиями. Их можно сравнивать с единицами других текстов, привлекая при этом сколь угодно широкий структурный контекст (МОДальность высказывания, ИСТочник текста, его ДАТА, АВ- ТОР, МАССИВ и др.). Такое понимание единицы типа СИТ обязывает нас: а) уточнить границы высказываний; б) дать правила или критерии построения сложной единицы । ипа СИТ для любого высказывания; в) ввести в метаязык описания СИТ средства связи с включа- ющим высказыванием и текстом. Рассмотрим подробнее эти тре- бования. 135
О границах Высказывания. Границы отрезка, который можно назвать относительно (тематически) законченным высказыва- нием, в тексте могут быть и не обозначены. Им могут быть про- стое предложение в составе сложного (или предикативная еди- ница), целое предложение, отдельный абзац или его часть, иное сверхфразовое единство (СФЕ), цитата, включенная «чужая речь». В основе выделения Высказывания как единицы, относя- щейся к композиционной структуре текста на семантическом уров- не, лежит относительная тематическая целостность Ситуации, которая при этом строится. Эволюция подходов к трактовке тема- тических СФЕ отражена в обзоре методов автоматического фраг- ментирования [см.: Гиндин, 1977]. Ответить окончательно, на какие содержательные части делится текст, можно лишь после того, как построено СитП, а это значит, что проведено сравне- ние СИТ по всему тексту, их обобщение и т.д. Но начинать ин- терпретацию в терминах СИТ можно с единиц, которые текст естественно выделяет, — с предложений, пытаясь увидеть в каж- дом простом предложении (образующем элементарное Выска- зывание) Ситуацию или ее часть. Это относится кроме обычных двусоставных предложений и к однословным предложениям (та- ким, как Ночь. Улица. Фонарь. Аптека., см. ниже разбор), и к заголовкам, и к другим квазипредложениям (эпиграфы, подпи- си и т.п.), которые автоматический анализ будет разбирать как отдельные Высказывания. Достаточно сильный СемАн может предложить иное членение на Высказывания, чем то, которое дано в исходном тексте. Стандартная структура Ситуации. Ситуации в реальном тексте строятся не в один шаг, а постепенной интерпретацией составля- ющих СинП или СемПрост. При этом максимально полную струк- туру Ситуации можно задать «сверху», так, чтобы в ней фиксиро- вались и факт самостоятельности, отдельности текстовой едини- цы «Высказывание», и ее связь с целым текстом. Ниже предложен один из возможных вариантов структуры СИТ. Его можно включить в систему АПТ как компонент, помогаю- щий строить ситуативное представление даже из очень неполного и несовершенного СемПрост. В полном виде Ситуация имеет ядро, в структуре оно подчине- но символу СИТ. Чаще всего это лексическое ядро — в стандарт- ном случае ЛЯ Ситуации образуется из сказуемого простого пред- ложения (т.е. простейшего Высказывания), переходя в много- местный предикат с узлами, присоединяемыми по ситуативным связям. Только такие узлы признаются в нашей модели семанти- ческими актантами СИТ. Если ЛЯ отсутствует по какой-либо при- чине (например, в случае синтаксического эллипсиса), все связи идут к нетерминальному узлу СИТ. Пример: Петр напал на Леву, а Иван на Петра. 136
А4 Иван А6 Петр Другой вариант ядра СИТ строится, если сказуемым предло- жения оказывается слово-отношение (интерпретация глагола-связ- ки, или стадийных глаголов, например начинать, становиться и др.), которое образует структурное ядро СИТ в виде двухместного СемО со своими двумя аргументами, которые сами могут быть СемУзлами типа СИТ. Пример: Он начал выступление в 14 часов. ВЫСК----СИТ1 14 часов Для символа СИТ и в том и в другом случае обязательно указа- ние модальных и идентифицирующих отношений: МОДЛ(?,СИТ), ИДЕНТ(?,СИТ). Ему непосредственно могут быть подчинены се- мантические узлы, обозначающие время, место, а также разные условия и обстоятельства, характеризующие Ситуацию в целом, все они связаны с символом СИТ метаотношением ДО (дополни- тельные обстоятельства): СИТ1 ВРЕМЯ лок ПРИЧИНА УСЛОВИЕ 137
На первом шаге интерпретации ими становятся синтаксиче- ские группы, являющиеся обстоятельствами, сирконстантами синтаксической структуры, в дальнейшем некоторые из них мо- гут перейти в ранг актантов лексического ядра, если у него оста- лась незаполненной близкая по семантике ситуативная валент- ность. Ситуативное представление высказывания и текста. Итак, Си- туация в нашем подходе — не фрагмент действительности, а фраг- мент семантического представления всего текста, у СемП и еди- ниц СИТ один и тот же метаязык — ИЯП. Множество всех Ситу- аций, точнее, последовательность крупных единиц типа СИТ, образует СитП текста. Если вынести из него деление текста на предложения, абзацы, а также другие сведения о физическом со- ставе текста в отдельную (композиционную) структуру, мы вы- ходим в пространство «чистых» ситуаций, в содержание целого текста. Рассмотрим один нестандартный пример того, как строится СитП: Ночь. Улица. Фонарь. Аптека. Эти четыре высказывания вводятся четырьмя единицами СИТ: СИТ1 уточняется семантическим отношением ВРЕМЯ(иочь, СИТ1), СИТ2 — отношением ЛОК(у/?гща, СИТ2), тем же отно- шением уточняется СИТ4: ЛОК(ои/иеко, СИТ4); каждая из этих семантических формул неполна: во всех Ситуациях отсутствует лексическое ядро. Третье высказывание будет неполным еще и по имени СемО, связывающего единицу фонарь с отсутствующим ЛЯ ситуации: ?СемО {фонарь, ЛЯ(СИТЗ)): по правилам грамма- тики символ СИТ не может прямо подчинять семантический узел, обозначающий предмет. Если объявить эти четыре предложения одним высказыванием (а на то есть формальные основания), Си- стема сделает вывод, что речь идет об одной СИТ (т.е. СИТ1 = СИТ2 = СИТЗ = СИТ4), объединит все четыре высказывания в одно и может искать ЛЯ(СИТ) дальше по тексту либо создавать гипотезы о нем. Анализ следующей строки (следующего высказы- вания) может дальше расширить границы уже построенного вы- сказывания. Упомяну один нестандартный компонент Высказывания, обя- зательный для описания семантики именно связного текста: это отношение СОЛист(А1, ВЫСК), оно фиксирует тот СемУзел (Ai) из структуры СИТ, который «подхвачен» следующим за данным высказыванием. Это отношение апостериорное (его можно поста- вить, только когда проанализировано следующее за данным вы- сказывание), показывающее, по каким темам идет развитие тек- ста. Заполнение отношения СОЛист относится к этапу глобально- го СемАн. Чередование СОЛистов в семантических структурах и деление высказывания на тему-рему, конечно, коррелируют друг с другом, но слабо, ведь реальные тексты часто имеют самые при- 138
чудливые рисунки связности. Другое родственное явление — эм- фаза одной из единиц СитП: Именно Иван впервые выступил... ЭМФаза(Яван, СИТ); АВТОР(Яеон, выступить). Но в СОЛисты может выйти не Иван, а СОДЕРЖание действия (например, Его доклад о строении ядра был очень интересным). § 36. Грамматика текстовых ситуаций Перечислим примерный состав отношений, характеризующих наиболее полный вид текстовой ситуации в текстах описательно- го характера. Можно назвать этот перечень фреймом единицы СИТУАЦИЯ как ядра текстового факта, или грамматикой Ситуа- ции. Сит1 = ЛЯ(Сит1) : Лексическое ядро Сит1 МИ(Сит1) : Модальные и идентифицирующие отношения Сем = Семантические характеристики Сит1 Мод = Модальность Сит1 Идент = Идентификаторы (текстовые) Сит1 Атр = Атрибуты (Сит1) Вар = Варианты имени Реф = Референты Сит1 (по всему тексту) СОДЕРЖ(Сит1): Уточнение содержания Сит1 Содерж = Содержание Сит1 Содерж/об = Содержание/объект (при неразличении) Тема = Тема Сит1 Спец = Специализация (Сит1 = действие) Конкр = Конкретизация Сит1 ОБЪЕКТЫ (Сит1): Об/содерж = Объект/содержание (при неразличении) Объект = Объект Сит1 1-УЧАСТНИК (Сит1): Первый участник ситуации Автор = если Сит1 = документ Суб = Субъект (если Сит1 = действие) Пациен = Пациенс Сит1 1-актант = Первый актант Сит1 (при отсутствии уточнений) 2-УЧАСТНИК (Сит1): Второй участник ситуации , Контраг = Контрагент Сит1 Вместе с = (вторая часть множественного актанта) 2-актант = Второй актант Сит1 (при отсутствии уточнений) АДРЕСАТ (Сит1): Адр-одуш = Адресат Сит1 (одушевленный) Адр-ция = Адресат (неодушевленный, или адресация) Сит1 Посред = Посредник Сит1 139
ОГРНЧ (Сит1): Ограничители Сит1 Парам = Параметр Сит1 Знач = Значение Сит1 Функц = Функция Сит1 Репрез = Репрезентация Сит1 Огрнч = Другие ограничения ОБСТОЯТЕЛЬСТВА: Обстоятельства, в которых протекает Сит1 (они уточняются следующим образом): МЕСТО (Сит1): Исх-т = Исходная точка действия Сит1 Кон-т = Конечная точка действия Сит1 Промж-т = Промежуточная точка Сит1 (в пространстве) Л ок = Локализация Сит1 (без уточнений) ВРЕМЯ (Сит1): Исх-т = ) Кон-т = > То же во времени Промж-т = J Дата = Дата совершения Сит1 Период = Период, в который протекает Сит1 Время = Время Сит1 (без уточнений) ПРИЧ/ЦЕЛЬ (Сит1): Причинно-целевые отношение при Сит1 Повод = Повод для Сит1 Прич = Причина Сит1 Усл = Условия Сит! Цель = Цели (если Сит1 = действие) Назнач = Назначение (если Сит1 = предмет) Каждый Актант или иное смысловое отношение, аттестую- щее основную ситуацию (например, Содержание, Идентифика- тор и др.), может оказаться в свою очередь Ситуацией, которая потребует такой же развертки, как и основная (в данном случае Сит1). Итак, путь СемАн «снизу-вверх» дополняется проходом «сверху- вниз». Самые сильные единицы СемПрост переходят в структуры СИТ, а СемПрост трансформируется в ситуативное представле- ние. Самые сильные единицы СитП, набравшие наибольший ин- формационный вес при семантическом (ситуативном — СитАн) анализе текста, переходят в состав текстового факта. По заверше- нии всех лингвистических этапов, т.е. работ с материалом соб- ственно текста, текст готов к сравнению с другими текстами и с единицами других текстов, в том числе с текстами ПО (относи- тельный СемАн). Оба пути используют один метаязык (ИЯП) и один механизм заполнения семантических валентностей. Можно также считать, что вычленение из массива самой круп- ной единицы — ТЕКСТ, заполнением валентностей которого стро- ится внешняя дескрипция текста, есть тоже лингвистический путь «сверху-вниз» (см. гл. 1). 140
§ 37. Критерии полноценности узлов и связей СемП Сформулируем (в тезисном виде) некоторые критерии, по которым можно вычислять степень информативности (информа- ционный вес, или просто ВЕС) СемУзла, а также семантических связей между узлами. Единицы с наибольшим вычисленным ве- сом обязательно должны войти в окончательное сжатое СемП, единицы с весом меньше некоторой заданной пороговой величи- ны могут отбрасываться, если это не приводит к нарушению связ- ности СемП. Семантический узел получает высокую оценку (большой вес), если он обладает следующими характеристиками: 1) полнота валентной структуры; 2) семантическая правильность ситуативных связей СемУзла; 3) связность (наличие референтов) по тексту; 4) наличие внешних (энциклопедических) связей у данного СемУзла; 5) вхождение в тему-рему (или лексическое ядро) текста и др. Отношение, связывающее полноценные СемУзлы, также по- лучает большой вес. Самый большой вес имеют ситуативные свя- зи и, соответственно, те валентности (приписываемые слову в словаре), которые при всех структурных преобразованиях текста перешли в имена дуг его окончательного СемП или ИнфП. § 38. О полезных свойствах текста и его структур, на которые опираются механизмы глобального анализа В системе, претендующей на моделирование понимания ЕТ, все преобразования должны проводиться под контролем лингви- стических структур. Перечислим некоторые свойства естественно- го текста, на которые может опереться система АПТ, проектиру- ющая глобальный анализ и сжатие содержания текста лингвисти- ческими средствами 1. Глобальность смысловых повторений при большой вариатив- ности их поверхностного проявления. Вариативность усиливается и тем, что основной единицей, на которую ссылается текст, в частности в повторах, является не единица поверхностного уров- ня (слово, предложение, абзац), а единица содержательного уров- ня — семантический узел со сложной структурой, у которого «объем понятия» в разных упоминаниях и ссылках на него по тек- сту может существенно меняться. Многие возможности вариаций могут быть предусмотрены в семантическом словаре. 141
2. Смысловая неполнота любого фрагмента текста как форма j проявления связности текста. При этом универсальной формой проявления смысловой неполноты является нарушение смысло- вой грамматики, ср. неинтерпретируемость прямой синтаксиче- ской связи между двумя словами текста вывески Институт зерна в терминах языка семантических отношений: Р? {Институт, зер- но}, т.е. неясно, какая связь между единицами Институт и зерно. Как это ни кажется странным, но обнаруженная и зафиксиро- ванная в каком-то виде локальная неполнота, в данном случае ОБЪЕКТ {зерно, ?) и СПЕЦ (?, Институт}, помогает устанавли- вать связи между предложениями, что относится к глобальному семантическому анализу текста: СПЕЦиализация [ОБЪЕКТ {Зер- но, Исследовать}, Институт]. Практически в каждом предложении связного текста форми- руется при анализе семантическая валентность, требующая про- должения, уточнения, ответа. Если же в тексте появляется абсо- лютно полное предложение (например, В минеральной воде марки «Ессентуки» нуждаются многие больные}, то естественно поднять- ся на уровень выше и задать метавопрос: «Ну, и что?» или «Что вы хотите этим сказать?» 3. Семантическая согласованность, состоящая в том, что: а) соблюдается преемственность единиц текста; при повтор- ; ных упоминаниях новые отношения, в которые вступает один се- мантический узел с другими, являются логическим продолжени- ем, развитием упомянутых в тексте. Валентности СИТ реализуют- ся в тексте постепенно. Пример: Он выстрелил. Выстрел был гром- ким, хоть и из-за угла. Пуля попала в машину, б) смысловая синтагматика единиц текста не противоречит их смысловой парадигматике. Это означает, например, что локальные связи единиц в тексте не должны противоречить глобальным свя- зям, а единицы глобального анализа (в нашем случае текстовые факты) должны быть согласованы с единицами других текстов того же информационного пространства, т.е. с текстовыми фактами других документов или записью фактов в базе знаний. На этом кон- структивном свойстве зиждется презумпция доверия тексту: любое предложение текста, как бы туманно и неоднозначно оно ни было сформулировано, может и должно быть интерпретировано разум- но в контексте целого текста и, шире, в контексте всего множества документов, ссылающихся на те же понятия и ситуации. § 39. Гипертекст как информационное пространство текстов Гипертекст — это нелинейный сложный текст, «живущий» в компьютере и представляющий собой сеть, в узлах которой нахо- 142
дятся обычные тексты, связанные между собой множеством от- ношений. Переход от одного текста (или фрагмента текста) к дру- гому поддерживается специальными программами. Интерфейс пользователя позволяет взаимодействовать с этими фрагментами и устанавливать между ними новые отношения. Кроме текстов в узлах сети могут быть рисунки, таблицы, схемы и другие «тексто- вые» (знаковые) объекты или части текста. Мы оставляем в сторо- не такие невербальные узлы, как синтезированная речь, музы- кальные произведения, которые выводят уже к следующему уров- ню — мультимедийным системам. Гипертекстовые технологии — это средство, родившееся до по- явления объекта, к которому оно применимо. Оно, конечно, помогает иногда найти то полезное, о чем ищущий не догадыва- ется, но... еще легче в нем затеряться. Гипертекстовые техноло- гии, без которых сейчас немыслима сколько-нибудь содержатель- ная работа с компьютером, обостряют проблему многопланового лингвистического анализа целого текста, подчеркивают необхо- димость автоматического построения «крупных» текстовых еди- ниц, установления межфразовых связей, далее интерпретации связей между абзацами, разделами и главами, выходя в область сравнения целых текстов по содержанию, т. е. в ту сферу, которую мы называем информационным пространством текстов. Можно надеяться, что наличие подобных компьютерных средств ускорит те тенденции развития компьютерной лингвистики, ко- торые идут навстречу новым информационным технологиям [см.: Субботин, 1994]. Литература Б е р з о н В. Е. Исследование связности текста при разработке авто- матических методов его свертывания: Автореф. дис.... канд. филол. наук. — Л., 1972. Блюменау Д.И. Проблемы свертывания научной информации. — Л., 1982. Гиндин С. И. Внутренняя организация текста. Элементы теории и семантический анализ: Дис.... канд. филол. наук. — М., 1972. Гиндин С.И. Методы автоматического фрагментирования текста, опирающиеся на характеристики внутреннего состава фрагментов. Попытка теоретического анализа // Семиотика и информатика. — М., 1977. — Вып. 9.-С. 35-82. Гиндин С.И. Онтологическое единство текста и виды внутритек- стовой организации // Машинный перевод и прикладная лингвистика. — М., 1971. - Вып. 14. - С. 114-135. Гиндин С. И. Позиционные методы автоматического фрагментиро- вания текста, их теоретико-текстовые и психолингвистические предпо- сылки // Семиотика и информатика. — М., 1978. — Вып. 10. — С. 35—82. Гиндин С.И. Смыслосрхраняющее сжатие текста, его значение для машинного перевода и место среди других разновидностей автоматиче- 143
ской обработки текста // Международный семинар по машинному пере- j воду (ВЦП): Тезисы докладов. — М., 1983. — С. 65 — 67. 1 Зализняк А.А., Падучева Е.В. Синтаксические свойства место- | имения который // Категория определенности - неопределенности в ела- 1 вянских и балканских языках. — М., 1979. — С. 289 — 328. Зефирова В.Л., Челноков В.М. ГИПЕРЛОГ: Гипертекстовая I система с логико-смысловой навигацией // НТИ. — М., 1990. — Сер. 2. — | №4.-С. 10-14. I Категории искусственного интеллекта в лингвистической семантике. I Фреймы и сценарии. — М., 1987. 1 Кобков В.П. Информационная избыточность и способы сжатия тек- 1 ста // В помощь преподавателям иностранных языков. — Новосибирск, I 1974.-Вып. 5.-С. 31-48. 1 Кобозева И.М. Лингвистическая семантика. — М., 2000. | Леонтьева Н. Н. О смысловой неполноте текста (в связи с семанти- | ческим анализом) // Машинный перевод и прикладная лингвистика. — I М., 1970.-Вып. 11. I Леонтьева Н.Н. Семантика связного текста и единицы информа- 1 ционного анализа// НТИ. — М., 1981. — Сер. 2. — № 1. — С. 21 — 29. I Леонтьева Н.Н. Построение единиц типа «Ситуация» на основе I семантического словаря РУСЛАН // Проблемы прикладной лингвисти- ] ки / Отв. ред. Н. В. Васильева. — М., 2004. — Вып. 2. 1 Налимов В.В. Вероятностная модель языка. — М., 1974. 1 Нестеров А.В. Гипертекст: тензорный подход//НТИ. — М., 1991. — ] Сер. 2.-№8.-С. 22-26. 1 Николаева Т. М. Лингвистика текста. Современное состояние и 1 перспективы // Новое в зарубежной лингвистике. — М., 1978. — I Вып. 8. I Новиков А.И. Семантика текста и ее формализация. — М., 1983. 1 Откупщикова М.И. Местоимения современного русского языка 1 в структурно-семантическом аспекте: Учеб, пособие. — Л., 1984. I Откупщикова М.И. Некоторые способы сокращения структуры! связного текста // Лингвистические проблемы функционального моде- fl лирования речевой деятельности. — Л., 1974. — Вып. II. 1 Падучева Е.В. Денотативный статус именной группы и его отра-i жение в семантическом представлении предложения // НТИ. — М.,| 1979.-Сер. 2.-№9.-С. 25-31. I Падучева Е.В. Референциальные аспекты высказывания (семан-1 тика и синтаксис местоименных слов): Автореф. дис.... д-ра филол. наук. —Я М., 1982. I Проблемы анализа и синтеза целого текста в системах машинного^ перевода, диалоговых и информационных системах. Обзорная информа-J ция/Сост. С.И.Гиндин, Н.Н.Леонтьева. — М., 1978. — Вып. 2. Я С е в б о И. П. Сквозной анализ как шаг к структурированию тексто-Я вых знаний// НТИ. — М., 1989. — Сер. 2. — № 2. — С. 1 — 7. Я С е в б о И. П. Структура связного текста и автоматизация рефериро-Я вания. — М., 1969. Я Скороходько Э.Ф. Определение межфразовых связей в тексте. —Я НТИ. - М., 1980. - Сер. 2. - № 4. - С. 23-30. I 144
Субботин М.М. Гипертекст. Новая форма письменной коммуника- ции // Итоги науки и техники. Серия Информатика. — М., 1994. — Т. 18. Цейтин Г.С. Программирование на ассоциативных сетях // ЭВМ в проектировании и производстве. — М., 1985. —- Вып. 2. — С. 16 — 48. Чехов А. С. Некоторые средства обработки местоимений-заместите- лей при синтаксическом анализе // Машинный перевод и прикладная лингвистика. — М., 1972. — Вып. 15. Чехов А. С. Отображение кореферентности языковых выражений в синтаксическом и семантическом представлениях высказывания // Ак- туальные вопросы практической реализации систем автоматического перевода. - М., 1982. - Ч. 2. - С. 59-77. Шайкевич А. Я. Дистрибутивно-статистический анализ в семанти- ке // Принципы и методы семантических исследований. — М., 1976. — С. 353-378. Шенк Р. Обработка концептуальной информации. — М., 1980. Шенк Р., Бирнбаум Л., Мей Дж. Кинтеграции семантики и праг- матики // Новое в зарубежной лингвистике. — М., 1989. — Вып. XXIV. — С. 32-47. Ыйм Х.Я, Литвак С.Р., Роосмаа Т.А. и др. О распознавании гиперсобытий в системе понимания связного текста // Диалоговые си- стемы и представления знаний. Труды по искусственному интеллекту. IV. — Гарту, 1981. - С. 56-70. Bobrow R.J., Webber В.J. Knowledge Representation for Syntactic/ Semantic Processing // Proc, of 1-st Annual National Conf, on Al. — Stanford, 1980.-P. 316-323. Conceptual Structures: Integration and Interfaces. 10th International Conference on Conceptual Structures, ICCS 2002. — Borovets, 2002. Leontyeva N.N. О pewnych wlasciwosciach spojnego tekstu // О spoj- nosci tekstu. — Warsaw, 1971. Mani I. Automatic Summarization. — 2001. Mann W.C., Thompson S. A Rhetorical Structure Theory: Description and Construction of Text Structures // Natural Languadge Generation. — M., 1987. McKeown K., Radev D. Generating Natural Language Summaries from Multiple On-Line Sources // Computational Linguistics.— 1998,— Vol. 24. - № 3. Nagao K.,Hasida K. Automatic Text Summarization Based on the Global Document Annotation // COLING-ACL’98. 17th International Conference on Computational Linguistics. — Quebec, 1998. — V. 2. — P. 917—921. Sanfilippo A. Ranking Text Units According to Textual Saliency, Connectivity, and Topic Aptness // COLING-ACL’98. 17th International Conference on Computational Linguistics. — Quebec, 1998. — V. 2. — P. 1157— 1163. SchankR., Abelson R. Scripts, Plans, Goals and Understanding.— New Jersey, 1977. Sowa J.F. Task-Oriented Semantic Interpretation. // 10th International Conference on Conceptual Structures, ICCS 2002. — Borovets, 2002.
ГЛАВА 8 УЧЕТ СПЕЦИАЛЬНЫХ ЗНАНИЙ В СИСТЕМАХ АВТОМАТИЧЕСКОГО ПОНИМАНИЯ ТЕКСТА Вопрос о том, как учитывать при анализе текста не только лингвистические, но и экстралингвистические знания, стоял и стоит перед любыми системами АПТ, и каждая система справля- ется с такой задачей по-своему. Первые системы МП, выходящие в промышленную эксплуатацию, были настроены на определен- ные, достаточно узкие предметные области: SPANAM, METAL, TITUS, TAUM-METEO, TAUM-Aviation и др. [см.: Hutchins, 1986]. В отечественной литературе их не очень удачно называли «систе- мами с ограниченным естественным языком (ОЕЯ)», тогда как ограничение касалось лишь ПО и, как следствие, ограничивался входной лексикон. Делались попытки упрощать синтаксис текстов, в том числе специальных, подлежащих автоматической обработ- ке, но такой путь невозможно реализовать в большом масштабе, да и не только сложный синтаксис повинен в трудностях АПТ. Конечно, есть области науки или жанры, или определенные сти- ли, на язык которых легче настроить систему АПТ, но это будет единичная и достаточно жесткая настройка. Любая сколь угодно узкая ПО может пользоваться всеми богатствами естественного языка, а также делать экскурсы в другие ПО, например для ана- логии или истории вопроса. § 40. Проблема предметной области В современных системах АПТ все чаще появляется компонент» называемый онтология. Онтологоцентрический подход означает, что в основу любой семантической классификации единиц есте- ственного языка положена классификация предметов и явлений действительности. Такой подход не противоречит более вербаль- ному определению онтологии: «На содержательном уровне под онтологией будет пониматься совокупность соглашений (опреде- ления терминов предметной области, их толкование, утвержде- ния, которые ограничивают возможный смысл этих терминов, а также толкование этих утверждений). Эти соглашения являются 146
результатом договоренности между некоторыми членами сообще- ства, работающего в предметной области, и поэтому не могут быть опровергнуты эмпирическими наблюдениями» [см.: Клещев, Артемьева, 2001]. Так называемый концептоцентрический подход допускает на- личие таких единиц, у которых нет опоры на действительность (абстрактные термины, слова-операторы и другие вспомогатель- ные единицы с абстрактным значением); в этом смысле он ближе к лексикографическому, или лингвистическому, способу описа- ния ситуаций и объектов действительности [см.: Кубрякова, Де- мьянков, Панкрац и др., 1997]. В работе А.С.Нариньяни предло- жена концепция объединения в единый механизм функций теза- уруса с его иерархической структурой (в некотором смысле это лингвистическая проекция на ПО) и онтологии, которая на со- временном уровне понимается как формальная модель предмет- ной области, использующая все средства представления знаний, релевантные для данной ПО [см.: Нариньяни, 2001]. При любых определениях онтологии, ПО, предметных знаний и подобных им понятий когнитологи, описывая структуру знаний своей ПО, предлагают способы их материального воплощения, которые состоят в вербализации знаний средствами естественного языка или его ограниченного подмножества, неформализованно- го или формализованного. Формализация описаний ПО в стан- дартных случаях состоит в задании списка объектов (имен сущно- стей, терминов, концептов), списка отношений между объекта- ми и логических операций над теми и другими. Все три составля- ющие специфичны для каждой отдельной области знаний. Общи- ми могут быть структурные формы: базы данных или семантичес- кие (концептуальные) сети. Получившие бурное развитие в конце XX в. языки представле- ния знаний (ЯПЗ) — от очень специфических до стремящихся к статусу универсальных — не обеспечивают совместимости этих специальных языков между собой. Способ представления зависит от задачи, которая решается, от структуры самой ПО, а часто и от используемой традиции пред- ставления лингвистических знаний в данной системе. Как прави- ло, все хорошо структурированные средства — достаточно жест- кие ЯПЗ. Таким образом, нет речи о регулярных способах их во- влечения в системы АПТ и каждая прикладная система обработки текста строит заново диалог с ПО. В работах Е.С.Кузина развива- ется теория конструктивной семантики для описания проблемной среды как информационной основы, позволяющей решать мно- гие сложные задачи в компьютерных системах [см.: Кузин, Брыль, 1996; Кузин, 2004]. В них изложены общие принципы языка опи- сания знаний (ЯОЗ) и его роли в решении информационно-слож- ных задач. В этой теории базовой единицей выражения знаний яв- 147
ляется высказывание; из высказываний формируются более круп- ные семантические образования. Компонентами высказываний мо- гут быть имена, именные конструкции, дескрипции (описания) и различные их сочетания. Хотя такой ЯОЗ задается «сверху», его еди- ницы близки к лингвистически содержательным единицам, кото- рые строятся «снизу-вверх», в частности единицам типа СемУзел, СИТ и ТФ, и это внушает оптимизм относительно возможности решения задачи извлечения знаний из текста (см. гл. 6, 7). Из существующих подходов к решению проблемы включения разных ПО в систему АПТ нас больше интересуют такие, в кото- рых задействованы лингвистические механизмы или отдельные лингвистические приемы, ниже речь пойдет в основном о словар- ных ресурсах. § 41. Способы вовлечения специальных знаний в системы автоматического понимания естественного текста Семантика предметной области {domain) може,т быть учтена в системе АПТ одним из следующих способов: 1) жесткой настройкой всех лингвистических словарей систе- мы: отобран лексический состав, словарные информации описы- вают только те значения слов, которые релевантны для данной ПО. Это самый распространенный способ, который был принят прежде всего в большинстве систем машинного перевода, создан- ных для узких предметных областей (об опыте создания лингвис- тических словарей с регулируемой настройкой на ПО подробнее будет рассказано в гл. 12); 2) частными схемами, характерными для конкретной пред- метной области, своего рода грамматиками ПО, в виде задания специальных структур: фреймов, сцен или более сложных фраг- ментов семантической сети (целых сценариев) вместе с лингвис- тическими спецификациями (правилами заполнения слотов, т.е. заранее сформулированных открытых валентностей интересующей исследователя ситуации, в основном динамического типа); 3) использованием естественных источников знаний — в виде энциклопедических и толковых словарей, существующих номен- клатур, списков основных объектов ПО и даже канонических тек- стов: учебников, справочников. К таким естественным источни- кам энциклопедических знаний о слове можно отнести и «Новый объяснительный словарь синонимов» Ю.Д. Апресяна. Однако спо- соб извлечения и формализации знаний, содержащихся в есте- ственных текстах и словарях, — дело будущего; 4) отдельно задаваемыми специальными словарями тезаурус- ного типа, дополняющими общелингвистические словари; это и 148
i писки терминов и словосочетаний ПО, простые или с разными t емантическими пометами, и словари-тезаурусы с минимальным набором энциклопедических сведений (синонимы и родовидовые связи терминов), и тезаурусы, приближающиеся к энциклопедии и семантическим сетям. Остановимся сначала на возможностях, которые дает тезаурус. !атем приведем несколько способов структурирования знаний, использованных в работе той или иной системы АПТ. Объединяет их то, что все они задаются в словарном виде. §42. Тезаурусы Если синтагматические связи между словами обнаруживаются н конкретном тексте процедурой анализа, то парадигматические отношения между понятиями любой ПО, будучи постоянными, могут быть заданы заранее и зафиксированы в специальном сло- варе (тезаурусе). Именно тезаурусы остаются до настоящего вре- мени наиболее принятой формой задания знаний ПО — хотя бы потому, что они обязаны включать всю терминологию, специфи- ческую для ПО, а также фиксировать простейшие смысловые от- ношения между терминами. В информационных системах, решающих задачи фактографи- ческого поиска, необходим тезаурус, имеющий более развитую i истему связей, которые должны отражать основные соотноше- ния понятий в описываемой области знаний. Являясь своего рода •нциклопедией системы, такой тезаурус сам может служить ис- । очником сведений для ответов на некоторые типы вопросов. Све- чения об отношениях между понятиями могут быть использованы при логико-семантических преобразованиях информационной за- писи, необходимых при построении ответов на вопросы, адресо- ванные интеллектуальной информационной системе. Тезаурус — сложный компонент словарного типа, в разных < истемах он может выполнять разные функции: а) является источником специальных знаний в узкой или широ- кой ПО, способом описания и упорядочения терминологии ПО; б) является инструментом поиска в информационно-поиско- вых системах; в) является инструментом ручного индексирования докумен- те в информационно-поисковых системах (так называемый кон- । солирующий словарь); г) является инструментом автоматического индексирования тек- IOB. Начало тезаурусам как понятийным словарям положил Роже (или Роджет, английский физик), систематизировавший лексику индийского языка по группам. Каждая группа представлена име- 149
нем понятия («категории», которых насчитывалось сначала одн тысяча; это обычные слова, расположенные в алфавитном поряд ке, например, AFFIRMATION ... AGENCY...), далее идут его си нонимы по частям речи (существительные, глаголы, прилагатель ные, наречия), антонимы и затем списки родственных слов (и: много, и некоторые представляют собой отсылки к именам дру гих категорий, в словарной статье которых список «дальних род ственников» может продолжаться, например, от AGENCY... sei BUSINESS). Со времени издания «Тезауруса Роже» в 1852 г. и д< сих пор продолжаются его переиздания в разных видах и для раз ных пользователей, тезаурус постоянно пополняется новой лек сикой и связями, но за всеми вариантами остается имя создателе первой версии. Ценность этого тезауруса мы видим в его есте ственности, в том, что это описание всей лексики языка, a hi только терминологии, а также в том, что его можно привлекать ] использованию в системах информационного поиска и АПТ ка1 средство увеличения семантической силы системы. WordNet, EuroWordNet В 1990 г. появляется тезаурус английского языка WordNet и на' чинаются активные работы по его привлечению в различные сфв' ры автоматической обработки текстов [см.: Miller, Beckwith R. Fellbaum C. et al., 1990]. WordNet охватывает около 100 тыс. различ' ных единиц (из них почти половина — словосочетания), органи- зованных в 70 100 понятий, или совокупностей синонимов (synset) В состав словаря входят лексемы, относящиеся к четырем час- тям речи: прилагательному, существительному, глаголу и наре- чию. Лексемы различных частей речи хранятся отдельно, и описа- ния, соответствующие каждой части речи, имеют различную струк- туру. Жесткое разделение различных частей речи приводит к су- ществованию никак не связанных между собой очень похожих си- нонимических рядов, сформированных из разных частей речи. Все значения словаря связаны между собой семантическим» отношениями. Основными отношениями в словаре являются: - синонимия; - антонимия; - гипонимия/гиперонимия (ISA-отношение или отношение НИЖЕ-ВЫШЕ). Это отношение транзитивно и несимметрично Гипоним наследует все свойства гиперонима. Это отношение яв- ляется центральным отношением для описания существительных, - меронимия (отношение ЧАСТЬ-ЦЕЛОЕ). Внутри этого отно- шения выделяются отношения «быть элементом» и «быть сделан- ным из». Отношение определено только для существительных; - следствие (это отношение связывает между собой глаголы);) - причина (также определено для глаголов). 150
Все эти отношения создают сложную иерархическую сеть по- нятий, и знание о том, где находится понятие в этой сети, явля- ется важной частью знания об этом понятии. Свойства отношений различны при описании различных частей речи. В настоящее время начинает разрабатываться многоязычный тезаурус EuroWordNet. Первоначально для четырех языков (дат- ского, итальянского, испанского и американского английского) разрабатывается сеть значений слов, связанная семантическими отношениями и позволяющая находить близкие по смыслу слова различных языков. Как основу для создания тезауруса EuroWordNet планируется использовать тезаурус WordNet, который станет ин- терлингвой в составе EuroWordNet. Первая версия EuroWordNet будет содержать только существительные и глаголы. В отличие от тезауруса Роже и сети WordNet, которые создава- лись для описания лексической и понятийной системы англий- ского языка, EuroWordNet создается в первую очередь для реше- ния практических задач автоматической обработки больших мас- сивов текстов. Среди важнейших задач, которые предполагается решать с помощью этого словаря, следующие: обеспечение мно- гоязычного информационного поиска; увеличение полноты ин- формационного поиска; формулирование запроса на естествен- ном языке; семантическое индексирование документов и др. Для решения этих задач разработчики EuroWordNet предлага- ют внести некоторые модификации в структуру описаний WordNet, которые они рассматривают скорее как дополнения, чем измене- ния. В первую очередь предполагается ввести дополнительные связи между близкими существительными и глаголами: «глагол_гипе- роним_для_существительного»; «существительное_гипоним_ для_глагола»; «существительное_синоним_для_глагола»; «глагол- синоним лля_существительного». Также вводятся дополнительные связи между глаголом и его актантами, такие, как агент, объект, инструмент, место, и отно- шения, конверсивные им: «быть_агентом_для», «быть_объектом_ для», «быть_инструментом_для», «быть_местомлля». Кроме этих отношений вводятся также тематические отноше- ния, которые связывают понятия одной предметной области, та- кой, например, как «спорт», «госпиталь», «военные проблемы» и др. Пометы области могут быть организованы в иерархическую структуру. Нехватка такого рода отношений явно ощущалась в WordNet’e, когда, например, понятия фермер и сельское хозяй- ство оказывались никак не связанными между собой. Предполагается также ввести специальные пометки на отно- шения между понятиями, обозначающие дизъюнкцию или конъ- юнкцию отношений. Если некоторое понятие в сети имеет не- сколько одноименных отношений, то эти отношения могут быть 151
дизъюнктивными, т. е. реально реализуется одно из этих отнош ний, или конъюнктивными, т.е. для понятия действительны в эти отношения. Некоторые отечественные тезаурусы В отечественных институтах создано более сотни отраслев, тезаурусов, удовлетворяющих определенному государственно) стандарту на словари подобного типа. Они так и именуются ИПТ: информационно-поисковые тезаурусы. Из всех возможн) смысловых отношений между понятиями в них зафиксирован три: синонимические, родовидовые (к которым относят обычв и отношение ЧАСТЬ-ЦЕЛОЕ) и «все прочие», называемые та1 же ассоциативными. Они скорее напоминают классификатор! см., например, статью СТОЛЫ: СТОЛЫ письменны СТОЛЫ обеденные, СТОЛЫ канцелярские, СТОЛЫ письменные однотумбовые, СТОЛЫ письменные двухтум) вые и т.д. Стандартные ИПТ предназначены в основном для ручно индексирования документов и для формулировки и варьирован] запросов при поиске. Есть нестандартные тезаурусы, которые ставят задачу скор выборочной систематизации терминологии в конкретной облас' знаний, это особенно актуально для новых ПО, как прикладн лингвистика [см.: Никитина, 1978; Никитина, Васильева, 199 Кубрякова, Демьянков, Панкрац и др., 1997]. Растет тенденция обогащению тезаурусов определениями терминов, что важно д] различения неоднозначности терминов, особенно в случае смеэ ных дисциплин и вообще при выходе из границ узких ПО. Развивается и теория терминологических определений и ел варей. В обзоре, посвященном проблемам терминографии, ра сматриваются способы рационального построения словарей те минов [см.: Шайкевич, 1983]. В книге С. Д.Шелова предлагает лингвистическое понимание природы термина и терминологи1 ности, рассмотрены типы терминологических определений и тр бования к их построению, понятийная структура терминологии способы ее выявления, логические и лингвистические требов ния, предъявляемые к формулировке определений, и т. п. Отве: на эти вопросы приведут к большей формализации и управляем сти словарных ресурсов при их вовлечении в работу систем АГ [см.: Шелов, 2000; 2001]. Ряд тезаурусов расширяет структуру традиционных ИПТ, пр влекая аппарат лингвистических (семантических) признаков. Т< «Терминологический словарь по морскому делу», совмещающ в себе черты толкового словаря и ИПТ, расширяет круг тезаур; 152
пых отношений до 20 даже для такой малой ПО, как морское шло [см.: Белоозеров, Косарская, 2001]. Автор считает, что «ин- (еллектуальные возможности Тезауруса далеко не исчерпаны и ч го в новом поколении персональных компьютеров и сетевых тех- нологий тезаурусные методы описания специальной лексики дол- ины получить новую жизнь». Об этом же свидетельствует и все чаще появляющееся при слове тезаурус определение концептуаль- ный: концептуальный тезаурус и концептуальное индексирование. В. Ш. Рубашкин и Д. Г. Лахути также вводят семантические эле- менты в лингвистическое обеспечение словаря-тезауруса. Они ис- пользуют дерево семантических признаков, что приводит к эко- номному описанию терминов и позволяет определять отношения • овместимости-несовместимости понятий; а это в свою очередь помогает более правильному установлению отношений корефе- рентности при семантическом анализе текста, так как на дереве признаков работают элементы логики. Словарь предназначен для работы в системе АПТ [см.: Рубашкин, Лахути, 1998]. Работы Н. В. Лукашевича и Б. В. Доброва ориентируются на полу- шгоматические методы создания и использования ИПТ, требую- щие большей лингвистичности: это учет и работа с неоднознач- ностью терминов, обогащение инвентаря семантических отноше- ний между терминами (введением модификаторов отношений), наконец, расширение первоначально отраслевого тезауруса — хотя н очень широкой ПО «Политика» — до общеязыкового. Этот теза- урус — тексто-ориентированный в отличие от большинства тер- минологических словарей. Поскольку он вобрал в себя много линг- вистических наработок, а его версии и редакции хорошо техноло- < и чески оснащены, ниже мы остановимся на нем подробнее [см.: (укашевич, Добров, 2001]. Начатый ранее в составе того же коллектива общесемантиче- । ий словарь РОСС (как компонент системы РОССИЯ) с самого начала был предназначен для АПТ и включал только стержневую к ксику языка с элементами адаптации к некоторым предметным >ичастям (см. гл. 12). РуТез1 Тезаурус РуТез межуниверситетской информационной систе- n.i РОССИЯ специально создавался для использования в автома- швеском индексировании текстов обширной предметной обла- пь Он развивает классический тезаурусный подход к автоматиче- • кому индексированию и построению на его основе тематического •федставления. ' Описание тезауруса РуТез составлено по материалам статей и других публи- ший Н. В.Лукашевич и Б.В.Доброва [см.: Лукашевич, Добров, 2001; 2002]. 153
Все термины тезауруса (слова или словосочетания) выступаю в нем в качестве дескриптора либо в качестве варианта (синони ма) дескриптора. В роли дескрипторов по сложившейся практик построения тезаурусов выступают термины, обозначающие неко торые понятия предметной области и удовлетворяющие принци пам общеупотребительности, краткости, распространенности 1 терминологической точности. Дескрипторы представлены отдель ными существительными и именными группами. Вариантами (си нонимами) дескрипторов считаются термины, обозначающие же понятие, что и дескриптор. Кроме двух упомянутых граммат] ческих типов синонимами также могут быть отдельные прилаг тельные, глаголы и глагольные группы. Дескриптор в совокупи сти с его вариантами (синонимами) представляет определени понятие предметной области. В ходе работы над тезаурусом были приняты следующие Крит рии включения в него терминов. 1. Наличие любой, хотя бы одной, связи с другими дескрипп рами тезауруса; для общеупотребительных слов из этого критерт вытекают следующие следствия: а) в тезаурус не включаются общеупотребительные слова, щ которых невозможно установить связь с каким-либо дескрипп ром тезауруса; такими словами являются, например, условие, р зультат и т.п.; б) в тезаурус включается общеупотребительное слово, если нем уже имеются дескрипторы, которые можно считать нижесп ящими для данного слова: например, слова реформа (политик ская реформа, экономическая реформа) или договор (междунаро ный договор, арендный договор). 2. Наличие (если это словосочетание) таких тезаурусных св зей, которые не вытекают из структуры словосочетания. Напр: мер, словосочетание аренда земли является свободным словосоч танием, и сумма значений его составляющих равна значению вс го словосочетания, при этом, однако, аренда земли является о ним из видов землепользования, и эта неочевидная связь служ основанием для включения этого словосочетания в тезаурус. В процессе разработки и пополнения тезауруса было снято прав ло невключения в тезаурус слишком конкретных терминов (это пр вило типично для многих тезаурусов, используемых при ручн» индексировании). Использование тезауруса в автоматических пр цедурах требует включения в него и названий профессий, и вид оборудования, и видов продукции, и составных частей того или инс производственного или социального процесса, так как незнан конкретного термина, встретившегося в тексте, может привес1 к неправильным результатам автоматической обработки текста В РуТез включаются также термины, не упоминавшиеся в те стах, если они: 154
а) необходимы для объединения разрозненных дескрипторов в одну словарную статью; б) пополняют ряд нижестоящих дескрипторов для уже суще- гвующего дескриптора. Фиксация вариантов дескрипторов важна для обнаружения оответствующих понятий в текстах. Процедура пополнения теза- уруса дает возможность обнаружить в текстах большое количество вариантов наименования одного и того же понятия и сформиро- вать для многих дескрипторов тезауруса синонимические ряды. Синонимические ряды дескрипторов РуТез Критерии включения ключевых слов в один синонимический ряд носят в основном лингвистический характер. Ниже перечис- ыются типы синонимов. 1. Лексические синонимы (собственно синонимы): а) полные синонимы (в том числе синонимы-дублеты): аванс — предоплата', космонавт — астронавт', мятеж — бунт\ б) синонимы, отражающие различные языковые стили: лошадь — конь', коммунальная квартира — коммуналка', в) синтаксические синонимы: жилищное строительство — строительство жилья', авария на транспорте — транспортная авария', контроль за вооружениями — контроль над вооружениями', г) словообразовательные синонимы: калькуляция — калькулирование', природоохранный — природоохранительный. 2. Общепринятые в тезаурусах условные синонимы: а) сокращения: врачебно-трудовая экспертная комиссия — ВТЭК; автозаправочная станция — АЗС; б) сложные и сложносокращенные слова: жилищный фонд — жилфонд; авиационная охрана лесов — авиалесоохрана; в) некоторые антонимы: доверие правительству — вотум недоверия правительству; правовое обеспечение — правовой вакуум; i) некоторые родовидовые синонимы: здравоохранение — укрепление здоровья; каракулево-смушковое сырье — каракуль — каракульча — смушка; д) существительные, обозначающие лиц мужского и женского пола: спортсмен — спортсменка, владелец — владелица. 155
3. Другие типы: а) дериваты: приватизация — приватизировать', охрана природы — природоохранный', б) образные наименования: авианосец — плавучий аэродром', взрывные работы — мирный взрыв', биржевая операция — игра на бирже-, атомная энергетика — мирная ядерная деятельность; аэропорт — воздушные ворота; в) фрагменты толкования: банковская тайна — тайна банковского счета; боеголовка — головная часть индивидуального наведения; г) энциклопедические синонимы, т.е. такие языковые выражени тождественность которых вытекает из энциклопедических знаний: альтернативная гражданская служба — альтернативная военн служба — альтернативная служба; внутренние войска — войска МВД; внешний государственный долг — внешний долг; космический корабль многоразового использования — корабль мног разового использования — многоразовый корабль; д) исторические синонимы: правительство — Совет Народных Комиссаров; военный билет — красноармейская книжка; е) словосочетания с исключением внутреннего члена: безналичный порядок расчета — безналичный расчет; вечерняя форма обучения — вечернее обучение; ж) словосочетания, представляющие собой различные реализащ одного из актантов главного слова термина: встреча на высшем уровне — встреча в верхах:, автомобиль инвалида — автомобиль с ручным управлением; призыв в армию — призыв на воинскую службу; з) термины, находящиеся между собой в отношениях: причина следствие, действие — результат, часть—целое, но настолько сильно св занные между собой, что нет смысла разделять их в отдельные дес рипторы: (причина—следствие): ветхий дом — аварийный дом; (сфера деятельности — основной вид деятельности в этой сфе! авиационная промышленность — самолетостроение; (оборудование — его назначение): аварийная сигнализация — а рийное оповещение; и) термины, несущие в себе дополнительную модальность по от: шению к основному термину: артиллерийский обстрел — артиллерийская канонада — артил рийская подготовка — артиллерийский удар; хирургическая операция — хирургическая помощь — хирургичес вмешательство; к) термины, совпадающие в одной своей части, а в другой — сос ящие из ситуационно связанных терминов: 156
безопасность судоходства — безопасность кораблей — безопасность на море-, защита вкладов — защита вкладчиков', л) термины, в которых словосочетание с неоднозначным термином становится однозначным. Например, термин климат имеет два основных значения: мно- голетний режим погоды в какой-либо местности (1) и обстановка (2). Первому значению этого термина соответствует отдельный дескриптор КЛИМАТ. Для второго значения этого термина в те- заурусе нет соответствующего дескриптора, однако собраны те словосочетания со словом климат во втором значении, которые могут служить вариантами разных дескрипторов: ФИНАНСЫ — финансовый климат, НАЛОГОВАЯ СИСТЕМА — на- логовый климат, СОЦИАЛЬНАЯ ОБСТАНОВКА — социальный климат, ВНЕШНЯЯ ПОЛИТИКА — внешнеполитический климат. Пример синонимического ряда, включающего несколько ти- пов синонимов: КАССАЦИОННОЕ ПРОИЗВОДСТВО кассационная жалоба кассационное обжалование кассационное опротестование кассационный порядок кассационный протест кассация приговора кассация судебного решения обжалование в кассационном порядке опротестование судебного приговора производство в кассационной инстанции Многозначные термины в РуТез Ориентация на широкую общественно-политическую темати- ку обрабатываемых потоков текстов и на разные типы и стили юкстов требует описания в тезаурусе многозначных терминов. Если в тезаурус включено несколько значений одного терми- на, они представляются разными дескрипторами, для которых этот многозначный термин выступает в качестве синонима. Это один ns способов фиксации неоднозначности термина. Например, си- нонимами для разных дескрипторов являются слова печать, брак, огонь, картина, бассейн и др. Если только одно значение многознач- ного термина включено в тезаурус, соответствующий тезаурус- ный вход (дескриптор или синоним) снабжается пометой «М», которая означает, что возможны и другие значения этого термина. Именно с такими пометами внесены в тезаурус слова связь, обра- зование, партия и др. 157
Наличие в тезаурусе средств описания многозначности позволяет по мере необходимости наращивать тезаурус, шире отражая конк- ретные понятия подобластей описываемой предметной области. Приложением к тезаурусу, помогающим правильно распознать в тексте многозначные термины тезауруса, является словарь «от- рицательных» словосочетаний. В него включены фразеологизмы, в состав которых входят термины тезауруса: например, как с гуся вода, водой не разольешь и др. В этот словарь также внесены слово- сочетания, в состав которых входят многозначные термины в их нетезаурусном значении и сами словосочетания также не соот- ветствуют никаким дескрипторам тезауруса: взрыв аплодисмен- тов, взрыв смеха, взрыв негодования', буря восторга, буря аплодис- ментов и др. Система отношений между дескрипторами РуТез Тезаурусные отношения служат для нахождения тематически близких терминов, на основе которых обычно строятся темы тек- ста. Необходимость фиксации знаний о тематической близости терминов определила важнейшие принципы установления связей между дескрипторами тезауруса. Тезаурус представляет собой связную иерархическую сеть (су- ществование фрагментов сети, не связанных с остальным Тезау- русом, запрещается). Для описания связей между дескрипторами используется стандартный набор тезаурусных отношений: ВЫШЕ- НИЖЕ, ЦЕЛОЕ-ЧАСТЬ, АССОЦИАЦИЯ. Каждый тип связей между дескрипторами обладает набором некоторых свойств. Связи могут быть снабжены специальными модификаторами, которые ограничивают действие их свойств. Рассмотрим принципы установления тезаурусных отношений: и их свойства. Связь ВЫШЕ-НИЖЕ устанавливается между дескрипторам! YnX(Y= ВЫШЕ(А)), если можно утверждать, что X— это вид У например: ГОСУДАРСТВЕННАЯ СОБСТВЕННОСТЬ = ВЫШЕ (ГОСУ ДАРСТВЕННОЕ ПРЕДПРИЯТИЕ). Дескриптор может иметь более одной связи ВЫШЕ. Напри мер, дескриптор ГОСУДАРСТВЕННОЕ ПРЕДПРИЯТИЕ имев’ вышестоящие дескрипторы ГОСУДАРСТВЕННАЯ СОБСТВЕН' НОСТЬ и ПРЕДПРИЯТИЕ. Отношение ВЫШЕ-НИЖЕ имеет следующие свойства: ; а) оно транзитивно, т.е. ВЫШЕ (ВЫШЕ(Х)) = ВЫШЕ(Х) НИЖЕ (НИЖЕ(Х)) = НИЖЕ(Х); 158
б) нижестоящий дескриптор наследует отношения ЧАСТЬ, АССОЦИАЦИЯ вышестоящего дескриптора, т.е. ЧАСТЬ (ВЫШЕ(Х)) = ЧАСТЬ(Х); АСЦ (ВЫШЕ(Х)) = АСЦ(Х). Например, дескриптор СТРОИТЕЛЬНЫЕ МАТЕРИАЛЫ опи- сан в тезаурусе как ЧАСТЬ по отношению к дескриптору СТРОИ- ТЕЛЬСТВО. Дескриптор СТРОИТЕЛЬСТВО имеет нижестоящий дескриптор ГРАЖДАНСКОЕ СТРОИТЕЛЬСТВО. По свойству наследования отношения ЧАСТЬ нижестоящими дескрипторами следует, что СТРОИТЕЛЬНЫЕ МАТЕРИАЛЫ = ЧАСТЬ (ГРАЖ- ДАНСКОЕ СТРОИТЕЛЬСТВО). Связь ЦЕЛОЕ-ЧАСТЬ (когда можно записать, что X = ЦЕЛОЕ(У)) используется: 1) когда X — это некоторая ситуация или сфера деятельности (например, наука, военная служба, промышленность, безработица), a Y — это соответствующие этой ситуации или деятельности про- цессы, объекты и действующие лица (ученый, военнослужащий, фаб- рика, литейное производство). Таким образом, тезаурусная статья дескриптора, обозначающего сферу деятельности или ситуацию, представляет собой фрейм, описывающий эту сферу деятельнос- ти (ситуацию), например: НАЛОГОВАЯ СИСТЕМА ЧАСТЬ НАЛОГ ЧАСТЬ НАЛОГООБЛАГАЕМЫЙ ДОХОД ЧАСТЬ НАЛОГОПЛАТЕЛЬЩИК ЧАСТЬ НАЛОГОВЫЙ ОРГАН ЧАСТЬ НАЛОГОВЫЕ ЛЬГОТЫ ЧАСТЬ НАЛОГОВАЯ ДИСЦИПЛИНА ЧАСТЬ НАЛОГОВОЕ ПРАВОНАРУШЕНИЕ ЧАСТЬ НАЛОГОВЫЕ САНКЦИИ 2) когда Y — это некоторое свойство X (например, Y — ГРУ- ЗОПОДЪЕМНОСТЬ для X - ГРУЗОВОЙ ТРАНСПОРТ); 3) когда Y — физическая часть или элемент X (например, Y — ПРОЦЕССОР для X - КОМПЬЮТЕР). Отношение ЦЕЛОЕ-ЧАСТЬ обладает следующими свойствами: а) оно транзитивно: ЦЕЛОЕ(ЦЕЛОЕ(Х)) = ЦЕЛОЕ(Х); б) дескрипторы-части наследуют отношение АССОЦИАЦИЯ: АСЦ (ЦЕЛОЕ(Х)) = АСЦ(Х); в) отношение ЧАСТЬ наследуется видовыми дескрипторами: ЧАСТЬ(ВЫШЕ(Х)) = ЧАСТЬ(Х); г) отношение ВЫШЕ-НИЖЕ поглощается отношением ЦЕ- ЮЕ-ЧАСТЬ: ЦЕЛОЕ(ВЫШЕ(Х)) = ЦЕЛОЕ(Х), ВЫШЕ(ЦЕЛОЕ (X)) = ЦЕЛОЕ(Х). Свойства транзитивности и наследования, уточненные неко- юрыми модификаторами, приводят к тому, что дескриптор свя- 159
зан по тезаурусу не только с теми дескрипторами, которые не- посредственно входят в его тезаурусную статью, но и с теми, к которым можно прийти по ветвям тезауруса, задаваемым этими свойствами. Например, для дескриптора СЕЛЬСКОЕ ХОЗЯЙСТВО в тезаурусной статье описано 26 связей, а по свойствам тезаурус- ных отношений этот дескриптор связан более чем с 300 дескрип- торами (отрасли сельского хозяйства, виды сельскохозяйствен- ных работ и угодий, сельскохозяйственные предприятия и про- фессии, сельскохозяйственные животные и растения и т.д.). Дескрипторы, которые связаны между собой по тезаурусу или связи между которыми выводятся на основе свойств тезаурусных отношений, считаются тематически близкими. Эти свойства еди- ниц тезауруса и отношений между ними позволяют устанавливать отношения связности и на этой основе формировать тематиче- ское представление текста, аннотацию текста, а также определять отнесенность текста к одной или нескольким рубрикам. § 43. Другие ПО-ориентированные словари и системы Далее приведены три описания конкретных ПО, выполненные ранее для задач автоматического индексирования текста со сжа- тием. В отличие от представленных выше трех масштабных тезау- русов эти описания лексики и структуры разных ПО являютс; экспериментальными, они скорее позволяют взглянуть на тексте некоторых ПО «глазами лингвиста». Тем не менее они могут быт полезными для молодых специалистов, ищущих более эффектив ные, чем существующие на сегодняшний день, методы стыковю лингвистического и экстралингвистического материала. Словарь-тезаурус энциклопедических функций Словарно-тезаурусный способ задания удобен для тех ПО, которых много объектов и мало действий, к таким относится ПО «Приборостроение». По аналогии с описанием части лекси! в терминах лексических функций (ЛФ) в работах по семантиче скому синтезу было предложено ввести понятие «энциклопеди ческая функция», которая в отличие от лексической отражает н устойчивые сочетания языковых единиц, а устойчивые связи меж ду понятиями, имеющими энциклопедический характер. Особен но полезными оказываются энциклопедические функции при ана лизе научно-технических текстов [см.: Жолковский, Мельч’ 1967]. Словарь, содержащий описание лексики в терминах энцикл< педических функций, был назван словарем энциклопедичен функций (СЭФ). Кроме самой идеи организации лексики из сист 160
мы семантического синтеза были заимствованы отдельные конк- ретные функции, которые имеют энциклопедический характер: Gener и Mult. Ниже описывается структура словаря энциклопеди- ческих функций, построенного для подраздела «Электроизмери- тельные приборы» отраслевого словаря по приборостроению. Ра- бота выполнялась на материалах и с участием сотрудников Ин- ститута приборостроения [см.: Леонтьева, Волковыская, Молча- нова, 1971; Леонтьева, Волковыская, Копылова и др., 1978]. В зависимости от способа описания конкретных лексических единиц в словаре энциклопедических функций лексику назван- ного тематического подраздела можно разделить на три группы. 1. Единицы, для которых составляется полное энциклопеди- ческое описание. К ним относятся названия электроизмеритель- ных приборов, т.е. слова, несущие основную смысловую нагрузку в данном подразделе — вольтметр, генератор, инвертор, зонд и др. Всего в этом подразеделе словаря — 150 наименований приборов; ниже они обозначаются ik, где i — заглавное слово, к — его номер в словаре. 2. Единицы, не имеющие собственного описания и входящие в «чужие» описания: названия понятий, являющихся значениями энциклопедических функций от названий приборов. В словаре при >тих единицах перечисляются энциклопедические функции: l;l(ziI)...Fm(zte), где 1...т — номера функций, 1...п — номера лексических единиц первой группы, в описание которых входят единицы из второй группы. 3. Единицы, обозначающие универсальные оценочные пара- метры, применимые ко всем приборам {погрешность, чувствитель- ность, точность и др.). Для их представления в словаре требуется i вое энциклопедическое описание. Рассмотрим единицы первой и второй групп. Для их описания используется 29 энциклопедических функций, комбинации кото- рых позволяют получить достаточно полные описания для всех юксических единиц выбранного подраздела. Как и ЛФ, энцикло- педические функции подразделяются на замены (слова, которые \ потребляются вместо заглавного слова) и параметры (слова, выступающие в сочетании с заглавным словом). Заменами среди функций является F1 — родовое понятие для ik, частичной заме- ной — F15 — название совокупности ik (при вторичном и последу- ющих упоминаниях в тексте; в первом вхождении F15 выступает как параметр, т.е. вместе с заглавным словом, например, блок •енераторов). В зависимости от вида (порядка, по аналогии с предикатами) функции разбиваются на четыре группы. Функции первого порядка Fl —F16. Аргументом функций пер- вого порядка является ik. Примеры: н 1еонтьева 161
Fl (4) — родовое понятие для ik 4 = милливольтметр Fl (4) = вольтметр F2(4) — измерительная система или прибор, в котором 4 являете! составным элементом или частью ik = делитель F2(ik) = вольтметр ~B3(Q — принцип действия 4 ik = вольметр F3(4) = электродинамический F4(4) — специфическая конструкция 4 4 = магнитометр F4(4) = пленочный F8(4) —• «сотрудник» 4 Значениями F8 являются названия приборов и устройств, с которы ми 4 обычно работает в цепи. ik = вольтметр ~F8(ik) = 1) усилитель, 2) выпрямитель, 3) ВМ (вычислительная маши на) F9(ik) — «клиент» 4 Значениями F9 являются названия приборов, устройств, приспособ лений, для работы с которыми предназначен 4- 4 = куметр F9(4) = колебательный контур F10(4) — способ включения 4 Значениями F10 являются названия способа включения 4- ik = усилитель F10(4) = последовательно ik = выпрямитель F10(4) = по мостовой схеме Функции второго порядка F17—F19. Аргументами этих функ ций являются некоторые функции первого порядка, эксплицит но задаваемые самим определением функции второго порядка: F17(4) — входной объект основного действия 4; развернуто - F17F16(4) Пример: 4 = вольтметр F17F16(4) = 1) ток, 2) напряжение ik = преобразователь F17F16(4) = напряжение F18(4) — выходной объект основного действия 4 Он же является результатом преобразования входного объекта F17. ik = преобразователь F18F16(4) = частота F19 — неизмеряемая характеристика внутреннего процесса в 4 ik = вольтметр F5(ik) = 1) обратная связь, 2) модуляция, 3) уравновешивание F19F5(4) = 1) отрицательная, 2) импульсная, 3) следящее 162
Функции третьего порядка F20—F22. Аргументами этих функ- ций являются некоторые функции второго порядка, эксплицитно задаваемые самим определением функции третьего порядка. F20(ifc), F21(i\) — неизмеряемая характеристика входного/вы- ходного объекта ik ik = вольтметр F17(z'lt) = ток F20F17F16<7fc) = 1) постоянный, 2) переменный Функции четвертого порядка F24 — F29. Аргументами этих фун- кций являются некоторые функции третьего порядка, эксплицитно задаваемые определением функции четвертого порядка. F24(4), F25(ift) — неколичественные характеристики параметров вход- ного/выходного объекта ik ik = вольтметр F22{i/d = ток F24F22F17F16(4) = постоянный F23(4) = частота F25F23F18F16(4) = модулированная F26(z\), F27(z\) — количественные характеристики параметров вход- ного/выходного объекта ik Значениями этих функций являются количественные выражения па- раметров объектов F22(4) и F23(4) в виде числа или слова: ik = автогенератор F22{ik) = частота F26F22F17F16(4) = 1) высокая, 2) 50 ik - автогенератор F23(zt) = частота F27F23F18F16(4) = 1) низкая, 2) 0,01 F28(zft), F29(4) — единицы измерения параметров входного/ выходно- । о объекта ik ik = автогенератор F23(4) = частота F29F23F18F16(4) = Гц В зависимости от вида функции словарь естественно разделит- i я на четыре зоны, которые включают значения функций соот- ветствующего порядка. При такой структуре лексические едини- цы, входящие в энциклопедическое описание ik, оказываются свя- ia иными не только с ik, которое является аргументом всех функ- ций, определенных для ik, но и с единицами из предшествующих юн описания. Например: F25F19F16 {амперметр) = постоянный, । ie F19F16 {амперметр) = ток, F16 {амперметр) = измерять. Подобные способы описания понятий определенной ПО мо- I ут использоваться для накопления фактографических данных, а • човарь энциклопедических функций — для фактографического поиска, для ответа на вопросы типа: Где используется... деталь! 163
По какой схеме включается..? и т.п. Такой словарь-тезаурус (по сути дела, это база данных) позволяет организовать постоянное накопление и обновление сведений, содержащихся в нем. Осо- бенно быстро изменяются значения функций, имеющие количе- ственное выражение. Количественная интерпретация терминов вида быстродействующие ЭВМ, высокое напряжение, предельная скорость, скоростные автомобили и т.д. зависит от того, к какому времен! относится документ. Автоматическое индексирование с помощью такого словаря дае' коэффициент сжатия, близкий к результатам ручного составле- ния ПОД. Описание ситуаций и схем ПО для одной фактографической ИПС Рассмотрим второй путь, когда прагматический анализ текст! опирается на единицы, описывающие более или менее целые си- туации заданной предметной области. Работа по созданию систе- мы СПАНГ проводилась во ВНИИОЭНГ совместно с програм- мистом Д.Л.Резницкой [см.: Леонтьева, Резницкая, 1983]. Тако! способ представления спецзнаний характерен для таких ПО, I которых больше действий, чем объектов. Анализ источников ин- формации — текстов рефератов и статей по тематике «Новые ме- тоды увеличения нефтеотдачи пластов», учебной литературы, за- просов специалистов — продиктовал разбиение всех информаци- онно значимых понятий области на четыре основные категории: 1. ПРОЦЕССЫ 2. ОБЪЕКТЫ 3. а) ХАРАКТЕРИСТИКИ ОБЪЕКТОВ б) ХАРАКТЕРИСТИКИ ПРОЦЕССОВ 4. ЗНАЧЕНИЯ ХАРАКТЕРИСТИК Ясно, что ХАРАКТЕРИСТИКИ ПРОЦЕССОВ и ХАРАКТЕ РИСТИКИ ОБЪЕКТОВ подчинены соответственно ПРОЦЕССАМ и ОБЪЕКТАМ, а ЗНАЧЕНИЯ ХАРАКТЕРИСТИК - ХАРАКТЕ РИСТИКАМ (процессов и объектов). Что касается соотношение ПРОЦЕССОВ и ОБЪЕКТОВ, то количество изучаемых и подвер гающихся каким-либо воздействиям ОБЪЕКТОВ в рассматривав мой предметной области очень мало (нефть, пласт, скважина 1 т. п.) и они могут быть участниками (в основном смысловым объек том) многих процессов. Поэтому в текстах по данной тематик они гораздо менее информативны, чем ПРОЦЕССЫ: НЕФТЬ Хранят Добывают 1 Продают ; 164
Покупают Используют Транспортируют Ищут Перерабат ывают Речь идет, конечно, не обо всех процессах (исследование, увели- чение и т. п. — это процессы, встречающиеся в любой области зна- ния, т.е. общие процессы), а только о различительных (значи- мых, характерных для данной предметной области): нагнетание, вытеснение и др. Категория ПРОЦЕССЫ определяет границы области; слова- ПРОЦЕССЫ могут служить опорными точками при поиске в тек- сте полезной (фактографической) информации. Этой категории отводится высший уровень в иерархии понятий, она будет слу- жить входом в схему предметной области. Схема предметной области как бы задает категориальный ин- формационный язык. Выделенные категории — абстрактная лек- сика этого ИЯ. Его грамматикой являются связи между категори- ями. Имена связей задаются именами связываемых категорий: ПРОЦЕСС - ХАРАКТЕРИСТИКА ПРОЦЕССА ХАРАКТЕРИСТИКА ПРОЦЕССА - ЗНАЧЕНИЕ ХАРАКТЕ- РИСТИКИ ПРОЦЕСС - ОБЪЕКТ ОБЪЕКТ - ХАРАКТЕРИСТИКА ОБЪЕКТА ХАРАКТЕРИСТИКА ОБЪЕКТА - ЗНАЧЕНИЕ ХАРАКТЕРИ- СТИКИ В семантическом, или первичном информационном, представ- лении (СемП, ИнфП) документа, записанном на таком ИЯ, уз- лами становятся пары: абстрактная лексема ИЯ (категория) — конкретное лексическое образование из текста (значение катего- рии), например: ПРОЦЕСС — нагнетание ЗНАЧЕНИЕ ХАРАКТЕРИСТИКИ - от 100 до 200 м Что касается отношений, задаваемых в абстрактной схеме пред- метной области именами непосредственно связываемых катего- рий, то в конкретном СемП документа они могут быть записаны и явном виде на ребрах дерева: ПРОЦЕСС- нагнетание нагнетание ПРОЦЕСС-ОБЪЕКТ ОБЪЕКТ — вода вода 165
Связями СемП будут считаться только такие, которые совпала ют с кратчайшими путями между двумя категориями схемы пред метной области. Так, если в документе есть выражение категори] ПРОЦЕСС и ЗНАЧЕНИЕ ХАРАКТЕРИСТИКИ ПРОЦЕССА, он! остаются несвязанными узлами ИнфП, так как в схеме между ним] есть еще один узел — ХАРАКТЕРИСТИКА ПРОЦЕССА. Введем понятие полного и правильного СемП(ИнфП). Это тако СемП, которое удовлетворяет двум требованиям: 1) все его узлы - полные; 2) все его связи — правильные. Простой узел можно считать полным, если он включает назва ние категории (в терминах ИЯ), лексическое выражение этой ка тегории (в терминах ЕЯ), а все валентности категории и лексем! заполнены в пределах той же структуры полными и однозначны ми узлами. Как правило, узлы ИнфП бывают полны относитель но, а не абсолютно. Так, выражение № не образует полного узла так как не заполнена его лексическая валентность «числовое зна. чение» и нет такой категории ИЯ, которую можно сопоставит] этому выражению. Выражение 300 м относится к категории ЗНА ЧЕНИЕ ХАРАКТЕРИСТИКИ, которая имеет (вверх по дереву семантическую валентность ХАРАКТЕРИСТИКА ПРОЦЕССА иап ОБЪЕКТА. Если ввести лексическое выражение этой категории то оно, во-первых, может снять неоднозначность категории (на пример, слово глубина выражает категорию ХАРАКТЕРИСТИК- ОБЪЕКТА); во-вторых, может объявить новую валентность — j данном случае ОБЪЕКТ (например, скважина), а также потребо вать заполнения валентности вверх по дереву — ПРОЦЕСС — < лексическим заполнением (например, пробурена). Итак, полнот: простого узла не может быть определена абсолютно: она завися от полноты связанных с ним узлов. В рассмотренном примере во узлы относительно полны. Цепочка относительно полных узлов, связанных по валентно стям категорий ИЯ и лексем, образует полную ситуацию. Ситуа ция, если она полна (т. е. каждая категория выражена лексически каждой лексеме приписана категория, все валентности лексем I категорий насыщены и при этом нет неоднозначности заполне ний), образует абсолютно полный узел. Абсолютно полный узе] всегда сложен. Поясним второе требование. Связь правильна, когда ее члена ми являются лексемы, соответствующие объявленным семанти кой данной связи категориям (например, связь ПРОЦЕСС- ОБЪЕКТ соединяет узлы, принадлежащие соответственно кате гориям ПРОЦЕСС и ОБЪЕКТ, а не, например, категории ХА РАКТЕРИСТИКА), и когда ПРОЦЕСС находит свой ОБЪЕКТ ОБЪЕКТ - свою ХАРАКТЕРИСТИКУ, ХАРАКТЕРИСТИКА - свое ЗНАЧЕНИЕ (а не ПРОЦЕСС связывается с ОБЪЕКТОВ* другого ПРОЦЕССА и т.д.). 166
На основании только такого словаря при автоматическом ана- лизе текста речь может идти только о вылавливании, «выужива- нии» той лексической информации из текста, на основе которой можно воссоздать, синтезировать более или менее полную струк- туру ИнфП в интересующем нас аспекте (фактографическая ин- формация). Но при хорошо выбранных единицах ИЯ даже пер- вичное ИнфП является достаточно содержательным. Приведем пример первичного ИнфП в терминах введенного выше категори- ального ИЯ. Пример Продуктивный пласт имеет мощность от 100 до 200 м будет иметь первичное ИнфП (полученное только заменой узлов): ОБЪЕКТ (пласт) - ХАРАКТЕРИСТИКА ОБЪЕКТА (мощность) - ЗНАЧЕНИЕ ХАРАКТЕРИСТИКИ (от 100 до 200 м) ПРОЦЕСС (давало) — ОБЪЕКТ (месторождение) ЗНАЧЕНИЕ ХАРАКТЕРИСТИКИ (8,8 тыс. м3/сут) ПРОЦЕСС (давало) - ОБЪЕКТ (нефть) Итак, первичное ИнфП в терминах категориального ИЯ име- ет вид множества цепочек (в частном случае одной) и/или узлов (в частном случае одного). Если цепочки правильно зацепляются (т. е. все связи правильны), они образуют дерево (когда заполнены все четыре категории) или поддерево. Анализ текста, учитывающий классификацию лексики только в терминах категорий и опирающийся лишь на грамматику кате- гориального ИЯ (без полного лингвистического анализа), приво- дит к образованию правильных цепочек в идеальных или простых случаях (когда, например, в документе описывается всего один ПРОЦЕСС, один ОБЪЕКТ и т.д.), в остальных случаях возможны неоднозначные решения, приводящие к «шумовым» эффектам. Основным средством образования правильных цепочек в сис- теме СПАНГ является дополнительная (к категориальной) клас- сификация лексики. Она опирается на понятие стандартной ком- позиции текстов по рассматриваемой тематике, позволяющей выделить основные аспекты содержания документов. Остановим- ся подробнее на аспектах, т. е. на аспектном ИЯ. Рассмотрение типового развертывания содержания реальных чокументов, а также множества реальных запросов по данной те- матике позволило выделить три стандартных аспекта содержания. Аспект А: Описание предмета изучения, исследования, экс- плуатации и т.п. Аспект В: Описание метода воздействия на предмет. Аспект С: Описание результата воздействия. Эти аспекты можно считать типовой схемой документов, от- носящихся к данной ПО. Более полную классификацию лексики, которая дает более связное отображение фактографического содержания документов, 167
1 получаем на пересечении двух классификаций — категориальной и аспектной. Выделенные категории распределяются по этим треад аспектам неравномерно: одни тяготеют к А, другие — к В, третьи —j к А и С, четвертые — только к С. Не все лексемы (понятия); можно приписать к тому или иному аспекту, некоторые лексемы' характеризуются только категорией. Возможность быть участни- ком любого аспекта — тоже признак отдельного класса. 1 Аспектная классификация облегчает выявление связей между лексемами (понятиями). Процессы, входящие в класс 1.1 (участ«| ники аспекта А), могут вступать в отношения с объектами класса 2.1 (участники аспекта А), но не могут вступать в отношения а классом 2.2 (участники аспекта В). Например, углекислота (класа 2.2) может входить только в аспект В, а в А и С не может. Аналог гично, закачка (класс 1.2) может входить в аспект В, а добыча (класс 1.3) в этот аспект не входит. Поэтому ПРОЦЕСС (добыча! и ОБЪЕКТ (углекислота) не могут образовывать смысловую связь! а ПРОЦЕСС (закачка) и ОБЪЕКТ (углекислота) могут: ПРОЦЕСС! (закачка) — ОБЪЕКТ (углекислота). Действительно, в данной предметной области углекислоту закачивают, а нефть и газ добыч вают. » ] При анализе вхождение в класс функциональной эквивалент-^ ности позволяет образовывать правильные зацепления, т.е. стро- ить правильные поддеревья: П(А) = > 0(A), а не *П(А) = > 0(B). Использование двух оснований классификации, категориаль-1 ной и аспектной, позволило дифференцировать информационна значимые понятия области, а вслед за ними и лексику (вернее,] состав информации к лексемам в словаре) так, что в этих терми«| нах стало возможным более точно формулировать понятие праЧ вильного ИнфП (правильно построенной ситуации). 1 Аппарат семантических признаков в отраслевом словаре I Еще один нестандартный тезаурус для автоматического индек! сирования (АИ) был создан и реализован в системе АИ отрасле! вого потока текстов [см.: Леонтьева, Вишнякова, 1977]. Он вклю| чает четыре части: словник терминов данной ПО; словарь основ для тех слов, которые входят в какой-либо термин; множества дескрипторов (одиночные слова русского языка, написанные про! писными буквами); грамматика семантических признаков (СП).| Перечислим списком используемые СП как определяющие сут! подхода. Их 24: 12 основных и стольких же производных от них: 1 Д — действие, процесс (уборка, транспортировка, деформация) | Ус — устройство (конвейер, лифт, машина, схема) I Дус — деталь устройства (стрела, педаль, колесо, рычаг) I 168 I
П — предмет, продукт, вещество (пена, бетон, асфальт) Ч — часть (сектор, край, часть, сторона, середина) Ф — форма (эллипс, круг, квадрат) X — характеристика (вес, емкость, мощность, производительность) С — свойство (стойкость, прочность, готовность) К — квантор, количественная характеристика (один, много, отрицание, отсутствие) НТ — собирательные понятия, научно-технические дисциплины (хо- зяйство, геология, физика) Уч — учреждение (институт, завод, КБ) М — место (Россия, Англия, Ужгород) Производные СП имеют то же содержание, что и основные (1—12), но выполняют роль определения по каждому признаку: О(Д) — определение по действию (испытанный, предохранительный) О (Ус) — определение по устройству (бульдозерный, конвейерный) О(Дус) — по детали устройства (колесный, ковшовый) О(П) — по предмету (битумный, оконный, настенный) 0(4) — (боковой, центральный) и т.д. Каждой простой основе в словаре соответствует один дескрип- тор, а сложной, составной или аббревиатуре может быть сопо- ставлено несколько: угол — Ч угл- УГОЛ камер 1 КАМЕРА (камера сгорания) Дус камер 2 ШИНА ч камер 3 ВМЕСТИЛИЩЕ п антикорозийн- ПРОТИВО к КОРРОЗИЯ 0(Д) винтонарезн- РЕЗЬБА 0(Д) ВИНТ Дус каток МАШИНА Ус ВЫРАВНИВАТЬ 0(Д) ГРУНТ п При автоматическом индексировании в строящийся ПОД по- падают только значимые слова (вернее, их дескрипторы), с по- мощью СП разрешается частично омонимия; повторы или раз- ные поверхностные варианты (противопожарный, пожарозащит- ный, защита от пожаров) могут получить один перевод (ЗАЩИ- I А, ПОЖАР). Все это уже приводит к сжатию текста. Сравнение с |ексическими цепочками списка терминов позволяет стянуть мно- । не цепочки дескрипторов в отдельный термин, что тоже сжима- с । текст. Не опознанные как термины непрерывные цепочки дес- крипторов первичного ПОД (не разделенные знаком, обозначаю- щим пропуск лексем) программа пытается собрать как гипотети- 169
ческие термины. Последовательность их СП сравнивается с грам- матикой СП, заданной в виде разрешенных конфигураций СП, например: Д + П (сжигание мусора) Ус + Д (устройство для перфорирования) О(Ф) + Дус (грушевидное сопло) Д + X (изменения давления) X + УС (вес двигателя) и др. Гипотетические термины просматриваются на предмет допол- нения списка терминов. Если в ходе сравнения со списком разре- шенных конфигураций возникают конфликты, используется таб- лица предпочтительности конфигураций (которая была составле- на в результате анализа сочетаемости дескрипторов в цепочках ПОД): X + Ус > Ус + Ус (т. е. первой конфигурации следует отдать предпоч- тение); Х + П>П + Пи т.д. Дескрипторов получилось в три раза меньше, чем входных значимых лексем ЕЯ: для 6 тыс. входных единиц потребовалось 2 тыс. дескрипторов. * * * Адекватная система АПТ должна иметь механизмы адаптации к разным ПО. Желательно, чтобы они составили отдельный блок или компонент системы, который можно менять для другой зада- чи и при переходе к другим предметным и проблемным областям. Найти и зафиксировать логику ограниченных фрагментов ПО в виде отдельного модуля не так сложно, труднее соединить аппа- рат лингвистического анализа и ПО [см.: Борщев, 2003]. Возмож- но, что описания ПО лучше поручать пока лингвистам, чтобы не специалисты создавали лингвистическое обеспечение для своей ПО, а лингвисты описывали ПО в таких категориях, которые бы естественно стыковались с лингвистическим процессором. В простых информационных задачах достаточно сравнивать лек- сический материал текста с той малой информацией, которая задана простыми списками типа Gazetteers (см. гл. 9), тезаурусом с тремя связями иерархии, простой БД. Но создание таких интел- лектуальных систем, как вопросно-ответная система, системы ма- шинного перевода, поиска новой информации, сжатия содержа- ния и т.п., требует серьезного лингвистического решения пробле мы стыковки с ПО. Потребность в СМП, которые бы приемлем< переводили «специальные» тесты, огромна. В любом тексте може: 170
быть затронута не одна, а несколько ПО. Конечно, хорошо иметь единый верхний уровень описания структуры знаний (и добавим, соответствующее формальной модели наполнение), но действи- тельность такова, что пока каждая ПО описывается своими сред- ствами, которых, как мы видели, очень много и которые могут существенно различаться. Сложным системам АПТ в особенности нужны способы адап- тации к разным описаниям ПО, так как в основном разные ЯПЗ непереводимы друг в друга. В составе развиваемой нами модели, которая должна вербали- зовать привлекаемые к текстовому анализу знания (как общие знания о действительности, так и специальные ПО-знания), адап- тация может происходить через перевод разнообразных источни- ков знаний ПО на единый информационный язык-посредник и включение полученных структур в семантическое, далее инфор- мационное пространство системы АПТ или СГТ. По сути, мы по- строим род гипертекста, только с однородным составом компо- нентов, т.е. сложной семантической сети, где действительны за- коны такого типа, который обрисован в главе 7. Подобная семан- тическая сеть не только является источником ответов на вопросы пользователя, но и помогает формировать сами вопросы, как это описано в работах по методам формирования «тонких» вопросов к универсальному терминологическому пространству [см.: Маль- ковский, Соловьев, 2004]. Литература Азарова И.В., Синопальникова А.А., Яровская М.В. Принципы построения WordNet-тезауруса RussNet // Труды Междуна- родной конференции ДИАЛОГ-2004. — М., 2004. Анохин П. К. Принципиальные вопросы общей теории функцио- нальных систем // Принципы системной организации функций. — М., 1973. Белоозеров В.Н., Косарская Ю.П. Опыт разработки словаря с разветвленной системой тезаурусных связей//НТИ. — М., 2001. — Сер. 2. — № 8.-С. 28-31. Борщев В. Б. Базы и банки данных. — М., 1982, — № 3. — С. 64—75. Борщев В.Б. Естественный язык для схематизированных областей (Об информационной системе по анатомии W.Hagamen’a) // Материа- 1ы Международной конференции ДИАЛОГ-2003. — Протвино, 2003. — С. 88—94. Борщев В. Б. Формальный язык как часть естественного // НТИ. — М., 1994.-Сер. 2,-№9.-С. 27-31. Добров Б.В., Лукашевич Н.В., Невзорова О.А. Технология разработки онтологий новых предметных областей // Труды Казанской школы по компьютерной и когнитивной лингвистики TEL-2002. — Ка- мнь, 2002.-С. 90-106. 171
Железняков М.М., Невлева Т.Н., Новицкая И.М. и др. Опыи построения модели типа «текст -+ действительность» с использованием! ассоциативных сетей // Машинный фонд русского языка: предпроект*| ные исследования. — М., 1988. — С. 140—167. J Жолковский А.К., Мельчук И.А. О семантическом синтезе //] Проблемы кибернетики. — М., 1967. — Вып. 19. — С. 177—238. 1 Кандрашина Е.Ю., Литвинцева Л.В., Поспелов Д.А. Пред-| ставление знаний о пространстве и времени в системах искусственного интеллекта. — М., 1989. I Клещев А.С., Артемьева И.Л. Математические модели он-1 тологий предметных областей. Часть 1. Существующие подходы к оп->| ределению понятия «онтология» // НТИ. — М., 2001. — Сер. 2. — № 2. — С. 20-27. I Кубрякова Е.С., Демьянков В.З., Панкрац Ю.Г. идр. Крат-1 кий словарь когнитивных терминов. — М., 1997. 1 Кузин Е. С. Представление знаний и решение информационно-слож-1 ных задач в компьютерных системах // Приложение к журналу «Инфор-Д мационные технологии». — М., 2004. I Кузин Е. С., Бр ы л ь В. Н. Базовая система представления знаний с| проблемной среде // Информационные технологии. — М., 1996. — № 11 Леонтьева Н.Н., Вишнякова С.М. Орыт автоматического! индексирования со смысловым сжатием // НТИ. — М., 1977. — Сер. 2. —1 №7.-С. 24-30. I Леонтьева Н.Н., Волковыская Е.В., Копылова О.Т. идр! Словарь энциклопедических функций и его роль в автоматическом ин-1 дексировании // НТИ. — М., 1978. — Сер. 2. — № 7. — С. 23 — 29. I Леонтьева Н.Н., Волковыская Е.В., Молчанова Т.В. Сло-1 варь энциклопедических функций и автоматическое индексирование /Л Тезисы Всесоюзной конференции «Автоматическая переработка тексте методами прикладной лингвистики». — Кишинев, 1971. 1 Леонтьева Н.Н., Резницкая Д.Л. Об инструментах сбора тек-1 стовой фактографической информации // НТИ. — М., 1983. — Сер. 2. -Л №2.-С. 9-16. I Лукашевич Н. В.,Добров Б. В. Тезаурус для автоматического кон-Я цептуального индексирования как особый вид лингвистического ресурс са // Труды Международной конференции ДИАЛОГ-2001. — М., 2001. -Л Т. 2.-С. 273-279. | Лукашевич Н.В., Добров Б.В. Тезаурус русского языка длЛ автоматической обработки больших текстовых коллекций // Труды МежЯ дународной конференции ДИАЛОГ-2002. — М., 2002. — Т. 2. — С. 338 Л 346. Лукашевич Н. В., С ал и й А. Д. Представление знаний в системе автоматической обработки текстов // НТИ. — М., 1997. — Сер. 2. — № 3. -Л С. 1-6. 1 Мальковский М.Г., Соловьев С. Ю. Структурный метод фодЛ мирования запросов к информационной системе // Труды Междунаров ной конференции ДИАЛОГ-2004. — М., 2004. Л Материалы к компьютерному тезаурусу лексики русского языка / Соси И. В.Азарова, О.А. Митрофанова. — СПб., 2002. 172
Нариньяни А.С. Кентавр по имени ТЕОН: Тезаурус + Отология // Труды Международной конференции ДИАЛОГ-2001. — М., 2001 Т. 1. — С. 184-188. Никитина С.Е. Тезаурус по теоретической и прикладной лингви- стике. — М„ 1978. Никитина С.Е., Васильева Н.В. Экспериментальны и систем- ный толковый словарь стилистических терминов. — М., 1996. С. 172. Новый объяснительный словарь синонимов русского языка / 11оц общ. ред. акад. Ю.Д. Апресяна. — М., 1997. Пащенко Н.А., Ксенофонтова Е.Б., Скоробогата я Е.Ф. Информационно-поисковый тезаурус по информатике. — М., РЖ/. Поляков В.М. Проект WordNet и его влияние на технологии ком- пьютерной и когнитивной лингвистики (Обзорная статья) // I руды Казанской школы по компьютерной и когнитивной лингвистике I IL 2002. — Казань, 2002. — С. 6—61. Рубашкин В.Ш., Лахути Д.Г. Семантический (концептуальный) словарь для информационных технологий // НТИ. — М., 1998. — Сер, 2 № 1.-С. 19-24. Хахалин Г. К. О модели предметной области для лингвистически! <1 транслятора // Труды Международной конференции ДИАЛОГ-2002. М„ 2002. - Т. 2. - С. 514- 518. Ц е й т и н Г. С. Программирование на ассоциативных сетях // ЭВМ в проектировании и производстве. Вып. 2 / Под ред. Г. В. Орловского. — Л., 1985.-С. 16—48. Ш айкевич А.Я. Проблемы терминологической лексикографии // Обзорная информация / ВЦП. — М., 1983. — № 8. Шелов С.Д. О разработке информационной системы «Научная терминология» (От терминологического банка данных к терминологиче- ской базе знаний) // Обработка текста и когнитивные технологии. — М., 1999. - № 3. - С. 233-244. Шелов С.Д. Термин. Терминологичность. Терминологические опре- (еления. — СПб., 2000. Шелов С.Д. Терминоведение: семь вопросов и семь ответов по се- мантике термина // НТИ. — М., 2001. — Сер. 2. — № 2. — С. 1 —12. Hutchins W.J. Machine Translation: Past, Present, Future. — New Jork., 1986. Miller G., Beckwith R., Fell ba urn C. et al. Introduction to WordNet: \n online lexical database // International Journal of Lexicography. — 1990. — № 1(4).-P. 235-312. Nirenburg S., Raskin V. Ontological Semantics. — Cambridge, 2004. Vossen P. (ed.) EuroWordNet: A Multilingual Database with Lexical Semantic Network. — Dodrecht, 1998. Vossen P. Wordnet, Eurowordnet and Global Wordnet // Tutorials. International Conference «Recent Advances in Natural Language Processing» (RANLP-2003). - Borovets, 2003.
ГЛАВА 9 INFORMATION EXTRACTION И ДРУГИЕ ИНФОРМАЦИОННЫЕ МОДЕЛИ Огромные порции важной для людей информации существуют только в виде естественных текстов. В отсутствие методов содержа- тельного анализа больших массивов текстов в последнее десяти-1 летие ушедшего века получили развитие системы типа Information I Extraction (IE), text mining, data mining, knowledge discovery, knowledge aquisition (cm. § 47). Их задача в общем виде сводится к обнаруже- нию и извлечению частичных знаний из больших массивов тек- стов. Это скорее новые названия для систем, моделирующих не полное, а выборочное понимание, поиск связных фрагментов тек- ста, отвечающих некоторой заданной извне информационной] потребности. Системы извлечения частичной информации (ИЧИ) вносят новый элемент в эти модели квазипонимания, а именно: резуль- тат понимания должен быть представлен структурой типа реляци-1 онной базы данных, называемой в западной литературе template. Множество полей такой фрейм-таблицы, если они заполнены материалом, извлеченным из текста, создают искомое связное описание объекта или события. Поиски путей сжатия текстов и извлечения релевантной ин-, формации начинались еще в информационно-поисковых моделях и системах автоматического индексирования, фрагментирования ! и реферирования текстов (они коротко рассмотрены ниже). К ним ! же отнесем и вопросно-ответные системы, отыскивающие в пол-1 ном тексте или в массиве текстов ответ на вопрос пользователя. ! Системы тематического анализа больших массивов также стре- | мятся к получению связной структуры, но уже иерархического! (тезаурусного) типа, что позволяет выделить главные темы доку-| мента, второстепенные темы и т.д. I Остановимся сначала на информационно-поисковых системах, I поскольку они и создавались ранее, и используются обычно в] ИЧИ-системах как первый этап обработки массива текстов. I Что касается полного цикла понимания текстов (АПТ-моде-| ли), то оба типа систем (ИПС и ИЧИ) будут в нем востребованы! как подготовительные или контролирующие компоненты. 1 § 44. Автоматическое индексирование текст< Документальные информационно-поисковые системы i создаваться еще в конце 40-х гг. XX в., до начала машинши < вода. В 1970 г. в нашей стране была сдана в эксплуатации! < «Электротехника». В ней из трех основных семантических ирг работы поисковой системы — индексирование докумен тов ботка запросов и поиск — были автоматизированы два: и индексирование [см.: Добронравов, Лахути, Лескисс, 1971, ти, Федоров, Добронравов и др., 1983]. Другой значительной отечественной разработкой была риментальная система автоматического индексирования поисковых аннотаций (ЭСАИТ), созданная в ВИНИТИ |о щенко, Кнорина, Молчанова, 1983]. Упомянем также сиен тематического индексирования (АИ) в МЦНТИ, которая и зовала язык словосочетаний для индексирования масс и в, гов, диссертаций и другой отечественной научной продукпи Гиндин, Леонтьева, 1975; Гиндин, Столбова, Гуревич, И В ИПС с автоматическим индексированием анализ н-н стоит в узнавании терминов, их вариантов и родственных । все они называются ключевыми словами — и переводе и.ч в < цы информационного языка, называемые дескрипторами h вые слова (КС) могут быть словами или словосочетаниями честве дескриптора может быть взят один из синонимов представитель всего ряда КС, а может выступать абстрак i ш мер этого дескриптора — такая информация фиксирую < я । рипторном словаре-тезаурусе. К одному дескриптору м<в \ сведены КС, являющиеся не абсолютными синонимами, .i ными, которые не нужно различать в выбранной прсдмюн засти, например: Ключевые слова аэроплан аэробус самолет воздушный лайнер авиалайнер вертолет летательный аппарат... и др Множество или последовательность дескрипторов, о>п ленных всему тексту, после небольшой обработки (спя ив пимии, устранения повторяющихся единиц) образую i ips называемую поисковым образом документа. Хорошо, п ни х ство КС, найденных в тексте, образует замкнутое множс» i in относящихся к одной ПО, тогда ПОД можно считан, i нои. Дескриптор самолет (или 45327) 174
структурой, сжатым представлением текста. Но для свободного текста терминологический ПОД далеко не всегда можно постро- ить, а построенный может до неузнаваемости исказить содержа- ние. Так, предложению из художественного текста Данилов, как всегда поутру, гладил электрическим утюгом черную бабочку для ямы будет сопоставлен ПОД, состоящий из найденных в тезаурусе тер- минов: электрический утюг, черная бабочка, яма, а при восхожде- нии к вышестоящим дескрипторам можно получить последова- тельность имен рубрик «Электротехника», «Энтомология», «Стро- ительство». А на самом деле речь идет о музыканте и концертных атрибутах. В большинстве систем автоматического индексирования ИПС- структуры дают точечное отображение содержания целого текста: ПОД содержит лишь перечень дескрипторов-терминов, а связи между дескрипторами отсутствуют. Такие структуры безразличны к членению текста на предложения, поэтому они плохо совмес- тимы с лингвистическими структурами, для которых главной еди- ницей является предложение. Основной недостаток этого типа структур — слабая семантическая сила, в частности из-за отсут- ствия связей между понятиями в окончательной структуре. ИПС, не работающие с текстуальными отношениями, называют «ИПС без грамматики». Чтобы такая структура без связей могла эффек- тивно работать, она не должна быть слишком большой, что объяс- няет ограничения на объем (а следовательно, и на жанр) обраба- тываемых источников — это не статьи произвольного размера, а короткие, компактные по смыслу тексты, в основном вторичные (рефераты). Даже такая развитая ИПС, как система СКОБКИ [см.: Лахути и др., 1985], выросшая из системы ЭЛЕКТРОТЕХНИКА, не ра- ботает с текстуальными отношениями, которые могли бы быть установлены синтаксическим анализом. Частично это компенси- руется информацией о позиции КС в тексте (или о вхождении дескрипторов в предложения), что дает основания приписать дес- крипторам какие-то весовые коэффициенты, в ранних системах АИ их называли ролями. Наибольший вес получают слова из заг- лавия. Роли также могут задаваться при термине в словаре. Роли- веса иногда присваиваются ключевым словам на основании об- ратной связи с пользователем. ' Результаты такого индексирования часто используются длЯ построения квазиреферата', отбираются те фразы текста, который оказались «весомее» с точки зрения концентрации ключевых слов (КС) и с учетом их положения в тексте. Например, первая, вто-1 рая и последняя фразы текста считаются более весомыми или боЧ лее нагруженными по смыслу. 1 Наличие роли в структуре ПОД — это уже элемент грамматики! Еще более содержательную аттестацию дескриптора задает кате<4 176 1
гория. Так, в некоторых ИПС выделяются категории дескрипто- ров: агенты, качества, предметы и процессы (а в системе «КРИС- ТАЛЛ» — процессы, свойства, материя, составные части). Катего- рии могли быть зафиксированы в словаре основ дескрипторов, иногда при суффиксах, сочетающихся с данной основой. Это уже начало простейшего семантического анализа. Кроме указателей роли в ПОД некоторых систем вводятся и указатели связи, понимаемые как пространственная близость в тексте; иногда они ранжируются: соседние слова образуют самую сильную связь, а самая слабая связь устанавливается между слова- ми, оказавшимися в одном абзаце. Наконец, несколько систем АИ вводят в грамматику использу- емого языка простейшие семантические связи. Первым таким ИЯ был СИНТОЛ, в котором ПОД представляет собой набор син- тагм (пар дескрипторов), связанных одним из четырех отношений: координативное (чисто формальная связь), консекутивное (при- чинности или воздействия), ассоциативное (принадлежность в ши- роком смысле) и предикативное (отношение между предикатом и его актантами) [см.: Кросс, Гарден, Леви, 1968]. А сами отноше- ния строятся в зависимости от того, слова каких семантических категорий (предметы, состояния, действия и предикаты) они со- единяют. Дальнейшие работы над ИПС с автоматическим индексирова- нием связаны с развитием самого инструмента АИ, его усложне- нием, в первую очередь за счет введения парадигматических свя- <ей. В тезаурусах фиксируются отношения родства между термина- ми, и это приводит к созданию иерархической структуры ПОД, отражающей иерархию понятий в тезаурусе. Учет их распределе- ния по тексту и частоты упоминаний позволяет определять тема- тическую принадлежность текста и разносить тексты по рубри- кам, т. е. классифицировать поток, что очень важно для больших информационных учреждений, особенно связанных со СМИ. Автоматическое индексирование предпочтительнее ручного (которое еще называют интеллектуальным индексированием), по- скольку в случае с АИ: а) исключается субъективизм индексаторов (разные КС из од- ного класса условной эквивалентности переводятся всегда в один и тот же дескриптор); б) обеспечивается стабильность результатов; в) ошибки АИ очевиднее и устраняются проще, т. е. почти ав- । оматически. При всех достоинствах моделей типа ИПС отсутствие система- । ических методик работы с текстуальными отношениями не дает пока возможности ставить типичную информационную задачу: автоматического построения реферата (не квазиреферата, а со- держательно сжатого текста) на основе полного текста. Итак, глав- 177
ным достоинством ИПС является работа с реальными текстовыми массивами и реальным (или виртуальным) пользователем, а ос- новным узким местом информационных систем является их не- большой смысловой потенциал. § 45. Автоматическое реферирование/фрагментирование текстов Системы автоматического реферирования (АР) текстов созда- вались в большом количестве в 70—80-е гг. XX в. практически во всех отраслевых информационных институтах. Они разрабатыва- лись в рамках ИПС на основе систем АИ, но в отличие от них остались лишь экспериментальными. Обычно различают три типа результирующих текстов рефератов: квазирефераты, рефераты- клише и собственно рефераты [см.: Пащенко, Кнорина, Молча- нова, 1983]. Квазиреферат представляет собой последовательность всех ото- бранных из текста наиболее информативных предложений (в по- рядке их следования в исходном тексте). Разработано много про- цедур их дальнейшего редактирования с целью придать им боль- ше связности, убрать повторения, сократить объем и т.д. В преде- ле результат представляет собой аннотацию, тематическое пред- ставление или даже обычный ПОД. Рефераты-клише строятся тоже извлечением из текста наибо- лее информативных слов, которые вставляются в заранее задан- ные словесные клише, или шаблоны, например: «Данная статья относится к теме...», «В тексте говорится о...» [см.: Севбо, 1969;' Пиотровский, Беляева, Попескул и др., 1983]. Построение рефе рата в собственном смысле должно опираться на более глубоки; анализ текста. В работе С. И. Гиндина проведены классификация и теорети ческое осмысление идей и методов автоматического фрагмента рования, которое имеет целью сжатие текста до таких представи тельных его фрагментов, в которых заключено основное смысло вое содержание. Получаемый в результате текст автор называе конденсатом [см.: Гиндин, 1977]. «Любая сколько-нибудь разум ная процедура фрагментирования просто не может игнорирован план содержания текста: ведь цель любой процедуры фрагмента рования “по определению” состоит в том, чтобы сравнить фра менты по их значимости для выражения основного содержаш текста... Различные же процедуры фрагментирования отличают< друг от друга тем, как именно, какими путями пытаются оь “добраться” до этой структуры плана содержания» [Гиндин, 197 70— 71]. В этой же работе подробно рассмотрены разные мето, получения конденсата: статистический метод выбора опорных 1 178
чек и определения значимости, совместное употребление значи- мых слов с расширением до получения значимого фрагмента, ис- пользование синтаксических и лексических индикаторов для той же цели, опора на клишированные схемы документа; подробно описаны позиционные методы фрагментирования. Системы АИ, АР и включающие их ИПС различаются степе- нью подробности и методами анализа исходного текста, знания- ми, которые закладываются в систему, конкретными задачами обработки текста и т. д. § 46. Системы «вопрос-ответ» Диалоговые системы, моделирующие содержание общения, заслуживают отдельного и детального (ввиду своей специфики) рассмотрения, которое не входит в задачи данного пособия. Но коротко напомним. В работе Н. Н. Перцовой подробно рассмотрены системы «во- прос-ответ» (СВО), которые она классифицирует на четыре груп- пы [см.: Перцова, 1976]: 1) СВО-1: нет ни семантического, ни логического компонента; 2) СВО-2: есть семантический, нет логического компонента; 3) СВО-3: нет семантического, есть логический компонент; 4) СВО-4: есть семантический и логический компоненты. Основные представители СВО-1: Baseball, Eliza, Student, Carps, Acorn, Maiysia. Это системы co специальным форматом; типы вход- ных предложений заданы заранее, и каждому поставлен в соот- ветствие один ответ. Он дополняется словами из предшествующей фразы, с некоторыми заменами. Другая разновидность работает с текстом, в котором заданы синтаксические связи. Поступивший вопрос сравнивается последовательно со всеми фразами, храня- щимися в памяти ЭВМ. Ответом считается такая фраза из памяти ЭВМ, которая максимально схожа с поступившей (по совпаде- нию лексики и синтаксических отношений). Это квазидиалог, но механические системы такого типа не перестали разрабатывать, несмотря на их механистичность. Системы 2-й и 3-й групп также мало перспективны: в них все преобразования (семантического и логического характера) осу- ществлялись на сыром, неформализованном языковом материа- че, минуя этап семантического анализа. СВО-4 — это уже системы, моделирующие понимание, к ним отнесены системы Preference Semantic System (Й.Уилкс), Margie (Р.Шенк), SHRDLU (Т.Виноград), LUNAR (У.Вудс), SCHOLAR (Карбонелл и др.). Основным в них является не лингвистический, .1 логический компонент, применимый к узкому кругу тем; се- мантика больших массивов текстов не стала в них главной про- 179
блемой. Эти системы входят в класс систем искусственного ин- теллекта, они широко описаны в соответствующей литературе. Для ведения не игрушечного, а настоящего диалога с ЭВМ еще не созрели все условия. Многие ведущие разработчики систем АПТ (в частности, Й.Уилкс) переключились на более массовые, более востребованные и более достижимые задачи: например, извлече- ния локальных знаний из больших массивов текстов. В настоящее время ценятся модели и системы, которые справ- ляются с большими массивами и потоками текстов. Ниже пред- ставлены два типа современных систем, работающих с массива- ми: развитый тематический анализ и системы экстрагирования/ извлечения информации из текстов. § 47. Тематический анализ потока текстов Тематическое представление (ТемП) текстов — одна из важ- нейших семантических структур текста, которая включает лишь названия (или более организованную структуру) тех тем (топи- ков), которые характеризуют основное содержание документа. Важность такой структуры текста в составе информационно-по- исковых систем состоит в том, что она позволяет любому еди- ничному пользователю ознакомиться в очень краткой форме с содержанием большого корпуса текстов и определить дальней- шие режимы работы с документами массива. Тематические пред- ставления потока текстов позволяют автоматизировать процессь: классификации и рубрикации, что необходимо особенно в агент ствах СМИ, куда ежедневно поступают огромные потоки ин формации разнообразной тематики. Укажем также на потребно сти хотя бы предварительной сортировки типов знаний для даль нейшего учета и управления базами знаний. Очевидно, что при создании ТемП должны быть задействова ны достаточно эффективные методы сжатия исходного материал; текста. Тематическому анализу (ТемАн) должна предшествоват хотя бы минимальная лингвистическая обработка исходного мае сива текстов. Оставим в стороне чисто механические методы сокращение текста, стремящиеся к построению тематического представление текста, такие, как: а) устранение из текста малозначащих ело: (заданием списка так называемых «стоп-слов»); б) оставление толь ко существительных; в) отбор первого-второго и последнего пред ложений текста; г) выбор списка слов, отвечающих каким-то ста тистическим закономерностям, и т.п. Остановимся на таких методах, которые принимают во вним; ние свойство связности текста: ведь и темы должны быть тол связными. 180
Создание тематического представления текста по тезаурусу Классический путь автоматического индексирования и рубри- цирования (АИР) на основе тезауруса РуТез (см. гл. 8), перерос- ший затем в тематический анализ, работает в университетской системе РОССИЯ, он близок к промышленному режиму (более подробно ниже). Авторы подхода называют его концептуальным индексированием [см: Лукашевич, Добров, 2001]. Один из выходов этой системы — автоматическая аннотация, или квазиреферат1 II. На основе знаний, включенных в тезаурус РуТез, разработана технология тематического анализа текста, позволяющая среди всех терминов текста выделить тематически близкие термины и опре- делить их значимость для текста, представив всю выявленную информацию в виде хорошо структурированного тематического представления. Тематическое представление текста включает все термины тек- ста, организованные в иерархическую структуру и ранжирован- ные по мере их значимости для текста. В текстах деловой прозы для абсолютного большинства терми- нов выполняются следующие правила: 1) повтор термина или его синонимов означает кореферент- ность и/или концептуальное тождество между этими повторами; 2) тематически близкие термины текста тематически связаны; 3) чем ближе термины к основной теме документа, тем боль- ше вероятности, что предшествующие два правила выполняются. Эти правила можно использовать для автоматического опреде- ления основных тем текста. На первом этапе работы алгоритма единицы текста сравнива- ются с единицами тезауруса. Это сравнение происходит на основе морфологического представления единиц текста и единиц тезау- руса, заранее прошедших морфологический анализ. Из множества найденных в тексте единиц, совпавших с тезаурусными, выбира- <• гея единица, имеющая максимальную длину. Если один и тот же фрагмент текста соответствует разным единицам тезауруса, то фиксируется многозначность термина. В результате сопоставления с тезаурусом текст отображается в последовательность дескрипторов тезауруса. Все синонимы (вари- анты) одного и того же дескриптора отображаются в соответству- ющий дескриптор и далее не различаются. Для каждого дескрип- юра фиксируются частота его встречаемости в тексте и тематиче- i ки близкие ему дескрипторы текста. Совокупность дескрипторов текста, для которых указаны те- матически близкие дескрипторы этого текста, называется проек- 1 Описание этого и двух следующих разделов ведется по материалам статей II В.Лукашевич и Б. В.Доброва [см.: Лукашевич, Добров, 2001]. 181
цией тезауруса на текст {тезаурусной проекцией). Мы считаем этот термин более отвечающим сути, чем ПОД. Разрешение неоднозначности терминов РуТез В построении тезаурусной проекции равным образом участву- ют все дескрипторы, соответствующие неоднозначному термину. На основе тезаурусной проекции выбирается дескриптор, соот- ветствующий определенному значению термина. Для каждого зна- чения неоднозначного термина проверяется: а) употреблялись ли в данном тексте наряду с неоднозначным термином однозначные термины, соответствующие дескриптору, выражающему это значение неоднозначного термина; б) имеет ли дескриптор, соответствующий этому значению неоднозначного термина, тезаурусные связи с другими дескрип- торами проекции. Если выполняется одно из перечисленных выше условий, то считается, что «текст поддерживает» данное значение неодно- значного термина. Если текст «поддерживает» только одно значе- ние неоднозначного термина, то выбирается соответствующий ему дескриптор. Если текст «поддерживает» дескрипторы, соответствующие разным значениям термина, то для каждого вхождения неодно- значного термина рассматриваются ближайшие по тексту деск- рипторы, для них проверяются указанные условия и выбирается тот дескриптор неоднозначного термина, который поддержива- ется первым из ближайших по тексту дескрипторов. Рассмотрим фрагмент текста Консульской конвенции между СССР и США от 1 июня 1964 года, в котором употреблены неод- нозначные словоформы судам и суда'. Статья 11. Консульское должностное лицо может предлагать судам или другим компетентным властям государства пребывания подходящих для этого лиц в качестве опекунов и попечителей... В случае если суд или компетентные органы власти... Статья 13. Консульское должностное лицо может оказывать помощь и содействие судам, плавающим под флагом представляемого государства и зашедшим в порт его консульского округа... Статья 15. Статьи 13 и 14 применяются соответственно и к воздуш- ным судам... Неоднозначность словоформы судам из статьи 15 разрешается за счет распознавания объемлющего термина воздушным судам. Трактовку указанных словоформ как форм слова суд поддер-, живают в данном тексте: 1) словоформа суд; 2) термин судебный; 182
3) дескрипторы: УГОЛОВНОЕ ДЕЛО, МЕРА ПРЕСЕЧЕНИЯ, ЗАКЛЮЧЕНИЕ ПОД СТРАЖУ, ТЮРЬМА, СВИДЕТЕЛЬ, СВИ- ДЕТЕЛЬСКИЕ ПОКАЗАНИЯ, АДВОКАТ, ЗАКОННОСТЬ, ДИПЛОМАТИЧЕСКАЯ НЕПРИКОСНОВЕННОСТЬ. Трактовку указанных словоформ как форм слова судно поддер- живают в данном тексте: 1) словоформа судно', 2) дескрипторы: ПОРТ, ТРАНСПОРТ, ПАССАЖИР, ГРУЗ, ВОЕННЫЙ КОРАБЛЬ, СУДОРЕМОНТНЫЕ РАБОТЫ, КАПИ- ТАН СУДНА. Таким образом, в статье 13 словоформа судам будет тракто- ваться как дескриптор СУД, а в статье 15 — как дескриптор ВОД- НОЕ СРЕДСТВО ТРАНСПОРТА. Модель предполагает, что основными тематическими узлами в первую очередь являются такие тематические узлы: а) которые все связаны между собой текстовыми связями; б) у которых сумма частот текстовых связей между ними мак- симальна. В рассматриваемом примере тематического представления Та- моженного кодекса основными тематическими узлами стали узлы с главными дескрипторами ТОВАР, ТАМОЖЕННОЕ ОФОРМ- ЛЕНИЕ ТОВАРОВ, ТАМОЖЕННЫЙ КОМИТЕТ, ЗАКОН. Обо- снование такого выбора наглядно иллюстрируется приведенными выше примерами текстовых связей этих тематических узлов. Вычисленные таким образом основные тематические узлы ав- томатически задают порог, выделяющий среди всех тем, обсуж- давшихся в тексте, основные темы текста. Таким порогом счита- ется средняя суммарная частотность основных тематических уз- лов. Исходная совокупность основных тематических узлов допол- няется теми тематическими узлами, частотность которых превы- шает вычисленный порог. Это дополнение отражает такую струк- гуру текста, в которой некоторая важная тема обсуждается в тек- сте локально, не по всему тексту, но достаточно подробно. Локальные тематические узлы представляют собой некоторые важные характеристики основных тематических узлов. Тематиче- ский узел считается локальным, если этот узел имеет текстовую связь с частотностью большей единицы с одним из основных те- матических узлов. Дескрипторы, не вошедшие в состав основных и локальных тематических узлов, объявляются «упоминавшимися в тексте». Таким разбиением тематических узлов на основные и локаль- ные задается разбиение дескрипторов на следующие пять катего- рий по их важности для анализируемого текста: 183
1) главные дескрипторы основных тематических узлов (основ- ные темы); 2) другие дескрипторы основных тематических узлов; 3) главные дескрипторы локальных тематических узлов (ло- кальные темы); 4) другие дескрипторы локальных тематических узлов; 5) упоминавшиеся дескрипторы. Примеры составленных таким образом тематических представ- лений приводятся в многочисленных публикациях авторов. Построение аннотации Для построения аннотаций сначала формируется множество аннотационных фрагментов, которые являются целыми пред ложениями исходного текста, содержат в своем составе глагол в изъявительном наклонении или краткое прилагательное и н< являются вопросительными или восклицательными предложе НИЯМИ. Перед построением аннотации создается таблица всех возмож- ных пар основных тематических узлов. Далее процесс начинается с начала текста. Берется очередной фрагмент, удовлетворяющи: всем перечисленным требованиям, он по крайней и проверяется, содержит мере два разных дескриптора из разных основных тематических узлов. Если содержит, то этот фрагмент присоеди- няется к аннотации, а все пары тематических узлов, дескрипторы которых содержались в данном фрагменте, удаляются из таблицы Таким образом, следующие аннотационные фрагменты должнь содержать только оставшиеся в таблице пары, которых с каждыл новым присоединенным фрагментом становится все меньше г меньше. Серьезной проблемой автоматического аннотирования являет- ся проблема местоимений, которые могут появиться в выбранные предложениях и служить ссылкой на такие предложения текста которые не вошли в состав аннотации. В настоящее время в случаях, когда очередное предложенш текста подходит для аннотации, но содержит местоимение, при? нимается одно из следующих решений: 1) если предыдущее предложение входит в состав аннотации то и данное предложение включается в состав аннотации; 2) если предыдущее предложение не входит в состав аннота- ции, то проверяется, нельзя ли это предыдущее предложение вклю- чить в состав аннотации. Для этого необходимо, чтобы оно н< содержало местоимений или следовало за предложением, вклю- ченным в аннотацию; 3) в остальных случаях предложение с местоимением не вклю- чается в состав аннотации. 184
Таким образом, система как эксперт строит аннотацию в зави- симости от количества основных тем, выделенных ею в тексте, и от распределения этих тем по предложениям текста. Однако пользователь имеет возможность задавать величину ан- нотации в абсолютных размерах. Это нужно, например, для того, чтобы аннотация помещалась на экран системы пользователя. Если размер построенной аннотации больше, то аннотация урезается до подходящего размера. При этом система в состоянии отсле- дить, какие основные темы документа не попали в урезанную аннотацию, и сообщить пользователю, что еще обсуждалось в дан- ном тексте. Объединенные с хорошо отлаженными технологиями стандарт- ных ИПС методы информационного анализа УИС РОССИЯ при- вели к качественным и устойчивым результатам. § 48. Системы автоматического извлечения знаний из текстов В моделях типа Information Extraction планируется и реализуется ограниченное, ПО-зависимое понимание. Извлечением локаль- ных сведений из текста, или экстрагированием информации, на- зывается любой метод выбора релевантной для пользователя связ- ной порции информации из большого массива текстов. Извлечен- ные из массива сведения заносятся в структуры табличного вида (templates), которые специально формируются как множество сло- гов, характерных для данного типа объектов. Результаты запоми- нания слотов могут выдаваться пользователю на экран, могут со- храняться в виде баз данных или поступать на вход следующей системы (например, системы генерации отчетов). Системы извлечения частной информации работают обычно в зва этапа: сначала стандартная система информационного поиска выбирает подмножество документов, релевантных заданной теме (с помощью поисковой машины или вручную), затем на отобран- ном множестве работает собственно ИЧИ-система, отыскивая в каждом тексте описанные грамматикой шаблоны. Работы по созданию ИЧИ-систем получили интенсивное раз- витие в США в 1990-е гг. Например, подобная работа была вы- полнена на медицинских текстах в Нью-Йоркском университете (NYU). В последней декаде XX в. такой метод получил мощную поддержку: работы по ИЧИ-системам были объединены (на кон- курсной основе) серией конференций MUC (Message Understanding Conference) [см.: Hobbs, Appelt, Bear et al., 1996; Grishman, Simdheim, 1997]. Темы поиска, задаваемые организаторами MUC, отличались большим разнообразием. Это были корабли и их пара- метры, информация о террористах в Южной Америке, приобре- 185
тение контрольных пакетов акции, тема микроэлектроники, сно- ва обращение к терактам (MUC-4). В 1996 г. на повестке дня MUC объявлена программа оценки обнаруженной в текстах кореферент- ности объектов. Тема MUC-5 — совместные предприятия (joint ventures), MUC-6 — служебные перемещения (management successions). Приведем пример из одной работы по последней те- матике [см.: Collins, Miller, 1998]: Event Number Slot 1 IN OUT POST COMPANY 2 OUT POST COMPANY Filler Hensley E. West John Bradley president RESTOR INDUSTRIES Inc. Hensley E. West group vice president DSC Communications Corp. Этот фрейм был получен одной из систем — участников MUC-6 из следующего текста: 1 Restor Industries Inc. (Orlando, Fla.) — Hensley E. West, 50 years old, was named president of this telecommunications product concern. Mr. West, who most recently was a group vice president for DSi Communications Corp, in Dallas, fills a vacancy created by the retirement las September of John Bradley, 63. Кроме заполненных полей слотов собирается и дополнитель- ная информация (слоты причины должностных изменений, долж- ности вовлеченных лиц и др.). Указываются слова-«индикаторы» (IND = resignation) и те глагольные и именные группы, который выделены общелингвистическим этапом анализа (VERB = named NOUN = retirement). Технология работы этих систем, создаваемых целым сообщен ством участников MUC, такова: из свободного непрепарироваи ного корпуса ЕЯ-текстов отбирается (иногда вручную) подмаС' сив релевантных объявленной задаче текстов, формируется учеб' ный массив, на котором происходит «натаскивание» грамматики затем происходит ее проверка и отладка на другом, тестовом мае сиве. Только после всех испытаний собранная система запускаете: в работу на реальном массиве, и в таком «экзаменационном» ре жиме производится оценка ее основных параметров — проце: правильно собранных схем из общего числа релевантных и т. [см.: Grishman, Sundheim, 1997; Collins, Miller, 1998]. Девиз, который поддерживается инициаторами проекта: пол чить пусть небольшую, но надежную порцию информации. То1 ность обеспечивается тем, что искомая информация «добывается из ближайшего контекста, ограниченного предложением, а гл а ная опора — предсказанные способы морфолого-синтаксическо: выражения актантов заданной ситуации. В отдельных подзадач: 186
(например, узнавание именованных сущностей named entities) до- стигаются прекрасные результаты: 95 % полноты и 95 % точности. Искомые сущности — это такие текстовые единицы, которые локально сконцентрированы в тексте: упоминания именованных персон, организаций, географических мест, временных отрезков, дат и др., в состав которых входят параметры и их (часто) количе- ственные значения. Приемы анализа в ИЧИ-системах — лингвистические или вы- работанные в лингвистических экспериментах. Однако и связь с ПО, и связь с лингвистикой требуют оговорки. Никаких структур представления знаний ПО на входе не задается. Что касается линг- вистики, то, как правило, эти системы отказываются от всех лин- гвистических теорий, а опираются лишь на морфологически раз- меченные (тэгированные) корпусы текстов. Для каждой лексемы формируется в лингвистических терминах образец (pattern) ее по- ведения: сочетаемости с другими категориями или лексемами в текстах. Это объявляется своего рода поисковым предписанием. Даются подробные лингвистические спецификации, как запол- нять объявленные слоты. Активно используются также списки (Gazetteers) специфических для решаемой задачи лексем и слово- сочетаний. Это могут быть не только перечни собственных имен географических объектов, но и перечни имен организаций, пер- сон, а также разнообразных слов-индикаторов. Среди них могут быть предлоги или другие слова: например, господин, мистер, ука- !ывающие на следующее за ним имя объекта, которым можно !аполнить слот. Все такие элементы могут фигурировать в грамма- тических правилах, в том числе тэги слов, которые можно пропу- стить при анализе текста. Больше всего этот метод напоминает ранние системы машин- ного перевода с их «частными алгоритмами» обработки и перево- да: на лексических ли цепочках (corpus-derived finite-state patterns to lexical sequences) или на основе частных синтаксических структур (поверхностный, свободный от какой-либо теории синтаксис). В некоторых работах вводится и используется понятие обоб- щенной ИЧИ-системы, в составе которой перечисляются основ- ные модули, которые в том или ином виде присутствуют в ряде ИЧИ-систем; их, как кубики, можно по-разному комбинировать и развивать, создавая новые системы этого типа [см.: Hobbs, Appelt, Bear et al., 1996]. Перечислим их: 1) деление текста на множество сегментов; 2) деление текста или сегментов на последовательность пред- ложений (это препроцессор); 3) фильтрация: часть предложений, не релевантных для зада- чи, отбрасывается; 4) просмотр последовательности лексем и попытка идентифи- цировать надежно определяемые структуры; 187
5) анализ (parsing), выдаются фрагменты деревьев, полные или неполные; 6) попытка объединить эти фрагменты в структуру целого пред- ложения; 7) сбор семантической структуры или логической формы се- мантическим интерпретатором; семантическая интерпретация оп- ределяется как отображение {mapping) синтаксической структуры на семантическую, заданную шаблоном; 8) снятие лексической неоднозначности (у каждой лексемы остается по одному значению); 9) установление кореферентных связей (идентифицируются разные описания одной сущности); 10) генерация ИЧИ-структур {templates) из семантических структур. Системы ИЧИ еще не вышли на промышленный уровень, но они уже имеют Потенциальный круг пользователей: например, многим организациям нужна информация о том, акций приобретено в данный временной период. сколько пакетов Фирма «Lloyd London» должна ежедневно получать информацию о том, сколько затонуло кораблей во всем мире (сейчас работают эксперты, со- бирающие информацию из всех газет на всех языках). Нужна она и простым пользователям: например, если кто-то хочет узнать, ка- кие фильмы (из состава 25 TV-каналов в США) предпочитает его любимый TV-критик, он не сможет узнать это из ИПС, а должен обратиться в ИЧИ-систему, которая подберет шаблон из слов, обозначающих хорошую или высокую оценку. Следующей стадией за ИЧИ называют Data Mining — систему с механизмом обучения, которая суммирует добытую информацию. Переводом специальной информации на язык БД занимаются и в отечественных системах, например, в составе систем ЭТАП и др., но не в таком масштабе и серьезном комплексе, как в MUC [см.: Янко, 1988; Семенова, 1991; Леонтьева, Семенова, 2001; Kuznetsov, Matskevich, 2002]. Один из вариантов идеи ИЧИ по идеологии GATE развивается в ВЦ РАН [см.: Khoroshevsky, 2003]. Но русские тексты труднее поддаются шаблонизации, они требу- ют не столько эмпирических методов, сколько системного анали- за, учитывающего и динамику развертывания единиц в связном монотематическом тексте. * * * На настоящий момент системы АПТ были вытеснены система- ми типа ИЧИ. Бурное развитие систем извлечения частичной ин- формации было подготовлено ранними (начиная с 50-х г. XX в.) работами по информационным системам, с одной стороны, й полными лингвистическими (в основном синтаксическими) мо-1 188
делями анализа предложений, с другой стороны. ИЧИ — более про- стая задача, чем понимание целого текста, так как семантика си- стемы ограничивается заданными заранее списками и шабло- нами. ИЧИ-системы обеспечивают построение «специальных объек- тов», которые поддаются формальному обнаружению и которые приближают нас к анализу целого текста. Спецобъекты — это одна из простых разновидностей полноценных семантических узлов, построение которых было заложено в систему ПОЛИТЕКСТ и включено в концепцию создания Базы текстовых фактов. Что касается описанного выше тематического анализа (ТемАн), то его тоже можно считать процессом извлечения частичной ин- формации, той, которая выражена в тексте терминами или близ- кими к ним образованиями. Темы можно формировать двумя раз- ными способами, приводящими к двум разным результатам: а) тезаурусный подход построит ТемП как перечень (или бо- лее организованную структуру) объектов, специфических для дан- ного типа текстов; б) лингвистический путь построит ТемП как совокупность (или иерархию) единиц типа СИТ (ситуаций). Тот и другой путь определения основных тем документа опира- ется на свойство связности текста, но использует разные инстру- менты. Построение ТемП первого типа описано на примере рабо- ты системы УИС РОССИЯ. В этой системе были сконцентрирова- ны и развиты многие лингвистические наработки, заложенные в системе ПОЛИТЕКСТ [см.: Леонтьева, 1995]. В принципе два пути — Тематический анализ и Ситуативный анализ — должны дополнять друг друга в составе полной системы АПТ: ведь нужна не только связность по терминам, но и связность по развитию ситуации. И оба подхода могут быть дополнены более современ- ными механизмами, как это описано в работах последних лет по развитию информационных систем [см.: Ступин, 2004]. Литература Автоматизация индексирования и реферирования документов // Итоги науки и техники. Серия «Информатика» / Под ред. В. И. Горьковой. — М., 1983.-Т. 7. Белоногов Г. Г., Шемякин Ю. И., Новоселов А. П. и др. Ав- томатическое индексирование документов и запросов // НТИ. — М., 1973. - Сер. 1. - № 7. - С. 17-25. Б ер зон В.Е. Об одном подходе к проблемам автоматического ре- ферирования и автоматического свертывания индексируемых текстов // НТИ. - 1971. - Сер. 2. - № 10. - С. 16-21. Гиндин С.И., Леонтьева Н.Н. Задачи и общее строение систе- мы автоматического индексирования с использованием информацион- 189
ного языка словосочетаний // Вопросы информационной теории и прак- тики - М., 1975. - № 27. - С. 88-93. Гиндин С.И., Стол бова О. В., Гуре в ич А.Е. Образование сло- восочетаний и построение окончательного поискового образа документа при использовании информационного языка словосочетаний // Вопро- сы информационной теории и практики. — М., 1975. — № 27. — С. 99 — 109. Гиндин С.И. Методы автоматического фрагментирования текста, опирающиеся на характеристики внутреннего состава фрагментов. По- пытка теоретического анализа // Семиотика и информатика. — М., 1977. — Вып.9.-С. 35-82. Добронравов И.С., Лахути Д.Г., Лескисс Г.А. Об одном под- ходе к разработке автоматизированной ИПС с грамматикой (постановка задачи и общие принципы решения) // НТИ. — М., 1973. — Сер. 2. — № 6. Добронравов И.С., Лахути Д.Г., Рубашкин В. Ш. и др. Син- таксис как средство смыслообразования в документальных ИПС с авто- матическим индексированием // НТИ. — М., 1981. — Сер. 2. — № 3. — С. 17-24. Кросс Р.К., Гарден Ж.К., Леви Ф. Синтол — универсальная модель системы информационного поиска. — М., 1968. Лахути Д. Г., Федоров Е.Б., Добро нравов И. С и др. Автома- тическое индексирование текстов в документальных ИПС // Кибернети- ческая лингвистика. — М., 1983. — С. 84—95. Лахути Д. Г. и др. Автоматизированные документальные ИПС: сис- тема «СКОБКИ». - М., 1985. Леонтьева Н.Н. ПОЛИТЕКСТ: информационный анализ полити ческих текстов // НТИ. — М., 1995. — Сер. 2. — № 4. Леонтьева Н.Н., Семенова С.Ю. Инструменты построение фрейма ПЕРСОНА// НТИ. - М„ 2001. - № 8. - Сер. 2. - С. 9-20. Лукашевич Н.В., Садий А. Д. Тезаурус для автоматического ин дексирования и реферирования // НТИ. — 1996. — Сер. 2. — №1. Лукашевич Н.В., Добров Б.В. Построение структурной тема тической аннотации текста // Труды Международного семинара ДИА ЛОГ-1998. - М., 1998. - Т. 2. - С. 795-802. Лукашевич Н.В., Добров Б.В. Тезаурус для автоматической концептуального индексирования как особый вид лингвистической ресурса // Труды Международной конференции ДИАЛОГ-2001. — М. 2001.-Т. 2.-С.273-279. Пархоменко В.Ф. Система автоматического индексирования до кументов СКОБКИ ОС ЕС // Методические материалы и документации по пакетам прикладных программ. — М., 1983. — Вып. 23. Пащенко Н.А., Иванов В.С., Кнорина Л.В. и др. Автомати ческий словарь в экспериментальной системе автоматического индекси рования текста // Вопросы информационной теории и практики. — М. 1974.-Вып. З.-С. 11-20. Пащенко Н.А., Кнорина Л. В., Молчанова Т. В. и др. Авт< матизация индексирования и реферирования документов // Итоги н: уки и техники. Серия «Информатика» / Под ред. В. И. Горьковой. М., 1983.-Т. 7.-С. 7-164. 190
Перцова Н.Н. Автоматические системы типа «вопрос-ответ», ра- ботающие с естественным языком: история, современное состояние, перспективы // Прикладная лингвистика. — 1976. — Вып. 18. Пиотровский Р.Г., Беляева Л. Н., По песку л А. Н. идр. Про- блемы автоматизации индексирования и реферирования // Итоги на- уки и техники. Серия «Информатика» / Под ред. В. И. Горьковой. — М., 1983. - Т. 7. - С. 165-245. Приходько С.М., Скороходько Э.Ф. Автоматическое рефе- рирование на основе анализа межфразовых связей // НТИ. — М., 1982. — Сер. 2. - № 1. Рубашкин В.Ш. Представление и анализ смысла в интеллектуаль- ных информационных системах. — СПб., 1992. Рылова Т. Н. P-технология и АИПС // Методы и опыт проектирова- ния и построения автоматизированных информационных систем. — Киев, 1981.-С. 102-110. С е в б о И. П. Структура связного текста и автоматизация рефериро- вания. — М., 1969. Семенова С.Ю. Алгоритм извлечения информации о параметрах из текстов рефератов и первичных документов // НТИ. — М., 1991. — Сер. 2. — № 6. Скороходько Э.Ф. Автоматический перевод на информационный язык с текстуальными отношениями («автоматическое индексирова- ние») // НТИ. - М., 1969. - Сер. 2. - № 5. Скороходько Э.Ф. Лингвистические основы автоматизации ин- формационного поиска. — Киев, 1972. Сомин Н.В., Соловьева Н.С., Соловьев С.В. Система руб- рикации текстовых сообщений // Труды Международного семинара ДИАЛОГ-1998. - М., 1998. - Т. 2. - С. 574-581. Ступин В. С. Система автоматического реферирования методом сим- метричного реферирования // Труды Международной конференции ДИАЛОГ-2004. - М„ 2004. Янко Т. Е. Модели перевода с естественного языка на язык баз дан- ных: Автореф.... канд. филол. наук. — М., 1988. Collins М., Miller S. Semantic Tagging using a Probabilistic Context Free Grammar // Proceedings of the Sixth Workshop on Very Large Corpora. Ed. E.Chamiak. COLING-ACL’98. — Montreal, 1998. — P. 38—48. Cunnigham H. Named Entity Recognition // Tutorials. International Conference «Recent Advances in Natural Language Processing» (RANLP- 2003). — Borovets, 2003. Grishman R., Sundheim B. Message Understanding Conference-6: A Brief History // Proceedings of the 16th International Conference on Computational Linguistics. — New Brunswick, New Jersey, 1997. H оbb s J. R., App e 11 D., В e a r J. et al. FASTUS: Extracting Information Irom NL Texts. FASTUS: A Cascaded Finite-State Transducer for Extracting Information from Natural Language Text. — 1996. International Conference «Recent Advances in Natural Language Processing» (RANLP-2003). - Borovets, 2003. Khoroshevsky V. F. Shallow Ontology-Driven Information Extraction liom Russian Texts with GATE. // Workshop on Information Extraction for 191
Slavonic and other Central and Eastern European Languages (IESL-2003). — Borovets, 2003. Kuznetsov I.P., Matskevich A.G. System for Extracting Semantic Information from Natural Language Text // Труды Международной конфе- ренции ДИАЛОГ-2002. - М., 2002. Leontyeva N., Semenova S. Lexical Resources for Personal Data Recognition in Texts // Workshop on Information Extraction for Slavonic and other Central and Eastern European Languages (IESL-2003). — Borovets, 2003. Mani I. Automatic Summarization. — 2001. j Workshop on Information Extraction for Slavonic and other Central and Eastern European Languages (IESL-2003). — Borovets, 2003. j
ГЛАВА 10 СИСТЕМЫ ГЕНЕРАЦИИ ТЕКСТА Системы генерации текстов обеспечивают автоматическое по- рождение связных текстов на естественном языке, они призваны донести до пользователя в привычной для него форме текста со- держимое накопленных в ЭВМ знаний, причем в том объеме и с гем фокусом внимания, который задан пользователем. Эта разно- видность систем искусственного интеллекта возникла в 1970-е гг., но получила бурное развитие лишь в последнюю декаду XX в. В центре внимания ГТ-систем оказалось планирование и построе- ние именно связного текста, т.е. понадобилось практическое ре- шение проблем дискурса и дискурсивных стратегий, которые по- шоляют строить правильную коммуникативную структуру каж- дого генерируемого предложения, тем самым обеспечивая «хоро- ший текст» на выходе. Системы генерации текстов уточнили тре- бования к результатам анализирующих систем АПТ. Работа процессоров СГТ начинается с «планирования» текста (определение содержания и структуры будущего текста) и конча- с гея выбором адекватных способов его выражения в тексте. Входом в СГТ могут быть базы данных и знаний, разнообраз- ные семантические и концептуальные структуры текста, схемы и тблицы и даже мультимедийные объекты (рисунки и т.п.), из которых пользователь хочет извлечь информацию сразу в словес- ном виде. Реализация СГТ потребовала новых (относительно систем АПТ) кюретических моделей. Получила широкую популярность теория риторических структур {Rhetorical Structure Theory — RST), пред- ложившая в определение межфразовых связей включить автор- i кие установки, ориентированные на их восприятие адресатом [см.: Mann, Thompson, 1987]. Это означало, что на смену «плоским» Мювневым моделям АПТ пришли «объемные», включенные в си- лицию общения, учитывающие цели и установки пользователя, вводящие модели «фрагментов действительности» {Domain models) и привлекающие экспертов по знаниям; появляется диалог с ав- юром текста и адресатом информации; большая роль в СГТ отво- 1ится новому компоненту, называемому Планировщиком текста. 1 !1еонтьева 193
В обзорной работе Е.Г.Соколовой и М.В.Болдасова даются ат- тестация и классификация 16 систем ГТ, в основном экспери- ментальных моделей, в которых рассматриваются относительна простые ситуации [см.: Соколова, Болдасов, 2004]. Простые СГТ работают с табличной формой представления данных (преимуще- ственно снабженных числовыми параметрами) и выдают в каче- стве результата отчеты или короткие ответы по содержимому базы Выбор типа выходного текста зависит от состава исходной струк туры и типа вопроса к базе данных. На общий вопрос о содержа нии БД генерируется текст, описывающий состав самой БД. Н вопросы относительно конкретных сущностей система может вы дать определения основных объектов базы данных, составленньи с учетом множества имеющихся в БД параметров запрошенно: объекта. Пользователь может запросить, как действует такая-’: деталь устройства как одного из объектов БД, тогда СГТ nocrpoi текст объяснения. Некоторые системы выдают тексты инструкщ (как пользоваться изображенным на экране прибором или чг нужно сделать, чтобы устранить названные дефекты некоторо! технического устройства). Из БД с динамически обновляющейс: информацией можно получить тексты новой информации по ре зультатам сравнения каких-то показателей (текущего и предыду щего периода или полученных из разных источников и т.п.) в составе экспертных систем генерируются тексты объяснений 1 инструкций, использующие для этого правила вывода. Самые известные (к тому же первопроходцы) из систем ГТ - это TEXT; TRANSLATOR, КВМТ-89, DIOGENES; SEMSYN SPOKESMAN, Mumble-86; GOSSIP, FoG, LFS [cm.: McKeow 1988; Nirenburg, 1987; Roesner, 1987; Meteer, 1992; Kittredge, 199 lordanskaja, 1992]. Проводятся экспериментальные работы така и в России [см.: Соколова, Шаров, 1998]. § 49. Компоненты СГТ Процесс генерации текста в ответ на вопросы к базе дани: или базе знаний проходит две стадии. Первая определяет содер» ние и структуру ответа, т. е. решает, что надо отвечать, это стр тегический компонент, его еще называют Планировщиком те ста. Вторая стадия — лингвистический (или тактический) komi нент — определяет, как строить сам текст ответа, какие ческие, синтаксические и коммуникативные средства ЕЯ леке для оформления ответа. Управляющая ими программа определяет назначение СГТ и рактер базы знаний, из которой берется информация. Она ини: ирует процесс генерации и определяет цели, которые долж быть достигнуты: например, изложить содержимое базы знани 194
виде текста, дать объяснение какой-то функции, выдать опреде- ление какого-то объекта. Планировщик определяет пути достижения поставленных це- лей: а) выбор информации, которая должна быть выражена или опущена; б) определение способа оформления ответа (перечень объек- тов, описание события); в) структурирование текста: задание границ и порядка следо- вания предложений; г) выбор лексики; д) оформление отношений кореференции (анафора, эллип- сис); е) выбор и порядок синтаксических составляющих. Все эти задачи взаимосвязаны и комбинируются по-разному разными СГТ. План текста строится на основании какой-либо риторической схемы. Для стереотипных текстов она может быть задана последо- вательностью риторических предикатов, определенной для текста в целом. При этом для каждого типа текстов существует своя схе- ма. Например, для объяснительных текстов характерна схема иден- тификации, а при создании отчетов о «состоянии дел» выбирается риторический принцип от общего к частному. В более мягком ва- рианте план текста строится на основе или с частичным исполь- юванием RST-теории. Одна из первых крупных работ, использо- вавших на практике и развивающих RST-теорию, была выполне- на К.Маккьюин и отражена в ее диссертации «Text Generation» |см.: McKeown, 1988]. Лингвистический компонент порождает тексты в соответствии • о спецификациями Планировщика. Он должен обеспечивать । рамматическую правильность предложений. В его компетенцию входят линеаризация, синтаксический и морфологический синтез. В принципе эти три последние функции могут быть заимствованы я 1 систем машинного перевода. Но ряд систем ГТ стремится к полыней естественности процесса порождения (ведь человек при- нимает решение о том, какой материал включить в предложение, ч процессе говорения), поэтому иногда названные функции сложно переплетены, а лингвистический компонент может начинать ра- ми гать внутри планировщика. Учет коммуникативной организа- ции, заданной в исходной концептуальной структуре, существенно >ищяет на выбор синтаксической организации предложения и да- не лексического материала. Специфика, структуры и логика работы каждой системы могут ипественно варьироваться в зависимости от конкретной исход- ной структуры и состава ресурсов. Так, лингвистическое обеспе- '< ние систем генерации GOSSIP, FoG и LFS построено по мо- 195
дели «Смысл <=> Текст». GOSSIP строит тексты аннотаций на ан-' глийском языке на базе протоколов работы операционной систе- мы (цель — защита ОС от несанкционированного доступа) [см.: Carcagno, lordanskaja, 1989]. Другая система — LFS [см.: lordanskaja, 1992] — генерирует отчеты на английском и французском языках на основе БД по статистической информации о занятости населе- ния. Система FoG [см.: Kittredge, 1994], работающая в промыш- ленном режиме, будет более подробно описана ниже. Она вырос- ла из единственной полностью автоматической системы МП TAUM-МЕТЕО, переводившей сводки погоды с английского язы- ка на французский. Сейчас тексты на английском и французском языках генерируются системой FoG одновременно, что очень важно для двуязычной Канады. § 50. Схемы процесса генерации текстов В качестве типовой схемы многоязычных СГТ приведем схему архитектуры двуязычной LFS-системы; добавление еще других языков отразится на лингвистических компонентах, включающих межъязыковой словарь, лексикон и грамматику (схема 4). Система DRAFTER (схема 5) предназначена для создания про- ектов инструкций на французском и английском языках по ис- пользованию многооконных компьютеров и содержит три круп- ных компонента — базу знаний и два процессорных компонента: интерфейс с автором {Author Interface) и средства генерации {Drafting Tool). База знаний, в свою очередь, состоит из трех частей: верхняя модель {Upper Model) — это онтология, описывающая объекты, про- цессы и свойства, их различия и т.д.; модель ПО {Domain Model) — многоуровневая структура, на высшем уровне которой кодируются понятия и отношения, общие для всех инструкций, а на самом нижнем — специфические для данной ПО объекты и операции (например, окно, кликнуть, открыть); Proc./Desc. Instances — это имена конкретных процедур и описаний, упоминаемых в инструк- ции, автор соединяет их (в интерактивном режиме) с единицами двух верхних уровней [см.: Multilingual Text Generation..., 1995]. Приведем один пример входа в СГТ. Система SUMMONS {SUMMarizing Online NewS articles) суммирует содержание многих газетных сообщений на одну тему (в данном примере — терро- ризм), при этом учитываются изменения описываемого события во времени [см.: McKeown, Radev, 1998]. За основу берутся не тексты на ЕЯ, а уже готовые фреймы (созданные автоматически из текстов другой системой). Система суммирует их, задавая со- держание будущего текста (стратегический компонент: content planner), на эту часть задачи работает несколько операторов (на- пример, противоречие, добавление, нет новой информации и др.) в 196 !
Схема 4 Texts Схема 5 197
используемом специальном формализме. Так, в двух приведенные ниже фреймах (на входе было всего 4 фрейма, но два другие были отброшены как дублирующие) обнаружилась противоречивая информация: два разных источника (PRIMSOURCE SECSOURCE) и два различающихся значения поля «человече ские жертвы»: по крайней мере 5 и просто 5. Система выбирает второй источник (так как он поступил позже по времени) и вто рое значение поля «человеческие жертвы», а именно 5. В сгенери рованный текст лингвистический процессор вставляет уточняю щее ключевое слово exactly. 5 (ровно 5). MESSAGE: ID PRIMSOURCE: SOURCE PRIMSOURCE: DATE INCIDENT: DATE INCIDENT: LOCATION INCIDENT: TYPE HUM TGT: NU MBER MESSAGE: ID SECSOURCE: SOURCE SECSOURCE: DATE INCIDENT: DATE INCIDENT: LOCATION INCIDENT: TYPE HUM TGT: NUMBER TST-COL-OOOl Reuters 26 FEB 93 EARLY AFTERNOON 26 FEB 93 WORLD TRADE CENTER BOMBING AT LEAST 5 TST-CGL-0002 Associated Press 26 FEB 93 19:00 26 FEB 93 WORLD TRADE CENTER BOMBING 5 § 51. Использование риторических структур в С ГТ Хотя аппарат RST считается независимым от естественногс языка, к которому он применен, сам набор отношений (а они заданы списком) и тем более способы их выражения определяют- ся подъязыком выбранной предметной области. Покажем его ис- пользование применительно к подъязыку технических руководств в русских текстах [см.: Sharoff, Sokolova, 1995]. С одной стороны, любые технические описания следуют коммуникативным целям: предупреждение, запрещение, условия, советы, описание последо- вательности действий и т.п., которые реализуются в текстах дос- таточно регулярными средствами. С другой стороны, учебники или руководства по техническим устройствам имеют свою специфи- ческую структуру: каждый раздел в них описывает манипуляции с разными деталями устройства; часто это сводится к трем опера- циям над ними — поддержание, настройка и использование, а из- ложение развивается как процесс — шаги процесса. К этому нужно добавить специфику именно русской традиции построения тек- ста: рекомендации (например, предупреждения) не обращаются 198
непосредственно к читателю, а даются в безличной форме так, как будто это не инструкция, а описание законов технического мира. Как пример приведен пассаж из Руководства по гидравли- ческой системе ТУ-104: В начале работы после запуска двигателя на земле при охлажденной жидкости до температуры ниже -35°C... необходимо произвести разогрев жидкости гидросистемы до температуры выше -35°С..., включив кран коль- цевания выключателем КК на панели наземной подготовки на щитке ГИД- РОСИСТЕМА. Электрическая схема включения крана кольцевания пред- ставлена на рисунке. В этом тексте нарушены требования непрерывности отрезков (adjacency of spans), которые надо соединить при анализе задан- ными риторическими отношениями. Тот же текст можно перепи- сать так, чтобы риторические отношения были выражены в яв- ном виде, как и в параллельном английском тексте: Если [температура жидкости гидросистемы ниже -55 °C] 1 [необходи- мо произвести ее разогрев] 2 до [температуры выше -55 °C] 3. Для этого [в начале работы] 4а [после запуска двигателя] 4Ь [на земле] 4с [включить кран кольцевания выключателем КК] 5, [находящимся на панели наземной подготовки на щитке ГИДРОСИСТЕМА] 6. [Электрическая схема включе- ния крана кольцевания представлена на рисунке] 7. If [temperature of the liquid in hydraulic system is below -35 °C] 1, [it should be heated] 2 to [the temperature above -35 °C] 3. To achieve this, [after starting operations] 4a [after lighting the jet] 4b [on the ground] 4c [turn the circulation mode on by the switch CM] 5 [which is placed on the «ground operations» board of the HYDRAULIC SYSTEM panel] 6. [The electric circuit for turning the circulation mode on is shown on the drawing] 7. На схеме 6 дано общее для двух языков, т. е. языково-независи- мое, их представление. Перечислим RST-отношения, использо- ванные для описания риторической структуры данного текста, и те отрезки (или фрагменты), которые ими соединены. Отношение CONDITION (Условие) соединяет предложение 1 с отрезками 2 и 3, которые, в свою очередь, объединены отноше- нием UNTIL (До какого-то предела). Отношение ENABLEMENT (Способ осуществления) устанавливается между фрагментом 4—7 и объединенным фрагментом 1 — 3. 199
Отношение SEQUENCE {Последовательность) — многоядер» ное, а весь фрагмент 4 служит PRECONDITION (Предусловием^ для отрезка 5 — 6, который в свою очередь соединил два предло» жения 5 и 6 отношением CIRCUMSTANCE (Обстоятельства), Дополнительная информация из предложения 7 тоже присоеди- няется к отрезку 5 — 6 отношением ELABORATION (РазвштЦ темы). На приведенном примере видно, что чем точнее и эксплицит- нее описаны в тексте действия над объектами, тем легче постро- ить концептуальную структуру как фрагмент базы знаний, даю- щей общую основу для многоязычной генерации. Но использова- ние таких риторических предикатов (авторы называют их отноше- ниями) гораздо легче реализовать при генерации текста (они и были для этого предложены), чем обнаружить при анализе. Следует упомянуть еще две разработки, создаваемые в инст- рументальной среде InBase под руководством А. С. Нариньяни (РосНИИ искусственного интеллекта). В системе AGILE описаны средства моделирования начальной: генератора русского языка в сравнении с английским [см.: Соко- Схема 1 200
гюва, Шаров, 1998]. Подход основан не только на совместимости по входным спецификациям, но и на лингвистически единой процедуре генерации текстов на разных языках, что требует их согласованного (контрастивного) описания. В том же коллективе создается многоязыковой генератор QGen, обрабатывающий пользовательские запросы на русском, англий- ском и немецком языках и легко адаптирующийся к смене ПО |Болдасов, 2004]. Выше приведена схема генерации, поддержива- емая инструментальными средствами InBase (схема 7). § 52. Описание системы FoG FoG — двуязычный генератор отчетов, который строит тек- сты сводок погоды (стандартных и специального назначения) непосредственно из графических изображений. В задаче преобразования данных в текст участвуют три компо- нента: а) извлечение исходных данных; б) концептуальная обработка данных; в) лингвистический компонент. Извлечение исходных данных для СГТ FoG. Еще до вызова си- стемы FoG поток информации (прогноз погоды) квантуется на временные ряды (каждый содержит от 48 до 60 ч), и ежечасно доступные графики (погодные карты). Реально в основной систе- ме хранится намного меньше карт (за 48 ч всего 5 карт), все про- межуточные могут быть получены программно по запросу. Каж- дый район прогнозирования представлен от одной до четырех пар показателей географической широты/долготы. На запрос о значениях метеорологических полей в заданной точке (например, температура воздуха) FoG обращается к про- грамме выборки (Sampler), которая считывает с интерполирован- ных карт нужные значения полей для этой географической точ- ки, распределенные по временному ряду, и возвращает их в сис- тему FoG. Концептуальная обработка данных в FoG. Ее проводит эксперт- ная система, которая путем выполнения многих автоматических процедур переводит таблицу конкретных данных в более компакт- ное и более абстрактное концептуальное представление. Роль эк- сперта-синоптика и его субъективные оценки система стремится свести к минимуму. Так, для построения одного морского про- । ноза погоды требуется 76 выборок. Первичный прогноз содер- жит более 15 тыс. значений данных. На первом этапе требуется минимизировать эту огромную порцию информации, сведя ее к небольшому количеству важных событий (events). Синоптики обычно ограничиваются в прогнозе количеством 5 — 7 парагра- 201
фов примерно по 6 событий в каждом, т.е. на выпуск одного прогноза приходится 35 — 45 событий. Процесс выбора события1 (того, о чем сообщать) зависит от типа прогноза (общий, мор- ской: для первого важны облачность и осадки, для второго — ско- рость и направление ветра) и от региональных особенностей — здесь возможно много вариаций. Операция совмещения событий по времени и по месту (time and space merging) позволяет выявить существенные изменения в погодных условиях в одной и той же точке. Эта же операция используется для верификации прогно- зов. Концептуализация данных, которая происходит на этом эта- пе, стремится к минимизации количества концептов. Так, на- правление ветра в 235° (degrees) можно классифицировать как юго-западное, западное и южное. Эксперт делает выбор в пользу минимальных переходов и меньшего количества концептов в структуре; это ведет и к сокращению текста прогноза. Сжатие происходит также за счет обобщения конкретных данных. Экс- перт-синоптик располагает программой-редактором, которая позволяет делать поправки, но не в горячем режиме ответа на запросы. Лингвистический компонент FoG. Он получает на входе неупо- рядоченное и неструктурированное множество концептов и дол- жен получить на выходе сообщения на двух языках, гладкие с лингвистической и профессиональной точек зрения. Этот компо- нент состоит из двух стадий: а) планирование текста; б) реализация текста. Текстовый планировщик обогащает неструктурированное мно- жество концептов дополнительными производными концептами и затем делит на фрагменты, равные предложению, определяя и порядок их следования. Это, по сути дела, абстрактные специфика- ции содержания каждого предложения — автор называет их струк- турой интерлингвы, которая подается на вход этапа реализаци] текста. С каждой структурой предложения работают грамматиче ский и лексический модули. Английский и французский реализа торы работают независимо, но используют один и тот же грамма тический формализм и стадии генерации, что возможно благодар. структурной близости этих двух языков. Лингвистические модул] основаны на теории «Смысл <=> Текст» И. М. Мельчука и ее структур ных представлениях. Так, например, из одной концептуально! структуры строятся два предложения (англ. — 1 и франц. — 2). 1. Winds southwest 15 to 20 knots diminishing to light late this evening. 2. Vents du sud-ouest de 15 a 20 noeuds diminuant a faibles tard ce soir. Более подробно с лингвистической точки зрения этапы пла нирования и построения текста (на материале системы GOSSI 202
рассмотрены в работе Л.Иорданской [см.: lordanskaja, Kim, Kittredge et al., 1992]. В основе лежит та же лингвистическая модель. В центре внимания описания СГТ GOSSIP — организа- ция темо-ремной структуры в лингвистическом модуле и пост- роение правильной коммуникативной структуры генерируемых предложений. § 53. Сравнение систем МП и ГТ В задаче СГТ сконцентрировались достижения в области МП, теории текста (теории речевых актов, актуального членения, ве- дения диалога и др.), экспертных, диалоговых и других систем класса «искусственный интеллект» (ИИ). Развиваемые до этого методы перевода и ЕЯ-синтеза отдельных предложений (как в системах машинного перевода) не вполне адекватны задаче ГТ. Больше всего работ по созданию СГТ, причем на высоком уровне, ведется в США и Англии — странах, где машинный перевод не так актуален (ввиду универсальности английского языка), а баз данных и баз знаний создано уже очень много. Новая парадигма — построение базы данных или иной струк- туры (в том числе графа, рисунка и т.п.) на основе анализа цело- го текста и последующее развертывание содержания всей или ка- ких-то аспектов структуры в новые тексты — стала заменой тра- диционному пути машинного перевода текста. Назовем только один из стимулов развития такого раздельного подхода к пониманию исходного документа и генерации новых текстов. Развитие науки — это не столько процесс накопления информации, сколько про- цесс непрерывного обновления, «известные данные сливаются с новыми данными, переписываются и по-новому интерпретиру- ются с точки зрения новых теорий» [Брукс, 1973]. При незначи- тельном изменении и дополнении текстов новыми деталями, на- пример разных руководств по техническому обслуживанию аппа- ратов, легче внести изменения в структуры и снова запустить СГТ, чем создавать новые текстовые описания и использовать тяжело- весную конструкцию СМП. А если речь идет о тиражировании до- кумента на разных языках и с разными требованиями к результату, то тем более важно иметь самостоятельные системы, генерирую- щие тексты из любых источников (в том числе невербальных). Решение задач СГТ в полном объеме пока недостижимо — хотя бы потому, что нет общей теории семантики, прагматики, нет и общепринятого метаязыка семантических и концептуаль- ных структур текста, из которых можно генерировать тексты на разных ЕЯ. Это проблемы в основном семантического характера, они же (но не только они) тормозят и развитие машинного пе- ревода. 203
§ 54. Концептуальные vs. семантические структуры текста в СГТ В основу многоязычных систем ГТ положено разделение на язы- ково-независимые представления содержания текста и зависимые от языка лингвистические структуры и методы их обработки. Пер- вые чаще называют концептуальными, вторые — семантически- ми структурами. Но эта терминология еще не устоялась. Так, в системах GOSSIP, FoG и LFS концептуальной структурой объяв- ляется семантическое представление текста (см. схему 4). Ее стро- ит Планировщик в диалоге с базой знаний, диалог ведется не без помощи экспертов. В системе GOSSIP исходные установки задает концептуальная структура, извлекаемая из компьютерных прото- колов (службы безопасности операционной системы). В системе LFS исходные установки для планировщика задает вопрос пользо- вателя, он же определяет, что должно быть главным в генерируе- мом ответе, в соответствии с этим строится лингвистическое СемП, далее работают два параллельных лингвистических про- цессора. Авторы проекта DRAFTER считают, что технология СГТ пред- почтительнее Интерлингвы при МП, так как СГТ позволяет уже на стратегическом этапе, т. е. на уровне выбора содержания Пла- нировщиком, задавать различные концептуальные структуры для разных языков. Для некоторых жанров текстов, например инст- рукций, каждая языковая культура диктует свои способы подачи и развертывания материала; авторы иллюстрируют это четырьмя текстами (на английском, французском, немецком и итальян- ском языках) объяснений на одну тему (как надо правильно под- бирать обувь), различающимися по составу включенной инфор- мации, по фокусу внимания и т. п. Это мнение лишний раз под- черкивает разброс в определении концептуальных и семантиче- ских структур. В работе Р. Киттреджа обсуждается сама проблема языка-по- средника (интерлингвы) для многоязычной СГТ. Это должен быть более гибкий язык с более широкими возможностями его исполь- зования для разных других целей (не только для структурно по-] добных языков); он должен больше стыковаться со специальными подъязыками и знаниями, т. е. быть более концептуальным; он дол-i жен быть близким к естественному языку, но в то же время быть] достаточно упрощенным, чтобы выражать общие для всех ЕЯ ка-| тегории; должен иметь степень дробности, позволяющую выра-] зить разное семантическое поведение в разных ЕЯ; быть гибким d точки зрения новых приложений; должен иметь интуитивно по-1 нятную нотацию и т.п. [см.: Kittredge, 1995]. Имея методологию! построения интерлингвы, можно также лучше управлять ресурса-! 204 1
ми, которые предоставляет корпусная лингвистика. Р. Киттредж делает вывод, что искомое СемП должно быть похожим на семан- тические сети модели «Смысл <=> Текст», в структуре которых кроме очевидных и всем известных достоинств отображается темо-рем- ная организация, что очень важно для систем генерации, улучша- ет стилистические качества текста, в частности помогает строить правильные перифразы. * * * В СГТ реализуется особый вид понимания, в котором объек- том понимания является какая-либо искусственная структура, для нее заданы правила ее считывания, а результаты должны быть выданы пользователю в виде понятного текста на его языке. Тем самым в ГТ-системах de facto используется принцип «текстово- сти» (см. гл. 1). Информацией признается лишь такая порция све- дений из базы данных или базы знаний, которой можно придать форму правильного текста на естественном языке. Этапу оформ- ления выходного текста предшествует этап информационного син- теза: нужно отобрать из базы то содержание, которое составит ответ на вопрос к базе (стратегический компонент), затем задать его поверхностное выражение (тактический компонент). Очевид- но, что установка на построение хорошего, отвечающего нормам языка, текста в тактическом компоненте предъявляет определен- ные требования к составу и структуре исходной базы знаний: она должна содержать все сведения, необходимые для построения нор- мального текста. Очень сложная техника генерации естественного связного тек- ста на выходе систем ГТ часто объясняется отсутствием нужных расчленений информации, поступающей в базы данных. Знания, извлекаемые из текста, должны быть полноценными для всех тех внешних пользователей, которым эти знания нужны. Это лишний раз подчеркивает необходимость адекватного представления и ре- левантной обработки явлений связного текста на уровне его ана- лиза, понимания и предъявляет особые требования к языку, на котором представлены структуры, являющиеся исходными для СГТ и конечными для систем АПТ. На наш взгляд, этот промежуточ- ный язык должен быть языком представления знаний, но его окон- чательный вид еще не выработан. Литература Болдасов М.В. Разработка прикладных систем генерации типовых текстов на ЕЯ на основе представления информации на языке XML // Труды Международной конференции ДИАЛОГ-2004. — М., 2004. 205
Брукс Б. С. Старение научной литературы // Проблемы информа-, тики: Сборник статей, МФД 478. — М., 1973. — С. 74—102. I Иорданская Л. Коммуникативная структура и ее использование в системе текстовой генерации // Международный форум по информации и документации. — М., 1992. — Т. 17. — № 2. — С. 15 — 28. Соколова Е.Г. Работы по системам генерации текстов в США и Канаде // НТИ. - М., 1993. - Сер. 2. - № 4. - С. 10-15. Соколова Е.Г., Болдасов М.В. Автоматическая генерация тек- стов на ЕЯ (портрет направления) // Труды Международной конферен- ции ДИАЛОГ-2004. - М., 2004. Соколова Е.Г., Шаров С.А. К многоязыковой генерации руко- водств пользователя: начальный этап проекта AGILE // Труды Междуна- родного семинара ДИАЛОГ-1998. — М., 1998. — Т. 2. — С. 848—859. Шаляпина З.М. Проблемы русского лексико-синтаксического син- теза при сущностном подходе к языку // Русский язык: исторические; судьбы и современность. Международный конгресс исследователей рус- ского языка. — М:, 2001. Bateman J.A. Enabling technology for multilingual natural language generation: the KPML development environment // Natural Language Engineering. — 1997. — P. 15—55. Carcagno D., lordanskaja L. Content determination and text structuring in GOSSIP // Extended abstracts at the Second European Na- tural Language Generation Workshop, Edinburgh, April 6 —8. — Edinburg, 1989. Chris M., Roger E. Natural Language Generation from Plans // Computational Linguistics. — Grenoble, 1989. — Vol. 15. — № 4. H a 11 i d а у M. A. K. Introduction to Functional Grammar. — London, 1985. lordanskaja L. Communicative Structure and its Use during Text Generation // International Forum on Information and Documentation. — 1992. - Vol. 17. - № 2. - P. 15 - 27. lordanskaja L., Kim M., Kittredge R. etal. Generation of Extends Statistical Reports // Proceedings of the 14th International Conference oi Computational Linguistics (COLING-92). — Nantes, 1992. Kittredge R. Efficiency vs. Generality in Interlingual Design: Som Linguistic Considerations // Multilingual Text Generation. IJCAI — Internationa Joint Conference on Artificial Intelligence. Montreal, Quebec. — Quebec, 1995. - P. 64 - 74. Kittredge R. Using Natural-Language Processing to Produce Weathe Forecasts // Intelligent Systems & Their Applications. — April 1994. — P. 45- 53. Kittredge R.,Polgu£re A. Generating Extended Bilingual Texts fror Application Knowledge Bases // Proc, of the International Workshop о Fundamental Research for the Future Generation of Natural Languag Processing. — Kyoto, 1991. — P. 147—160. Mann W.C., Thompson S.A. Rhetorical Structure Theory: Descriptio: and Construction of Text Structures // Natural Language Generation. — 198' McKeown K. Discourse Strategies for Generating Natural-Language Text t Artificial Intelligence 27. — 1985. — P. 1 — 41. McKeown K. Text Generation. — Cambridge, 1988. 206
McKeown К., Radev D. Generating Natural Language Summaries from Multiple On-Line Sources // Computational Linguistics.— 1998.— Vol. 24. - № 3. McKeown K.R., Swartout W.R. Language Generation and Explanation // Annual Reviews Inc. — 1987. — № 2. — P. 401 — 449. Meaning Text Theory 2003. First International Conference on Meaning — Text Theory. Actes. Proceedings. — Paris, 2003. Mel’c’uk I. Meaning-Text Models // Annual Review of Anthropology. — Vol. 10. - P. 27-62. Meteer M. W. Portable Natural Language Generation using SPOKESMAN // Proceedings of the 3rd Conference on Applications in Natural Language Processing. — Rome, 1992. Moore J.D. and Paris C.L. Planning Text for Advisory Dialogues: Capturing Intentional and Rhetorical Information // Computational Linguis- tics. - Grenoble, 1993. - Vol. 19. - № 4. - P. 651-694. Moor J.D., Pollak M.E. A Problem for RST: The Need for Multi- Level Discourse Analysis // Computational Linguistics. — Grenoble, 1992. — Vol. 18. - № 4. - P. 537-544. Multilingual Text Generation. IJCAI — International Joint Conference on Artificial Intelligence. Montreal, Quebec. — Quebec, 1995. Nirenburg S.A Distributed System for Language Generation. Technical Report CMU-CMT-87-102. - Melon, 1987. Roesner D. The Generation System of the SEMSYN Project: Towards a task-independent Generation for German // 1st European Workshop on Language Generation. — 1987. Sharoff S., Sokolova L. Analysis of rhetorical structures in technical manuals and their multilingual generation // Multilingual Text Generation. IJCAI — International Joint Conference on Artificial Intelligence. Montreal, Quebec. — Quebec, 1995. — P. 119—128. Sgall P. Topic-Focus Articulation (TFA) // International Workshop on the Meaning-Text Theory. — 1992. Sowa J.F. Conceptual structures: information processing in mind and machine. Reading. — 1984. Vander Linden K. and Scott D. Raising an Interlingual Ceiling with Multilingual Text Generation // Multilingual Text Generation. — 1995. — P. 95-101.
ГЛАВА 11 КОНЦЕПЦИЯ БАЗЫ ТЕКСТОВЫХ ФАКТОВ Целью семантического анализа связного текста в одном из возможных аспектов в нашей модели считается построение осо- бого СемП в виде структуры из Ситуаций и Текстовых фактов; целью информационного анализа (ИнфАн) массива текстов — построение сводной базы текстовых фактов. Тема БТФ имеет не- посредственное отношение к проблеме смыслового сжатия текста (см. гл. 7). В задаче построения БТФ для каждого отдельного текста, а за- тем объединения некоторых отдельных БТФ в сводную базу, стре- мящуюся стать объективным представлением знаний определен- ных (задаваемых пользователями) предметных областей, сконцен- трированы главные установки информационно-лингвистической модели: а) тенденция к сохранению в структурах текста только содер- жательно значимых единиц; б) такая их подача средствами метаязыка, при которой воз- можно относительно простое сравнение текстов (и их СемП) друг с другом и с записями в базах знаний, в том числе в БТФ; в) способность к адаптации текстовых структур и средств ана- лиза (словарей, процессоров) к новым ПО и другим сферам при- менения (например, создание машинного перевода-реферата). Все источники, в которых знания о предметной области пред- ставлены, так сказать, в естественном виде, проходят в нашей модели те же этапы анализа, что и сам естественный текст, а полученные структуры сравниваются со структурами ЕТ методом «сверху вниз». Тем самым «сравнение с действительностью» ста- новится лингвистической процедурой, технически такой же, как сравнение крупных единиц в составе семантической структуры одного текста. Сначала сравниваются ПО, затем темы (лексиче- ские ядра тематических представлений), после этого сопоставля- ются структуры СИТ. Полноценные СИТ могут сравниваться по статусу и весу в составе высказывания, а также по составу, роли и весу участников (актантов) Ситуации. Актанты допускают даль- нейшее развертывание, они могут вводить новые СИТ и т. д. 208
§ 55. Этапы построения и единицы БТФ Задаваемый для анализа массив текстов назовем Базой исход- ных текстов (БИТ). Лингвистический транслятор (ЛТ) выполняет многоуровневое преобразование: БИТ =*•... ЛТ ... =*• {БТФ}. БТФ одного (сложного по содержанию) текста — не только важная промежуточная структура на пути к предельной цели, но и наиболее устойчивая и определенная из структур, сопоставляе- мых целому тексту. Напомним, что начинает серию преобразований, ведущих к построению БТФ, традиционный лингвистический анализ «сни- зу-вверх» (ЛТ-1). В него включен в нашей модели и этап локально- го семантического анализа, который завершается созданием тек- стовой семантической структуры, адаптивной к разным предмет- ным областям и безразличной к последующей задаче. Эту структу- ру мы назвали семантическим пространством текста. Далее начи- нают работать механизмы собственно семантического анализа (ЛТ- 2), которые, в частности, преобразуют СемПрост в ситуативное представление текста. В приложении 11 приведен пример СитП одного простого предложения. Снабженная внешней дескрипци- ей, единица СИТ структурно не отличается от целевой единицы ГФ (или T-Факт), поэтому схема иллюстрирует также и ТФ. {СитШ} как последовательность ситуативных представлений । гервого уровня для всех простых предложений текста — это еще гингвистическая структура. С СитШ начинаются межфразовый анализ и собственно се- мантические преобразования. В основном это утрата части инфор- мации, не существенной с точки зрения структуры целого, изме- нение лингвистических иерархий (ср.: подготовка к сбору урожая — сбор урожая в стадии подготовки) и др. Единицы типа СИТ могут переходить в единицы Соб в том случае, если лексическое ядро Сит входит в заданные списки слов-событий или на основе вы- числения словарного веса единиц в составе СИТ. Приведем в качестве примера сообщение Предпринимается ряд мер по усиле- нию роли факторов, способствующих быстрой ликвидации пожара. ИПС найдет в нем ключевое словосочетание ликвидация пожара и может заменить его термином ТУШЕНИЕ ПОЖАРА, который и войдет в поисковый образ документа. Лингвистический анализ юлжен выбрать в качестве лексического ядра СИТ то же словосо- четание ликвидация пожара (даже если оно не задано никаким встречным списком), но припишет ему модальность слабой ре- альности (меры по активизации чего-то абстрактного, которое может привести когда-то к быстрому уничтожению пожара). Ведь 209
информационный вес термина невелик: слишком длинная цепочка слов-«поводырей» с очень малым словарным весом приводит к данной СИТ. Эта Ситуация вряд ли получит статус События даже при сильной поддержке со стороны ПО. Такую же оценку получит высказывание Предпринимается ряд мер по усилению роли факто- ров, способствующих быстрой ликвидации противника, в котором слово противник — слабый семантический узел (слово нуждается в установлении референтной связи или в каких-то идентификато- рах), а общий вес СИТ ослаблен еще и тем, что отсутствует под- держка в виде встречного текста. Сборка единиц ТФ происходит при вовлечении собственно информационных механизмов. Это предметно-ориентированный анализ (ПоАн), который дотягивает лингвистические единицы до значимых в данной ПО, т.е. до уже информационных единиц. Именно на этом этапе возможны неэквивалентные замены. Это, в частности, добавление в СемП внешних знаний, необходимых для достижения большей связности текстовых структур. Это построе- ние СемП и выбор при неоднозначности анализа единиц, наибо- лее информативных для данной ПО. Они могут быть заданы сло- варем (тезаурусом) или самим пользователем, в виде встречного списка «горячих», наиболее важных для него, терминов; если же встречных списков нет, используются рекомендации лингвисти- ческого анализа. В главе 7 были перечислены некоторые критерии полноценно- сти единицы СИТ (эксплицитность выражения СИТ и другие усло- вия), которые позволяют ей стать ядром соответствующего ТФ, тем самым был задан внутренний критерий построения самого Т-Факта. Т-Факты — это многоместные предикаты, синтезируемые из СитП целого текста; а множество единиц, связанных с лексиче- ским ядром СИТ наиболее весомыми бинарными СемО, стано-! вятся аргументами ТФ. Они часто не совпадают с начальным сло- варным составом смысловых валентностей, равно как не вс< «лингвистические предикаты» станут лексическими ядрами Т<1 (так, слова быть, представлять, составлять, являться, начинать продолжать, меры, мероприятия, подготовка и др. не станут ядро! ТФ). Напротив, слова, лингвистически мало значимые, могу выйти в T-Факт, т. е. стать онтологическими предикатами, как и именуют в некоторых системах, например, совместное предприя тие или Фильм «Титаник», с произвольными аргументами, ин тересующими пользователя (см. ниже иллюстрацию записей : БТФ). Смена иерархий внутри сложных единиц типа СИТ и ТФ i пользу более значимых с семантической или заданной извне точи зрения — одно из наиболее важных преобразований, необходи мых при распределении текстовой информации по структура} 210
разных баз знаний. Обычно оно осуществляется операцией пе- ремещения одного из аргументов законного предиката на место предиката, часто с вытеснением последнего из структуры ТФ. Так, из сообщения В 1996 году было создано совместное предприятие «Факел» с участием нескольких высокодоходных фирм на роль ТФ должна быть выбрана единица совместное предприятие, а не было создано. ТФ — не только единицы представления текстовой информа- ции, но и единицы хранения этой информации в виде отдельных записей БД. При их включении в базу фактов или базу знаний каждый ТФ должен быть снабжен всеми атрибутами нормально- го текста: автор ТФ, ссылка на контексты, на источник и т.д., т. е. о нем должен быть сообщен набор сведений, составляющих его внешнюю дескрипцию, как и у текста (см. гл. 3). В ряду единиц текстового анализа ТФ — та первая единица, к которой могут быть применены логические категории «истинно/ ложно». Например, если во всех газетах названы одни и те же параметры события (имя, время, место и др.), его можно объ- явить истинным текстовым фактом. Однако истинность ТФ не ис- ключает возможности расхождений и даже противоречий с исто- рическими фактами. Полноценной единицей базы знаний может быть лишь T-Факт, согласующийся с фактами других источников в той же предметной области. БТФ перерастает в базу знаний за- данной предметной области по мере того, как ТФ получают ста- тус Фактов, т. е. истинных в данной ПО утверждений. Критерии перехода ТФ в Факт (ПО) должны задаваться отдельно (Т-Факт может быть частично истинным и т.д.). Приведены примеры возможных ТФ, составленных на неболь- шом массиве текстов СМИ. Иллюстрация: фрагмент БТФ. Несколько фрагментов БТФ были построены при работе лингвистов с диалоговой программой, по- зволяющей засылать в БД (Грамматику ситуаций) выделяемые на экране фрагменты из поступающих текстов. Имя ТФ, много- местного предиката, также выбиралось из текстового материала. Базой исходных текстов послужили около 100 газетных сообще- ний, появившихся сразу после событий 1991 г. в России (антиде- мократический путч, выдвижение Ельцина, в дальнейшем — распад СССР). Заметим, что почти все аргументы ТФ заполнены не на основе сильных лингвистических управлений; они сильны только в данной ПО, и часто их можно получить только смысло- вым выводом. Некоторые энциклопедические сведения вводил лингвист исходя из собственного понимания семантики слова. Такие добавления не из текста, а из собственных знаний в этой игрушечной системе берутся в квадратные скобки (например, КОНТРАГЕНТ понятия государственный переворот введен как | Прежняя власть]). 211
Текстовые факты на массиве COUPN.STR ТФ1: ГОСУДАРСТВЕННЫЙ ПЕРЕВОРОТ (1, 2, 3, 4, 5) Bap-захват власти 1. Агент = ГКЧП Вар = советское руководство Идентификатор = Г.Янаев, В.Павлов, О.Бакланов, Б.Пуго, В. Старо- дубцев, А. Тизяков, И.Крючков, Д.Язов 2. Прич = дестабилизация политической и экономической обстановки в СССР 3. Цель = преодоление экономического и политического кризиса 4. Время: Исх-т = 19 августа 1991 года 5. К-агент = [Прежняя власть] (это ввел лингвист) Отсылки: ЗГЛ = 2, ЗГЛ = 3, ЗГЛ = 4, ЗГЛ = 6, ЗГЛ = 33* ТФ2: ВВЕДЕНИЕ ЧРЕЗВЫЧАЙНОГО ПОЛОЖЕНИЯ (1, 2, 3, 4, 5) 1. Суб = ГКЧП Вар = советское руководство Репрез = Г.Янаев, О.Бакланов, В.Павлов 2. Лок = некоторые регионы СССР Конкр = Москва, Ленинград и другие территории СССР 3. Время: Исх-т = 19 августа 1991 года Период = полгода 4. Прич = обострение обстановки в стране, митинги, уличные шествия 5. Цель = защита и безопасность граждан Отсылки: ЗГЛ = 3, ЗГЛ = 6, ЗГЛ = 7, ЗГЛ = 8, ЗГЛ = И ТФЗ: ПРОТИВОДЕЙСТВИЕ ПУТЧУ (1, 2, 3, 4, 5, 6) 1. Суб = руководители РСФСР Вар = Дом Советов РСФСР, Белый дом Конкр = Президент РСФСР Б.Ельцин, Предсовмина РСФСР И. Си- лаев, Госсекретарь России Г. Бурбулис 2. К-агент = ГКЧП Вар = хунта, политические авантюристы, государственные преступ- ники 3. Конкр = встречи, пресс-конференции, обращение «К гражданам Рос- сии», указы Президента РСФСР, оборона Белого дома, внеочередная сессш ВС РСФСР 4. Прич = антиконституционные методы решения экономических и по- литических проблем 5. Цель = восстановление конституционного правления в стране 6. Время: Исх-т = 19 августа 1991 года Кон-т = ??? Отсылки: ЗГЛ = 12, ЗГЛ = 15, ЗГЛ = 16, ЗГЛ = 17, ЗГЛ = 43 1 Отсылки указывают номера тех текстов БИТ, которые содержали матери; для создания полного фрейма ТФ. 212
ТФ4: ВНЕОЧЕРЕДНАЯ СЕССИЯ ВС РСФСР (1, 2, 3, 4,5) Мод = необходимость Время = будущее 1. Актант = члены ВС РСФСР 2. Тема = ?? [См. ТФ1, ТФ2] 3. Условие = чрезвычайное положение в Москве 4. Время: Дата = 21 августа 1991 года 5. Место = Москва Конкр = Дом Советов РСФСР Отсылки: ЗГЛ = 12, ЗГЛ = 43 ТФ5: ВНЕОЧЕРЕДНАЯ СЕССИЯ ВС СССР (1, 2, 3, 4, 5) Мод = необходимость Время = будущее 1. Актант = члены ВС СССР 2. Тема = ?? [ТФ1, ТФ2] 3. Причина = введение ЧП в отдельных местностях СССР 4. Время: Дата = 26 августа 5. Место = Москва Отсылки: ЗГЛ = 11, ЗГЛ = 53 Текстовые факты, истинность которых может быть доказана, становятся частью баз знаний соответствующих им предметных областей в статусе ФАКТ (ПО). Развертка множества построен- ных ТФ в новый текст дает реферат исходного текста. От квази- реферата, а также от «выдернутых» из текста цитат он отличает- ся тем, что утверждения ТФ поддерживаются контекстом целого текста. § 56.0 важности создания БТФ для общественных наук Специфика гуманитарного знания, в частности обществен- но-политических сведений, состоит в том, что они в основном передаются в виде естественных текстов описательного характе- ра. Накопление и систематизация таких знаний требуют огром- ной работы обществоведов-аналитиков, причем вся работа по сравнению фактов и мнений, поиску прецедентов и аналогий, чоказательству противоречий и т. д. проводится на интуитивном уровне. Как ни в одной научно-технической области, здесь необходи- ма быстрая, хотя бы и предварительная, обработка массового ма- |ериала, хотя бы полуавтоматический поиск фактов и факторов, которые нужно учесть при принятии решений. Но именно в обла- с ги гуманитарных и общественных наук практически не было си- 213
стем автоматической обработки массового текстового материала, разве что простейшие ИПС, проверяющие тексты на вхождение в них отдельных слов. В лучшем случае это тематический анализ, выявляющий и систематизирующий основные темы текста. Хлы- нувший в нашей современной действительности поток объектив- ной и потому разноречивой информации требует более сильных методов анализа текстового материала: собственно семантическо- го, логико-семантического, информационно-логического, фак- тографического. Задачи лингвистического анализа открытых массивов текстов, построение и систематизация текстовых фактов, построение Базы текстовых фактов, автоматическое пополнение и коррекция БТФ, выяснение степени истинности сообщения и другие являются некоторыми идеальными задачами. Их решение заложено в нашей информационной модели, но оно едва ли достижимо в обозри- мом будущем, в частности из-за отсутствия соответствующих кол- лективов исполнителей и других трудностей организационного и экономического характера. Однако сама концепция базы текстовых фактов как объекта лингвистической природы позволяет начать формирование баз текстовых фактов в режиме диалога с ЭВМ. Эту важную работу можно реализовать, если, сохраняя реальный масштаб задачи и естественность всех ее компонентов, ограничить ее массивом од- нородных текстов. Ведь о лингвистических объектах нам известно существенно больше, чем об устройстве нашего сознания, интуи- ции, психологии восприятия и т.д. Осуществление формального (лингвистического) контроля над преобразованиями, связанными с БТФ, представляется хоть и трудной в реализации, но вполне обозримой задачей. Лексические ресурсы для построения БТФ в системе ПОЛИ- ТЕКСТ. Автоматическое (или полуавтоматическое, как в вы- шеприведенном примере) построение БТФ для анализа рус- ских политических текстов должно учитывать наличие задан- ных в естественном виде источников информации — постоян- ных знаний системы. К ним можно отнести списки имен поли- тических деятелей (или БД, где указаны также их должности), иерархию должностей, списки или БД географических объек- тов и т.п. (см. гл. 8). Перечислим тот комплекс спецсловарей и баз данных, кото- рый создавался для включения в систему ПОЛИТЕКСТ, когда она работала на корпусе текстов «Советско-американские отно- шения». Эти словари формировались из ряда источников в их ес- тественном виде; при работе полного процессора сложные еди- ницы подвергались лемматизации и синтаксическому анализу, чтобы быть сравнимыми с единицами текстового анализа. Это позволяет, например, отождествлять полное именование долж- 214
ности, организации и др. с разными вариантами их сокращений в тексте. Для построения БТФ были привлечены такие предметно-ори- ентированные словари и списки (в современных IE-системах их бы назвали Gazetteers — «газетеры» (см. гл. 9). 1. Словари в составе базы данных по реалиям США (dB-USA): а) словарь географических единиц (GEOGR-USA); б) список должностей в составе кабинета президента (САВ- USA); в) список должностей в составе конгресса (CONGR-USA); г) список имен членов правительства и ведущих обществен- но-политических деятелей (VIP-USA); д) список организаций (ORG-USA); е) список основных изданий (PUBL-USA); ж) Тезаурус Библиотеки Конгресса США (THEZ-USA). 2. Словари в составе базы данных по СССР (dB-RUS) в основ- ном те же с именами соответственно: a) GEOGR-RUS; б) CAB-RUS; в) иерархия должностей в составе Верховного Совета (SUPR- RUS); г) VIP-RUS; д) ORG-RUS; е) PUBL-RUS; ж) информационно-поисковый тезаурус (ROSSTHES), представляющий терминосистему предметной области «Россий- ско-американские отношения». В первую очередь в него вводи- лись описания терминологических словосочетаний, тогда как семантика одиночных слов-терминов описывалась в основном словаре (ROSSWORD); з) Русский общесемантический словарь (РОСС), существу- ющий в виде словарной базы ROSSWORD (см. описание ее современного варианта в гл. 12); и) словосочетания общелингвистические или принадлежа- щие другим ПО (как часть РОСС), вынесенные в отдельную словарную базу ROSSCOMP; к) словник «горячих» слов (HOTWORDS) — это сменный файл, он задает слова, заказанные пользователем как лекси- ческие ядра, вокруг которых нужно формировать текстовые факты. В дальнейшем списковая часть многих имен объектов (назва- ния должностей, организаций, географических имен и т. п.) вошла в Тезаурус УИС РОССИЯ. Практически все текстовые ресурсы и политические словари были добыты и включены в УИС РОССИЯ благодаря энергии Т. Н. Юдиной. 215
§ 57. Роль и функции спецтранслятора в модели АПТ Предметная область может задаваться в разных формах и еди- ницах: базы данных, базы знаний, семантические сети, рубрика- торы, классификаторы, тезаурусы, номенклатуры или просто спис- ки слов. В любом случае анализаторы ИЛМ должны обеспечить их сравнимость с текстами, чтобы можно было привлекать материал предметных знаний для пополнения текстовых структур или, на- оборот, заносить информацию из текста в базы данных соответ- ствующих предметных областей. Если спецзнания заданы в виде списков и терминологических словников, лингвистический транслятор умеет с ними справлять- ся, хотя и в этом случае возникают трудности. Так, в составе сис- темы ПОЛИТЕКСТ сложные термины проходили обработку син- таксическим анализатором для именных групп, что делалось для уменьшения числа необоснованно длинных единиц в Тезаурусе. В таком виде они включались в синтаксические структуры наряду с другими единицами СинП (см. также гл. 5). Возьмем более сложные формы задания знаний — БД, БЗн и сети. Для их привлечения к взаимодействию с ЕТ недостаточно простых приемов анализа и заведомо недостаточно только син- таксического уровня. Это означает, что среди процессоров систе- мы АПТ должен быть некий спецтранслятор (СТ) — компонент, который отвечает за спецпонимание, т. е. приводит разнообразные источники знаний к виду, близкому или сравнимому с текстовы- ми семантическими структурами. В книге Д. А. Поспелова говорится: «Проблема установления совместимости двух записей не менее трудна, чем проблема по- С строения СемП. По существу, она сводится к построению СемП 1 второго уровня» [Поспелов, 1981; 41]. Хотя Д. А. Поспелов отно- | сит эту мысль к сравнению СемП разных предложений текста, | она тем более справедлива по отношению к сравнению СемП текста 1 и встречного текста в виде структуры знаний. Однако мы видим i возможное решение проблемы не в повышении, а в понижении 1 уровня сравниваемых структур. Чтобы обеспечить сравнимость, ] нужно перевести записи в БЗн на тот язык, который принят в 1 СемП текста, построив своего рода встречное СемП знаний. Этим । языком является информационный язык-посредник. Напомним 1 между тем, что за относительное понимание в системе АПТ отве- I чает отдельный компонент — лингвистический транслятор ЛТ-3.1 Какие проблемы встанут перед спецтранслятором еще до обраще-1 ния к процессорам сравнения ЛТ-3? ] Возьмем штатный случай, когда анализатор правильно соот-1 нес ЕТ и некую БД или БЗн, причем нет естественно-языкового I разноязычия: мы ограничимся пределами одного ЕЯ, в нашем] 216
случае русского. Какие шаги нужны и можно ли вообще произ- вольную запись в БЗн перевести на ИЯП, чтобы получить СемП знаний, совместимое с СемП текста? Чтобы понять это, рассмот- рим единицы, используемые в разных БД, например стандартной табличной формы. Какие в них отношения и какие узлы? Обозна- чим их СпецОтношения (СпецО), и СпецУзлы, или СпецУ, со- ответственно. СпецОтношениями могут быть объявлены имена полей БД или заголовки столбцов таблиц и т. п.: например, Размер пласта, Объем добычи за год, Количество жертв, Средний размер зарплаты рабо- чего и многие другие. Еще более разнообразны и специфичны имена объектов (СпецУзлов), заполняющих объявленные слоты таблиц БД (5 тыс. руб.Iмесяц, 80 тыс. дол./год, 100 тонн в сутки и др.). СпецУ и СпецО не совпадают с текстовыми единицами СемУ и СемО. Прежде всего это различия в объеме понятий и их ранге, поло- жении в той и другой структуре. Например, свободному словосо- четанию ЕТ соответствует СпецОтношение, имя графы БД-таб- лицы (количество жертв или общее число работающих пенсионе- ров), или значение графы (3 тыс. руб.)-, простому узлу СемП соот- ветствует важный онтологический предикат (угон, убийство, те- ракт)-, свободное словосочетание ЕТ (в сутки перекачивается 10 тыс. тонн нефти) распределится между именем отношения (суточная норма), значением параметра (10 тыс. тонн) и назва- нием всей таблицы (нефть) и т.д. В концептуальных структурах некоторых IE-систем не различается статус узлов и отношений. Например, для ситуации пропажа автомобиля (онтологический предикат) наряду с такими вполне лингвистическими отношени- ями, как Исходная_точка (откуда пропал), заданы спецотноше- ния Угонщик (в лингвистическом СемП — это Агент угона) и Место_обнаружения (лингвистически Конечная_точка — куда уг- нали автомобиль). Эти примеры демонстрируют произвольность задания спецединиц и их сложность по сравнению с лингвисти- ческими узлами и отношениями. Такие несоответствия в форме выражения и типах единиц не позволяют проводить прямое сравнение и взаимообмен между СемП текста и структурой знаний. Значит, нужно понизить уро- вень сравниваемых структур. Для единиц БД нужно сделать для этого по крайней мере два шага. 1. Разукрупнение записей на языке представления знаний дан- ного ПО, составление полного лексикона, состоящего из двух спис- ков — СпецО и СпецУ. Не исключено, что какие-то из этих единиц могут совпасть с единицами СемП, собранными в ходе глобально- го анализа текстов той же ПО. Но с большинством других ПО он не образует никаких пересечений, и вряд ли вообще возможен еди- ный лексикон для всех ПО. Его нельзя считать поэтому информа- 217
ционным языком-посредником в смысле всеобщего эквивалента, но он уже и не ЯПЗ, а ближе к ЕЯ (список словосочетаний). Назо- вем его ИЯП-1, так как это первая ступень навстречу лингвисти- ческим структурам (и это отличает его от ЯПЗ). Следующий шаг в направлении сближения со структурами СемП — перевод спецединиц на язык элементарных (для данной ПО) смысловых отношений (ЭСО), назовем этот уровень мета- языка ИЯП-2; тем самым намечен второй шаг. 2. Перевод лексикона ПО с ИЯП-1 на ИЯП-2. Сложные концептуальные узлы и отношения, специфические для той или иной ПО, можно привести к виду элементарных фор- мул ИЯП, применив к ним лингвистический транслятор ЛТ-1. Например: ЕД-ИЗМ(дуб/л/еся4(, зарплата) ПРИНАДЛ(зарплата, рабочий) ЗНАЧ(5 тыс. руб., зарплата) Возможно и дальнейшее дробление оставшихся сложными еди- ниц: КОЛИЧ(5, тыс. руб.) и даже МАСШТАБ(п?ь/сяча, рубТш) Переводом текста знаний с ИЯП-1 на ИЯП-2, а также перево- дом на ИЯП структур самого текста мы понижаем уровень СемП, благодаря чему сравнение единиц того и другого становится боль- ше технической, чем лингвистической, задачей. Конечно, эта ги- потеза нуждается в экспериментальной проверке. § 58. Адаптация системы АПТ к новым ПО Адаптация начинается с исследования ПО и ее баз данных, выраженных на каком-либо языке представления предметных зна- ний. Спецтранслятор, как было сказано, осуществляет два пере- хода, которые можно обозначить СТ-1 и СТ-2: СТ-1 СТ-2 ЯПЗ => ИЯП-1 ИЯП-1 =* ИЯП-2 В этой своей функции СТ подобен лингвистическому трансля- тору, работающему с естественным текстом, который также име- ет свою специфическую форму (деление на предложения и т.д.). Ведь задача ЛТ, как это ни парадоксально, состоит в том, чтобы максимально освободить текстовые структуры, с которыми рабо- тает система, от лингвистической специализации. Эго достигает- ся, например, вынесением в отдельную субструктуру сведений композиционного характера (см. гл. 7), включением механизмов тематической специализации, укрупнением единиц и др. Все эти 218 ।
операции облегчают сравнение с единицами заданной конкрет- ной ПО; возможно, что уже на одной из промежуточных стадий разукрупнения БД или укрупнения единиц ЕТ они начнут совпа- дать (например, тот и другой источник сошлись на единице тыс. руб.). Но если этого не произошло, придется переводить оба срав- ниваемых объекта (ЕТ и БД) на информационный язык-посред- ник, в самую подробную структуру типа семантическое простран- ство. В ней все грамматическое окажется выраженным лексически. В частности, в СемПрост текста значение связи аргумента с пре- дикатом будет выражено лексемой, а не номером стрелки. Это, может быть, самое главное свидетельство перехода от синтакси- ческого уровня к семантическому; тем самым мы уходим и от омонимии номеров связей. Так, стрелка 1 имеет разные значения при разных типах предикатов; это же можно сказать и о других лингвистических номерах связей. Дав ей имя в виде элементарного смыслового отношения, мы не только снимаем неопределенность, но и делаем семантику связи независимой, тем самым давая пра- во на самостоятельную жизнь этой новой триаде; она может рас- сматриваться в дальнейшем как потенциальная элементарная Ситуация, в основе которой лежит ЭСО. Но это не просто пере- именование связей. Названная операция лексикализации номеров синтаксических связей выявляет сходства или совпадения вновь найденных имен связей с законными лексемами (отношение ПРИЧИНА — слово причина и др.), что приводит к еще одному основанию классифи- кации лексики, а именно к разделению лексем на единицы-объек- ты, или узлы структуры, и единицы-отношения (имена связей между ними). Это не совпадает с классификацией при синтакси- чески ориентированном подходе, уводит от привычных и про- зрачных синтаксических деревьев и т. д. Но мы не видим другого гибкого способа соотнесения структуры ЕТ и произвольных встреч- ных знаний, чем выход в семантическое пространство текста. Мы ограничиваемся экспликацией значений только связей и не выво- дим в СемПрост значения полнозначных лексем в виде каких- либо семантических атомов, полагая, что это последнее создаст слишком большие комбинаторные сложности и поэтому преж- девременно. При изучении динамики поведения СемО в развер- тывающемся тексте и планировании операций с ними можно ис- пользовать словарные описания лексем, соединенных этими СемО, без нарушения принципа целостности единиц-объектов. Один из способов — описание в словаре семантики полнозначных лекси- ческих единиц (ЛЕ) через элементарные ситуации, в которых раскрывается значение ЛЕ (см. гл. 12). При настройке системы АПТ на новую предметную область список общелингвистических ЭСО дополняется специальными ЭСО, выявленными для данной ПО. Они в основном совпадают, 219
но каждый список, полученный для каждой отдельной ПО, име- ет какой-то уклон. Так, для описания знаний бюрократической сферы потребуется больше дифференцировать иерархические от- ношения ПРИНАД(А,В), МАСШТАБОВ), В_ВЕДЕНИИ(А,В), ЧАСТЬ(А,В) и др., а при описании химических знаний будут преобладать отношения СОСТАВ(А,В), ЭЛЕМЕНТ(А,В) и др. Для ПО «родства» можно ввести спец-ЭСО типа БРАДА,В), МАТЬ (А,В), ОТЕЦ(А,В) и т.п., при описании ПО «движения» будут преобладать спец-ЭСО НАЧ_ТОЧКА(А,В), КОН_Т(А,В), ПРО- МЕЖУТ_ПУНКТ(А,В) и т.д. Сравнение списка общелингвистических и специальных эле- ментарных отношений может дать расхождения, поэтому трудно ответить на вопросы о том, каков инвентарь ЭСО и сколько всего ЭСО требуется для анализа ЕТ. Используется весь список, но мно- гие из отношений конкретизируются. Однако новые ЭСО или спец- ЭСО образуются по определенным правилам укрупнения или иных комбинаций элементов некоторого канонического списка, и все они подчиняются грамматике ИЯП (см. гл. 6). Итак, для включения Знаний привлеченной ПО в систему АПТ спецтранслятор в информационной модели понимания текста должен освободить внешние источники знаний от специфических форм выражения, но сохранить содержание, т. е. принятые в дан- ной ПО именования объектов (в том числе терминологию) и спе- цифические имена отношений. Эти крупные единицы, получен- ные на этапе СТ-1, не столько промежуточный результат обра- ботки, сколько Лексикон, лингвистическое описание лексики ПО. Именно такие или близкие к ним единицы должен строить ЛТ (на этапе глобального анализа ЛТ-2), анализируя тексты по той же ПО. Если они не строятся, нужно переходить на уровень ниже, задействовав этап СТ-2. Тогда мы и получаем искомое СемП зна- ний. Добавив его к СемП текста, мы обогащаем структуру ЕТ внеш- ним знанием, а результирующая структура становится информа- ционным пространством текста, в котором могут присутствовать и крупные единицы, и мелкие, рассыпанные на элементарные формулы ИЯП. Далее уже на всем ИнфПрост работает глобаль- ный анализ, подобный ЛТ-2. Возможность представить единицы спецзнаний в виде элемен- тарных формул Р(А,В) — это интерпретация спецединиц ПО с наивно-лингвистической точки зрения, но именно она позволяет сблизить не только ЯПЗ и СемП, но и сами спецязыки разных ПО между собой, а это уже первый шаг к организации системного диалога между самими базами данных. Исследование адаптации систем АПТ к новым предметным областям требует большой работы с базами данных, знаний и энциклопедиями. Проблема гораздо шире, чем просто использо- вание в каких-то системах узкого круга сведений из ПО. 220
Использование ИЯП дает большую гибкость, чем непосред- ственный переход БЗн <-> ЕТ, по ряду причин: 1) преодолевается специфичность членения действительности (мира текста и мира знаний) на порции, единицы (фреймы на ЯПЗ и ЕЯ, предложения ЕЯ, сети, БЗн) и становится гораздо более содержательным понятие контекста; 2) появляется возможность включения в процесс понимания ЕТ или БЗн любого количества других «текстов» («текст» индиви- дуальных знаний пользователя, текст вопроса или любого инфор- мационного предписания, пожелания и т.п.); 3) появляется возможность определять степень «недопонима- ния», так как средствами принятого ИЯП фиксируется любая сколь угодно малая порция информации; 4) на «тексте» ИЯП возможно моделировать такие важные для понимания операции, как утрата части смысла, обобщение, не- учет разных тонких случаев языковой неоднозначности, а также другие операции «огрубления», неизбежно сопровождающие ав- томатическую обработку текста; 5) для любого сколь угодно «бедного» текста на ИЯП суще- ствует перевод на ЕЯ, так как каждая формула ИЯП имеет хоть одно заранее зафиксированное соответствие в ЕЯ; даже «бессвяз- ный» текст ИЯП может быть переведен последовательностью ато- марных предложений ЕЯ. Поэтому в концепции БТФ мы не выхо- дим за рамки вербальной системы, где первостепенная роль при- надлежит лингвистике. Работа в информационном пространстве текста, где совмеще- ны текстовые и энциклопедические знания, выводит к методам, которые сейчас постепенно формируются и в корпусной лингви- стике как новом ресурсе для автоматических работ с текстом. Здесь на помощь лингвистическим стратегиям могут прийти и методы более точных наук. § 59. Об универсальности лингвистического транслятора На вопрос «Относится ли создание спецтранслятора к компе- 1енции лингвиста?» мы бы ответили утвердительно. Лингвисти- ческий транслятор, разрабатываемый как средство общения про- извольного пользователя с ЭВМ на естественном языке, должен ныть универсальным и в плане обработки всех тех компонентов, которые участвуют в цикле АПТ. Это значит, что за анализ всех видов текстов (как естествен- ных текстов, так и «текстов» на искусственных языках, в том числе на ЯПЗ, — в главе 1 все они названы встречными текста- ми) должна отвечать вычислительная лингвистика, тем более что 221
лексический состав всех ЯПЗ берется из ресурсов естественного языка. Обратимся к транслятору ЛТ-3, который должен проводить срав- нение записей на разных языках. В отличие от результатов работы трансляторов ЛТ-1 и ЛТ-2, которые осуществляют лингвистичес- кую экспертизу текста и поэтому всегда имеют положительный ре- зультат, т.е. для любого текста построят какую-то структуру, ре- зультат работы процессора ЛТ-3 может быть как положительным (строятся общие единицы, есть взаимопонимание), так и отрица- тельным (при самом «благожелательном» отношении системы-парт- неры или встречные тексты «не могут договориться», т.е. согласо- вать свои единицы). Это произойдет, например, в том случае, если единицами, построенными при анализе политических текстов, мы захотим пополнить базу знаний по химии, и наоборот. Ближе всего ЯПЗ и естественный текст соприкасаются в систе- мах генерации текстов. За переход от записей в БД и БЗн к нор- мальному тексту тоже отвечает в самой существенной части линг- вистический транслятор (см. гл. 10 и схемы СГТ). СГТ — сложные системы, работающие, как правило, в преде- лах очень ограниченных предметных областей. Здець более умест- но, чем в системах АПТ, использование термина «ограниченный естественный язык» (см. употребление термина ОЕЯ в гл. 1), так как в автоматическом режиме должны генерироваться стерильно правильные и поэтому довольно искусственные предложения. Встречая в литературе понятие ЯПЗ, нужно понимать, что хотя разработчики разных ЯПЗ стремятся к универсальности (ср. языки KRL, FRL, а также ЯПЗ, создаваемые и используемые во многих отечественных учреждениях), в настоящее время фактом является существование многих разных языков представления знаний (ЯПЗ-1 ...ЯПЗ-к). Выражение база знаний тоже реально обозначает «специальная БЗн», или «БЗн определенной предмет- ной области», при этом обычно имеется в виду какой-то очень небольшой фрагмент ПО, для которого создается свой язык пред- ставления знаний. В жестком режиме для каждого ЯПЗ требуется свой генератор: ЯПЗ-1 - СГТ-1 - ОЕЯ-1 ЯПЗ-2 - СГТ-2 - ОЕЯ-2 и т.д..... . В этом случае картина перевода с ЯПЗ на ЕЯ и обратно анало-i гична схеме бинарного автоматического перевода с одного языка на другой, когда создается столько систем МП, сколько есть пар языков. Многие из существующих систем генерации стараются реали- зовать такой перевод для нескольких языков. При этом большом внимание уделяется тонким вопросам организации коммуника-| тивной правильности предложения как функции от СемП вопро4 222
са пользователя, т. е. встречного текста. Они исходят из уже задан- ного СемП, точнее СинСемП, так как оно создано на основе синтаксического дерева, и обеспечивают полный перевод на ЕЯ всех элементов структуры, следуя традиции систем МП. В информационно-лингвистической модели универсальность лингвистического транслятора состояла бы в способности интер- претировать «текст» на любом из используемых специалистами языков представления знаний: «Текст» на ЯПЗ-1 ..............=> СТ (+ ЛТ) => Тексты на ОЕЯ «Текст» на ЯПЗ-к Преобразование проходит через ИЯП-1 и ИЯП-2, позволяю- щие регулировать объем передаваемой информации и сжимать со- держание. Но что еще важнее, перевод на язык минимальных ин- формационных единиц (формулы ИЯП) позволяет реализовать диалог и обмен данными между самими базами разных ПО. § 60. Об информационной относительности в системе АПТ Технически задача ЛТ-3 формулируется как сравнение между собой разных ИЯП-«текстов». Если естественно-языковое разли- чие снято самой постановкой задачи (и БЗн, и анализируемый ЕТ принадлежат одному ЕЯ), в задачу преобразователя ЛТ-3 вхо- дит преодоление двух типов различий в сравниваемых «текстах»: 1) структурное различие: единицы БЗн и ЕТ не совпадают, имеют место разные способы «членения действительности»; 2) различие в объеме содержания: в ЕТ много «лишнего» по сравнению с «текстами» БЗн (много подробностей и не нужных в БЗн слов — модальных, идентификаторов, актуализаторов и т.п.). В свою очередь, БЗн содержит утверждения, которые редко появ- ляются в конкретных ЕТ ввиду их очевидности, «банальности». ЛТ-3 может использовать эти «лишние» элементы как контекст, который не мешает, а помогает установлению тождества и других отношений подобия между единицами БЗн, с одной стороны, и единицами ЕТ, с другой стороны. Итак, задача ЛТ-3 и СТ — согласование единиц и адаптация системы к новым предметным областям. В системе, основанной на принципе информационной относительности (возможность раз- ных прочтений одного текста), направление адаптации безраз- лично. Можно говорить об адаптации системы к новой ПО, кото- рая вводится в систему в виде текстов на ЕЯ и соответствующих им «текстов» на ИЯП-1 и ИЯП-2. Наличие пути «Текст на ЕЯ -» Текст на ИЯП -» Запись на ЯПЗ» приводит к обогащению БЗн, к 223
ее «обучению» (БЗн в данном случае беднее ЕТ, в нее включают- ся результаты анализа конкретных текстов). Можно также говорить об адаптации системы к новой ПО, если эта последняя задана сразу в виде структуры на ЯПЗ. Путь «Текст на ЯПЗ -> Текст на ИЯП-1 -> Текст на ИЯП-2» позволит расширить информационное пространство анализируемого ЕТ сведениями из ПО (Знания содержат дополнительные к тексту сведения) и тем усилить параметр его связности. Полный кон- текст ИнфПрост поможет более правильно сформировать едини- цы БТФ, которые далее будут привлекаться как средство анализа и более адекватного понимания новых ЕТ, особенно относящих- ся к данной предметной области. В обоих случаях имеет место гибкое взаимодействие баз знаний и естественного текста. А информационный язык-посредник яв- ляется всеобщим информационным эквивалентом, своего рода лингвистическим ассемблером, на котором может быть записана любая сколь угодно подробная или сколь угодно обобщенная ин- формация. Это такое подмножество средств ЕЯ, которое позволя- ет одними и теми же средствами записать лингвистическую и эк- стралингвистическую информацию. В результат^ появляются воз- можность учета при анализе ЕТ экстралингвистических знаний, возможность сравнения текста в его лингвистической форме с фрагментом знаний, заданных в виде структур ЯПЗ, возможность вычисления разницы в содержании знаний и анализируемого ЕТ, что дает непосредственный выход к понятию «содержание ин- формации». Процессоры, ликвидирующие структурное и информационное различия, устроены так же, как лингвистические процессоры, которые осуществляют переход от одного уровня представления текста к другому. В том и другом случае действуют (наряду с линг- вистическими эквивалентными трансформациями и перекодиров- ками) чисто информационные процессы «скачка», информаци- онного направленного сброса, наращивания, а также случайных выводов и простых потерь, неизбежных при автоматической об- работке ЕТ. § 61. Схема построения многоязыковой БТФ Автоматическая обработка текста — сложный и дорогостоя- щий процесс. Поэтому целесообразно проводить одноразовую, но полную обработку текста, дающую выход в разные практические задачи. Создание базы знаний на одном языке и воссоздание ее в ино- язычных вариантах вписывается в эту цель. Такая задача стоит и перед системами АПТ нового поколения, в частности перед систе- 224
мами машинного перевода класса КВ МТ (см. гл. 2). Этапы создания БТФ и некоторые промежуточные структуры приведем в схематич- ном виде. Приводимая схема многоязыковой БТФ может быть по- строена после прохождения всех трех этапов информационного анализа заданного массива текстов. Она включает также процесс расслоения глобальной структуры ЕТ и построения частных, одно- тематических структур текстовых знаний, что может решить задачу ИЧИ-систем (см. гл. 9). Выдача пользователю всех или части этих знаний на языке, отличном от языка исходного массива текстов, также входит в концепцию БТФ (см. приложение 12). База текстовых фактов — объект, удобный для автоматическо- го перевода на другие языки с целью обмена информацией из баз знаний. Задача АП в таком варианте облегчается тем, что перево- ду подлежит только лексическое наполнение исходного (в нашем случае русского) массива. Это отдельные лексемы или словосо- четания, которые предполагается переводить на другой (англий- ский) язык. АП может опираться на то, что известна смысловая роль переводимых понятий в структуре Факта. Другим облегчаю- щим перевод обстоятельством является наличие для многих еди- ниц готовых переводов в компоненте ПО (например, если вся предметная область задается в виде словарей на русском и анг- лийском языках). Наконец, выбор переводных эквивалентов для общеязыковой лексики, особенно неоднозначных слов (типа пе- редача, прием, база, орган, перемена м др.'), может опираться на бога- тый смысловой контекст БТФ. Отдельные элементы записей БТФ не подлежат переводу, а должны учитываться лишь при синтезе связного ответа. Очевидно, что наличие иноязычных вариантов БТФ повышает информационные возможности системы: пользователь сможет за- давать вопросы и получать ответ на любом из включенных языков. На основании такой многоязыковой БТФ может работать ин- формационно-справочная система, выдавая потребителю ответы в виде фрагментов БТФ на тех языках, которые обеспечиваются системами типа «генераторы текстов». * * * Главный наш вывод относительно возможной адаптации лин- гвистического обеспечения (ЛО) к предметной области состоит в гом, что адаптация и специализация должны происходить не на уровне языка, а на уровне «речи». Адаптация на уровне языка, как это делается в большинстве систем ИИ, происходит «хирургическим» путем, т.е. внесением гех специальных единиц, на понимание которых настраивается система, в основной анализирующий словарь системы, в котором :адается их поверхностно-лингвистическое поведение. Других еди- К Леонтьева 225
ниц, кроме этих внесенных заранее, система не может восприни- мать. Операция узнавания проходит в них через сравнение поверх- ностно-лингвистических характеристик, т.е. через лингвистиче- ский словарь системы. Это достаточно жесткий путь. Адаптация на уровне речи означает, что система воспринимает разные источники специальных знаний как тексты на незнако- мом ей информационном языке. В результате их перевода на еди- ный эквивалент она не только понимает то, что в нее вложено, но и умеет настраиваться на другие сообщения и единицы, расхо- дящиеся по структуре и лексикону с теми источниками, на пони- мание которых был первоначально настроен набор средств ана- лиза. Такая система имеет обратную связь с партнером (челове- ком, текстом, словарем или другой системой ИИ), она может учиться, «привыкать» к иным сигналам, перестраивать свои струк- туры в пользу системы-партнера. Операция узнавания, понима- ния и привыкания к чужим единицам заключается в основном в сравнении друг с другом и в поиске корреляции единиц встреч- ных текстов. Такой путь мы считаем «мягким» пониманием. Се-, мантический словарь предназначается именно для такого адапти-i руемого понимания (см. гл. 12). - j Литература j Анисимов А.В., Белецкий М.И., Севбо И.П. К построении» малых баз данных с диалогом на естественном языке // НТИ. — М., 1984. —' Сер. 2. - № 5. I Баранов А.Н. Категории искусственного интеллекта в лингвисти- ческой семантике. Фреймы и сценарии. — М., 1978. Искусственный интеллект: Справочник: В 3 кн. — М., 1990. J Леонтьева Н.Н. Информационная модель системы автоматического! перевода // НТИ. - М., 1985. - Сер. 2. - № 10. 1 Леонтьева Н.Н. Построение Базы текстовых фактов // НТИ. —4 М., 1990. -Сер. 2,- №7. -С. 2-11. | Леонтьева Н.Н., Мартемьянов Ю.С., Розенцвейг В.Ю1 О выявлении и представлении смысловой структуры экономических до-4 кументов // Семантические проблемы автоматизации информационно J го поиска. — Киев, 1971. | Поспелов Д.А. Логико-лингвистические модели в системах управ-1 ления. — М., 1981. 1 Скороходько Э.Ф. Автоматический перевод на информационным язык с текстуальными отношениями («автоматическое индексирова-1 ние») // НТИ. — М., 1969. — Сер. 2. — № 5. J Университетская информационная система РОССИЯ // Преприн» НИВЦ МГУ. - М„ 2004. ] Leontyeva N.N. Textual Facts as Units of Coherent Text Semantic Analyl sis // International Workshop on the Meaning-Text Theory. — GMD 671. — 1992Я Recent Papers from the Mikrokosmos and Corelli Projects. Vol. 2: Knowledge Aquisition / S.Nirenburg. —New-Mexico, 1995—1996. I
ГЛАВА 12 СЕМАНТИЧЕСКИЕ СЛОВАРИ: СТРУКТУРА И СОСТАВ ИНФОРМАЦИИ Словари являются центральным компонентом любой приклад- ной системы содержательной обработки текста. По комплексу словарей можно судить о возможностях системы, в нем отража- ется философия системы; по семантическому словарю просле- живаются уровни и языки описания, принятые в системе, а со- став словарной информации определяет семантическую силу ана- лиза. К настоящему времени сложился круг параметров, характе- ристик и словарных полей, по которым ведется описание слов в словарях развитых систем обработки текста. Несмотря на приклад- ной характер, каждый словарь «следует» какой-то лингвистичес- кой теории. Из теоретических положений мы считаем обязатель- ным сохранять в словарных описаниях идею уровневости — это означает разграничение морфологических, синтаксических, лек- сических, семантических и онтологических (или концептуальных) данных. В развитом словаре должны быть отражены отношения производности, а также сочетаемостные свойства лексем. Если поставлена цель понимания текста, то нельзя обойтись без про- писанной в той или иной мере связи с предметными областями, а в более общем виде — без прагматической информации. Для многих слов необходима информация логического характера. Сколько словарей нужно иметь в прикладной системе? В ка- честве иллюстрации ниже дается описание большого словарного комплекса для информационно-лингвистической модели. Оно дано в жанре методики, инструкции по созданию и вводу словарных статей. § 62. Словарный комплекс РУСЛАН Структура словарного комплекса РУСЛАН была разработана с довольно большим запасом — чтобы можно было опираться на него при решении не только сегодняшних сложных задач интел- лектуальной автоматической обработки текста, но и задач завт- рашнего дня. Были учтены типы словарных информаций, запла- 227
нированные или уже реализованные в нескольких известных про- ектах и системах (они перечислены в списке литературы). Основ- ной направленностью словаря остается ориентация на семанти- ческий анализ в масштабе текста, а не только предложения. Во множестве словарей системы ПОЛИТЕКСТ главным семан- тическим словарем был Русский общесемантический словарь (РОСС) [см. Леонтьева, 1997; Семенова, 2000], который вызы-; вался и работал в цепочке процессоров системы после синтаксиче-’ ского анализа. Он развивал идеи, заложенные в словаре системь французско-русского автоматического перевода (ФРАП). Вариан такого семантического словаря был адаптирован к системе ма- шинного перевода ДИАЛИНГ [см.: Сокирко, 2000; 2001]. С 1999 г. работа над словарным комплексом и базой данньг РОСС была перенесена в НИВЦ МГУ, где словарь получил дру гое название — РУСЛАН. В настоящее время комплекс РУСЛАН-] («РУсские СЛовари АНализа», версия 2001 г.) развивается ка! самостоятельный словарный комплекс многоцелевого назначения Естественно, что при создании такого комплекса были приня- ты во внимание многие отечественные и зарубежные разработки в конце главы кратко аттестованы некоторые из наиболее извест- ных семантических словарей. Принятый подход к словарным опи- саниям обладает максимальной полнотой в том смысле, что of учитывает все типы единиц и все уровни словарной информации Что касается состава и детальности словарных описаний, то : РУСЛАНе развивается «средний» подход. Поскольку словарь мно гоуровневый и в нем нет жесткой привязки к определенной грам матике, возможно обращение к нему из разных систем, имеющи морфологический (а еще лучше и синтаксический) анализ, с не большой настройкой словаря на тип входных данных. Структур; же семантического уровня анализа задает сам словарь. Все эт< позволяет считать описываемый комплекс типичным представи телем прикладных семантических словарей и дать ниже его под робное описание. § 63. Типы входов в словарь Настоящая версия словарного комплекса РУСЛАН содержи; несколько частей. Первую, главную, часть словаря образуют пол позначные лексемы — это одиночные лексические единицы. Вто рую часть словаря составляют простые предлоги, союзы, устой чивые словосочетания (например, сложные предлоги и союзы hj обороты), другие вспомогательные слова (частицы и пр.), а таю знаки препинания — все они являются словами-отношениями пр нятого семантического языка. Третья часть включает свободн! или полусвободные общеязыковые словосочетания и термин 228
которым приписывается лишь общелингвистическая семантиче- ская информация. К перечисленным естественным (встречающимся в тексте) типам единиц добавим элементы метаязыка, в том числе нетер- минальные символы (НТС): Высказывание, Ситуация и др. Описа- ние их семантики тоже задается словарным путем, хотя и отно- сится к смысловой грамматике. Продолжением основного (общелингвистического) словарно- го комплекса является ряд словарей предметной области, где по- мещена специфическая для каждой ПО терминология с тезаурус- ной и энциклопедической информацией, а также конкретная лек- сика в виде словников и номенклатур. Все ПО-словари — это спец- словари. Каждая из упомянутых групп словарей организована в виде отдельной базы данных. В конечном счете вся эта система словарей представляет собой единый гиперсловарь системы автоматического анализа текста. При поиске смысловой информации для текстовых единиц можно об- ращаться к любой части комплекса, заходить во все БД. § 64. О метаязыке словарных описаний Метаязык словаря — это информационный язык-посредник. Напомним его главную единицу — формулу, основой которой является бинарное отношение. Элементарное высказывание на ИЯП имеет вид Р(А,В), где Р — отношение, А и В — термы; читается: А находится в отношении Р к В. На втором месте обыч- но стоит семантически главное слово: АВТОР {Петров, сообщить) СОДЕРЖ {угон, сообщить) ОБЪЕКТ {машина, угон) МАРКА {ВАЗ, машина) ИСХОДН_ТОЧКА {гараж, угон) ВРЕМЯ {вечер, угон) 1 АГЕНТ {?, угон) УГОЧН {?, вечер) § 65. Категоризация лексики Категория (поле КАТ) задает верхний уровень семантической классификации всей лексики. Выделяется пять крупных классов слов, различающихся семантическим поведением: 1) слова-этикетки (ЭТК); 2) местоименные слова (МЕСТ); 229
3) слова-отношения (ОТН); 4) аспектные слова (АСП); 5) слова-операторы (ОПЕР). Категория входной единицы определяется способом записи на принятом метаязыке, т. е. на ИЯП, что находит отображение и в семантической структуре высказывания с этим словом. Рассмотрим подробнее основные пять категорий. 1. ЭТК — слова-этикетки. Занимают позицию А или В в формуле Р(А,В). Слова этой категории образуют самый большой, откры- тый и подвижный класс слов, в него входят только полнозначные части речи. К этому классу прежде всего относится лексическое ' ядро общего языкового запаса и предметной области — в основ- ? ном этим словам в словаре приписывается изначально максималь- * ный информационный вес (см. поле ВЕС). | 2. МЕСТ — местоименные слова. Их можно считать разновидно-1 стью слов-этикеток, так как они тоже занимают в семантической • структуре позицию А или В в формуле вида Р(А,В), но единицы | этой категории семантически пусты и требуют уточнения семан- тическим отношением РЕФ (референт): АКТАНТ(о«м,В), РЕФ » они). Или ПРИЗНАК(тжой,В), РЕФ(?,такой). Заполнители пер- вого места вычисляются специальными алгоритмами работы с уже | построенной частью СемП текста, которые опираются на свой- | ства связности, как они определены для данного типа текстов. | 3. ОТН — слова-отношения (или смысловые отношения — СО, I СемО). Они занимают позицию Р в формуле Р(А,В): например, | РАВНО(А,В), АДРЕСАТОВ). j Основной источник СО — служебные части речи (предлоги,! союзы, знаки препинания); значения падежей существительных! и видо-временных категорий глаголов тоже переходят в СемП в I виде СО. Так, встреченная в изолированной позиции именная» группа (ИГ) в дательном падеже переведется в СемП формулой® АДРЕСАТ(ИГ,?): Ивановскому А.П. => АДРЕСАТ(Явановскмйи А.П.,?), где на месте знака «?» может быть восстановлено слово Д обозначающее действие и имеющее сильную валентность на АДД РЕСАТ (например, посылка, письмо, передача). Слова категории ОТНВ имеют исходно меньший, чем у слов ЭТК, информационный вес Д поскольку обозначают связи между единицами других категорий» Вес СО может увеличиться в ходе СемАн текста, если позиции ^В и В будут заняты единицами с большим весом. В 4. АСП — аспектные слова. Эта категория слов — пестрая и бВ точки зрения грамматики (ими могут быть существительные, причВ лагательные, глаголы, наречия), и с точки зрения семантики. В Общим структурным свойством слов этой категории являетсяВ способ их отображения в СемП: слово занимает первое место |И формуле Р(А,В) и задает имя отношения (являющееся как бы ег^Н родовым понятием): Н 230 В
стария(начинать, строить) модальность(далжен, строить) оценка(первостепенный, важность) параметр (/шзмер, комната) часгь(член,коллектив) Некоторые слова (грамматически это существительные), со- впадающие с именами СО, относятся к категории АСП и в пер- вичном СемП занимают сразу две позиции — Р и его первого места: ВРЕМЯ(ерел«я,В); nPH4HHA(«pnwwa,B); ЦЕЛЬ(4<елб,В). Семантическое поведение этих слов аналогично поведению слов категории МЕСТ: они требуют нахождения того члена СемП тек- ста, которым можно уточнить первый терм формулы. Их исход- ный информационный вес меньше, чем у слов-этикеток и у боль- шинства слов-отношений. 5. ОПЕР — слова-операторы. В первичном СемП эти слова за- нимают первую позицию в составе формулы ОПЕР(С,В); на вто- ром месте (позиция В) указывается семантически главная едини- ца. Индивидуальное поведение единиц категории ОПЕР описыва- ется алгоритмами преобразования части СемП; каждый оператор имеет свою сферу действия, в пределах которой могут выполнять- ся сложные преобразования над уже построенной частью СемП [см.: Богуславский, 1966]. К этой категории относятся частицы (не, даже, только), вводные слова (кстати, в частности, действи- тельно, на самом деле) и др. (особенно, наоборот, соответственно). В дальнейшем слово-оператор может уточниться как ФУНК- ЦИЯ^,В), МОДАЛЬНОСТЬ(С,В), КВАНТОР(С,В) и др. Информационный вес слов этой категории минимальный, но в результате вызванных ими преобразований может измениться информационный вес главного терма В или связанных с ним еди- ниц. Работа с этими единицами относится к этапу собственно се- мантического анализа текста, когда сформированы единицы, могу- щие быть аргументами вводимых смысловых отношений. В су- ществующей версии словаря лишь некоторые поля, например ВАР (вариант), релевантны для них; в поле КОММ (коммента- рий) можно формулировать предложения к алгоритмам обработ- ки этих слов, а также делать ссылку на те лингвистические рабо- ты, где дается подробное описание их поведения. Итак, главный семантический словарь — словарь лексем — включает полнозначные лексемы (в основном слова категории «этикетки», но также много аспектных слов). Второй по значимо- сти — словарь отношений — включает слова и словосочетания, которые переходят в отношения. Слова-«полуотношения» (это те слова, которые из категории ЭТК переходят в дальнейшем в ка- тегорию ОТН, например, являться, соответствовать) распреде- лены сейчас между этими двумя словарями: слова, принадлежа- щие к полнозначным частям речи, описываются в словаре лек- 231
сем, остальные (адвербиалы, частицы и др.) — в словаре отно- шений; таким словам приписываются обе категории. § 66. Состав информации в семантическом словаре лексем Словарь лексем имеет иерархическую структуру: нижний уро- вень — поля, принимающие конкретные значения; верхний уро- вень составляют зоны — имена групп полей. Эти групповые дан- ные соответствуют существенным для системы аспектам представ- ления информации. В актуальной версии словаря 10 зон, которые включают более 50 полей. Ниже приведен список зон с кратким описанием в основном той информации, которая приписывается в настоящее время, но частично и той, которую считаем необхо- димой для задачи построения базы текстовых фактов. ВХОД: Идентификация входной единицы (имя и номер значе- ния). Иллюстрации к описываемому значению. ОБЩ. Общие сведения о входной единице — слове С. Грамматические (морфолого-синтаксические) характеристики слова С описываются двумя зонами: МОРФ и СИН. МОРФ: Морфологические ограничения, при которых справед- ливо приписываемое слову значение; сведения о производных словах, меняющих лишь синтактику единицы С либо меняющих значение С на объявленный квант смысла. СИН: Синтаксический класс слова и его стандартная роль в предложении. Предусмотрено поле для так называемого сильного управления, хотя в этой зоне его можно не приписывать, по- скольку оно появляется в зоне СЕМ как возможный в пределах фразы синтаксический способ реализации отдельных смысловых валентностей и при необходимости может быть собрано автома- тически как сумма всех заданных реализаций. СЕМ: Семантическая категория, семантические характеристи- ки и возможные трансформации СХ входной единицы. ВАЛЕНТ: Набор смысловых валентностей входной единицы.. Гипотезы о способах реализации валентностей в составе предаю-j жения и во всем тексте. Коррекции, которые необходимо выпол-] нить над фрагментом первичной семантической структуры со ело-; вом, а также другие семантические операции. СИТ: Структуры ситуаций, обусловленных семантикой вход- ной лексемы и наиболее вероятных в данной предметной области. Отношения между ситуациями; из них особо выделены отноше-j ния предшествования и следования во времени. 1 ИНФ: Информационная зона, включающая помету о принад-1 лежности слова некоторой предметной области, варианты (ква-1 зисинонимы), информационный вес описываемой единицы! 232
в семантическом и информационном представлениях, энцикло- педические функции, термины на основе входной лексемы, а также тезаурусные связи, которые можно приписать входной единице, если она принадлежит определенной ПО. ПРАГМ: Прагматика единицы в задаваемой предметной обла- сти: способ построения события, выводы и пресуппозиции, оценки события. ЛЕКС; Лексическая сочетаемость С с другими словами, шабло- ны, фраземы, лексические функции. Актантные лексические функ- ции. Нестандартные вопросы к актантам. ЭКВ: Иноязычные эквиваленты входной лексемы и связанных с ней терминов (с условиями выбора перевода). КОММ: Комментарии составителя. Ф.И.О. или иной шифр со- ставителя данной словарной статьи. С точки зрения используемой лингвистической теории словарь РУСЛАН описывает каждую входную единицу в нескольких ас- пектах: Зоны ОБЩ, МОРФ и СИН описывают единицу С как слово- форму (грамматическое поведение в предложении); Зоны ЛЕКС, ЭКВ и ИЛЛ описывают единицу С как лексему (сочетаемость, перевод, примеры); Зона СЕМ описывает единицу С как слово = значение (с точки зрения ее семантического поведения в тексте); Зона ИНФ описывает единицу С как понятие, или единицу тезауруса (с точки зрения информационного поведения в текстах данной ПО); Зона ПРАГМ предусмотрена для настройки словаря на конк- ретную задачу, для адаптации структуры Ситуации к возможным запросам пользователя (способ построения События). Понятие Зона присутствует только в концептуальном аспекте словаря; в составе баз данных описание слова дается просто в виде множества полей. Часть полей (те, которые в первую очередь пред- полагается вызывать из прикладных программ) вводится в БД по заданным форматам. § 67. Подробное описание полей словаря лексем Зона МОРФ (Морфологические данные) К этой зоне отнесены сведения о морфологических характери- стиках слова С, об особенностях слова или словоформы и о сло- вообразовательных возможностях вводимой единицы. Поле ОГРН — ограничения, при которых справедливо описа- ние значения. Здесь можно записать любую грамматическую кате- горию. Чаще всего используется ОГРН = ед! (только единственное 233
число) или ОГРН = мн! (только в множественное число). Так, для j слова выборы ОГРН = мн!, а слово член в значениях 1 и 2 будет 1 иметь соответственно ОГРН = одуш! (член правительства) и ОГРН = 1 неодуш! (член предложения). | Возвратные глаголы с новым или измененным значением вво- 1 дятся отдельной словарной статьей, и в поле ОГРН у них стоит I «возвр!» У прилагательного признаки «качественное» или «относитель- I ное» фиксируются в отдельном поле КАЧ (соответственно симво- I лами «+» или «-»), при этом качественность трактуется более ши- 1 роко, чем принято в грамматиках, исходя из текстовых реалий. 1 Например, в текстах встречается более оптимальный, более общий, I хотя данные прилагательные — традиционно относительные, не I допускающие аналитической степени сравнения. I Возможность образования краткой формы от полной словар- 1 ной формы слова фиксируется в поле КР (краткость) также сим- I волами «+» или «-». Так, у слова автомобильный оба эти поля (КАЧ I и КР) имеют признак «-». I Поле ПРОИЗВ (производность) фиксирует способ образова- 1 ния других форм от данного ЗГЛ, в том числе форм возвратное- 1 ти, сравнительной и превосходной степени, отрицательных форм. Я Для глагола указываются нестандартные способы образования I видовой пары, способы образования нестандартных отрицатель- I ных форм (ОТР); последнее возможно также для наречий и при- I лагательных: I ЗГЛ = контекстный fl ПРОИЗВ = ОТР (вне-, бес-, не-) Я Те же, а также более сложные отношения производности мо- I гут быть описаны в зоне ЛЕКС, например, SO, АО и др. [см. Мель- I чук, 1974; и другую литературу о лексических функциях], а также Я в полях АЛФ1-7 (актантных лексических функций) зоны ЛЕКС. I Поле ОТС при глаголе совершенного вида отсылает к его видо- вой паре (несовершенный вид), если они расходятся в значении Я только на тот квант, который зафиксирован как значение грам- матической категории «сов. вид»: I ЗГЛ = ввезти Я ОТС = ввозить. #1 I ЗГЛ = взять Я ОТС = 1 брать.# 1 Я 2 брать. #2 3 брать. #3 Я 4 брать. #4 Я Такие записи обрабатываются программно: для глагола взять программа СемАн текста обратится к видовой паре брать во всех 234
указанных четырех значениях. При этом необходимо вызвать сло- варную статью нетерминального символа «сов.вид», которая иногда может помочь сократить лишние значения. Зона СИН (Синтаксические сведения) В поле ГХ (Грамматические характеристики) указываются морфолого-синтаксический класс входной единицы (ГЛагол, Существительное, ПРИЛагательное, ПРЕДИКатив, НАРечие, ЧИСЛительное, МЕСТоимение...) и ее синтаксическая роль. На- пример, ГЛ:ГГ (глагол:глагольная группа); СУЩ:ИГ (входит в именную группу), ПРИЛ:С_ОПР (является согласованным опре- делением), НАР:ОПР или НАРгОБСТ (наречие-определение или наречие-обстоятельство), МЕСТ:ИГ или МЕСТ:С_ОПР или МЕСТ:ОБСТ. Запись «ИГ» — это обобщение синтаксических ро- лей, которые может выполнять именная группа: например, быть синтаксическим актантом (прямым или косвенным дополнени- ем, подлежащим), сирконстантом, несогласованным определе- нием, приложением. Если мы на входе описываем словоформу (например, лесом) в определенном значении, с очевидной син- таксической ролью (обстоятельство), то символ ИГ опускаем, а форма записи в этом поле остается такой же двучленной: ГХ = СУЩЮБСТ. Типы именных групп могут быть больше дифференцированы. Запись в поле УПР (управление) представляет собой упрощен- ное описание, к нему может обращаться простой синтаксический анализ (СинАн), пока не заработал этап семантического анализа. Так было в системе ФРАП и в первой версии СинАн проекта ПОЛИТЕКСТ: в поле УПР записывалось множество сильных по- верхностных реализаций всех валентностей, без разделения на значения связи и значения самого слова. Примеры: аванс 1(1) УПР = от + Р; Д; на + В; на сумму + В; в + В; в сумме + И (в сумме 2 тыс. рублей), где И, Р, Д, В — значения падежей Но все сколько-нибудь сложные случаи анализа фразы нельзя разрешить только на основании такой синтаксической информа- ции — надо опираться на смысловые значения связей в поле ВАЛ. Зона СЕМ (Семантические описания) Как сказано выше в разделе «Категоризация лексики», поле КАТ принимает значения ЭТК, МЕСТ, ОТН, АСП, ОПЕР, ПРОЧ, где ПРОЧ — это квазикатегория («прочие»), она введена для накопления сомнительных и неясных случаев. Основной класс — слова-этикетки (ЭТК). 235
Слова категории ЭТК образуют три подкласса: объекты, при- знаки и ситуации (ОБ, ПРИЗЫ, СИТ). В очевидных случаях слову нужно приписывать уточненную категорию: ЭТК-ОБ (словам пре- зидент, статья, законопроект), ЭТК-ПРИЗЫ (практически всем прилагательным и наречиям) или ЭТК-СИТ (например, словам война, обсуждение, утечка и др.). В неоднозначных или неясных слу- чаях (система, режим, право) может быть приписана общая катего- рия (просто ЭТК). Дальнейшая семантическая дифференциация слов-этикеток задается значениями полей СХ (семантическая характеристика) и ВАЛ (смысловые валентности) зоны СЕМ. Поле СХ вводит семантические характеристики слова. Набор СХ никак не заменяет толкование и не дает исчерпывающего опи- сания значений слова. СХ не переходят в окончательное СемП, а лишь служат дифференциальными признаками и используются как селективные ограничения при семантическом анализе текста. Вме- сте с тем некоторые из них достаточно предметны, т.е. задают класс внеязыковых сущностей с такой характеристикой. Перечис- лим некоторое подмножество используемых СХ: APT (артефакт) АБСТР (абстрактность) ВЕЩВО (вещество) ВЕЛИЧ (величина) ВЛАСТЬ (власть) ВМЕСТЛ (вместилище) ВОСПР (восприятие) ВРЕД (все, что сопряжено с опасностью для жизни) ГОС (государство, государственность) ДВИЖ (движение) Слову может быть приписана одна или несколько СХ, при- меры: ЗГЛ = аванс, СХ = ФИН (финансовость) ЗГЛ = смета', СХ = НОСИНФ (носитель_информации..),ФИН ЗГЛ = август; СХ = ВРЕМЯ,ИНТРВЛ (время, интервал) ЗГЛ = автобус; СХ = УСТР,ДВИЖ (устройство, движение) ЗГЛ = амплитуда; СХ = ПАРАМ (параметр) ЗГЛ = акционер; СХ = ДОЛЖ (должность),ФИН1 Синтаксис записи в поле СХ простой: конъюнкция СХ зада- ется их перечислением через запятую; дизъюнктивные цепочки СХ записываются (и нумеруются) как разные значения одного поля, что позволяет не множить число значений самого слова. Например: , 1 СХ «ДОЛЖность» понимается шире, чем собственно должность: тоже и как социальная функция; такую СХ имеют слова пенсионер, пионер, иллюзионист и др.; 236
ЗГЛ = архипелаг 1(1) СХ = ПРОСТР (пространственность), СОБИР (собирательность) ЗГЛ = ансамбль 1 (1) СХ = 1 СОБИР,ОДУШ {ансамбль исполнителей) 2 СОБИР,ПРОСТР {архитектурный ансамбль) В составе цепочки рекомендуется располагать СХ в последова- тельности «более общая СХ — более специфическая СХ». Однако естественное значение некоторых СХ требует, чтобы они стояли перед той СХ, которая является по сути их аргументом: это отри- цание (СХ ОТСУТ), каузация (СХ КАУЗ), и некоторые другие (см. ниже о квази-СХ ОПР). Например: СХ = КАУЗ,ДЕЙСТВ; СХ = ОТСУТ,ДВИЖ; СХ = ОПР,ОДУШ Наряду с семантическими характеристиками в поле СХ ис- пользуются имена лексических функций (ЛФ); за ними в скобках может быть записан аргумент ЛФ, если это конкретная лексема: ЗГЛ = амплитудный СХ = А {амплитуда) Если же в качестве аргумента ЛФ взята СХ, она записывается обычным способом — через запятую после имени ЛФ: ЗГЛ = аномальный СХ 1 AntiBon 2 AntiMagn, ВЕЛИЧ 3 Magn, ВЕЛИЧ Как показывает первая строка в этой записи, имя ЛФ (или комбинация ЛФ) может появляться в поле СХ и без аргумента. Так, глаголу оказывать можно приписать в качестве СХ одну ЛФ (Орет). Кроме собственно СХ и ЛФ в поле семантических характерис- тик может фиксироваться на равных правах с ними имя смысло- вого отношения (СО), и в этом случае оно пишется без скобочно- го «хвоста», т.е. без обозначения двух его аргументов: ЗГЛ = аналогичный КАТ = ЭТК-ПРИЗН СХ = ОТНОШ,ОПР,СХОДНО Поясним эту запись. СХ ОТНОШ означает, что в дальнейшем преобразовании СемП это слово перейдет в имя отношения, а именно отношение СХОДНО(,). Сочетание СХ ОПР,СХОДНО означает «определение по сходности». Символ ОПР всегда связан со следующим за ним именем СХ. Такая связная комбинация ти- пична для аттестации прилагательных. Остановимся на этом подробнее. Прилагательные допускают несколько эквивалентных способов описания. Самой общей СХ 237
является СХ ПРИЗЫ (признак), которая по сути повторяет зна- чение поля КАТ (ее можно поэтому не приписывать, так как она формируется при анализе автоматически для всех, даже и для неузнанных прилагательных и наречий). Чтобы не пришлось В приписывать много конкретных значений каждому прилагатель- ному (а сложности их описания известны), можно использовать В комбинацию из СХ ОПР (не собственно СХ) плюс СХ аргумен- та: Л ЗГЛ = архитектурный И СХ = ОПР, ОДЕЯТ (область деятельности) И Запись понимается как «определение по области деятельное- В ти», так как СХ(архитектура) = ОДЕЯТ. В ЗГЛ = американский И СХ = ОПР,ГЕОГР . В Запись нужно читать как «определение по географическому В понятию», так как СХ(Америка) = ГЕОГР. Те же прилагательные можно описать в поле СХ иначе — через В лексическую функцию А и прямое, в виде лексемы, ^ведение ар- В гумента: В ЗГЛ = архитектурный В СХ = ^(архитектура) И ЗГЛ = американский В СХ = ^(Америка) В Какой из двух способов записей более информативен? Види- В мо, второй. Однако запись вида А (архитектура), ссылающаяся В на конкретную лексему, предполагает, что эта лексема присут- В ствует в словаре и, возможно, для нее зафиксировано отношение В производности, например, для слова архитектура В ПРОИЗВ = прнл(архитектурный) В Такой способ требует ввода в словарь многих конкретных слов; В это значит, что находить СХ прилагательного нужно не прямо, а В обращением к СХ производящего слова, по правилу: В Если СХ(архитектура) = ОДЕЯТ, то СХ(архитектурный) = ОПР, В ОДЕЯТ В Если СХ(Америка) = ГЕОГР, то СХ(американский) = ОПР,ГЕОГР В: При этом если наличие в словаре слов Америка, Россия, Москва В не вызывает возражений ввиду частой встречаемости этих имен В в текстах ПО и их неоднозначности (Москва — не только имя В города, но название гостиницы, сорта печенья и т.п.), которую В только и можно описать в словаре, то вводить всю географичес- В кую конкретику просто нельзя, ее место — в географической БД. В То же можно сказать и о других пластах конкретных слов, кото- В 238
рым место скорее в номенклатурных БД, чем в общелингвисти- ческом словаре. Но образованные от них прилагательные имеют более широкий спектр значений и поэтому могут быть введены в словарь самостоятельно, так как часто они оказываются утра- тившими историческую связь с соответствующим существитель- ным (московская водка — не водка из Москвы, торт Ленинград- ский — не из Ленинграда, да и французские булочки — далеко не из Франции). А слова конкретной лексики могут быть вынесены в отдельную БД, тем более что для описания их значений гораздо существен- нее тезаурусные и энциклопедические поля (т. е. экстралингви- стическая информация), чем валентности и выводимые из них сведения, составляющие основу описаний в общесемантическом словаре. Использование двух языков (язык СемО и язык ЛФ) может создавать, как мы видели, вариативность и даже избыточность описаний в составе словарной статьи: записи в полях СХ, ПРО- ИЗВ и ЛФ могут дублировать информацию. Это относится не толь- ко к прилагательным. Дублирование возможно и в составе одного поля, чаще всего СХ: ЗГЛ = аннулировать СХ = CausLiqu,KAy3,OTCyT Пока это обеспечивает известную гибкость в описании и спо- собе использования содержательной информации. Лишь экспери- менты с программами семантического анализа (СемАн) позволят уточнить, в каких случаях какой язык дает более удобные спосо- бы представления с точки зрения обращения к этой информации в ходе СемАн. ТРАН_СХ — трансформация семантической характеристики, т.е. регулярное изменение семантической характеристики сло- ва С в каких-либо условиях: при наличии некоторых граммати- ческих характеристик или при употреблении в определенном кон- тексте. ЗГЛ = аудитория СХ = ВМЕСТЛ (вместилище) ТРАН(СХ) => СОБИР (собирательность), ОДУ1П Аудитория проголосовала за то, чтобы лекцию читали по-французски За счет таких трансформаций можно сокращать количество значений входной лексемы, не заводить отдельных статей для метафорических употреблений слова и др. Так, СХ(чашка, ложка, стакан ) = ПРЕДМЕТ => ЕД-ИЗМ (единица измерения, ср. Выпил целый стакан); к СХ (убить) = ДЕЙСТ,КАУЗ,ВРЕД добавится Транс(СХ) => АБСТРактность (Убил своими аргументами). 239
Зона ВАЛЕНТ (Семантические валентности) Поле ВАЛ перечисляет набор валентностей слова и тем самым продолжает семантическое описание слова. Излишне напоминать, что валентности — это смысловые связи между словом С и его аргументами, сопровождающими значение С. В отличие от СХ имена смысловых валентностей становятся именами дуг СемП и поэтому являются в принятой системе семантического анализа более важной характеристикой, чем СХ. Хотя ни те, ни другие, даже взятые вместе, не дают исчерпывающего описания значе- ний слова, они хорошо предсказывают текстовое поведение сло- варной единицы. Фрагмент списка валентностей: АВТОР(А,В) АДРесат(А,В) АКТант(А,В) АКТУАЛизатор(А,В) • АСПЕКТ(А,В) ИНСТРумент(А,В) В принципе количество смысловых валентностей, приписывае- мых слову, не ограничивается, и порядок их записи Не важен, хотя рекомендуется располагать их по мере убывания силы связи. В настоящей версии БД РУСЛАН разрешено вводить при слове до семи валентностей; кандидаты на заполнение обозначаются сим- волом А с цифрой (от А1 до А7), само слово представлено симво- лом С. Структура записи в поле ВАЛ: Р, Аь, С или Р, С, А^ каж- дая следующая валентность отделяется знаком «;». Например: ЗГЛ = обращение 1(2) ВАЛ = АВТОР,Al,С; ТЕМА,А2,С; СОДЕРЖ,АЗ,С; АДРЕСАТ,А4,С Наиболее содержательны имена валентностей у слов категории ЭТК-СИТ, — их справедливо называть ситуативными валентнос- тями, а возможные члены объявленных отношений — актантами (от них и символ А). Но теми же СемО могут описываться валент- ности слов-объектов (ЭТК-ОБ): ЗГЛ = акт 2(2) ВАЛ = АВТОР,Al,С; ТЕМА,А2,С; СОДЕРЖ,АЗ,С Валентности третьей разновидности слов-этикеток (ЭТК- ПРИЗН), к которой принадлежат в основном прилагательные, отличаются большей пестротой, так как велик разброс в семанти- ке их связи с существительными. ; Широкий круг прилагательных имеет валентность ЗНАЧ(С,А1) J это слова типа большой, узкий и др. Запись нужно понимать: боль-, шой — это значение величины, размера', узкий — это значение пара-' метра ширина. 240 i
Если не удается — с помощью ограниченного количества СХ и СО — конкретизировать описание значения прилагательного С, например, слова физический, то в поле ВАЛ повторяется одно из общих СО: ХУРУ(3}^(физический,география), или РАЗНВД (разно- видность) (физический,география), или даже высшее в иерархии отношение СВЯЗАН (связано с): СйЯЗАЯ(\(физика),география), если составитель считает, что прилагательное физический семан- тически производно (А) от существительного физика. Кроме всего прочего, у некоторых прилагательных могут быть и ситуативные связи, например, у слова враждебный'. ВАЛ = СУБЪЕКТ(А1,С); АДРЕСАТ(А2,С); АСПЕКТ(АЗ,С) Та же картина с аспектными словами. Словам категории АС- ПЕКТ может быть приписана уточняющая валентность, например, ФОРМА(С,А), МОДЛ(модальность)(С,А), ЧАСТЬ(С,А) и др.; если же не удается подобрать в списке СО конкретное отношение, в котором описываемое слово заняло бы первое место, остаются об- щие отношения, совпадающие с именем категории: АСПЕКТ(,), ПАРАМЕТР^). Так, слову начало категории АСП можно приписать ВАЛ = МОДЛ(начо/го,А1). Не будет неправильной также запись ВАЛ = АСПЕКТ(начо/го,А1), так как в Грамматике СО отношение АС- ПЕКТОВ) стоит по иерархии выше отношения МОДЛ(А,В): МОДЛ(А,В) < АСПЕКТ(А,В) [см.: Семенова, 1999]. Главная валентность слов категории МЕСТ (Местоименные) названа выше: это РЕФ(А1,С), причем А1 можно искать в преде- лах всего текста. Кроме нее, возможны другие валентности, дик- туемые значением лексемы. Так, для ЗГЛ = он (она или другие личные местоимения) характерна ВАЛ = АКТАНТ(С,А1), запись понимается как «быть актантом» некоторого А1. Само отношение РЕФ(,), подобно отношению ОПЕР(,), тре- бует индивидуального алгоритма поиска А1; как правило, иско- мое А1 находится в другом предложении или даже его надо вос- станавливать как СемУзел в пределах абзаца. Поле ВАЛ естественным образом дополняется информацией о том, какими смысловыми отношениями могут быть связаны меж- ду собой сами объявленные актанты, см. описание поля ДОП в зоне СИТ. Слово АКТАНТ используется нами и как имя СО, обозначаю- щее какого-то участника ситуации, и как родовое понятие для любого члена валентной структуры — за неимением лучшего тер- мина, и как вполне определенный элемент иерархии СО: АК- ТАНТОВ). Выше него по иерархии стоит СО СВЯЗАН (А, В), а уточняться оно может несколькими отношениями: АДР(А,В), СУБ(А,В), ОБ(А,В), МНА(А,В) /множественный актант, объяс- нение см. ниже/, П_АКТ(А,В), В_АКТ(А,В) /первый и второй актанты/, ИНСТРумент(А,В), ПОСРЕДник(А,В). 9 Леонтьева 241
Валентность МНА вводится для некоторых предикатов, обо- значающих взаимное или симметричное действие (коммуникация, договор), или функцию от двух и только двух объектов (расстоя- ние, граница), и для некоторых других, у которых семантически обязательные два актанта могут быть синтаксически выражены как слитным способом (МНА), так и раздельным (П_АКТ и ВАКТ): враждовать и др. Далее в словарной статье даются способы реализации каждой отдельной валентности в виде набора полей: СХ1 — семантические характеристики первого — из перечис- ленных в поле ВАЛ — актанта; эквивалентная ей и более полная запись — СХ(А1); ГХ1 — синтаксический и морфологический способы реализа- ции первого актанта. Поле имеет тот же формат, что и поле ГХ для заглавного слова, но способы реализации записываются не для всех актантов, а лишь для тех, которые имеют сильный син- таксический способ выражения данного актанта в пределах пред- ложения. Так, валентность на референта в этом поле скорее всего не будет конкретизирована, так как поиск должен вестись по все- му тексту; ПО31 — особенности позиции актанта А1 во фразе относи- тельно заглавного слова С и остальных актантов. Для русского языка эта информация либо тривиальна, либо специфична (когда слово выполняет смыслоразличительные коммуникативные функции), поэтому она вводится редко, но зарезервировать ее нужно. Такие же поля заполняются для каждого из следующих введен- ных в поле ВАЛ актантов (А2, АЗ ..., т.е. от СХ2 до ПО37). Остановимся немного более подробно на содержании и фор- матах заполнения актантных полей. Поля СХ(1-7) имеют тот же формат заполнения, что и поле СХ для входной единицы, но количество приписываемых СХ в них больше (так как нужно задать разные семантические классы слов, способных заполнять описываемую валентность), и они со- держательнее (в частности, там нет ОПР и ЛФ). Поля ГХ(1-7) — грамматические характеристики соответству- ющего актанта в виде его синтаксического класса и морфологи- ческих способов реализации; эти поля «богаче» поля ГХ входной единицы, так как каждая валентность может иметь способов выражения: по нескольку ЗГЛ = акт ЗН = 2(2) (второе значение — из всего двух) СХ = НОСИНФ (носитель информации) ВАЛ = АВТОР,Al,С; ТЕМА,А2,С; СОДЕРЖ,АЗ,С ГХ2 = 1 К_ДОП: о+П 2 КЛОП: нд+В 3 КЛОП: по+Д 242
4 К_ДОП: Р (косвенное дополнение, выраженное предлож- ной группой: о+Предложный падеж существительного и т.д., или сим- волом падежа: Р — родительный и т.д.) Примеры: акт о списании, акт на списание, акт по списанию, акт списания. Таким образом вводится способ реализации валентности в пределах предложения, называемый «сильное управление»; так же вводится и «слабое управление». Если способов реализации много (как у валентности ЛОК, КОНечная-Точка и др.), можно записать просто К_ДОП или ОБСТ_ГР — обстоятельственная груп- па, передав задачу связывания на семантический уровень (только по соответствию СХ, при этом допускается и поиск за пределами предложения). Естественно, что может быть введен символ толь- ко морфолого-синтаксического класса (ИНФинитив и др.). Нако- нец, в любом из полей ГХ, может быть использован символ «Текст» — это означает, что валентность может заполняться це- лым фрагментом текста. Так, например, валентность СОДЕРЖ(АЗ) у слова акт выражается целым текстом Акта, поэтому можно за- писать ГХЗ = Текст. Так же обстоит дело с «заявительными» слова- ми и СЛСЧ {приказываю, заявляю, изменения в приказе, предложение депутата Думы и др.), после которых, как правило, следует сам текст приказа. Символ «Текст» записывается на месте синтакси- ческой роли, а место морфологического способа оформления за- нимают двоеточие и кавычки: ЗГЛ = приказывать ОГРН = ГЛ 1л. ед.ч. ВАЛ = СОДЕРЖ,А2,С ГХ2 = Текст: ДВТЧ,КАВ Еще один не слишком стандартный способ заполнения поля ГХ, — заполнение конкретной лексемой или словосочетанием. Так, ВАЛ = АВТОР(А1,С) требует ГХ1 = за подписью + Р {Письмо за подписью Президента). Можно, конечно, объявить это СЛСЧ (сло- восочетание) сложным предлогом, но некоторые случаи все же к предлогам несводимы, поэтому такой формат имеет право на существование. Охарактеризуем вкратце другие поля зоны СЕМ, которым пока не задан формат в БД РУСЛАН, но которые заполняются в кар- тотеке. ПОЗ — взаимные позиции С и его актантов, если они все выра- жены во фразе. Задается их стандартная последовательность, на- пример: А1-С-АЗ-А2. НЕСОВМ — несовместимость способов реализации валентно- стей; записывается в виде конъюнкции ГХ (в основном морфоло- гических характеристик). совм — совместимость ГХ и/или СХ; записывается в виде про- дукционного правила — вывод, косая черта, условие. Например: 243
НЕСОВМ = МОРФ1.3 и МОРФ2.1 СОВМ = МОРФ2.1 / МОРФ1.4 (Если есть МОРФ1.4, то есть МОРФ2.1) КОРР — правила коррекции валентной структуры; записыва- ются в виде: исходное СО => (знак перехода) — результирующее СО — условие (через косую черту). Например: ЗГЛ = разрушать ВАЛ = АГЕНС,Al,С; ПАЦИЕН,А2,С КОРР = АГЕНС,Al,С => ПРИЧ,А1,С // СХ1 = СИТ (если оказавшееся в роли агенса понятие — СИТуация, его лучше считать причиной, на- пример, Бомбардировки разрушили город => Бомбардировки — причина раз- рушения города) Другой пример: ЗГЛ = опубликовать ВАЛ = СУБ,А1,С; ОБ,А2,С; ЛОК,АЗ,С СХ1= 1.0ДУШ 2. НОСИНФ Это описание допускает на первом шаге семантической интер- претации связи два разных способа удовлетворения валентности СУБ(А1,С): Журналист опубликовал материал в газете и Газета опубликовала материал... В первом случае СУБъект можно уточ- нить как АВТОР, во втором — как Локализацию: КОРР = СУБ(А1,С) => АВТОР,Al,С // СХ1 = ОДУШ СУБ(А1,С) => ЛОК,АЗ,С // СХ1 = НОСИНФ Газета опубликовала материал... =з> В газете опубликован материал Здесь валентность СУБ остается свободной и может быть за- полнена другим словом: мною опубликован. Данное поле полезно иметь хотя бы для того, чтобы не вводить разные значения там, где различия можно объяснить разными употреблениями. ТРАНВАЛ — поле трансформации валентностей. Фиксирует варианты валентного состава, не отраженные в поле КОРР. Поле можно использовать как способ сокращения числа значений: Тя- нуть дверь за ручку = Тянуть ручку двери. Зона СИТ (Ситуации) Зона содержит описание ситуаций, связанных с данным зна- чением слова. ОСит — общая ситуация; записывается в виде многоместного предиката: С(А1,...,Ап), т.е. слово С вместе со множеством своих актантов описывает некоторую ситуацию в целом. Эта форма до- пускает содержательные вариации. Так, из множества актантов можно исключить некоторые малоинформативные, оставив, на- 244
пример, С(А1,А4,А6), — это заданный словарно способ сжатия описания ситуации. Такое описание не зависит ни от количества актантов {А}, ни от силы связи, так как не требует разделения на сильные и слабые валентности. ЗГЛ = компенсировать ВАЛ = СУБ,А1,С; ПРИЧ,А2,С; АДР,АЗ,С; СОДЕРЖ,А4,С ОСит = С(АЗ,А2), т.е. компенсировать (кому, какой ущерб) Вариант той же записи — ВМЕСТЕ,С,{А}, или ВМЕС- ТЕ, С,{АЗ,А2}, где {А} обозначает все множество актантов, а смыс- ловое отношение ВМЕСТЕ(,) обозначает совместимость {А} с са- мим С. Такая вторая форма записи удобна тем, что она не нарушает принципа бинарности, принятого для всех структур в нашем под- ходе, и соответствующую запись можно включить наряду с про- стыми формулами в семантическое представление текста. Есть и содержательные достоинства: указанный способ сжатия — это своего рода ранжирование валентностей. Он дает также возмож- ность при автоматическом переводе более гибко подбирать пере- водные эквиваленты, что особенно важно, если нет подходяще- го перевода для данного предиката с исходным набором валент- ностей. Информация о дополнительных к валентным смысловых отно- шениях между самими актантами фиксируется в поле ДОП (до- полнительные отношения нумеруются): ЗГЛ = компенсировать ВАЛ = СУБ,А1,С; ПРИЧ,А2,С; АДР,АЗ,С; СОДЕРЖ,А4,С ДОП = 1. АКТАНТ,А1,А4; 2. ПАЦИЕН,АЗ,А2; 3. АДР,АЗ,А4 Тем самым в поле ДОП перечисляются (формально задаются) те ситуации, которые можно ожидать в развертывании текста, если реализовано значение слова компенсировать, а именно: тот, кто компенсирует (А1), объявляется АКТАНТом, или участни- ком действия, являющегося содержанием (А4) компенсации; тот, кому компенсируют, или адресат (АЗ), является пациенсом дей- ствия (А2), являющегося причиной компенсации; он же (АЗ) яв- ляется адресатом содержания компенсации. На подобную информацию могут опираться и правила восста- новления члена валентной структуры, в частности восстановле- ние субъекта действия, если последнее выражено инфинитивом: ЗГЛ = приказ ВАЛ = АВТОР,Al,С; СОДЕРЖ,А2,С; АДР,АЗ,С ДОП = СУБ,АЗ,А2 // если СХ(А2) = ДЕЙСТ; ГХ(А2) = Инфинитив Приказ войскам перейти на летнюю форму одежды =* Войска перехо- дят... 245
ЭСит — элементарные ситуации, ассоциированные с ОСит; ЭСит записываются в тех же формулах вида Р,А,В. Возможно ука- зание условий (после «/»), при которых справедливо (истинно) данное ЭСит: ЗГЛ = экспортировать ВАЛ = СУБ,А1,С; ОБ,А2,С; КОН_Т,АЗ,С ЭСит = 1. ПРИНАД,А2,А1 / СХ1 = ОРГ 2. ЛОК,А1,А2 / СХ1 = ПРОСТР, ГОС 3. ПРИНАД,А2,АЗ / СХЗ = ОРГ 4. ЛОК,АЗ,А2 / СХ1 = ПРОСТР, ГОС В дальнейших полях (или в том же поле) ссылки на эти эле- ментарные ситуации задаются в виде: ЭС1, ЭС2, и т.д. Напри- мер, в последнем случае 5. ПОСЛЕ,ЭС4.ЭС2 Набор записей в поле ЭСит продолжает либо даже дублирует набор записей поля ДОП, но первый богаче и свободнее. Разница между ними в том, что в поле ДОП вводятся только отношения между объявленными актантами (А.) вые члены отношений мо- гут вводиться в своем лексическом виде, и членами одних ЭСит могут быть другие ЭСит того же поля. Еще одно отличие состоит в том, что здесь можно (и даже желательно) использовать оценоч- ные, модальные, кванторные и некоторые другие отношения, причем на первом месте в этих отношениях стоят фиксированные лексемы-дескрипторы, список которых ограничен (ВОЗМ, НЕ- ВОЗМ, ИСТинно, HE-ИСТ, МНОГо, ВСЕ и др.). По сути дела, в данном поле дается свободное и детальное описание реальной ситуации, связанной с реализацией значения данного слова. Эта запись эквивалентна толкованию слова, но она формальна — это фрагмент СемП, записанный множеством формул (триад) на принятом в системе семантическом языке. Существуют слова, бо- гатые семантически, но такие, которым трудно приписать какие- либо непосредственные валентности. Поле ЭСит позволяет ком- пенсировать их отсутствие таким формальным толкованием, ко- торое может быть использовано в процедурах СемАн для установ- ления связей по тексту: ЗГЛ = дезинформация ВАЛ = - ЭСит = 1. СУБ,М,сообщать 2. ТЕМА,А2,ЭС1 3. СОДЕРЖ,АЗ,ЭС1 4. МОДЛ,НЕ-ИСТ,ЭСЗ Последняя формула утверждает, что содержание сообщения имеет модальность «неистинно». 246
Актанты формул типа СИТ получают номера, следующие за последним номером валентности: так, если валентностей было три (АЗ), то вводимые в поле ЭСит актанты получают номер А4 и далее. Если валентностей не было, нумерация актантов начинает- ся с А1. И сами формулы нумеруются, чтобы на них можно было сослаться как внутри того же поля, так и в последующих полях. Поля ПРЕДШ и ПОСЛ выделяют из множества формул поля СИТ две группы: те, которые предшествуют общей ситуации, и те, которые следуют за ней, например: ПРЕДШ = ЭС1 —ЭС4; ПОСЛ = ЭС10-ЭС12. Для ЗГЛ = экспортировать (см. выше) эти поля получат значе- ние: ПРЕДШ = ЭС1-ЭС2; ПОСЛ = ЭСЗ-ЭС4. Зона ИНФ (Описание слова как единицы информационной структуры текста и тезауруса) ПО — поле, задающее предметные области, для которых спра- ведливо описываемое значение слова. Актуальные ПО, которые охватывает Тезаурус проекта ПОЛИТЕКСТ — это политика, эко- номика, законодательство, военная и общая тематика. ВЕС — информационный вес единицы в данных ПО (5 — са- мые информативные слова, 1 — стоп-слова, пустые для ПО). Не- сколько усложнен формат этого поля у пустых слов, имеющих ВЕС = 2: в скобках за ним назван тот актант, который может не только повысить ВЕС, но и войти в состав СемУзла вместе со словом ЗГЛ. Например: ЗГЛ = выборы', ВЕС = 5 ЗГЛ = начинать', ВЕС = 2 (А2) (начинать работу — один СемУзел) ЗГЛ = являться; ВЕС = 3 (малоинформативные слова, ВЕС которых зависит от всех, обычно двух, актантов) ТЕРМ — включающие слово С термины, которые должны войти в дальнейшем в какие-либо базы данных или тезаурусы системы: ЗГЛ = взаимопомощь; ТЕРМ = братская взаимопомощь ВАР — лексические варианты слова С (разной степени близости): ЗГЛ = компенсация; ВАР = возмещение, страховка, контрибуция, выплаты ЗГЛ = вид; ВАР = разновидность ЗГЛ = брак; ВАР = бракованная продукция (его можно записать и в терминах) АСЦ — другие ассоциированные понятия: ЗГЛ = депутат; АСЦ = избирательная кампания, органы власти и др. Более точные связи слова С с ассоциированными словами можно описать в зоне СИТ: 247
ЭСит= 1.ОБ,С,избирать; 2.ПРИНАД,полномочия,С; 3. и т.д. Но если составителю это трудно сделать сразу, можно просто заполнить поле АСЦ — в надежде, что по ключевому слову из списка слов АСЦ можно будет найти его связи по результатам семантического анализа и ввести их в дальнейшем в поле ожида- емых для данного слова ситуаций. экспл — экспликация или определение (для слов с весом 4 и 5), они либо формулируются на языке описания ситуаций (см. выше), либо могут быть взяты из энциклопедического словаря. Для слов, достаточно полно описанных в зоне СИТ, здесь можно ничего не записывать. ВЫШЕ — родовые понятия для С: ЗГЛ = компонент; ВЫШЕ = часть ЗГЛ = законопроект; ВЫШЕ = документ энц — энциклопедические функции. Это то подмножество лексических функций, которые имеют энциклопедический харак- тер. Наиболее частые из них: SING — типовое название одной «штуки», одного кванта некоторого С; MULT — типовое назва- ние множества; CENTR — центральная часть предмета; CULM — кульминация, вершина процесса; САР — начальник, руководи- тель; EQUIP — личный состав; ATTR — типовая метонимия для С; например: ATTR (офицер)', погоны, форма; DOC — документ; ТдОСДе,5(отчитываться); отчет; ООСрегт(входшиь): пропуск; ВОСсеЛ(болезнь): справка о болезни; PARS — типовое название части предмета; PARAM — типовой параметр или свойство С; MESUR— единица измерения [см.: Мельчук, 1974]. Например: ЗГЛ = сенатор; ЭНЦ = Mult: Сенат ЗГЛ = депутат; ЭНЦ = Mult: парламент, Дума, съезд, Верховный Совет ЗГЛ = прибыль; ЭНЦ = Anti: убытки, ущерб ЗГЛ = расстояние; ЭНЦ = Mesur: километр, метр Зона ПРАГМ (Прагматика) Назначение этой зоны — дать возможность пользователю фор- мулировать значения, в пользу которых он хочет направить се- мантический анализ текста. СОБ — событие. По умолчанию событием считается вся ситуа- ция (ОСит), если заглавное слово имеет в поле ВЕС значение 4 или 5. Но таким событием можно объявить и один из актантов ОСит, тем самым он получит максимальный информационный вес, боль- ший, чем главный предикат ОСит. Формат поля СОБ — такой же, как у поля ОСит. При анализе заданное Событие становится вершиной (центром) СемП. Яркий пример дает слово помощь; 248
ЗГЛ = помощь ВАЛ = АГЕНТ,Al,С; АДР,А2,С; ПРИЧ,АЗ,С; С0ДЕРЖ,А4,С; П0СРЕД,А5,С ОСит = С(А1—А5) СОБ = АЗ(А2) Последняя строка примера означает, что мы хотим в тексте найти только то (АЗ), что является причиной оказания помощи, а также адресата помощи (А2). В поле ДОП было зафиксировано отношение между АЗ и А2, а именно: АКТАНТ,А2,АЗ. Объявляя Событием АЗ(А2), мы как бы ставим перед СемАн вопрос такого типа: Что произошло (АЗ), такое, что понадобилась помощь, ад- ресатом которой стал А2? ОЦ — оценка события, принимает значения: «+», «-» или «?». Последнее означает, что оценка события вытекает из оценки ак- тантов или ЭСит, которые фиксируются после значения оценки через косую черту: ЗГЛ = экспортировать', СОБ = ОСит; ОЦ = ? /А2 Например, фраза экспортировать наркотики (А2) получит оцен- ку «-», так как СХЛнаркотики) = ВРЕД. Если оценка нерелевант- на, тогда поле не заполняется. Пользователь может задать и свои значения оценки, не совпадающие с общепринятыми оценочны- ми нормами. ВЫВ — стандартный вывод. Заполняется в виде продукцион- ных правил вида: «Если (СИТ2), то НЕ (СИТЗ)», «Если (СИТ1 и СИТЗ), то (СИТ2)». ПРСП — пресуппозиция (имена ситуаций из уже введенных в словарную статью или формулируемые составителем единицы типа СИТ, без которых не выполняется истинность указанного события). ЛОГ — более сложные ситуации, характеризующие логику со- бытий. Здесь предполагается вводить достаточно длинные тексты на языке СемП, которые предсказывают логику развития в тексте того или иного СемО, зафиксированного в словарной статье. Зона ЛЕКС (Лексическая сочетаемость) СЛСЧ — разные несвободные индивидуальные словосочета- ния и обороты, обычно разрывные, они задаются в текстовом виде: ЗГЛ = власть', СЛСЧ = под властью ЗГЛ = сила', СЛСЧ = признать утратившим силу, вступать в силу Словарную статью такого словаря желательно заполнять, имея доступ к корпусу текстов. Сведения в поле СЛСЧ заносятся пока 249
впрок, для сбора данных о лексическом поведении слова в анали- зируемом корпусе. Еще один разряд полусвободных СЛСЧ — это конструкции. Конструкция задается в терминах синтаксических классов. Кон- струкций в словаре мало, так как для рассматриваемых типов тек- стов характерны не столько синтаксические, сколько лексиче- ские или лексико-синтаксические шаблоны: например, Настоя- щий Указ вступает в силу с момента его подписания. В этой же зоне приводятся и лексические функции (ЛФ), кото- рые описываются на языке модели «Смысл<=>Текст». ЗГЛ = депутат-, ЛФ = Operl: иметь (своего) ~а; Орег2: быть депута- том; Causl Орег2: выбирать (кого-л) депутатом; SI Operl: избиратель; Fact Bon: оправдать доверие избирателей ЗГЛ = брак 2(4); ЛФ = Ущусрасторгнуть - ЗГЛ = война 1(1);.ЛФ = CausFunc-.развязатъ - Ту же информацию можно записать и на нашем языке двумест- ных СО, но мы предпочитаем использовать язык ЛФ там, где это возможно. Трудность при этом заключается в сложности отобра- жения дополнительной информации о том, какбй частью речи является вводимая ЛФ и какое синтаксическое управление у сло- ва, являющегося ЛФ от описываемого: если ввести эти сведения, то получится очень сложный формат для БД — формат внутри формата. Вообще говоря, на первых порах можно обойтись и без форма- та: при совпадении ЛЕММы самой ЛФ и ее аргумента с последо- вательностью лемм в тексте ЛФ и ее аргумент объединяются, об- разуя один семантический узел. В дальнейшем все проблемы, связанные с использованием ЛФ, необходимо будет решать сис- темно. АЛФП — актантная лексическая функция — в этом поле поме- щается слово (слова), являющееся стандартным именем для п-го актанта. Поля АЛФ(1 — 7) заполняются проще, чем поле ЛФ для входной единицы, поскольку не надо вводить имя ЛФ: оно совпа- дает с именем соответствующей валентности. Например: ЗГЛ = лечить ВАЛ = АГЕНС,Al,С; ПАЦИЕН,А2,С; ПРИЧИНА,АЗ,С; СРЕДСТ- ВО,А4,С АЛФ1 = врач (стандартное название Агенса, далее — Пациенса и т.п.) АЛФ2 = больной АЛФЗ = болезнь АЛФ4 = лекарство А для ЗГЛ = договор-. ВАЛ = МНА,А1,С; П-АКТ,А2,С; В-АКТ,АЗ,С, где МНА - множе- ственный актант, П-АКТ и В-АКТ — первый и второй актанты 250
АЛФ1 = договаривающиеся стороны АЛФ2 = сторона АЛФЗ = сторона В поле ВОПР(1 — 7) рекомендуется фиксировать тот вопрос, который можно задать, если в СемП текста не оказалось нужного актанта. Например, при отсутствии в окончательном СемП актан- та АЗ у слова лечить информационная система может подсказать вопрос «А чем (был) болен А2?» вместо стандартного вопроса «Какова причина С?», который зафиксирован в грамматике при СемО ПРИЧИНА(А,В). Зона ЭКВ (Иноязычные эквиваленты). Поля АНГ, ФР, ВОЛГ АНГ — английские эквиваленты, перечисляются через «;», с указанием условий выбора. Очевидно, что могут вводиться слова- переводные эквиваленты любого языка: ведь описание семантики входного русского слова дает богатые возможности формулиро- вать условия выбора эквивалента. ФР — французский, БОЛ Г — болгарский эквивалент. Первый вводился ранее в БД, второй на- чали вводить в варианте словаря, создаваемого в болгарской АН. Зона КОММ (Комментарии составителя) ИЛЛ — примеры и иллюстрации к описываемому значению и трудным полям словарной статьи. ИЛЛ(1 —7) — иллюстрации к каждой отдельной валентности. КОММ — поле комментариев; заполняется в свободном фор- мате, содержит вопросы, предложения или дополнения к тому материалу, который составитель ввел в режиме диалога и хотел бы (или советует) в дальнейшем скорректировать. АВТОР — Ф. И. О. или шифр составителя словаря; возникает автоматически при вводе статьи. РЕД — редактор. Его имя или шифр появляются и далее меня- ются при каждом очередном исправлении словарной статьи. Пер- вичный составитель и редактор несут ответственность за качество словарных статей. Образцы словарных статей лексем приведены в приложении 13. § 68. Состав информации в словаре отношений Семантику слов-отношений нельзя объяснить, не обращаясь к структуре того семантического представления, которое мы наме- реваемся строить, ибо эти слова переходят в грамматические эле- менты СемП. Выше введено понятие фрагмента (или формулы) 251
СемП: это тройка вида Р(А,В), где А и В — узлы семантического графа, Р — семантическое отношение (СемО, или СО) между ними. Более точное описание состава семантических узлов — СемУ_А и СемУ_В — надо понимать так: «СемУзлы, лексическими пред- ставителями которых являются А и В соответственно». Более точ- ная запись фрагмента: СемО(СемУ_А,СемУ_В). Возможны и дру- гие эквивалентные формы записи: СемО, СемУ_А, СемУ_В. В большинстве отношений семантически главным, т.е. имею- щим больший информационный вес, является второй терм (В, или СемУ_В). В окончательной семантической записи должны ос- таться только содержательные СемУ и содержательные отноше- ния, соединяющие эти СемУзлы, например АГЕНТ (,), ВРЕМЯ(,), ПРИЧина(,), ЛОКализация(,) и др., в их число не входят фор- мальные отношения, как П_ЧЛЕН(,), В_ЧЛЕН(,), ЛЯ (А,В) (А- лексическое ядро В) и др. Сколько же содержательных отношений необходимо и доста- точно, чтобы описать все текстовые связи? Разные исследователи предлагают разные по количеству и составу списки смысловых отношений. Это в большой мере зависит от того, для какой ПО и для какой задачи создается метаязык, но эти установки определя- ют только выбор нужного подмножества СемО. Полное множество СемО, необходимых и достаточных для опи- сания семантики языка X того уровня, который задан в нашей информационно-лингвистической модели, может быть создано процедурой интерпретации (лексикализации) всех грамматических и лексико-грамматических элементов этого X. Существенно совпа- дающий с нашим список СемО был предложен в качестве уни- версального интернетовского языка. Стандартная статья слова-отношения включает сведения о СемО, являющихся интерпретацией данной единицы, сфере ее действия (в составе предложения или выходя на уровень межфра- зовых связей), о предсказываемых грамматических и семантиче- ских характеристиках потенциальных членов отношения, о ситуа- циях, сопровождающих ее значение, и другие полезные сведения (варианты выражения данной связи, перевод и др.). Будем считать собственной семантической характеристикой слов-отношений само имя отношения, но записывать его будем без скобочного хвоста, при этом возможны и какие-то дополни- тельные обычные СХ: ЗГЛ = больше КАТ = ОТН СХ = БОЛЬШЕ, ВЕЛИЧина Что же считать тогда валентностями слова-отношения? Состав поля ВАЛ должен включать две формальные валентности, вводя- 252
щие первый и второй члены отношения; но вместе с ними воз- можны и другие, содержательные: СХ = БОЛЬШЕ ВАЛ = П-ЧЛЕН(А1,С); В-ЧЛЕН(А2,С); АСПЕКТ(АЗ,С) Запись нужно понимать так: «А1 больше А2 по какому-то огра- ничивающему признаку АЗ». Формат записи здесь совпадает со словарной статьей основного массива слов-этикеток. Эквивалент- ной по содержанию будет следующая сокращенная запись: ВАЛ = БОЛЬШЕ (А1,А2); АСПЕКТ(АЗ,С) Слова-отношения описываются нами по этому второму вари- анту. В качестве примера приведены словарные статьи простого предлога (четыре значения предлога Q (см. приложение 13). В описаниях словарных статей словосочетаний (СЛСЧ), как и других слов-отношений, нами ставилась чисто прикладная зада- ча — обеспечить перевод с естественного языка на наш информа- ционный язык-посредник. Единицы СЛСЧ, как и обычные слова, могут принадлежать к разным категориям, из них сложные предло- ги (СП) и союзы переходят обычно в отношения (КАТ = ОТН), а частицы и адвербиалы чаще относятся к категории аспектных слов (КАТ = АСП). В приложении 13 даны примеры словарных статей нескольких СЛСЧ. Все они относятся к типу ОБОРоты, т. е. устойчивые словосочетания. * * * Создание словарей — наиболее трудоемкое дело в разработке прикладной системы понимания текста, поэтому так важно опре- делить модель, в рамках которой данный словарь будет эффектив- но использоваться. Как бы мы ни стремились к единообразию в подаче словарных данных, в каждом словаре используется свой язык описания, выбирается определенный ракурс описания, про- водится любимый мотив. Так, главным мотивом словарей модели «Смысл <=> Текст» мы считаем систематическое описание сочетаемости слов: а) на грамматическом уровне это зоны с тщательным описанием моде- лей управлений и б) на лексическом уровне это аппарат лекси- ческих функций. Перевод многих языковых единиц в ранг полу- свободных, т. е. значений лексических функций от других единиц, позволяет значительно сократить количество традиционно при- писываемых им значений и снижает субъективность словарных описаний. Масштабные лексикографические работы, проводимые под руководством Ю.Д. Апресяна и продолжающие традицию модели «Смысл <=> Текст» (правда, не рассчитанные на прикладное ис- 253
пользование), обеспечивают исчерпывающее лингвистическое «портретирование» слова и концентрируют внимание на тонких смысловых различиях близких по значению и синонимичных слов [см.: Новый объяснительный словарь..., 1997]. В системах, создаваемых под руководством С. Ниренбурга, все большее значение придается онтологическим аспектам описания значений: слово описывается по его месту в представлении зна- ний; тем самым обеспечивается связь с предметными областями, из которых слово наследует полезные семантические свойства [см.: Nirenburg, Raskin, Tucker, 1987]. В коллективе МакКьюин слово получает словарную информа- цию как представитель множества коллокаций (collocations), в которые оно может входить. Информация носит в основном линг- вистический характер [см.: Smadja, McKeown, 1991]. Дж. Пустейовский развивает генеративный подход к описанию лексики, в рамках которого предполагается собирать и вводить лишь основные типы словарных статей, а описание всего осталь- ного массива лексики получать (генерировать) автоматически — применением правил. Такой способ сбора и описания лексики (если он достижим) не может не сказаться положительно и-на методи- ке и процедурах анализа текста [см.: Pustejovsky, 1995]. З.М. Шаляпина в работах по созданию системы машинного перевода с японского языка на русский развивает и углубляет методику компонентного подхода, использующего понятие эле- ментарного смысла: обосновываются связи компонентов значе- ния слова с его валентностями, тем самым вносится стройность в сам язык элементарных смыслов [см.: Шаляпина, 1974]. Н. Н. Перцова отказывается от жесткой дискретной трактовки понятий «значение слова» и «лексема», принятой в Московской семантической школе. В ее работах предлагается аппарат, чувстви- тельный к вариативности смысла [см.: Перцова, 1988]. В работе В. Ш. Рубашкина и Д. Г. Лахути предлагаются принци- пы организации и состав собственно понятийного словаря [см.: Рубашкин, Лахути, 1998]. Ядро такого словаря образует иерархи- ческая система понятий — семантических примитивов, дерево признаков, на котором работает механизм наследования свойств. Авторы лексической базы данных «Лексикограф» предлагают пользователю (лингвисту-исследователю) способ системного ис- числения производных (в том числе видовых) значений глаголов, исходя из приписанной им таксономической семантической ка- тегории и связанных с ней других семантических различий [см.: Кустова, Падучева, 1994]. Идея импликативных связей между по- лями словарной статьи близка составителям словаря РУСЛАН, но она сложна в программной реализации. В исследованиях Е. В. Рахилиной выбран трудный и, казалось бы, мало интересный с лингвистической точки зрения материал — 254
русские предметные имена (морковь, картошка...), а глубокое ис- следование сочетаемостных свойств этих имен ставит перед раз- работчиками компонента «Онтология» новые интересные вопро- сы [см.: Рахилина, 2000]. Перечисленные, а также многие другие словарные работы сви- детельствуют о том, что есть много способов описания семантики слова, но что в прикладных системах должно быть согласие между словарем, метаязыком и стратегией анализа, т.е. способом эф- фективного использования заложенных в словаре знаний. При разработке нашего комплекса РУСЛАН основной концеп- туальной установкой было обеспечить «выход в текст» и стыковку с предметной областью. На первую часть задачи работают приня- тые в системе язык и способ описания валентностей: это в основ- ном текстовые валентности. Вторая часть может быть выполнена в совокупности с системой предметных словарей (спецсловарей). Семантическому словарю отводится роль скрепляющего элемента системы, который поддерживает соединение, мягкую стыковку лингвистической и предметной информации при построении структур текста семантического уровня. Понятно, что одним волевым усилием невозможно преодолеть конфликт (а он всегда возникает хотя бы при попытке техниче- ской реализации) между разными возможными аспектами описа- ния лексики. Невозможно также учесть все регулярности контекст- ных влияний на изменение значений отдельных слов, на их жизнь в тексте. В нашей модели это компенсируется наличием, как ми- нимум, двух дополнительных (к традиционному семантическому) уровней описания, — глобального текстового (по сути «собствен- но семантического») и информационного, настраивающегося на запросы и информационные установки пользователя. Настройку можно осуществлять словарным путем — заданием параметров полей в зоне ПРАГМатика, а при переходе к принципиально дру- гой ПО можно менять только эти релевантные поля. Такой способ хотя и не решает все проблемы перехода к другой ПО, но мы относим его к «мягким» механизмам систем АПТ. В настоящее время словарная база РУСЛАН включает около 13 тыс. описаний лексем. Около 1 тыс. словарных статей составля- ют слова-отношения и обороты. В такой же форме в нашей модели описываются кроме предлогов и союзов (простых и сложных) еще и грамматические конструкции, знаки препинания и, наконец, сам язык двуместных отношений. Что касается терминологических, т.е. полусвободных и даже свободных, словосочетаний, то они принадлежат в основном к категории слов-этикеток, но в отличие от последних часто не имеют валентностей (ср. средства массовой информации). Стандарт- ный формат слов-лексем дополняется описанием внутреннего состава терминов для того, чтобы можно было отождествлять раз- 255
ные варианты того же термина (например, средства информаций) без их механического перечисления, принятого в тезаурусах. Опи- сание структуры и состава предметно-ориентированных и терми- нологических словарей составляет предмет специального рассмот- рения. Литература Апресян Ю.Д. Об интегральном словаре русского языка // Семи- отика и информатика. — М., 1991. — Вып. 32. Богуславский И.М. Сфера действия лексических единиц. — М., 1966. Вендлер 3. Причинные отношения // Новое в зарубежной лингви- стике. — М., 1986. — Вып. XVIII. Гладкий А. В.О значении союза или // Семиотика и информатика. — М„ 1979. - Вып. 13. Дискурсивные слова русского языка: опыт контекстно-семантического описания // Под ред. К.Киселевой и Д. Пайара. — М., 1998. Иомдин Л.Л. Словарная статья предлога ПО // Семиотика и ин- форматика. — М., 1991. — Вып. 32. Иорданская Л. Н., Мельчук И. А. К семантике русских причин- ных предлогов // Московский лингвистический журнал. — М., 1996. — Т. 2. Исследования по семантике предлогов: Сб. ст. / Отв. ред. Д. Пайар, О. Н. Селиверстова. — М., 2000. Кустова Г. И.,Падучева Е.В. Словарь как лексическая база дан- ных // Вопросы языкознания. — М., 1994. — № 4. Леонтьева Н.Н. Об информационной системе словарей Машин- ного фонда русского языка // Машинный фонд русского языка: идеи и суждения. — М., 1986. Леонтьева Н.Н. Русский общесемантический словарь (РОСС): структура, наполнение//НТИ. — М., 1997. — Сер. 2. — № 12. Леонтьева Н.Н. Слова-отношения и их роль в Представлении зна- ний // Труды Международного семинара ДИАЛОГ-2001. — М., 2001. Леонтьева Н.Н., Никитина С.Е. Смысловые отношения, пе- редаваемые русскими предлогами // SLAVICA, IX. — Дебрецен, 1969. Мартемьянов Ю.С. Об исчислении словарных входов // Машин- ный перевод и прикладная лингвистика. — М., 1981. — Вып. 19. Мельчук И.А. Опыт теории лингвистических моделей «Смысл <=> Текст». — М., 1974. Новый объяснительный словарь синонимов русского языка / Под ред. Ю.Д. Апресяна. — М.,1997. Перцова Н.Н. Формализация толкования слова: Учеб, пособие. — М., 1988. Рахилина Е.В. Когнитивный анализ предметных имен: семантика и сочетаемость. — М., 2000. Рубашкин В.Ш., Лахути Д.Г. Семантический (концептуальный) словарь для информационных технологий // НТИ. — М., 1998. — Сер. 2. — № 1.-С. 19-24. Русский семантический словарь / Под ред. Н. Ю. Шведовой. — М., 2000. 256
Семенова С.Ю. Наречия и предикативы в прикладном семанти- ческом словаре // Труды Международного семинара ДИАЛОГ-1999. — Таруса, 1999. Семенова С.Ю. Прилагательные в семантическом словаре одной прикладной системы // Труды Международного семинара ДИАЛОГ-1998. — М., 1998. Семенова С.Ю. Семантические поля словаря РОСС: опыт заполне- ния, анализ дескриптивных возможностей. Материалы к унификации сло- варных описаний // Труды Международного семинара ДИАЛОГ-2000. — М., 2000. - Т. 2. Сокирко А.В. Обзор зарубежных систем автоматической обработки текста, использующих машинные семантические словари для построения семантических структур текста // НТИ. — М., 2000. — Сер. 2. — № 12. Сокирко А.В. Семантические словари в автоматической обработке текста (по материалам системы ДИАЛИНГ): Автореф.... дис. канд. наук. — М., 2001. ТКС — толково-комбинаторный словарь /Апресян Ю. Д., Мельчук И. А. и др. — М., 1976— 1996. Филлмор Ч.Дж. Об организации семантической информации в словаре // Новое в зарубежной лингвистике. Проблемы и методы лекси- кографии. — М., 1983. — Вып. 14. — С. 23—60. Шаляпина З.М. Англо-русский многоаспектный автоматический словарь (АРМАС) // Машинный перевод и прикладная лингвистика. — М., 1974. - Вып. 17. - С. 7-67. Elhadad М., McKeown К., Robin J. Floating Constraints in Lexical Choice // Computational Linguistics. — Grenoble, 1997. — Vol. 23. — № 2. — P. 195-240. Nirenburg S., Raskin V., Tucker A. The Structure of Interlingua in TRANSLATOR // Machine Translation: Theoretical and Methodological Issues, ACL Series — Stadies in National Language Processing. — Cambridge, 1987.-P. 90-113. Onyshkevych B., Nirenburg S. A Lexicon for Knowledge-Based MT // Mashine Translation, 10:1-2. — 1996. Papagaaij B.C., Sadler V., Witkam A.P.M. Experiments with an MT-Directed Lexical Knowledge Bank // COLING-86. — 1986. Pustejovsky J. The Generative Lexicon. — London, 1995. Smadja F., McKeown K. Using Collocations for Language Generation // Journal of Computational Intelligence. — 1991.
ГЛАВА 13 КОРПУСНАЯ ЛИНГВИСТИКА И ДРУГИЕ ЛИНГВИСТИЧЕСКИЕ РЕСУРСЫ ДЛЯ СИСТЕМ АПТ § 69. АРМ лингвиста, переводчика, редактора Какой бы «интеллектуальной» ни была Система обработки тек- ста, а без участия человека она не сможет работать. Человек ста- вит задачу (машинный перевод, информационный поиск, систе- матизация материала и т.п.), определяет параметры, настраива- j ется на определенный корпус текстов, выбирает режим работы, a j в конце работы оценивает качество результата и фиксирует те зве- нья, которые нужно исправить (дополнить словарь, уточнить ха- рактеристики и т.д.). В системе МП человек участвует на стадии подготовки массива (предредакгор), анализа промежуточных струк- | тур (интерредактор), перед выдачей результатов заказчикам (пост- 1 редактор). В распоряжении лингвиста должны быть и разные слова- ри, и терминологические банки данных разных ПО, и сами систе- I мы МП, и отдельно работающие процессоры (Морф-, Син-, Сем- | анализа). А главное — корпуса текстов, которые могут использо- I ваться для любых практических работ с языковым материалом, на I которых строятся словари и конкордансы, тестируются примеры, I проверяются лингвистические гипотезы, теории, разные модели | и варианты систем АПТ. Частью корпусных материалов должны I быть массивы тестов и тестовых примеров на все трудные явления I языка. Но это побочная и не самая важная функция корпусной 1 лингвистики. О других функциях КЛ будет сказано ниже. I Комплекс информационных технологий и средств управления I разными компонентами систем АПТ — это достаточно сложная! система, называемая автоматизированным рабочим местом! (workbench), или системой АРМ, для лингвиста, редактора и пе-| реводчика. Кроме этого, в ряде коллективов существует АРМ ког-| нитолога, формирующего и вводящего компонент онтологии! для систем АПТ. I Очень важно иметь программы, которые позволяют сравнивать! словари, переводы в разных системах МП, и особенно структу-1 ры для обнаружения ошибок и исправления грамматик и самих! структур. Такова, например, система BOAS, полуавтоматическая! система сбора знаний (knowledge elicitation) по лингвистике. Она! призвана поддерживать качество результатов работы промышлен-1 258 I
ных систем МП (как СИСТРАН), исправлять и пополнять сло- варь трансфера (японско-английского направления), формировать те ограничения, которые помогают разрешать неоднозначность при переводе. BOAS опирается на Онтологию, созданную в рам- ках проекта MICROCOSMOS. § 70. Корпусная лингвистика Название «Корпусная лингвистика» (Corpus Linguistics) отра- жает характер объекта, с которым данная эмпирическая область исследований имеет дело: это реальные естественные тексты в машиночитаемом формате, образующие массивы, коллекции, а также специально оформленные «корпуса» (Corpora). Текстовые корпуса начали создавать уже в 60—70 гг. прошлого века, т. е. КЛ существует более 30 лет. За это время созданы десят- ки банков текстовых данных, сначала для английского, затем для других европейских языков и языковых пар; на основе текстовых корпусов (ТК) созданы сотни словарей (corpus-based dictionaries). COBUILD — первый словарь, основанный на корпусных данных, вышел в 1987 г. и был принят как стандарт с точки зрения теории и практики. С тех пор все современные словари, особенно пред- назначенные для изучения неродного (или второго) языка, осно- вываются на материале имеющихся и все время пополняющихся ТК. В 1995 г. вышел в свет Collins COBUILD English Dictionary (CCED), в нем отразились существенные изменения в языке от- носительно первых публикаций COBUILD: некоторые слова и значения выпали, американизмы и технические слова, напротив, вошли в повседневное употребление. Существует его электрон- ный вариант. ТК создаются не только для основных европейских языков (французского, немецкого), но и для менее распространенных (шведского, норвежского, финского). Сейчас их много: разные типы и размеры, одно- и двуязычные, для письменного и устного вариантов языка; создаются также параллельные корпуса: англо- норвежский, чешско-английский, словацко-русский, словацко- хорватский и др. Современные грамматики и словари создаются только на основе корпусной поддержки. По стандарту, заданному в БНК (Британский национальный корпус), были созданы текстовые корпуса для многих европей- ских языков. Характеристика «национальный», призванная выде- лить вариант языка, описываемого корпусом, стала применяться для обозначения представительного ТК любого языка. Как прави- ло, национальный корпус — это отдельная комплексная систе- ма, образование и ведение которой требует больших трудозатрат как со стороны лингвистов, так и с точки зрения программного 259
обеспечения. Современные ТК-системы выбирают и проводят оп- ределенную лингвистическую политику и используют для этого последние достижения информационных технологий. Назовем только некоторые ТК (наиболее известные из них можно найти в Интернете): COBUILD (основан в 1980 г., руково- дитель Джон Синклер); British National Corpus (BNC), или БНК; Bank of English (Банк английского языка); ALEX (банк англий- ской и американской литературы по западной философии); БК (Брауновский корпус); ICE (International Corpus of English); Longman/Lancaster Corpus; London-Lund Corpora; OED (Oxford English Dictionary); CUMBRE Corpus (корпус современного ис- панского); Чешский национальный корпус; Словацкий нацио- нальный корпус; Китайский текстовый корпус. В России первым опытом создания большого лингвистического хозяйства был Машинный фонд русского языка [см.: Андрющен- ко, 1989]. Целью было собирание представительного корпуса и под- корпусов различных жанров и соответствующих программных средств, а также комплексная информатизация лингвистических исследований, включая создание грамматик и словарей. Хотя в пол- ном виде программа не была выполнена, были собраны коллекции текстов разного типа, переведены в машинный вид многие тради- ционные словари. В настоящее время Фонд обслуживает внутренние задачи Института русского языка (ИРЯ) РАН: ведение Русского ди- алектологического атласа, создание автоматического конкорданса для текстов русского фольклора, политических текстов, текстов древнерусских источников XI—XVII вв. и др.; каждая из задач тре- бует создания отдельного пакета программ. В состав Машинного фонда входит большое количество словарей: «Грамматический сло- варь русского языка» А. А. Зализняка, «Русский орфографический словарь», «Русский синтаксический словарь» Г.А. Золотовой и др. В Фонд вошли также коллекции русской художественной литерату- ры (М. Ю. Лермонтов, Ф.М. Достоевский), коллекции русских по- этических текстов. Руководитель Фонда А. Я. Шайкевич самой важной научной задачей считает проведение дистрибутивно-стати- стического анализа текстов и создание объективного описания язы- ка, используя языково-независимый метод формирования «естест- венных» классов [см.: Shaikevich, 1997]. В начале этого века в России начата работа по созданию пред- ставительных корпусов для русского языка. Два проекта — БОКР (Большой корпус русского языка) и PC (Русский стандарт), которые должны были представить русский литературный язык во всех значимых жанрах и видах использования [см.: Шаров, 2003], слились с «Корпусом ЦЛД —МГУ», описанным в статье Д. В. Сичинава [см.: Сичинава, 2002]. Последний создается с 2001 г. общественной организацией ЦЛД (Центр лингвистической документации, руководитель В. А. Плунгян). Была создана Ассо- 260
циация «Национальный корпус русского языка», в нее вошла боль- шая группа лингвистов Москвы, Санкт-Петербурга, Новосибир- ска и других научных центров России. Планируемый объем корпу- са — 200 млн слов. Подробнее об Ассоциации, ее участниках и планах можно посмотреть в Интернете на странице www.ruscorpora.ru. Кроме того, отдельные коллективы РФ продолжают свои ра- боты по созданию специальных ТК [см.: Корпусная лингвисти- ка..., 2003]. В Санкт-Петербургском университете проводятся ре- гулярные конференции по КЛ. ТК могут формироваться по разным основаниям: авторские, по жанрам, стилям и т.п. (анг. register), по времени источника, по научным направлениям и т.д. Создатели ТК должны определять, какие порции и пласты языка нужно в них представлять, это за- висит от внутренних задач и от внешних условий (финансирова- ния), а также от целей и адресатов ТК. Что касается источников формирования текстовых корпусов (ТК), то сейчас проблем нет: электронный век создает для КЛ огромные, неисчерпаемые и постоянно пополняемые текстовые ресурсы, развиты технологии автоматического чтения и сканиро- вания, увеличивается быстродействие компьютеров, размеры памя- ти практически неограниченные, устанавливается дружественный интерфейс с пользователем. Исследуются новые источники — Web- страницы и тексты электронной почты. С 1996 г. стал выходить Международный журнал по корпусной лингвистике, на страницах которого обсуждаются разные аспек- ты формирования и ведения текстовых массивов, описываются новые ТК, дискутируются вопросы их аннотирования [см.: International Journal..., 1996 — 2001]. § 71. Аннотированный корпус ТК, снабженные лингвистической информацией, называют размеченными или аннотированными (tagged/annotated corpus). Чем богаче разметка, тем большую ценность имеет корпус. Сейчас полезную лингвистическую информацию дает морфологическая и синтаксическая разметка. В названном выше Национальном корпусе русского языка ис- пользуется пять типов разметки: метатекстовая, морфологиче- ская, акцентная, синтаксическая и семантическая, — две послед- ние выполняются на небольшом фрагменте корпуса. Недавно стал создаваться аннотированный корпус для русских текстов — в ИППИ РАН [см.: Богуславский, Григорьев и др., 2000]. Этот последний состоит из нескольких подкорпусов, тек- сты которых различаются уровнем аннотации: 261
- лемматизированные тексты, в которых для каждого слова указывается его основная форма и часть речи; - тексты с морфологической информацией, в которых для каж- дого слова указывается его основная форма, часть речи и полный набор морфологических характеристик; - тексты с синтаксической информацией, в которых для каж- дого слова указывается его основная форма, часть речи и морфо- логические характеристики, а для каждого предложения — его синтаксическая структура. Выполняемая автоматически разметка корректируется лингви- стом. К 2000 г. создано не меньше 20 аннотированных корпусов для основных европейских языков. Из них по крайней мере три — с синтаксической информацией. Наиболее известны Penn Treebank, созданный в Пенсильванском университете в 1990 г. [см.: Markus, Santorini, Marcinkiewicz, 1993], и создаваемый по его образцу Пражский банк деревьев зависимостей (Prague Dependency Treebank). Эти работы постоянно освещаются в Пражском бюлле- тене по математической лингвистике [см.: Bohmova, 2001; Hajicova, Pajas, Vesela, 2002]. Охарактеризуем коротко подход К аннотиро- ванию, позволяющий для Чешского национального корпуса стро- ить синтаксические деревья. PDT (Prague Dependency Treebank) — это исследовательский проект Карлова университета в Праге. Схема аннотирования вклю- чает три уровня: морфологический, аналитический и тектограм- матический. На первом из них проводятся стандартные для всех систем операции лемматизации и определения всех морфологи- ческих характеристик (используется примерно 3000 значений мор- фологических тэгов) для словоформ входного текста. На втором уровне строится поверхностная синтаксическая структура, назы- ваемая analytic tree structure (ATS): это промежуточное дерево за- висимостей, в котором каждое слово и знак препинания пред- ставлены отдельными узлами с приписанными им характеристи- ками теньеровского типа (субъект, объект, адвербиал, атрибут). Этот перевод из линейных структур (с их скобочной записью) в древесную проводится полуавтоматически. Такой метод был ис- пытан и отработан на трансформации деревьев составляющих ан- глийского языка из Пенсильванского банка в деревья тектограм- матического уровня, принятые в PDT. Третий уровень строит тектограмматическую древесную струк- туру (Tectogrammatical tree structure — TGTS), представляющую собой глубинное синтаксическое дерево предложения. В нем в качестве узлов остаются только полнозначные слова; все функ- циональные слова «без собственного лексического значения» (предлоги, подчинительные союзы, знаки препинания и пр.) становятся атрибутами при оставшихся узлах. Полнозначные узлы 262
«аннотируются» ролью в предложении (которая называется «функ- тором»), Функторов примерно 60: Актант, Пациенс, Адресат, Ис- точник, Эффект, а также разные типы пространственных, вре- менных и иных обстоятельств: Средство, Способ, Степень, По- следствие, Условие. Большинство функторов приписывается вруч- ную, но создается обучающийся модуль, который хотя бы часть функторов будет строить автоматически, опираясь на правила и словарные данные, извлеченные из уже аннотированной части корпуса. К 2002 г. из текстов текущей версии Чешского корпуса в 100 млн слов проаннотировано в терминах ATS 100 тыс. предложе- ний, средствами TGTS — 20 тыс. предложений; из них 2 тыс. предложений снабжены пометами о коммуникативной структу- ре (topic-focus articulation — TFA). Последние работы чешских лин- гвистов обогащают глубинные синтаксические структуры еще одним видом информации — введением кореферентных связей для личных и указательных местоимений [см.: Kucova, Hajicovd, 2004]. Такой уровневый подход к аннотированию текстовых корпу- сов принят в основном в русской и чешской школах КЛ, он сбли- жается с методами полного лингвистического анализа текстов в системах класса АПТ, но требует больших трудозатрат от лингви- стов, корректирующих автоматические процедуры. Западные школы стремятся к упрощению методов обработки материала с целью приблизить решение сегодняшних задач. § 72. Методы анализа в КЛ ТК — источники лингвистических знаний, но информация, содержащаяся в массивах КЛ, мертва без лингвистической обра- ботки. Как отдельная дисциплина КЛ имеет собственную задачу и постепенно вырабатывает свои методы извлечения лингвистиче- ских знаний на основе анализа больших коллекций текстов. В свою очередь, эти лингвистические знания предполагается использо- вать (помимо теоретического описания языка той или иной эпохи и т.д.) и для практического анализа других порций текстов, дос- тупных в электронном виде. Иначе говоря, КЛ на некотором пред- ставительном корпусе/подмножестве текстов формирует и уточ- няет инструмент анализа всех других текстов, относимых к тому же подмассиву. Чтобы извлекать знания, нужны достаточно мощные лингвис- тические технологии. Хотя традиционная КЛ (в основном ее за- падная ветвь) избегает пользоваться терминологией, принятой в АОТ, в ней встают практически те же проблемы, которые харак- терны для этапа анализа в системах АПТ: 263
а) сортировка и систематизация самих массивов; б) сегментация текстов; в) общелингвистический поверхностный анализ, или анноти- рование текстов, или внутренняя разметка: расстановка морфоло- гических, синтаксических и семантических признаков («тэгов»). Чтобы быть полезным объектом для разных специалистов, чтобы лингвист мог выбрать или собрать нужный ему массив, КЛ систе- матизирует коллекции текстов — по эпохам, языкам, жанрам, стилям, тематике и т.п. Кодирование метаинформации о тексте документа и его внешних параметрах опирается в большой мере на уже разработанные технологии. Используются разные системы кодирования текстов (HTML, XML и особенно TEI: Text Encoding and Interchange)-, в частности, систематизация указанных выше русских корпусов основана на стандарте TEI. Об этом, а также об истории и полезных параметрах КЛ см. статьи С.А.Шарова и ука- занную в них литературу. В системе COBUILD сначала использовали кодирование/раз- метку корпуса SGML, но в ней ненадежное деление на предложе- ния. Разработали свою сегментацию — «легкую» (она выделяет лишь заголовки и подзаголовки) и «нежесткую» (нестандартные тексты не подвергаются ручному дополнению), а имеющиеся пометы можно убирать или уточнять. Сегментация текста (tokenization в системе COBUILD и др.) — процесс корпусного анализа, при котором части текста делятся сначала на предложения (или словосочетания — phrases), а внут- ри них вычленяются более мелкие единицы, называемые tokens. Это могут быть отдельные значимые слова или комплексы, на- пример обозначения дат (21/04/22), денег (25 млн руб. 42 коп.), имена компаний, телефонные номера, адреса и т.д. Включенный в них синтаксический препроцессор (chunking) собирает группы непосредственных составляющих по заданным комбинациям при- знаков и готовит текст к выполнению разных задач (более всего Information Extraction). Это в основном информативные слова и именные группы, но лишь такие объединения, которые не созда- ют синтаксической омонимии; для их сборки используются тех- нологии «автоматов с конечным числом состояний». Это все «corpus- oriented tools». Грамматики в системе COBUILD — data-driven («под управле- нием данных»), они противопоставлены data-based, когда линг- вист задает грамматику интуитивно, а корпус использует для про- верки ее правильности и для примеров. В этой грамматике суще- ственна лексическая компонента: нет независимого выбора грам- матических конструкций и подстановки в них лексем — они рабо- тают вместе, создавая определенное значение. Есть списки лек- сем, для которых характерна определенная «схема», например, Vn that, V+C (verb + complement), V+ 0 + A( Verb + Object + Adjunct). 264
Схемы в такой корпусной лингвистике не правила, а обоб- щение употреблений. В них не различаются синтаксис и лексика (нет такого формального автономного синтаксиса, с категориями которого можно было бы манипулировать без обращения к значе- ниям слов [см.: Barlow, 1996]): VP [lose [POSS way]] VP [lose [REFL]] VP [let NP go] VP [let [REFL] go] Схемы могут быть вложенными. Схемы могут быть связаны с дискурсом (включение говорящего и слушающего). Итак, в традиционной КЛ нет уровня автономного синтаксиса. Нет различия глубинного и поверхностного уровней синтаксиса. Не проводится различие Лексики и Структуры. Вместо этого име- ется формальная часть «схема — значение», более длинные грам- матические единицы и более абстрактный конец континуума «структура — лексика». Соответственно и поисковый аппарат в корпусах принимает структуры, состоящие частично из лексем, частично из «тэгов» (грамматических и других помет). § 73. Теоретические позиции КЛ Корпусные лингвисты вырабатывают свою если не теорию, то философскую позицию. В программной статье В.Тойберта КЛ про- тивопоставляется когнитивной лингвистике [см.: International Journal..., 2001]. Не существует для нее никакого «языка мысли», никаких концептуальных представлений, она не признает интер- лингву. В.Тойберт отрицает всякие репрезентации, ментальные язы- ки, атомы смысла и пр. как нечто нематериальное, символы, аб- стракции, которые нельзя интерпретировать, они не соединены ни с какой формой. Ни в ИИ, ни в МП по сути и нет никакого когнитивного подхода: языково-независимых семем, которые мы искали, и не существует, считает он. КЛ не волнует истинность высказываний. Неважно также, что думает кто-то о реальной воде: слово вода означает то, чем и яв- ляется вода. КЛ имеет дело с языком как социальным явлением. Значение — в словах и текстах. КЛ не интересуют значения изоли- рованных слов вне релевантных для них контекстов. Цитата дает больше, чем словарная дефиниция слова. Значение неотделимо от формы. Различие в значении всегда сопровождается различием в форме — и корпусный анализ может помочь нам увидеть образцы (patterns'). 265
Нет заранее заданного четкого деления слов на значения, до употребления лексикон пуст. По мнению В. Тойберта, КЛ отказывается от всех теоретиче- ских достижений лингвистики после Ф. де Соссюра, в основ- ном это относится ко всем вариантам порождающих грамматик школы Н. Хомского и его последователей, исключение делает- ся им только для аппарата категориальных грамматик [см.: Teubert, 2001]. Универсальная Грамматика описывает только ядро языка и ничего не говорит о периферийных зонах, тогда как исследователи языка и изучающие язык нуждаются именно в конкретном материале разных синтаксических конструкций [см.: Barlow, 1996]. Поскольку КЛ интересует не отдельное слово, но текстовые сегменты, разница между лингвистическим и энциклопедическим знанием размывается. Так, если немецкое слово Machtergreifung означает просто захват власти какой-то группой, ранее исклю- ченной из политической жизни, своими силами, недемократи- чески, то сегмент braune Machtergreifung im Jahre 1933 безогово- рочно означает захват власти нацистами. Объясняется это тем, что часто в разных контекстах они заменяли друг друга, были па- рафразами или анафорически связанными сегментами. Энцикло- педическое знание — это не что иное, как дискурс(ив)ное знание. Нет значения вне языка, вне дискурса. Мы не можем видеть гло- бализацию, но мы знаем сегодня, что такое глобализация, пото- му что читали тексты, в которых это объясняется. § 74. КЛ, системы АПТ, лингвистика КЛ образует близкое родство с практической дисциплиной «Автоматическая обработка текста» и, конкретно, с системами АПТ по нескольким признакам: а) системы АПТ нужны именно для работы с большими мас- сивами текстов. Чтобы добиться каких-то полезных результатов в работающей системе, необходимо знать и учитывать все свойства этих новых для лингвистики объектов — текста как целого и мас- сива текстов. КЛ формирует, исследует и описывает их как ин- формационный ресурс; б) технологии и приемы первичной обработки «сырых», не- препарированных текстов в прикладных системах (машинный пе- ревод и другие системы АПТ) во многом совпадают с теми, кото- рые приняты или отрабатываются в КЛ. Так, чтобы создать парал- лельный корпус, нужны алгоритмы и программы сегментирова- ния текста на такие (значимые) единицы, которые могут быть сопоставлены друг другу; 266
в) массивы КЛ — это надежный источник формирования сло- варей, в том числе двуязычных, и выуживания информации, ко- торую надо включать в словарную статью (иллюстрации слово- значений, сведения об актантной структуре слова и др.); это ис- точник создания конкордансов, словников, тезаурусов и других инструментов, необходимых для автоматического анализа произ- вольных текстов. Составление словарей — одно-, дву- или много- язычных — должно подтверждаться, если не полностью базиро- ваться на КЛ массивах. Тем самым КЛ не исключает, а дополняет традиционную линг- вистику, становится опорой общей лексикографии. Ведь лекси- кография работает не только с простыми единицами и их контек- стом, но и с большими текстовыми сегментами, единицы кото- рых определены на лексическом и синтаксическом, включая по- рядок слов, уровнях (многословные единицы, термины, колло- кации, обороты). Традиционная лингвистика все больше нужда- ется в более крупных, чем слово, единицах и в обосновании их выделения обращением в КЛ; она тяготеет к изучению семанти- ческой связности (lexical solidarities, collocations, set phrases, valencies, case roles, thematic roles, semantic frames and scripts).проясняет понятие текстового сегмента эвристическим определением семан- тической связности: совместной встречаемостью схем (цепочек), которые тем самым связаны определенными семантическими от- ношениями. Статистика совместной встречаемости и явное выражение шаб- лонов (комбинации квантитативных и категориальных признаков) позволяют изучать «размытые» значения (fuzzy meanings). КЛ до- пускает втягивать пользователя в дискурс и включать его опреде- ления в универсум цитат и контекстов [см.: International Journal..., 1996 и др.]. Журнал International Journal of Corpus Linguistics сохраняет скеп- тическое отношение к концептуальным (и любым задаваемым «сверху») методам лингвистического анализа и в отношении мно- гоязыковой корпусной лингвистики. § 75. Многоязыковая корпусная лингвистика Эмпирической базой для нее служит (виртуальный) массив всех текстов, когда-либо переведенных на другой язык, вместе со сво- ими переводами. Теоретическая основа та же, что и для одноязы- ковых корпусов, т. е. значением текстовой единицы считается па- рафраза, а полное значение текстового сегмента в этом дискур- сивном универсуме заключено в истории (сумме) всех перевод- ных эквивалентов этого сегмента.
Создание параллельных и многоязыковых корпусов столкну- лось с трудной задачей «выравнивания» {alignment), т.е. разбиения параллельных текстов на единицы, которые можно сопоставить друг другу. Большинство программ выравнивания в параллельных корпу- сах основываются на том, что в переводе сохраняются те же гра- ницы предложений и абзацев, что и в исходном тексте. В действи- тельности же разные типы текстов требуют перестановки или со- кращения (например, в юридических текстах) числа предложе- ний. А процедура сопоставления слов вообще остается на долю человека, ведь пословных соответствий и вовсе мало (предлог — отсутствие предлога, падеж — предложная конструкция). Минимальные единицы перевода могут состоять из одного сло- ва или нескольких слов, переводимых как целое, а не пословно. Переводные эквиваленты соответствуют текстовым сегментам од- ноязыкового корпуса. Значение единицы перевода содержится в ее переводных эквивалентах на другие языки. Идентификация единиц перевода требует интерпретации: единый это эквивалент или ком- бинация нескольких. Текстовый сегмент является единицей пере- вода по отношению только к тем языкам, в которых он переводит- ся как единое целое. Неоднозначные единицы перевода имеют столько значений, сколько есть несинонимичных переводных эк- вивалентов. Данная единица перевода языка А может иметь два не- синонимичных эквивалента в языке В и три — в языке С. Объявить какие-то эквиваленты синонимами — это акт интерпретации, сна- чала надо понять текст, а это компьютерам недоступно. Практичес- кое использование корпусной лингвистики — помощь переводчику путем обработки параллельных массивов. Последние — это хранили- ща переводов. Использовать их гораздо более эффективно, чем тра- диционные двуязычные словари, особенно если массив учел жанр и тип текстов: выбирается тот эквивалент, контекстная проекция которого больше всего совпадает с профилем текстового сегмента. Анализ «по образцу», или прецедентный анализ, важен не толь- ко для систем МП, как отмечалось еще в ранних работах по МП, но и как серьезное подспорье при анализе свободных текстов. И все же проблема формирования параллельных корпусов дос- таточно трудна — и не только содержательно, но и чисто техни- чески. С одной стороны, нужно сделать эксплицитной всю реле- вантную информацию. С другой стороны, текст, отягощенный тэ- гами, становится нечитабельным. Любые изменения в размечен- ном корпусе — всегда проблема. Многие апологеты КЛ считают, что для обработки многоязы- ковых массивов текстов продуктивно использовать языково-не- зависимые подходы [см.: Greenstette, Segond, 1997]. В RXRC (Ranc Xerox Research Centre) создано несколько средств АОТ, работа-; ющих на основе автоматов с конечным числом состояний и транс- 268
дукторов (The transducer is a finite-state machine which consumes input while producing output). Эти простые методы обработки оказались применимы к очень большому количеству лингвистических струк- тур. Разработанные средства были использованы в нескольких при- кладных задачах: задаче извлечения терминологии (Information Extraction), в системе помощи переводчику и в информацион- ном поиске (Cross-language information retrieval). Технология авто- матов с конечным числом состояний имеет много достоинств: это хорошо изученные механизмы, поддающиеся разным мате- матическим операциям, их можно по-разному комбинировать, вставлять в другие процедуры и т.д. Правила трансформаций могут включать контекст, тем самым не требуя специальных программ- ных решений. Модульность и возможность включать контекст- ные условия в структуру данных позволяют быстро приспосаб- ливать подобные пакеты (suits) АОТ к другим языкам. Пакеты включают языково-независимые правила сегментации (tokenizer), морфологические анализаторы, программы построения гипотез для неузнанных слов, программы приписывания частей речи (РОЕ. part-of-speech taggers) и программы сборки именных групп (noun-phrases extractors). Такие пакеты созданы в RXRC для семи европейских языков, готовятся еще для семи (русского, чешско- го, венгерского и др.). Главное в подходе RXRC — разработка надежных и все более мощных технических решений, применимых к любым массивам текстов на естественном языке. В настоящее время результаты корпусных исследований нахо- дят основное практическое применение в создании больших кон- текстно-ориентированных тезаурусов, которые увеличивают се- мантическую силу при работе систем информационного поиска. Так, в системе ACRONYM (Automated Collocational Retrieval of «Nyms») собираются концептуально родственные единицы, на- зываемые Nyms («нимы», по аналогии с синонимами и др.) [см.: Collier, Pacey, Renouf, 1998]. При этом не проводится никакая предварительная лингвистическая разметка (считается, что это слишком «дорогой» процесс на очень больших массивах), кроме перевода числовых цепочек в обобщенные категории. Проводит- ся кластерный анализ, вычисляется мера подобия соответствен- но правых и левых контекстов для выделенных единиц (слов и словосочетаний), учитывается частота появления сходных кон- текстов и т. п. Сначала собираются группы родственных слов (ни- мов) первого порядка, что уже может хорошо работать для ин- формационного поиска, затем рядом уточняющих процедур стро- ятся нимы второго порядка, которые должны удовлетворить и лингвистов. Приведем пример построенного в системе ACRONYM списка нетривиальных «родственников» для четырех английских слов: 269
Node Key Nyms crucial important vital significant essential, main fundamental major strategic specific Medicine medical medicines sciences mathematics biology science chemistry psychology physics clinical Pretty fairly quite incredibly extremely terribly really nice extraordinarily lovely sexy Testing tests test tested assessment monitoring screening research rigorous clinical curriculum * * * Текстовый корпус — это особый, совершенно новый тип сло- весного единства. Можно выделить четыре базовых качества, де- лающих собрание текстов корпусом [см.: Рыков, 2003]: 1) расположение на магнитном носителе (machine readable form)', 2) процедуры отбора материала (sampling), обеспечивающие его репрезентативность; 3) единство разметки на носителе; 4) конечный размер. Возможно формирование не только универсальных, т. е. пред- ставительных с точки зрения разных жанров и т. п. для всего язы- ка, но и специализированных (для каких-то задач) корпусов тек- стов, в этом случае для каждого корпуса может потребоваться и особая разметка (см. гл. 3). Литература Андрющенко В.М. Концепция и архитектура Машинного фонда русского языка. — М., 1989. Аношкина Ж.Г. Подготовка частотных словарей и конкордансов на компьютере: Пособие для филологов. — М., 1995. Богуславский И.М., Григорьев Н.В. и др. Аннотированный корпус русских текстов: концепция, инструменты разметки, типы ин- формации // Труды Международного семинара ДИАЛОГ-2000. — М., 2000.-Т. 2.-С.41-47. Волков С.С., Герд А.С., Гринбаум О.Н. и др. Экспертная сис- тема «Русский текст XIX века» // Труды Международной конференции ДИАЛОГ-2004. - М., 2004. Корпусная лингвистика в России / Сост. Е. В. Рахилина и С. А. Шаров // Спец, выпуск журнала НТИ. — М., 2003. — Сер. 2. — № 6, 10. Мальковский М. Г.,Абрамов В. Г., Субботин А. В. Об автома- тизированном формировании лингвистических баз данных // Труды Меж- дународного семинара ДИАЛОГ-1998. — М., 1998. — Т. 2. — С. 831—836. Машинный фонд русского языка: идеи и суждения. — М., 1986. Международная конференция «Корпусная лингвистика-2004»: Тези- сы докладов. — СПб., 2004. 270
Рубашкин В.Ш. Корпусная поддержка в процедурах обработки тек- ста и семантического описания лекции // Доклады научной конферен- ции «Корпусная лингвистика и лингвистические базы данных». — СПб., 2002. Рыков В. В. Корпус текстов — новый тип словесного единства // Труды Международного семинара ДИАЛОГ-2003. — Протвино, 2003. Сичинава Д.В. К задаче создания корпусов русского языка в Ин- тернете // НТИ. — М., 2002. — Сер. 2. — № 12. Старостин С.А. Этимологические и морфологические базы дан- ных в Интернете // Труды Международного семинара ДИАЛОГ-1998. — М., 1998. - Т. 2. - С. 582-584. Шаров С. А. Параметры описания текстов корпуса, а также Корпус- ная лингвистика в России // НТИ. — М., 2003. — Сер. 2. — № 5 — 6. Barlow М. Corpora for Theory and Practice // IJCL. — Amsterdam, 1996. -№ 1. Bohmova A. Automatic Procedures in Tectogrammatical Tagging //The Prague Bulletin of Mathematical Linguistics. — Prague, 2001. — № 76. — P. 23-34. Collier A., Pacey M., Renouf A. Refining the Automatic Identification of Conceptual Relations in Large-scale Corpora. // Proceedings of the Sixth Workshop on Very Large Corpora. — Montreal, 1998. Gale W., Church K. Program for Aligning Sentences in Bilingual Corpora // Computational Linguistics. — 1993. — Vol. 19. — № 1. — P. 75—102. Greenstette G., Segond F. Multilingual Natural Language Proces- sing U IJCL. - 1997. - V. 2. - № 1. Hajic J.,Honetschlager V. Annotation Lexicons: Using the Valency Lexicon for Tectogrammatical Annotation // The Prague Bulletin of Mathe- matical Linguistics. — Prague, 2003. — № 79—80. — P. 61 — 86. Hajicovd E., Pajas P., Vesela K. Corpus Annotation on the Tecto- grammatical Layer: Summarizing of the First Stages of Evaluations // The Pra- gue Bulletin of Mathematical Linguistics. — Prague, 2002. — № 77. — P. 5—18. International Journal of Corpus Linguistics (IJCL) / Ed. W.Teubert. — Amsterdam, 1996—2001. Kay M.,Roescheisen M. Text-Translation Alignment I I Computational Linguistics. - 1993. - Vol. 19. - № 1. - P. 121-142. Ku co v a L., H a j i с о v d E. Prague Dependency Treebank: Enrichment of the Underlying Syntactic Annotation by Coreferential Mark-Up // The Prague Bulletin of Mathematical Linguistics. — Prague, 2004. — № 81. — P. 23 —34. Marcus M.P., Santorini B., Marcinkiewicz M.A. Building a Large Annotated Corpus of English: The Penn Treebank. // Computational Linguistics. - 1993. - Vol. 19. - № 2. - P. 313-330. McEnery T., Wilson A. Corpus Linguistics. — Edinburgh, 2001. Nirenburg S., Raskin V. Universal Grammar and Lexis for Quick Ramp-Up of MT Systems//COLING-ACL’98. - V. 2. - P. 975-979. Proceedings of the Sixth Workshop on Very Large Corpora / Ed. E. Char- niak. — Montreal, 1998. Pustejovsky J., Berger S., Anick P. Lexical Semantic Technigues for Corpus Analysis // Computational Linguistics. — 1993. — Vol. 19. — № 2. — P. 331-358. 271
Shaikevich A. The Computer Fund of Russian Language // IJCL. — Amsterdam, 1997. — V. 2. — № 1. — P. 163—167. Sinclair, J. Corpus, Concordance, Collocation. — Oxford, 1991. Sinclair J. Data-derived Multilingual Lexicons // IJCL. — Philadelphia, 2001. Sinclair!. The Empty Lexicon// IJCL. — Amsterdam, 1996. — V. 1. — № l.-P. 99-119. Streiter O., lomdin L., Sagalova I. Learning Lessons from Bilingual Corpora // Benefits for Mashine Translation. — 2001. — V. 5. — № 2. — P. 199— 230. TeubertW. Corpus Linguistics and Lexicography //IJCL. — Philadelphia, 2001.
ЗАКЛЮЧЕНИЕ Прежде всего хочется внести уточнения в некоторые сложив- шиеся в обсуждаемой дисциплине словоупотребления: 1) терминологическое словосочетание «обработка естествен- ного языка», как называют до сих пор и учебный предмет, и сек- ции на конференциях и т.д., правильнее заменить на выражение «обработка, или анализ, текстов на ЕЯ»; 2) вместо выражения «анализ смысла» лучше использовать «из- влечение содержания» или «извлечение информации /сведений и т. п. из текста/массива текстов». Из большого множества накопленных к данному моменту за- дач автоматической обработки текста и используемых при этом технологий (механизмов, приемов и т. п.) извлечения каких-либо сведений из массива текстов был выделен класс моделей и сис- тем, описывающих полный цикл автоматического понимания тек- ста. Воссозданная при их рассмотрении модель подана в пособии как «учебная», она объясняет процесс понимания текстов вос- принимающим устройством последовательной работой механиз- мов: а) перевод (как неполная интерпретация) единиц одного уровня в единицы следующего уровня; результат перевода — несовер- шенная структура; в ней понята та часть пославшего уровня, ко- торая перешла в единицы этой структуры, оставшаяся («непоня- тая») часть эксплицируется и хранится до конца процесса, кото- рый может к ней вернуться в случае неудачи; б) построение целостной текстовой семантической сети и ее сжатие; той же процедуре подвергается любой встречный текст (вопрос/запрос). Процессы сокращения и даже «сброса» текстово- го материала, получившего малый вес, нужны не только для от- деления главного от неглавного в содержании, но и для борьбы с «шумами», которые неизбежны при автоматической обработке (плохое качество исходных текстов, несовершенство аппарата ана- лиза и т.п.); в) сравнение и вычисление разницы между структурами текста и встречного текста; разница — это Содержание понятого, ответ на вопрос или «текст» Информации; г) вербализация содержания ответа; это обратный перевод на ЕЯ с метаязыка СемП/Знаний, т. е. полностью лингвистический процесс. 10 Леонтьева 273
«Содержание понятого» не называем смыслом, оставляя субъек- тивное понятие СМЫСЛ за пределами компетенции Системы АПТ. Как оценку результата работы Системы его можно конкретизиро- вать, например, так: Если воспринимающее устройство может присоединить Информацию, полученную из текста, в свою ин- дивидуальную базу знаний, не создавая при этом дублирования, значит, данный текст имеет смысл для этого ВУ. Моделируемое таким образом понимание намного беднее «че- ловеческого»: оно прямое и бесхитростное, так как имеет дело только с тем знанием, которое задано в системе явно. Модель не может учитывать ситуацию, при которой «все, что пишет автор X, надо понимать наоборот», ей недоступен анализ шуток, ка- ламбуров и т.д., если не задан словарно соответствующий перевод. Изложенное в данном пособии авторское видение архитекту- ры системы, «понимающей» тексты, — это не предложение гото- вых рецептов, а скорее поиски новой парадигмы. Горизонты этой парадигмы очевидны: с одной стороны, точный лингвистический анализ, с другой — неточный информационный, меняющий объем понятого содержания. Между ними — пространство решений, сфе- ра действия понимаемого нами широко семантического компо- нента. Одна из важных тенденций в современных разработках систем АПТ — работа с неполной, неточной, неопределенной информа- цией. Неполнота и неоднозначность присутствуют на всех уровнях анализа текста. Это и неполные словари (а они в принципе не могут быть полными ввиду постоянных изменений в языке); и недостроенные синтаксические структуры (иногда и недостижи- ма полная и «правильная» синтаксическая структура из-за оши- бок в тексте, из-за свободного обращения современных пользова- телей с языковыми нормативами); и «дырявые», с белыми пятна- ми семантические представления. Автор текста часто намеренно не хочет освещать те валентности, заполнять которые его вынуж- дает полное словарное описание валентного слова (не боясь даже прослыть «коммуникативным неудачником»). Но такое «незнание» должно найти эксплицитное выражение в структуре; часто это вопрос, по которому может идти развитие связного текста. Все такие «нарушения» в тексте нужно рассматривать не как досадную помеху для автоматического анализа, а как проявления живого организма, их надо фиксировать в семантической струк- туре и использовать конструктивно. Так, локальная семантиче- ская неполнота заставляет выйти за границы предложений, в связ- ный текст, а информационная неполнота инициирует поиск от- вета в семантической сети, и т.д. Конкретная система не может создаваться по предложенной модели иначе, чем в режиме исследования, объектом которого являются и свойства текстов, подлежащих анализу либо перево-, 274
ду, и сами средства анализа. При удовлетворительном подборе и настройке средств анализа появляется возможность оценивать информационные свойства исходного текста (связность, степень информативности и т.д.), а также регулировать параметры авто- матического понимания и перевода. Функции семантического компонента не кончаются на соб- ственно лингвистической части, они переходят в фазу формиро- вания структур информации. Подытожим те требования к семан- тическому компоненту, которые вытекают из предложенных ме- тодов анализа. 1) Согласование внутреннего и внешнего языков — главная за- дача общесемантического компонента систем АПТ. СемКомп ответствен за выбор адекватных внутренних единиц понимания ЕТ, за полноту и правильность описания текстов в их терминах, а также за их гибкость и универсальность, позволяю- щую установить связи с произвольным внешним языком, будь то запись в базе данных, вопрос или иной встречный текст. 2) СемКомп отвечает за формирование критерия осмысленности единиц на всех уровнях понимания текста. Осмысленными для некоторого данного (k-го) уровня объяв- ляются такие единицы низшего (к-1) уровня, которые могут быть переведены (поняты), или просто включены в структуры данного (k-го) уровня. Невостребованные, не интерпретиро- ванные единицы и значения уровня (к -1) определяют меру «не- понимания». Если локальные семантические интерпретации не приняты уровнем глобального анализа текста, они должны быть заменены другими вариантами. Без таких возвратов трудно смо- делировать процедуру не жесткого, а «мягкого понимания», когда допускаются разные конечные результаты понимания одного и того же текста разными людьми. Допущение не- однозначных путей интерпретации с возвратами и уточнениями имитирует, при некоторых оговорках, человеческий способ по- нимания текста, когда понятое неправильно в одном абзаце корректируется при чтении следующего абзаца или всего текста. В конце работы системы важно, чтобы непонятая часть не пре- вышала допустимый порог. СемКомп в широком смысле отвечает за правильное понима- ние всех единиц при переходе с уровня на уровень и всех «тек- стов», допущенных в систему, а в конечном счете — за построение таких структур, которые могут войти как готовые блоки в пред- ставление знаний, и за доставку нужной информации абоненту (адресату информации). 3) СемКомп должен обеспечивать возможность сжатий, обоб- щений и других операций над содержанием целого текста. Без это- го нельзя строить осмысленные единицы, сравнивать содержание разных текстов, а главное, создавать структуры Информации как 275
заказанного знания. Построение Информации всегда сопряжено с игнорированием или потерей других частей знания. В разных системах АПТ внимание фокусируется на семантиче- ском представлении трех разных объектов: СемП отдельного пред- ложения, СемП фрагмента текста, СемП целого текста. Очевид- но, что полная теория СемКомп требует детальной проработки характера взаимодействия этих трех видов сложных структур. Она должна объяснять, как из множества СемП предложений текста складывается СемП абзацев и далее всего текста. Из этого вытека- ет объяснение того, как строятся те фрагменты структуры текста, которые соотносятся со структурой БД и БЗн системы, как фор- мируются сами эти знания и т.д. 4) СемКомп ответствен за формирование такого информацион- ного языка-посредника, который обеспечивает информационный обмен между всеми компонентами системы общения, а именно: - текстами как источником знаний и информации; - задаваемыми извне знаниями (например, в виде баз данных на тему текста или хотя бы тезауруса); - текущими знаниями системы, которые накапливаются в про- цессе анализа и в ходе общения с пользователем; ’ - словарями и грамматиками как инструментами анализа и понимания всех текстов. Представленная в качестве иллюстрации модель ИЛМ позво- ляет связать в единой интегральной обработке текста лингвисти- ческие и информационные процессы, характерные для систем разных типов. Если развитие систем АПТ пойдет по другому, бо- лее механистическому пути, чем обрисованный автором, в учеб- ных целях все же полезно получить целостную картину трудно- стей процесса автоматизированной работы с текстами, даже от- талкиваясь от предложенных здесь отдельных решений.
ВОПРОСЫ И ЗАДАНИЯ КО ВСЕМ ГЛАВАМ Вопросы и задания к главе 1 1. Что является объектом исследований в компьютерной (вычисли- тельной) лингвистике? 2. Каковы отношения дисциплины ВЛ с ТЛ? Назовите общие черты и различия. 3. Нужна ли отдельная теория, объясняющая АПТ? Какие еще вопро- сы нужно отнести к теории АПТ? 4. В какой ситуации «встречных» текстов может быть несколько, а результат анализа текста положительный? 5. Сравните определения слова в ВЛ и ТЛ. Вопросы и задания к главе 2 1. Какие явления естественного текста желательно (или даже обяза- тельно) исправлять на уровне предредактирования при МП? 2. На каком этапе МП необходимо обращение к терминологическим словарям? Как поступать с неоднозначностью терминов при МП? 3. На каком уровне понимания текста можно остановиться, чтобы перевод был минимально адекватным? 4. Нужен ли системам МП язык-посредник? 5. Какие этапы обработки текста в СМП могут быть реализованы па- раллельно? 6. Перечислите точки соприкосновения СМП и других систем АПТ. 7. Почему системы МП развиваются больше вширь, чем вглубь? Вопросы и задания к главе 3 1. Задайте алгоритм различения знаков переноса, дефиса и тире в конце строки. 2. Какой графематический код можно приписать текстовым единицам типа: i-тый, 1-того, i-тому и т. п. («ЛЕ», «ИЛЕ»)? 3. Предложите способы обработки слов, написанных в разрядку. 4. В каком компоненте лучше задать эквивалентность единиц типа «ЛЕ» и «ЦК» (два, двух..., 2; три, трех..., 3, а также таких сложных единиц, как 2-х, 3-х и т. п.)? 5. Задайте правила обработки слов со смешанным алфавитом (HNDEX, АкаВемия, Web-сайты и т. п.). 6. Предложение в общем случае должно начинаться с заглавной бук- вы и заканчиваться точкой, восклицательным или вопросительным зна- ком. Однако рассмотрим другие возможности: а) Восклицательные и вопросительные знаки могут встречаться в середине предложений вместо запятых. Если после него идет имя соб- ственное, то как отличить его от конца предложения? 277
б) В тексте могут встречаться новые сокращения, которые заканчи- ваются точкой. Если после такой точки идет имя собственное, то как отличить ее от точки — конца предложения? Вопросы и задания к главе 4 1. Почему в одной системе машинного перевода при синтезе постро- ился вариант В редакцию сдано 25 авторских листьев? Как исправить информацию в словаре, чтобы строился правильный вариант (листов)? 2. Как расклеивать при анализе некоторые слова французского языка (du, des, les)? 3. Можно ли назвать морфологическим представлением результаты раз- бора слова КРОВАТЬ? Если нет, то что это? 4. Объясните характер неоднозначности в следующих словоформах: дорогой, берегу, карьеры, потом. 5. В одной системе автоматического индексирования слово переобору- дованный перешло в поисковый образ в виде четырех дескрипторов: перо, обои, руда, ванна. Объясните, какое здесь было применено правило. 6. Предложите алгоритм разбиения сложных слов на составляющие их морфы. 7. Сравните возможные решения проблемы анализа сложных слов в русском и немецком языках. Вопросы и задания к главе 5 1. Какой результат анализа (парсинга) текста вы назвали бы «синтак- сически размеченным» текстом? Является ли он таковым, если для всех или для части предложений текста создано неполное СинП? А если не- сколько СинП? 2. Для русского языка реализация СинАн на персональных компьютерах с использованием формальных моделей не продвинулась далеко. Почему? 3. Какую неоднозначность вы видите: семь опавших листьев и семь авторских листов? Мешает ли она синтаксическому анализу? Надо ли создавать для них два разных СинП? 4. Проведите СинАн фразы из песни: Я оглянулся посмотреть, не огля- нулась ли она, чтоб посмотреть, не оглянулся ли я. Сколько здесь возможно осмыслений? Какая синтаксическая модель даст лучший результат? Вопросы и задания к главе 6 1. Предложите примеры предложений, для которых единицы синтак- сического дерева и семантического графа не находятся в прямом соот- ветствии. 2. Попробуйте найти в литературе и сравнить разные определения синтаксических и семантических актантов. 3. Если вам не нравится принятый в данной главе способ отображения сильных и слабых актантов в структуре Ситуации, предложите свой. 4. Оцените критически заданную структуру полной СИТ. Какие могут быть еще типы структуры СИТ, кроме двух описанных в главе (ядром является узел или отношение)? 278
5. Какие правила нужно задать, чтобы определить антецедент место- имения его во фразе Первый вариант был завернут Путиным по причине его реакционности? Какую еще неоднозначность содержит эта фраза? Вопросы и задания к главе 7 1. Зачем нужно сжимать тексты? 2. Постройте структуру «Семантическое пространство текста» для вы- бранного вами текста, используя Грамматику смысловых отношений, дан- ную в главе 6. Предложите методику подсчета частоты единиц типа СИТ. 3. Предложите правила сжатия для вашей структуры. 4. Какую связь можно провести между коммуникативной структурой отдельных предложений и целого текста? Можно ли, используя закон «функциональной перспективы предложения» (ФПП, термин Праж- ской лингвистической школы), т.е. чередований темы-ремы в последо- вательности предложений, создать правила коммуникативного членения хотя бы абзаца? 5. Какие критерии можете предложить для сравнения семантических представлений двух текстов? Вопросы и задания к главе 8 1. Какие другие системы описания ПО в виде сетей, кроме указанных в списке литературы, известны вам? 2. Возможна ли автоматическая обработка политематичных текстов? Сколько и какие именно словари нужно для этого задать? Чем будут отличаться общий и специальные словари? 3. Предложите другие возможные способы систематизации лексики и терминологии в какой-либо ограниченной ПО. 4. Попробуйте сравнить разные способы описания лексики ограни- ченных ПО. Сформулируйте критерии сравнения. 5. Предложите алгоритм использования сетей Wordnet и EuroWordnet для анализа англоязычных текстов. Вопросы и задания к главе 9 1. Чем принципиально отличаются ИЧИ-системы от ИПС-систем автоматического индексирования и фрагментирования текста? А те и другие — от систем АПТ? 2. Проследите сходства и различия между словарями типа Gazetteer и тезаурусами терминов. Можно ли их объединить в одной словарной сис- теме? 3. Какие тезаурусы (или какую словарную информацию) нужно за- дать, чтобы правильно составить ПОД для приведенного в главе 9 при- мера Данилов, как всегда поутру, гладил электрическим утюгом черную ба- бочку для ямы? 4. Можно ли в составе ИЧИ-систем собирать фреймы событий? Вопросы и задания к главе 10 1. Различаются ли метаязыки описания моделей предметных областей, с одной стороны, и метаязыки семантических структур текста, с другой? 279
2. В чем вы видите различие концептуальной и семантической струк- тур текста? Почему такое разделение понадобилось при реализации ком- муникативной структуры в системе GOSSIP? 3. Чем принципиально различаются модели СМП и СГТ? Какая из них больше нуждается в компоненте «Знания о мире»? 4. Нарисуйте схемы, иллюстрирующие различие в позициях СМП и СГТ относительно места Интерлингвы в процессе понимания. Вопросы и задания к главе 11 1. Составьте фрагменты базы текстовых фактов для выбранного вами текста. 2. Предложите правила генерации другого текста, не совпадающего с исходным, на основе какого-либо фрагмента БТФ. Всегда ли мы полу- чим аннотацию исходного текста? 3. Можно ли перевести эти фрагменты структуры на другой язык, используя только лексические соответствия? 4. Какой текст легче анализировать с точки зрения построения Базы текстовых фактов — монотематический или политематический? Вопросы и задания к главе 12 1. Можете ли вы назвать какие-нибудь типы слов, которые не были охвачены классификацией, предложенной в главе 12? 2. Разбейте семантические отношения на группы по тематическому или иному сходному для всех членов группы признаку. 3. Сформулируйте логические свойства для некоторых выбранных вами семантических отношений. 4. Можно ли организовать семантические характеристики (или хотя бы часть из них) в структуру дерева? Какие СХ вы считаете лишними и каких СХ не хватает в приведенных примерах? 5. Насколько в предложенной вами классификации СХ проводится онтологический принцип? Вопросы и задания к главе 13 1. Какой состав метатекстовой информации вы можете предложить для описания корпуса художественных текстов? А научных? Возможна ли еди- ная анкета для описания внешних параметров разных пластов корпуса? 2. Согласны ли вы с тем, что МП общеязыковых текстов на основе параллельных корпусов невозможен, а при этом перевод технических текстов, где все технические термины однозначны, возможен, как счи- тают некоторые представители КЛ? 3. Техническая задача — можно ли создать параллельный автоматизи- рованный конкорданс? Предложите сценарий. 4. Считаете ли вы необходимым хранить большие размеченные кор- пуса текстов, с учетом того, что для их коррекции требуются серьезные усилия специалистов?
СПИСОК НАИБОЛЕЕ УПОТРЕБИТЕЛЬНЫХ СОКРАЩЕНИЙ АИ АПТ АП АР БД БЗн БТФ ВУ ЕТ ЕЯ — автоматическое индексирование — автоматическое понимание текста — автоматический перевод — автоматическое реферирование — базы данных — базы знаний — база текстовых фактов — воспринимающее устройство — естественный текст — естественный язык ИИ — искусственный интеллект ИЛМ — информационно-лингвистическая модель ИнфП — информационное представление (текста) ИнфПрост — информационное пространство (текста) ИПС — информационно-поисковая система ИЯП — информационный язык-посредник ЛингвЗн — лингвистические знания ЛТ — лингвистический транслятор МП — машинный перевод ОЕЯ — ограниченный естественный язык ПОД — поисковый образ документа ПО — предметная область СГТ — системы генерации текста СемАн — семантический анализ СемО — семантическое отношение СемП — семантическое представление СемПрост — семантическое пространство СемУ, СемУзел — семантический узел СинАн — синтаксический анализ СинО — синтаксическое отношение СинП — синтаксическое представление СинСемП — синтактико-семантическое представление СинУ — синтаксический узел СитП — ситуативное представление СМП — система машинного перевода СпецЗн — специальные (предметные) знания СХ — семантическая характеристика ЯП — язык-посредник ЯПЗ — язык представления знаний
Приложение 1 Семантическое (а) и два соответствующих ему глубинно- синтаксических (б и в) представлений языкового высказывания1 Семантическое представление (СемП) Возможные чтения СемП (1): Ваня твердо обещал Пете принять <что вечером он примет> Машу самым теплым образом. Ваня дал Пете обещание, что вечером он непременно окажет Маше самый сердечный прием. Ваней было твердо обещано Пете, что вечером Машу ждет самый теп- лый прием и т.п. Краткий комментарий к СемП (1) 1) ‘Этот один мужчина по имени Ваня’ (Г1 —В1) = Ваня. 2) ‘Эксплицитно каузировать знать’ (Б1—2, В2) = сообщать, давать знать', элемент ‘эксплицитно’ (Б1) отличает это значение от дать понять = ‘имплицит- но каузировать знать’. 3) ‘Время этой речи t2 больше времени каузации t/ (А2—3, Б2) = ‘каузация предшествует моменту речи’, т.е. ‘каузация’ — в прошедшем времени; ‘время’ — название соответствующей шкалы или координаты (как ‘длина’, ‘скорость’, ‘вес’, ...). 1 См.: Мельчук И.А. Опыт теории лингвистических моделей «Смысл <=> Текст». — М., 1999. 282
4) ‘Однократно’ (Б1 и Г2) - совершенный вид соответствующих глаголов. 5) ‘Знание о приеме раньше приема’ (В2) = принимать — в будущем времени. 6) ‘Заинтересован’ (Г2) = ‘его существенно касается’, а не просто русское заинтересован - ‘желает’. 7) ‘Отрезок суток от 17 до 23 часов’ (В5) = вечер [ср.: в 4 часа дня — в 5, 6, ..., 10, 11 часов вечера — в 12 часов ночи]. 8) ‘Время Х-а включено в вечер’ (В2—5) = X — вечером. 9) ‘...сообщает/сообщил, что вечером примет’ — имеется в виду тот же день, когда сообщает, поэтому ‘время каузации знания’ (Б2) ‘включено’ (А2) в тот же день (А4), что и вечер (В5), о котором идет речь. Глубинно-синтаксические представления (ГСП), со- Ваня твердо обещал Пете, что вечером он примет Машу самым теп- лым <сердечным> образом. Ваня твердо обещал Пете, что вечером Маша найдет у него самый теплый <радушный, сердечный> прием. 283
Приложение 2 Нормализованная английская структура (а) и построенная после всех преобразований русская нормализованная структура (б)1 Исходная английская фраза: It has turned out that the system they are planning to develop should be modelled after and adapted to the European system so that it can meet all the specifications required. a) phras.-junct. о--------O0UT TURNprs , perf., 3-p, sg. predic. <? THAT 1 subord.-conj. predic. SHOULDpSt. analyt. SYSTEMsg, def. 2-compl. coordin. relat. DEVELOPinf predic. PLAN 2рге, progr.,pl. THEY i-compi. WHICH MODEL2jnf, pass, p AFTER 1 prepos. 6 modif. AND coord.-conj. ADAPTS, pass. 2-compl.l evc-гслл ° ФИКТ-ЛЕКС SYSTEMSg , def ( antec. EUROPEAN adverb 6 SO THAT subord.-conj. O-..pre^A ^PLoMEETinf. ItSg CANpjs 1-compl. XsPECIFICATIONp!, def modif/^ ^\rnodif. ALL REQUIREpp 1 См.: Апресян Ю.Д., Богуславский И.М., Иомдин Л. Л. и др. Линг- вистическое обеспечение системы ЭТАП-2. — М., 1989. 284
б) ОКАЗЫВАТЬСЯПрОШ > сов. предик. ЧТО 1 подч.-союзн. СИСТЕМА. присвяз. БЫТЬнаст 1-компл. ДОЛЖЕН релят. ОНИ 1-компл предик. обет. ПЛАНИРО- ВАТЬ, сочин. 9- МОДЕЛИРОВАТЬстрад, 'непрош., несов. 2-компл. Фпо РАЗРАБА- 1-компл\ТЫВАТЬинф предл. квазиагент 9 ОБРАЗЕЦ^ КОТОРЫЙ 9 СИСТЕМА, опред. 'ед. ТАК ЧТОБЫ? О ЕВРОПЕЙСКИЙ подч.-союзн. предик. 1-компл. ЭТОед. МОЧЬиедрощнесов —-<? И инф. соч.-союзн. ПРИСПОСАБЛИ- ВА ЬСТрад, ллф 2-компл. 6 ФИКТ-ЛЕКС УДОВЛЕТВОРЯТЬинф 1-компл. УСЛОВИЕМН опред. опред. ВЕСЬ опред. ТЕХНИЧЕСКИЙ о ТРЕБОВАТЬдрлц ; страд., непрош., несов. 285
Глубинно-семантическое PLUR включать 2, время J 1/ \2 г ' Х h время h начинать спорить У специалист обнаруживать помогать проявление станция разделятьс идент “Викинг-1” ВО ВРЕМЯ сообщать 2 вращаться г/ посадочный ПРОШ блок орбитальный ПРЕДШ блок 1 жизнь БУД посадка НАСТ блок 1 почва посадка 2/ анализировать^ иметь место 21 планета в частности находиться много иметь свойство минерал магнитный PLUR. заклю- уусловие лительн. \ | _ БУД '-------1 1 j идент 2/ часть Гцолжен Г г 2 2! оказываться дополнить У Утопия северный {2 j и хороший результат предыду- щий обзор с околомар- сианскои орбиты обследова- ние назем- ными те- лескопами £ .2. 2. условие посадка 7 Исходный текст «Вести с Марса»: (1) Пока специалисты спорят, удалось ли автоматической станции «Викинг-1» обнаружить проявления жизни на Марсе, к ней подошло «под- крепление» — «Викинг-2». (2) После коррекции орбиты космический аппарат вышел на синхрон- ную орбиту, на которой он должен проходить над одной и той же точкой поверхности Марса ежедневно в одно и то же время. (3) Посадочный блок этой станции может опуститься в северной час- ти Марса, известной под названием Утопия, если обзор с околомарсиан- 286
Приложение 3 представление целого текста1 после *" поверхность ской орбиты и обследование наземным радиотелескопом окажутся благо- приятствующими посадке. (4) Станция «Викинг-1» проводит заключительные анализы марсиан- ской почвы, которые должны дополнить предыдущие результаты. (5) Исследования показывают, в частности, что поверхность Марса богата минералами, обладающими магнитными свойствами. 1 См.: Перцова Н.Н. К построению глубинно-семантического компонента модели понимания текста. — М., 1980. 287
Приложение 4 Уровни репрезентаций и трансфера в системе машинного перевода с семантическим компонентом1 TRANSFER SYNTHESIS ANALYSIS Syntactic Transfer Semantic Representations of SL Sentences Sentence Semantic Transfer Semantic Representations of TL Sentences SL = Source Language TL = Target Language x -> у = x is precondition of у x-> у - x influences у 1 См.: Hutchins W.I. Machine Translation: Past, Present, Future. — New York, 1986. 288
Приложение 5 Организация переводческого процесса с использованием системы МП ARIANE-781 TRANSFER PHASE ANALYSIS PHASE GENERATION PHASE 1 Cm.: Bernard Vauquois et la TAO. Vingt-cing ans de Traduction Automatique: Analectes / Ed. Ch.Boitet. — Grenoble, 1989. 289
290
Приложение 7 Схема обработки текста в системе японско-русского автоматического перевода ЯРАП1 0. Ввод и экранное отображе- ние входного текста в стан- дартной японской графике 1. Морфолого-синтаксический анализ: I 1.1. Разбиение текста на предложения, а пред- ложений на фрагменты 1.2. Сегментация фрагментов на морфы путем словар- ного поиска 1.3. Пофрагментный морфо- логический анализ, обеспечивающий объеди- I нение морф в словоформы 1 1.4. Внутри- и межфрагмент- । ный анализ совместимо- сти словоформ в рамках ? их сближайшего линей- / ного контекста / / / 2. Семантико-синтаксический анализ предложений в тер- \ минах семантико-синтакси- ' ческих зависимостей и коре- \ ферентности (включая коре- ферентность валентностей \ при их косвенной реализации) \ 7. Морфологический синтез и формирование выходного русского текста 6. Морфолого-синтаксический синтез: развертывание фразем, аналитических форм, перефра- зирование по морфологиче- ским основаниям: несовмести- мость граммем, дефектность парадигм и т.п. 5. Лексико-синтаксическим синтез: коррекция русской лексики и структуры по требованиям синтаксического управления 4. Семантико-синтаксический синтез: коррекция типов зави- симостей по семантическим интерпретациям и селекцион- ным ограничениям валентно- стей русских единиц 3. Межъязыковой переход: 3.1. Предпереводческий анализ: выделе- ние позиционных единиц перевода и коррекция первоначальных переводных эквивалентов словоформ и структурных 3.2. Замена японских лексем, граммем, структурных и позиционных отношений их русскими эквивалентами отношений по структурному контексту; при вызове из п. 2.4 совмещается с аварий- ным синтаксическим и сверхфразовым анализом 1 См.: Шаляпина З.М. и др. Экспериментальный комплекс ЯРАП для линг- вистических исследований в области японско-русского автоматического перево- да: первая очередь. — М., 2001. 291
Приложение 8 Схема функционирования комбинаторных словарей в составе системы машинного перевода ЭТАП-21 МС английского предложения СинтС английского предложения Нормализо- ванная СинтС английского предложения Нормализо- ванная СинтС русского предложения СинтС русского предложения МС русского предложения Синтаксический анализ английского предложения Нормализация СинтС английского предложения Преобразование нормали- зованной английской СинтС в нормализованную русскую СинтС Развертывание нормализо- ванной русской СинтС в СинтС русского предложения Синтаксический синтез русского предложения Русский КС Английский КС 1 См.: Апресян Ю.Д., Богуславский И.М., Иомдин Л.Л. и др. Линг- вистическое обеспечение системы ЭТАП-2. — М., 1989. 292
Приложение 9 Структуры информационно-переводческой модели1 ЕТ — вх. яз. ЕТ — вых. яз. III часть. Разные информационные представления исходного ЕТ II часть. Информационное пространство «текстов» Синтез 1 См.: Леонтьева Н.Н. Информационная модель системы автоматического перевода // НТИ. - М„ 1985. - Сер. 2. - № 10. 293
Приложение 10 Схема работы системы ПОЛИТЕКСТ 294
Приложение 11 Структура текстовой ситуации Текст Высказ 1 = В санатории «Крым» в прошлом году обещали открыть ГП новый закрытый бассейн МИ (атрибуты текста) массив дата автор Новая газета 01.04.1999 Н. Иванов _______________СОЛ_______________[ Солист> (из след, выск.) I—Рема » бассейн РЕ ДО--время------р^знаЧ^Чпр011ц5_Р£Ф-^?1 I лок — «-(санаторий)-—«-(Крым) ЛЯ (Открывать)------МИ—М_ода_ _ СИТ2|—до прош.— гр. лок [ля -.ми-Меи. ? реал I ФА I ( Обещать ) Агент 1____Цель_ I Объект — ФА Агент Адресат СрдеГ£г^п МИ-—г—Им»— цМодальн^ новцй j ? 9 МИ — модальности и идентификаторы узла; ДО — дополнительные обстоятельства; РЕ — репрезентируется; ФА — фактические актанты; СОЛ — солист; ЛЯ — лексическое ядро 295
Приложение 12 Основные модули и этапы построения Базы текстовых фактов (БТФ) ЛТ — лингвистический транслятор; СТ — специальный транслятор; ИЧИ — извлечение частной информации 296
Приложение 13 Примеры словарных статей словарной базы РУСЛАН Словарь лексем ЗГЛ = вырабатывать ЗН = 1(2) КАТ = 1 ЭТК.СИТ ГХ = 1 ГЛ:ГГ УПР = В СХ = 1 ДЕЙСТВ,КАУЗ ВАЛ = АГЕНТ, Al,С ОБ,А2,С ГХ1 = 1 пода : И СХ1 = 1 ОДУШ 2УСТР ГХ2 = 1 п_доп : В СХ2 = 1 APT 2 СОБИР 3 ВЕЩВО 4 МАТЕР 5 ЭНЕРГ АНГ = produce, manufacture, make ВЕС = 1 2 (А2) ВАР = производить ЗГЛ = вырабатывать ЗН = 2(2) КАТ = 1 ЭТК. СИТ ГХ = 1 ГЛ:ГГ УПР = В СХ = 1 ДЕЙСТВ,КАУЗ,ИНТЕЛ ВАЛ = СУБ, Al, С СОДЕРЖ,А2,С ГХ1 = 1 пода : И СХ1 = 1 ОДУШ 2 СОБИР ГХ2 = 1 п_доп : В СХ2 = 1 МЕСТМ 2АБСТР 3 Н-ТРЕБ 4 ПАРАМ АНГ = work out, elaborate, graw up ВЕС = 1 2 (A2) BAP = создавать 297
Словарные статьи простого предлога (с) ЗГЛ = С- ЗН = 1(4) ГХ = :предлог; КАТ = ОТН СХ = ВМЕСТЕ; ВАЛ = ВМЕСТЕ,А2,А1 ГХ1 = <ИГ; ГХ2 = »ИГ:Т (*именная группа в творительном падеже) СХ1 = ПРЕДМ или ОДУШ; СХ2 = ПРЕДМ или ОДУШ СинО = однор,а2,а1 ВАР = вместе с; и ИЛЛ = Горбачев (А1) с сопровождающими его лицами (А2) ЗГЛ = с; ЗН = 2(4) ГХ = :предлог; КАТ = ОТН СХ = ОДНОВРЕМ; ВАЛ = ОДНОВРЕМ,А2,А1 ГХ1 = <ИГ; ГХ2 = »ИГ:Т СХ1 = ДЕЙСТ; СХ2 = ДЕЙСТ СинО = уточн,а2,а1 /или: однор,а2,а1/ ВАР = одновременно с, и; когда ИЛЛ = Ремонтные работы (А1) с реставрацией ветхих домов (А2) ЗГЛ = с; ЗН = 3(4) ГХ = .предлог; КАТ = ОТН СХ = ЧАСТЬ; ВАЛ = ЧАСТЬ,А2,А1 ГХ1 = <ИГ; ГХ2 = »ИГ:Т СХ1 = ПРОСТР или ПРЕДМ или УСТР СХ2 = ПРЕДМ, ЧАСТЬ или Д_УСТР (*деталь устройства) ОГРН = БОЛЬШЕ,Ден(А1),Ден(А2) (*денотат Al > А2) СинО = уточн,а2,а1 ВАР = al, имеющий а2 как часть ИЛЛ = Дома (А1) с железными крышамДАЗ.)-, Мальчик (А1) с красным носом (А2) ЗГЛ = с; ЗН = 4(4) ГХ = :предлог; КАТ = ОТН СХ = ПРИНАДЛ; ВАЛ = ПРИНАДЛ,А2,А1 ГХ1 = <ИГ; ГХ2 = »ИГ:Т СХ1 = ЛЮБОЙ,НЕ-ДЕЙСТ; СХ2 = ЛЮБОЙ,НЕ-ДЕЙСТ СинО = уточн,а2,а1 ВАР = а2, принадлежащий al; al имеющий а2 ИЛЛ = Человек (А1) с портфелем (А2); Поле (А1) с зеленым клеве- ром (А2) Словарные статьи словосочетаний ЗГЛ = по мере', ЗН = 1(1) ТИП = ОБОР; КАТ = ОТН; ГХ = СП (*сложный предлог) СХ = МОДЛ,ОДНОВР; (*модальность, одновременность) ВАЛ = ОДНОВР(А2,А1) ГХ1 = Проп; ГХ2 = »Р (*Проп — пропозиция; Р — существительное в родительном падеже) 298
CXI = ПРОЦС; CX2 = ПРЕДИК СинО = обст(с+а2,а1) (*предложная группа — синтаксическое обсто- ятельство al) ВАР = в процессе', в течение; когда АНГ = in proportion to; to the extent of ИЛЛ = По мере (С) продвижения (А2) картина менялась (А1) ЗГЛ = по мере того как; ЗН = 1(1) ТИП = ОБОР; КАТ = ОТН; ГХ = союз_подч СХ = МОДЛ,ОДНОВР ВАЛ = ОДНОВР(А2,А1) ГХ1 = Проп; ГХ2 = »Проп СХ1 = СИТ; СХ2 = СИТ СинО = обст(с+а2,а1) ВАР = в процессе; в течение; пока АНГ = in proportion to; to the extent of ИЛЛ = Он все больше грустнел, no мере того как росли его долги ЗГЛ = а именно (:|,); ЗН = 1(1) ТИП = ОБОР; КАТ = ОТН, ОПЕР; ГХ = сочин. союз СХ = ОГРН; ВАЛ = ОГРН(А2,А1) СХ1 = СИТ; СХ2 = СИТ или МНУ ГХ1 = <Проп; ГХ2 = »Проп или Группа однородных СинО = уточн(а2,а1) ВАР = точнее'. | конкретно АНГ = that is | namely ИЛЛ = Пригласили лишь некоторых участников, а именно: В. Иванова, Н. Попова, К. Веригу ЗГЛ = с помощью; ЗН = 1(1) ТИП = ОБОР; КАТ = ОТН; ГХ = СП СХ = С-ПОМ; ВАЛ = С-ПОМ(А1,А2) СХ1 = ПРЕДИК; СХ2 = ПРЕДМ | ОДУШ ГХ1 = Проп; ГХ2 = »Р СинО = обст(с+а2,а1) АНГ = with the help of | by mean of\ CX2 = НЕ-ОДУШ BAP = при помощи | при содействии
ОГЛАВЛЕНИЕ Предисловие..............................................3 Введение................................................10 Автоматическая обработка или понимание текста?.....10 В центре внимания — лингвистический аспект.........10 О модели............................................П О проекте ПОЛИТЕКСТ................................12 ПОЛИТЕКСТ - это система?...........................12 Место семантики....................................14 Глава 1. Взгляд «сверху» на системы автоматического понимания текста........................................15 § 1. Прикладная и теоретическая лингвистика........... 15 § 2. Что значит «автоматическое понимание текста».......17 § 3. Основные задачи и классы систем АПТ................19 § 4. Типы текстовых структур в системах АПТ.............21 § 5. Состав компонентов стандартных систем АПТ..........27 § 6. Модель «мягкого понимания» текста..................29 § 7. Синтез информационного и лингвистического подходов..30 § 8. Процесс понимания как взаимодействие текстов.......32 Глава 2. Машинный перевод как среда создания систем автоматического понимания текста........................36 § 9. Об истории СМП.....................................36 § 10. Периодизация и классификация СМП...................38 § 11. Лингвистическое обеспечение СМП...................40 § 12. Внешняя и внутренняя оценка СМП...................42 § 13. Нерешенные проблемы автоматического понимания и перевода.....................................43 § 14. Новая парадигма СМП...............................44 § 15. Включение предметной области как задача информационно- переводческой системы....................................45 Глава 3. Компонент первичного анализа текста...............49 § 16. Состав компонента первичного анализа текста.......51 Препроцессор: подготовка массива...................52 Препроцессор: создание внешней дескрипции документа.... 52 Стандарты оформления документов....................55 § 17. Собственно графематический анализ.................56 § 18. Макросинтаксический анализ........................58 § 19. Проблема анализа прерванных высказываний..........60 300
Глава 4. Компонент морфологического анализа.................64 § 20. Подходы к МорфАн...................................65 МорфАн со словарем основ и словарем окончаний.......66 МорфАн только со словарем окончаний................68 МорфАн «по аналогии»................................69 МорфАн со словарем словоформ в системе ПОЛИТЕКСТ .......................................70 § 21. Семантические проблемы в МорфАн....................74 Глава 5. Синтаксический компонент...........................78 § 22. Проблема синтаксической омонимии при анализе.......79 § 23. Модели автоматического СинАн.......................81 § 24. Составляющие синтаксического компонента............83 § 25. О некоторых отечественных реализациях СинАн........83 § 26. Синтаксические процессоры в ИЛМ....................86 Синтаксический компонент системы ФРАП...............87 Синтаксический компонент системы ПОЛИТЕКСТ..........92 Синтаксис в системе ДИАЛИНГ.........................95 § 27. Трудности, связанные с развитием синтаксического компонента...............................................96 Глава 6. Локальный семантический анализ текста.............101 § 28. Три структурных отображения текста: семантическое, информационное, когнитивное.............................102 § 29. Состав семантического компонента..................104 § 30. Метаязык семантических структур...................105 Функции и структура ИЯП............................105 Смысловая грамматика...............................107 §31.0 единицах СемАн...................................109 § 32. Этапы локального СемАн текста.....................112 «Прямая» семантическая интерпретация СинП..........113 Семантическая интерпретация сильных связей.........114 Семантическая интерпретация слабых связей..........119 Проблема неполных актантных структур...............123 Глава 7. Глобальный семантический анализ и сжатие текста...128 § 33. Связность и смысловое сжатие текста...............128 § 34. Информационный синтез значимых для текста единиц...133 § 35. Ситуация и ситуативное представление..............134 § 36. Грамматика текстовых ситуаций.....................139 § 37. Критерии полноценности узлов и связей СемП........141 § 38. О полезных свойствах текста и его структур, на которые опираются механизмы глобального анализа.................141 § 39. Гипертекст как информационное пространство текстов.142 Глава 8. Учет специальных знаний в системах автоматического понимания текста........................................146 § 40. Проблема предметной области........................146 301
§ 41. Способы вовлечения специальных знаний в системы автоматического понимания естественного текста..........148 § 42. Тезаурусы.........................................149 WordNet, EuroWordNet...............................150 Некоторые отечественные тезаурусы..................152 РуТез..............................................153 Синонимические ряды дескрипторов РуТез..........155 Многозначные термины в РуТез....................157 Система отношений между дескрипторами РуТез.....158 § 43. Другие ПО-ориентированные словари и системы.......160 Словарь-тезаурус энциклопедических функций.........160 Описание ситуаций и схем ПО для одной фактографической ИПС.........................;..164 Аппарат семантических признаков в отраслевом словаре.........................................168 Глава 9. Information Extraction и другие информационные модели.174 § 44. Автоматическое индексирование текстов.............175 § 45. Автоматическое реферирование/фрагментирование текстов... 178 § 46. Системы «вопрос-ответ»............................179 § 47. Тематический анализ потока текстов...........“....180 Создание тематического представления текста по тезаурусу....................................181 Разрешение неоднозначности терминов РуТез..........182 Построение аннотации...............................184 § 48. Системы автоматического извлечения знаний из текстов..185 Глава 10. Системы генерации текста.........................193 § 49. Компоненты СГТ....................................194 § 50. Схемы процесса генерации текстов..................196 § 51. Использование риторических структур в СГТ.........198 § 52. Описание системы FoG .............................201 § 53. Сравнение систем МП и ГТ..........................203 § 54. Концептуальные vs. семантические структуры текста в СГТ.............................................204 Глава 11. Концепция Базы текстовых фактов......................208 § 55. Этапы построения и единицы БТФ....................209 § 56. О важности создания БТФ для общественных наук.........213 § 57. Роль и функции спецгранслятора в модели АПТ.......216 § 58. Адаптация системы АПТ к новым ПО..................218 § 59. Об универсальности лингвистического транслятора.......221 § 60. Об информационной относительности в системе АПТ.......223 § 61. Схема построения многоязыковой БТФ................224 Глава 12. Семантические словари: структура и состав информации.... 227 § 62. Словарный комплекс РУСЛАН.........................227 § 63. Типы входов в словарь.............................228 302
§ 64. О метаязыке словарных описаний..................229 § 65. Категоризация лексики...........................229 § 66. Состав информации в семантическом словаре лексем.232 § 67. Подробное описание полей словаря лексем.........233 Зона МОРФ (Морфологические данные)...............233 Зона СИН (Синтаксические сведения)...............235 Зона СЕМ (Семантические описания)................235 Зона ВАЛЕНТ (Семантические валентности)..........240 Зона СИТ (Ситуации)..............................244 Зона ИНФ (Описание слова как единицы информационной структуры текста и тезауруса)...247 Зона ПРАГМ (прагматика) .........................248 Зона ЛЕКС (Лексическая сочетаемость).............249 Зона ЭКВ (Иноязычные эквиваленты). Поля АНТ, ФР, ВОЛГ...........................................251 Зона КОММ (Комментарии составителя)..............251 § 68. Состав информации в словаре отношений...........251 Глава 13. Корпусная лингвистика и другие лингвистические ресурсы для систем АПТ...................................258 § 69. АРМ лингвиста, переводчика, редактора...........258 § 70. Корпусная лингвистика...........................259 § 71. Аннотированный корпус...........................261 § 72. Методы анализа в КЛ.............................263 § 73 Теоретические позиции КЛ.........................265 § 74. КЛ, системы АПТ, лингвистика....................266 § 75. Многоязыковая корпусная лингвистика.............267 Заключение............................................273 Вопросы и задания ко всем главам......................277 Список наиболее употребительных сокращений............281 Приложение 1..................................282 Приложение 2..................................284 Приложение 3..................................287 Приложение 4..................................288 Приложение 5..................................289 Приложение 6..................................290 Приложение 7..................................291 Приложение 8..................................292 Приложение 9..................................293 Приложение 10.................................294 Приложение 11.................................295 Приложение 12.................................296 Приложение 13.................................297
Учебное издание Леонтьева Нина Николаевна Автоматическое понимание текстов Системы, модели, ресурсы Учебное пособие Редактор А. Е. Власова Ответственный редактор Н. П. Галкина Технический редактор Е. Ф. Коржуева Компьютерная верстка: Р. Ю. Волкова Корректоры О.В.Куликова, Е.В.Кудряшова Диапозитивы предоставлены издательством Изд. № A-1262-I. Подписано в печать 11.10.2005. Формат 60 x 90/16. Гарнитура «Таймс». Бумага тип. № 2. Печать офсетная. Усл. печ. л. 19,0. Тираж 3000 экз. Заказ № 15585. Издательский центр «Академия», www.academia-moscow.ru Санитарно-эпидемиологическое заключение № 77.99.02.953.Д.004796.07.04 от 20.07.2004. 117342, Москва, ул. Бутлерова, 17-Б, к. 360. Тел./факс: (095)334-8337, 330-1092. Отпечатано на Саратовском полиграфическом комбинате. 410004, г. Саратов, ул. Чернышевского, 59.